ภาษาธรรมชาติ(จบ)
เมื่อตอนที่แล้ว ผมเล่าถึงการวิเคราะห์ข้อความที่เป็น ภาษาธรรมชาติ เพื่อให้คอมพิวเตอร์เข้าใจในสิ่งที่เราสื่อสารกันนั้น มีอยู่ขั้นตอนหนึ่ง ที่ยากลำบากแต่ก็เป็นขั้นตอนที่สำคัญโดยเฉพาะการวิเคราะห์ภาษาไทยนั่นก็คือ การตัดคำ
คราวนี้ลองอ่านประโยคนี้ครับ “สมภพพบนกกรกนกบนกรงนกตรงถนนสวน นนทกร” จะเห็นได้ว่า เราอ่านได้ช้าลงและบางคนอาจไม่แน่ใจว่ามีคำอะไรบ้าง นั่นเพราะว่าในสารบบของประสบการณ์บางคน อาจจะไม่มีคำว่า นกกรกนก (นก-กอน-กะ-หนก) เลยทำให้ไม่สามารถจำแนกแยกคำออกมาได้ทันที ในขณะที่คนที่รู้จักคำนี้ จะอ่านประโยคเดียวกันได้เร็วกว่า
ปัจจุบันก็ยังไม่มีโปรแกรมหรือเครื่องมือใดที่จะสามารถตัดคำภาษาไทยได้ถูกต้อง 100% ขึ้นอยู่กับระดับความยากง่ายของโครงสร้างภาษา เช่น ภาษาที่เป็นทางการก็จะสามารถตัดได้อย่างถูกต้องเกือบๆ 100% เนื่องจากมีคำที่คอมพิวเตอร์รู้จักแล้วเป็นส่วนใหญ่ แต่ภาษาแชต หรือในสังคมออนไลน์ รวมไปถึงคำทับศัพท์จากภาษาต่างประเทศ ความถูกต้องก็จะลดต่ำลง เนื่องจากลักษณะของคำ โครงสร้างภาษา เปลี่ยนแปลงอยู่ตลอดเวลา
นอกจากนี้ ก็ยังมีคำอีกไม่น้อยที่มีหน้าตาเหมือนกัน แต่ความหมายต่างกัน เมื่อแบ่งเป็นพยางค์ย่อยต่างกัน ก็ได้ความหมายที่ต่างกันด้วย เช่น ตากลม ที่อ่านได้เป็น ตา-กลม และ ตาก-ลม ทำให้การพิจารณาบริบท หรือสภาพแวดล้อมที่คำหรือประโยคเหล่านี้อยู่ร่วมด้วย มีความสำคัญอย่างยิ่ง เพื่อนำไปสู่การวิเคราะห์ความหมายได้อย่างถูกต้องที่สุด
อย่างไรก็ตาม การนำไปใช้นั้น คงต้องระมัดระวังกันให้ดี เนื่องจากคำเหล่านี้เมื่ออยู่ต่างบริบท ก็อาจมีความหมายที่ต่างกัน และนี่ก็ถือเป็นปัญหาของการใช้ภาษาในปัจจุบัน กล่าวคือ เราใช้ภาษาแชต ภาษาอินเทอร์เน็ตกันจนเคยชิน จนทุกวันนี้เราแทบจะแยกไม่ออกระหว่างภาษาพูด-ภาษาเขียน เพราะเราใช้แต่ภาษาแชตกันตลอดเวลา
ทั้งหมดนี้ เป็นแค่เพียงบางส่วนของกระบวนการที่จะทำให้คอมพิวเตอร์เข้าใจภาษาที่มนุษย์ใช้สื่อสารกัน เพื่อว่าสักวันคอมพิวเตอร์จะได้สื่อสารกับมนุษย์ได้อย่างเป็นธรรมชาติมากที่สุด