Opinion Mining กับภาษาไทยที่ไม่เคยนิ่ง
แม้งานวิจัยทางด้าน Opinion Mining จะเริ่มมีคนพูดถึงกันได้สักระยะหนึ่งแล้ว แต่พัฒนาการยังดูเหมือนค่อยๆ เป็น ค่อยๆ ไป กว่างานทางด้านอื่นๆ เนื่องจากการจะวิเคราะห์ความคิดเห็นให้ได้สูตรสำเร็จนั้น ถือเป็นงานหินเอาเรื่อง ปราการด่านสำคัญของงานด้านนี้ ก็คือ การวิเคราะห์ภาษานั่นเอง การตีความ หรือกฎเกณฑ์ต่างๆ ที่จะนำมาเป็นมาตรฐานนั้น ยังแปรปรวนเปลี่ยนแปลงอยู่ตลอดเวลา
เริ่มต้นของการวิเคราะห์นั้น ครั้นจะมองกันจนถึงรายละเอียดว่าความคิดเห็นนี้มีลักษณะอย่างไร ต้องมองลึกไปถึงอารมณ์ความรู้สึก ( sentiment analysis ) และเป้าหมายจุดประสงค์ ( intention ) จึงจะตีความได้ถูกต้อง
แต่นั่นก็ไม่ใช่เรื่องที่จะทำกันได้ง่ายๆ
เราจึงเริ่มกันที่สิ่งง่ายๆ ก่อน คือ แบ่งตามขั้ว และแบ่งเพียงสองขั้วพื้นฐานสุดๆ คือ บวก ( positive ) และ ลบ ( negative )
แต่เมื่อ Opinion Mining มาเจอโครงสร้างภาษาไทยที่ไม่เคยนิ่ง หลายครั้งกลายเป็นนักวิจัยเองเป็นฝ่ายที่ต้องนิ่ง เพราะมึนตึ้บกับภาษาของเราเอง จึงเป็นงานที่ท้าท้ายอยู่ไม่น้อยครับ
เมื่อให้มองสิ่งของ สิ่งเดียวกัน ร้อยคนก็ร้อยความคิดเห็น หรือแม้จะมีความคิดเห็นที่เหมือนกัน คล้ายกัน แต่บางทีการแสดงออกทางภาษากลับต่างกันมากมายก็มี หลายคนพูดตรง หลายคนพูดอ้อมค้อม มีแม่น้ำร้อยสาย ก็ชักมาพูดจนหมด
#อะไรคือตัวบอกว่า ความคิดเห็นนั้น เป็นเชิงบวก หรือเชิงลบ
ก่อนที่จะไปถึงจุดที่เราจะแยกแยะว่าประโยคนั้นเป็นบวกหรือลบนั้น ต้องขอย้อนกลับไปที่จุดประสงค์ของการสื่อสารกันก่อน
จุดประสงค์ของการสื่อสารมีกันมากมายหลายสาเหตุครับ แต่ขอยกเอาแค่หลักๆ เพียง 4 ข้อ คือ
– การบอกเล่า สนทนา
– สอบถาม ร้องขอ
– โฆษณา เชิญชวน
– แสดงความคิดเห็น
ดังนั้นการแยกแยะข้อความในเบื้องต้น จำเป็นต้องรู้จุดประสงค์ของข้อความเหล่านั้นให้ชัดเจนก่อน หาไม่แล้วคงตีความออกมาผิดๆ แน่นอนครับ เพราะภาษาไทยนั้น มองเผินๆ เหมือนไม่มีอะไร แต่นั่นเป็นความคิดก่อนที่เ ราจะลงไปศึกษาระดับโครงสร้างของภาษา และเป็นเพียงความคิดของคนที่ฟังอ่านพูดภาษาไทยได้เท่านั้น แต่เมื่อเราต้องการใ ห้คอมพิวเตอร์หรือระบบอัตโนมัติทำงานได้เหมือนคน จะค้นพบสัจธรรมในทันที่ว่า ภาษาไทยนี่แหละ งานระดับหินกันเลยครับ
#ยกตัวอย่างให้เห็นเป็นน้ำจิ้ม
การตีความว่าแต่ละข้อความเป็นความคิดเห็นเชิงบวกหรือลบ สิ่งที่บ่งชี้ในเบื้องต้นก็คือคำที่มีขั้วหรือ polar word (pw)
pw ในภาษาไทยนั้น ไม่ได้มีความหมายตายตัวสำหรับทุกสถานการณ์เสมอไป และจะแปรเปลี่ยนตามบริบทต่างๆ เช่น “แรง” ลองเปรียบเทียบตามตัวอย่างครับ
– สัญญาณโทรศัพท์แรงจัง
– พนักงานคนนี้แรงจัง
– วันนี้แดดแรง ฉันจะไปเที่ยวเกาะเกร็ด
– วันนี้แดดแรง ฉันจะซักผ้า
เห็นแล้วเป็นยังไงบ้างครับ สรุปแล้วคำนี้ จะจัดอยู่ในกลุ่มใดดี?