โปรแกรมตัดคำภาษาไทย

หลายคนอาจจะคุ้นเคยกับตัวตัดคำ ( Thai Word Segmentation Tool ) ที่ชื่อ SWATH ที่พัฒนาโดยเนคเทค แต่จริงๆ แล้ว โปรแกรมตัดคำจากค่ายเนคเทคนั้น ยังมีอีกหลายตัว ที่ได้รับความนิยม และถูกนำไปใช้งาน คงหนีไม่พ้น

  • LexTo   เล็กซ์โต ใช้เทคนิคการเลือกคำที่ยาวที่สุด ( Longest Matching ) โดยอ้างอิงจากพจนานุกรม ( Dictionary based ) จาก เล็กซิตรอน ประมาณ 40,000 คำ โดยผู้ใช้สามารถเพิ่มคำเข้าไปเพิ่มเติมเองได้
  • TLexs  ทีเล็กส์ ใช้เทคนิคการเรียนรู้ด้วยเครื่องคอมพิวเตอร์ ( Machine Learning ) โดยอาศัยหลักการของ Conditional Random Field (CRF) ในการเรียนรู้ และใช้คลังข้อมูลของ BEST2009 ขนาด 5 ล้านคำในการฝึกฝนโปรแกรมทีเล็กส์

ทั้งสองตัวเป็นโปรแกรมตัดคำภาษาไทย เลือดเนื้อเชื้อไขโดยตรงจาก สรรสาร ( ระบบสืบค้นในตำนานของเนคเทค )

 

 

 

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *

This site uses Akismet to reduce spam. Learn how your comment data is processed.