Search Engine เทคโนโลยีการสืบค้น

เทคโนโลยีสืบค้นสารสนเทศ หรือ Search Technology เป็นการวิจัยและพัฒนาที่ได้รวมเอาเทคนิคหลากหลายด้านมาประกอบกัน เพื่อให้การสืบค้นมีประสิทธิภาพและตอบสนองต่อความต้องการของผู้ใช้มากที่สุด โดยเทคโนโลยีที่พัฒนาขึ้นสามารถรองรับการสืบค้นเอกสารทั่วไปแบบเต็มเนื้อหา (Full-Text Search) การสืบค้นเชิงความหมายโดยผ่านการสร้างองค์ความรู้แบบออนโทโลยี (Ontology) ซึ่งเป็นการจัดระบบความสัมพันธ์ของหน่วยภาษา การสืบค้นในรูปแบบภาษาธรรมชาติโดยใช้ AIML (Artificial Intelligence Markup Language) การสืบค้นแบบพ้องเสียง (Soundex) การสืบค้นแบบพ้องความหมาย (Synonym Search) นอกจากนี้ยังนำเอาเทคโนโลยีเว็บ 2.0 มาประยุกต์ใช้ คือ การกำกับข้อมูลเชิงสังคม (Social Tagging)

2-11-2553_16-40-45

รูปที่ 1 โครงสร้างทางสถาปัตยกรรมของเทคโนโลยีสืบค้นสารสนเทศ
ทั้งนี้ ในระดับโครงสร้างทางสถาปัตยกรรมของเทคโนโลยีสืบค้นสารสนเทศ การวิจัยและพัฒนาได้แบ่งเป็น 4 ส่วนหลัก ประกอบด้วย การเก็บรวบรวมสารสนเทศ (Information Gathering) การประมวลผลภาษาและการวิเคราะห์เชิงความหมาย (Language Processing & Semantic Analysis) การเข้าถึงสารสนเทศ (Information Access) และการสร้างทรัพยากรทางภาษา (Language Resource Construction)

การเก็บรวบรวมสารสนเทศ
การเก็บรวบรวบสารสนเทศจะเริ่มจากการเก็บข้อมูล (Data Collecting) ที่อยู่ในหลากหลายแหล่ง ไม่ว่าจะเป็นข้อมูลที่อยู่บนอินเทอร์เน็ตหรือบนระบบฐานข้อมูล รวมทั้งสารสนเทศในรูปแบบต่างๆ เช่น หน้าเว็บ ไฟล์เอกสาร และฐานข้อมูล รวมทั้งการสกัดข้อความจากเอกสาร (Document Parsing) ในรูปแบบต่างๆ เช่น HTML PDF หรือ Open Office เป็นต้น

การประมวลผลภาษาและการวิเคราะห์เชิงความหมาย
เมื่อได้ข้อมูลจากขั้นตอนการเก็บรวบรวมสารสนเทศแล้ว ข้อมูลต่างๆ จะนำเข้าสู่การประมวลผลทางภาษาและวิเคราะห์เชิงความหมาย โดยเริ่มจาก
•    การตัดคำจากข้อความ (Tokenization) โดยทีมวิจัยได้นำโปรแกรมตัดคำเล็กซ์โต (LexTo) ที่พัฒนาขึ้นภายใน รองรับข้อความทั้งที่เป็นภาษาไทยและภาษาอังกฤษ มีความถูกต้องในการตัดคำมากกว่า 90 เปอร์เซ็นต์ และมีความเร็วเฉลี่ยในการตัดคำประมาณ 6 วินาทีต่อ 1 ล้านคำ มาใช้ตัดแบ่งข้อความออกเป็นคำเพื่อนำไปสร้างดัชนีหรือประมวลผลต่อไป

•    การสืบค้นแบบพ้องเสียงและการแก้ไขคำค้นคืนที่สะกดผิด (Soundex and Word Approximation) เป็นการช่วยเหลือผู้ใช้ในการสะกดคำหรือในกรณีที่พิมพ์ผิด เช่น ผู้ใช้สามารถพิมพ์ “พาติเคิ่นบอด” เพื่อให้ระบบแนะนำคำที่ออกเสียงเหมือนคือ “พาร์ติเคิลบอร์ด – particle board” หรือ “เสื่อจันทะบูน” ระบบจะสามารถหาคำที่สะกดได้ถูกต้องคือ “เสื่อจันทะบูร” หรือในกรณีที่สะกดผิด เช่น “กรดาษสา” ระบบสามารถหาคำที่สะกดได้ถูกต้องคือ “กระดาษสา”

•    การวิเคราะห์รูปแบบข้อความ (Pattern Analysis) เป็นการรองรับการสืบค้นในรูปแบบภาษาธรรมชาติ โดยมีการเปรียบเทียบรูปแบบข้อความการร้องขอข้อมูลจากผู้ใช้ เช่น “ช่วยหาเบอร์โทรของคุณสมชายได้ไหมครับ” ระบบจะสามารถวิเคราะห์ได้ว่า ผู้ใช้ต้องการสืบค้นเบอร์โทรศัพท์ของบุคคลชื่อสมชาย

•    การอนุมานเชิงความหมาย (Semantic Inference) เป็นการรองรับการสืบค้นในรูปแบบเชิงความหมาย โดยการใช้ออนโทโลยีที่สร้างขึ้นมา เช่น ในกรณีที่เป็นข้อมูลเฉพาะของบุคคล ผู้ใช้สามารถถามว่า “เรียนจบโทจากประเทศไหน” ระบบจะทำการค้นหาในออนโทโลยีเกี่ยวกับสถานศึกษาระดับปริญญาโทของบุคคลที่ถาม และเมื่อได้ชื่อสถานศึกษาแล้ว ระบบจะทำการค้นคืนต่อว่าอยู่ในประเทศใด จากนั้นจึงส่งคำตอบเป็นชื่อประเทศให้กับผู้ใช้

การเข้าถึงสารสนเทศ
การวิจัยและพัฒนาในส่วนนี้ จะครอบคลุม
•    การสร้างฐานดัชนีและการค้นคืน (Indexing & Retrieval) เพื่อรองรับการค้นคืนแบบเต็มเนื้อหา (Full-Text Search) โดยข้อความในเอกสารทุกส่วนที่ผ่านการตัดคำแล้วจะนำมาสร้างเป็นฐานดัชนี เพื่อให้การสืบค้นทำได้อย่างรวดเร็ว ในด้านประสิทธิภาพของการทำงานนั้น เทคโนโลยีที่พัฒนาขึ้นจะมีความเร็วในการสร้างดัชนีประมาณ 1 นาทีต่อข้อความขนาด 100 MB ส่วนการค้นคืนใช้เวลาน้อยกว่า 1 วินาทีต่อการสืบค้น 1 ครั้ง

•    การประมวลคิวรี (Query Processing) เป็นการประมวลผลข้อความที่ผู้ใช้พิมพ์เข้ามา เช่น ถ้าเป็นข้อความร้องขอ ระบบจะส่งไปวิเคราะห์รูปแบบข้อความร้องขอ ถ้าเป็นวลี ระบบจะทำการตัดคำและนำไปค้นคืนจากฐานดัชนี

การสร้างทรัพยากรทางภาษา
การสร้างทรัพยากรภาษา เป็นส่วนสำคัญที่ทำให้ระบบการสืบค้นสารสนเทศมีความสมบูรณ์และมีประสิทธิภาพ พัฒนาแบ่งเป็น
•    การสร้างรูปแบบ AIML (AIML Pattern Construction) เพื่อรองรับการสืบค้นในรูปแบบภาษาธรรมชาติ รวมทั้งใช้สนทนาโต้ตอบระหว่างระบบเอเจนท์กับผู้ใช้ เช่น เมื่อผู้ใช้ทักทายว่า “สวัสดีครับ คุณชื่ออะไรครับ” ระบบจะค้นหารูปแบบข้อความที่ตรงกัน จากนั้นคืนข้อความกับไปที่ผู้ใช้ว่า “ผมชื่ออับดุลครับ”

•    การกำกับข้อมูลเชิงสังคม (Social Tagging) เป็นการให้ผู้ใช้ระบบมีส่วนร่วมในการระบุคำสำคัญให้กับสารสนเทศ ไม่ว่าจะเป็นข้อมูล FAQ หรือรูปภาพ ทำให้การสืบค้นมีความครอบคลุมและตรงใจกับผู้ใช้มากยิ่งขึ้น

•    การสร้างคำพ้องความหมาย (Synonym Construction) เป็นการระบุคำที่พ้องความหมายให้กับคำสำคัญที่ใช้สืบค้น เหมาะกับข้อมูลที่เป็นโดเมนเฉพาะด้าน เช่น ในกรณีที่เป็นข้อมูลการออกแบบ สำหรับคำว่า “อาคารพาณิชย์” สามารถเพิ่มคำพ้องความหมายเป็นคำว่า “ตึกแถว” วิธีนี้จะช่วยให้การสืบค้นมีความครอบคลุมสูงขึ้น

บนพื้นฐานของการวิจัยและพัฒนา ทีมวิจัยได้นำเทคโนโลยีการสืบค้นสารสนเทศมาประยุกต์ใช้เพื่อพัฒนาเป็นระบบต้นแบบสำหรับการให้บริการสืบค้นข้อมูล อาทิ ระบบสรรสาร (Sansarn) และระบบผู้ช่วยออนไลน์อับดุล (ABDUL – Artificial BuDdy U Love) ซึ่งเป็นระบบถามตอบอัตโนมัติผ่านโปรแกรม Windows Live Messenger (MSN)

สรรสาร เป็นระบบการสืบค้นข้อมูล (Search Engine) ที่รองรับการสืบค้นข้อมูลต่างๆ ได้แก่ หน้าเว็บ ไฟล์เอกสารทั่วไป และฐานข้อมูล ระบบที่พัฒนาขึ้น ประกอบด้วย สรรสาร ลุค (Sansarn Look!) สำหรับการสืบค้นข้อมูลบนเว็บ สรรสาร ดีบี (Sansarn DB) สำหรับการสืบค้นจากฐานข้อมูล สรรสาร ออฟไลน์ (Sansarn Offline) สำหรับสืบค้นข้อมูลบนอินเตอร์เน็ตแบบไม่เชื่อมต่อ โดยข้อมูลทั้งหมดรวมทั้งฐานดัชนีสามารถนำไปบันทึกบนสื่อดิจิทัลต่างๆได้ เช่น แผ่นซีดี/ดีวีดีรอม หรือ Thumb Drive รวมทั้งระบบสรรสาร ซิมส์ (Sansarn IMage Search) สำหรับสืบค้นรูปภาพ โดยสามารถสืบค้นจากป้ายกำกับรูปภาพและสี ซึ่งผู้ใช้สามารถระบุปริมาณสีและโทนสีที่ต้องการสืบค้นได้

ในส่วนอับดุล เป็นการนำเทคโนโลยีสืบค้นสารสนเทศมาเป็นพื้นฐานในการพัฒนาเอเจนต์ (Information Agent) ที่รวมเอาบริการข้อมูลหลากหลายมานำเสนอให้กับผู้ใช้ในที่เดียว โดยผู้ใช้สามารถสอบถามในเรื่องต่างๆ ได้ อาทิ ราคาน้ำมัน แปลคำจากพจนานุกรม หรือสืบค้นข่าว นอกจากนี้ ระบบอับดุลยังสามารถสนทนาโต้ตอบกับผู้ใช้ด้วยภาษาธรรมชาติ

 

2-11-2553_16-41-06

รูปที่ 2 ตัวอย่างการใช้งานอับดุลสำหรับสอบถามข้อมูลในองค์กร
ทีมวิจัย เชื่อว่าเทคโนโลยีสืบค้นสารสนเทศจะเป็นพื้นฐานในการนำไปประยุกต์ใช้พัฒนาเป็นระบบสืบค้นฐานข้อมูลในองค์กร หรือระบบสอบถามข้อมูลออนไลน์ (Online Help Desk System) เพื่อช่วยแบ่งเบาภาระเจ้าหน้าที่ให้บริการข้อมูลในศูนย์ Call Center รวมทั้งยังเป็นเครื่องมือสำคัญที่ช่วยสนับสนุนการพัฒนาโครงสร้างพื้นฐานข้อมูลดิจิทัลในโครงการ Digitized Thailand อีกด้วย

Reference:
1.    Choochart Haruechaiyasak and Chaianun Damrongrat, “Improving Social Tag-Based Image Retrieval with CBIR Technique”, The International Conference on Asian Digital Libraries (ICADL 2010), 2010.
2.    Choochart Haruechaiyasak and Chaianun Damrongrat, “Article Recommendation Based on a Topic Model for Wikipedia Selection for Schools”, The Eleventh International Conference on Asian Digital Libraries (ICADL 2008), 2008.
3.    Choochart Haruechaiyasak et al., “Implementing News Article Category Browsing Based on Text Categorization Technique”, The 2008 IEEE/WIC/ACM International Conference on Web Intelligence (WI-08) workshop on Intelligent Web Interaction (IWI 2008), December 2008.
4.    Choochart Haruechaiyasak, Sarawoot Kongyoung and Chaianun Damrongrat, “LearnLexTo: A Machine-Learning Based Word Segmentation for Indexing Thai Texts”, CIKM 20008 workshop on Improving Non-English Web Search (iNews), 2008.
5.    Choochart Haruechaiyasak, et. al., “A Comparative Study on Thai Word Segmentation Approaches”, ECTI-CON 2008, pp. 125-128, 2008.
6.    Niran Angkawattanawit, Choochart Haruechaiyasak, and Sanparith Marukatat, “Thai Q-Cor: Integrating Word Approximation and Soundex for Thai Query Correction”, ECTI-CON 2008, Krabi, Thailand, pp. 121-124, 2008.
7.    Choochart Haruechaiyasak, et al., “Managing Offline Educational Web Contents with Search Engine Tools”, The The Tenth International Conference on Asian Digital Libraries (ICADL 2007), Hanoi, Vietnam, pp. 444-453, 2007.

src: http://www.digitized-thailand.org

 

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *

This site uses Akismet to reduce spam. Learn how your comment data is processed.