โลกใสๆ ของนักวิจัยขี้บ่น

พลังที่ไร้ขีดจำกัด คือพลังแห่งจินตนาการ

แนะนำหนังสือ “คลังข้อมูลอิเล็กทรอนิกส์ภาษาไทย”

Tags: ,

“คลังข้อมูลอิเล็กทรอนิกส์ภาษาไทย นับว่ามีบทบาทและความจำเป็น ต่อการพัฒนาเทคโนโลยีทางด้านการประมวลภาษาธรรมชาติ ซึ่งมีเป้าหมายของการศึกษาวิจัยและพัฒนาระบบคอมพิวเตอร์ ให้สามารถเข้าใจ เรียนรู้และใช้ภาษาธรรมชาติ แบบที่มนุษย์ใช้ในการติดต่อสื่อสารระหว่างกัน ดังนั้น การจะจำลองลักษณะและรูปแบบการใช้ภาษาให้เหมือนแม่แบบมนุษย์ได้นั้น ต้องใช้เทคนิคปัญญาประดิษฐ์ด้านต่างๆ ทั้งการอ้างอิงความรุ้และอ้างอิงสถิติ เพื่อนำแบบจำลองภาษาที่เป็นตัวแทนความรู้ทางภาษาเหล่านั้น มาใช้ฝึกสมองคอมพิวเตอร์จนสามารถทดแทนภาษาเครื่องที่เรียกว่า ภาษาประดิษฐ์ ให้ได้ โดยอุปสรรคที่ท้าท้ายความสามารถของนักวิจัยจำนวนมากในปัจจุบัน คือ การแทนความรู้ทางภาษา ที่มีรายละเอียดเกี่ยวข้องกับเรื่องทางความหมาย กระบวนการรับรู้ทางสมองและจิตใจ พฤติกรรมทางภาษาและปริบทอื่นที่เกี่ยวข้อง เช่น ปริบททางสังคมและวัฒนธรรม เมื่อเทียบกับคลังภาษาที่มีอยู่ในสมองมนุษย์แล้ว คลังข้อมูลอิเล็กทรอนิกส์อาจเป็นเพียงเศษส่วนเล็กๆ บางแง่มุมและไม่มีศักยภาพของการเป็นตัวแทนภาษาในทุกมิติได้ แต่อย่างน้อย ก็เป็นแนวทางนำไปสู่การไขปริศนาที่ยังซ่อนอยู่ ในถ้อยคำสำนวนภาษามนุษย์ต่อไป”

พรพิมล ผลินกูล

Opinion Mining กับภาษาไทยที่ไม่เคยนิ่ง

Tags: ,

แม้งานวิจัยทางด้าน Opinion Mining จะเริ่มมีคนพูดถึงกันได้สักระยะหนึ่งแล้ว แต่พัฒนาการยังดูเหมือนค่อยๆ เป็น ค่อยๆ ไป กว่างานทางด้านอื่นๆ เนื่องจากการจะวิเคราะห์ความคิดเห็นให้ได้สูตรสำเร็จนั้น ถือเป็นงานหินเอาเรื่อง ปราการด่านสำคัญของงานด้านนี้ ก็คือ การวิเคราะห์ภาษานั่นเอง การตีความ หรือกฎเกณฑ์ต่างๆ ที่จะนำมาเป็นมาตรฐานนั้น ยังแปรปรวนเปลี่ยนแปลงอยู่ตลอดเวลา

เริ่มต้นของการวิเคราะห์นั้น ครั้นจะมองกันจนถึงรายละเอียดว่าความคิดเห็นนี้มีลักษณะอย่างไร ต้องมองลึกไปถึงอารมณ์ความรู้สึก ( sentiment analysis ) และเป้าหมายจุดประสงค์ ( intention ) จึงจะตีความได้ถูกต้อง

แต่นั่นก็ไม่ใช่เรื่องที่จะทำกันได้ง่ายๆ

เราจึงเริ่มกันที่สิ่งง่ายๆ ก่อน คือ แบ่งตามขั้ว และแบ่งเพียงสองขั้วพื้นฐานสุดๆ คือ บวก ( positive ) และ ลบ ( negative )

แต่เมื่อ Opinion Mining มาเจอโครงสร้างภาษาไทยที่ไม่เคยนิ่ง หลายครั้งกลายเป็นนักวิจัยเองเป็นฝ่ายที่ต้องนิ่ง เพราะมึนตึ้บกับภาษาของเราเอง จึงเป็นงานที่ท้าท้ายอยู่ไม่น้อยครับ

เมื่อให้มองสิ่งของ สิ่งเดียวกัน ร้อยคนก็ร้อยความคิดเห็น หรือแม้จะมีความคิดเห็นที่เหมือนกัน คล้ายกัน แต่บางทีการแสดงออกทางภาษากลับต่างกันมากมายก็มี หลายคนพูดตรง หลายคนพูดอ้อมค้อม มีแม่น้ำร้อยสาย ก็ชักมาพูดจนหมด

#อะไรคือตัวบอกว่า  ความคิดเห็นนั้น เป็นเชิงบวก หรือเชิงลบ
ก่อนที่จะไปถึงจุดที่เราจะแยกแยะว่าประโยคนั้นเป็นบวกหรือลบนั้น ต้องขอย้อนกลับไปที่จุดประสงค์ของการสื่อสารกันก่อน
จุดประสงค์ของการสื่อสารมีกันมากมายหลายสาเหตุครับ แต่ขอยกเอาแค่หลักๆ เพียง 4 ข้อ คือ
- การบอกเล่า สนทนา
- สอบถาม ร้องขอ
- โฆษณา เชิญชวน
- แสดงความคิดเห็น

ดังนั้นการแยกแยะข้อความในเบื้องต้น จำเป็นต้องรู้จุดประสงค์ของข้อความเหล่านั้นให้ชัดเจนก่อน หาไม่แล้วคงตีความออกมาผิดๆ แน่นอนครับ เพราะภาษาไทยนั้น มองเผินๆ เหมือนไม่มีอะไร แต่นั่นเป็นความคิดก่อนที่เ ราจะลงไปศึกษาระดับโครงสร้างของภาษา และเป็นเพียงความคิดของคนที่ฟังอ่านพูดภาษาไทยได้เท่านั้น  แต่เมื่อเราต้องการใ ห้คอมพิวเตอร์หรือระบบอัตโนมัติทำงานได้เหมือนคน  จะค้นพบสัจธรรมในทันที่ว่า ภาษาไทยนี่แหละ งานระดับหินกันเลยครับ

#ยกตัวอย่างให้เห็นเป็นน้ำจิ้ม
การตีความว่าแต่ละข้อความเป็นความคิดเห็นเชิงบวกหรือลบ สิ่งที่บ่งชี้ในเบื้องต้นก็คือคำที่มีขั้วหรือ polar word (pw)
pw ในภาษาไทยนั้น ไม่ได้มีความหมายตายตัวสำหรับทุกสถานการณ์เสมอไป  และจะแปรเปลี่ยนตามบริบทต่างๆ เช่น “แรง” ลองเปรียบเทียบตามตัวอย่างครับ
- สัญญาณโทรศัพท์แรงจัง
- พนักงานคนนี้แรงจัง
- วันนี้แดดแรง ฉันจะไปเที่ยวเกาะเกร็ด
- วันนี้แดดแรง ฉันจะซักผ้า

เห็นแล้วเป็นยังไงบ้างครับ  สรุปแล้วคำนี้ จะจัดอยู่ในกลุ่มใดดี?

ABDUL Widget

Tags: ,


abdul-logo

ABDUL Widget

Sourcecode

คัดลอกส่วนนี้ วางไว้ในที่ที่ต้องการ

ทดสอบ

เทคโนโลยีวิเคราะห์ความคิดเห็น Opinion Mining

Tags:

หลายคนอาจจะคุ้นเคยกับคำว่า Data Mining กันอยู่บ้าง ซึ่งเป็นสาขาวิชาที่ศึกษา วิเคราะห์ ขุดค้นหาองค์ความรู้บางอย่างจากข้อมูลที่มีอยู่ แต่ถ้าพูดถึง Opinion Mining หรือ ระบบเหมืองข้อความแสดงความคิดเห็น แต่ส่วนตัวแล้วผมชอบเรียก ระบบวิเคราะห์ความคิดเห็น มีคนไม่น้อยที่ทำหน้างงๆ ว่ามันคืออะไร ?

เดี๋ยวผมจะหาโอกาส มาคุยเรื่องนี้ให้ฟังครับ

ว่างๆ ลองเข้าไปเล่นระบบที่ทีมผมวิจัยและพัฒนากันดูครับ

 

 

 

การปักหมุดใน Google Map API ด้วย PdMarker

Tags: , ,

ที่มา Google Map PdMarker

<!DOCTYPE html
   PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
   "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
  <head>
    <title>Google Maps JavaScript API Example - simple</title>
    <style type="text/css">
       div.markerTooltip, div.markerDetail {
          color: black;
          font-weight: bold;
          background-color: white;
          white-space: nowrap;
          margin: 0;
          padding: 2px 4px;
          border: 1px solid black;
       }
    </style>
<script src="http://maps.google.com/maps?file=api&v=2.x&key=abcdefg"
           type="text/javascript"></script>
<script type="text/javascript" src="pdmarker.js"></script>

<script type="text/javascript">
//<![CDATA[
window.onload = onPageLoad;
var map;

function onPageLoad() {
    if (GBrowserIsCompatible()) {
	map = new GMap2(document.getElementById("map"));
	map.setCenter(new GLatLng(49.28124, -123.12035), 17-5);
	map.addControl(new GLargeMapControl());
	map.addControl(new GMapTypeControl());
	marker = new PdMarker(new GLatLng(49.28124,-123.12035));
	marker.setTooltip("Vancouver");
	var html = "Visit <a href='http://www.mysite.com'>mysite<\/a>";
	marker.setDetailWinHTML(html);
	marker.setHoverImage("http://www.google.com/mapfiles/dd-start.png");
	map.addOverlay(marker);

    }
}
//]]>
</script>

  </head>

  <body>
    <div id="map" style="width: 400px; height: 400px"></div>
    <div id="pdmarkerwork"></div>
  </body>

</html>

ABDUL

Tags: ,

ADBUL หรือ อับดุล คือระบบสนทนาออนไลน์ที่โต้ตอบกับผู้ใช้แบบอัตโนมัติผ่าน โปรแกรม Windows Live Messenger (MSN)

อับดุล เป็นการประยุกต์ใช้เทคโนโลยีหลักที่เกี่ยวข้อง กับ ปัญญาประดิษฐ์ ระบบถามตอบ และเทคโนโลยีเครือข่ายสังคม โดยนำบริการสืบค้นข้อมูลบนเว็บไซต์ และบริการสืบค้นข่าว มาใช้ประยุกต์ใช้ ทำให้ได้ซอฟต์แวร์ ที่สามารถสนทนาครอบคลุมทั้งการให้บริการทางภาษา ไมว่าจะเป็นการแปลศัพท์ แปลประโยค การสืบค้นข้อมูล การสืบค้นข่าว

อับดุล ให้บริการข้อมูลพื้นฐานทั่วไป  จากแหล่งข้อมูลและข่าวสารที่เผยแพร่ทางอินเทอร์เน็ตและแหล่งช้อมูลอืนๆ ที่เชื่อได้ เช่น วรรณกรรม  บทความ เอกสารทางวิชาการ ข้อมูลข่าวสารจากหนังสือพิมพ์ ทำให้อับดุล สามารถรายงานสภาพอากาศ สภาพจราจร ราคาน้ำมัน ราคาทอง อัตราแลกเปลี่ยน หุ้น  นอกจากนี้ อับดุลยังสามารถสนทนาโต้ตอบกับผู้ใช้ทั่วไป ด้วยภาษาธรรมชาติ ด้วยประโยค หรือข้อความ ที่มีใช้จริงและซึ่งมีปรากฎในบริบทต่างๆ ของการใช้ภาษา

 

#คลิปเกี่ยวกับอับดุล

#เอกสารเพิ่มเติม

 

website: http://www.abdul.in.th , http://www.conan.in.th/abdulagent , http://www.hlt.nectec.or.th/

ABDUL

TAGS: None

การผูก iPhone Appication กับ Facebook

Tags: , ,

การเชื่อมต่อ application บน iphone เข้ากับ facebook account นั้น จริงๆ ไม่ยากครับ แทบไม่มีอะไรสลับซับซ้อนเลย เดิมทีผมคิดจะเขียนเรื่องนี้เอง แต่ดูแล้วมีคนทำ Tutorial ไว้ดีและเข้าใจง่าย ทำตามกันได้เลยครับ

iPhone FBConnect Tutorial

 

ฤดูเก็บเกี่ยวภาษี

Tags:

อย่าลืมยื่นเรื่องเสียภาษีกันเสียแต่เนิ่นๆ นะครับ

App Store ของ Apple อ่านภาษาไทยได้ด้วยหรือเปล่านะ

Tags:

แอบสงสัยนิดหน่อยนะครับ เหตุเพราะผมเขียนแอพขึ้นไปบน App Store โดยเมนูทั้งหมดเป็นภาษาไทย ปรากฏมีเจ้าหน้าที่ที่เข้ามารีวิวส่งคอมเมนต์กลับมาเป็นภาษาอังกฤษ แต่บอกได้ด้วยว่าเมนูนั้นคืออะไร ทั้งที่ไม่ได้เขียนเป็นภาษาอังกฤษเลย …

เลยแอบสงสัยนิดหน่อยครับ

© 2009 โลกใสๆ ของนักวิจัยขี้บ่น. All Rights Reserved.

This blog is powered by Wordpress and Magatheme by Bryan Helmig.