Deep Learning

คุณรักพงษ์ กิตตินราดร และคุณกรกฎ เชาวะวณิช Data Scientist จาก True Corporation เปิดซอร์สโครงการ deepcut ระบบตัดคำแบบ deep learning โดยพัฒนาด้วย Keras

ข้อมูลที่ใช้เทรนเป็นชุดข้อมูล BEST ของ NECTEC โดยแบ่งข้อมูลสำหรับฝึก 90% และข้อมูลสำหรับทดสอบอีก 10% โมเดลพยายามระบุว่าแต่ละตัวอักษรเป็นจุดเริ่มต้นของคำหรือไม่ (ตามโค้ดคือค่ามากกว่า 0.5) โดยเมื่อทดสอบกับข้อมูลทดสอบได้ความแม่นยำ f1 score 98.8%, precision score 98.6%, และ recall score 99.1%

ผมทดสอบดูเทียบกับ libthai ที่ใช้งานกันในลินุกซ์ในภาพท้ายข่าว โดยใช้ประโยคตัวอย่าง "คุณบ็อตบอกว่าวันนี้พิมพ์ไม่ผิดแต่ตัดแบบนี้จะดีเหรอ คณะกรรมการการเลือกตั้งกรมวิทยาศาสตร์การแพทย์ เขานอนตากลมตากลมไปมา"

ที่มา - GitHub:rkcosmos/deepcut, Thailand Deep Learning

ผลจาก deepcut

upic.me

ผลจาก libthai

upic.me

Hiring! บริษัทที่น่าสนใจ

Carmen Software company cover
Carmen Software
Hotel Financial Solutions
Next Innovation (Thailand) Co., Ltd. company cover
Next Innovation (Thailand) Co., Ltd.
We are web design with consulting & engineering services driven the future stronger and flexibility.
KKP Dime company cover
KKP Dime
KKP Dime บริษัทในเครือเกียรตินาคินภัทร
Kiatnakin Phatra Financial Group company cover
Kiatnakin Phatra Financial Group
Financial Service
Fastwork Technologies company cover
Fastwork Technologies
Fastwork.co เว็บไซต์ที่รวบรวม ฟรีแลนซ์ มืออาชีพจากหลากหลายสายงานไว้ในที่เดียวกัน
Thoughtworks Thailand company cover
Thoughtworks Thailand
Thoughtworks เป็นบริษัทที่ปรึกษาด้านเทคโนโยลีระดับโลกที่คว้า Great Place to Work 3 ปีซ้อน
Iron Software company cover
Iron Software
Iron Software is an American company providing a suite of .NET libraries by engineer for engineers.
CLEVERSE company cover
CLEVERSE
Cleverse is a Venture Builder. Our team builds several tech companies.
Nipa Cloud company cover
Nipa Cloud
#1 OpenStack cloud provider in Thailand with our own data center and software platform.
Bangmod Enterprise company cover
Bangmod Enterprise
The leader in Cloud Server and Hosting in Thailand.
CIMB THAI Bank company cover
CIMB THAI Bank
MOVING FORWARD WITH YOU - CIMB is the leading ASEAN Bank
Bangkok Bank company cover
Bangkok Bank
Bangkok Bank is one of Southeast Asia's largest regional banks, a market leader in business banking
MuvMi (Urban Mobility Tech Co.,Ltd.) company cover
MuvMi (Urban Mobility Tech Co.,Ltd.)
Shape the future of urban mobility towards affordable, clean, and safe solutions
T.N. Digital Solution Co., Ltd. company cover
T.N. Digital Solution Co., Ltd.
TNDS has been involving in every first move of banking’s major digital transformation.
KBTG - KASIKORN Business-Technology Group company cover
KBTG - KASIKORN Business-Technology Group
KBTG - "The Technology Company for Digital Business Innovation"
Siam Commercial Bank Public Company Limited company cover
Siam Commercial Bank Public Company Limited
"Let's start a brighter career future together"
Icon Framework co.,Ltd. company cover
Icon Framework co.,Ltd.
Global Standard Platform for Real Estate แพลตฟอร์มสำหรับธุรกิจอสังหาริมทรัพย์ครบวงจร มาตรฐานระดับโลก
REFINITIV company cover
REFINITIV
The Financial and Risk business of Thomson Reuters is now Refinitiv
H LAB company cover
H LAB
Re-engineering healthcare systems through intelligent platforms and system design.
The Gang Technology Co., Ltd. company cover
The Gang Technology Co., Ltd.
We're a Digital Agency that helps our customers transform their business into digital with ease.
LTMH company cover
LTMH
LTMH มุ่งเน้นการพัฒนาผลิตภัณฑ์ที่สามารถช่วยพันธมิตรของเราให้บรรลุเป้าหมาย
Seven Peaks company cover
Seven Peaks
We Drive Digital Transformation
Wisesight (Thailand) Co., Ltd. company cover
Wisesight (Thailand) Co., Ltd.
The Best Choice For Handling Social Media · High Expertise in Social Data · Most Advanced and Secure
MOLOG Tech company cover
MOLOG Tech
We are Modern Logistic Platform, Specialize in WMS, OMS and TMS.
Data Wow Co.,Ltd company cover
Data Wow Co.,Ltd
We enable our clients to realize increased productivity by solving their most complex issues by Data
LINE Company Thailand company cover
LINE Company Thailand
LINE, the world's hottest mobile messaging platform, offers free text and voice messaging + Call
LINE MAN Wongnai company cover
LINE MAN Wongnai
Join our journey to becoming No.1 food platform in Thailand

เป็น​เคสที่ฮามาก ผมคิดว่าเคสนี้ยากสำหรับ​คนแต่ไม่ได้ยากสำหรับ​คอมครับ ถ้ามี training data สอนหน่อยก็จับ pattern ได้เลย คำว่า เกษตร|กรอบ| คงไม่มีโผล่มา​ เคสที่ยากสำหรับ​คอมคือพวกที่เป็​น​ไปได้มีใช้งานจริงทั้งสองแบบแล้วต้องดูบริบทประกอบด้วย

ผมว่ามันกำกวมครับ ตัดได้ทั้งสองแบบ

เกษตรกร-อบ-กรอบ คือเกษตรกร(อาชีพ)ไม่ใช่ของที่เอาไปอบกรอบได้จริงๆ แล้วก็ไม่ค่อยเห็นสำนวน <อาชีพ>อบกรอบ แต่จะพอให้อ่านว่า เกษตร-กรอบ-กรอบ มันก็ไม่เป็นจริงได้พอๆกับ เกษตรกร-อบ-กรอบ

เกษตรกร จากราชบัณฑิต(ถึงแม้ช่วงนี้จะดราม่าเรื่องความน่าเชื่อถือบ่อย) หมายถึง ผู้ทำงานในที่ดินหรือที่นา

แต่วลีนี้ผมไม่ได้คิดเองครับ เอามาจากขายหัวเราะหรือมหาสนุก มีตอนที่นางยักษ์ผีเสื้อสมุทรเอาเกษตรกรไปอบกรอบเพราะนึกว่าเป็นการทำผลิตภัณฑ์ OTOP ที่ถูกต้อง

ผมลองของ spicydog ได้
คุณ|บ็อต|บอก|ว่า|วันนี้|พิมพ์|ไม่|ผิด|แต่|ตัด|แบบ|นี้|จะ|ดี|เหรอ| |คณะกรรมการ|การ|เลือกตั้ง|กรมวิทยาศาสตร์การแพทย์| |เขา|นอน|ตาก|ลม|ตาก|ลม|ไปมา

ดูแล้วสาย M/C learning คงต้องมีฐานข้อมูลเยอะพอตัวถึงจะตัดคำได้เป๊ะๆ

M/C learning ก็เหมือนคนครับ ต้องใช้เวลาในการเรียนรู้ แต่สามารถเรียนต่อไปเรื่อยๆ ได้ ก็เก่งขึ้นเรื่อยๆ ได้
M/C learning ไม่เหมือนคนครับ ทำสำเนาได้ จากรุ่นสู่รุ่นไม่ต้องมาเริ่มต้นเรียนใหม่ ถ่ายทอดกันได้แปบบเป๊ะๆ

ผมมองว่า deep learning น่าจะเพิ่มความยืดหยุ่น​ได้มากกว่า​การทำแบบ statistics ทั่วไปครับ ดังนั้นถ้ามีกฎการตัดคำที่ตายตัว + สามารถเข้าไปร่วมกันสร้าง corpus ที่ดีได้ + ประกอบคำที่ไม่รู้จักจากไวยากรณ์​ได้บ้าง ถึงจุดนั้นเราก็คงมีตัวตัดคำรุ่น ultimate ให้ใช้กัน ผมว่ามันใกล้เข้ามาละ เป็น​กำลัง​ใจให้ทุกทีม :)​

แค่ตัดคำได้ทุกต้องทุกพยางค์ในภาษาไทยคุณก็อาจได้โนเบิลแล้วนะครับ เพราะหมายความว่า ML ุณเข้าใจความหมายของคำแล้วสามารถเข้าในบรบทของทำทุกอย่าง คุยภาษาคนรู้เรื่องได้เลยแหละ

เพราะภาษาไทยต้องรู้โครงสร้างประโยคก่อนจึงตัดได้ครับ

ภาษาอังกฤษเองทุกวันนี้เรื่องโครงสร้างประโยคเขายังทำ 100% ไม่ได้เลย

ในแง่ของการ "ไปไหน" ทุกวันนี้ตัดถูกเกิน 95% นี่เรื่องปกติแล้ว ก็ถือว่าไกลพอสมควรแล้วนะครับ ถ้านับพวกท้ายบรรทัดนี่จะตัดผิดอาจจะต้องมองหลายๆ หน้าเจอทีนึง

เป็นไปได้หรือเปล่า ที่เราจะพัฒนาภาษาไทยให้เข้ากับยุค (เหมือนที่จีนแผ่นดินใหญ่ ปรับภาษาจีนดั้งเดิมเป็นตัวย่อเพื่อให้พัฒนาในด้านต่างๆได้ง่าย) เช่น เขียนคำเว้นวรรคแบบประโยคภาษาอังกฤษ(หรือที่เคยเรียนในสมัย มานี ชูใจ) "วันนี้ ฉัน กิน ข้าว กับ คุณตา" เป็นต้นครับ มันน่าจะง่ายขึ้นสำหรับชาวต่างชาติที่จะเรียนรู้ และการพัฒนาโปรแกรม ถ้าจำไม่ผิดภาษาอังกฤษก็เคยเขียนติดกันมาก่อนก่อนจะพัฒนาเป็นแยกแบบนี้

ภาษาไทยมีรูปสระเป็นตัวแยกคำอยู่แล้ว ถ้าไม่นับกรณีสระลดรูป หนึ่งคำหนึ่งรูปสระอยู่แล้ว ดังนั้นไม่จำเป็นต้องเขียนเว้นก็ได้ครับ แต่ในกรณีภาษาอังกฤษใช้ตัวอักษรมาเป็นสระด้วยจึงต้องเว้นคำ ตัวอย่างเช่น "จีนแผ่นดินใหญ่" คุณไม่สามารถแยกเป็น (จี นแ ผ่ดิ นใ หญ่)ได้ เป็นต้น

ผมเคยพัฒนาไว้ สามารถกรองประโยค คำหยาบ หรือคำวิบัติได้ และแยกแยะประโยค ว่าเป็น ปฏิเสธ บอกเล่า คำถาม หรืออื่นๆ เป็น php ทำเมื่อสองปีก่อน เดี๋ยวว่างๆ ผมจะนั่งทำเล่นๆต่อยอดจากของเดิม จะได้พัฒนาระบบของคนไทยให้มันดีขึ้น

ได้ข่าวว่ามีคนเคยขอข้อมูลพจนานุกรมจากเว็บราชบัณฑิตย์ เพื่อใช้ในงานพัฒนาระบบตัดคำ และเดาคำ แต่ราชบัณฑิตย์ บอกว่าไม่สามารถให้ข้อมูลพจนานุกรมได้เพราะกลัวเอาข้อมูลไปทำอะไรมิดีมิร้าย แต่ราชบัณฑิตย์เองที่มีข้อมูลอยู่กลับไม่สามารถทำประโยชน์จากข้อมูลที่มีได้เลย เฮ้ออออออ

gth2011 Wed, 28/06/2017 - 19:36

สุดยอดครับ
แต่จะให้ดีกว่านี้ True ควรใช้ data scientist มาแก้ปัญหาในเชิง operation ที่สำคัญๆด้วยครับ
อย่างใช้ DL ทำ CRM ให้ดีเท่าคู่แข่ง หรือปัญหาอื่นๆที่หลายๆคนชอบบ่นกัน