Tags:
Node Thumbnail

กูเกิลรายงานถึงการเปลี่ยนแปลงเทคนิคในการแปลงลายมือเป็นอักษรใน Gboard จากเดิมที่พยายามตัดตัวอักษรออกเป็นตัวๆ (segment and decode) ก็พยายามสร้างโมเดลที่สามารถอ่านข้อความจากลายมือได้ทีเดียวทั้งหมด

กระบวนการแปลงภาพเป็นตัวอักษร มี 3 ขั้นตอนหลักๆ ขั้นแรก คือการแปลงภาพให้เป็นเวคเตอร์แบบ Bézier curve กระบวนการนี้ทำให้ข้อมูลมีขนาดเล็กลงมาก จากจุดสัมผัสจอแต่ละจุดกลายเป็นเพียงเส้นโค้งที่มีพารามิเตอร์ไม่กี่ตัวเท่านั้น จากนั้นจึงนำภาพเวคเตอร์นี้ไปอ่านตัวอักษรออกมา ด้วยโมเดล quasi-recurrent neural networks (QRNN) เนื่องจากโมเดลมีขนาดเล็ก, น่าจะประมวลผลขนานได้ง่าย, และความแม่นยำดีพอสมควร ขั้นสุดท้ายคือการแปลงเป็นคำด้วยตัวจัดหมวดหมู่ Connectionist Temporal Classification (CTC) ที่จะให้คะแนนชุดอักษรที่สมเหตุสมผลต่อภาษาที่กำลังใช้งาน

โมเดลทั้งหมดพัฒนาบน TensorFlow ปกติ แต่นำมา quantize ให้ค่า weight แต่ละตัวกินพื้นที่เพียงไบต์เดียวและทำงานได้เร็วขึ้น

ตอนนี้โมเดลใหม่ใช้งานกับภาษาที่เป็นตัวอักษรละตินแล้ว

ที่มา - Google AI

No Description

Get latest news from Blognone

Comments

By: Hoo
AndroidWindows
on 9 March 2019 - 19:00 #1100623

แนวคิดนี้น่าจะใช้กับจีนเขียนตัวหวัดได้ดีด้วยนะเนี่ย