กูเกิลนำเสนอโมเดลปัญญาประดิษฐ์ pQRNN สำหรับงานประมวลผลข้อความ (natural language processing - NLP) ที่ตอนนี้นิยมใช้โมเดล BERT เป็นมาตรฐาน แต่โมเดล BERT มีขนาดใหญ่ถึง 400MB และมักใช้ในเซิร์ฟเวอร์มากกว่าอุปกรณ์ขนาดเล็กเช่นโทรศัพท์มือถือ
pQRNN ปรับปรุงมาจากโมเดล PRADO ที่กูเกิลนำเสนอตั้งแต่ปีที่แล้ว ความต่างจากโมเดลอื่นๆ คือการรับอินพุตเป็นคำแทนที่จะเป็นตัวอักษรทำให้โมเดลโดยรวมลดความซับซ้อนลงมาก แต่ปรับขั้นปลายๆ ของโมเดลให้เป็นชั้นแบบ QRNN และใช้ทำงานที่ความซับซ้อนต่ำ เช่น การจับอารมณ์ของข้อความ, การตรวจหาคำลามก, การจับชื่อและคำสำคัญ, ไปจนถึงเนื้อหาด้านลบ (toxic content) โดยยังให้ระดับความแม่นยำใกล้เคียงกับโมเดล BERT ที่ขนาดใหญ่กว่ามาก
ทีมวิจัยของกูเกิลทดสอบ pQRNN ด้วยชุดข้อมูล civil_coments ที่หาข้อความมุ่งร้าย, ลามก, หรือโจมตีตัวบุคคล สามารถทำความแม่นยำ 0.963 AUC โดยโมเดลมีขนาดเพียง 1.3 ล้านพารามิเตอร์แบบ quantized ให้แต่ละพารามิเตอร์มีขนาด 1 ไบต์เท่านั้น เทียบกับโมเดล BERT ที่เคยมีการฝึกได้ผลดีที่สุดยังทำได้ 0.976 AUC แม้จะมีพารามิเตอร์ถึง 110 ล้านพารามิเตอร์แบบ FP32 ก็ตาม
ที่มา - Google AI Blog
สถาปัตยกรรมโมเดล pQRNN
Comments
เก่งมาก
นอกจากทำให้ Model ดีแล้วการลดขนาดนี่แหล่ะ เป็นอะไรที่ยากที่ทำให้ได้ผลเท่าเดิม
มือใหม่!! ใหม่จริงๆนะ
เล็กๆ แบบนี้ จะมีคนเอามาใช้งานบนเบราว์เซอร์มั๊ยครับ แอบเรียนรู้พฤติกรรมการใช้งานบนเว็บเรียลไทม์ :-P
WE ARE THE 99%
เรียนรู้พฤติกรรมอะไรหรือครับ? เพราะการอ่านข้อความบนเว็บ ยังไงผู้ใช้ก็ต้องพิมพ์กรอกมาให้ก่อน อยากวิเคราะห์ข้อความที่ผู้ใช้ยังไม่ได้ submit?
lewcpe.com, @wasonliw
อันนี้ความคิดเห็นส่วนตัวนะครับ น่าจะได้เยอะนะครับ อาทิเช่น Classify ข้อความขณะกำลังพิมพ์อยู่ แบบ Offline จะได้แนะนำ Emoticon ได้ทันที เป็นต้น นอกจากนี้ ยังช่วยเรื่องการประมวลผล AI จากแหล่งข้อมูลอื่นโดยที่ไม่สามารถ Submit มาที่ Server ได้ด้วยครับ (เดี๋ยวโดนเรื่อง Privacy ตาม GDPR Compliance) อาทิเช่น ทำ Chrome Plugin ช่วยย่อความเนื้อหาอีเมล์ที่ผู้ใช้อ่านอยู่อัตโนมัตืเป็นต้น
พวก assist นี่คงได้ครับ แต่ก็ไม่ได้เรียนรู้พฤติกรรมผู้ใช้อะไร ยังไงผู้ใช้ก็กำลังจะ submit มาอยู่แล้ว เราช่วย assist เท่านั้น
"ยังช่วยเรื่องการประมวลผล AI จากแหล่งข้อมูลอื่นโดยที่ไม่สามารถ Submit มาที่ Server ได้ด้วยครับ" <-- ประโยคแบบนี้ล่ะครับ ลอยมาก ข้อมูลอะไร แหล่งไหน วิเคราะห์อะไร
ผมเข้าใจว่าคุณ Fzo อาจจะคิดถึงการใช้อย่างไม่ถูกกฎหมาย ซึ่งก็เป็นไปได้ เช่นผู้ใช้ชอบอ่านข้อความลามกหรือไม่ แต่การติดตั้งโมเดลน่าจะไม่ใช่กระบวนการปกติ เช่น แอปฝังโมเดลเข้าไปใน extension ของเบราว์เซอร์ ก็น่าจะพอเป็นไปได้
แต่การใช้งานอย่างถูกต้องน่าจะค่อนข้างจำกัด อาจจะช่วย filter ข้อความบางประเภทออก ช่วยเรียงลำดับคอมเมนต์สำหรับผู้ใช้แต่ละคน ฯลฯ
lewcpe.com, @wasonliw