Node Thumbnail

กูเกิลและไมโครซอฟท์ออกมาแสดงระบบสร้างคำบรรยายรูปอัตโนมัติในงาน Microsoft COCO (Microsoft CommonObjects in Context (COCO) Captioning Challenge) งานนี้เป็นหนึ่งในงานสำหรับผู้วิจัยที่ทำงานในสายงานระบบรับรู้หรือแยกแยะรูปภาพ

งานนี้จึงเป็นโอกาสดีที่จะโชว์ความสามารถของระบบในการวิเคราะห์คำและรูปภาพจากกูเกิล กูเกิลได้ให้รายละเอียดของระบบลงในรายงานเรื่อง Show and Tell: A Neural Image Caption Generator ว่ามีความสามารถทัดเทียมกับระบบสองระบบจากไมโครซอฟท์ในรายงานเรื่อง From Captions to Visual Concepts and Back จากทีมวิจัยจากมหาวิทยาลัยมอนทรีออลและ Language Models for Image Captioning: The Quirks and What Works จากทีมวิจัยมหาวิทยาลัยโตรอนโต ซึ่งระบบจากทั้งกูเกิลและไมโครซอฟต์สามารถทำการแบ่งประเภทของวัตถุในรูปภาพและทำการเขียนคำบรรยายรูปได้หลากหลายคำต่อหนึ่งรูป จากรูปจำนวนกว่าแสนๆ รูปได้ดีเท่าๆ กัน ส่วนไป่ตู้และทีมวิจัยจากมหาวิทยาลัยแคลิฟอร์เนียได้คะแนนรองลงมา

การตัดสินใช้วิธีการจัดอันดับโดยใช้เปอร์เซ็นต์ของคำบรรยายที่ดีเท่ามนุษย์สร้างขึ้น และเปอร์เซ็นต์ของคำบรรยายที่ผ่านการทดสอบของทัวริง (Turing Test)

ระบบจากทั้งกูเกิลและไมโครซอฟท์ต่างใช้ deep learning เช่นเดียวกับบริการที่เปิดให้คนทั่วไปใช้ อย่าง Google Photos และ How-Old.net บริการทายอายุจากภาพถ่ายของไมโครซอฟท์ และทั้งคู่ยังพัฒนา deep learning อย่างต่อเนื่อง เช่นเดียวกับไป่ตู้ และเฟซบุ๊กที่เพิ่งเปิดศูนย์วิจัยด้านนี้ในปารีส

ที่มา – VentureBeat

alt="MSCOCO"

Get latest news from Blognone

Comments

By: hisoft
ContributorWindows PhoneWindows
on 10 June 2015 - 20:13 #819052
hisoft's picture

โห ไมโครซอฟท์ได้เท่ากูเกิลนี่ผมก็แปลกใจแล้วครับ 555

By: panurat2000
ContributorSymbianUbuntuIn Love
on 10 June 2015 - 20:51 #819064
panurat2000's picture

ซึ่งระบบจากทั้งกูเกิลและไมโครซอฟต์สามารถทำการแบ่งประเภทของวัตถุในรูปภาพ

ไมโครซอฟต์ => ไมโครซอฟท์

By: tstcnr1u
iPhoneWindows PhoneAndroidUbuntu
on 11 June 2015 - 20:01 #819365

แล้วอาคารข้างหน้าหละครับมันระบบจะไม่รู้