เมื่อสัปดาห์ที่แล้ว ทีมวิจัยด้านปัญญาประดิษฐ์ของแอปเปิลได้เผยแพร่รายงานการศึกษาเกี่ยวกับการพัฒนาโมเดล LLM ที่ใช้ข้อมูลเสียงมาประกอบกับข้อมูลการเคลื่อนไหว ทำให้วิเคราะห์ข้อมูลกิจกรรมการเคลื่อนไหวของผู้ใช้งานได้แม่นยำมากขึ้น
โมเดลทดสอบนี้ใช้ข้อมูลจากเซ็นเซอร์สองอย่างคือการเคลื่อนไหวและเสียง เรียนรู้จากชุดข้อมูล Ego4D ที่มีข้อมูลเสียงในกิจกรรมต่าง ๆ เช่น ดูดฝุ่น ทำอาหาร ซักผ้า เล่นบาสเกตบอล เล่นกับสัตว์เลี้ยง อ่านหนังสือ ดูทีวี เป็นต้น แล้วทำงานร่วมกับโมเดล LLM อื่น เป็นโมเดลข้อมูลแบบผสมผสานใหม่ ซึ่งการทดสอบนี้ใช้ Gemini-2.5-pro และ Qwen-32B ผลลัพธ์ที่ได้โมเดลสามารถเรียนรู้จำแนกกิจกรรมต่าง ๆ ได้ดี แม้แต่เป็นกิจกรรมที่ไม่มีในชุดข้อมูลฝึกฝน
เนื่องจากเป็นงานวิจัย แอปเปิลเลยไม่ได้บอกว่ามีแผนพัฒนาต่อยอดโมเดลนี้อย่างไรกับอุปกรณ์ที่มีอยู่ปัจจุบัน
ที่มา: 9to5Mac
on
นี่แหละ…
orchidkit Sun, 30/11/2025 - 02:36
นี่แหละ ผมว่าเซ็นเซอร์ที่สามารถเข้าใจโลกจริงได้อย่างสำคัญไม่ใช่แค่ภาพอย่างเดียว บางทีคลื่นเสียงอาจสำคัญและแม่นยำกว่าด้วยซ้ำ ถ้าโมเดลเข้าใน
ยกตัวอย่างเคสคนออทิสติกซาวอง ด้านประสาทเสียง สามารถแยกจำนวนเข็มที่ตกพื้นได้ทันทีจากการฟัง
การเข้าใจเรื่องเสียง อาจชนะสัมผัสด้านภาพเลย
แต่ถ้าเราเห็นก็แยกได้เหมือนก…
langisser Mon, 01/12/2025 - 11:33
In reply to นี่แหละ… by orchidkit
แต่ถ้าเราเห็นก็แยกได้เหมือนกันนะ
แซวๆ ครับ :P