Microsoft
ทีมงานนักวิจัยของไมโครซอฟท์ เผยแพร่งานวิจัย Kosmos-1 โมเดลสร้างภาษาบนข้อมูลสื่อผสมผสาน (Multimodal Large Language Model - MLLM) โดยสามารถเรียนรู้ข้อมูลทั้งตัวหนังสือ รูปภาพ แคปชันประกอบรูปภาพ มาประมวลผลจนสามารถให้ข้อมูลอธิบายได้ในหลากหลายมิติ
ตัวอย่างความสามารถของ Kosmos-1 ที่เผยแพร่ในงานวิจัย เช่น การตอบคำถามจากข้อมูลรูปภาพที่กำหนด ซึ่งโมเดลสามารถเข้าใจบริบทเรื่องราวที่มีอยู่ในภาพได้, สามารถแปลงข้อมูลตัวหนังสือในภาพ (OCR) เพื่อตอบคำถามได้, สามารถหารายละเอียดสำคัญในรูปภาพ และสืบค้นข้อมูลต่อได้ เป็นต้น