Google DeepMind เปิดตัวโมเดลปัญญาประดิษฐ์ที่มีพื้นฐานจาก Gemini 2.0 สำหรับใช้งานกับหุ่นยนต์ผู้ช่วย ได้แก่ Gemini Robotics และ Gemini Robotics-ER (Extended Reasoning) ที่เพิ่มความสามารถเชื่อมต่อกับซอฟต์แวร์หุ่นยนต์ที่มี เป้าหมายให้เป็น AI ที่สร้างผลลัพธ์ออกมาเป็นคำสั่งให้ทำสิ่งต่าง ๆ (Action) ซึ่งเป็นพื้นฐานของหุ่นยนต์
กูเกิลบอกว่าได้ร่วมมือกับ Apptronik ในการพัฒนาหุ่นยนต์เหมือนมนุษย์ (Humanoid) เพื่อทดสอบการใช้โมเดล AI ของหุ่นยนต์บน Gemini 2.0 นี้
หุ่นยนต์เหล่านี้ทำงานบนหลักการสามอย่าง ได้แก่ สามารถปรับตัวกับสถานการณ์ขณะนั้นได้, ตอบสนองต่อคำสั่งบนสภาพแวดล้อมที่เปลี่ยนไปได้รวดเร็ว และมีความคล่องตัว ทำงานที่มนุษย์สามารถทำได้ผ่านมือและนิ้ว เช่น การถือสิ่งของด้วยความระมัดระวัง
ที่มา: Google DeepMind

on
ช่วงนี้ deepmind
zyzzyva Thu, 13/03/2025 - 08:25
ช่วงนี้ deepmind ปล่อยของรัวๆเลย
มีอะไรน่าสนใจซ่อนอยู่เยอะเลยน
Tasksenger Thu, 13/03/2025 - 11:22
มีอะไรน่าสนใจซ่อนอยู่เยอะเลยนะ โดยเฉพาะการเข้าใจโลกเป็นสามมิติ
แล้วประเด็นคือ
Pinery Thu, 13/03/2025 - 11:31
แล้วประเด็นคือ ทำได้แม้กระทั่งส่วนที่ไม่เคยเทรนมาก่อน เช่น เอาลูกบาสลงห่วง
ใน Gemini
Tasksenger Thu, 13/03/2025 - 12:07
In reply to แล้วประเด็นคือ by Pinery
ใน Gemini มันเข้าใจพื้นฐานฟิสิกส์อยู่แล้ว หากเราสามารถ identify วัตถุได้เป็นสามมิติ และแปลงให้มันเป็น Owner ของตัวแปรในสมการ มันก็พอจะพยากรณ์จุดตกของลูกบอลได้ครับ ซึ่งผมว่าเขาทำไว้กับวัตถุที่จะทดสอบทุกตัว เพื่อให้เกิดความหลากหลายในการเอาไปใช้งาน โดยใช้ prompt เป็นตัวกำหนดค่าบางอย่างที่ระบบยังไม่รู้ เท่าที่สังเกตุ Gemini มองโลกเป็นวัตถุ และนำไปแทนที่ในตัวแปรได้ แล้วค้นหาสมการด้วยตัวเองเพื่อคำนวณหาคำตอบเองได้ ซึ่งแบบนี้จะทำให้มันต่อยอดในการนำโลกฟิสิกส์ไปรวมกับโลกดิจิทัลในอนาคต
หากคุณเคยเล่นเกมส์ Zelda ภาค TOTK คุณจะรู้ว่าความรู้เรื่องพวกนี้มันทำมาได้นานแล้ว เพียงแต่มันยังอยู่ในโลกดิจิทัลที่เราสามารถรู้ขอบเขตของวัตถุได้ พอเรารู้ขอบเขตวัตถุ และนำมาจับรวมกัน หรือกระทำตามกฎฟิสิกส์ มันก็จะได้ความรู้ใหม่ที่ AI นำไปเรียนรู้เพื่อตอบสนองได้ แต่ของ Deepmind เขาเอาออกมาสู่โลกความเป็นจริงให้เราได้เห็น ซึ่งผมเองสนใจตรงที่เขาสร้าง Algorithm ที่สามารถ identify ขอบเขตวัตถุเป็นสามมิติได้ เนื่องจากโดยพื้นฐานของการประมวลผลภาพมักใช้ OpenCV ซึ่งมองโลกแบบสองมิติ นั่นแสดงถึงว่า Google ได้พัฒนาสมการการสร้างรูปสามมิติ จากภาพสองมิติแบบ Real-time ได้แล้ว มันจะทำให้การประมวลผลเพื่อพยากรณ์ทำได้แม่นยำ และยืดหยุ่นมากขึ้น
จริงๆ แล้วพื้นฐานของ AI สมัยใหม่ ไม่ใช่ทดสอบทุกกรณีแล้วหาคำตอบเก็บไว้ แต่เป็นการให้มันคิด แล้วทดลองในโลกเสมือน จากนั้นให้รางวัลเป็นคะแนนตามผลลัพธ์จาก AI อีกตัวนึงซึ่งรู้คำตอบอยู่แล้ว เพื่อให้ได้ผลลัพธ์ที่ดีที่สุดโดยไม่ต้องทดสอบทุกกรณี ซึ่งมันจะใกล้เคียงกับวิธีคิดของมนุษย์มากกว่า