Jeff Dean หัวหน้านักวิทยาศาสตร์ของกูเกิล และหัวหน้าทีม (ร่วม) ของ Gemini โพสต์อธิบายที่มาของชื่อ Gemini ว่ามาจากคำว่า "ฝาแฝด" ในภาษาละติน
เหตุผลที่กูเกิลเลือกใช้ชื่อนี้เป็นเพราะต้องการสะท้อนผลงานของ Google DeepMind ที่เกิดจากการรวมทีม Google Brain และ DeepMind เข้าด้วยกัน ก่อนหน้านี้กูเกิลมีทีม AI หลักสองทีม ต่างคนต่างทำโมเดล LLM แยกจากกัน คือ Google Brain (PaLM/PaLM2) และ DeepMind (โมเดลชื่อ Chinchilla) แต่ภายหลังกูเกิลตัดสินใจจับมารวมกัน พัฒนาโมเดลร่วมกัน และช่วยให้ดึงทรัพยากรส่วนอื่นของกูเกิลมาช่วยงานได้อีกมาก
ทีมวิจัยร่วมระหว่าง DeepMind และนักวิจัยจากมหาวิทยาลัยหลายแห่ง รายงานถึงเทคนิคการดึงข้อมูลที่ใช้ฝึกปัญญาประดิษฐ์ในกลุ่ม LLM โดยเฉพาะ ChatGPT ที่ถูกจูนเพื่อไม่ให้คืนข้อมูลที่ใช้ฝึกออกมาตรงๆ (ดูตัวอย่างแชต)
การดึงข้อมูลที่ใช้ฝึก AI นั้นมีการวิจัยมานาน แต่ก่อนหน้านี้มักเป็นการทดลองในโมเดลโอเพนซอร์สที่นักวิจัยสามารถศึกษากระบวนการทำงานได้อย่างละเอียด และสามารถตรวจสอบข้อมูลได้ทันทีว่า AI แสดงข้อมูลที่ใช้ฝึกหรือยังเพราะนักวิจัยเห็นข้อมูลฝึกอยู่แล้ว ในกรณี ChatGPT นั้นยากกว่ามากเพราะ OpenAI ฝึกโมเดลเพื่อไม่ให้คืนข้อมูลที่ฝึกเข้าไป และนักวิจัยไม่เห็นอะไรนอกจาก API ของ OpenAI เอง
Google DeepMind เปิดตัวปัญญาประดิษฐ์สาย deep learning ตัวใหม่ชื่อ Graph Networks for Materials Exploration (GNoME ไม่เกี่ยวอะไรกับเดสก์ท็อป GNOME) สร้างขึ้นมาเพื่อค้นพบ "คริสตัล" หรือโครงสร้างผลึกชนิดใหม่ๆ ที่เป็นไปได้ในเชิงวัสดุศาสตร์ (material)
การมองหาคริสตัลรูปแบบใหม่ๆ เกิดขึ้นมานานแล้ว การทดลองของมนุษย์สามารถค้นพบได้ราว 20,000 รูปแบบ ภายหลังเมื่อนำเทคนิคทางคอมพิวเตอร์เข้ามาช่วย (Materials Project) สามารถค้นหาได้ 48,000 รูปแบบ แต่ AI แบบเดิมก็มีข้อจำกัดเรื่องความแม่นยำอยู่พอสมควร
DeepMind เผยแพร่งานวิจัย GraphCast โมเดล AI สำหรับการพยากรณ์อากาศ โดยสามารถพยากรณ์อากาศใน 10 วันข้างหน้า ซึ่ง DeepMind บอกว่าทำได้แม่นยำและประมวลผลรวดเร็วว่าเครื่องมือพยากรณ์อากาศมาตรฐานสูงปัจจุบัน
วิธีการพยากรณ์อากาศแบบปัจจุบันนั้นมักคำนวณด้วย Numerical Weather Prediction ซึ่งมีสมการฟิสิกส์ที่ใช้เวลาประมวลผลนาน และต้องการทรัพยากรสมรรถนะสูง แนวคิดของ GraphCast ใช้การเทรนข้อมูลประวัติสภาพอากาศย้อนหลังระดับหลายสิบปี เพื่อดูความสัมพันธ์ของปัจจัยและผลที่เกิดขึ้นต่อสภาพอากาศในโลก ข้อมูลที่ใช้ตอนนี้คือ ERA5 ขององค์กรพยากรณ์อากาศ ECMWF ย้อนหลัง 40 ปี
Google DeepMind เปิดตัว Synth ID ระบบลายน้ำฝังลงในภาพที่สร้างด้วย AI เพื่อยืนยันว่าเป็นภาพที่ไม่ได้สร้างโดยมนุษย์ ป้องกันปัญหาภาพปลอม-บิดเบือนเหตุการณ์จริง สามารถตรวจสอบย้อนกลับได้
กูเกิลประกาศฟีเจอร์นี้ตั้งแต่งาน Google I/O 2023 และออกผลงานจริงมาเป็น Synth ID ที่พัฒนาโดยทีม DeepMind ร่วมกับ Google Research
DeepMind เปิดตัว RT-2 ซึ่งมาจากคำว่า Robotic Transformer 2 โมเดลสำหรับควบคุมหุ่นยนต์แบบ Vision-Language-Action หรือ VLA โดยใช้การเรียนรู้ข้อมูลและภาพต่าง ๆ จากอินเทอร์เน็ต ผสมรวมกับการเรียนรู้จากภาพที่เห็นของหุ่นยนต์ในการปฏิบัติหรือทำงานต่าง ๆ วิธีการเรียนรู้นี้อาจบอกได้ว่าเป็น AI แบบ LLM ที่นำใช้กับหุ่นยนต์
ตัวอย่างเช่น หุ่นยนต์แบบเดิมสามารถเรียนรู้จากการจับวางวัตถุ และทดลองทำซ้ำเรื่อย ๆ จนเข้าใจดี แต่วิธีของ RT-2 จะแตกต่างออกไป หุ่นยนต์สามารถเจอวัตถุที่ไม่คุ้นเคย แต่อาศัยข้อมูลจากอินเทอร์เน็ตมาช่วยทำให้สามารถจับวางวัตถุได้ถูกต้องแม่นยำมากขึ้นแม้เป็นการลองครั้งแรก ช่วยลดเวลาในการเทรนข้อมูลนั่นเอง
Demis Hassabis ผู้ร่วมก่อตั้งและซีอีโอ DeepMind ให้ข้อมูลล่าสุดของโมเดล AI ที่ชื่อ Gemini ซึ่งตอนนี้อยู่ในขั้นตอนการพัฒนา และเป็นโมเดลแบบ Large Language ประเภทเดียวกับ GPT-4 ของ OpenAI ที่ปัจจุบันเป็น AI เบื้องหลังแชทบอต ChatGPT
เขาบอกว่าวิธีการที่ Gemini เรียนรู้และพัฒนานั้นเป็นเทคนิคเดียวกับที่ใช้ใน AlphaGo ซึ่งเป็น AI เล่นหมากล้อมที่สร้างชื่อเสียงให้ DeepMind โดย Gemini จะมีความสามารถในการแก้ไขปัญหาที่ซับซ้อน ขณะเดียวกันก็เรียนรู้วิเคราะห์ข้อมูลเพิ่มความสามารถทางภาษาจาก Large Model ได้ด้วย
DeepMind เผยแพร่งานวิจัยระบบ AI ที่สามารถพัฒนาได้ด้วยตัวเองสำหรับหุ่นยนต์ มีชื่อเรียกว่า RoboCat โดยสามารถทำงานได้หลากหลาย รองรับหุ่นยนต์ที่มีกลไกแขนแตกต่างกัน รวมทั้งสามารถสร้างชุดข้อมูลใหม่เพื่อเรียนรู้ได้เองอีกด้วย
งานวิจัยที่ผ่านมา DeepMind ได้พัฒนาให้หุ่นยนต์สามารถทำงานได้หลากหลาย และอีกงานวิจัยก็ให้หุ่นยนต์ผู้ช่วยเรียนรู้จากข้อมูลในสภาพจริง (Real-world) ซึ่ง RoboCat ได้ปรับปรุงให้เป็นระบบที่ทำงานได้หลากหลาย แต่รองรับหุ่นยนต์แต่ละแบบที่แตกต่างกันด้วย จากการเรียนรู้ผ่านสภาพจริง
DeepMind เปิดตัว AlphaDev ปัญญาประดิษฐ์พัฒนาโปรแกรมที่ไม่ใช่แค่การเขียนโปรแกรมธรรมดา แต่สามารถออปติไมซ์โปรแกรมจนเกินกว่าที่คนทั่วไปเขียนได้ ในกรณีนี้ทาง DeepMind ใช้ AlphaDev สร้างฟังก์ชั่น sort สำหรับเรียงลำดับข้อมูลที่มีการพัฒนากันมานาน
AlphaDev ทำงานคล้าย AlphaZero ที่เคยใช้สำหรับการเล่นเกมโกะมาก่อน โดย AlphaDev จะวางคำสั่ง assembly ลงไปเรื่อยๆ เพื่อทำให้โค้ดรันได้เร็วที่สุดเหมือนเกมโกะที่พยายามครองพื้นที่ให้ได้มาก แต่หากโปรแกรมทำงานผิดก็จะถือว่าแพ้เกมนั้นไป โมเดลการให้รางวัลและปรับจูนไปเรื่อยๆ เช่นนี้ทำให้ AlphaDev สามารถเขียนโค้ด sort ที่ทำงานเร็วกว่าโค้ดเดิมใน LLVM ได้ทุกกรณี ในกรณีข้อมูลมีจำนวนน้อยโค้ดจะเร็วกว่าถึง 70% ขณะที่เมื่อข้อมูลมีจำนวนมากๆ ก็ยังเร็วกว่า 1.7%
Sundar Pichai ซีอีโอของกูเกิลให้สัมภาษณ์กับ The Verge หลังงาน Google I/O 2023 เน้นประเด็นเรื่อง AI
ข้อมูลสำคัญในบทสัมภาษณ์คือเขาอธิบายเรื่องการรวมทีม Google Brain กับ DeepMind เข้าเป็น Google DeepMind ว่าเป็นสิ่งที่เกิดขึ้นโดยธรรมชาติของกูเกิลอยู่แล้ว เขายกตัวอย่างว่าก่อนหน้านี้ กูเกิลมีทีมเพลงสองทีมคือ YouTube Music และ Google Play Music ที่สุดท้ายยุบรวมกัน
บริษัท Inflection AI ที่ก่อตั้งโดย Reid Hoffman ผู้ร่วมก่อตั้ง LinkedIn และ Mustafa Suleyman ผู้ร่วมก่อตั้ง DeepMind ช่วงต้นปี 2022 ตอนนี้มีผลงานออกมาแล้ว เป็นแชทบ็อทชื่อว่า Pi
Pi ย่อมาจาก “personal intelligence” จุดเด่นของมันที่ต่างจากแชทบ็อทตัวอื่นๆ อย่าง ChatGPT, Bing, Bard คือการตั้งใจให้เป็นผู้ช่วยส่วนตัวที่ "ใจดี" และพยายามช่วยเหลือเราในเรื่องต่างๆ (kind and supportive) ตัวบทสนทนามีความเป็นมนุษย์มากขึ้น พยายามชวนเราคุยด้วย ไม่ใช่ตอบคำถามอย่างเดียว
กูเกิลประกาศรวมทีมวิจัยปัญญาประดิษฐ์สองทีมสำคัญ คือ Google Brain และ DeepMind เข้าเป็นทีมเดียวในชื่อ Google DeepMind โดยหวังว่าจะเร่งความเร็วในการพัฒนาปัญญาประดิษฐ์ในบริษัทให้เร็วยิ่งขึ้น
จากข่าวลือว่า Elon Musk ตั้งทีมพัฒนาแชทบ็อทแนวเดียวกับ ChatGPT ของ OpenAI ล่าสุดมีคนค้นพบการจดทะเบียนตั้งบริษัท X.AI ในรัฐเนวาดา ตั้งแต่วันที่ 9 มีนาคม โดยมีชื่อ Musk เป็นกรรมการบริษัทเพียงคนเดียว
Financial Times รายงานข้อมูลโดยอ้างแหล่งข่าวว่า Musk กำลังสร้างทีมพัฒนา AI โดยดึงวิศวกรและนักวิจัยจำนวนหนึ่งเข้ามาทำงานด้วย ที่ระบุชื่อคือ Igor Babuschkin อดีตพนักงานของ DeepMind และชักชวนนักลงทุนบางรายใน SpaceX และ Tesla ให้มาร่วมลงทุนในบริษัทใหม่แห่งนี้
กูเกิลประกาศนำเอาโมเดลสาย Generative AI ของตัวเองมาให้บริการลูกค้าผ่าน Google Cloud
Google Cloud มีบริการชื่อ Vertex AI สำหรับสร้างและใช้งานโมเดล AI อยู่แล้ว (ข่าวเก่า) เพียงแต่โมเดลที่เปิดให้ใช้งานยังเป็นโมเดลทั่วไป เช่น data labeling, vision, prediction, translation ไม่ได้เป็นโมเดลทันสมัยเกาะกระแสแบบ generative หรือ LLM ที่กำลังฮิตกันในช่วงนี้
DeepMind เผยแพร่งานวิจัยใหม่ เป็นตัวดำเนินการ AI เรียกชื่อว่า DeepNash สำหรับการเล่นเกมที่ทำงานผสมผสานระหว่าง Model-Free Deep Reinforcement Learning ร่วมกับวิธีการ Nash Equilibrium ของ Game Theory
รูปแบบดังกล่าวเหมาะสำหรับเกมที่ผู้เล่นจะไม่มีข้อมูลในมือครบทั้งหมด (Imperfect Information) ต้องอาศัยการเดาอีกฝ่ายว่ามีเบี้ยหรือถือตัวเลขใดอยู่ และมีโอกาสตัดสินใจทางไหนได้บ้าง ต่างจากหมากกระดานที่ต่างฝ่ายต่างเห็นทุกอย่างเหมือนกันหมด จึงมีความซับซ้อนในการคิดหาทางเลือกมากขึ้น
DeepMind เป็นที่รู้จักกันดีในฐานะผู้พัฒนา AlphaGo ปัญญาประดิษฐ์ที่เล่นโกะได้เก่งกว่าแชมป์โลก ก่อนที่ต่อมาจะพัฒนา AlphaZero ที่มีความพิเศษตรงที่สามารถเทรนตัวเองได้ด้วย และล่าสุดทีมงาน DeepMind ได้พัฒนาปัญญาประดิษฐ์ตัวใหม่เพื่อแก้โจทย์สำคัญของวิทยาการคอมพิวเตอร์โดยเฉพาะและมันก็ทำได้สำเร็จโดยทำได้เร็วกว่าสถิติที่อยู่มานานนับ 50 ปีลงได้
การคำนวณที่ว่านี้คือการคูณเมทริกซ์ ซึ่งเป็นโจทย์การทำงานระดับพื้นฐานที่คอมพิวเตอร์จำนวนมากมายทั่วโลกต้องทำอยู่ทุกเมื่อเชื่อวัน ไม่ว่าจะเป็นการแสดงภาพให้ปรากฏบนหน้าจอ, การจำลองเชิงฟิสิกส์ที่มีความซับซ้อน และยังเป็นรากฐานสำคัญของตัว machine learning เองด้วย การที่ทำสิ่งนี้ให้เร็วขึ้นได้ย่อมเป็นเรื่องใหญ่กับโลกทุกวันนี้ที่ใช้คอมพิวเตอร์กับงานสารพัดอย่างรอบตัว
DeepMind เผยแพร่งานวิจัยใหม่โชว์ผลการฝึกปัญญาประดิษฐ์ให้หัดเล่นฟุตบอลตั้งแต่พื้นฐาน ตั้งแต่เริ่มยืน, วิ่งไล่ลูกบอล ไปจนถึงการเลี้ยงหลบ, เข้าสกัด และการเล่นเป็นทีม
งานวิจัยนี้เป็นการฝึก DeepMind ให้ควบคุมหุ่นที่ถูกเรียกว่า "agent" ซึ่งหมายถึงหุ่นจำลอง 3 มิติในระบบคอมพิวเตอร์ที่มีการกำหนดเงื่อนไขกลไกการเคลื่อนไหวร่างกายตามหลักฟิสิกส์เลียนแบบธรรมชาติของร่างกายคน (ซึ่งใช้เอนจิน MujoCo ที่บริษัทซื้อมา) ให้เรียนรู้วิธีการเล่นฟุตบอลโดยเริ่มตั้งแต่ศูนย์ในระดับที่ agent ไม่รู้แม้กระทั่งวิธีทรงตัวให้ยืนอยู่ในสนามฟุตบอลได้ จนกระทั่งมันรู้จักวิธีเล่นฟุตบอลกันเป็นทีม
DeepMind ใช้ปัญญาประดิษฐ์ AlphaFold ทำนายโครงสร้างสามมิติของโปรตีนรวมกว่า 200 ล้านชนิด แล้วเปิดเป็นฐานข้อมูลให้ใช้งานได้ฟรี นับเป็นฐานข้อมูลโครงสร้างโปรตีนที่ใหญ่ที่สุดในตอนนี้ ครอบคลุมโปรตีนแทบทุกชนิดที่รู้จักกัน
Bloomberg รายงานข่าวว่า Ian Goodfellow ผู้อำนวยการฝ่าย Machine Learning ของแอปเปิลที่เพิ่งลาออก ซึ่งคาดว่าเป็นเพราะนโยบายของแอปเปิลให้กลับเข้าทำงานที่ออฟฟิศ ล่าสุดย้ายไปอยู่กับ DeepMind บริษัทลูกของ Alphabet แทนแล้ว
ตัวของ Goodfellow เองเคยเป็นนักวิจัยกับกูเกิลมาก่อนแล้วสองรอบ รอบแรกอยู่กับทีม Google Brain ก่อนย้ายไป OpenAI แล้วกลับมากับ Google Research จนถึงปี 2019 จึงย้ายไปอยู่กับแอปเปิล การกลับมารอบนี้ (ถึงแม้ไปอยู่กับ DeepMind ไม่ได้อยู่กับกูเกิลตรงๆ) ก็เป็นเหมือนการกลับบ้านเก่าของเขานั่นเอง
DeedMind สร้างปัญญาประดิษฐ์ Ithaca สำหรับอ่านบันทึกภาษากรีกจากศิลาจารึกที่มักมีส่วนที่ขาดหายไป แล้วเติมข้อความที่ขาดหาย, ทำนายแหล่งกำเนิดของบันทึก, และทำนายช่วงเวลาบันทึก
การสร้างปัญญาประดิษฐ์อาศัยชุดข้อมูล Packard Humanities Institute (PHI) ที่บันทึกข้อความจากจารึกต่างๆ ถึง 178,551 ชุด โดยมีหมายเลขประจำข้อความ, ช่วงเวลา, และสถานที่ที่บันทึก โดยมีข้อความที่ใช้ฝึกปัญญาประดิษฐ์ได้ 78,608 ชุด
Ithaca แบ่งออกเป็นสองชั้น คือส่วนลำตัว (torso) สำหรับอ่านข้อความ โดยภายในเป็นสถาปัตยกรรมแบบ transformer ที่มักใช้ในการประมวลผลภาษา ในชั้นที่สองจะมีหัวสามหัวเป็นโมเดลปัญญาประดิษฐ์สำหรับทำนายค่าต่างๆ ทั้งข้อความที่หายไป, พื้นที่ที่บันทึกข้อความ, และช่วงเวลาที่บันทึก
DeepMind เปิดตัว AlphaCode ปัญญาประดิษฐ์เขียนโค้ด โดยอาศัยเพียงอินพุตเป็นโจทย์เหมือนการทดสอบเขียนโค้ดทั่วๆ ไปที่มีคำบรรยาย และตัวอย่างอินพุตกับเอาท์พุตของโปรแกรมให้เท่านั้น ผลทดสอบบนแพลตฟอร์ม Codeforces ปรากฎว่า AlphaCode มีความสามารถเขียนโปรแกรมในระดับปานกลาง (median) เมื่อเทียบกับผู้ร่วมแข่งขันอื่นๆ ที่เป็นมนุษย์
DeepMind เปิดตัวปัญญาประดิษฐ์สถาปัตยกรรมใหม่สำหรับการทำความเข้าใจภาษามนุษย์ โดยทดสอบสถาปัตยกรรมนี้หลายขนาด ตั้งแต่ 44 ล้านพารามิเตอร์ไปจนถึง 280,000 ล้านพารามิเตอร์ โดยตั้งชื่อโมเดลใหญ่ที่สุดนี้ว่า Gopher ซึ่งใหญ่กว่าโมเดล GPT-3 ของ OpenAI ถึง 60%
Gopher ทำคะแนนทดสอบความเข้าใจภาษา (Massive Multitask Language Understanding - MMLU) ได้เหนือกว่า GPT-3 แทบทุดหมวด บางหมวดเช่นมนุษยศาสตร์นั้นเริ่มเข้าใกล้คนจริงๆ (คะแนนสูงกว่า 70 คะแนนเทียบกับมนุษย์ที่ได้ประมาณ 90 คะแนน)
Alphabet ประกาศตั้งบริษัทใหม่ชื่อ Isomorphic Labs มีเป้าหมายเพื่อปฏิวัติวงการยาด้วย AI โดยใช้ AlphaFold 2 อัลกอริทึมทำนายการพับตัวของโปรตีนจากบริษัท DeepMind
Demis Hassabis ซีอีโอของ DeepMind จะมานั่งเก้าอี้ควบเป็นซีอีโอของ Isomorphic Labs ด้วย เขาบอกว่าที่ผ่านมา DeepMind มีผลงานวิจัยด้าน AI มากมาย ตอนนี้ได้เวลานำมาประยุกต์ใช้กับอุตสาหกรรมอื่นๆ แล้ว ซึ่งเขามองว่าวงการชีววิทยาและการแพทย์เป็นเป้าหมายแรก
ชื่อ Isomorphic Labs หมายถึงการเชื่อมต่อกันระหว่าง biology และ information science เป็นความพยายามใช้คณิตศาสตร์มาแก้ปัญหาชีววิทยาที่ซับซ้อน โดย AlphaFold2 เป็นแค่ตัวอย่างแรก แต่จะมีอย่างอื่นๆ ตามมาอีก
DeepMind บริษัทปัญญาประดิษฐ์ของกูเกิลประกาศเข้าซื้อ MuJoCo (Multi-Joint dynamics with Contact) ผู้ผลิตซอฟต์แวร์จำลองระบบฟิสิกส์ในโลกความเป็นจริง จากเดิมเป็นซอฟต์แวร์ของบริษัท Roboti LLC ตอนนี้ทาง DeepMind ประกาศให้ใช้งานได้ฟรีทันที
ตัวโครงการ MuJoCo ที่จริงแล้วเป็นไลบรารีในภาษา C และสามารถอ่านข้อมูลโลกจำลองในฟอร์แมต MJCF ที่เป็นภาษา XML สำหรับการสร้างโลกจำลอง เช่น ลูกข่างที่กำลังหมุน, หรือลูกตุ้มที่แกว่งไปมาจากการแขวนบนเส้นด้าย ความแตกต่างของ MuJoCo กับระบบฟิสิกส์ในเกมเอนจินคือมันถูกออกแบบเพื่อความแม่นยำเป็นหลัก ไม่ใช่ประสิทธิภาพหรือเสถียรภาพ ทำให้มันสามารถจำลองระบบที่ซับซ้อนเช่น ลูกตุ้มแกว่งของนิวตัน (Newton's Cradle) หรือการรักษาโมเมนตัมเชิงมุมของวัตถุ
DeepMind ยังคงเดินหน้าวิจัยสร้างปัญญาประดิษฐ์สำหรับทำนายรูปร่างโปรตีน หลังจากปีที่แล้ว AlphaFold สามารถทำนายโครงสร้างโปรตีนได้อย่างแม่นยำระดับเดียวกับการทดลอง งานวิจัยล่าสุดของ DeepMind ก็หันมาพยายามทำนายโครงสร้างโปรตีนที่มีหลายห่วงโซ่ (multi-chain protein) ที่ยังทำนายโครงสร้างได้ยากอยู่