Tags:
Node Thumbnail

DeepMind เผยแพร่ความคืบหน้าของปัญญาประดิษฐ์ MuZero ที่พัฒนาต่อจาก AlphaZero โดยตั้งเป้าหมายเพื่อหาอัลกอริทึมสำหรับโจทย์แบบไม่เจาะจง สามารถเอาชนะในเกมใด ๆ ก็ตาม ที่ไม่รู้กฎกติกามาก่อน

ที่ผ่านมาปัญญาประดิษฐ์ของ DeepMind จะแก้ปัญหาได้เฉพาะเรื่อง (Domain) และอาศัยองค์ความรู้ (Knowledge) ทั้งข้อมูลการเล่นในอดีต จนถึงกติกาการเล่น ซึ่งแนวทางนี้จะพบปัญหาเมื่อต้องเล่นเกมแบบ Atari ที่รูปแบบกติกาไม่ได้บอกชัดเจนมาก และเกมก็ซับซ้อนขึ้น (ดูภาพประกอบด้านล่าง)

DeepMind อธิบายเพิ่มเติมว่าปัญญาประดิษฐ์แบบนี้ ถอดแบบจากการคิดแก้ปัญหาของมนุษย์มากขึ้น เช่น เมื่อเราเจอเมฆครึ้ม เราก็จะเดาว่าฝนน่าจะตก (Predict) และหยิบร่มติดตัวเพื่อไม่ให้เปียกฝน (Decide) ระบบการคิดดังกล่าวเป็นการตัดสินใจจากสภาพที่เผชิญอยู่ตอนนั้น ไม่ใช่การดูภาพรวมทั้งหมด (เช่นการดูสภาพอากาศรวมทั้งแผนที่) โดย MuZero ใช้ 3 องค์ประกอบหลักในการตัดสินใจคือ คุณค่าของตำแหน่งปัจจุบัน (Value), การกระทำที่ดีที่สุด (Policy) และผลลัพธ์จากการกระทำก่อนหน้า (Reward)

ตัวอย่างที่ DeepMind นำมาอธิบายคือเกม Ms Pac-Man พบว่ายิ่งให้เวลาตัดสินใจต่อครั้งมากขึ้น ผลลัพธ์ก็ดีขึ้นตาม เช่นเดียวกับจำนวนทางเลือก หากให้ทางเลือกที่มากขึ้น ผลลัพธ์ก็ดีขึ้นเช่นกัน และแม้จำกัดทางเลือกต่อครั้งเหลือเพียง 6-7 วิธี ซึ่งน้อยมาก ผลลัพธ์ในการเล่นเกมก็ยังออกมาดี

ที่มา: DeepMind และ Engadget

alt="DeepMind MuZero"

MuZero

Get latest news from Blognone

Comments

By: zyzzyva
Blackberry
on 25 December 2020 - 17:22 #1191218

เข้าใจว่าเผยแพร่แบบไม่ผ่าน peer review ใน arXiv:1911.08265 ตั้งแต่ปลายปีที่แล้ว แต่คุณภาพระดับนี้ DeepMind น่าจะส่งลง Nature ซึ่งก็ได้ลงจริง ถึงจะไม่ได้เป็นหน้าปกเหมือนพวก AlphaGo, AlphaZero (Science), AlphaStar ก็ตาม

By: massacre
AndroidUbuntu
on 25 December 2020 - 17:35 #1191220

รอดู AI Dota2 ในกติกาปกติครับ

By: 100dej
AndroidWindows
on 25 December 2020 - 17:53 #1191222

สอนให้ AI มองโลกแคบเหมือนมนุษย์ ทำให้ความสามารถถูกจำกัด?

By: Hoo
AndroidWindows
on 25 December 2020 - 21:11 #1191238

อยากเห็นตอนมันเล่น
เหมือน vdo ตอนยังเป็น Q Learning จัง

By: komkit0710
Windows PhoneSUSEWindows
on 26 December 2020 - 00:15 #1191248

อยากทราบครับว่ามันสามารถใช้ความรู้จากการเล่นอย่างหนึ่ง มาเป็นพื้นฐานของการเล่นอีกอย่างหนึ่งได้ไหมครับ เช่น RPG เกมนึงเป็น รู้ว่าอะไรคือมอนส์เตอร์ อะไรคือ NPC สามารถนำความรู้เหล่านี้ไปทดลองใช้กับอีกเกมนึงได้หรือไม่ หรือต้องเริ่มจากไม่มีประสบการณ์ใดๆ เล่นเกมไม่เป็นเลยเลยเท่านั้น

By: aeksael
ContributoriPhoneWindows PhoneAndroid
on 26 December 2020 - 02:45 #1191255
aeksael's picture

ฟังดูแล้วเหมือนจะอ่อนกว่ารุ่นพี่ยังไงพิกล


The Last Wizard Of Century.

By: badboyz08
AndroidWindows
on 26 December 2020 - 09:52 #1191267
badboyz08's picture

คุณค่าของตำแหน่งปัจจุบัน (Value), โลกกำลังแย่
การกระทำที่ดีที่สุด (Policy) กำจัดมนุษย์
และผลลัพธ์จากการกระทำก่อนหน้า (Reward) ไม่มีมนุษย์ โลกปลอดภัย
เย้ UwU