Google ประกาศแผนโครงการใหม่ชื่อว่า “1,000 Languages Initiative” ที่จะพัฒนาและเทรนโมเดลปัญญาประดิษฐ์เพื่อให้บริการแปลภาษาครอบคลุม 1,000 ภาษาที่มีผู้พูดเยอะที่สุดในโลกโดยใช้แค่โมเดลเดียว Google คาดว่าจะใช้โมเดลนี้กับแพลตฟอร์มของบริษัทตั้งแต่ Google Translate ไปจนถึงแคปชันใน YouTube
Zoubin Ghahramani รองประธานฝ่ายการวิจัยของ Google AI กล่าวว่าการสร้างโมเดลปัญญาประดิษฐ์ขนาดใหญ่นี้จะทำให้สามารถแปลได้ดีขึ้นทั้งภาษาที่มีผู้พูดจำนวนมากกับภาษาที่ไม่ค่อยมีข้อมูลมากนัก (low resource languages)
ในการเริ่มต้น Google เตรียมที่จะเปิดตัวโมเดล AI ที่ได้รับการเทรนมาแล้ว 400 ภาษา แต่การพัฒนาโมเดลให้ครอบคุลม 1,000 ภาษายังอยู่ในขั้นเริ่มต้นเท่านั้น
Open AI เปิด API ของ DALL·E เป็น public beta ให้นักพัฒนาแอปพลิเคชันสามารถติดตั้ง DALL·E ซึ่งเป็นปัญญาประดิษฐ์ที่สร้างภาพขึ้นมาตามคำบรรยายลงในแอปพลิเคชันและผลิตภัณฑ์ที่พัฒนาขึ้นมาเองได้โดยตรงแล้ว
บริษัทเผยว่ามีการดึง API ของ DALL·E ไปใช้งานบ้างแล้วเช่น เช่น Microsoft ที่ใช้ DALL·E ในแอปออกแบบที่ชื่อว่า Designer รวมทั้งติดตั้งใน Bing และ Microsoft Edge นอกจากนี้ยังมีบริษัทแฟชัน CALA ที่นำ AI ไปใช้เพื่อสร้างแบบเสื้อผ้าด้วยการพิพม์ตัวอักษร รวมทั้ง Mixtiles ที่เป็นเว็บไซต์ที่ให้คนเข้ามาสร้างภาพจาก AI
ที่มา: OpenAI
Alibaba Cloud เปิดบริการ ModelScope บริการรันโมเดลปัญญาประดิษฐ์ รูปแบบ model-as-a-service (MaaS) พร้อมกับนำโมเดลปัญญาประดิษฐ์แบบโอเพนซอร์สมาให้ใช้งานได้ทันที รวมกว่า 300 โมเดล ทั้งตั้งแต่โมเดลทำความเข้าใจภาษา ไปจนถึงโมเดลแปลงข้อความเป็นภาพ
แม้จะเป็นบริการแบบ as-a-serviceแต่ผู้ใช้ก็ยังต้องเขียนโค้ดบ้าง โมเดลบางตัวที่ทำมาโชว์ เช่น mPLUG สำหรับตอบคำถามจากภาพ, Tongyi โมเดลแปลงข้อความเป็นภาพรองรับทั้งภาษาอังกฤษและภาษาจีน, OFA โมเดลที่ทำงานได้หลากหลายในโมเดลเดียว
ทาง Alibaba Cloud ยังไม่แจ้งราคา และตอนนี้ตัวเว็บก็ยังจำกัดเฉพาะภาษาจีน
ที่มา - Alibaba Cloud
Meta เปิดตัวปัญญาประดิษฐ์ทำนายโครงสร้างโปรตีนพร้อมกับฐานข้อมูลโครงสร้างโปรตีนทั้งหมดที่ทำนายได้กว่า 600 ล้านรายการ โดยงานวิจัยของ Meta เน้นไปที่ความเร็วในการทำนายว่าสามารถทำนายทั้งหมดภายในเวลาเพียง 2 สัปดาห์ หรือประมาณ 500 โปรตีนต่อวินาที บนชิปกราฟิก 2,000 ชุด เทียบกับ AlphaFold ที่เคยเปิดฐานข้อมูลแบบเดียวกันมาก่อนหน้านี้ แต่กระบวนการทำนายของ AlphaFold นั้นโปรตีนแต่ละตัวใช้เวลาคำนวณนับนาที
กูเกิลเปิดโมเดลปัญญาประดิษฐ์ Code as Policies (CaP) ที่ใช้เขียนโค้ดจากคำบรรยายภาษาคนปกติให้กลายเป็นโค้ดสำหรับการสั่งงานหุ่นยนต์เท่านั้น หลังจากนั้นนำโค้ดในรันบนหุ่นยนต์จริงทำให้กลายคำสั่งภาษาธรรมชาติตามปกติก็สามารถสั่งหุ่นยนต์ให้ทำงานที่ซับซ้อนได้
การใช้ CaP แปลงคำสั่งเป็นโค้ด Python ก่อนทำให้สามารถสั่งหุ่นยนต์ได้ซับซ้อนกว่าเดิมมากโดยไม่ต้องฝึกล่วงหน้า นอกจากนี้ยังสามารถตอบคำถามได้ เช่น “มีลูกบาศก์ในชามสีส้มกี่ชิ้น” CaP สามารถเขียนโค้ดให้หุ่นยนต์ตรวจสอบสภาพแวดล้อมและตอบคำถามได้ ความสามารถสำคัญของ CaP คือสามารถสร้างโค้ดให้กับหุ่นยนต์ที่มีความสามารถต่างกัน โดยกำหนดการกระทำ (action) ที่สามารถทำได้ และ CaP จะสร้างโค้ดที่ทำงานได้เหมือนกันตามข้อจำกัดของคำสั่งที่มี
Replit บริการ IDE ในเบราว์เซอร์และในแอปโทรศัพท์มือถือเปิดตัวบริการ Ghostwriter ปัญญาประดิษฐ์ช่วยเขียนโค้ดตามคำสั่ง โดยมีฟีเจอร์หลายรูปแบบ ทั้งการเติมโค้ดหลังผู้ใช้เขียนไว้บางส่วน, อธิบายโค้ดเป็นคอมเมนต์, แปลงโค้ดตามคำสั่ง เช่น การเปลี่ยน React component ให้เป็นฟังก์ชั่น, และการเขียนโค้ดตามคำสั่งทั้งไฟล์
ตอนนี้ Ghostwriter รองรับภาษาทั้งหมด 16 ภาษา ตั้งแต่ Bash, C/C++, C#, Java, JavaScript, PHP, Perl, Python, R, Ruby, Rust, TypeScript และโค้ดที่เกี่ยวข้อง ได้แก่ CSS, HTML, SQL
ค่าบริการ Ghostwriter อยู่ที่ 10 ดอลลาร์ต่อเดือน สามารถสมัครใช้งานได้ทันทีหรือหากต้องการทดลองใช้งานฟรีต้องลงชื่อรอคิว
ที่มา - Replit
นักวิจัยจาก Vietnam National University ได้พัฒนาปัญญาประดิษฐ์เพื่อช่วยวิเคราะห์ระดับความเมาของคน โดยสามารถจำแนกคนเมาได้ถูกต้อง 93%
การวิเคราะห์ที่ว่านี้เดิมทีทีมวิจัยตั้งใจใช้วิเคราะห์ภาพคนโดยสังเกตภาพนัยน์ตา, ตำแหน่งศีรษะ และอากัปกิริยาอื่นๆ ที่บ่งบอกถึงระดับความมีสติของบุคคลนั้นๆ อย่างไรก็ตามทีมวิจัยพบว่าแนวทางนี้มีปัญหาวิเคราะห์ผิดพลาดได้ง่ายเนื่องจากปัจจัยอื่นหลายประการ เช่นคนบางคนมีลักษณะบางอย่างบนใบหน้าที่ไปตรงกับข้อมูลที่ปัญญาประดิษฐ์เข้าใจว่าเป็นสิ่งบ่งชี้ถึงอาการมึนเมา ซึ่งนั่นทำให้การตรวจวิเคราะห์ของปัญญาประดิษฐ์ให้ผลผิดพลาด ทีมวิจัยจึงได้คิดเปลี่ยนมาวิเคราะห์ด้วยข้อมูลประเภทอื่น
มีรายงานว่ากูเกิลได้ซื้อกิจการ Alter สตาร์ทอัพพัฒนา AI สำหรับสร้างอวตาร โดยมีมูลค่าดีลราว 100 ล้านดอลลาร์ ซึ่งกูเกิลยืนยันดีลซื้อกิจการดังกล่าว แต่ไม่ยืนยันมูลค่าที่ซื้อ
Alter มีชื่อเดิมต่อก่อตั้งคือ Facemoji ในตอนนั้นเป็นแพลตฟอร์มสำหรับให้ผู้พัฒนาเกม หรือแอปอื่น ๆ มาเชื่อมต่อกับระบบเพื่อใช้สร้างอวตาร ในช่วงแรกบริษัทมีหนึ่งในผู้ลงทุนรายสำคัญคือ Twitter ด้วย ต่อมาบริษัทจึงรีแบรนด์เป็น Alter
รายงานบอกว่ากูเกิลคาดนำเทคโนโลยีของ Alter มาเป็นเครื่องมือเสริมกับบริการต่าง ๆ ที่มีอยู่ ทั้งคอนเทนต์และเกม ซึ่งเครื่องมือ AI สร้างอวตารแนวเดียวกันนี้ มี TikTok ที่ได้รับความนิยมสูง
ไล่เลี่ยกับการประกาศข่าวของ Shutterstock ในการร่วมมือกับ OpenAI เพื่อเริ่มขายภาพที่สร้างโดยปัญญาประดิษฐ์ อีกหนึ่งบริษัทใหญ่วงการขาายภาพอย่าง Getty Images กลับมาท่าทีในทางตรงกันข้ามในเรื่องภาพที่สร้างจากซอฟต์แวร์ โดยมองว่าเป็นเรื่องที่อาจจะไม่ถูกต้อง
Craig Peters ซีอีโอของ Getty Images ได้วิพากษ์ว่าบริษัทที่กระหายจะทำธุรกิจโดยนำภาพที่สร้างโดยปัญญาประดิษฐ์มาขายนั้นต่างไม่ได้คิดถี่ถ้วนให้ดีพอในเรื่องกฎหมายที่เกี่ยวข้องรวมทั้งเรื่องจรรยาบรรณในการใช้เทคโนโลยี
Emil Wallner นักวิจัยปัญญาประดิษฐ์ได้สร้างเว็บไซต์ Palette.fm ซึ่งมีระบบปัญญาประดิษฐ์ที่เขาพัฒนาขึ้น สามารถเปลี่ยนภาพขาวดำที่ถูกอัพโหลดขึ้นไป ให้กลายเป็นภาพสีได้ภายในคลิกเดียว นอกจากนี้ผู้ใช้ยังสามารถแก้ไขข้อความบรรยายภาพเพื่อปรับแต่งภาพสีที่ได้ให้มีลักษณะตรงความต้องการได้มากขึ้นด้วย
Pellete.fm จะเรียนรู้วัตถุในภาพที่มันได้รับและทายว่าวัตถุนั้นมีสีอะไรตามธรรมชาติโดยอาศัยข้อมูลจากที่มันได้รับการเทรนมา Wallner อธิบายว่าเขาสร้างโมเดลปัญญาประดิษฐ์ขึ้นมา 2 โมเดล โมเดลแรกจะดูภาพและสร้างข้อความบรรยายภาพนั้นขึ้นมา ส่วนโมเดลที่ 2 จะใช้ข้อความที่ถูกสร้างขึ้นประกอบกับภาพขาวดำที่ถูกป้อนให้มันมาประมวลรวมกันเพื่อเปลี่ยนภาพดังกล่าวให้เป็นภาพสี
Meta พัฒนาปัญญาประดิษฐ์แปลภาษาที่ใช้สำหรับแปลคำพูดโดยตรงสำหรับภาษาจีนฮกเกี้ยนที่ไม่มีภาษาเขียน
ระบบแปลภาษานี้เป็นส่วนหนึ่งของโครงการ Universal Speech Translator ที่ต้องการพัฒนาการใช้ AI เพื่อช่วยแปลคำพูดเป็นคำพูดแบบเรียลไทม์ซึ่งไม่สามารถใช้วิธีปกที่แปลงคำพูดออกมาออกมาเป็นภาษาเขียนได้แล้วค่อยแปลภาษาจากข้อความ ในงานวิจัยนี้ Meta อาศัยการแปลงเสียงพูดภาษาฮกเกี้ยนออกมาเป็นข้อความแทนเสียงตรงๆ หรือแปลงเสียงเป็นข้อความในภาษาจีนกลางที่ใกล้เคียงกัน แล้วค่อยแปลภาษาอีกทีหนึ่ง
Adobe ประกาศอัพเดตฟีเจอร์ของ Adobe Creative Cloud เน้นฟีเจอร์ด้านปัญญาประดิษฐ์ที่ช่วยในการปรับแต่งภาพและวิดีโอ ไปจนถึงการใช้ปัญญาประดิษฐ์เติมภาพหรือวัตถุในลงภาพได้แล้ว
Photoshop ปรับตัวเครื่องมือ Selection ช่วยเลือกวัตถุในภาพอย่างฉลาด โดยเวอร์ชั่นนี้จะเลือกได้แม่นยำแม้เป็นส่วนเส้นผมที่ปกติเลือกได้ยาก
ฟีเจอร์ซ่อมภาพอัตโนมัติ Photo Restoration Neural Filter แก้ไขภาพเก่าให้เหมือนภาพใหม่ได้ในฟิลเตอร์เดียว ทั้งการลดรอยเปื้อนในภาพ, ปรับแต่งภาพขาวดำให้เป็นภาพสี, พร้อมกับเติมภาพในกรณีที่ภาพเดิมขาดหาย
Generative AI เป็นฟีเจอร์สร้างภาพตามคำบรรยาย แต่อาศัยภาพเติมเป็นตัวตั้งต้น โดยผู้ใช้สามารถเลือกพื้นที่ที่ต้องการเปลี่ยนแปลงภาพแล้วพิมพ์คำสั่งลงไป เช่นการสร้างภาพเมืองบาดาล
ไมโครซอฟท์เปิดบริการเว็บแอปใหม่ในชื่อ Designer เป็นบริการสร้างภาพกราฟิกสำหรับโพสโซเชียลหรือใช้ในสไลด์นำเสนอ โดยเบื้องหลังใช้ปัญญาประดิษฐ์สร้างภาพ DALL∙E 2 ของ OpenAI
ตอนนี้ Designer ยังเป็นบริการระดับพรีวิว ต้องลงทะเบียนแสดงความสนใจรอคิวเข้าใช้งาน แต่ไมโครซอฟท์ก็ระบุว่าในอนาคตมันจะเป็นบริการฟรี พร้อมกับฟีเจอร์พรีเมี่ยมจะกันให้กับผู้สมัคร Microsoft 365 และยังมีแผนจะรวมบริการนี้ไว้ใน Edge
Google Cloud เปิดบริการแปลเอกสาร Translation Hub สำหรับธุรกิจเป็นแอปพลิเคชั่นเต็มรูปแบบสำหรับผู้ใช้ทั่วไปสามารถใช้งานได้ทันที และเอกสารยังคงจัดหน้าเหมือนเดิม
ตอนนี้ Translation Hub รองรับไฟล์ DOCX, PPTX, และ PDF และเอกสารใน Google Docs และ Google Slides โดยบริการระดับพื้นฐานนั้นจะกำหนดรูปแบบการแปลได้เล็กน้อย สามารถกำลังเป็น template หรือกำหนดคลังคำศัพท์ไว้ ขณะที่ระดับสูงจะสามารถฝึกโมเดลปัญญาประดิษฐ์ด้วย AutoML เพิ่มเติม, มีเครื่องมือ translation memory รูปแบบเดียวกับการแปลมืออาชีพ, และมีการทำนายคะแนนคุณภาพการแปลเอาไว้
ค่าบริการแปลระดับพื้นฐานอยู่ที่ 0.15 ดอลลาร์ต่อหน้า และระดับสูงอยู่ที่ 0.50 ดอลลาร์ต่อหน้า
นักวิจัยจาก University of Utah ร่วมกับ Ottobock ผู้ผลิตขาเทียมรายใหญ่ที่สุดของโลก พัฒนาขาเทียมแบบใหม่ Utah Bionic Leg ที่มาพร้อมปัญญาประดิษฐ์ในตัว ช่วยให้มันสามารถปรับการทำงานให้เหมาะสมกับการเคลื่อนไหวร่างกายของผู้ใช้ได้
ตัว Utah Bionic Leg มีมอเตอร์ไฟฟ้า, ชิปประมวลผล และระบบปัญญาประดิษฐ์ในตัวซึ่งจะเรียนรู้วิธีการเคลื่อนไหวของผู้ใช้และปรับการทำงานของตัวมันเองให้สอดคล้อง หากผู้ใช้เดินเร็วขึ้น มันจะเคลื่อนไหวข้อต่อจุดหมุนทั้งบริเวณเข่าและข้อเท้าให้เร็วขึ้นตามจังหวะการเดินทั้งยังช่วยเสริมแรงในจังหวะก้าวเดินให้ผู้ใช้ด้วย คล้ายกับการเดินของคนที่ขาปกติที่มีการออกแรงส่งจากกล้ามเนื้อขาและเท้าในระหว่างการเดิน
ทีมนักวิจัยจาก Cornell University พัฒนาอัลกอริทึมของปัญญาประดิษฐ์เพื่อศึกษาเทปการแข่งขันกีฬาวอลเลย์บอล จนทำให้มันเข้าใจเกมและสามารถทำนายการเคลื่อนที่ของผู้เล่น และวิธีการที่ผู้เล่นจะเลือกใช้ในจังหวะต่อไปได้แม่นยำเกิน 80%
การทำงานของอัลกอริทึมจะอาศัยข้อมูลรอบด้านเพื่อทำนายการเคลื่อนที่หรือการตัดสินเลือกวิธีการเล่นของผู้เล่นในสนาม โดยอาศัยทั้งข้อมูลจากระบบ computer vision ควบคู่ไปกับข้อมูลที่มีการป้อนให้แก่ปัญญาประดิษฐ์โดยตรง เพื่อให้ระบบปัญญาประดิษฐ์เข้าใจข้อมูลแวดล้อมของการแข่งขันเพื่อใช้ประกอบการทำนายได้แม่นยำยิ่งขึ้น
DeepMind เป็นที่รู้จักกันดีในฐานะผู้พัฒนา AlphaGo ปัญญาประดิษฐ์ที่เล่นโกะได้เก่งกว่าแชมป์โลก ก่อนที่ต่อมาจะพัฒนา AlphaZero ที่มีความพิเศษตรงที่สามารถเทรนตัวเองได้ด้วย และล่าสุดทีมงาน DeepMind ได้พัฒนาปัญญาประดิษฐ์ตัวใหม่เพื่อแก้โจทย์สำคัญของวิทยาการคอมพิวเตอร์โดยเฉพาะและมันก็ทำได้สำเร็จโดยทำได้เร็วกว่าสถิติที่อยู่มานานนับ 50 ปีลงได้
การคำนวณที่ว่านี้คือการคูณเมทริกซ์ ซึ่งเป็นโจทย์การทำงานระดับพื้นฐานที่คอมพิวเตอร์จำนวนมากมายทั่วโลกต้องทำอยู่ทุกเมื่อเชื่อวัน ไม่ว่าจะเป็นการแสดงภาพให้ปรากฏบนหน้าจอ, การจำลองเชิงฟิสิกส์ที่มีความซับซ้อน และยังเป็นรากฐานสำคัญของตัว machine learning เองด้วย การที่ทำสิ่งนี้ให้เร็วขึ้นได้ย่อมเป็นเรื่องใหญ่กับโลกทุกวันนี้ที่ใช้คอมพิวเตอร์กับงานสารพัดอย่างรอบตัว
กูเกิลเปิดตัวโครงการ Imagen Video ระบบ AI สำหรับสร้างคลิปวิดีโอตามคำบรรยาย Text แนวเดียวกับ Make-A-Video ของ Meta ที่เปิดตัวเมื่อสัปดาห์ก่อน
Imagen Video พัฒนาต่อยอดจากโครงการ Imagen ที่เป็น AI สร้างรูปภาพตามคำบรรยายของกูเกิลเอง ขั้นตอนการทำงานคือถอดข้อความออกมา และสร้างวิดีโอร่างแรกขึ้นจากภาพจำนวน 16 เฟรม, 3 เฟรมต่อวินาที ความละเอียดต่ำ จากนั้นเริ่มอัพสเกลและปรับแต่งภาพให้ละเอียดขึ้น ผลลัพธ์สุดท้ายจะเป็นวิดีโอ 128 เฟรมที่ 24 เฟรมต่อวินาที ความละเอียด 720p
ชุดข้อมูลที่ใช้เทรนมาจาก วิดีโอที่จับคู่คำอธิบาย 14 ล้านคลิป, รูปภาพที่จับคู่คำอธิบาย 60 ล้านรูป และชุดข้อมูลสาธารณะ LAION-400M
ตัวแทนของ Bruce Willis นักแสดงฮอลลีวูดชื่อดัง ออกมาปฏิเสธข่าวที่ระบุว่า เขาได้ตัดสินใจขายสิทธิตัวตนดิจิทัลให้กับบริษัทผู้พัฒนา Deepfake สำหรับใช้ในงานวิดีโอต่าง ๆ ในอนาคต โดยบอกว่าบริษัทไม่มีการทำข้อตกลงหรือเป็นพาร์ตเนอร์กับบริษัท Deepcake แต่อย่างใด
ด้านตัวแทนของ Deepcake ออกมาให้รายละเอียดเพิ่มเติมว่าเป็นความเข้าใจผิด เพราะตัวตนเสมือนในรูปแบบดิจิทัลของ Bruce Willis นั้นทำการซื้อขายไม่ได้อยู่แล้ว ที่ผ่านมาบริษัทเคยสร้างตัวตนดิจิทัลของเขาเพื่อใช้กับงานโฆษณา และหากจะมีโครงการใหม่อีกในอนาคตก็ขึ้นอยู่กับ Willis เอง
Intelligence Advanced Research Projects Activity (IARPA) หน่วยงานให้ทุนวิจัยด้านข่าวกรองของสหรัฐฯ ประกาศเริ่มโครงการวิจัย Human Interpretable Attribution of Text Using Underlying Structure (HIATUS) สำหรับการตรวจหาผู้เขียนจากรูปแบบข้อความอย่างเดียว ทำให้รู้ได้ว่าใครเป็นคนเขียนบทความแม้จะไม่มีข้อมูลอื่นนอกจากเนื้อหาก็ตาม
ตัวปัญญาประดิษฐ์จะอ่านข้อความและพยายามจับลักษณ์ต่างๆ เช่น การเลือกใช้คำ, รูปแบบประโยค เพื่อหาใครเป็นคนเขียนบทความนั้นๆ ขณะที่อีกด้านหนึ่งปัญญาประดิษฐ์นี้ก็อาจใช้นำไปปกปิดตัวตนของผู้เขียนด้วย เพราะมันสามารถตรวจพบรูปแบบที่เฉพาะตัวของบทความ
Bruce Willis นักแสดงชื่อดัง ประกาศขายสิทธิ Digital Twin หรือฝาแฝดดิจิทัล สำหรับใช้ในงานวิดีโอภาพเคลื่อนไหวต่าง ๆ ให้กับบริษัท Deepcake บริษัทที่เชี่ยวชาญเทคนิคพิเศษในการทำ Deepfake ซึ่งก่อนหน้านี้เคยทำใบหน้า Bruce Willis ให้กับหนังโฆษณาในรัสเซีย
เมื่อต้นปี Bruce Willis ออกมาแถลงยุติอาชีพนักแสดง เนื่องจากได้รับการวินิจฉัยว่าป่วยเป็นโรค Aphasia หรือภาวะเสียการสื่อความ ซึ่งส่งผลต่อการทำงานในฐานะนักแสดง โดยเขาพูดถึงการขายสิทธิดิจิทัลนี้ว่า เป็นโอกาสให้เขาได้กลับมาโลดแล่นด้วยคาแรกเตอร์ที่มี แม้ตัวจะอยู่อีกที่หนึ่ง
ที่ผ่านมาเราเห็น AI ที่สร้างรูปภาพขึ้นมาจากคำบรรยายจากผู้พัฒนาหลายราย ล่าสุด Meta เปิดตัวเครื่องมือชื่อ Make-A-Video ซึ่งคราวนี้สามารถสร้างวิดีโอขึ้นมาได้ โดยอาศัยอินพุทเป็นข้อความบรรยายเช่นกัน
Mark Zuckerberg ซีอีโอ Meta บอกว่าการสร้างวิดีโอขึ้นมาจาก AI มีความยากกว่ารูปภาพอยู่มาก เพราะไม่ได้จบแค่ทำแต่ละพิกเซลให้ตรงคำบรรยาย แต่ต้องคาดเดาการเปลี่ยนในแต่ละเฟรมให้ถูกต้องด้วย ซึ่งโมเดลที่ได้นี้ก็สามารถนำมาปรับใช้กับระบบสร้างรูปภาพจากคำบรรยายได้เช่นกัน
OpenAI ประกาศยกเลิกระบบรอคิวหรือ waitlist สำหรับสมัครใช้งานบริการ DALL·E ปัญญาประดิษฐ์ที่สร้างภาพขึ้นมาตามคำบรรยาย หลังเปิดให้บริการในสถานะเบต้าแต่ต้องรอคิวตั้งแต่เดือนกรกฎาคมที่ผ่านมา มีผลทันที ผู้ใช้งานที่สนใจแต่ยังไม่ได้สมัครสามารถสมัครได้ที่นี่
DALL·E เปิดตัวมาตั้งแต่มกราคม 2021 และมีการปรับปรุงประสิทธิภาพมาโดยตลอด รวมทั้งมีคู่แข่งรายใหม่ที่ให้บริการลักษณะเดียวกันอย่าง Midjourney และ Stable Diffusion ที่ได้รับความนิยมสูง จึงคาดว่าเป็นเหตุผลให้ DALL·E เร่งเปิดใช้งานสำหรับผู้ใช้ทุกคนนั่นเอง
SiFive บริษัทผู้ผลิตซีพียู RISC-V ชื่อดัง เปิดเผยว่าซีพียูของตัวเองรุ่น SiFive Intelligence X280 ถูกนำไปใช้ในศูนย์ข้อมูลของกูเกิล เพื่อช่วยเร่งการประมวลผล AI/ML แล้ว
สิ่งที่กูเกิลทำคือนำ X280 ไปรันคู่กับหน่วยประมวลผล Tensor Processing Unit (TPU) ของตัวเอง เพื่อแบ่งเบาภาระงานบางอย่างออกจากหน่วยประมวลผลหลัก
ซีพียู SiFive X280 มีส่วนขยายชุดคำสั่งแบบเวกเตอร์ และรองรับการรวมรีจิสเตอร์เวกเตอร์เข้าด้วยกัน (รีจิสเตอร์ 512-bit x 32 ตัว) เพื่อให้ได้เวกเตอร์ยาวขึ้น (สูงสุดเป็น 4096 บิต) รวมถึงมีชุดคำสั่งคัสตอมสำหรับงาน AI/ML โดยเฉพาะด้วย จึงช่วยให้งานประมวลผล AI/ML มีประสิทธิภาพดีขึ้น
NVIDIA เผยแพร่ปัญญาประดิษฐ์ GET3D (Generate Explicit Textured 3D meshes) ที่สามารถสร้างโมเดล 3 มิติสำหรับใช้งานในเกมหรืองานกราฟิกต่างๆ ได้เป็นจำนวนมากภายในเวลาอันรวดเร็ว โดยโมเดลที่ได้มีความหลากหลายของรูปทรงและพื้นผิว ไม่ว่าจะเป็นโมเดลคน, สัตว์, สิ่งของ และสิ่งปลูกสร้างต่างๆ
NVIDIA ใช้วิธีเทรน GET3D ด้วยภาพ 2 มิติที่ได้จากการจับภาพโมเดล 3 มิติในหลากหลายมุมมอง ทีมงาน NVIDIA ใช้เวลา 2 วันในการเทรนมันด้วยภาพจำนวน 1 ล้านภาพ โดยใช้ A100 Tensor Core