MLCommons หน่วยงานกลางสำรวจประสิทธิภาพคอมพิวเตอร์ด้าน machine learning และปัญญาประดิษฐ์ออกรายงานเวอร์ชั่น 1.0 โดยมีผู้เข้าร่วมน่าสนใจได้แก่ NVIDIA ที่ส่งเครื่อง DGX-A100 เข้าทดสอบ, อินเทลส่ง Xeon Platinum 8380, กูเกิลส่ง TPUv4 ที่ยังไม่เปิดให้บริการทั่วไป, และ Graphcore สตาร์ตอัพปัญญาประดิษฐ์ส่งเครื่อง IPU-POD เข้าจัดอันดับ
Alexa ผู้ช่วยอัจฉริยะของ Amazon เพิ่มความสามารถ Reading Sidekick ช่วยพัฒนาการอ่านในเด็ยอายุ 6-9 ปี ใช้งานได้ในผู้ใช้งานที่สมัครเป็นสมาชิกพรีเมี่ยม Amazon Kids+
วิธีการทำงานของ Reading Sidekick คือ พูด Alexa, let’s read ไปยังอุปกรณ์ Echo หลังจากนั้นก็บอกชื่อหนังสือที่อยากอ่าน (เป็นหนังสือหรืออีบุ๊กที่ Reading Sidekick รองรับ) ระบุคำสั่งเรียบร้อยแล้ว Reading Sidekick จะช่วยเด็กอ่านหนังสือด้วยการอ่านออกเสียง สลับกับเด็ก เด็กๆ สามารถระบุได้ว่าอยากอ่านมากขนาดไหน เช่น สลับอ่านกันคนละย่อหน้า หรือคนละหน้า
ในงาน Google I/O ที่ผ่านมากูเกิลสาธิตปัญญาประดิษฐ์ที่เตรียมใช้กับ Google Search สองตัว คือ MUM สำหรับทำความเข้าใจข้อมูลและแสดงผล และ LaMDA สำหรับทำความเข้าใจคำถามของผู้ใช้ วันนี้กูเกิลก็ระบุว่าเริ่มนำ MUM มาใช้งานจริงกับการแสดงผลค้นหาเกี่ยวกับ COVID-19 แล้ว
ตอนนี้กูเกิลใช้ MUM ทำความเข้าใจว่าผู้ใช้พูดถึงวัคซีน COVID-19 อยู่หรือไม่ จากเดิมที่ใช้เจ้าหน้าที่ระบุคำสำคัญที่มักใช้เวลานับร้อยชั่วโมง แต่ MUM สามารถแสดงคำที่แปลว่าวัคซีน COVID-19 ได้ถึง 800 คำกระจายไป 50 ภาษา โดยใส่ชื่อทางการของวัคซีนเป็นตัวอย่างไปไม่กี่ชื่อเท่านั้น
GitHub ร่วมมือกับ OpenAI สร้างบริการ GitHub Copilot บริการช่วยเขียนโปรแกรมโดยอ่านทำความเข้าใจจากคอมเมนต์, ชื่อฟังก์ชั่น, หรือแม้แต่ตัวอย่างโค้ดก่อนหน้า
ปัญญาประดิษฐ์ของ OpenAI ตัวเดิมอย่าง GPT-2 เคยเขียนโค้ดได้บางส่วนมาแล้วแม้ไม่ได้ฝึกมาโดยเฉพาะ รอบนี้ทาง GitHub ใช้ปัญญาประดิษฐ์ OpenAI Codex ที่ระบุว่ามีความสามารถมากกว่า GPT-3 และฝึกด้วยซอร์สโค้ดโปรแกรมเป็นหลัก โดยรวมใช้ซอร์สโค้ดกว่าหมื่นล้านบรรทัด ทำให้มีความสามารถในการเขียนโปรแกรมสูงขึ้น
Adobe เปิดตัว Substance 3D เครื่องมือออกแบบงานสามมิติ มี AI หรือ Adobe Sensei เป็นแกนหลักในการช่วยทำงาน และเป็นเครื่องมือที่ได้มาจากการเข้าซื้อบริษัท Allegorithmic ผู้พัฒนาเครื่องมือทำรายละเอียดภาพสามมิติที่ใช้ในเกมและภาพยนตร์
NVIDIA เปิดตัว Canvas แอปแปลงภาพวาดระบายสีดูเดิ้ล ให้กลายเป็นภาพวิวทิวทัศน์สมจริง โดยสามารถดาวน์โหลดโปรแกรมเวอร์ชันเบต้าได้แล้ว และคอมพิวเตอร์ต้องมี NVIDIA RTX GPU
โปรแกรม Canvas ทำงานโดยใช้ปัญญาประดิษฐ์ GauGAN ที่ NVIDIA นำเสนอครั้งแรกในปี 2019 ซึ่งเมื่อเป็นรูปแบบของโปรแกรม Canvas ก็ทำให้การใช้งานสะดวกมากยิ่งขึ้น
ในเวอร์ชันเบต้านี้ผู้ใช้งานสามารถเลือกองค์ประกอบในภาพได้ 15 แบบ อาทิ ภูเขา ก้อนหิน ทะเล
ที่มา: NVIDIA
Tesla โชว์ซูเปอร์คอมพิวเตอร์ Dojo ที่ใช้ภายในบริษัท เป้าหมายเพื่อเทรน AI สำหรับฟีเจอร์ Autopilot
Andrej Karpathy หัวหน้าฝ่าย AI ของ Tesla โชว์ซูเปอร์คอมพิวเตอร์ตัวนี้ในงานสัมมนา 2021 Conference on Computer Vision and Pattern Recognition โดยสเปกเท่าที่เปิดเผยคือ
Google Cloud เปิดบริการใหม่ Visual Inspection AI บริการปัญญาประดิษฐ์ตรวจสอบภาพแต่ออกแบบเฉพาะทางสำหรับการผลิตสินค้าโดยเฉพาะ เช่น ตรวจสอบการผลิตบอร์ดอิเล็กทรอนิกส์ว่ามีอุปกรณ์ขาดหายไป
ก่อนหน้านี้กูเกิลมีบริการ AutoML Vision ที่คล้ายกันอยู่แล้ว แต่กูเกิลระบุว่าบริการ Visual Inspection AI นี้จะใช้ข้อมูลฝึกปัญญาประดิษฐ์น้อยกว่ามาก และไม่ได้ฝึกแค่ชิ้นส่วนต่างออกไปจากปกติ (deviate) แต่สามารถฝึกแยกประเภทของความผิดพลาดได้ด้วย
โมเดลที่ฝึกออกมาแล้วสามารถรันบน Google Cloud หรือใช้งานแบบคอนเทนเนอร์ในเซิร์ฟเวอร์ขององค์กรเองก็ได้ โดยกูเกิลคิดค่าบริการจากชั่วโมงในการฝึกโมเดล และคิดค่าวิเคราะห์ภาพเป็นรายภาพ
NVIDIA เปิดตัวโมดูล Jetson AGX Xavier Industrial โมดูลสำหรับใช้งานในสภาพแวดล้อมอันตราย, ร้อน, มีฝุ่นมาก, และเสียงดัง เช่นในโรงงานอุตสาหกรรม โดยตัวบอร์ดภายในเป็น Jetson AGX Xavier เดิม
สเปคสำคัญของโมดูลใหม่นี้เป็น ได้แก่
ตัวโมดูล Jetson Xavier นั้นออกมาสามปีแล้ว สถาปัตยกรรมภายในยังเป็น Volta มี Tensor Core ทั้งหมด 64 คอร์ ตัวซีพียูเป็น Arm Cortex-R5 สองคอร์
ปัจจุบันระบบจดจำใบหน้ามีการใช้งานทั้งในแง่ความสะดวกสบายอย่างการสแกนใบหน้าเพื่อทำธุรกรรมและการยืนยันตัวตนเพื่อความปลอดภัยในการทำกิจกรรมต่างๆ บนออนไลน์ ระบบจดจำใบหน้ายังถูกใช้งานในแง่ความมั่นคงและสอดส่องประชาชนด้วย
ล่าสุดเว็บไซต์ Motherbord ออกรายงานพบว่าตอนนี้หลายๆ บริษัทเทคโนโลยีกำลังวิจัยพัฒนาระบบอ่านริมฝีปาก เริ่มจาก Liopa เป็นสตาร์ทอัพในไอร์แลนด์ พัฒนาแอปพลิเคชั่น SRAVI (Speech Recognition App for the Voice Impaired) เป็นแอปอ่านปากเพื่อประโยชน์ทางการแพทย์ ในกรณีที่คนไข้ต้องการอะไรบางอย่างแต่ไม่สามารถเปฃ่งเสียงพูดออกมาได้ ก็สามารถใช้แอป SRAVI ช่วยอ่านริมฝีปากคนไข้ โดยขณะนี้ SRAVI กำลังอยู่ในขั้นตอนขอใบรับรองเป็นหนึ่งในอุปกรณ์การแพทย์
Facebook เปิดตัว TextStyleBrush โครงการวิจัยด้าน AI ที่สามารถลอกเลียนรูปแบบตัวอักษร โดยใช้เพียงรูปภาพข้อความคำเดียว ทำให้สามารถสร้างข้อความอื่นจากแบบอักษรเดียวกันได้
การทำงานของ TextStyleBrush แบ่งเป็นสองส่วนคือการอ่านตัวอักษรที่อยู่ในภาพ input และการเรียนรู้รูปแบบตัวอักษรด้วยตนเองเพื่อลอกเลียนซ้ำ
รูปแบบตัวอักษรที่อยู่ในโครงการ มีทั้งตัวอักษรจากป้ายต่าง ๆ ไปจนถึงลายมือก็ทำได้เช่นเดียวกัน อย่างไรก็ตามสถานะโครงการนี้อยู่ในขั้นตอนวิจัย แต่ Facebook มองว่าเป็นโอกาสในการสร้างสรรค์ลูกเล่นใหม่ ๆ อย่างเช่นการทำเครื่องมือแปลภาษาบน AR
ไมโครซอฟท์ประกาศอัพเดตแพลตฟอร์ม Power Apps ให้มีปัญญาประดิษฐ์มาช่วยเขียนโค้ด โดยแบ่งเป็นสองฟีเจอร์ คือการเขียนโค้ดด้วยประโยคธรรมชาติ และการเขียนโปรแกรมโดยใส่ตัวอย่างเอาท์พุต
การเขียนโปรแกรมด้วยภาษาธรรมชาติ อาศัยปัญญาประดิษฐ์ GPT-3 จูนมาพิเศษสำหรับการสร้างสูตร Power Fx ทำให้ผู้ใช้สามารถเขียนโปรแกรมด้วยภาษาเหมือนพูดกับคนจริงๆ ส่วนการเขียนโปรแกรมตามตัวอย่าง (Programming by examples - PBE) ทำงานคล้ายกัน เพียงแต่ใส่เอาท์พุตที่ต้องการ บางครั้งใส่เพียงตัวอย่างเดียว ตัว GPT-3 ก็สามารถสร้างสูตรที่จำเป็นออกมาได้
เฟซบุ๊กรายงานความสำเร็จในการสร้างปัญญาประดิษฐ์แปลงเสียงเป็นข้อความ (speech recognition) ในชื่อ wav2vec-U โดยมีจุดเด่นคือเป็นปัญญาประดิษฐ์ที่ฝึกแบบ unsupervised ที่เป็นการฝึกปัญญาประดิษฐ์โดบไม่ต้องการข้อมูลตัวอย่างโดยตรง
การสร้างปัญญาประดิษฐ์แปลงเสียงเป็นข้อความโดยปกติแล้วจะต้องใช้ชุดข้อมูลคู่กันระหว่างเสียงและข้อความที่แปลงไว้ก่อนหน้า (labeled data) เพื่อให้ปัญญาประดิษฐ์พยายามเลียนแบบ กระบวนการสร้างชุดข้อมูลนี้มีต้นทุนสูงที่ต้องแปลงข้อมูลเสียงเป็นข้อความนับพันชั่วโมง และในภาษาที่มีชุดข้อมูลอยู่น้อยก็สามารถฝึกปัญญาประดิษฐ์ได้ยาก
PornHub เปิดตัวโปรเจกต์ The Remastured ใช้ AI คืนค่าสีผิว และปรับความคมชัดให้หนังอีโรติกยุคเก่าที่มีอายุมากกว่า 125 ปี โดยใช้ชุดข้อมูลภาพและวิดีโอสำหรับผู้ใหญ่ร่วม 100,000 ภาพเพื่อสอน AI ในการทำให้ภาพยนตร์มีสีสัน
PornHub ระบุว่า ตัวกระบวนการเริ่มต้นด้วยการลดจุดรบกวนและการทำให้ภาพคมชัด เร่งวิดีโอให้เล่นที่ความชัดแบบ 4K ที่ 60 เฟรมต่อวินาที รวมทั้งเพิ่มเสียงและซาวด์แทร็กใหม่
ตัวอย่างหนังในโปรเจกต์เช่น The Kiss ในปี 1896 สร้างโดยบริษัทของ Thomas Edison ที่คาดว่าเป็นฉากจูบแรกของโลก และภาพยนตร์สั้นในปี 1897 จาก Georges Méliès ผู้สร้างภาพยนตร์ในตำนานที่เรียกว่า After the Ball เป็นต้น
Chrome มีฟีเจอร์ Password Manager คอยแจ้งเตือนเมื่อพบรหัสผ่านรั่ว มาได้สักพักใหญ่ๆ แล้ว ปัญหาที่ตามมาคือการเข้าเว็บไซต์นั้นๆ เพื่อเปลี่ยนรหัสผ่านมีความยุ่งยาก ต้องมีกระบวนการหลายขั้นตอน
ล่าสุดในงาน Google I/O กูเกิลประกาศว่า Chrome สามารถเข้าไปเปลี่ยนรหัสผ่านในเว็บไซต์แทนเราได้แล้ว ผู้ใช้เพียงแค่กดปุ่ม Change Password ใน Chrome แล้วกรอกรหัสผ่านใหม่ที่ต้องการ เป็นอันเสร็จสิ้น
ในงาน Google I/O ปีนี้ กูเกิลสาธิตปัญญาประดิษฐ์ LaMDA ที่ออกแบบมาเพื่อบทสนทนาโดยเข้าใจเรื่องราวที่กำลังคุยกันอยู่ แม้กูเกิลจะสร้าง LaMDA และรายงานผลการพัฒนามาตั้งแต่ต้นปี 2020 แต่กูเกิลก็พบว่าสามารถนำโมเดลปัญญาประดิษฐ์มาฝึกเรื่องราวเฉพาะทางได้
กูเกิลสาธิตการใช้งานด้วยการให้ LaMDA เป็นเครื่องบินกระดาษ ผู้ใช้สามารถสนทนากับเครื่องบินกระดาษได้เหมือนเป็นตัวละครสมมติ เช่น ผู้ใช้ถามว่า "คุณเป็นเครื่องบินกระดาษที่ดีไหม" ตัว LaMDA จะถามกลับได้ว่า "ขึ้นกับคำว่าดีแปลว่าอะไร บางคนอาจจะแปลว่าบินได้ไกล บางคนอาจจะแปลว่าบินได้ตรง"
กูเกิลกำลังตรวจสอบว่า LaMDA สามารถตอบคำถามได้อย่าง "ถูกต้อง" จริงหรือไม่ หรือแค่ตอบคำถามที่ดู "สมเหตุสมผล" เท่านั้น ก่อนจะนำ LaMDA ไปใช้งานกับบริการจริง
ในงาน Think 2021 ของ IBM มีประกาศเปิดตัวโปรเจกต์ CodeNet ชุดข้อมูลขนาดใหญ่ที่สร้างขึ้นเพื่อสอน AI เขียนโปรแกรม โดยชุดข้อมูลประกอบด้วยตัวอย่างโค้ด 14 ล้านชุดรวม 500 ล้านบรรทัด และในภาษาโปรแกรมที่แตกต่างกันไปกว่า 55 ภาษา ตั้งแต่ที่ยังมีนิยมใช้งานคือ C++, Java, Python และ Go ไปจนถึงภาษาดั้งเดิมอย่าง COBOL, Pascal และ FORTRAN
DeepMind บริษัท AI ในเครือ Alphabet ที่เรารู้จักกันดีจาก AlphaGo เริ่มบุกไปยังวงการใหม่คือ "ฟุตบอล" โดยร่วมกับสุดยอดสโมสรฟุตบอลจากอังกฤษ Liverpool FC ทำวิจัยเรื่องการนำ AI มาใช้งานในวงการฟุตบอล
นักวิจัยจากทั้งสองหน่วยงานทำงานร่วมกันมาสักระยะหนึ่ง แล้วเพิ่งตีพิมพ์เปเปอร์วิจัยชื่อ Game Plan:
What AI can do for Football, and What Football can do for AI ที่รวบรวมผลลัพธ์ (เบื้องต้น) ว่าสามารถนำ AI มาใช้กับเกมกีฬาได้อย่างไรบ้าง
ข้อสรุปเบื้องต้นของทีมวิจัยคือ การนำ AI มาใช้กับฟุตบอลแบ่งออกเป็น 3 แขนง ได้แก่
ทีมวิจัยจาก Google Research นำเสนอเฟรมเวิร์ค Total Relighting สำหรับการทำภาพตัดต่อโดยที่แสงในภาพมีความสมจริงเหมือนกับคนในภาพอยู่ในสถานที่ฉากหลังนั้นจริง
Total Relighting อาศัยโมเดลปัญญาประดิษฐ์หลายชุดประกอบกัน ได้แก่
โดเมลเหล่านี้เคยมีงานวิจัยก่อนหน้าแล้วทั้งสิ้น แต่ทีมวิจัยก็นำแสดงให้เห็นว่า โมเดลที่ใช้ในชุดงานวิจัยนี้ให้ผลลัพธ์ที่ดีกว่างานก่อนหน้า แต่ยังมีข้อจำกัดสำคัญคือการให้แสงเงาเสื้อผ้านั้นยังไม่ดีนัก เนื่องจากชุดข้อมูลสำหรับฝึกยังมีข้อมูลเครื่องแต่งกายไม่หลากหลายพอ
Google Assistant เพิ่มฟังก์ชั่นใหม่หลายอย่าง อย่างแรกคือให้ผู้ใช้งานสอน AI อ่านออกเสียงคำที่ออกเสียงยากโดยเฉพาะชื่อคน ผู้ใช้งานสามารถกดอัดเสียงตัวเองเข้าไปเพื่อสอนให้ Google Assistant อ่านออกเสียงตามได้ถูกต้องในภายหลัง เมื่อแอปอัพเดตแล้วจะมองเห็นช่องทางให้สอนอ่านออกเสียง กดที่ Record your own เพื่ออัดเสียงของตัวเองเข้าไป กูเกิลบอกด้วยว่า ระบบไม่บันทึกเสียงของผู้ใช้ และเริ่มใช้งานในภาษาอังกฤษก่อน
ฟังก์ชั่นถัดมาคือการตั้งเวลา ปัจจุบันผู้ใช้งานมักใช้ Google Assistant ในการตั้งเวลาหรือตั้งปลุกเพื่อทำอะไรบางอย่าง ล่าสุดกูเกิลพัฒนาการรับรู้ Google Assistant ให้ฉลาดมากขึ้นเมื่อเปลี่ยนคำสั่งกลางคัน
สหภาพยุโรป เสนอร่างข้อกำหนดควบคุมการใช้ AI โดยจะเป็นนโยบายแรกของโลกในการกำกับดูแลและกำหนดขอบเขตของบริษัทว่าสามารถใช้ AI ได้ถึงระดับไหน เนื่องจาก AI ยังมีปัจจัยเสี่ยงหลายอย่าง ทั้งการคุกคามความเป็นส่วนตัว และความโน้มเอียง
ตัวร่างข้อกำหนดความยาว 108 หน้า แบ่งความเสี่ยง AI เป็น 4 ขั้น
ไอบีเอ็มประกาศบรรลุข้อตกลงเพื่อซื้อกิจการ myInvenio บริษัทซอฟต์แวร์ด้าน Process Mining จากอิตาลี โดยไม่เปิดเผยมูลค่าของดีล ซึ่งผลิตภัณฑ์ของ myInvenio จะนำมาเสริมกับบริการตามกลยุทธ์ด้านไฮบริดคลาวด์ และเอไอ ของไอบีเอ็ม
Dinesh Nirmal ผู้จัดการทั่วไปของ IBM Automation กล่าวว่าการเปลี่ยนผ่านองค์กรไปสู่ดิจิทัลที่เกิดขึ้นตอนนี้ ทำให้หลายบริษัทพบความท้าทายในการจัดการระบบด้านไอทีที่สำคัญ ควบคู่ไปกับแอพพลิเคชั่นทางธุรกิจที่ซับซ้อน ซึ่งถูกขยายไปใช้งานบนไฮบริดคลาวด์มากขึ้น การซื้อกิจการ myInvenio เข้ามา ทำให้ธุรกิจสามารถนำเอไอมาใช้ในงานที่เป็น Automation ได้สะดวกขึ้น
เฟซบุ๊กเปิดชุดข้อมูล Casual Conversations เป็นวิดีโอของนักแสดง 3,011 คน รวมกว่า 45,186 วิดีโอ ที่มีข้อมูลเพศ, อายุ, สีผิว, และสภาพแสง เพื่อใช้ตรวจสอบโมเดลปัญญาประดิษฐ์ว่ามีการโน้มเอียง (bias) ผลการทำนายค่าต่างๆ กับคนกลุ่มใดเป็นพิเศษหรือไม่
แม้ว่าปัญญาประดิษฐ์จะมีประสิทธิภาพดีขึ้นมากในช่วงหลัง แต่เนื่องจากชุดข้อมูลที่ใช้ฝึกอาจจะไม่ได้ตรวจสอบว่ากระจายครบถ้วนทุกกลุ่มประชาชน หรือชุดข้อมูลเน้นกลุ่มประชากรบางกลุ่มเป็นพิเศษทำให้เกิดเหตุการณ์ผิดพลาดเช่น ซอฟต์แวร์ตรวจโรคไม่ได้แนะนำให้คนบางเชื้อชาติไปรักษา แม้จะมีอาการครบก็ตาม
เมื่อเดือนที่แล้วกูเกิลประกาศปัญญาประดิษฐ์ Lyra สำหรับการเข้ารหัสและถอดรหัสเสียง ทำให้สามารถส่งข้อมูลเสียงพูดได้โดยใช้แบนวิดท์ต่ำเพียง 3kbps เท่านั้น วันนี้กูเกิลก็ประกาศโอเพนซอร์สโครงการ Lyra ให้ใช้งานได้ฟรี
โครงการ Lyra โอเพนซอร์สนี้เป็นไลบรารีภาษา C++ สามารถคอมไพล์ได้บนลินุกซ์และแอนดรอยด์ ตัวโครงการมาพร้อมกับตัวอย่างแอปแอนดรอยด์ที่ใช้อัดเสียงและเล่นเสียงกลับมาเพื่อทดสอบคุณภาพเสียงหลังเข้ารหัสด้วย Lyra
โครงการใช้สัญญาอนุญาตแบบ Apache 2.0 แต่มีไบนารีในไฟล์ libsparse_inference.so ที่ไม่สามารถเปิดซอร์สออกมาได้เนื่องจากติดเงื่อนไขคอมไพล์เลอร์เฉพาะทาง
ทีมวิจัยจากสถาบันวิทยสิริเมธี (Vidyasirimedhi Institute of Science and Technology - VISTEC) เสนองานวิจัย NeX ระบบแปลงภาพถ่ายที่มีความลึก (multiplane image - MPI) มาเป็นภาพสามมิติที่สมจริง
ภาพแบบ MPI เป็นภาพที่เราเห็นบ่อยขึ้นในเฟซบุ๊ก แม้จะคล้ายภาพสามมิติแต่ภาพแต่ละชั้นก็ยังแบนๆ บอกได้เพียงว่าชั้นใดอยู่หน้าหลังเท่านั้น แต่ NeX สามารถเรนเดอร์ภาพออกมาได้เหมือนกำลังมองภาพสามมิติอย่างสมบูรณ์ แม้แต่แสงเงาก็สมจริง
นอกจาก NeX จะสามารถสร้างภาพที่สมจริงแล้ว ทีมวิจัยยังระบุว่าประสิทธิภาพการสร้างภาพก็ดีกว่างานวิจัยที่เคยเสนอมากว่าพันเท่าตัวทำให้สามารถเรนเดอร์ในอุปกรณ์พลังประมวลผลไม่สูงนัก เช่น โทรศัพท์มือถือได้