Alphabet ประกาศตั้งบริษัทใหม่ชื่อ Isomorphic Labs มีเป้าหมายเพื่อปฏิวัติวงการยาด้วย AI โดยใช้ AlphaFold 2 อัลกอริทึมทำนายการพับตัวของโปรตีนจากบริษัท DeepMind
Demis Hassabis ซีอีโอของ DeepMind จะมานั่งเก้าอี้ควบเป็นซีอีโอของ Isomorphic Labs ด้วย เขาบอกว่าที่ผ่านมา DeepMind มีผลงานวิจัยด้าน AI มากมาย ตอนนี้ได้เวลานำมาประยุกต์ใช้กับอุตสาหกรรมอื่นๆ แล้ว ซึ่งเขามองว่าวงการชีววิทยาและการแพทย์เป็นเป้าหมายแรก
ชื่อ Isomorphic Labs หมายถึงการเชื่อมต่อกันระหว่าง biology และ information science เป็นความพยายามใช้คณิตศาสตร์มาแก้ปัญหาชีววิทยาที่ซับซ้อน โดย AlphaFold2 เป็นแค่ตัวอย่างแรก แต่จะมีอย่างอื่นๆ ตามมาอีก
ไมโครซอฟท์เปิดบริการ Azure OpenAI Service บริการปัญญาประดิษฐ์อาศัยโมเดล GPT-3 ที่ OpenAI เคยให้บริการวงปิดมาแล้วตั้งแต่ปีที่แล้ว โดยตัวบริการจริงๆ แล้วเหมือนเดิมแต่ทำงานร่วมกับ Azure ได้แนบแน่นมากขึ้น เช่นอยู่ในศูนย์ข้อมูลของ Azure เอง และกำหนดเงื่อนไขได้แบบเดียวกับบริการคลาวด์อื่นๆ รวมถึงการใช้งานในเน็ตเวิร์คภายในของบริษัท
ไมโครซอฟท์ได้สิทธิ์ใช้งานโมเดล GPT-3 แต่เพียงผู้เดียวมาตั้งแต่ปีที่แล้ว และก่อนหน้านี้ก็นำมาใช้งานกับบริการของไมโครซอฟท์เอง ก่อนหน้านี้ไมโครซอฟท์ก็เคยนำ GPT-3 มาใช้งานแปลงคำพูดปกติกลายเป็นโค้ด
Meta AI (หรือ Facebook AI เดิม) ร่วมมือกับมหาวิทยาลัย Carnegie Mellon สร้างเซ็นเซอร์รับสัมผัส (tactile sensor) ในชื่อ ReSkin ที่สามารถสร้างได้ง่าย ราคาถูก เปิดทางให้หุ่นยนต์ราคาถูกสามารถรับรู้แรงกดและทำงานประณีต เช่นการจับวัตถุบอบบางได้
ทีมวิจัยระบุว่า ReSkin นั้นสร้างได้ในราคาเพียง 200 บาทต่อชุดเมื่อผลิตทีละ 100 ชุด โครงสร้างของเซ็นเซอร์อาศัยแผ่น Elastomer ประกบอยู่กับเซ็นเซอร์ด้านล่าง โครงสร้างแบบนี้ทำให้ตัววงจรแยกออกจากตัว "ผิว" และการซ่อมบำรุงเมื่อผิวชำรุดก็เพียงลอกออกเท่านั้น ตัวเซ็นเซอร์มีความหนา 3 มิลลิเมตร สามารถอ่านค่าแรงกดได้ 400 ครั้งต่อวินาที ตัวผิวมีความทนทานประมาณ 50,000 ครั้ง
Canon เปิดตัว PowerShot PX กล้อง AI ถ่ายภาพอัตโนมัติโดยใช้เทคโนโลยีตรวจจับใบหน้าและค้นหาวัตถุในภาพ ซึ่งพัฒนาต่อมาจากโครงการ PowerShot PICK ที่เปิดตัวไปเมื่อต้นปี
ตัวกล้อง Canon PowerShot PX สามารถปรับหมุนตัวเองเพื่อติดตามวัตถุได้ โดยหมุนซ้ายไปจนขวาได้ 340 องศา (ซ้าย 170 องศา ขวา 170 องศา) และขึ้นลงได้ 110 องศา (ลง 20 องศา ขึ้น 90 องศา) ตัวกล้องมีเซนเซอร์ CMOS 1/2.3 พร้อมโปรเซสเซอร์ Canon DIGIC 7 พร้อมเลนส์ 19-57mm เท่ากับตัวเลนส์ซูมได้ 3 เท่า และมีดิจิทัลซูมอีก 4 เท่า สามารถถ่ายภาพได้ที่ 11.7 ล้านพิกเซลเฉพาะในรูปแบบ JPEG เท่านั้น และวิดีโอ 1080/60p เฉพาะในรูปแบบ .MP4 เท่านั้น
IBM ประกาศซื้อกิจการ McD Tech Labs บริษัทเทคโนโลยีของ McDonald’s ที่พัฒนาระบบรับออเดอร์อัตโนมัติ (Automated Order Taking - AOT) ที่ใช้ AI รับฟังคำสั่งเสียงจากลูกค้าในระบบไดรฟ์ทรู แทนการใช้คนแบบที่เป็นอยู่ในปัจจุบัน
McD Tech Labs เกิดจากการที่ McDonald's ซื้อกิจการบริษัท Apprente ในปี 2019 เพื่อพัฒนา AI ฟังคำสั่งซื้อของลูกค้า โดย McDonald's ระบุว่าการขายกิจการครั้งนี้ไม่ได้เป็นการเลิกทำ AOT แต่เป็นการโอนทีมด้าน AI ไปให้กับ IBM ที่เชี่ยวชาญเรื่องนี้มากกว่า มีสเกลในการขยายร้านอาหารที่รองรับสูงกว่า (McD Tech Labs จะเข้าไปอยู่ใต้ IBM Watson) และทั้งสองบริษัทจะยังพัฒนา AOT ร่วมกันต่อไป
AWS เริ่มให้บริการเครื่อง EC2 DL1 สำหรับฝึกปัญญาประดิษฐ์ โดยตัวเร่งความเร็วเป็นชิป Habana Gaudi ที่อินเทลซื้อบริษัทมาตั้งแต่ปี 2019 ความได้เปรียบสำคัญคือการฝึกปัญญาประดิษฐ์ราคารวมถูกกว่าเครื่องที่ใช้ชิปกราฟิกของ NVIDIA เช่น A100 หรือ V100
ทางฝั่ง AWS ระบุว่าเครื่อง DL1 ถูกกว่าประมาณ 40% แต่ทาง Habana แสดงผลทดสอบพบว่าการฝึก ResNet50 ถูกกว่า 44% แต่การฝึก BERT ถูกกว่าเพียง 10% โดยเครื่อง DL1.24xlarge ราคาอยู่ที่ 13.11 ดอลลาร์ต่อชั่วโมง (ชิป Gaudi 8 ชุดพร้อมแรม HBM 32 GB พร้อมแรมระบบ 768GiB)
นอกจากฟีเจอร์ด้านกล้องและการแปลภาษาพูดแบบเรียลไทม์แล้ว กูเกิลยังโชว์ฟีเจอร์ใหม่ของ Pixel 6 อีกอย่างคือ Direct My Call ที่ช่วยให้การติดต่อคอลล์เซ็นเตอร์เสียงอัตโนมัติง่ายขึ้น
คนที่เคยโทรไปคอลล์เซ็นเตอร์คงคุ้นเคยกับการฟัง "กด 1 เพื่อฟังข้อมูล กด 2 เพื่อแจ้งปัญหา" ที่ต้องใช้เวลาฟังนาน ถือสายนาน กว่าจะเจอเมนูที่ต้องการ
ฟีเจอร์ Direct My Call ใช้เทคโนโลยี Google Duplex ตัวเดียวกับที่เคยโชว์คุยโทรศัพท์แทนคน มาฟังเสียงพูดจากปลายทาง แล้วถอดเป็นข้อความแสดงขึ้นบนจอ พร้อมขึ้นปุ่มกดจริงๆ เป็นเลข 1-2-3 ให้ด้วยเลย
ทีมวิจัยจากมหาวิทยาลัย Erlangen-Nuremberg ในเยอรมนีรายงานถึงงานวิจัย ADOP ระบบเรนเดอร์ภาพหลากหลายมุมมองทำให้กล้องสามารถเคลื่อนไปมารอบวัตถุได้อย่างสมจริง
ADOP อาศัยภาพเริ่มต้น, จุดสามมิติของภาพ (point cloud), รุ่นกล้องถ่ายภาพ, และตำแหน่งของกล้องเพื่อสร้างภาพ โดยโมเดลปัญญาประดิษฐ์รับอินพุตเป็นภาพจากกล้องวิดีโอของวัตถุแต่ละชิ้นที่กำลังสร้างภาพสามมิติ จำนวนประมาณ 300-350 ภาพ โดยเก็บภาพไว้ 5% สำหรับการทดสอบระบบ จากนั้นนำภาพไปสร้าง point cloud จำนวนประมาณ 8-12 ล้านจุด
Mostafa Hassan นักวิจัยจาก NCC Group รายงานถึงการสร้างโมเดลปัญญาประดิษฐ์เพื่อทำนายผลจากตัวสร้างเลขสุ่มแบบ xorshift128 โดยอาศัยเพียงตัวเลขที่สุ่มออกมาสี่ตัวสุดท้ายเท่านั้น
xorshift128 เป็นตัวสร้างเลขสุ่มเทียม (pseudo random number generator - PRNG) ที่สร้างเลขที่ดูเหมือนสุ่มจากสถานะภายใน โดย PRNG ในกลุ่ม xorshift นั้นเป็นตัวสร้างเลขสุ่มที่ทำงานได้เร็ว วงจรหรือโค้ดเรียบง่ายไม่ซับซ้อน และเลขสุ่มที่ได้มีคุณภาพดีพอสมควร อย่างไรก็ดี xorshift ไม่ใช่ตัวสร้างเลขสุ่มสำหรับการเข้ารหัสลับ โดยมันไม่ทนทานต่อการทำนายตัวเลขสุ่มอยู่แล้ว แต่ที่ผ่านมาก็มักมีนักพัฒนาเผลอใช้ตัวเลขเลขสุ่มเหล่านี้ในโค้ดรักษาความปลอดภัยที่ควรใช้ตัวสร้างเลขสุ่มสำหรับการเข้ารหัสอยู่เรื่อยๆ
ก่อนโควิด-19 เรามักจะพูดถึงการเปลี่ยนแปลงทางเทคโนโลยีอยู่เสมอ คนในวงการเทคโนโลยี นักธุรกิจและผู้ประกอบการ ต่างอยากรู้อยากเห็นและคาดการณ์เทรนด์เทคโนโลยีไว้ล่วงหน้า 10 ปี 20 ปี เพื่อที่จะได้ตั้งรับและปรับตัวได้ทัน ในแง่การลงทุนก็เช่นกัน นักลงทุนมองหาเทรนด์ธุรกิจใหม่ๆ เพื่อบริหารความมั่งคั่ง และมีแนวโน้มที่จะลงทุนในเมกะเทรนด์ หรือเทรนด์ที่จะมามีส่วนสำคัญในธุรกิจกระแสหลักในอนาคตอันใกล้
DeepMind ยังคงเดินหน้าวิจัยสร้างปัญญาประดิษฐ์สำหรับทำนายรูปร่างโปรตีน หลังจากปีที่แล้ว AlphaFold สามารถทำนายโครงสร้างโปรตีนได้อย่างแม่นยำระดับเดียวกับการทดลอง งานวิจัยล่าสุดของ DeepMind ก็หันมาพยายามทำนายโครงสร้างโปรตีนที่มีหลายห่วงโซ่ (multi-chain protein) ที่ยังทำนายโครงสร้างได้ยากอยู่
DeepMind บริษัท AI ในเครือ Alphabet ประกาศความร่วมมือกับสำนักงานอุตุนิยมวิทยาของสหราชอาณาจักร (Met Office) สร้างอัลกอริทึมที่พยากรณ์อากาศได้แม่นยำในช่วงเวลาสั้นๆ (Nowcasting) เช่น บอกล่วงหน้าได้ก่อน 2 ชั่วโมงว่าจะมีฝนตกหรือไม่
โมเดลพยากรณ์อากาศในปัจจุบันใช้ระบบที่เรียกว่า numerical weather prediction (NWP) เป็นการพยากรณ์สภาพอากาศทั้งโลก (planet-scale) ล่วงหน้าเป็นเวลานานหลายวัน ปัญหาของโมเดลแบบเก่าคือพยากรณ์อากาศระยะสั้นไม่ได้
โมเดลใหม่ของ DeepMind เป็นการนำข้อมูลจากเรดาร์ตรวจอากาศความละเอียดสูง วัดค่าบ่อยๆ (เช่น วัดค่าในพื้นที่ 1 ตารางกิโลเมตรทุก 5 นาที) มาใช้พยากรณ์อากาศล่วงหน้าสั้นๆ ไม่เกิน 2 ชั่วโมง
เป็นเวลาระยะหนึ่งแล้วที่ Amazon ติดตั้งกล้องในรถส่งของโดยใช้เหตุผลเรื่องความปลอดภัย ไม่ใช่เพื่อจับตามองคนขับรถ ล่าสุดมีประเด็นดราม่าเกิดขึ้น เมื่อคนขับรถส่งของ Amazon รายหนึ่ง ไม่ระบุชื่ออ้างว่าเขาไม่ได้เงินโบนัสพิเศษ เพราะกล้อง AI เข้าใจพฤติกรรมการขับรถของเขาผิดไป
SIA Bangkok เอเจนซี่รายใหม่ในไทย เปิดตัว ไอ-ไอรีน Metaverse Human Virtual Influencer คนแรกในไทย เป็นหญิงสาววัย 21 ปี ตั้งเป้าเป็นเป็นพรีเซนเตอร์ ถ่ายแบบโฆษณา มิวสิควิดีโอ รีวิวสินค้า
ถือเป็นกรณีที่น่าสนใจ โดยก่อนหน้านี้ Sidus Studio X บริษัทจากเกาหลีสร้าง Rozy อินฟลูเอนเซอร์สาวเกาหลี สร้างโดย AI มีงานโฆษณาเข้าแล้วกว่า 100 ชิ้น อาจเป็นช่องทางใหม่สำหรับแบรนด์ในการโปรโมทสินค้าของตัวเองผ่าน Virtual Influencer
เฟซบุ๊กส่งแถลงขออภัยหลังระบบแนะนำวิดีโอขึ้นข้อความถามผู้ใช้ว่า "ต้องการชมวิดีโอเกี่ยวกับลิงอีกหรือไม่" ("keep seeing videos about primates") ทั้งที่วิดีโอเป็นภาพชายผิวดำ
ตอนนี้เฟซบุ๊กปิดการแนะนำวิดีโอในหมวดลิงออกไปแล้ว และกำลังหาสาเหตุของความผิดพลาดเพื่อป้องกันไม่ให้เกิดขึ้นอีก และยอมรับว่าปัญญาประดิษฐ์นั้นยังไม่สมบูรณ์
เมื่อปี 2015 บริการ Google Photos เองก็เคยผิดพลาดแบบเดียวกัน โดยแท็กภาพหญิงผิวดำและระบุว่าเป็นกอริลล่า
วันนี้ทางสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (AIResearch) และทีม PyThaiNLP ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย (Automatic Speech Recognition) ที่มีความแม่นยำทัดเทียมกับกูเกิล และบริษัทชั้นนำอื่น ๆ
โมเดลดังกล่าวฝึกฝนบนชุดข้อมูล Mozilla Common Voice 7.0 ที่ได้รับการบริจาคเสียงภาษาไทย จำนวน 133 ชั่วโมง ผู้พูด 7,212 คน (อ่านเพิ่มเติม ร่วมบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice) โดยฝึกกับโมเดล XLSR-Wav2Vec2 ของ Facebook
ทางสถาบันวิจัยได้ปล่อยโมเดลมาในรูปแบบลิขสิทธิ์ CC-BY-SA 4.0 และได้อัปโหลดขึ้น Hugging Face โดยสามารถใช้งานได้ผ่านไลบรารี transformers ในภาษาไพธอนได้
NVIDIA สาธิตปัญญาประดิษฐ์แปลงข้อความเป็นเสียง RAD-TTS ที่เคยเปิดตัวในงาน SIGGRAPH’s Real-Time Live จากเดิมที่เคยระบุว่า RAD-TTS สามารถแปลงข้อความเป็นเสียงโดยควบคุมได้อย่างละเอียดทั้งน้ำเสียง, ระยะเวลาเปล่งเสียง, และพลังในการเปล่งเสียง
การสาธิตรอบนี้แสดงให้เห็นว่าปัญญาประดิษฐ์สามารถแปลงเสียงจากโปรดิวเซอร์ให้กลายเป็นเสียงสังเคราะห์โดยยังเก็บน้ำหนักเสียง, อารมณ์ไว้ได้ครบ แม้เสียงที่สังเคราะห์ออกมาจะเป็นคนละเพศกับผู้พูดก็ตามที และเนื่องจากตัวปัญญาประดิษฐ์สร้างเสียงจากข้อความ ทำให้ก่อนสังเคราะห์เสียงเราสามารถปรับแต่งน้ำโทนเสียงให้ต่างจากตอนบันทึกได้ตามต้องการ
โรคกล้ามเนื้ออ่อนแรง (amyotrophic lateral sclerosis - ALS) เป็นโรคที่ทำให้ผู้ป่วยค่อยๆ ไม่สามารถควบคุมออกแรงกล้ามเนื้อไปเรื่อยๆ จนกระทั่ง ไม่สามารถขยับร่างกาย, พูด, ทานอาหาร, หรือหายใจได้ บุคคลหนึ่งในวงการวิทยาศาสตร์ที่เป็นโรคนี้คือ Stephen Hawking ที่ยังคงทำงานอย่างต่อเนื่องรวมถึงการบรรยายตามโอกาสต่างๆ ผ่านคอมพิวเตอร์แปลงข้อความเป็นเสียง ล่าสุดกูเกิลนำเสนอโมเดลปัญญาประดิษฐ์ในโครงการ Euphonia ช่วยแปลงข้อความเป็นเสียงของ Steve Gleason อดีตนักกีฬาอเมริกันฟุตบอล และผู้รณรงค์ถึงโรค ALS
โมเดลที่กูเกิลนำเสนอคือ PnG NAT ที่รวมเอาสองโมเดลปัญญาประดิษฐ์ก่อนหน้านี้ คือ PnG BERT และ Non-Attentive Tacotron (NAT) เข้าเป็นโมเดลเดียวกัน
SenseTime Group สตาร์ทอัพด้าน AI ที่ใหญ่ที่สุดของจีน ยื่นเอกสารไฟลิ่งเพื่อนำบริษัทเข้าตลาดหุ้นฮ่องกงแล้วเมื่อวันศุกร์ที่ผ่านมา โดยคาดว่าจะออกหุ้นไอพีโออีก 2,000 ล้านดอลลาร์
ในเอกสารนี้ SenseTime ระบุความเสี่ยงของธุรกิจเอาไว้ด้วยว่า อาจได้รับผลกระทบจากข้อกำหนดจากกฎหมาย หลังจากจีนออกร่างที่ส่งผลกระทบต่อบริษัทเทคโนโลยีในช่วงที่ผ่านมา แต่สถานการณ์ตอนนี้ยังไม่ชัดเจน
ผลิตภัณฑ์ของ SenseTime ที่เป็นที่รู้จักกว้างขวางคือซอฟต์แวร์ตรวจจับใบหน้าบุคคลในที่สาธารณะ ซึ่งมีการใช้งานหลายที่ในจีน แต่บริษัทมีผลิตภัณฑ์ด้าน AI อื่น ทั้งที่ใช้ทั้งในรถยนต์ไร้คนขับ, AR, การแพทย์ และสมาร์ทซิตี้
มหาวิทยาลัยกรุงเทพ เลือกใช้งานระบบโครงสร้างพื้นฐานไอทีจากไอบีเอ็ม โดยคอมพิวเตอร์ยูเนี่ยนพาร์ตเนอร์ผู้เชี่ยวชาญเป็นผู้ติดตั้งระบบ ชูจุดเด่นสร้างวิศวกรปัญญาประดิษฐ์ที่พร้อมทำงานได้จริง
Michael Williams วัย 65 ปีถูกตัดสินจำคุกข้อหาฆาตกรรม Safarian Herring วัย 25 ปี และหลักฐานหนึ่งที่บ่งชี้คือ AI ตรวจจับเสียงปืนของบริษัท ShotSpotter
Tesla เปิดตัวชิปฝึกโมเดลปัญญาประดิษฐ์ของตัวเอง เป็นสถาปัตยกรรมเฉพาะชื่อว่า Dojo โดยชิปแต่ละตัวเป็นคอร์ขนาดเล็กพร้อมชุดคำสั่งประมวลผลข้อมูลแบบเวคเตอร์และเมทริกซ์ เชื่อมต่อกับคอร์อื่นๆ ด้วยช่องทางเชื่อมต่อแบนวิดท์สูง
ชิป D1 สถาปัตยกรรม Dojo แต่ละตัวมีซีพียูหรือที่ทาง Tesla เรียกว่า Training Node จำนวน 354 ชุด พลังประมวลผลรวม 362 เทราฟลอบ (ที่ bfloat16) เชื่อมต่อข้อมูลนอกชิปได้ 16 เทราไบต์ต่อวินาที (ด้านละ 4 เทราไบต์ต่อวินาที) ตัวชิปมีสเปคปล่อยความร้อน 400 วัตต์
ในงาน AI Day วันนี้ Tesla รายงานถึงการปรับเปลี่ยนสถาปัตยกรรมซอฟต์แวร์ปัญญาประดิษฐ์ที่ใช้ในระบบขับรถอัตโนมัติ เปลี่ยนรูปแบบจากการใช้ปัญญาประดิษฐ์ประมวลผลภาพจากกล้องแต่ละตัว (ในรถมีกล้อง 8 ตัว) มาเป็นโมเดลที่ซับซ้อนขึ้น สามารถประมวลผลจากกล้องได้พร้อมกัน
โมดเดลปัญญาประดิษฐ์ของ Tesla มีหน้าที่สำคัญคือแปลงภาพจากกล้องรอบรถให้กลายเป็นภาพมุมมองด้านบน เพื่อวางแผนการขับขี่ การจับวัตถุจากกล้องแต่ละตัวแยกจากกันทำให้ไม่แน่ใจว่ารถที่เห็นจากกล้องแต่ละตัวเป็นรถคันเดียวกันหรือไม่ ระบบควบคุมที่มองภาพรวมทำให้มองเห็นว่าสภาพแวดล้อมโดยรวมเป็นอย่างไร
หลังจากแอปเปิลใส่โมเดล NeuralHash ไว้ใน iOS ก่อนที่จะเปิดใช้งานฟีเจอร์ตรวจสอบภาพโป๊เด็กก่อนอัพโหลดขึ้น iCloud Photos และมีนักพัฒนาไปพบโมเดลจนแปลงกลับออกมาเป็นฟอร์แมต ONNX เพื่อรันบนพีซี ตอนนี้ Anish Athalye นักวิจัยจาก MIT CSAIL ก็แสดงโค้ดสาธิตการสร้างภาพหลอกเพื่อแปลงภาพใดๆ ให้ค่าแฮชตรงกับภาพเป้าหมาย
ผู้ใช้ GitHub ชื่อบัญชี AsuharietYgvar ระบุว่าเขาพบโมเดลปัญญาประดิษฐ์สำหรับการแฮชภาพแบบ NeuralHash ที่แอปเปิลระบุว่าจะใช้งานสำหรับการตรวจสอบภาพโป๊เด็กก่อนอัพโหลดขึ้น iCloud Photos
โมเดลที่ AsuharietYgvar อ้างว่าอยู่ใน iOS รับภาพขนาด 360x360 พิกเซล และคืนค่าออกมาเป็นแมทริกซ์ขนาด 96x128 แต่โค้ดส่วนต่อมาของแอปเปิลจะแปลงค่าแฮชจนเหลือขนาด 96 บิตเท่านั้น