Be My Eyes แอปช่วยเหลือสำหรับผู้มีปัญหาด้านการมองเห็น ซึ่งใช้การวิดีโอคอลขอความช่วยเหลือจากอาสาสมัคร ประกาศเพิ่มความสามารถใหม่โดยใช้โมเดล GPT-4 ของ OpenAI ที่เพิ่งเปิดตัวไป
ฟีเจอร์ใหม่ที่เพิ่มมาด้วยความสามารถของ AI นี้ เรียกชื่อว่า Virtual Volunteer มีเป้าหมายให้ทำงานได้ในระดับเดียวกับอาสาสมัคร โดยสามารถให้รายละเอียดของภาพที่เห็น พร้อมคำแนะนำเพิ่มเติมที่เกี่ยวเนื่อง ซึ่งเป็นความสามารถใหม่เพิ่มเติมของ GPT-4
Tamás Nemes เป็นเด็กหนุ่มชาวเยอรมันวัยเพียง 18 ปี สิ่งที่ทำให้เขาเป็นที่รู้จักในระดับประเทศคือผลงานการประดิษฐ์กล้องห้อยคอที่มาพร้อมระบบ computer vision ที่ใช้ปัญญาประดิษฐ์ช่วยจำแนกสิ่งที่กล้องมองเห็นและจำแนกวัตถุในภาพเหล่านั้น
การจำแนกวัตถุจากภาพของกล้องนั้นทำไปเพื่อบอกเสียงแจ้งเตือนแก่ผู้ใช้ซึ่งมีปัญหาด้านการมองเห็นให้ได้รับรู้ว่ามีกีดขวางอะไรอยู่รอบตัวผู้ใช้บ้าง และช่วยให้เข้าใจสภาพแวดล้อมโดยรอบได้ดีขึ้น
ทีมนักวิจัยจาก Cornell University พัฒนาอัลกอริทึมของปัญญาประดิษฐ์เพื่อศึกษาเทปการแข่งขันกีฬาวอลเลย์บอล จนทำให้มันเข้าใจเกมและสามารถทำนายการเคลื่อนที่ของผู้เล่น และวิธีการที่ผู้เล่นจะเลือกใช้ในจังหวะต่อไปได้แม่นยำเกิน 80%
การทำงานของอัลกอริทึมจะอาศัยข้อมูลรอบด้านเพื่อทำนายการเคลื่อนที่หรือการตัดสินเลือกวิธีการเล่นของผู้เล่นในสนาม โดยอาศัยทั้งข้อมูลจากระบบ computer vision ควบคู่ไปกับข้อมูลที่มีการป้อนให้แก่ปัญญาประดิษฐ์โดยตรง เพื่อให้ระบบปัญญาประดิษฐ์เข้าใจข้อมูลแวดล้อมของการแข่งขันเพื่อใช้ประกอบการทำนายได้แม่นยำยิ่งขึ้น
Canon เปิดตัวแอป Photo Culling แอปสำหรับแนะนำคัดรูปภาพโดยใช้ Computer Vision Artificial Intelligence Engine ของ Canon ที่จะแนะนำรูปภาพที่ควรเก็บไว้ในกลุ่มภาพที่ถ่ายมาจำนวนมาก
Canon ระบุว่า Photo Culling มีตัวเลือกคัดรูปสองแบบ คือคัดรูปทั้งหมด (Whole Culling) จะพิจารณาจากความคมชัด, สัญญาณรบกวน, อารมณ์ในรูปภาพ และการปิดของดวงตาออกมาเป็นคะแนน ผู้ใช้สามารถกำหนด threshold ว่าคะแนนเท่าไรจึงเก็บไว้ ส่วนคัดเฉพาะรูปคล้าย (Similar Culling) จะคัดเฉพาะรูปที่ถ่ายมาหลาย ๆ ช็อตคล้าย ๆ กันโดยให้คะแนนภาพถ่าย และจะแนะนำเฉพาะภาพถ่ายที่ได้คะแนน 2 อันดับแรก
AWS เปิดบริการเจาะกลุ่มโรงงานสองตัวพร้อมกัน คือ Amazon Panorama คอมพิวเตอร์ประมวลผลภาพจากกล้องวงจรปิด และ Amazon Lookout บริการหาจุดบกพร่องของสินค้าในกระบวนการผลิต
มีรายงานว่าแอปเปิลได้เข้าซื้อกิจการ Vilynx สตาร์ทอัพจากสเปน ไปเมื่อช่วงต้นปีที่ผ่านมา
ข้อมูลของ Vilynx ระบุว่าเป็นผู้เชี่ยวชาญด้าน AI ในการเพิ่มข้อมูล metadata สำหรับภาพและวิดีโอ ซึ่งทำให้กระบวนการค้นหามีความสะดวกมากขึ้น นอกจากนี้ยังมีเทคโนโลยีที่ช่วยตรวจสอบวิดีโอว่าจุดใดเป็นส่วนสำคัญของเนื้อหาทั้งหมดอีกด้วย โดยคาดว่าแอปเปิลจะนำเทคโนโลยีนี้มาใช้กับ Siri และระบบเสิร์ชในการค้นหาภาพและวิดีโอบนอุปกรณ์
เดิมการยืนยันตัวตนก่อนเข้า Amazon Go คือการใช้ QR Code บนแอป Amazon Go ที่เชื่อมกับบัญชี Amazon แตะสแกนก่อนเข้าร้าน ล่าสุด Amazon เปิดตัวโซลูชันใหม่สำหรับการยืนยันหรือระบุตัวตนก่อนเข้าร้านค้าหรือสถานที่ต่าง ๆ ชื่อว่า Amazon One
Amazon One จะมีช่องสำหรับเสียบบัตรเครดิตและเครื่องสแกนฝ่ามือ (โดยไม่ต้องสัมผัส แค่เอาฝ่ามือไปอังเหนือเซ็นเซอร์) ที่อาศัย computer vision ในการอ่านและตรวจจับลายมือเพื่อแยกแยะบุคคลในเวลาแค่ราว 1 วินาที ระบบจะผูกตัวตนเข้ากับบัตรเครดิตที่เสียบไว้ให้ โ
Amazon จะเริ่มนำ Amazon One มาใช้กับร้าน Amazon Go ก่อน โดยมีเป้าหมายถัดไปคือขยายการใช้งาน Amazon One ออกไปยังลูกค้าภายนอก ทั้งที่เป็นร้านค้าปลีกและสถานที่อย่างตึกออฟฟิศ
มีรายงานว่า Tesla ได้เข้าซื้อกิจการของสตาร์ทอัพจาก Silicon Valley ชื่อ DeepScale เพื่อมาเสริมทัพด้านการประมวลผลภาพในรถยนต์ไร้คนขับ
DeepScale เป็นสตาร์ทอัพอายุ 4 ปี ทำธุรกิจพัฒนาการใช้ deep neural network สำหรับการประมวลผลภาพ (computer vision) และข้อมูลจากเซ็นเซอร์รอบรถ ในการตีความ (interpret) และจัดกลุ่ม (classify) สิ่งต่างๆ รอบตัว หรือกล่าวสั้นๆ ได้ว่าเทคโนโลยีของบริษัทนี้จะช่วยให้รถเข้าใจสิ่งแวดล้อมรอบๆ ได้ดีขึ้น ซึ่งถือเป็นหัวใจหลักของการพัฒนารถยนต์ไร้คนขับ
การจะได้ชื่อว่าเป็นรถยนต์ไร้คนขับ ต้องถูกจัดกลุ่มตามมาตรฐาน SAE ในระดับ 4 หรือ 5 แต่ปัจจุบันฟีเจอร์ Autopilot ของรถ Tesla ยังอยู่ในระดับ 2 เท่านั้น คือเป็นการช่วยขับแต่คนขับยังต้องมองถนนตลอดเวลา
Sam’s Club ร้านค้าปลีกระบบสมาชิกในเครือ Walmart ประกาศผลงานจากศูนย์ทดสอบ Sam’s Club Now ที่ได้รับการจดสิทธิบัตรแล้ว โดยจะนำมาใช้ต่อยอดในระบบตรวจสอบและชำระค่าสินค้า
วิธีการก็คือลูกค้าสามารถใช้กล้องในแอปสแกนตัวสินค้า แล้วระบบจะเรียกข้อมูลราคาสินค้าขึ้นมาได้เลย โดยไม่ต้องพยายามสแกนบาร์โค้ดแบบในวิธีการปัจจุบัน ซึ่งเทคโนโลยีที่ใช้มีทั้ง Computer Vision และ Machine Learning
ในการทดสอบสถานการณ์จำลองเมื่อสินค้าอยู่ใต้รถเข็น แบบบาร์โค้ดเดิมนั้นใช้เวลาราว 9 วินาที ขณะที่วิธีการสแกนแบบใหม่ใช้เวลาเพียง 3 วินาที เท่านั้น ช่วยให้ทุกขั้นตอนรวดเร็วขึ้นและดีกับทุกฝ่าย (ดูตัวอย่างจากที่มา)
เอกสารของสำนักงานสิทธิบัตรและเครื่องหมายการค้าอเมริกาเปิดเผยว่า แอปเปิลได้ซื้อสิทธิบัตรและเอกสารคำขอสิทธิบัตรรอการอนุมัติ รวมทั้งหมด 8 รายการ จาก Lighthouse AI บริษัทที่ผู้ผลิตกล้องเพื่อความปลอดภัยในบ้าน โดยการซื้อสิทธิบัตรนี้เกิดขึ้นในปลายปี 2018
ทั้งนี้ Lighthouse AI ได้ประกาศเลิกกิจการเมื่อเดือนธันวาคมปีที่แล้ว เนื่องจากไม่ประสบความสำเร็จด้านยอดขาย โดยสินค้าของบริษัทเน้นไปที่ระบบกล้องสำหรับดูแลความปลอดภัยภายในบ้าน ด้วยเทคโนโลยี AI และการตรวจจับแบบ 3 มิติ รวมทั้งมีแอปสำหรับดูข้อมูลเชิงลึกที่มีเฉพาะบน iOS
สิทธิบัตร 8 รายการที่แอปเปิลซื้อไปตัวอย่างเช่น (ขอยกชื่อมาเต็ม ๆ โดยไม่แปล)
MIT เปิดตัวหุ่นยนต์เล่นเกม Jenga ซึ่งประกอบด้วยแขนกลสำหรับจับแท่งไม้, ส่วนสำหรับดันแท่งไม้ และกล้องภายนอกเพื่อประเมินสถานการณ์ของตัวต่อทั้งหมดที่วางอยู่
อธิบายแบบรวดเร็วสำหรับคนที่ไม่รู้จักเกม Jenga หรืออาจเคยเล่นแต่ไม่รู้ว่าเรียก Jenga มันคือเกมที่มีชิ้นท่อนไม้ 54 ชิ้น ต่อเรียงกันเป็นตึก ผู้เล่นผลัดกันดึงแท่งไม้ออกหนึ่งชิ้น แล้วไปวางไว้ด้านบนสุด โดยไม่ทำให้ตึกถล่มลงมา ใครทำถล่มคนนั้นแพ้
ขั้นตอนการทำงานของหุ่นยนต์นี้ จะประเมินว่าแท่งไม้ไหนที่ควรดึงออกมา โดยใช้แขนดันออกมาก่อน แล้วใช้แขนหนีบดึงชิ้นไม้ออกมา และสุดท้ายหามุมวางที่เหมาะสมไม่ให้ตึกถล่ม หุ่นยนต์มีการเรียนรู้ โดยหากไม้ชิ้นใดที่ดันแล้วรู้สึกว่าฝืดเกินไป ก็จะเลี่ยงไม่ดันชิ้นนั้น
ช่วงหลังเราเห็นฟีเจอร์แปลงใบหน้าเป็นการ์ตูนแอนิเมชันจากฝั่งผู้ผลิตมือถือ เช่น Animoji ของแอปเปิล หรือ AR Emoji ของซัมซุง
ฝั่งแพลตฟอร์มแชทอย่าง LINE ก็ประกาศออกฟีเจอร์แบบเดียวกันชื่อว่า Character Effect หลักการก็ไม่ต่างอะไรกัน ใช้เทคนิค computer vision มาช่วยแปลงใบหน้าของผู้ใช้เป็นการ์ตูน และขยับตามใบหน้าของผู้ใช้
จุดเด่นของ LINE Character Platform ย่อมหนีไม่พ้นการใช้คาแรกเตอร์ที่เรารู้จักกันดีจาก LINE Friends อย่างในตัวอย่างที่นำมาโชว์บนจอเป็นกระต่าย Cony ที่น่าจะเรียกความสนใจของผู้ใช้ได้อย่างมาก
ถึงตอนนี้ทุกคนคงรู้ดีกันอยู่แล้วว่าหุ่นยนต์สามารถทำงานแทนคนได้หลายอย่าง ไม่ว่าจะเป็นงานสายการผลิตในโรงงาน, งานประชาสัมพันธ์และต้อนรับในโรงแรม แน่นอนว่ามีแม้กระทั่งหุ่นยนต์ปรุงอาหารในร้านอาหาร และ Flippy หุ่นยนต์นักทำเบอร์เกอร์ ผลงานการพัฒนาโดย Miso Robotics ก็คือหนึ่งในนั้น มันไม่ได้เป็นแค่หุ่นยนต์แขนกลธรรมดาที่ย่างเบอร์เกอร์ไปวันๆ มันมองเห็น คิดเป็น และถูกออกแบบมาให้ทำงานร่วมกับคนได้
ปัจจุบันศาสตร์ทางด้านปัญญาประดิษฐ์และการประมวลผลแบบกระจายได้พัฒนามาไกลมาก สองถึงสามปีมานี้จึงได้มีการนำสองเทคโนโลยีนี้มาใช้ควบคู่กันเพื่อพัฒนาคุณภาพการบริการและผลิตภัณฑ์ของบริษัทต่าง ๆ อย่างแพร่หลาย ตลอดจนปริมาณเนื้อหาบนโลกอินเทอเน็ตที่มากขึ้นเป็นทวีคูณ ทำให้ล่าสุด Pornhub ผู้ให้บริการเนื้อหาภาพยนต์สำหรับผู้ใหญ่เบอร์หนึ่งของโลก ได้นำปัญญาประดิษฐ์เข้ามาช่วยเพิ่มประสิทธิภาพในการจัดการเนื้อหาบนเว็บไซต์โดยการติดป้ายกำกับเพื่อจัดหมวดหมู่ให้เหมาะสมและแม่นยำยิ่งขึ้น
ทีมวิจัยของ Google Research เผยแพร่งานวิจัยที่ใช้ AI ลบลายน้ำออกจากภาพถ่ายได้อย่างง่ายๆ
ทีมวิจัยระบุว่ารูปแบบของลายน้ำ (watermark) ในปัจจุบันที่วางทับไปบนภาพถ่าย อาจเป็นเรื่องยากสำหรับมนุษย์ในการลบมันออก แต่จริงๆ แล้วลายน้ำกลับมีแพทเทิร์นที่ค่อนข้างตายตัว เช่น มีความโปร่งแสง (opacity) เท่ากันตลอด และถ้าเรามีภาพถ่ายหลายๆ ภาพที่มีลายน้ำรูปเดียวกัน เราสามารถสร้างภาพสมบูรณ์ของลายน้ำขึ้นมาใหม่ เพื่อให้รู้ขอบเขตในการลบลายน้ำออกได้
Facebook เข้าซื้อบริษัท Fayteq ซึ่งเป็นสตาร์ทอัพด้าน computer vision จากเยอรมนี มีผลงานในการพัฒนาปลั๊กอินเพื่อลบวัตถุออกจากวิดีโอสำหรับโปรแกรมอย่าง After Effects
เทคโนโลยีของ Fayteq นั้นสามารถใช้เพื่อเพิ่มฟีเจอร์ให้กับ Facebook Live หรือ Stories เพื่อเสริมความแข็งแกร่งให้บริการได้ หรือจะพัฒนาปลั๊กอินสำหรับ After Effects ต่อไปเพื่อเป็นเครื่องมือสร้างเอฟเฟค AR สำหรับนักพัฒนาก็ได้
สำหรับรายละเอียดในการเข้าซื้อของ Facebook นั้นยังไม่ได้เผยออกมามากนัก แต่ทางบริษัทก็ได้ยืนยันการเข้าซื้อบริษัทอย่างเป็นทางการแล้ว
ที่มา - Engadget
คุณศุภศรณ์ สุวจนกรณ์ จากห้องวิจัย GRAIL นำเสนองานวิจัยในการสร้างวิดีโอของบารัก โอบามา ตามเสียงที่ใส่เข้าไปได้อย่างสมจริง โดยอาศัยข้อมูลเสียงนำมาสร้างเป็นรูปแบบของปากแล้วจึงใส่รายละเอียดลงไปก่อนจะนำภาพปากเคลื่อนไหวนี้ไปใส่วิดีโอเป้าหมาย
งานวิจัยนี้ทำให้สามารถนำเสียงของโอบามาเองมาสร้างภาพวิดีโอใหม่ โดยไม่ต้องอาศัยวิดีโอของการพูดครั้งนั้นจริงๆ แม้แต่เสียงที่สร้างขึ้นมา เช่น เสียงของคนที่เลียนแบบโอบามา หรือเสียงของโอบามาที่ถูกตัดต่อ
กูเกิลประกาศออกชุดโมเดล MobileNets สำหรับการประมวลผล AI บนสมาร์ทโฟนที่มีทรัพยากรจำกัด ตามแผนการผลักดัน TensorFlow ให้ทำงานบนมือถือได้
กูเกิลบอกว่าถึงแม้เราอยู่ในยุคของคลาวด์ สามารถเรียกประมวลผลภาพได้ผ่านบริการอย่าง Cloud Vision API แต่ก็มีกรณีที่จำเป็นต้องประมวลผล AI แบบออฟไลน์บนมือถือ ซึ่งช่วงหลังมีสมรรถนะสูงมากพอแล้ว
ปัญญาประดิษฐ์และการประมวลผลภาพในโทรศัพท์มือถือมีการใช้งานมากขึ้นเรื่อยๆ เช่น ฟิลเตอร์เครื่องแต่งกายตามแอปไลฟต์ต่างๆ ตอนนี้ ARM ก็ออกมาปล่อยไลบรารีสำหรับการรีดประสิทธิภาพซีพียูและจีพียูให้ทำงานเหล่านี้ได้ดียิ่งขึ้น
ARM Compute Library รองรับฟังก์ชั่นพื้นฐานคล้ายกับ OpenCV เช่น การประมวลสีภาพ หรือฟิลเตอร์ HOG (histogram of oriented gradients) ไปจนถึงฟังก์ชั่นคอมพิวเตอร์เรียนรู้ด้วยตัวเอง เช่น SVM (support vector machines) หรือ convolutional neural networks
Yahoo! ได้เปิดตัวฟีเจอร์ Similarity Search ซึ่งเป็นผลงานจากทีมงาน Computer Vision ของ Yahoo! ที่ทำงานร่วมกับ Flickr
สำหรับฟีเจอร์ใหม่นี้ คือการค้นหาภาพที่เหมือนกัน โดยจะใช้วิธีการดูจากลักษณะของภาพ ซึ่งเป็นสิ่งที่ Flickr เรียกว่า similarity pivot คือกลุ่มของภาพที่มีความเหมือนกัน
ปัจจัยที่ Flickr จะใช้พิจารณาความเหมือนก็มีทั้งสี, ลวดลาย, หมวดหมู่ และอื่น ๆ ซึ่ง Flickr ได้ใช้งาน deep neural networks เพื่อทำการระบุวัตถุ และทำการแท็กภาพให้ว่าเป็นภาพในหมวดหมู่อะไรโดยอัตโนมัติ จากนั้นนำมาทำเป็นเวกเตอร์ที่เรียกว่า feature vector
Apple ได้ออกงานวิจัยเกี่ยวกับปัญญาประดิษฐ์ชิ้นแรกของบริษัทสู่สาธารณะตามที่เคยประกาศไว้ ซึ่งงานวิจัยชิ้นนี้เป็นรายละเอียดเกี่ยวกับการวิจัยเทคโนโลยี computer vision ที่ทางบริษัทกำลังพัฒนาอยู่ โดยยกตัวอย่างเป็นการใช้งานเพื่อระบุภาพถ่าย
ชุด API OpenVX เป็น API มาตรฐานสำหรับการประมวลผลภาพ เช่น การจับวัตถุในภาพ, การจดจำใบหน้า, และการตรวจจับการเคลื่อนไหว ตอนนี้ Imagination ก็ออกมาประกาศว่าส่วนกราฟิก PowerVR ผ่านการทดสอบ OpenVX 1.1 เป็นรายแรก
ตัว API ของ OpenVX จะคล้ายกับ OpenCV ในหลายส่วน ทั้ง data type สำหรับการเก็บภาพถ่าย การปรับขนาดภาพ และการประมวลผลภาพในระดับต่ำ API เหล่านี้เปิดให้ผู้ผลิตฮาร์ดแวร์พัฒนาฮาร์ดแวร์ให้เร่งความเร็วการประมวลผลเหล่านี้ให้ได้ประสิทธิภาพสูงสุด
ชิปตัวแรกที่ผ่านการทดสอบ คือ Allwinner A80 ที่ใช้ส่วนกราฟิก PowerVR G6230 ชิปตัวนี้มีใช้ในบอร์ดหลายตัว ใครสนใจอยากใช้ OpenVX คงหามาใช้งานกันได้ไม่ยาก
ในเมื่อสี่เท้ายังรู้พลาด คอมพิวเตอร์ก็อาจจะรู้พลั้งได้เหมือนกัน ดังเช่นเหตุการณ์ในประเทศรัสเซีย ที่หน่วยงานตำรวจจราจรได้ออกใบสั่งปรับเงินชายชาวรัสเซียคนหนึ่ง พร้อมแนบภาพถ่ายหลักฐานการกระทำผิดไปด้วย ซึ่งภาพก็แสดงให้เห็นชัดเจนว่าเป็นเพราะเขาขับรถแล้วเงาพาดทับเส้นทึบกลางถนน
อ่านไม่ผิดหรอก ภาพประกอบใบสั่งที่ชายคนดังกล่าวได้รับ แสดงภาพรถที่เขาขับเมื่อวันที่ 25 สิงหาคมที่ผ่านมาบนถนนวงแหวนของ Moscow จากในภาพตัวรถก็วิ่งอยู่ในช่องทางเดินรถตามปกติมิได้ล้ำออกนอกเส้นทึบแต่อย่างใด ทว่าเงาของตัวรถในขณะนั้นซึ่งเกิดจากแสงแดดได้ทอดผ่านทับข้ามเส้นทึบล้ำไปยังช่องทางเดินรถข้างๆ ที่อยู่ติดกัน
อินเทลประกาศซื้อบริษัท Movidius Technology เจ้าของระบบ "ตา" คอมพิวเตอร์ (visionary solution) ที่ใช้กับรถยนต์ โดรน หุ่นยนต์ แว่น VR และระบบลักษณะเดียวกันอื่นๆ
โซลูชันของ Movidius ประกอบด้วยหน่วยประมวลผลเฉพาะที่เรียกว่า Vision Processing Unit (VPU), ชุด SDK และประมวลผลภาพด้วยเทคนิค machine learning/deep learning
อินเทลซื้อ Movidius เพื่อนำเทคโนโลยีไปต่อเชื่อมกับกล้อง RealSense ของตัวเอง เพื่อต่อเป็นระบบ computer vision ที่เก่งกาจมากขึ้นในอนาคต
คงจะเคยดูหนังหรือละครต่างประเทศแนวสืบสวนสอบสวนกันมาบ้าง หลายครั้งที่เราเห็นฉากการตามหาคนแล้วดึงภาพมาจากกล้องวงจรปิด หรือกล้องมือถือที่ไหนสักแห่งแล้วเห็นภาพบุคคลเป้าหมายเบลอๆ เห็นแค่เม็ดพิกเซลเหมือนภาพโมเสค จากนั้นเจ้าหน้าที่ก็ซูมภาพ ซูมแล้วซูมอีก แล้วใช้ซอฟต์แวร์ปรับแต่งภาพให้มีความคมชัดขึ้น จากภาพเบลอๆ เหลี่ยมๆ ก็กลายเป็นภาพใบหน้าคนที่มีความคมชัดขึ้น วันนี้อยากบอกให้รู้ว่าเรื่องพวกนี้มันไม่ได้ขี้โม้เกินจริงสักเท่าไหร่เลย ตัวอย่างโปรแกรมของชายที่ชื่อ David Garcia พิสูจน์เรื่องนี้ให้เห็นได้อย่างดี