Tags:

SoundHound บริการค้นหาเพลงด้วยเสียง ที่ภายหลังหันมาลุยตลาดซอฟต์แวร์สั่งงานด้วยเสียงลักษณะเดียวกับ Siri/Google Now ใต้แบรนด์ Hound ประกาศขยายผลิตภัณฑ์ของตัวเองจาก Hound มาเป็นแพลตฟอร์ม Houndify ที่เป็นอินเทอร์เฟซรับคำสั่งเสียงให้กับแอพทุกประเภท

Houndify จะรับคำสั่งเสียงจากผู้ใช้ แล้วประมวลผลหาความหมายเพื่อส่งต่อให้แอพหรือฮาร์ดแวร์อีกต่อหนึ่ง ในวิดีโอสาธิตของ Houndify แสดงการเชื่อมต่อกับฮาร์ดแวร์ที่หลากหลาย เช่น นาฬิกาปลุก เครื่องชงกาแฟ รวมถึงรถยนต์ การใช้งานต้องใช้คำสั่ง "OK Hound" เพื่อสั่งงานก่อน เปรียบเสมือน Siri/Google Now/Cortana แต่เปิดให้พาร์ทเนอร์รายอื่นเข้าถึงได้มากกว่า (คล้ายกับ Nuance Mix ที่เพิ่งลงไปข่าวไปไม่นานมานี้)

นอกจากคำสั่งเสียงแล้ว Houndify ยังเข้าใจ "บริบท" (context) รูปแบบอื่นๆ เช่น ตำแหน่งของผู้สั่งงาน หรือ นำคำถามก่อนหน้ามาช่วยประมวลผลด้วย แพลตฟอร์มที่รองรับมีหลากหลาย ที่ระบุชื่อคือ iOS, Android, Windows, Unix, Raspberry Pi, Java

Tags:

การสั่งงานด้วยเสียงบนสมาร์ทโฟน หรืออุปกรณ์ไอทีใดๆ ไม่ใช่เรื่องแปลกในปัจจุบัน แต่ในขณะเดียวกันก็ไม่ใช่เรื่องง่ายถึงขนาดที่ใครก็ได้จะสามารถพัฒนาระบบดังกล่าวขึ้นมาด้วยตัวเอง แม้แต่แอปเปิล หรือซัมซุงยังได้รับความช่วยเหลือจาก Nuance ผู้เชี่ยวชาญด้านซอฟต์แวร์วิเคราะห์เสียงที่วันนี้ออกมาเปิดตัว Nuance Mix ชุดเครื่องมือสำหรับให้นักพัฒนาทำแอพรองรับคำสั่งเสียงได้สะดวกขึ้นแล้ว

Nuance Mix เป็นชุดเครื่องมือสำหรับผนวกฟีเจอร์สั่งงานด้วยเสียงเข้าไปในแอพ โดยเริ่มจากการสอนให้ Mix เรียนรู้คำสั่ง และวัตถุเสียก่อน เมื่อป้อนข้อมูลไปได้ระดับหนึ่ง Mix จะสามารถเรียนรู้ต่อด้วยตัวเอง และเริ่มตอบสนองกับคำพูดได้

ความพิเศษของ Mix คือนอกจากจะใช้สำหรับพัฒนาแอพบนสมาร์ทโฟนได้แล้ว ยังสามารถใช้งานกับฮาร์ดแวร์อื่นๆ ได้อีกด้วย โดยเฉพาะกับอุปกรณ์จำพวก Internet of Things (IoTs) ซึ่งเหมาะกับการสั่งงานด้วยเสียงเนื่องจากหลายครั้งอุปกรณ์กลุ่มนี้มักไม่มีหน้าจอสัมผัสในตัว

Tags:
Cortana

ไมโครซอฟท์ทดสอบ Cortana for Android มาได้สักพักแล้ว ฟีเจอร์ใหม่ล่าสุดที่เพิ่มเข้ามาคือการสั่งงานด้วยเสียงแบบไม่ต้องแตะอุปกรณ์ เพียงพูดว่า "Hey Cortana" (แบบเดียวกับ OK Google) ก็จะเรียก Cortana ขึ้นมาได้เลย

ข้อจำกัดของฟีเจอร์นี้คือมันใช้งานได้ต่อเมื่อเราปลดล็อคหน้าจอแล้วเท่านั้น เหตุเพราะ Android เพียงบางรุ่นเท่านั้นที่มีฮาร์ดแวร์รองรับคำสั่งเสียงตลอดเวลา (ซึ่งเป็นปัญหาเดียวกับ OK Google)

ฟีเจอร์นี้มีใน Windows Phone มาตั้งแต่ปี 2014

ที่มา - Android Central

Tags:
Chrome

ข่าวช้าไปนิดหน่อยครับ Chrome 46 ออกรุ่นจริงแล้ว ของใหม่ในรุ่นนี้ได้แก่

  • ปรับปรุงประสิทธิภาพของแอนิเมชัน และการโหลดภาพ (รายละเอียด)
  • เลิกเตือนเว็บที่ทำ HTTPS แต่ผิดพลาดเล็กน้อย
  • ถอดฟีเจอร์สั่งงานด้วยเสียง โดยพูดคำว่า "OK Google" ด้วยเหตุผลว่าคนใช้น้อย (ตัดเฉพาะรุ่นบนเดสก์ท็อป และไม่รวม Chromebook) แต่ผู้ใช้ยังสามารถกดปุ่มไมโครโฟน แล้วค้นหาข้อมูลด้วยเสียงพูดได้เช่นเดิม
  • Chrome for Android ปรับปรุงหน้าตาของตัวเล่นวิดีโอใหม่

ก่อนหน้านี้ Chrome เพิ่งประกาศถอดฟีเจอร์ Notification Center ด้วยเหตุผลว่าคนใช้น้อยเช่นกัน

ที่มา - Google Chrome Help Forum

Tags:
Siri

นอกจากจะขยายบริการผู้ช่วยอัจฉริยะให้สามารถใช้งานได้หลายอุปกรณ์ขึ้นแล้ว อีกภารกิจสำคัญของแอปเปิลคือการพัฒนา Siri ให้ประสิทธิภาพดีขึ้น ล่าสุดมีรายงานว่าแอปเปิลเข้าซื้อบริษัทหน้าใหม่ผู้พัฒนาซอฟต์แวร์ด้านการรับคำสั่งเสียงมาเสริมทัพ Siri แล้ว

บริษัทที่ว่านี้คือ VocalIQ ผลงานเด่นคือการพัฒนาระบบที่ช่วยให้บริการผู้ช่วยอัจฉริยะ สามารถเข้าใจการใช้ภาษามนุษย์ได้ดีขึ้น เช่นความสามารถในการทำความเข้าใจกับคำถาม เมื่อไม่เข้าใจคำถามของผู้ใช้ และยังสามารถจดจำบทสนทนาก่อนหน้า และใช้เป็นส่วนหนึ่งของการตอบคำถามได้ ซึ่งเหนือกว่าทุกระบบในปัจจุบันที่ทำไม่ได้แม้แต่การจดจำคำถามล่าสุดที่เพิ่งถามไป ตรงส่วนนี้ทำให้ระบบผู้ช่วยใกล้เคียงกับมนุษย์มากขึ้น

VocalIQ เคลมว่าระบบของตัวเองจะเปลี่ยนการใช้งานผู้ช่วยดังกล่าว จากเดิมที่ต้องพยายามพูดให้ระบบเข้าใจ เป็นการทำให้ระบบเรียนรู้ที่จะเข้าใจการสนทนากับผู้ใช้แทน

ที่มา - The Next Web

Tags:
Baidu

ดูเหมือนบริษัทไอทีรายใหญ่ของโลกจะอยากมีผู้ช่วยส่วนตัวให้ผู้ใช้สมาร์ทโฟนกันทุกราย ไม่ว่าจะเป็นกูเกิล แอปเปิล ไมโครซอฟท์ หรือแม้แต่ Facebook ล่าสุดยักษ์ใหญ่จากจีนอย่าง Baidu ไม่ยอมแพ้ ส่งผู้ช่วยบนสมาร์ทโฟนมาบ้างแล้วในชื่อ Du Secretary

Du Secretary เพิ่งเปิดตัวอย่างเป็นทางการในงาน Baidu World ที่จัดขึ้นในวันนี้ เป็นฟีเจอร์ใหม่อยู่ในแอพค้นหา Mobile Baidu เวอร์ชัน 6.8 เป็นต้นไป ฟีเจอร์พื้นฐานจะมีตั้งแต่การสั่งงานในตัวเครื่อง ไปจนถึงการสั่งซื้อสินค้า และบริการ เช่นซื้อตั๋วภาพยนตร์ สั่งอาหาร ซึ่งเหนือไปกว่านั้นยังสามารถแนะนำบริการได้ด้วย ถ้าหากใช้งานจนเข้าใจพฤติกรรมของผู้ใช้เมื่อใช้งานไปซักระยะ

อนาคตของการพัฒนาฟีเจอร์นี้จะขยายให้ครอบคลุมบริการภายนอกมากขึ้น เพื่อเข้ากับแผนการเชื่อมออฟไลน์สู่โลกออนไลน์ (O2O) ที่ประกาศไปเมื่อต้นปี คงต้องรอดูกันว่ายักษ์ใหญ่จากจีนจะทำได้ดีแค่ไหนครับ

ที่มา - VentureBeat

Tags:
Google Docs

Google Docs เวอร์ชันเว็บเพิ่มฟีเจอร์ชุดใหญ่ แยกรายละเอียดได้ดังนี้

  • Voice typing พิมพ์งานด้วยเสียงพูด แบบเดียวกับบน Android
  • Research ค้นข้อมูลจากเว็บได้จากหน้า Google Docs เลย ไม่ต้องเปิดแท็บใหม่เข้า Google Search
  • See new changes ดูรายการเปลี่ยนแปลงของเอกสาร ในกรณีให้เพื่อนเข้ามาแก้เอกสารแล้วมาดูว่าแก้อะไรไปบ้าง
  • เพิ่มระบบเลือกธีมอัตโนมัติให้ Google Forms
  • เพิ่มเทมเพลตเอกสารให้ Docs, Sheets, Slides อีกมาก
  • Explore in Sheets แสดงกราฟแนวโน้มของข้อมูลใน Sheets โดยไม่ต้องแทรกกราฟเอง (ขึ้นมาใน sidebar ด้านข้าง)
Tags:

Nuance ผู้พัฒนาซอฟต์แวร์สั่งงานด้วยเสียงรายใหญ่ของโลก เปิดตัวแอพใหม่ Dragon Anywhere สำหรับลูกค้าองค์กรให้สามารถถอดความจากเสียงสู่เอกสารได้อย่างรวดเร็ว แม่นยำ

Dragon Anywhere เป็นภาคต่อที่เหนือขึ้นไปกว่าระบบถอดความจากเสียงที่มีอยู่บนคีย์บอร์ด โดยตัวแอพทำหน้าที่เป็นตัวจัดการเอกสาร ซึ่งสามารถใช้เสียงในการพิมพ์ จัดหน้า และแก้ไขเอกสารได้เบ็ดเสร็จ พร้อมแชร์จากอุปกรณ์พกพาสู่พีซีได้ในตัว

Nuance ระบุว่า Dragon Anywhere เน้นจับกลุ่มลูกค้าฝั่งองค์กรที่ต้องการใช้งานเอกสารระดับมืออาชีพด้วยเสียง โดยมีฟีเจอร์หลักๆ คือการค้นหาคำ ประโยค และสั่งงานพื้นฐานอย่างเพิ่มคำไปด้านหน้า-หลัง แทนที่คำ ลบ คัดลอกได้ด้วยเสียง รวมถึงสามารถเพิ่มคำพิเศษเข้าไปในฐานข้อมูลได้ ทั้งนี้ทั้งนั้นการใช้งานจำเป็นต้องต่ออินเทอร์เน็ต และเปิดไมโครโฟนตลอดเวลา

สำหรับบริการ Dragon Anywhere จะเปิดให้ดาวน์โหลดใช้งานบน iOS และ Android ภายในช่วงปลายปีนี้ คิดค่าบริการรายเดือน แต่ยังไม่แจ้งค่าใช้จ่ายมาครับ

ที่มา - PCMag

Tags:
Google Voice

กูเกิลออกมาโชว์ผลงานการแปลงเสียงพูดเป็นข้อความ (transcription) ที่ใช้กับบริการ Voice Mail ใน Google Voice และ Project Fi ว่ามีความแม่นยำเพิ่มขึ้น ข้อผิดพลาดลดลงจากเดิม 49%

เทคนิคที่กูเกิลใช้คือ long short-term memory deep recurrent neural network โดยขอไฟล์ตัวอย่าง Voice Mail จากผู้ใช้งานมาเป็นข้อมูลจริงสำหรับการวิเคราะห์

กูเกิลไม่ได้อธิบายรายละเอียดของเทคนิคดังกล่าว แต่ก็ถือเป็นผลดีสำหรับผู้ใช้ที่ได้ระบบแปลงเสียงพูดที่แม่นยำยิ่งขึ้นครับ

ที่มา - Google Blog

Tags:
Amazon

เพิ่งวางขาย Amazon Echo ลำโพงอัจฉริยะที่เป็นผู้ช่วยที่ตอบข้อสงสัยได้ด้วยเสียงจริงๆ ไปไม่นาน วันนี้ Amazon ออกมาเปิดตัวโครงการต่อยอดของ Alexa เบื้องหลังฟีเจอร์สั่งงานด้วยเสียงที่ใช้กับ Echo มาหลายอย่าง

อย่างแรกคือการเปิดกองทุน Alexa Fund มูลค่ากว่า 100 ล้านเหรียญเพื่อสนับสนุนให้นักพัฒนา ผู้ผลิต และสตาร์ทอัพมาร่วมออกแบบประสบการณ์ใหม่ที่สร้างด้วย Alexa โดยเน้นไปที่สามกลุ่มใหญ่ๆ คือพัฒนาฮาร์ดแวร์ที่ใช้งาน Alexa, การใช้งานรูปแบบใหม่ๆ ที่ใช้งานร่วมกับ Alexa และฟีเจอร์ใหม่ที่น่าจะใส่เข้าไปใน Alexa ได้ โดยเริ่มลงทุนไปแล้วทั้งสิ้น 7 บริษัท

ต่อมาคือการเปิดตัว Alexa Voice Service (AVS) บริการสั่งงานด้วยเสียงแบบเดียวกับที่ใช้ Echo ให้นักพัฒนาฮาร์ดแวร์ภายนอกสามารถนำไปใช้ได้ฟรีๆ ปิดท้ายด้วย Alexa Skills Kit (ASK) ชุดพัฒนา (SDK) สำหรับนักพัฒนาซอฟต์แวร์ที่สนใจทำฟีเจอร์ใหม่เอี่ยมด้วย Alexa แจกฟรีเช่นกัน

ที่มา - Amazon

Tags:
Amazon Echo

หลังจาก Amazon เปิดตัว Amazon Echo, Siri/Google Now ประจำบ้าน ที่ควบคุมด้วยเสียงเป็นหลักและ สามารถควบคุมอุปกรณ์เครื่องใช้ในบ้านได้ ในวันนี้ก็เปิดให้สั่งจองแล้วสำหรับลูกค้าในประเทศอเมริกา

Amazon Echo ได้ถูกเปิดตัวในเดือนพฤศจิกายนที่ผ่านมา ซึ่งก่อนหน้านี้ต้องได้รับเชิญก่อนถึงจะสามารถซื้อได้ แต่ในวันนี้ได้เปิดให้ผู้สนใจที่จะซื้อสามารถสั่งจองได้อย่างเป็นทางการ โดยราคาลดลงมาอยู่ที่ 180 ดอลลาร์จากเดิมที่เปิดตัวราคา 199 ดอลลาร์ และจะจัดส่งในวันที่ 14 เดือนกรกฎาคม แต่ยังคงจำกัดพื้นที่ในการจองอยู่ที่ประเทศอเมริกาเท่านั้น

สำหรับเจ้าแท่งนี้ทำงานผ่านการเชื่อมต่ออินเทอร์เน็ต ซึ่งคอนเซปต์ในการปฏิบัติงานของมันคือการอำนวยความสะดวกให้กับทุกคนในบ้าน ทำงานเป็นระบบแฮนด์ฟรีเปรียบเสมือนผู้ช่วยส่วนตัวที่ตอบคำถามของคุณในสิ่งที่ต้องการ เช่น การจราจร, สภาพอากาศและข้อมูลอื่นๆ ที่สามารถเข้าถึงได้ผ่านอินเทอร์เน็ต และยังสามารถทำงานร่วมกับอุปกรณ์จำพวกเครื่องใช้ไฟฟ้าภายในบ้านได้ด้วย

นอกจากนี้ Echo ยังรองรับการให้บริการเพลงเช่น Pandora, Audible และ Amazon Prime Music ให้คุณได้ฟังเพลงได้อย่างสะดวกสบาย ทั้งสามารถเชื่อมต่อกับปฏิทินของ Google Calendar เพื่อบอกนัดหมายต่อไปให้ผู้ใช้ด้วยเสียงอีกด้วย

ที่มา : VentureBeat

Tags:
WeChat

WeChat แนะนำฟีเจอร์ใหม่ Voiceprint ในวงการโซเชียลแอปพลิเคชั่นเป็นครั้งแรก ช่วยให้ผู้ใช้งานสามารถเข้าใช้งานบัญชีได้อย่างสะดวกรวดเร็ว และปลอดภัย ผ่านทางเสียงของผู้ใช้ที่มีเอกลักษณ์เฉพาะคล้ายๆ กับลายนิ้วมือ

การใช้งาน Voiceprint ช่วยให้ไม่จำเป็นต้องกรอกรหัสผ่านอีกต่อไปในการล็อกอินเข้าสู่บัญชี ระบบจดจำเสียงจะจดจำเอกลักษณ์ของเสียงเพื่อใช้ยืนยันตัวตนของผู้ใช้งาน โดยต้องเข้าไปตั้งค่าที่ ฉัน > ตั้งค่า > บัญชีของฉัน > Voiceprint จะมีชุดตัวเลขแสดงออกมา โดยผู้ใช้ต้องกดปุ่มสีเขียวค้างไว้ขณะอ่านชุดตัวเลข 2 ครั้ง ระบบจะเริ่มทำงานและเมื่อเข้า WeChat จะสามารถเลือกเข้าสู่ระบบผ่าน Voiceprint ได้

Tags:
Google

กูเกิลเพิ่งเปิดตัว Android Pay ระบบจ่ายเงินด้วยสมาร์ทโฟนผ่าน NFC แต่ในงาน Google I/O 2015 กูเกิลก็ยังมีระบบจ่ายเงินอีกตัวหนึ่งชื่อว่า Hands Free มาโชว์ด้วย

แนวคิดของ Hands Free คือการตั้งคำถามว่าเราสามารถจ่ายเงินอย่างไรโดยไม่จำเป็นต้องหยิบมือถือออกมาจากกระเป๋า ซึ่งคำตอบของกูเกิลก็คือยืนยันตัวตนด้วยเสียง เช่น พูดคีย์เวิร์ดที่กำหนดไว้อย่าง "I want to pay with Google" ที่หน้าเคาเตอร์จ่ายเงิน เท่านี้ก็เรียบร้อยแล้ว

ตอนนี้กูเกิลกำลังทดสอบ Hands Free กับร้าน McDonald's และ PaPa John's บางสาขาในพื้นที่แถบซานฟรานซิสโก และยังต้องทดสอบอีกมากกว่าจะพร้อมให้ใช้งานจริง

ที่มา - Digits

Tags:
Google

กูเกิลเพิ่มความสามารถให้ฟีเจอร์ Voice Actions บน Android โดยสามารถใช้กับแอพบางตัวที่ไม่ใช่ของกูเกิลได้แล้ว (ชื่ออย่างเป็นทางการคือ Custom Voice Actions) ตัวอย่างที่กูเกิลนำมาโชว์ได้แก่

  • “Ok Google, listen to NPR”
  • “Ok Google, show attractions near me on TripAdvisor”

ตอนนี้กูเกิลยังเปิดรับแอพจากผู้พัฒนาบางรายเท่านั้น เช่น Shazam, Instacart, Wink, Walmart, TuneIn Radio ส่วนนักพัฒนาที่อยากเข้าร่วมโครงการ ต้องสมัครเข้าไปให้กูเกิลคัดเลือกอีกทีครับ

ที่มา - +Android Developers

Tags:
Samsung

หลังโทรทัศน์ซัมซุงเป็นข่าวว่าส่งข้อมูลเสียงของลูกค้าไปผ่านอินเทอร์เน็ตไปยังบริษัทภายนอก ตอนนี้ David Lodge นักวิจัยความปลอดภัยจากบริษัท Pen Test Partners รายงานว่าข้อมูลเสียงที่ส่งออกไปจากตัวโทรทัศน์โดยไม่ได้เข้ารหัส

ตัวโทรทัศน์จะเชื่อมต่อไปยัง av.nvc.enGB.nuancemobility.net ทางพอร์ต 443 ที่ปกติแล้วเป็นพอร์ต HTTPS อย่างไรก็ดีตัวโทรทัศน์ไม่ได้เชื่อมต่อเป็น HTTPS แต่เป็นโปรโตคอลเฉพาะที่ส่งข้อมูลเป็น XML และไบนารี โดยข้อมูลเหล่านี้ไม่ได้เข้ารหัสเอาไว้ จากนั้นข้อมูลที่ส่งกลับมาจากบริษัท Nuance จะส่งข้อความเป็นตัวอักษรว่าเสียงที่เราพูดไปนั้นน่าจะเป็นคำว่าอะไร ข้อมูลที่ส่งกลับมานั้นก็ไม่ได้เข้ารหัสเช่นกัน ดังนั้นหากแฮกเกอร์ดักข้อมูลได้ก็จะรู้ได้ง่ายๆ ว่าเราพูดอะไรหน้าทีวีบ้าง

อย่างไรก็ดี ทีวีไม่ได้ส่งข้อมูลออกไปตลอดเวลา แต่ต้องพูดว่า "Hi TV" เพื่อเริ่มระบบจดจำเสียงเสียก่อน

ที่มา - Pen Test Partners

Google Search

ในยุคที่ระบบค้นหาด้วยเสียงและผู้ช่วยส่วนตัว แข่งกันสร้างบุคลิกหรือตัวตน (personality) เพื่อเพิ่มความเป็นมิตรต่อผู้ใช้ หลายคนอาจสังเกตว่าระบบค้นหาด้วยเสียงของกูเกิล ทั้งจาก Google Search และ Google Now กลับไม่มีบุคลิกที่ชัดเจนแบบเดียวกับ Siri หรือ Cortana

เรื่องนี้ถูกเฉลยในบทความเจาะลึก Google Search ของ Medium Backchannel ว่ากูเกิลเคยคิดจะใส่บุคลิกลงไปเช่นกัน แต่สุดท้ายเลือกไม่ทำ เพราะคิดว่ายังไม่สามารถสร้างบุคลิกและบทสนทนาได้ดีพอ โดย Jon Wiley หัวหน้าทีมออกแบบประสบการณ์การค้นหา (search design) บอกว่าโลกเราทุกวันนี้ยังห่างไกลกับการที่คอมพิวเตอร์จะสร้างบุคลิกได้สมจริงพอ ในระดับที่คนรู้สึกคุ้นเคยและสะดวกใจที่จะคุยด้วย

อย่างไรก็ตาม กูเกิลบอกว่าวงการนี้กำลังพัฒนาไปอย่างรวดเร็ว ทั้งหน่วยประมวลผลบนอุปกรณ์พกพาที่มีประสิทธิภาพมากขึ้น ไมโครโฟนที่ดีขึ้น อัลกอริทึมของซอฟต์แวร์ที่ดีขึ้น และศาสตร์ของการประมวลผลภาษาก็พัฒนาขึ้นเรื่อยๆ

ที่มา - Medium Backchannel

Tags:

Baidu ยักษ์ใหญ่แห่งวงการค้นหาจากประเทศจีน เปิดตัวเทคโนโลยีใหม่จากแผนกพัฒนาของตัวเองในชื่อ "Deep Speech" ที่เคลมว่าสามารถพลิกโฉมการสั่งด้วยเสียงในปัจจุบันได้เลย

Deep Speech เป็นระบบสั่งงานด้วยเสียงที่ออกแบบมาเพื่อใช้งานในสภาพแวดล้อมจริง ที่สามารถใช้งานได้แม้ว่าจะมีเสียงดังรบกวน เช่นในร้านอาหาร บนรถโดยสาร หรือการใช้งานที่ผู้พูดอยู่ห่างจากไมโครโฟน เป็นต้น โดยคีย์ของเทคโนโลยีนี้คือการใช้จีพียูมาช่วยประมวลผล ร่วมกับฐานข้อมูลขนาดใหญ่ของ Baidu เองที่เก็บมามากกว่า 100,000 ชั่วโมงด้วยกัน

Baidu ได้ทดสอบ Deep Speech ในสถานการณ์จริงและพบว่ามีความผิดพลาดของคำเพียงแค่ 16.5% เท่านั้น รวมถึงให้ผลลัพธ์ที่แม่นยำกว่าคู่แข่งมากกว่า 10% ในสภาวะที่มีเสียงรบกวนมาก (แต่ไม่ได้บอกว่าทดสอบด้วยภาษาอะไร)

หัวหน้านักวิทยาศาสตร์ของ Baidu บอกว่า Deep Speech จะเป็นตัวแปรสำคัญสำหรับพลิกโฉมอุปกรณ์พกพาในอนาคต และเป็นก้าวแรกสู่ความพยายามพูดคุยกับอุปกรณ์อัจฉริยะอื่นๆ ในอนาคต รวมถึงหุ่นยนต์ในสภาพแวดล้อมจริงไปอีกขั้น

ใครที่สนใจรายละเอียดของ Deep Speech สามารถหาอ่านได้จากงานวิจัย Deep Speech: Scaling Up End-to-End Speech Recognition ครับ

Tags:

Facebook เข้าซื้อกิจการ Wit.ai บริษัทสตาร์ตอัพด้านระบบแยกแยะเสียง (voice recognition) ที่เปิด API ด้านการแยกแยะเสียงให้นักพัฒนาภายนอกใช้งาน (ส่งไฟล์เสียงเข้ามาให้ Wit.ai ประมวลผลให้)

Wit.ai เพิ่งก่อตั้งได้เพียง 18 เดือนแต่ก็มีนักพัฒนาเข้ามาใช้บริการ API แล้วกว่า 6,000 ราย หลังไปอยู่กับ Facebook แล้ว ตัวแพลตฟอร์มและซอฟต์แวร์จะยังแจกฟรี-เปิดซอร์สต่อไป

ใครอยากทดสอบระบบแยกแยะเสียงของ Wit.ai ลองเล่นได้ที่หน้าเดโม

ที่มา - Wit.ai

Tags:
Chromebook

หลังจากที่ Chrome รองรับคำสั่งเสียง OK Google โดยไม่ต้องแตะเมาส์มาตั้งแต่รุ่น 35 ที่ออกเมื่อช่วงกลางปีที่ผ่านมา ตอนนี้ก็ถึงเวลาของ Chromebook บ้าง โดยในฝั่งของ Chromebook นั้นผู้ใช้สามารถพูดคำสั่ง OK Google เพื่อเริ่มการทำงานได้ตลอดเวลาที่หน้าจอติดและเครื่องถูกปลดล็อกอยู่ แต่ในตอนนี้จะสามารถใช้งานได้เฉพาะ Chrome OS Dev Channel เท่านั้น

สำหรับคนที่อยู่ใน Chrome OS Dev Channel แล้ว สามารถใช้งานได้ด้วยการเปลี่ยนตัวเลือกใน chrome://flags/#enable-hotword-hardware จากนั้นให้รีสตาร์ทเครื่อง กลับมาเข้าหน้าตั้งค่าของระบบและเลือก Enable "OK Google" และทำตามขั้นตอนการฝึกตามที่เครื่องแจ้ง

ที่มา - +François Beaufort ผ่าน The Verge

ถ้ายังจำกันได้ เมื่อไม่นานมานี้ ไมโครซอฟท์เพิ่งออกแอพสั่งงานด้วยเสียง Torque สำหรับนาฬิกา Android Wear โดยเป็นส่วนหนึ่งของโครงการ Microsoft Garage ที่ส่งเสริมให้พนักงานสร้างแอพเล่นๆ นอกเวลางาน

ล่าสุดไมโครซอฟท์อัพเดต Torque เวอร์ชัน 2.0 ที่ปรับปรุงให้มันใช้กับสมาร์ทโฟน Android ได้ด้วย ขั้นตอนการใช้งานคือเขย่ามือถือ (หรือพลิกข้อมือถ้าเป็น Android Wear) เพื่อเรียก Torque จากนั้นก็พูดคำที่ต้องการค้นหาได้เลย

Torque ใช้ระบบแยกแยะเสียงของไมโครซอฟท์เอง และค้นหาข้อมูลด้วย Bing ครับ ทดลองเล่นได้ที่ Play Store

ที่มา - TechCrunch