Tags:

SoundHound บริการค้นหาเพลงด้วยเสียง ที่ภายหลังหันมาลุยตลาดซอฟต์แวร์สั่งงานด้วยเสียงลักษณะเดียวกับ Siri/Google Now ใต้แบรนด์ Hound ประกาศขยายผลิตภัณฑ์ของตัวเองจาก Hound มาเป็นแพลตฟอร์ม Houndify ที่เป็นอินเทอร์เฟซรับคำสั่งเสียงให้กับแอพทุกประเภท

Tags:
Node Thumbnail

การสั่งงานด้วยเสียงบนสมาร์ทโฟน หรืออุปกรณ์ไอทีใดๆ ไม่ใช่เรื่องแปลกในปัจจุบัน แต่ในขณะเดียวกันก็ไม่ใช่เรื่องง่ายถึงขนาดที่ใครก็ได้จะสามารถพัฒนาระบบดังกล่าวขึ้นมาด้วยตัวเอง แม้แต่แอปเปิล หรือซัมซุงยังได้รับความช่วยเหลือจาก Nuance ผู้เชี่ยวชาญด้านซอฟต์แวร์วิเคราะห์เสียงที่วันนี้ออกมาเปิดตัว Nuance Mix ชุดเครื่องมือสำหรับให้นักพัฒนาทำแอพรองรับคำสั่งเสียงได้สะดวกขึ้นแล้ว

Nuance Mix เป็นชุดเครื่องมือสำหรับผนวกฟีเจอร์สั่งงานด้วยเสียงเข้าไปในแอพ โดยเริ่มจากการสอนให้ Mix เรียนรู้คำสั่ง และวัตถุเสียก่อน เมื่อป้อนข้อมูลไปได้ระดับหนึ่ง Mix จะสามารถเรียนรู้ต่อด้วยตัวเอง และเริ่มตอบสนองกับคำพูดได้

Tags:
Node Thumbnail

ไมโครซอฟท์ทดสอบ Cortana for Android มาได้สักพักแล้ว ฟีเจอร์ใหม่ล่าสุดที่เพิ่มเข้ามาคือการสั่งงานด้วยเสียงแบบไม่ต้องแตะอุปกรณ์ เพียงพูดว่า "Hey Cortana" (แบบเดียวกับ OK Google) ก็จะเรียก Cortana ขึ้นมาได้เลย

ข้อจำกัดของฟีเจอร์นี้คือมันใช้งานได้ต่อเมื่อเราปลดล็อคหน้าจอแล้วเท่านั้น เหตุเพราะ Android เพียงบางรุ่นเท่านั้นที่มีฮาร์ดแวร์รองรับคำสั่งเสียงตลอดเวลา (ซึ่งเป็นปัญหาเดียวกับ OK Google)

ฟีเจอร์นี้มีใน Windows Phone มาตั้งแต่ปี 2014

ที่มา - Android Central

Tags:
Node Thumbnail

ข่าวช้าไปนิดหน่อยครับ Chrome 46 ออกรุ่นจริงแล้ว ของใหม่ในรุ่นนี้ได้แก่

Tags:
Node Thumbnail

นอกจากจะขยายบริการผู้ช่วยอัจฉริยะให้สามารถใช้งานได้หลายอุปกรณ์ขึ้นแล้ว อีกภารกิจสำคัญของแอปเปิลคือการพัฒนา Siri ให้ประสิทธิภาพดีขึ้น ล่าสุดมีรายงานว่าแอปเปิลเข้าซื้อบริษัทหน้าใหม่ผู้พัฒนาซอฟต์แวร์ด้านการรับคำสั่งเสียงมาเสริมทัพ Siri แล้ว

บริษัทที่ว่านี้คือ VocalIQ ผลงานเด่นคือการพัฒนาระบบที่ช่วยให้บริการผู้ช่วยอัจฉริยะ สามารถเข้าใจการใช้ภาษามนุษย์ได้ดีขึ้น เช่นความสามารถในการทำความเข้าใจกับคำถาม เมื่อไม่เข้าใจคำถามของผู้ใช้ และยังสามารถจดจำบทสนทนาก่อนหน้า และใช้เป็นส่วนหนึ่งของการตอบคำถามได้ ซึ่งเหนือกว่าทุกระบบในปัจจุบันที่ทำไม่ได้แม้แต่การจดจำคำถามล่าสุดที่เพิ่งถามไป ตรงส่วนนี้ทำให้ระบบผู้ช่วยใกล้เคียงกับมนุษย์มากขึ้น

Tags:
Node Thumbnail

ดูเหมือนบริษัทไอทีรายใหญ่ของโลกจะอยากมีผู้ช่วยส่วนตัวให้ผู้ใช้สมาร์ทโฟนกันทุกราย ไม่ว่าจะเป็นกูเกิล แอปเปิล ไมโครซอฟท์ หรือแม้แต่ Facebook ล่าสุดยักษ์ใหญ่จากจีนอย่าง Baidu ไม่ยอมแพ้ ส่งผู้ช่วยบนสมาร์ทโฟนมาบ้างแล้วในชื่อ Du Secretary

Du Secretary เพิ่งเปิดตัวอย่างเป็นทางการในงาน Baidu World ที่จัดขึ้นในวันนี้ เป็นฟีเจอร์ใหม่อยู่ในแอพค้นหา Mobile Baidu เวอร์ชัน 6.8 เป็นต้นไป ฟีเจอร์พื้นฐานจะมีตั้งแต่การสั่งงานในตัวเครื่อง ไปจนถึงการสั่งซื้อสินค้า และบริการ เช่นซื้อตั๋วภาพยนตร์ สั่งอาหาร ซึ่งเหนือไปกว่านั้นยังสามารถแนะนำบริการได้ด้วย ถ้าหากใช้งานจนเข้าใจพฤติกรรมของผู้ใช้เมื่อใช้งานไปซักระยะ

Tags:
Node Thumbnail

Nuance ผู้พัฒนาซอฟต์แวร์สั่งงานด้วยเสียงรายใหญ่ของโลก เปิดตัวแอพใหม่ Dragon Anywhere สำหรับลูกค้าองค์กรให้สามารถถอดความจากเสียงสู่เอกสารได้อย่างรวดเร็ว แม่นยำ

Dragon Anywhere เป็นภาคต่อที่เหนือขึ้นไปกว่าระบบถอดความจากเสียงที่มีอยู่บนคีย์บอร์ด โดยตัวแอพทำหน้าที่เป็นตัวจัดการเอกสาร ซึ่งสามารถใช้เสียงในการพิมพ์ จัดหน้า และแก้ไขเอกสารได้เบ็ดเสร็จ พร้อมแชร์จากอุปกรณ์พกพาสู่พีซีได้ในตัว

Tags:
Node Thumbnail

กูเกิลออกมาโชว์ผลงานการแปลงเสียงพูดเป็นข้อความ (transcription) ที่ใช้กับบริการ Voice Mail ใน Google Voice และ Project Fi ว่ามีความแม่นยำเพิ่มขึ้น ข้อผิดพลาดลดลงจากเดิม 49%

เทคนิคที่กูเกิลใช้คือ long short-term memory deep recurrent neural network โดยขอไฟล์ตัวอย่าง Voice Mail จากผู้ใช้งานมาเป็นข้อมูลจริงสำหรับการวิเคราะห์

กูเกิลไม่ได้อธิบายรายละเอียดของเทคนิคดังกล่าว แต่ก็ถือเป็นผลดีสำหรับผู้ใช้ที่ได้ระบบแปลงเสียงพูดที่แม่นยำยิ่งขึ้นครับ

ที่มา - Google Blog

Tags:
Node Thumbnail

เพิ่งวางขาย Amazon Echo ลำโพงอัจฉริยะที่เป็นผู้ช่วยที่ตอบข้อสงสัยได้ด้วยเสียงจริงๆ ไปไม่นาน วันนี้ Amazon ออกมาเปิดตัวโครงการต่อยอดของ Alexa เบื้องหลังฟีเจอร์สั่งงานด้วยเสียงที่ใช้กับ Echo มาหลายอย่าง

อย่างแรกคือการเปิดกองทุน Alexa Fund มูลค่ากว่า 100 ล้านเหรียญเพื่อสนับสนุนให้นักพัฒนา ผู้ผลิต และสตาร์ทอัพมาร่วมออกแบบประสบการณ์ใหม่ที่สร้างด้วย Alexa โดยเน้นไปที่สามกลุ่มใหญ่ๆ คือพัฒนาฮาร์ดแวร์ที่ใช้งาน Alexa, การใช้งานรูปแบบใหม่ๆ ที่ใช้งานร่วมกับ Alexa และฟีเจอร์ใหม่ที่น่าจะใส่เข้าไปใน Alexa ได้ โดยเริ่มลงทุนไปแล้วทั้งสิ้น 7 บริษัท

Tags:
Node Thumbnail

หลังจาก Amazon เปิดตัว Amazon Echo, Siri/Google Now ประจำบ้าน ที่ควบคุมด้วยเสียงเป็นหลักและ สามารถควบคุมอุปกรณ์เครื่องใช้ในบ้านได้ ในวันนี้ก็เปิดให้สั่งจองแล้วสำหรับลูกค้าในประเทศอเมริกา

Amazon Echo ได้ถูกเปิดตัวในเดือนพฤศจิกายนที่ผ่านมา ซึ่งก่อนหน้านี้ต้องได้รับเชิญก่อนถึงจะสามารถซื้อได้ แต่ในวันนี้ได้เปิดให้ผู้สนใจที่จะซื้อสามารถสั่งจองได้อย่างเป็นทางการ โดยราคาลดลงมาอยู่ที่ 180 ดอลลาร์จากเดิมที่เปิดตัวราคา 199 ดอลลาร์ และจะจัดส่งในวันที่ 14 เดือนกรกฎาคม แต่ยังคงจำกัดพื้นที่ในการจองอยู่ที่ประเทศอเมริกาเท่านั้น

Tags:
Node Thumbnail

WeChat แนะนำฟีเจอร์ใหม่ Voiceprint ในวงการโซเชียลแอปพลิเคชั่นเป็นครั้งแรก ช่วยให้ผู้ใช้งานสามารถเข้าใช้งานบัญชีได้อย่างสะดวกรวดเร็ว และปลอดภัย ผ่านทางเสียงของผู้ใช้ที่มีเอกลักษณ์เฉพาะคล้ายๆ กับลายนิ้วมือ

การใช้งาน Voiceprint ช่วยให้ไม่จำเป็นต้องกรอกรหัสผ่านอีกต่อไปในการล็อกอินเข้าสู่บัญชี ระบบจดจำเสียงจะจดจำเอกลักษณ์ของเสียงเพื่อใช้ยืนยันตัวตนของผู้ใช้งาน โดยต้องเข้าไปตั้งค่าที่ ฉัน > ตั้งค่า > บัญชีของฉัน > Voiceprint จะมีชุดตัวเลขแสดงออกมา โดยผู้ใช้ต้องกดปุ่มสีเขียวค้างไว้ขณะอ่านชุดตัวเลข 2 ครั้ง ระบบจะเริ่มทำงานและเมื่อเข้า WeChat จะสามารถเลือกเข้าสู่ระบบผ่าน Voiceprint ได้

Tags:
Node Thumbnail

กูเกิลเพิ่งเปิดตัว Android Pay ระบบจ่ายเงินด้วยสมาร์ทโฟนผ่าน NFC แต่ในงาน Google I/O 2015 กูเกิลก็ยังมีระบบจ่ายเงินอีกตัวหนึ่งชื่อว่า Hands Free มาโชว์ด้วย

แนวคิดของ Hands Free คือการตั้งคำถามว่าเราสามารถจ่ายเงินอย่างไรโดยไม่จำเป็นต้องหยิบมือถือออกมาจากกระเป๋า ซึ่งคำตอบของกูเกิลก็คือยืนยันตัวตนด้วยเสียง เช่น พูดคีย์เวิร์ดที่กำหนดไว้อย่าง "I want to pay with Google" ที่หน้าเคาเตอร์จ่ายเงิน เท่านี้ก็เรียบร้อยแล้ว

ตอนนี้กูเกิลกำลังทดสอบ Hands Free กับร้าน McDonald's และ PaPa John's บางสาขาในพื้นที่แถบซานฟรานซิสโก และยังต้องทดสอบอีกมากกว่าจะพร้อมให้ใช้งานจริง

Tags:
Node Thumbnail

กูเกิลเพิ่มความสามารถให้ฟีเจอร์ Voice Actions บน Android โดยสามารถใช้กับแอพบางตัวที่ไม่ใช่ของกูเกิลได้แล้ว (ชื่ออย่างเป็นทางการคือ Custom Voice Actions) ตัวอย่างที่กูเกิลนำมาโชว์ได้แก่

  • “Ok Google, listen to NPR”
  • “Ok Google, show attractions near me on TripAdvisor”

ตอนนี้กูเกิลยังเปิดรับแอพจากผู้พัฒนาบางรายเท่านั้น เช่น Shazam, Instacart, Wink, Walmart, TuneIn Radio ส่วนนักพัฒนาที่อยากเข้าร่วมโครงการ ต้องสมัครเข้าไปให้กูเกิลคัดเลือกอีกทีครับ

ที่มา - +Android Developers

Tags:
Node Thumbnail

หลังโทรทัศน์ซัมซุงเป็นข่าวว่าส่งข้อมูลเสียงของลูกค้าไปผ่านอินเทอร์เน็ตไปยังบริษัทภายนอก ตอนนี้ David Lodge นักวิจัยความปลอดภัยจากบริษัท Pen Test Partners รายงานว่าข้อมูลเสียงที่ส่งออกไปจากตัวโทรทัศน์โดยไม่ได้เข้ารหัส

Tags:
Node Thumbnail

ในยุคที่ระบบค้นหาด้วยเสียงและผู้ช่วยส่วนตัว แข่งกันสร้างบุคลิกหรือตัวตน (personality) เพื่อเพิ่มความเป็นมิตรต่อผู้ใช้ หลายคนอาจสังเกตว่าระบบค้นหาด้วยเสียงของกูเกิล ทั้งจาก Google Search และ Google Now กลับไม่มีบุคลิกที่ชัดเจนแบบเดียวกับ Siri หรือ Cortana

เรื่องนี้ถูกเฉลยในบทความเจาะลึก Google Search ของ Medium Backchannel ว่ากูเกิลเคยคิดจะใส่บุคลิกลงไปเช่นกัน แต่สุดท้ายเลือกไม่ทำ เพราะคิดว่ายังไม่สามารถสร้างบุคลิกและบทสนทนาได้ดีพอ โดย Jon Wiley หัวหน้าทีมออกแบบประสบการณ์การค้นหา (search design) บอกว่าโลกเราทุกวันนี้ยังห่างไกลกับการที่คอมพิวเตอร์จะสร้างบุคลิกได้สมจริงพอ ในระดับที่คนรู้สึกคุ้นเคยและสะดวกใจที่จะคุยด้วย

Tags:
Node Thumbnail

Baidu ยักษ์ใหญ่แห่งวงการค้นหาจากประเทศจีน เปิดตัวเทคโนโลยีใหม่จากแผนกพัฒนาของตัวเองในชื่อ "Deep Speech" ที่เคลมว่าสามารถพลิกโฉมการสั่งด้วยเสียงในปัจจุบันได้เลย

Deep Speech เป็นระบบสั่งงานด้วยเสียงที่ออกแบบมาเพื่อใช้งานในสภาพแวดล้อมจริง ที่สามารถใช้งานได้แม้ว่าจะมีเสียงดังรบกวน เช่นในร้านอาหาร บนรถโดยสาร หรือการใช้งานที่ผู้พูดอยู่ห่างจากไมโครโฟน เป็นต้น โดยคีย์ของเทคโนโลยีนี้คือการใช้จีพียูมาช่วยประมวลผล ร่วมกับฐานข้อมูลขนาดใหญ่ของ Baidu เองที่เก็บมามากกว่า 100,000 ชั่วโมงด้วยกัน

Tags:
Node Thumbnail

Facebook เข้าซื้อกิจการ Wit.ai บริษัทสตาร์ตอัพด้านระบบแยกแยะเสียง (voice recognition) ที่เปิด API ด้านการแยกแยะเสียงให้นักพัฒนาภายนอกใช้งาน (ส่งไฟล์เสียงเข้ามาให้ Wit.ai ประมวลผลให้)

Wit.ai เพิ่งก่อตั้งได้เพียง 18 เดือนแต่ก็มีนักพัฒนาเข้ามาใช้บริการ API แล้วกว่า 6,000 ราย หลังไปอยู่กับ Facebook แล้ว ตัวแพลตฟอร์มและซอฟต์แวร์จะยังแจกฟรี-เปิดซอร์สต่อไป

ใครอยากทดสอบระบบแยกแยะเสียงของ Wit.ai ลองเล่นได้ที่หน้าเดโม

ที่มา - Wit.ai

Tags:
Node Thumbnail

หลังจากที่ Chrome รองรับคำสั่งเสียง OK Google โดยไม่ต้องแตะเมาส์มาตั้งแต่รุ่น 35 ที่ออกเมื่อช่วงกลางปีที่ผ่านมา ตอนนี้ก็ถึงเวลาของ Chromebook บ้าง โดยในฝั่งของ Chromebook นั้นผู้ใช้สามารถพูดคำสั่ง OK Google เพื่อเริ่มการทำงานได้ตลอดเวลาที่หน้าจอติดและเครื่องถูกปลดล็อกอยู่ แต่ในตอนนี้จะสามารถใช้งานได้เฉพาะ Chrome OS Dev Channel เท่านั้น

Tags:
Node Thumbnail

ถ้ายังจำกันได้ เมื่อไม่นานมานี้ ไมโครซอฟท์เพิ่งออกแอพสั่งงานด้วยเสียง Torque สำหรับนาฬิกา Android Wear โดยเป็นส่วนหนึ่งของโครงการ Microsoft Garage ที่ส่งเสริมให้พนักงานสร้างแอพเล่นๆ นอกเวลางาน

ล่าสุดไมโครซอฟท์อัพเดต Torque เวอร์ชัน 2.0 ที่ปรับปรุงให้มันใช้กับสมาร์ทโฟน Android ได้ด้วย ขั้นตอนการใช้งานคือเขย่ามือถือ (หรือพลิกข้อมือถ้าเป็น Android Wear) เพื่อเรียก Torque จากนั้นก็พูดคำที่ต้องการค้นหาได้เลย

Torque ใช้ระบบแยกแยะเสียงของไมโครซอฟท์เอง และค้นหาข้อมูลด้วย Bing ครับ ทดลองเล่นได้ที่ Play Store

Tags:
Node Thumbnail

แม้ Fire Phone จะล้มเหลวไม่เป็นท่า แต่ Amazon ก็ยังคงไม่ละความพยายามในการสร้างฮาร์ดแวร์ออกสู่ท้องตลาด และครั้งนี้ Amazon ได้เปิดตัวอุปกรณ์เพื่อใช้งานภายในที่พักอาศัย มันคือ Echo ลำโพงพูดได้ที่พร้อมจะคุยและตอบคำถามทุกคนในบ้าน

Echo คือลำโพงที่สามารถเข้าใจคำพูดของคนได้โดยอาศัยซอฟต์แวร์รู้จำคำพูดของมนุษย์ มันสามารถสามารถแจ้งข้อมูลทั่วไปอย่างวันและเวลา, สภาพอากาศได้ ทั้งยังสามารถตอบคำถามของผู้ใช้งานได้โดยการค้นหาข้อมูลจากฐานข้อมูลอันมหาศาลในกลุ่มเมฆของ Amazon

Tags:
Node Thumbnail

อเมซอนเปิดตัว Amazon Echo คอมพิวเตอร์ที่ควบคุมด้วยเสียงเป็นหลัก รอรับคำสั่งตลอดเวลาโดยสั่งว่า "Alexa" เพื่อเริ่มต้นการทำงาน สามารถถามตอบคำถามทั่วไป, ตั้งนาฬิกาปลุก, เล่นเพลง, ค้นหา Wikipedia, จัดการรายการซื้อสินค้า, จัดการรายการสิ่งที่ต้องทำ (to-do list)

เทคโนโลยีรูปแบบเดียวกันคนทั่วไปน่าจะเคยเห็นในภาพยนตร์อย่าง Jarvis ใน Iron Man, หรือใกล้ตัวขึ้นมาก็เป็น Siri และ Google Now สิ่งที่ทำให้ Echo ใกล้เคียง Jarvis คือมันรองรับการฟังเสียงจากระยะไกล ทำให้ไม่ต้องพูดจ่อกับตัวเครื่องแต่สามารถสั่งงานจากที่ใดก็ได้ในห้อง

Tags:
Node Thumbnail

กูเกิลเปิดให้แอพ Android ใดๆ ที่อยากรองรับการค้นหาข้อมูลด้วยเสียงพูด สามารถฝังโค้ดของกูเกิลเพียง 6 บรรทัด เพื่อเรียกใช้ฟีเจอร์ค้นหาด้วยเสียงของ Google Now ได้แล้ว

วิธีการใช้งานคือผู้ใช้เรียก Google Now ขึ้นมาด้วยวลี "Ok Google" ตามปกติ แล้วสั่งงานด้วยคำว่า "search keyword on appname" ตัวอย่างเช่น "Ok Google, search for hotels in Maui on TripAdvisor" คำค้นว่า "hotels in Maui" จะถูกส่งต่อไปยังระบบค้นหาของแอพ TripAdvisor ให้อัตโนมัติ

Tags:
Node Thumbnail

จากข่าว ไมโครซอฟท์จับมือ Insteon สร้างพันธมิตรอุปกรณ์สมาร์ทโฟนสั่งงานได้ด้วย Cortana วันนี้แอพเปิดให้โหลดบน Windows Phone Store เรียบร้อยแล้ว

จากนี้ไปผู้ที่มีระบบบ้านอัจฉริยะของ Insteon จะสามารถสั่งปิดไฟ ล็อคประตูด้วยเสียงได้ผ่าน Cortana โดยใช้คำสั่งขึ้นต้นด้วยคำว่า Insteon เช่น

Tags:
Node Thumbnail

ถ้ายังจำกันได้ เราสามารถใช้ Google Search ค้นหาด้วยเสียงภาษาไทยได้แล้ว แต่ปัญหาในการใช้งานคือเราต้องสลับภาษาเอาว่าจะค้นด้วยเสียงไทยหรืออังกฤษ ซึ่งยุ่งยากพอสมควร

วันนี้ปัญหาข้างต้นหมดไปแล้ว เพราะกูเกิลปรับปรุงแอพ Google Search for Android ให้รองรับเสียงพูดหลายภาษาในตัว (สูงสุด 5 ภาษาพร้อมกัน)

วิธีใช้งานคือเข้าแอพ Google Search (เวอร์ชัน 3.6 ขึ้นไป) เลือก Settings > Voice > Languages แล้วเลือกภาษาที่ต้องการใช้งาน เช่น ไทย+อังกฤษ

Pages