Speech Recognition

Speech-to-Text บน Azure จะรับภาษาไทยเร็วๆ นี้ เปิดตัวทางการ 24 กันยายน

By sunnywalker

on 26 August 2018 - 08:45 Tag: Microsoft Azure, Languages, Speech Recognition, Thailand

Microsoft Azure

เมื่อวันที 24 สิงหาคม ที่ผ่านมา คุณธนวัฒน์ สุธรรมพันธุ์ กรรมการผู้จัดการไมโครซอฟท์ประเทศไทย ระบุว่าบริการ Speech-to-Text ที่อยู่ในชุดบริการ Microsoft Cognitive Services กำลังจะรองรับภาษาไทย ในเร็วๆ นี้โดยจะเปิดตัวเป็นทางการวันที่ 24 กันยายนในงาน Microsoft Ignite ที่ออร์แลนโด

บริการ Speech-to-Text นับเป็นบริการสำคัญของกลุ่มบริการ AI บนคลาวด์ โดยผู้ให้บริการรายใหญ่ เช่น Google Cloud, Amazon, IBM Watson, และ Azure ล้วนมีบริการนี้ทั้งสิ้น แต่มีเฉพาะกูเกิลเท่านั้นที่รองรับภาษาไทยในตอนนี้
ยังไม่มีข้อมูลว่าจะ Azure จะรองรับภาษาใดเพิ่มพร้อมกับภาษาไทยบ้าง ตอนนี้บริการรองรับเฉพาะภาษา อังกฤษ จีน ฝรั่งเศส เยอรมัน อิตาลี สเปน

ไมโครซอฟท์ออกส่วนเสริม Office พิมพ์งานด้วยเสียงพูด แถมแปลเป็นภาษาอื่นได้เลย

By mk

on 21 June 2017 - 14:17 Tag: Translation, Speech Recognition, Microsoft Office

Translation

ไมโครซอฟท์ออกส่วนเสริม (add-in) ชื่อ Dictate ให้กับ Microsoft Office เพื่อแปลงเสียงพูดเป็นข้อความ พิมพ์งานได้แบบไม่ต้องแตะคีย์บอร์ด แถมสามารถแปลเป็นภาษาอื่นๆ ให้อัตโนมัติ

ส่วนเสริมนี้เป็นผลงานของทีม Microsoft Garage ที่สร้างแอพแนวทดลองหลายๆ ตัว โดย Dictate เรียกใช้บริการจาก Microsoft Cognitive Services อย่าง Bing Speech API และ Translator API (ตัวเดียวกับที่ใช้ใน Skype Translator) มันสามารถใช้ได้กับ Word, PowerPoint และ Outlook

กูเกิลเปิด Cloud Speech API ระบบแยกแยะเสียงพูดตัวเดียวกับ Google Now, รองรับเสียงภาษาไทย

By mk

on 19 April 2017 - 15:43 Tag: Google Cloud, Speech Recognition, Google

Google Cloud

กูเกิลปรับสถานะของ Cloud Speech API บริการแปลงเสียงพูดเป็นข้อความ จากเดิมที่เป็น open beta เข้าสู่รุ่นจริง general availability แล้ว

Cloud Speech API คือการนำเทคโนโลยีแยกแยะเสียงพูด (speech recognition) ที่กูเกิลใช้งานอยู่แล้วใน Google Now, Google Assistant, Google Search) มาเปิดให้คนภายนอกใช้งานแบบคิดเงินผ่านคลาวด์ ข้อดีของมันคือเป็นระบบแยกแยะเสียงพูดที่กูเกิลเทรนมาเรียบร้อยแล้ว พิสูจน์แล้วว่าใช้งานได้จริง แถมทำงานได้แม้มีเสียงรบกวนมาก รองรับทั้งการแปลงเสียงแบบเรียลไทม์ และแปลงไฟล์เสียงที่อัดมาก่อนแล้ว

ไมโครซอฟท์พัฒนาระบบ Speech Recognition ที่แม่นยำทัดเทียมกับมนุษย์ได้แล้ว

By mk

on 20 October 2016 - 01:30 Tag: Research, Speech Recognition, Voice Recognition, Microsoft

Research

ทีม Microsoft Artificial Intelligence and Research (ที่เพิ่งก่อตั้ง) ประสบความสำเร็จกับระบบแยกแยะเสียงพูด (speech recognition) ที่มีความผิดพลาดน้อยเทียบเท่ากับมนุษย์ผู้เชี่ยวชาญด้านการถอดเสียงพูดแล้ว

ไมโครซอฟท์สามารถพัฒนาระบบถอดเสียงพูดที่มีอัตราความผิดพลาด (word error rate หรือ WER) ที่ 5.9% ซึ่งใกล้เคียงกับการถอดเสียงโดยมนุษย์ และถือเป็นระบบแยกแยกเสียงตัวแรกที่มีความแม่นยำถึงระดับนี้

Facebook เตรียมเพิ่มฟีเจอร์ถอดข้อความเสียงใน Messenger ให้เป็นข้อความตัวอักษร

By ตะโร่งโต้ง

on 17 January 2015 - 13:45 Tag: Speech Recognition, Facebook Messenger

Speech Recognition

Facebook Messenger นั้นเป็นแอพสนทนาที่รองรับการส่งข้อความเสียงได้ด้วย ผู้ใช้สามารถส่งข้อความเสียงแทนการพิมพ์ข้อความได้ซึ่งช่วยให้การพูดคุยนั้นทำได้สะดวกมากขึ้น แต่ปัญหาคือบางครั้งคู่สนทนาอาจไม่อยากเปิดฟังข้อความเสียงนั้นด้วยเพราะไม่สะดวกจะเปิดเสียงในที่สาธารณะ ทางออกคือฟีเจอร์ใหม่ที่ Facebook กำลังทดสอบอยู่ที่จะสามารถถอดคำพูดจากข้อความเสียงของผู้ส่งให้กลายเป็นข้อความตัวอักษรไปปรากฏต่อสายตาของผู้รับ

งานวิจัย Deep Speech ของ Baidu ทำงานได้ดีกว่าบริการที่มีอยู่ในตลาดทุกตัว

By lew

on 19 December 2014 - 00:33 Tag: Research, Baidu, Speech Recognition

Research

Baidu ประกาศความสำเร็จในการพัฒนา Deep Speech ระบบจดจำเสียงที่ใช้โครงสร้าง deep learning เข้ามาเรียนรู้เสียงจากโลกความเป็นจริงทำได้สามารถจดจำเสียงได้อย่างแม่นยำ

Andrew Ng ระบุว่างานวิจัย Deep Speech นี้สามารถฟังข้อความได้ถูกต้องแม้จะอยู่ในพื้นที่ที่มีเสียงรบกวนสูง รวมถึงพื้นที่ที่ระบบจดจำเสียงทุกวันนี้ไม่สามารถฟังข้อความเข้าใจได้ โดยเขาทดสอบกับระบบที่มีอยู่ในตลาด รวมถึง Google API, Apple Dictation, และ Baidu Speech เอง ระบบ Deep Speech นี้สามารถทำงานได้ดีว่าทุกระบบ

[ฝึกงาน Blognone] ทดลองสร้าง Speech Recognition ด้วย CMUSphinx ตอนที่ 2 (ตอนจบ)

By littletail

on 12 July 2014 - 14:44 Tag: In-Depth, Speech Recognition, CMUSphinx, Project

In-Depth

ในตอนที่แล้ว ผมได้พูดถึงโปรแกรม PocketSphinx ซึ่งเป็นโปรแกรมรู้จำเสียงอัตโนมัติ (Automatic Speech Recognition หรือ ASR) ที่เป็น open source สามารถปรับแต่งให้รู้จำเสียงแบบใด ภาษาใดก็ได้ โดยผมได้พูดถึงการสร้างโมเดลที่จำเป็นต้องใช้สำหรับโปรแกรมรู้จำเสียงทั้งสามแบบ ได้แก่ language model, phonetic dictionary และ acoustic model ไปแล้ว ในตอนนี้จะเป็นการทดสอบโมเดลเพื่อวัดประสิทธิภาพของโมเดล การนำเอาโมเดลทั้งสามไปใช้งานจริง การทำ adaptation acoustic model และการทำ voice activation ครับ

[ฝึกงาน Blognone] ทดลองสร้าง Speech Recognition ด้วย CMUSphinx ตอนที่ 1

By littletail

on 3 July 2014 - 16:38 Tag: In-Depth, Speech Recognition, CMUSphinx, Project

In-Depth

โปรแกรมรู้จำเสียงอัตโนมัติ (Automatic Speech Recognition หรือ ASR) คือโปรแกรมที่รับข้อมูลนำเข้าเป็นเสียงและแปลงให้กลายเป็นข้อความ (text) แบบ real-time ปัจจุบันมีใช้กันแพร่หลายขึ้นมาก อย่าง Siri ของแอปเปิลก็สามารถพูดคุยโต้ตอบกันได้ หรืออย่างเครื่องใช้ไฟฟ้าบางยี่ห้อในปัจจุบันก็ได้เพิ่มฟังก์ชันการสั่งการด้วยเสียงแถมมาด้วย แต่จะเป็นไปได้ไหมถ้าเราจะสามารถสร้างเทคโนโลยีเหล่านี้ขึ้นมาใช้เองได้ ด้วยความสงสัยนี้ผมเลยคิดจะทดลองทำโปรเจคนี้ขึ้นมา

Facebook เข้าซื้อบริษัทผู้พัฒนาแอพวุ้นแปลภาษา Jibbigo

By arjin

on 13 August 2013 - 07:29 Tag: Translation, Speech Recognition, Acquisition, Facebook

Translation

Facebook ประกาศว่าได้เข้าซื้อบริษัท Mobile Technologies ผู้พัฒนาแอพแปลภาษาแบบใช้เสียง Jibbigo ไปแล้วด้วยจำนวนเงินที่ไม่เปิดเผย พร้อมกับทีมงานส่วนหนึ่ง โดย Facebook บอกว่าจะยังคงสนับสนุนแอพ Jibbigo ต่อไป

Jibbigo เป็นแอพแปลภาษาบน iOS และ Android ที่สามารถป้อนข้อมูลได้ทั้งตัวหนังสือและเสียง รองรับ 25 ภาษารวมทั้งภาษาไทย มีรูปแบบการหารายได้โดยขายส่วนแปลภาษาแบบออฟไลน์

บริษัทจีน 19 รายจับมือตั้งกลุ่มพัฒนาซอฟต์แวร์สั่งงานด้วยเสียง

By mk

on 10 August 2012 - 21:43 Tag: China, Speech Recognition, Voice Recognition

China

ไม่ว่าจะเป็น Siri, Google Voice Actions, Microsoft Tellme อาจเริ่มเจอคู่แข่งที่น่ากลัวเข้าแล้ว เพราะบริษัทไอทีของจีน 19 รายประกาศจับมือตั้งกลุ่ม Speech Industry Alliance of China (SIAC) เพื่อพัฒนาซอฟต์แวร์สั่งงานด้วยเสียงเป็นภาษาจีนกับเขาบ้าง

ตอนนี้ยังไม่มีรายชื่อของบริษัททั้งหมดใน SIAC เพราะยังไม่มีการแถลงข่าวอย่างเป็นทางการ แต่เว็บไซต์ไต้หวันอย่าง DigiTimes ก็ได้ข้อมูลมาว่ามีบริษัทใหญ่ๆ อย่าง Lenovo, Huawei, China Mobile, China Unicom, China Telecom เข้าร่วม ส่วนบริษัทหลักที่พัฒนาซอฟต์แวร์สั่งงานด้วยเสียงคือ Anhui USTC iFlytek ซึ่งมีส่วนแบ่งตลาด 70% ของจีนอยู่แล้ว

ไมโครซอฟท์เปิดตัว NUads ปลายฤดูใบไม้ผลิ, เผย ยังมีแนวทางประยุกต์ใช้ Kinect อีกมาก แต่ต้องเน้นความเป็นส่วนตัวเป็นสำคัญ

By nuntawat

on 20 May 2012 - 21:11 Tag: Privacy, Advertisement, Speech Recognition, Kinect, Microsoft

Privacy

ที่งาน Privacy Identity Innovation 2012 ที่จัดขึ้นที่เมืองซีแอตเทิล ไมโครซอฟท์เปิดเผยว่าในช่วงปลายฤดูใบไม้ผลิปีนี้จะเปิดตัว NUads (Natural User-interface ads) หรือการทำให้ให้ผู้ชมโฆษณามีปฏิสัมพันธ์กับแบรนด์ได้มากขึ้นมาก (ข่าวเก่า) โดยใช้ Kinect ผ่าน Xbox 360 หรือผ่านคอมพิวเตอร์

รายละเอียดแรก "Google Assistant" ว่าที่คู่แข่ง Siri ที่เปิดกว้างกว่า

By Blltz

on 4 March 2012 - 11:31 Tag: Google, Speech Recognition

Google

เว็บไซต์ TechCrunch อ้างแหล่งข่าววงในว่ากูเกิลกำลังทำโครงการ Google Assistant โปรแกรมสั่งการด้วยเสียงที่พัฒนาขึ้นจากของเดิม เพื่อแข่งกับ Siri ของแอปเปิล ซึ่งเคยมีข่าวมาก่อนหน้าว่า

[ข่าวลือ] "Majel" โครงการลับของกูเกิลที่เตรียมมาสู้กับ Siri

By mk

on 15 December 2011 - 13:15 Tag: Google, Speech Recognition, Rumor

Google

เว็บไซต์ Android and Me รายงานข่าววงในว่ากูเกิลกำลังทำโครงการลับชื่อ "Majel" ซึ่งเป็นระบบสั่งงานด้วยเสียงที่พัฒนาไปจาก Voice Actions และน่าจะเป็นผลิตภัณฑ์ที่กูเกิลนำมาชนกับ Siri ของแอปเปิล

โครงการ Majel นี้เป็นหนึ่งในผลงานของ "Google X" ห้องแล็บลับของกูเกิลที่พัฒนาผลิตภัณฑ์ในอนาคต ส่วนชื่อ "Majel" นั้นมาจากภาพยนตร์ชุด Star Trek โดยเป็นเสียงของคอมพิวเตอร์ที่ใช้ในยานอวกาศนั่นเอง

ไมโครซอฟท์โชว์ NUads โฆษณารูปแบบใหม่บน Kinect สั่งงานด้วยเสียงได้

By mk

on 23 June 2011 - 09:33 Tag: Advertisement, Speech Recognition, Kinect, Microsoft

ที่งานเทศกาลโฆษณานานาชาติเมืองคานส์ ประเทศฝรั่งเศส ฝ่ายโฆษณาของไมโครซอฟท์นำโฆษณาแบบใหม่ที่ใช้ Kinect มาเสริมประสบการณ์ของโฆษณาบนทีวีแบบเดิมๆ ช่วยให้ผู้ชมโฆษณามีปฏิสัมพันธ์กับแบรนด์ได้มากขึ้นมาก

โฆษณาแบบนี้มีชื่อว่า NUads (ย่อมาจาก Natural User Interface Ads) แบ่งเป็น 5 รูปแบบย่อย

Windows Embedded Automotive 7 ใหม่ เพิ่มเทคโนโลยีรู้จำเสียงพูดกับ Silverlight

By nuntawat

on 20 October 2010 - 07:42 Tag: Windows, Silverlight, Embedded, Automobile, Speech Recognition, Windows Embedded, Microsoft

Windows

วันนี้ (ตามเวลาสหรัฐฯ) ไมโครซอฟท์ได้เปิดตัว Windows สำหรับยานยนต์ "Windows Embedded Automotive 7" เวอร์ชันล่าสุดนี้มาพร้อมกับเทคโนโลยีการรู้จำเสียงพูด TellMe และเทคโนโลยี Silverlight ไมโครซอฟท์ยังกล่าวด้วยว่า Windows Embedded Automotive 7 และ Windows Embedded Compact 7 นั้นใช้หลายคอมโพเนนท์ร่วมกัน อาทิ เฟรมเวิร์ก Silverlight สำหรับ Windows Embedded UI

ถึงแม้ไมโครซอฟท์จะบอกว่าผู้ผลิตรถยนต์สามารถนำแพลตฟอร์มใหม่ไปใช้ได้ทันที แต่ในความเป็นจริงมันก็จะต้องได้รับการปรับแต่งลงรถยนต์รุ่นใหม่ ซึ่งอาจต้องใช้เวลาอย่างน้อย 18 ถึง 24 เดือน

WP7 จะเน้นฟีเจอร์สั่งงานด้วยเสียง

By mk

on 6 August 2010 - 09:53 Tag: Speech Recognition, Windows Phone 7, Microsoft, Mobile

Speech Recognition

Zig Serafin ผู้บริหารของไมโครซอฟท์ โชว์ฟีเจอร์การสั่งงานด้วยเสียงของ Windows Phone 7

ไมโครซอฟท์มีแผนจะผลักดันการสั่งงานที่เรียกว่า Natural User Interface (NUI) ซึ่งหนึ่งในนั้นคือ Microsoft Kinect สำหรับกรณีของมือถือ Serafin กล่าวว่าเมื่อเราใช้อุปกรณ์พกพาที่คีย์บอร์ดถูกจำกัดขนาด เสียงจึงกลายเป็นสิ่งจำเป็น และมือถือคู่แข่งอย่าง iPhone/Android ยังใช้การสั่งงานผ่านไอคอนอยู่ ซึ่งเทียบได้กับ Windows 3.1

กูเกิลร่วมกับไอโฟน ให้บริการค้นหาด้วยเสียง

By arjin

on 15 November 2008 - 09:06 Tag: Google, Search Engine, Speech Recognition, iPhone

Google

คุณๆ อาจจะไม่ตื่นตาตกใจเพราะคิดว่าจะช้าหรือเร็วเทคโนโลยีนี้ก็จะมา แต่ในที่สุดกูเกิลก็เปิดตัวบริการใหม่คือการค้นหาด้วยเสียง โดยจะเปิดให้บริการผ่านไอโฟน ซึ่งเป็นโปรแกรมฟรีผ่าน iTS

วิธีการทำงานคือคุณเพียงส่งคำถามที่ต้องการถามด้วยเสียง โปรแกรมจะแปลงเสียงนั้นเป็นข้อมูลดิจิทัล และเอาข้อมูลที่ว่าไปค้นหาผ่านระบบของกูเกิล ซึ่งเพราะไอโฟนสามารถระบุพิกัดของผู้ค้นหาได้ คำถามเช่น "ร้านกาแฟใกล้ที่สุดอยู่ไหน" จึงสามารถตอบกลับได้อย่างที่ผู้ใช้งานต้องการจริงๆ

Subscribe to Speech Recognition