By sunnywalker Writer on Tag: Microsoft Azure, Languages, Speech Recognition, Thailand
Microsoft Azure

เมื่อวันที 24 สิงหาคม ที่ผ่านมา คุณธนวัฒน์ สุธรรมพันธุ์ กรรมการผู้จัดการไมโครซอฟท์ประเทศไทย ระบุว่าบริการ Speech-to-Text ที่อยู่ในชุดบริการ Microsoft Cognitive Services กำลังจะรองรับภาษาไทย ในเร็วๆ นี้โดยจะเปิดตัวเป็นทางการวันที่ 24 กันยายนในงาน Microsoft Ignite ที่ออร์แลนโด

บริการ Speech-to-Text นับเป็นบริการสำคัญของกลุ่มบริการ AI บนคลาวด์ โดยผู้ให้บริการรายใหญ่ เช่น Google Cloud, Amazon, IBM Watson, และ Azure ล้วนมีบริการนี้ทั้งสิ้น แต่มีเฉพาะกูเกิลเท่านั้นที่รองรับภาษาไทยในตอนนี้
ยังไม่มีข้อมูลว่าจะ Azure จะรองรับภาษาใดเพิ่มพร้อมกับภาษาไทยบ้าง ตอนนี้บริการรองรับเฉพาะภาษา อังกฤษ จีน ฝรั่งเศส เยอรมัน อิตาลี สเปน

By mk Founder on Tag: Translation, Speech Recognition, Microsoft Office
Translation

ไมโครซอฟท์ออกส่วนเสริม (add-in) ชื่อ Dictate ให้กับ Microsoft Office เพื่อแปลงเสียงพูดเป็นข้อความ พิมพ์งานได้แบบไม่ต้องแตะคีย์บอร์ด แถมสามารถแปลเป็นภาษาอื่นๆ ให้อัตโนมัติ

ส่วนเสริมนี้เป็นผลงานของทีม Microsoft Garage ที่สร้างแอพแนวทดลองหลายๆ ตัว โดย Dictate เรียกใช้บริการจาก Microsoft Cognitive Services อย่าง Bing Speech API และ Translator API (ตัวเดียวกับที่ใช้ใน Skype Translator) มันสามารถใช้ได้กับ Word, PowerPoint และ Outlook

By mk Founder on Tag: Google Cloud, Speech Recognition, Google
Google Cloud

กูเกิลปรับสถานะของ Cloud Speech API บริการแปลงเสียงพูดเป็นข้อความ จากเดิมที่เป็น open beta เข้าสู่รุ่นจริง general availability แล้ว

Cloud Speech API คือการนำเทคโนโลยีแยกแยะเสียงพูด (speech recognition) ที่กูเกิลใช้งานอยู่แล้วใน Google Now, Google Assistant, Google Search) มาเปิดให้คนภายนอกใช้งานแบบคิดเงินผ่านคลาวด์ ข้อดีของมันคือเป็นระบบแยกแยะเสียงพูดที่กูเกิลเทรนมาเรียบร้อยแล้ว พิสูจน์แล้วว่าใช้งานได้จริง แถมทำงานได้แม้มีเสียงรบกวนมาก รองรับทั้งการแปลงเสียงแบบเรียลไทม์ และแปลงไฟล์เสียงที่อัดมาก่อนแล้ว

By mk Founder on Tag: Research, Speech Recognition, Voice Recognition, Microsoft
Research

ทีม Microsoft Artificial Intelligence and Research (ที่เพิ่งก่อตั้ง) ประสบความสำเร็จกับระบบแยกแยะเสียงพูด (speech recognition) ที่มีความผิดพลาดน้อยเทียบเท่ากับมนุษย์ผู้เชี่ยวชาญด้านการถอดเสียงพูดแล้ว

ไมโครซอฟท์สามารถพัฒนาระบบถอดเสียงพูดที่มีอัตราความผิดพลาด (word error rate หรือ WER) ที่ 5.9% ซึ่งใกล้เคียงกับการถอดเสียงโดยมนุษย์ และถือเป็นระบบแยกแยกเสียงตัวแรกที่มีความแม่นยำถึงระดับนี้

Speech Recognition

Facebook Messenger นั้นเป็นแอพสนทนาที่รองรับการส่งข้อความเสียงได้ด้วย ผู้ใช้สามารถส่งข้อความเสียงแทนการพิมพ์ข้อความได้ซึ่งช่วยให้การพูดคุยนั้นทำได้สะดวกมากขึ้น แต่ปัญหาคือบางครั้งคู่สนทนาอาจไม่อยากเปิดฟังข้อความเสียงนั้นด้วยเพราะไม่สะดวกจะเปิดเสียงในที่สาธารณะ ทางออกคือฟีเจอร์ใหม่ที่ Facebook กำลังทดสอบอยู่ที่จะสามารถถอดคำพูดจากข้อความเสียงของผู้ส่งให้กลายเป็นข้อความตัวอักษรไปปรากฏต่อสายตาของผู้รับ

By lew Founder on Tag: Research, Baidu, Speech Recognition
Research

Baidu ประกาศความสำเร็จในการพัฒนา Deep Speech ระบบจดจำเสียงที่ใช้โครงสร้าง deep learning เข้ามาเรียนรู้เสียงจากโลกความเป็นจริงทำได้สามารถจดจำเสียงได้อย่างแม่นยำ

Andrew Ng ระบุว่างานวิจัย Deep Speech นี้สามารถฟังข้อความได้ถูกต้องแม้จะอยู่ในพื้นที่ที่มีเสียงรบกวนสูง รวมถึงพื้นที่ที่ระบบจดจำเสียงทุกวันนี้ไม่สามารถฟังข้อความเข้าใจได้ โดยเขาทดสอบกับระบบที่มีอยู่ในตลาด รวมถึง Google API, Apple Dictation, และ Baidu Speech เอง ระบบ Deep Speech นี้สามารถทำงานได้ดีว่าทุกระบบ

By littletail Contributor on Tag: In-Depth, Speech Recognition, CMUSphinx, Project
In-Depth

ในตอนที่แล้ว ผมได้พูดถึงโปรแกรม PocketSphinx ซึ่งเป็นโปรแกรมรู้จำเสียงอัตโนมัติ (Automatic Speech Recognition หรือ ASR) ที่เป็น open source สามารถปรับแต่งให้รู้จำเสียงแบบใด ภาษาใดก็ได้ โดยผมได้พูดถึงการสร้างโมเดลที่จำเป็นต้องใช้สำหรับโปรแกรมรู้จำเสียงทั้งสามแบบ ได้แก่ language model, phonetic dictionary และ acoustic model ไปแล้ว ในตอนนี้จะเป็นการทดสอบโมเดลเพื่อวัดประสิทธิภาพของโมเดล การนำเอาโมเดลทั้งสามไปใช้งานจริง การทำ adaptation acoustic model และการทำ voice activation ครับ

By littletail Contributor on Tag: In-Depth, Speech Recognition, CMUSphinx, Project
In-Depth

โปรแกรมรู้จำเสียงอัตโนมัติ (Automatic Speech Recognition หรือ ASR) คือโปรแกรมที่รับข้อมูลนำเข้าเป็นเสียงและแปลงให้กลายเป็นข้อความ (text) แบบ real-time ปัจจุบันมีใช้กันแพร่หลายขึ้นมาก อย่าง Siri ของแอปเปิลก็สามารถพูดคุยโต้ตอบกันได้ หรืออย่างเครื่องใช้ไฟฟ้าบางยี่ห้อในปัจจุบันก็ได้เพิ่มฟังก์ชันการสั่งการด้วยเสียงแถมมาด้วย แต่จะเป็นไปได้ไหมถ้าเราจะสามารถสร้างเทคโนโลยีเหล่านี้ขึ้นมาใช้เองได้ ด้วยความสงสัยนี้ผมเลยคิดจะทดลองทำโปรเจคนี้ขึ้นมา

By arjin Writer on Tag: Translation, Speech Recognition, Acquisition, Facebook
Translation

Facebook ประกาศว่าได้เข้าซื้อบริษัท Mobile Technologies ผู้พัฒนาแอพแปลภาษาแบบใช้เสียง Jibbigo ไปแล้วด้วยจำนวนเงินที่ไม่เปิดเผย พร้อมกับทีมงานส่วนหนึ่ง โดย Facebook บอกว่าจะยังคงสนับสนุนแอพ Jibbigo ต่อไป

Jibbigo เป็นแอพแปลภาษาบน iOS และ Android ที่สามารถป้อนข้อมูลได้ทั้งตัวหนังสือและเสียง รองรับ 25 ภาษารวมทั้งภาษาไทย มีรูปแบบการหารายได้โดยขายส่วนแปลภาษาแบบออฟไลน์

By mk Founder on Tag: China, Speech Recognition, Voice Recognition
China

ไม่ว่าจะเป็น Siri, Google Voice Actions, Microsoft Tellme อาจเริ่มเจอคู่แข่งที่น่ากลัวเข้าแล้ว เพราะบริษัทไอทีของจีน 19 รายประกาศจับมือตั้งกลุ่ม Speech Industry Alliance of China (SIAC) เพื่อพัฒนาซอฟต์แวร์สั่งงานด้วยเสียงเป็นภาษาจีนกับเขาบ้าง

ตอนนี้ยังไม่มีรายชื่อของบริษัททั้งหมดใน SIAC เพราะยังไม่มีการแถลงข่าวอย่างเป็นทางการ แต่เว็บไซต์ไต้หวันอย่าง DigiTimes ก็ได้ข้อมูลมาว่ามีบริษัทใหญ่ๆ อย่าง Lenovo, Huawei, China Mobile, China Unicom, China Telecom เข้าร่วม ส่วนบริษัทหลักที่พัฒนาซอฟต์แวร์สั่งงานด้วยเสียงคือ Anhui USTC iFlytek ซึ่งมีส่วนแบ่งตลาด 70% ของจีนอยู่แล้ว

By nuntawat Writer on Tag: Privacy, Advertisement, Speech Recognition, Kinect, Microsoft
Privacy

ที่งาน Privacy Identity Innovation 2012 ที่จัดขึ้นที่เมืองซีแอตเทิล ไมโครซอฟท์เปิดเผยว่าในช่วงปลายฤดูใบไม้ผลิปีนี้จะเปิดตัว NUads (Natural User-interface ads) หรือการทำให้ให้ผู้ชมโฆษณามีปฏิสัมพันธ์กับแบรนด์ได้มากขึ้นมาก (ข่าวเก่า) โดยใช้ Kinect ผ่าน Xbox 360 หรือผ่านคอมพิวเตอร์

By Blltz Writer on Tag: Google, Speech Recognition
Google

เว็บไซต์ TechCrunch อ้างแหล่งข่าววงในว่ากูเกิลกำลังทำโครงการ Google Assistant โปรแกรมสั่งการด้วยเสียงที่พัฒนาขึ้นจากของเดิม เพื่อแข่งกับ Siri ของแอปเปิล ซึ่งเคยมีข่าวมาก่อนหน้าว่า

By mk Founder on Tag: Google, Speech Recognition, Rumor
Google

เว็บไซต์ Android and Me รายงานข่าววงในว่ากูเกิลกำลังทำโครงการลับชื่อ "Majel" ซึ่งเป็นระบบสั่งงานด้วยเสียงที่พัฒนาไปจาก Voice Actions และน่าจะเป็นผลิตภัณฑ์ที่กูเกิลนำมาชนกับ Siri ของแอปเปิล

โครงการ Majel นี้เป็นหนึ่งในผลงานของ "Google X" ห้องแล็บลับของกูเกิลที่พัฒนาผลิตภัณฑ์ในอนาคต ส่วนชื่อ "Majel" นั้นมาจากภาพยนตร์ชุด Star Trek โดยเป็นเสียงของคอมพิวเตอร์ที่ใช้ในยานอวกาศนั่นเอง

By mk Founder on Tag: Advertisement, Speech Recognition, Kinect, Microsoft
Advertisement

ที่งานเทศกาลโฆษณานานาชาติเมืองคานส์ ประเทศฝรั่งเศส ฝ่ายโฆษณาของไมโครซอฟท์นำโฆษณาแบบใหม่ที่ใช้ Kinect มาเสริมประสบการณ์ของโฆษณาบนทีวีแบบเดิมๆ ช่วยให้ผู้ชมโฆษณามีปฏิสัมพันธ์กับแบรนด์ได้มากขึ้นมาก

โฆษณาแบบนี้มีชื่อว่า NUads (ย่อมาจาก Natural User Interface Ads) แบ่งเป็น 5 รูปแบบย่อย

Windows

วันนี้ (ตามเวลาสหรัฐฯ) ไมโครซอฟท์ได้เปิดตัว Windows สำหรับยานยนต์ "Windows Embedded Automotive 7" เวอร์ชันล่าสุดนี้มาพร้อมกับเทคโนโลยีการรู้จำเสียงพูด TellMe และเทคโนโลยี Silverlight ไมโครซอฟท์ยังกล่าวด้วยว่า Windows Embedded Automotive 7 และ Windows Embedded Compact 7 นั้นใช้หลายคอมโพเนนท์ร่วมกัน อาทิ เฟรมเวิร์ก Silverlight สำหรับ Windows Embedded UI

ถึงแม้ไมโครซอฟท์จะบอกว่าผู้ผลิตรถยนต์สามารถนำแพลตฟอร์มใหม่ไปใช้ได้ทันที แต่ในความเป็นจริงมันก็จะต้องได้รับการปรับแต่งลงรถยนต์รุ่นใหม่ ซึ่งอาจต้องใช้เวลาอย่างน้อย 18 ถึง 24 เดือน

By mk Founder on Tag: Speech Recognition, Windows Phone 7, Microsoft, Mobile
Speech Recognition

Zig Serafin ผู้บริหารของไมโครซอฟท์ โชว์ฟีเจอร์การสั่งงานด้วยเสียงของ Windows Phone 7

ไมโครซอฟท์มีแผนจะผลักดันการสั่งงานที่เรียกว่า Natural User Interface (NUI) ซึ่งหนึ่งในนั้นคือ Microsoft Kinect สำหรับกรณีของมือถือ Serafin กล่าวว่าเมื่อเราใช้อุปกรณ์พกพาที่คีย์บอร์ดถูกจำกัดขนาด เสียงจึงกลายเป็นสิ่งจำเป็น และมือถือคู่แข่งอย่าง iPhone/Android ยังใช้การสั่งงานผ่านไอคอนอยู่ ซึ่งเทียบได้กับ Windows 3.1

By arjin Writer on Tag: Google, Search Engine, Speech Recognition, iPhone
Google

คุณๆ อาจจะไม่ตื่นตาตกใจเพราะคิดว่าจะช้าหรือเร็วเทคโนโลยีนี้ก็จะมา แต่ในที่สุดกูเกิลก็เปิดตัวบริการใหม่คือการค้นหาด้วยเสียง โดยจะเปิดให้บริการผ่านไอโฟน ซึ่งเป็นโปรแกรมฟรีผ่าน iTS

วิธีการทำงานคือคุณเพียงส่งคำถามที่ต้องการถามด้วยเสียง โปรแกรมจะแปลงเสียงนั้นเป็นข้อมูลดิจิทัล และเอาข้อมูลที่ว่าไปค้นหาผ่านระบบของกูเกิล ซึ่งเพราะไอโฟนสามารถระบุพิกัดของผู้ค้นหาได้ คำถามเช่น "ร้านกาแฟใกล้ที่สุดอยู่ไหน" จึงสามารถตอบกลับได้อย่างที่ผู้ใช้งานต้องการจริงๆ

Subscribe to Speech Recognition