Node Thumbnail

ที่งาน LINE Developer Day 2018 บริษัท LINE เปิดตัวบริการ Chatbot Engine เครื่องมือสำหรับสร้างแชทบ็อต

ก่อนหน้านี้ LINE เปิดให้ทำแชทบ็อตอยู่แล้ว แต่กระบวนการยังค่อนข้างยุ่งยากและนักพัฒนาต้องทำงาน manual เยอะ แต่ด้วย Chatbot Engine ทำให้การสร้างแชทบ็อตง่ายขึ้น มี GUI ให้พร้อมสรรพสำหรับการกำหนดคำถาม-คำตอบของบ็อตด้วย

ทีมพัฒนาของ LINE ระบุว่าเบื้องต้นยังรองรับบ็อตที่แชทแบบข้อความเท่านั้น แต่ในอนาคตจะทำให้รองรับการคุยด้วยเสียงเช่นกัน

Node Thumbnail

ไมโครซอฟท์ประกาศเพิ่มฟีเจอร์ด้าน AI ใช้แปลงวิดีโอ-เสียงเป็นข้อความ และการค้นหาภาพ-วิดีโอ-เสียง ให้กับซอฟต์แวร์สายธุรกิจอย่าง OneDrive และ SharePoint

ความสามารถด้าน AI เหล่านี้ไม่ใช่เรื่องใหม่ เพราะมีอยู่ก่อนแล้วบน Azure และ Microsoft Stream แค่ว่ารอบนี้ถูกเพิ่มเข้ามาให้กับซอฟต์แวร์ตัวอื่นๆ ด้วย

Tags:
Node Thumbnail

เมื่อวันที 24 สิงหาคม ที่ผ่านมา คุณธนวัฒน์ สุธรรมพันธุ์ กรรมการผู้จัดการไมโครซอฟท์ประเทศไทย ระบุว่าบริการ Speech-to-Text ที่อยู่ในชุดบริการ Microsoft Cognitive Services กำลังจะรองรับภาษาไทย ในเร็วๆ นี้โดยจะเปิดตัวเป็นทางการวันที่ 24 กันยายนในงาน Microsoft Ignite ที่ออร์แลนโด

บริการ Speech-to-Text นับเป็นบริการสำคัญของกลุ่มบริการ AI บนคลาวด์ โดยผู้ให้บริการรายใหญ่ เช่น Google Cloud, Amazon, IBM Watson, และ Azure ล้วนมีบริการนี้ทั้งสิ้น แต่มีเฉพาะกูเกิลเท่านั้นที่รองรับภาษาไทยในตอนนี้
ยังไม่มีข้อมูลว่าจะ Azure จะรองรับภาษาใดเพิ่มพร้อมกับภาษาไทยบ้าง ตอนนี้บริการรองรับเฉพาะภาษา อังกฤษ จีน ฝรั่งเศส เยอรมัน อิตาลี สเปน

Tags:
Node Thumbnail

ไมโครซอฟท์ออกส่วนเสริม (add-in) ชื่อ Dictate ให้กับ Microsoft Office เพื่อแปลงเสียงพูดเป็นข้อความ พิมพ์งานได้แบบไม่ต้องแตะคีย์บอร์ด แถมสามารถแปลเป็นภาษาอื่นๆ ให้อัตโนมัติ

ส่วนเสริมนี้เป็นผลงานของทีม Microsoft Garage ที่สร้างแอพแนวทดลองหลายๆ ตัว โดย Dictate เรียกใช้บริการจาก Microsoft Cognitive Services อย่าง Bing Speech API และ Translator API (ตัวเดียวกับที่ใช้ใน Skype Translator) มันสามารถใช้ได้กับ Word, PowerPoint และ Outlook

ส่วนของการแปลเสียงพูด รองรับเสียงพูดกว่า 20 ภาษา โดยสามารถแปลเป็นภาษาอื่นได้กว่า 60 ภาษา (ส่วนหลังรองรับภาษาไทย)

Tags:
Node Thumbnail

กูเกิลปรับสถานะของ Cloud Speech API บริการแปลงเสียงพูดเป็นข้อความ จากเดิมที่เป็น open beta เข้าสู่รุ่นจริง general availability แล้ว

Cloud Speech API คือการนำเทคโนโลยีแยกแยะเสียงพูด (speech recognition) ที่กูเกิลใช้งานอยู่แล้วใน Google Now, Google Assistant, Google Search) มาเปิดให้คนภายนอกใช้งานแบบคิดเงินผ่านคลาวด์ ข้อดีของมันคือเป็นระบบแยกแยะเสียงพูดที่กูเกิลเทรนมาเรียบร้อยแล้ว พิสูจน์แล้วว่าใช้งานได้จริง แถมทำงานได้แม้มีเสียงรบกวนมาก รองรับทั้งการแปลงเสียงแบบเรียลไทม์ และแปลงไฟล์เสียงที่อัดมาก่อนแล้ว

Tags:
Node Thumbnail

ทีม Microsoft Artificial Intelligence and Research (ที่เพิ่งก่อตั้ง) ประสบความสำเร็จกับระบบแยกแยะเสียงพูด (speech recognition) ที่มีความผิดพลาดน้อยเทียบเท่ากับมนุษย์ผู้เชี่ยวชาญด้านการถอดเสียงพูดแล้ว

ไมโครซอฟท์สามารถพัฒนาระบบถอดเสียงพูดที่มีอัตราความผิดพลาด (word error rate หรือ WER) ที่ 5.9% ซึ่งใกล้เคียงกับการถอดเสียงโดยมนุษย์ และถือเป็นระบบแยกแยกเสียงตัวแรกที่มีความแม่นยำถึงระดับนี้

ระบบของไมโครซอฟท์ใช้เทคนิค neural network เรียนรู้เสียงพูดของมนุษย์ โดยใช้ชุดพัฒนา CNTK ตัวเดียวกับที่ไมโครซอฟท์เปิดซอร์สโค้ดขึ้นไว้บน GitHub

Tags:
Node Thumbnail

Facebook Messenger นั้นเป็นแอพสนทนาที่รองรับการส่งข้อความเสียงได้ด้วย ผู้ใช้สามารถส่งข้อความเสียงแทนการพิมพ์ข้อความได้ซึ่งช่วยให้การพูดคุยนั้นทำได้สะดวกมากขึ้น แต่ปัญหาคือบางครั้งคู่สนทนาอาจไม่อยากเปิดฟังข้อความเสียงนั้นด้วยเพราะไม่สะดวกจะเปิดเสียงในที่สาธารณะ ทางออกคือฟีเจอร์ใหม่ที่ Facebook กำลังทดสอบอยู่ที่จะสามารถถอดคำพูดจากข้อความเสียงของผู้ส่งให้กลายเป็นข้อความตัวอักษรไปปรากฏต่อสายตาของผู้รับ

Tags:
Node Thumbnail

Baidu ประกาศความสำเร็จในการพัฒนา Deep Speech ระบบจดจำเสียงที่ใช้โครงสร้าง deep learning เข้ามาเรียนรู้เสียงจากโลกความเป็นจริงทำได้สามารถจดจำเสียงได้อย่างแม่นยำ

Andrew Ng ระบุว่างานวิจัย Deep Speech นี้สามารถฟังข้อความได้ถูกต้องแม้จะอยู่ในพื้นที่ที่มีเสียงรบกวนสูง รวมถึงพื้นที่ที่ระบบจดจำเสียงทุกวันนี้ไม่สามารถฟังข้อความเข้าใจได้ โดยเขาทดสอบกับระบบที่มีอยู่ในตลาด รวมถึง Google API, Apple Dictation, และ Baidu Speech เอง ระบบ Deep Speech นี้สามารถทำงานได้ดีว่าทุกระบบ

Tags:

ในตอนที่แล้ว ผมได้พูดถึงโปรแกรม PocketSphinx ซึ่งเป็นโปรแกรมรู้จำเสียงอัตโนมัติ (Automatic Speech Recognition หรือ ASR) ที่เป็น open source สามารถปรับแต่งให้รู้จำเสียงแบบใด ภาษาใดก็ได้ โดยผมได้พูดถึงการสร้างโมเดลที่จำเป็นต้องใช้สำหรับโปรแกรมรู้จำเสียงทั้งสามแบบ ได้แก่ language model, phonetic dictionary และ acoustic model ไปแล้ว ในตอนนี้จะเป็นการทดสอบโมเดลเพื่อวัดประสิทธิภาพของโมเดล การนำเอาโมเดลทั้งสามไปใช้งานจริง การทำ adaptation acoustic model และการทำ voice activation ครับ

Tags:

โปรแกรมรู้จำเสียงอัตโนมัติ (Automatic Speech Recognition หรือ ASR) คือโปรแกรมที่รับข้อมูลนำเข้าเป็นเสียงและแปลงให้กลายเป็นข้อความ (text) แบบ real-time ปัจจุบันมีใช้กันแพร่หลายขึ้นมาก อย่าง Siri ของแอปเปิลก็สามารถพูดคุยโต้ตอบกันได้ หรืออย่างเครื่องใช้ไฟฟ้าบางยี่ห้อในปัจจุบันก็ได้เพิ่มฟังก์ชันการสั่งการด้วยเสียงแถมมาด้วย แต่จะเป็นไปได้ไหมถ้าเราจะสามารถสร้างเทคโนโลยีเหล่านี้ขึ้นมาใช้เองได้ ด้วยความสงสัยนี้ผมเลยคิดจะทดลองทำโปรเจคนี้ขึ้นมา

Tags:
Node Thumbnail

Facebook ประกาศว่าได้เข้าซื้อบริษัท Mobile Technologies ผู้พัฒนาแอพแปลภาษาแบบใช้เสียง Jibbigo ไปแล้วด้วยจำนวนเงินที่ไม่เปิดเผย พร้อมกับทีมงานส่วนหนึ่ง โดย Facebook บอกว่าจะยังคงสนับสนุนแอพ Jibbigo ต่อไป

Jibbigo เป็นแอพแปลภาษาบน iOS และ Android ที่สามารถป้อนข้อมูลได้ทั้งตัวหนังสือและเสียง รองรับ 25 ภาษารวมทั้งภาษาไทย มีรูปแบบการหารายได้โดยขายส่วนแปลภาษาแบบออฟไลน์

Tags:
Node Thumbnail

ไม่ว่าจะเป็น Siri, Google Voice Actions, Microsoft Tellme อาจเริ่มเจอคู่แข่งที่น่ากลัวเข้าแล้ว เพราะบริษัทไอทีของจีน 19 รายประกาศจับมือตั้งกลุ่ม Speech Industry Alliance of China (SIAC) เพื่อพัฒนาซอฟต์แวร์สั่งงานด้วยเสียงเป็นภาษาจีนกับเขาบ้าง

ตอนนี้ยังไม่มีรายชื่อของบริษัททั้งหมดใน SIAC เพราะยังไม่มีการแถลงข่าวอย่างเป็นทางการ แต่เว็บไซต์ไต้หวันอย่าง DigiTimes ก็ได้ข้อมูลมาว่ามีบริษัทใหญ่ๆ อย่าง Lenovo, Huawei, China Mobile, China Unicom, China Telecom เข้าร่วม ส่วนบริษัทหลักที่พัฒนาซอฟต์แวร์สั่งงานด้วยเสียงคือ Anhui USTC iFlytek ซึ่งมีส่วนแบ่งตลาด 70% ของจีนอยู่แล้ว

Tags:
Node Thumbnail

ที่งาน Privacy Identity Innovation 2012 ที่จัดขึ้นที่เมืองซีแอตเทิล ไมโครซอฟท์เปิดเผยว่าในช่วงปลายฤดูใบไม้ผลิปีนี้จะเปิดตัว NUads (Natural User-interface ads) หรือการทำให้ให้ผู้ชมโฆษณามีปฏิสัมพันธ์กับแบรนด์ได้มากขึ้นมาก (ข่าวเก่า) โดยใช้ Kinect ผ่าน Xbox 360 หรือผ่านคอมพิวเตอร์

Tags:
Node Thumbnail

เว็บไซต์ TechCrunch อ้างแหล่งข่าววงในว่ากูเกิลกำลังทำโครงการ Google Assistant โปรแกรมสั่งการด้วยเสียงที่พัฒนาขึ้นจากของเดิม เพื่อแข่งกับ Siri ของแอปเปิล ซึ่งเคยมีข่าวมาก่อนหน้าว่าโครงการนี้ชื่อว่า Majel

Tags:
Node Thumbnail

เว็บไซต์ Android and Me รายงานข่าววงในว่ากูเกิลกำลังทำโครงการลับชื่อ "Majel" ซึ่งเป็นระบบสั่งงานด้วยเสียงที่พัฒนาไปจาก Voice Actions และน่าจะเป็นผลิตภัณฑ์ที่กูเกิลนำมาชนกับ Siri ของแอปเปิล

โครงการ Majel นี้เป็นหนึ่งในผลงานของ "Google X" ห้องแล็บลับของกูเกิลที่พัฒนาผลิตภัณฑ์ในอนาคต ส่วนชื่อ "Majel" นั้นมาจากภาพยนตร์ชุด Star Trek โดยเป็นเสียงของคอมพิวเตอร์ที่ใช้ในยานอวกาศนั่นเอง

Tags:
Node Thumbnail

ที่งานเทศกาลโฆษณานานาชาติเมืองคานส์ ประเทศฝรั่งเศส ฝ่ายโฆษณาของไมโครซอฟท์นำโฆษณาแบบใหม่ที่ใช้ Kinect มาเสริมประสบการณ์ของโฆษณาบนทีวีแบบเดิมๆ ช่วยให้ผู้ชมโฆษณามีปฏิสัมพันธ์กับแบรนด์ได้มากขึ้นมาก

โฆษณาแบบนี้มีชื่อว่า NUads (ย่อมาจาก Natural User Interface Ads) แบ่งเป็น 5 รูปแบบย่อย

Tags:
Node Thumbnail

วันนี้ (ตามเวลาสหรัฐฯ) ไมโครซอฟท์ได้เปิดตัว Windows สำหรับยานยนต์ "Windows Embedded Automotive 7" เวอร์ชันล่าสุดนี้มาพร้อมกับเทคโนโลยีการรู้จำเสียงพูด TellMe และเทคโนโลยี Silverlight ไมโครซอฟท์ยังกล่าวด้วยว่า Windows Embedded Automotive 7 และ Windows Embedded Compact 7 นั้นใช้หลายคอมโพเนนท์ร่วมกัน อาทิ เฟรมเวิร์ก Silverlight สำหรับ Windows Embedded UI

ถึงแม้ไมโครซอฟท์จะบอกว่าผู้ผลิตรถยนต์สามารถนำแพลตฟอร์มใหม่ไปใช้ได้ทันที แต่ในความเป็นจริงมันก็จะต้องได้รับการปรับแต่งลงรถยนต์รุ่นใหม่ ซึ่งอาจต้องใช้เวลาอย่างน้อย 18 ถึง 24 เดือน

Tags:
Node Thumbnail

Zig Serafin ผู้บริหารของไมโครซอฟท์ โชว์ฟีเจอร์การสั่งงานด้วยเสียงของ Windows Phone 7

ไมโครซอฟท์มีแผนจะผลักดันการสั่งงานที่เรียกว่า Natural User Interface (NUI) ซึ่งหนึ่งในนั้นคือ Microsoft Kinect สำหรับกรณีของมือถือ Serafin กล่าวว่าเมื่อเราใช้อุปกรณ์พกพาที่คีย์บอร์ดถูกจำกัดขนาด เสียงจึงกลายเป็นสิ่งจำเป็น และมือถือคู่แข่งอย่าง iPhone/Android ยังใช้การสั่งงานผ่านไอคอนอยู่ ซึ่งเทียบได้กับ Windows 3.1

Serafin ระบุว่าฟีเจอร์สั่งงานด้วยเสียงของ WP7 เหนือกว่าคู่แข่งตรงที่ใช้ได้ทั้งระบบปฏิบัติการ ไม่จำกัดเฉพาะบางโปรแกรม และมีความฉลาดกว่า ถ้าผู้ใช้ออกเสียงไม่ชัดเจน ตัวโปรแกรมจะสามารถถามกลับเพื่อยืนยันข้อมูลได้

Tags:
Node Thumbnail

คุณๆ อาจจะไม่ตื่นตาตกใจเพราะคิดว่าจะช้าหรือเร็วเทคโนโลยีนี้ก็จะมา แต่ในที่สุดกูเกิลก็เปิดตัวบริการใหม่คือการค้นหาด้วยเสียง โดยจะเปิดให้บริการผ่านไอโฟน ซึ่งเป็นโปรแกรมฟรีผ่าน iTS

วิธีการทำงานคือคุณเพียงส่งคำถามที่ต้องการถามด้วยเสียง โปรแกรมจะแปลงเสียงนั้นเป็นข้อมูลดิจิทัล และเอาข้อมูลที่ว่าไปค้นหาผ่านระบบของกูเกิล ซึ่งเพราะไอโฟนสามารถระบุพิกัดของผู้ค้นหาได้ คำถามเช่น "ร้านกาแฟใกล้ที่สุดอยู่ไหน" จึงสามารถตอบกลับได้อย่างที่ผู้ใช้งานต้องการจริงๆ