Speech Recognition

กูเกิลโชว์ USM โมเดลแยกแยะเสียงพูดที่รองรับมากกว่า 300 ภาษา มีภาษายาวีด้วย

By: mk

on 8 March 2023 - 21:10 Tags:

Topics:

Google

Speech Recognition

Artificial Intelligence

ทีมวิจัย Google Research เผยแพร่ข้อมูลของโมเดลแยกแยะเสียงพูดตัวใหม่ชื่อ Universal Speech Model (USM) ที่รองรับภาษามากกว่า 300 ภาษา ซึ่งครอบคลุมถึงภาษาที่อาจไม่ได้มีผู้ใช้งานเยอะนัก (จากภาพของกูเกิลจะเห็นคำว่า "ภาษายาวี" อยู่ด้วย)

โมเดล USM เป็นก้าวแรกสู่เป้าหมาย โมเดลเดียวรองรับ 1,000 ภาษา (1,000 Languages Intitiative) ที่กูเกิลเคยประกาศไว้ช่วงปลายปี 2022 โดยตอนนี้ USM ถูกนำไปใช้แล้วกับ YouTube ในการฟังเสียงจากวิดีโอแล้วสร้างเป็นซับไตเติลในภาษาต่างๆ

Common Voice เปิดรับบริจาค/ตรวจเสียงภาษาลาวแล้ว

By: tontan

on 14 December 2022 - 13:41 Tags:

Topics:

วันนี้ Common Voice ของ Mozilla ซึ่งเป็นโครงการรับบริจาคเสียงเพื่อทำชุดข้อมูลเสียงสาธารณะสำหรับระบบรู้จำเสียง ได้เปิดรับบริจาคเสียงภาษาลาวแล้ว โดยภาษาลาวเป็นภาษาในตระกูลภาษาขร้า-ไท (Kra–Dai languages) ภาษาที่สองถัดจากภาษาไทยใน Common Voice

คนไทย/คนลาว ที่สามารถอ่านข้อความอักษรลาวได้ สามารถเข้าไปร่วมบริจาคได้ครับ โดยเข้าไปที่ https://commonvoice.mozilla.org/lo

สำหรับวิธีการบริจาคเสียงง่าย ๆ เพียงแค่กดปุ่มไมโครโฟน จะเห็นข้อความให้อ่าน ให้กดอัด แล้วพูดตามข้อความกำหนด แล้วกดหยุด หากประโยคที่ได้มาไม่ถูกใจสามารถกดข้ามได้ เสร็จแล้วกด ส่ง ได้

มาช่วยกันผลักดัน Common Voice ภาษาลาวกัน!!!

By: tontan

on 21 November 2022 - 20:55 Tags:

Topics:

หลังจากที่ภาษาไทย เราได้ช่วยกันผลักดันให้โครงการ Common Voice ของ Mozilla เปิดรับบริจาคเสียงภาษาไทยได้เป็นที่สำเร็จเมื่อ 1 ปีก่อน มาวันนี้ขอเชิญชวนคนไทย/คนลาวที่อ่านหรือพิมพ์ภาษาลาวได้ มาช่วยกันผลักดันให้ Common Voice เปิดรับบริจาคเสียงภาษาลาวกัน

Read more about มาช่วยกันผลักดัน Common Voice ภาษาลาวกัน!!!
8 comments
Log in or register to post comments

โค้งสุดท้าย! ร่วมตรวจสอบเสียงใน Common Voice เพื่อช่วยพัฒนา AI รู้จำเสียงภาษาไทย

By: ppnplus on 5 September 2022 - 12:43 Tags:

Topics:

Mozilla

Crowdsourcing

Speech Recognition

Artificial Intelligence

Common Voice เป็นโครงการที่ Mozilla ซึ่งเป็นองค์กรไม่แสวงหาผลกำไร ได้สร้างขึ้นเพื่อแก้ปัญหาการขาดแคลนชุดข้อมูลเสียงที่เป็นสาธารณสมบัติ (ไม่มีลิขสิทธิ์) ที่ทุกคน ทุกหน่วยงาน สามารถมีส่วนร่วมและใช้เพื่อสอนระบบ AI ต่าง ๆ เช่นระบบพิมพ์ด้วยเสียงได้

ปัจจุบันในภาษาไทยมีจำนวนเสียงที่บันทึกแล้ว 393 ชั่วโมง แต่ตรวจสอบไปเพียง 154 ชั่วโมง (ไม่ถึงครึ่งของจำนวนเสียงที่บันทึกไว้ทั้งหมด) ในขณะที่ชุดข้อมูลรอบถัดไปจะตัดรอบในวันที่ 7 กันยายน 2565 นี้ เราจึงต้องการให้ทุกคนเข้ามาร่วมตรวจสอบเสียงง่าย ๆ โดยไม่ต้องโหลดแอปใด ๆ ตามขั้นตอนด้านล่างนี้

[Gartner] ตลาด Conversational AI จะมาลดต้นทุน Call Center ได้ถึง 8 หมื่นล้านดอลลาร์ ในปี 2026

By: arjin

on 4 September 2022 - 15:20 Tags:

Topics:

Gartner

Artificial Intelligence

Market Research

Speech Recognition

บริษัทวิจัยตลาด Gartner พยากรณ์ว่าจะมีการลงทุนใน AI สำหรับตอบโต้บทสนทนา (Conversational AI) เพื่อใช้ในงาน Call Center รวมราว 2 พันล้านดอลลาร์ ภายในสิ้นปี 2022 ผลจากการลงทุนนี้จะช่วยลดต้นทุนแรงงานคนได้ถึง 8 หมื่นล้านดอลลาร์ ภายในปี 2026

Daniel O’Connell รองประธานฝ่ายวิเคราะห์ของ Gartner ให้ข้อมูลว่าองค์กรส่วนใหญ่ ประสบปัญหาท้าทายของการขาดแคลนแรงงานในฝ่าย Call Center และต้นทุนส่วนใหญ่ของธุรกิจนี้ก็คือค่าแรง การนำ AI มาช่วยจึงลดต้นทุนส่วนนี้ได้ และ AI ประเภทดังกล่าวก็มีประสิทธิภาพที่ดีขึ้นมาก ในแง่ประสบการณ์ของฝั่งลูกค้า

Chrome OS เพิ่มฟีเจอร์ Screencast อัดคลิปหน้าจอพร้อมหน้าคนพูด ถอดเสียงบรรยายให้ด้วย

By: mk

on 12 June 2022 - 18:51 Tags:

Topics:

กูเกิลประกาศฟีเจอร์สำคัญของ Chrome OS เวอร์ชัน M103 คือการบันทึกวิดีโอหน้าจอ (screencast) โดยเป็นแอพตัวใหม่ชื่อ Screencast กดปุ่มเดียวเพื่ออัดวิดีโอการใช้งานหน้าจอ พร้อมภาพใบหน้าและเสียงของคนพูดจากกล้องที่มุมขวาล่างของวิดีโอให้เสร็จสรรพ สามารถเขียนไฮไลท์หน้าจอตามช่วงเวลาที่พูดได้

ที่ไม่ธรรมดาคือ เมื่ออัดคลิปเสร็จแล้ว วิดีโอจะถูกอัพโหลดขึ้น Google Drive ให้อัตโนมัติ พร้อมถอดเสียง (transcript) ให้เสร็จสรรพ แสดงข้อความบรรยายที่ sidebar ด้านข้างตามช่วงเวลาที่พูด (แก้ไขข้อความเองได้ถ้าถอดเสียงผิด) เมื่อตัดต่อคลิปพร้อมแล้วกดแชร์ให้คนอื่นดูได้เลย

มาช่วยกันตรวจสอบกับบริจาคเสียงภาษาไทยใน Common Voice กัน

By: tontan

on 8 April 2022 - 21:05 Tags:

Topics:

หลังจากที่ผมเขียนมาร่วมกันบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice ลง Blognone ครบ 1 ปี บทความนี้ผมจะมาเขียนบทความว่าเกิดอะไรขึ้นบ้าง เมื่อได้รับเสียงภาษาไทยบริจาคจำนวนมากถึง 300 กว่าชั่วโมง แต่ก็ยังคงต้องการรับบริจาคเสียงกับตรวจเสียงเพิ่มเติม

หลังจากที่ทาง Mozilla ปล่อยชุดข้อมูล Common Voice รุ่นที่ 7 ออกมา ทางสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย ได้เทรนโมเดล Automatic Speech Recognition ภาษาไทยโดยวัดประสิทธิภาพจาก Common Voice ที่แบ่งใหม่พบว่า มีความแม่นยำทัดเทียมกูเกิลแล้ว ซึ่งถือเป็นโมเดล Automatic Speech Recognition ภาษาไทยที่มีประสิทธิภาพมากตัวหนึ่ง

Twitter เพิ่มระบบ Auto Caption ใส่ข้อความบรรยายวิดีโอที่อัพโหลดให้อัตโนมัติ

By: mk

on 16 December 2021 - 14:05 Tags:

Topics:

Twitter

Accessibility

Speech Recognition

Twitter เพิ่มระบบ auto caption ใส่ข้อความบรรยายวิดีโอที่อัพโหลดขึ้นระบบให้อัตโนมัติ (เบื้องหลังใช้ระบบถอดเสียงพูดของไมโครซอฟท์) รองรับทั้งหมด 16 ภาษา ซึ่งเว็บไซต์ TechCrunch ระบุว่ามีภาษาไทยด้วย

วิธีการใช้งานคือคนโพสต์อัพโหลดวิดีโอขึ้นตามปกติได้เลย ส่วนคนดูคลิป

สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย ความแม่นยำทัดเทียมกูเกิล

By: tontan

on 6 September 2021 - 14:07 Tags:

Topics:

Thailand

Artificial Intelligence

Speech Recognition

PyThaiNLP

วันนี้ทางสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (AIResearch) และทีม PyThaiNLP ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย (Automatic Speech Recognition) ที่มีความแม่นยำทัดเทียมกับกูเกิล และบริษัทชั้นนำอื่น ๆ

โมเดลดังกล่าวฝึกฝนบนชุดข้อมูล Mozilla Common Voice 7.0 ที่ได้รับการบริจาคเสียงภาษาไทย จำนวน 133 ชั่วโมง ผู้พูด 7,212 คน (อ่านเพิ่มเติม ร่วมบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice) โดยฝึกกับโมเดล XLSR-Wav2Vec2 ของ Facebook

ทางสถาบันวิจัยได้ปล่อยโมเดลมาในรูปแบบลิขสิทธิ์ CC-BY-SA 4.0 และได้อัปโหลดขึ้น Hugging Face โดยสามารถใช้งานได้ผ่านไลบรารี transformers ในภาษาไพธอนได้

ร่วมบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice

By: tontan

on 10 April 2021 - 18:47 Tags:

Topics:

เทคโนโลยีการรู้จำเสียง (Speech Recognition) เป็นเทคโนโลยีที่ช่วยให้เราสื่อสารหรือสั่งงานกับคอมพิวเตอร์ได้ง่ายขึ้น ซึ่งระบบดังกล่าวเป็นที่นิยมกันอย่างเผยแพร่ ตัวอย่างเช่น ใช้งานในระบบผู้ช่วยอัจฉริยะ, ใช้สร้างคำบรรยายในวิดีโอ และใช้พิมพ์ข้อความตามเสียง เป็นต้น อย่างไรก็ตามเทคโนโลยีการรู้จำเสียงทุกภาษาต้องการชุดข้อมูลเสียงขนาดใหญ่สำหรับมาทำเทคโนโลยีดังกล่าว ยิ่งมีข้อมูลมากเท่าไร ความแม่นยำยิ่งสูงขึ้น แต่ชุดข้อมูลเสียงขนาดใหญ่จำนวนมากที่ถูกสร้างโดยบริษัทใหญ่ ๆ เราไม่สามารถใช้งานได้ เนื่องจากราคาที่แพงหรือติดลิขสิทธิ์ จึงทำให้บริษัทเล็ก ๆ หรือนักพัฒนาไม่สามารถเข้าถึงชุดข้อมูลดังกล่าวได้

กูเกิลเพิ่มฟีเจอร์ Live Caption ใน Chrome แปลงเสียงในเว็บเป็นข้อความ

By: lew

on 19 March 2021 - 01:01 Tags:

Topics:

Chrome

Accessibility

Speech Recognition

กูเกิลเพิ่มฟีเจอร์ Live Caption สำหรับแปลงเสียงเป็นข้อความเข้าเป็นส่วนหนึ่งของฟีเจอร์หมวด Accessibility ของเบราว์เซอร์ Chrome ช่วยให้ผู้ที่ฟังเสียงได้ยากสามารถอ่านข้อความจากเสียงต่างๆ ในเว็บไม่ว่าจะเป็นวิดีโอหรือ podcast ตลอดจนวิทยุอินเทอร์เน็ต

ปัญญาประดิษฐ์สำหรับแปลงเสียงเป็นข้อความนี้รันอยู่ในเครื่องของเราเองไม่ต้องส่งข้อมูลไปยังกูเกิลแต่อย่างใด และเราสามารถใช้เบราว์เซอร์แปลงข้อความจากเสียงในไฟล์วิดีโอหรือไฟล์เสียงในเครื่องของเราได้อีกด้วย

ฟีเจอร์นี้มีเฉพาะ Chrome เวอร์ชั่นเดสก์ทอป และจะเพิ่มใน Chrome OS เร็วๆ นี้ ส่วนบนโทรศัพท์แอนดรอยด์กูเกิลระบุว่าสามารถใช้ฟีเจอร์ Live Caption ในโทรศัพท์ได้อยู่แล้ว

AWS เปิดตัว Amazon Transcribe Medical บริการแปลงเสียงเป็นข้อความเพื่อการแพทย์โดยเฉพาะ

By: lew

on 2 December 2019 - 22:42 Tags:

Topics:

AWS

Medical

Speech Recognition

AWS เปิดตัวบริการ Amazon Transcribe Medical เป็นบริการแปลงเสียงเป็นข้อความสำหรับงานด้านการแพทย์โดยเฉพาะ โดยระบุว่าเป้าหมายว่าต้องการลดระยะเวลาที่แพทย์ใช้ในการกรอกบันทึกการรักษา (electronic health record - EHR) ที่มีรายงานว่าแพทย์ในสหรัฐฯ ใช้เวลาถึงวันละ 6 ชั่วโมงในการกรอก

ทาง AWS แนะนำการใช้งาน เช่น การสร้างบันทึกของแพทย์เองเป็นตัวอักษร, ใช้แปลงบันทึกระหว่างแพทย์กับคนไข้ จากเดิมแพทย์ต้องนั่งจด, หรือใช้แปลงเสียงโทรศัพท์ระหว่างคนไข้ถึงแพทย์หรือเภสัชกร เพื่อหาชื่อยาที่ถูกพูดถึง

Word เปิดตัวฟีเจอร์ Transcribe แปลงไฟล์เสียงที่อัดเป็นข้อความ แยกเสียงคนพูดได้ด้วย

By: mk

on 4 October 2019 - 13:37 Tags:

Topics:

นอกจาก Excel รองรับอินพุตปากกา ไมโครซอฟท์ยังประกาศฟีเจอร์ใหม่ของ Word คือ Transcribe หรือการแปลงเสียงพูดเป็นข้อความ

การพูดแล้วให้ Word พิมพ์ตามหรือ Dictate นั้นมีใน Word มานานแล้ว แต่ Transcribe คือการแปลงไฟล์เสียงทั้งไฟล์เป็นข้อความให้เลย แถมยังสามารถแยกเสียงคนพูดได้ด้วย (จะขึ้นเป็น Speaker 1, Speaker 2, ...) เมื่อแปลงข้อความเสร็จแล้วเราก็สามารถลากข้อความช่วงนั้นๆ มาใส่ในตัวเอกสารหลักของ Word ได้ง่ายๆ

เบื้องหลังการแปลงไฟล์เสียงเป็นข้อความ คือการอัพโหลดไฟล์เสียงขึ้น OneDrive แล้วแปลงบนเซิร์ฟเวอร์ Azure Speech Services ก่อนส่งข้อความกลับมายังเครื่องของเรา

ฟีเจอร์ใหม่ PowerPoint ให้ AI ฟังเราซ้อมพรีเซนต์แล้วให้คะแนน บอกได้ว่าพูดช้า-เร็วไป

By: mk

on 20 July 2019 - 15:02 Tags:

Topics:

PowerPoint

Microsoft Office

Microsoft

Artificial Intelligence

Speech Recognition

ไมโครซอฟท์โชว์ฟีเจอร์ใหม่ของ PowerPoint ชื่อ Presenter Coach ใช้ AI ช่วยให้คะแนนการซ้อมพรีเซนต์ของเรา ว่าพูดดีหรือไม่ พูดเร็วไปหรือไม่ หรือควรใช้คำที่สละสลวยกว่าแทน

ฟีเจอร์นี้จะถูกใช้ตอนกด Present (แบบซ้อม) โดยเรามีหน้าที่พูดตามสไลด์ไปเรื่อยๆ แล้ว AI ของ PowerPoint จะขึ้นบนหน้าจอว่าเราพูดด้วยความเร็วเท่าไร เร็วเกินไปหรือช้าเกินไป และเมื่อพูดเสร็จแล้ว PowerPoint จะให้คะแนนอย่างละเอียด พร้อมคำแนะนำว่าควรแก้ไขการพูดอย่างไรบ้าง

PowerPoint เวอร์ชันเว็บจะได้ฟีเจอร์นี้ก่อนเป็นรายแรกในอีกไม่กี่เดือนข้างหน้า

ที่มา - Microsoft

LINE โชว์เทคโนโลยี สร้าง Fan Cam ไว้ถ่ายเจาะเป็นบุคคลได้ด้วย AI

By: arjin

on 24 November 2018 - 18:59 Tags:

Topics:

LINE

Naver

Clova

Artificial Intelligence

Video Editing

Speech Recognition

Speech Synthesis

ที่งาน LINE Developer Day 2018 บริษัท LINE เปิดตัวบริการ Chatbot Engine เครื่องมือสำหรับสร้างแชทบ็อต

ก่อนหน้านี้ LINE เปิดให้ทำแชทบ็อตอยู่แล้ว แต่กระบวนการยังค่อนข้างยุ่งยากและนักพัฒนาต้องทำงาน manual เยอะ แต่ด้วย Chatbot Engine ทำให้การสร้างแชทบ็อตง่ายขึ้น มี GUI ให้พร้อมสรรพสำหรับการกำหนดคำถาม-คำตอบของบ็อตด้วย

ทีมพัฒนาของ LINE ระบุว่าเบื้องต้นยังรองรับบ็อตที่แชทแบบข้อความเท่านั้น แต่ในอนาคตจะทำให้รองรับการคุยด้วยเสียงเช่นกัน

OneDrive และ SharePoint เพิ่มฟีเจอร์ AI แปลงเสียงเป็นข้อความ, ค้นรูปจากข้อความในรูป

By: mk

on 30 August 2018 - 10:44 Tags:

Topics:

Artificial Intelligence

Speech Recognition

Image Recognition

ไมโครซอฟท์ประกาศเพิ่มฟีเจอร์ด้าน AI ใช้แปลงวิดีโอ-เสียงเป็นข้อความ และการค้นหาภาพ-วิดีโอ-เสียง ให้กับซอฟต์แวร์สายธุรกิจอย่าง OneDrive และ SharePoint

ความสามารถด้าน AI เหล่านี้ไม่ใช่เรื่องใหม่ เพราะมีอยู่ก่อนแล้วบน Azure และ Microsoft Stream แค่ว่ารอบนี้ถูกเพิ่มเข้ามาให้กับซอฟต์แวร์ตัวอื่นๆ ด้วย

Speech-to-Text บน Azure จะรับภาษาไทยเร็วๆ นี้ เปิดตัวทางการ 24 กันยายน

By: sunnywalker

on 26 August 2018 - 08:45 Tags:

Topics:

เมื่อวันที 24 สิงหาคม ที่ผ่านมา คุณธนวัฒน์ สุธรรมพันธุ์ กรรมการผู้จัดการไมโครซอฟท์ประเทศไทย ระบุว่าบริการ Speech-to-Text ที่อยู่ในชุดบริการ Microsoft Cognitive Services กำลังจะรองรับภาษาไทย ในเร็วๆ นี้โดยจะเปิดตัวเป็นทางการวันที่ 24 กันยายนในงาน Microsoft Ignite ที่ออร์แลนโด

บริการ Speech-to-Text นับเป็นบริการสำคัญของกลุ่มบริการ AI บนคลาวด์ โดยผู้ให้บริการรายใหญ่ เช่น Google Cloud, Amazon, IBM Watson, และ Azure ล้วนมีบริการนี้ทั้งสิ้น แต่มีเฉพาะกูเกิลเท่านั้นที่รองรับภาษาไทยในตอนนี้
ยังไม่มีข้อมูลว่าจะ Azure จะรองรับภาษาใดเพิ่มพร้อมกับภาษาไทยบ้าง ตอนนี้บริการรองรับเฉพาะภาษา อังกฤษ จีน ฝรั่งเศส เยอรมัน อิตาลี สเปน

ไมโครซอฟท์ออกส่วนเสริม Office พิมพ์งานด้วยเสียงพูด แถมแปลเป็นภาษาอื่นได้เลย

By: mk

on 21 June 2017 - 14:17 Tags:

Topics:

Translation

Speech Recognition

Microsoft Office

ไมโครซอฟท์ออกส่วนเสริม (add-in) ชื่อ Dictate ให้กับ Microsoft Office เพื่อแปลงเสียงพูดเป็นข้อความ พิมพ์งานได้แบบไม่ต้องแตะคีย์บอร์ด แถมสามารถแปลเป็นภาษาอื่นๆ ให้อัตโนมัติ

ส่วนเสริมนี้เป็นผลงานของทีม Microsoft Garage ที่สร้างแอพแนวทดลองหลายๆ ตัว โดย Dictate เรียกใช้บริการจาก Microsoft Cognitive Services อย่าง Bing Speech API และ Translator API (ตัวเดียวกับที่ใช้ใน Skype Translator) มันสามารถใช้ได้กับ Word, PowerPoint และ Outlook

ส่วนของการแปลเสียงพูด รองรับเสียงพูดกว่า 20 ภาษา โดยสามารถแปลเป็นภาษาอื่นได้กว่า 60 ภาษา (ส่วนหลังรองรับภาษาไทย)

กูเกิลเปิด Cloud Speech API ระบบแยกแยะเสียงพูดตัวเดียวกับ Google Now, รองรับเสียงภาษาไทย

By: mk

on 19 April 2017 - 15:43 Tags:

Topics:

Google Cloud

Speech Recognition

Google

กูเกิลปรับสถานะของ Cloud Speech API บริการแปลงเสียงพูดเป็นข้อความ จากเดิมที่เป็น open beta เข้าสู่รุ่นจริง general availability แล้ว

Cloud Speech API คือการนำเทคโนโลยีแยกแยะเสียงพูด (speech recognition) ที่กูเกิลใช้งานอยู่แล้วใน Google Now, Google Assistant, Google Search) มาเปิดให้คนภายนอกใช้งานแบบคิดเงินผ่านคลาวด์ ข้อดีของมันคือเป็นระบบแยกแยะเสียงพูดที่กูเกิลเทรนมาเรียบร้อยแล้ว พิสูจน์แล้วว่าใช้งานได้จริง แถมทำงานได้แม้มีเสียงรบกวนมาก รองรับทั้งการแปลงเสียงแบบเรียลไทม์ และแปลงไฟล์เสียงที่อัดมาก่อนแล้ว

ไมโครซอฟท์พัฒนาระบบ Speech Recognition ที่แม่นยำทัดเทียมกับมนุษย์ได้แล้ว

By: mk

on 20 October 2016 - 01:30 Tags:

Topics:

ทีม Microsoft Artificial Intelligence and Research (ที่เพิ่งก่อตั้ง) ประสบความสำเร็จกับระบบแยกแยะเสียงพูด (speech recognition) ที่มีความผิดพลาดน้อยเทียบเท่ากับมนุษย์ผู้เชี่ยวชาญด้านการถอดเสียงพูดแล้ว

ไมโครซอฟท์สามารถพัฒนาระบบถอดเสียงพูดที่มีอัตราความผิดพลาด (word error rate หรือ WER) ที่ 5.9% ซึ่งใกล้เคียงกับการถอดเสียงโดยมนุษย์ และถือเป็นระบบแยกแยกเสียงตัวแรกที่มีความแม่นยำถึงระดับนี้

ระบบของไมโครซอฟท์ใช้เทคนิค neural network เรียนรู้เสียงพูดของมนุษย์ โดยใช้ชุดพัฒนา CNTK ตัวเดียวกับที่ไมโครซอฟท์เปิดซอร์สโค้ดขึ้นไว้บน GitHub

Facebook เตรียมเพิ่มฟีเจอร์ถอดข้อความเสียงใน Messenger ให้เป็นข้อความตัวอักษร

By: ตะโร่งโต้ง

on 17 January 2015 - 13:45 Tags:

Topics:

Speech Recognition

Facebook Messenger

Facebook Messenger นั้นเป็นแอพสนทนาที่รองรับการส่งข้อความเสียงได้ด้วย ผู้ใช้สามารถส่งข้อความเสียงแทนการพิมพ์ข้อความได้ซึ่งช่วยให้การพูดคุยนั้นทำได้สะดวกมากขึ้น แต่ปัญหาคือบางครั้งคู่สนทนาอาจไม่อยากเปิดฟังข้อความเสียงนั้นด้วยเพราะไม่สะดวกจะเปิดเสียงในที่สาธารณะ ทางออกคือฟีเจอร์ใหม่ที่ Facebook กำลังทดสอบอยู่ที่จะสามารถถอดคำพูดจากข้อความเสียงของผู้ส่งให้กลายเป็นข้อความตัวอักษรไปปรากฏต่อสายตาของผู้รับ

งานวิจัย Deep Speech ของ Baidu ทำงานได้ดีกว่าบริการที่มีอยู่ในตลาดทุกตัว

By: lew

on 19 December 2014 - 00:33 Tags:

Topics:

Research

Baidu

Speech Recognition

Baidu ประกาศความสำเร็จในการพัฒนา Deep Speech ระบบจดจำเสียงที่ใช้โครงสร้าง deep learning เข้ามาเรียนรู้เสียงจากโลกความเป็นจริงทำได้สามารถจดจำเสียงได้อย่างแม่นยำ

Andrew Ng ระบุว่างานวิจัย Deep Speech นี้สามารถฟังข้อความได้ถูกต้องแม้จะอยู่ในพื้นที่ที่มีเสียงรบกวนสูง รวมถึงพื้นที่ที่ระบบจดจำเสียงทุกวันนี้ไม่สามารถฟังข้อความเข้าใจได้ โดยเขาทดสอบกับระบบที่มีอยู่ในตลาด รวมถึง Google API, Apple Dictation, และ Baidu Speech เอง ระบบ Deep Speech นี้สามารถทำงานได้ดีว่าทุกระบบ

[ฝึกงาน Blognone] ทดลองสร้าง Speech Recognition ด้วย CMUSphinx ตอนที่ 2 (ตอนจบ)

By: littletail

on 12 July 2014 - 14:44 Tags:

Topics:

ในตอนที่แล้ว ผมได้พูดถึงโปรแกรม PocketSphinx ซึ่งเป็นโปรแกรมรู้จำเสียงอัตโนมัติ (Automatic Speech Recognition หรือ ASR) ที่เป็น open source สามารถปรับแต่งให้รู้จำเสียงแบบใด ภาษาใดก็ได้ โดยผมได้พูดถึงการสร้างโมเดลที่จำเป็นต้องใช้สำหรับโปรแกรมรู้จำเสียงทั้งสามแบบ ได้แก่ language model, phonetic dictionary และ acoustic model ไปแล้ว ในตอนนี้จะเป็นการทดสอบโมเดลเพื่อวัดประสิทธิภาพของโมเดล การนำเอาโมเดลทั้งสามไปใช้งานจริง การทำ adaptation acoustic model และการทำ voice activation ครับ

[ฝึกงาน Blognone] ทดลองสร้าง Speech Recognition ด้วย CMUSphinx ตอนที่ 1

By: littletail

on 3 July 2014 - 16:38 Tags:

Topics:

โปรแกรมรู้จำเสียงอัตโนมัติ (Automatic Speech Recognition หรือ ASR) คือโปรแกรมที่รับข้อมูลนำเข้าเป็นเสียงและแปลงให้กลายเป็นข้อความ (text) แบบ real-time ปัจจุบันมีใช้กันแพร่หลายขึ้นมาก อย่าง Siri ของแอปเปิลก็สามารถพูดคุยโต้ตอบกันได้ หรืออย่างเครื่องใช้ไฟฟ้าบางยี่ห้อในปัจจุบันก็ได้เพิ่มฟังก์ชันการสั่งการด้วยเสียงแถมมาด้วย แต่จะเป็นไปได้ไหมถ้าเราจะสามารถสร้างเทคโนโลยีเหล่านี้ขึ้นมาใช้เองได้ ด้วยความสงสัยนี้ผมเลยคิดจะทดลองทำโปรเจคนี้ขึ้นมา

Facebook เข้าซื้อบริษัทผู้พัฒนาแอพวุ้นแปลภาษา Jibbigo

By: arjin

on 13 August 2013 - 07:29 Tags:

Topics:

Facebook ประกาศว่าได้เข้าซื้อบริษัท Mobile Technologies ผู้พัฒนาแอพแปลภาษาแบบใช้เสียง Jibbigo ไปแล้วด้วยจำนวนเงินที่ไม่เปิดเผย พร้อมกับทีมงานส่วนหนึ่ง โดย Facebook บอกว่าจะยังคงสนับสนุนแอพ Jibbigo ต่อไป

Jibbigo เป็นแอพแปลภาษาบน iOS และ Android ที่สามารถป้อนข้อมูลได้ทั้งตัวหนังสือและเสียง รองรับ 25 ภาษารวมทั้งภาษาไทย มีรูปแบบการหารายได้โดยขายส่วนแปลภาษาแบบออฟไลน์

Main menu

กูเกิลโชว์ USM โมเดลแยกแยะเสียงพูดที่รองรับมากกว่า 300 ภาษา มีภาษายาวีด้วย

Common Voice เปิดรับบริจาค/ตรวจเสียงภาษาลาวแล้ว

มาช่วยกันผลักดัน Common Voice ภาษาลาวกัน!!!

โค้งสุดท้าย! ร่วมตรวจสอบเสียงใน Common Voice เพื่อช่วยพัฒนา AI รู้จำเสียงภาษาไทย

[Gartner] ตลาด Conversational AI จะมาลดต้นทุน Call Center ได้ถึง 8 หมื่นล้านดอลลาร์ ในปี 2026

Chrome OS เพิ่มฟีเจอร์ Screencast อัดคลิปหน้าจอพร้อมหน้าคนพูด ถอดเสียงบรรยายให้ด้วย

มาช่วยกันตรวจสอบกับบริจาคเสียงภาษาไทยใน Common Voice กัน

Twitter เพิ่มระบบ Auto Caption ใส่ข้อความบรรยายวิดีโอที่อัพโหลดให้อัตโนมัติ

สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย ความแม่นยำทัดเทียมกูเกิล

ร่วมบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice

กูเกิลเพิ่มฟีเจอร์ Live Caption ใน Chrome แปลงเสียงในเว็บเป็นข้อความ

AWS เปิดตัว Amazon Transcribe Medical บริการแปลงเสียงเป็นข้อความเพื่อการแพทย์โดยเฉพาะ

Word เปิดตัวฟีเจอร์ Transcribe แปลงไฟล์เสียงที่อัดเป็นข้อความ แยกเสียงคนพูดได้ด้วย

ฟีเจอร์ใหม่ PowerPoint ให้ AI ฟังเราซ้อมพรีเซนต์แล้วให้คะแนน บอกได้ว่าพูดช้า-เร็วไป

LINE โชว์เทคโนโลยี สร้าง Fan Cam ไว้ถ่ายเจาะเป็นบุคคลได้ด้วย AI

OneDrive และ SharePoint เพิ่มฟีเจอร์ AI แปลงเสียงเป็นข้อความ, ค้นรูปจากข้อความในรูป

Speech-to-Text บน Azure จะรับภาษาไทยเร็วๆ นี้ เปิดตัวทางการ 24 กันยายน

ไมโครซอฟท์ออกส่วนเสริม Office พิมพ์งานด้วยเสียงพูด แถมแปลเป็นภาษาอื่นได้เลย

กูเกิลเปิด Cloud Speech API ระบบแยกแยะเสียงพูดตัวเดียวกับ Google Now, รองรับเสียงภาษาไทย

ไมโครซอฟท์พัฒนาระบบ Speech Recognition ที่แม่นยำทัดเทียมกับมนุษย์ได้แล้ว

Facebook เตรียมเพิ่มฟีเจอร์ถอดข้อความเสียงใน Messenger ให้เป็นข้อความตัวอักษร

งานวิจัย Deep Speech ของ Baidu ทำงานได้ดีกว่าบริการที่มีอยู่ในตลาดทุกตัว

[ฝึกงาน Blognone] ทดลองสร้าง Speech Recognition ด้วย CMUSphinx ตอนที่ 2 (ตอนจบ)

[ฝึกงาน Blognone] ทดลองสร้าง Speech Recognition ด้วย CMUSphinx ตอนที่ 1

Facebook เข้าซื้อบริษัทผู้พัฒนาแอพวุ้นแปลภาษา Jibbigo

Pages

Blognone Jobs Premium

About Blognone

Other Version

Copyright Notice

Main menu

You are here

Pages

sign in

Blognone Jobs Premium

About Blognone

Other Version

Copyright Notice