By mk Founder on Tag: Typhoon, SCB 10X, LLM, Thailand, Speech Recognition
Typhoon

SCB 10X เปิดตัวโมเดลภาษาตระกูล Typhoon Isan ที่ออกแบบมาเพื่อถอดเสียงพูดภาษาอีสานโดยเฉพาะ

Typhoon Isan ASR เป็นโมเดลถอดเสียงเป็นตัวอักษร (Automatic Speech Recognition) ที่พยายามแก้ปัญหาเรื่องภาษาถิ่นของประเทศไทย ซึ่งยังไม่มีการจัดเก็บข้อมูลในระบบดิจิทัลมากนัก เมื่อผู้พูดใช้ภาษาถิ่น โมเดลในปัจจุบันจึงถอดเสียงผิดเพี้ยน ทำให้ทีมพัฒนาของ SCB 10X เลือกภาษาอีสานที่มีคนพูด 20 ล้านคน คิดเป็น 1/3 ของประชากร มาเป็นภาษาแรก

By arjin Writer on Tag: Meta, Artificial Intelligence, Translation, Speech Recognition
Meta

Meta เผยแพร่โมเดลแปลภาษาแบบรู้จำข้อความเสียงอัตโนมัติ Omnilingual ASR ซึ่งมีจุดเด่นคือรองรับมากกว่า 1,600 ภาษา ภายในตัวโมเดลเอง เป็นจำนวนที่สูงมากกว่าโมเดลแปลภาษาอื่นที่มีออกมา ซึ่งในจำนวน 1,600 ภาษานี้ มีมากกว่า 500 ภาษา ที่ยังไม่เคยมีเครื่องมือ AI แปลภาษารองรับออกมา เพราะมีชุดข้อมูลที่จำกัดมาก

นอกจากนี้ Meta ยังโอเพนซอร์สโมเดล Omnilingual wav2vec 2.0 ซึ่งนักพัฒนาสามารถนำไปใช้ฝึกฝนภาษาอื่นเพิ่มเติมได้ตามต้องการ (เรียกว่า Bring Your Own Language) บนชุดพารามิเตอร์พื้นฐานขนาด 7B รวมถึง Meta ได้เผยแพร่ Omnilingual ASR Corpus ที่เป็นฐานข้อมูลคำที่ถอดจากเสียงในกว่า 350 ภาษาที่มีชุดข้อมูลต่ำ โดยเป็นความร่วมมือกับหลายองค์กรอย่าง Common Voice ของ Mozilla Foundation และ Lanfrica/NaijaVoices

By mk Founder on Tag: Nova, Amazon, LLM, Speech Recognition, Speech Synthesis
Nova

Amazon ยังเดินหน้าเปิดตัวโมเดลตระกูล Nova อย่างต่อเนื่อง ถัดจาก Nova Reel โมเดลสร้างวิดีโอ ตามมาด้วย Nova Sonic โมเดลสร้างคำตอบเสียง ที่เป็นโมเดลตัวเดียวทำงานทั้งการเข้าใจเสียงพูด (speech understanding) และสร้างเสียงพูด (speech generation) ไม่ต้องแยกสองโมเดลทำงานอีกต่อไป

ความน่าสนใจของ Nova Sonic คือเป็นโมเดลแบบเสียง-เสียง (speech-to-speech) รับอินพุตเป็นเสียงพูด แล้วสร้างเอาต์พุตเป็นข้อความหรือเป็นเสียงก็ได้ สามารถทำงานแบบเรียลไทม์

OpenAI

OpenAI ออกโมเดลแปลงข้อความเป็นเสียงใหม่ กำหนดโทนได้มากขึ้น และเสียงเป็นข้อความที่ผิดพลาดน้อยลง

โมเดล text-to-speech หลักตัวใหม่คือ gpt-4o-mini-tts มีจุดเด่นคือนักพัฒนาสามารถกำหนดรูปแบบนำเสียงการพูด เช่น ให้พูดแนว mad scientist หรือพูดในโทนเสียงคุณครูที่อบอุ่น เป็นต้น สามารถทดลองรูปแบบใช้งานได้ที่นี่

By arjin Writer on Tag: Apple, Bug, Siri, Speech Recognition, Donald Trump, iOS
Apple

เกิดไวรัลในกลุ่มคนใช้ iPhone ในอเมริกา โดยพบว่า Dictation หรือเครื่องมือช่วยเขียนข้อความตามเสียงพูดใน iPhone เมื่อพูดคำว่า "racist" หน้าจอจะปรากฏคำว่า "Trump" ขึ้นมาชั่วคราว ก่อนแก้ไขเป็นคำว่า "racist" ที่ถูกต้อง ซึ่งสามารถทำซ้ำได้หลายครั้ง จึงเกิดคำถามว่านี่คือข้อผิดพลาดระบบหรือเป็นความตั้งใจกันแน่

ตัวแทนของแอปเปิลชี้แจงว่าปัญหานี้เกิดจากการออกเสียงที่ทับซ้อนกันของสองคำ (phonetic overlap) ซึ่งบริษัทกำลังแก้ไขปัญหานี้อยู่

By mk Founder on Tag: Google, Speech Recognition, Artificial Intelligence
Google

ทีมวิจัย Google Research เผยแพร่ข้อมูลของโมเดลแยกแยะเสียงพูดตัวใหม่ชื่อ Universal Speech Model (USM) ที่รองรับภาษามากกว่า 300 ภาษา ซึ่งครอบคลุมถึงภาษาที่อาจไม่ได้มีผู้ใช้งานเยอะนัก (จากภาพของกูเกิลจะเห็นคำว่า "ภาษายาวี" อยู่ด้วย)

โมเดล USM เป็นก้าวแรกสู่เป้าหมาย โมเดลเดียวรองรับ 1,000 ภาษา (1,000 Languages Intitiative) ที่กูเกิลเคยประกาศไว้ช่วงปลายปี 2022 โดยตอนนี้ USM ถูกนำไปใช้แล้วกับ YouTube ในการฟังเสียงจากวิดีโอแล้วสร้างเป็นซับไตเติลในภาษาต่างๆ

By tontan Contributor on Tag: Crowdsourcing, Mozilla, Speech Recognition, Common Voice, Laos
Crowdsourcing

วันนี้ Common Voice ของ Mozilla ซึ่งเป็นโครงการรับบริจาคเสียงเพื่อทำชุดข้อมูลเสียงสาธารณะสำหรับระบบรู้จำเสียง ได้เปิดรับบริจาคเสียงภาษาลาวแล้ว โดยภาษาลาวเป็นภาษาในตระกูลภาษาขร้า-ไท (Kra–Dai languages) ภาษาที่สองถัดจากภาษาไทยใน Common Voice

คนไทย/คนลาว ที่สามารถอ่านข้อความอักษรลาวได้ สามารถเข้าไปร่วมบริจาคได้ครับ โดยเข้าไปที่ https://commonvoice.mozilla.org/lo

By tontan Contributor on Tag: Crowdsourcing, Mozilla, Speech Recognition, Common Voice, Laos
Crowdsourcing

หลังจากที่ภาษาไทย เราได้ช่วยกันผลักดันให้โครงการ Common Voice ของ Mozilla เปิดรับบริจาคเสียงภาษาไทยได้เป็นที่สำเร็จเมื่อ 1 ปีก่อน มาวันนี้ขอเชิญชวนคนไทย/คนลาวที่อ่านหรือพิมพ์ภาษาลาวได้ มาช่วยกันผลักดันให้ Common Voice เปิดรับบริจาคเสียงภาษาลาวกัน

Mozilla

Common Voice เป็นโครงการที่ Mozilla ซึ่งเป็นองค์กรไม่แสวงหาผลกำไร ได้สร้างขึ้นเพื่อแก้ปัญหาการขาดแคลนชุดข้อมูลเสียงที่เป็นสาธารณสมบัติ (ไม่มีลิขสิทธิ์) ที่ทุกคน ทุกหน่วยงาน สามารถมีส่วนร่วมและใช้เพื่อสอนระบบ AI ต่าง ๆ เช่นระบบพิมพ์ด้วยเสียงได้

ปัจจุบันในภาษาไทยมีจำนวนเสียงที่บันทึกแล้ว 393 ชั่วโมง แต่ตรวจสอบไปเพียง 154 ชั่วโมง (ไม่ถึงครึ่งของจำนวนเสียงที่บันทึกไว้ทั้งหมด) ในขณะที่ชุดข้อมูลรอบถัดไปจะตัดรอบในวันที่ 7 กันยายน 2565 นี้ เราจึงต้องการให้ทุกคนเข้ามาร่วมตรวจสอบเสียงง่าย ๆ โดยไม่ต้องโหลดแอปใด ๆ ตามขั้นตอนด้านล่างนี้

Gartner

บริษัทวิจัยตลาด Gartner พยากรณ์ว่าจะมีการลงทุนใน AI สำหรับตอบโต้บทสนทนา (Conversational AI) เพื่อใช้ในงาน Call Center รวมราว 2 พันล้านดอลลาร์ ภายในสิ้นปี 2022 ผลจากการลงทุนนี้จะช่วยลดต้นทุนแรงงานคนได้ถึง 8 หมื่นล้านดอลลาร์ ภายในปี 2026

Daniel O’Connell รองประธานฝ่ายวิเคราะห์ของ Gartner ให้ข้อมูลว่าองค์กรส่วนใหญ่ ประสบปัญหาท้าทายของการขาดแคลนแรงงานในฝ่าย Call Center และต้นทุนส่วนใหญ่ของธุรกิจนี้ก็คือค่าแรง การนำ AI มาช่วยจึงลดต้นทุนส่วนนี้ได้ และ AI ประเภทดังกล่าวก็มีประสิทธิภาพที่ดีขึ้นมาก ในแง่ประสบการณ์ของฝั่งลูกค้า

By mk Founder on Tag: ChromeOS, Google Classroom, Education, Speech Recognition, Google
ChromeOS

กูเกิลประกาศฟีเจอร์สำคัญของ Chrome OS เวอร์ชัน M103 คือการบันทึกวิดีโอหน้าจอ (screencast) โดยเป็นแอพตัวใหม่ชื่อ Screencast กดปุ่มเดียวเพื่ออัดวิดีโอการใช้งานหน้าจอ พร้อมภาพใบหน้าและเสียงของคนพูดจากกล้องที่มุมขวาล่างของวิดีโอให้เสร็จสรรพ สามารถเขียนไฮไลท์หน้าจอตามช่วงเวลาที่พูดได้

ที่ไม่ธรรมดาคือ เมื่ออัดคลิปเสร็จแล้ว วิดีโอจะถูกอัพโหลดขึ้น Google Drive ให้อัตโนมัติ พร้อมถอดเสียง (transcript) ให้เสร็จสรรพ แสดงข้อความบรรยายที่ sidebar ด้านข้างตามช่วงเวลาที่พูด (แก้ไขข้อความเองได้ถ้าถอดเสียงผิด) เมื่อตัดต่อคลิปพร้อมแล้วกดแชร์ให้คนอื่นดูได้เลย

By tontan Contributor on Tag: Mozilla, Crowdsourcing, Speech Recognition, Common Voice
Mozilla

หลังจากที่ผมเขียนมาร่วมกันบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice ลง Blognone ครบ 1 ปี บทความนี้ผมจะมาเขียนบทความว่าเกิดอะไรขึ้นบ้าง เมื่อได้รับเสียงภาษาไทยบริจาคจำนวนมากถึง 300 กว่าชั่วโมง แต่ก็ยังคงต้องการรับบริจาคเสียงกับตรวจเสียงเพิ่มเติม

By mk Founder on Tag: Twitter, Accessibility, Speech Recognition
Twitter

Twitter เพิ่มระบบ auto caption ใส่ข้อความบรรยายวิดีโอที่อัพโหลดขึ้นระบบให้อัตโนมัติ (เบื้องหลังใช้ระบบถอดเสียงพูดของไมโครซอฟท์) รองรับทั้งหมด 16 ภาษา ซึ่งเว็บไซต์ TechCrunch ระบุว่ามีภาษาไทยด้วย

วิธีการใช้งานคือคนโพสต์อัพโหลดวิดีโอขึ้นตามปกติได้เลย ส่วนคนดูคลิป

By tontan Contributor on Tag: Thailand, Artificial Intelligence, Speech Recognition, PyThaiNLP
Thailand

วันนี้ทางสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (AIResearch) และทีม PyThaiNLP ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย (Automatic Speech Recognition) ที่มีความแม่นยำทัดเทียมกับกูเกิล และบริษัทชั้นนำอื่น ๆ

โมเดลดังกล่าวฝึกฝนบนชุดข้อมูล Mozilla Common Voice 7.0 ที่ได้รับการบริจาคเสียงภาษาไทย จำนวน 133 ชั่วโมง ผู้พูด 7,212 คน (อ่านเพิ่มเติม ร่วมบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice) โดยฝึกกับโมเดล XLSR-Wav2Vec2 ของ Facebook

By tontan Contributor on Tag: Crowdsourcing, Mozilla, Speech Recognition, Common Voice
Crowdsourcing

เทคโนโลยีการรู้จำเสียง (Speech Recognition) เป็นเทคโนโลยีที่ช่วยให้เราสื่อสารหรือสั่งงานกับคอมพิวเตอร์ได้ง่ายขึ้น ซึ่งระบบดังกล่าวเป็นที่นิยมกันอย่างเผยแพร่ ตัวอย่างเช่น ใช้งานในระบบผู้ช่วยอัจฉริยะ, ใช้สร้างคำบรรยายในวิดีโอ และใช้พิมพ์ข้อความตามเสียง เป็นต้น อย่างไรก็ตามเทคโนโลยีการรู้จำเสียงทุกภาษาต้องการชุดข้อมูลเสียงขนาดใหญ่สำหรับมาทำเทคโนโลยีดังกล่าว ยิ่งมีข้อมูลมากเท่าไร ความแม่นยำยิ่งสูงขึ้น แต่ชุดข้อมูลเสียงขนาดใหญ่จำนวนมากที่ถูกสร้างโดยบริษัทใหญ่ ๆ เราไม่สามารถใช้งานได้ เนื่องจากราคาที่แพงหรือติดลิขสิทธิ์ จึงทำให้บริษัทเล็ก ๆ หรือนักพัฒนาไม่สามารถเข้าถึงชุดข้อมูลดังกล่าวได้

By lew Founder on Tag: Chrome, Accessibility, Speech Recognition
Chrome

กูเกิลเพิ่มฟีเจอร์ Live Caption สำหรับแปลงเสียงเป็นข้อความเข้าเป็นส่วนหนึ่งของฟีเจอร์หมวด Accessibility ของเบราว์เซอร์ Chrome ช่วยให้ผู้ที่ฟังเสียงได้ยากสามารถอ่านข้อความจากเสียงต่างๆ ในเว็บไม่ว่าจะเป็นวิดีโอหรือ podcast ตลอดจนวิทยุอินเทอร์เน็ต

ปัญญาประดิษฐ์สำหรับแปลงเสียงเป็นข้อความนี้รันอยู่ในเครื่องของเราเองไม่ต้องส่งข้อมูลไปยังกูเกิลแต่อย่างใด และเราสามารถใช้เบราว์เซอร์แปลงข้อความจากเสียงในไฟล์วิดีโอหรือไฟล์เสียงในเครื่องของเราได้อีกด้วย

By lew Founder on Tag: AWS, Medical, Speech Recognition
AWS

AWS เปิดตัวบริการ Amazon Transcribe Medical เป็นบริการแปลงเสียงเป็นข้อความสำหรับงานด้านการแพทย์โดยเฉพาะ โดยระบุว่าเป้าหมายว่าต้องการลดระยะเวลาที่แพทย์ใช้ในการกรอกบันทึกการรักษา (electronic health record - EHR) ที่มีรายงานว่าแพทย์ในสหรัฐฯ ใช้เวลาถึงวันละ 6 ชั่วโมงในการกรอก

ทาง AWS แนะนำการใช้งาน เช่น การสร้างบันทึกของแพทย์เองเป็นตัวอักษร, ใช้แปลงบันทึกระหว่างแพทย์กับคนไข้ จากเดิมแพทย์ต้องนั่งจด, หรือใช้แปลงเสียงโทรศัพท์ระหว่างคนไข้ถึงแพทย์หรือเภสัชกร เพื่อหาชื่อยาที่ถูกพูดถึง

By mk Founder on Tag: Microsoft Word, Speech Recognition, Microsoft Office, Microsoft
Microsoft Word

นอกจาก Excel รองรับอินพุตปากกา ไมโครซอฟท์ยังประกาศฟีเจอร์ใหม่ของ Word คือ Transcribe หรือการแปลงเสียงพูดเป็นข้อความ

การพูดแล้วให้ Word พิมพ์ตามหรือ Dictate นั้นมีใน Word มานานแล้ว แต่ Transcribe คือการแปลงไฟล์เสียงทั้งไฟล์เป็นข้อความให้เลย แถมยังสามารถแยกเสียงคนพูดได้ด้วย (จะขึ้นเป็น Speaker 1, Speaker 2, ...) เมื่อแปลงข้อความเสร็จแล้วเราก็สามารถลากข้อความช่วงนั้นๆ มาใส่ในตัวเอกสารหลักของ Word ได้ง่ายๆ

LINE

ที่งาน LINE Developer Day 2018 บริษัท LINE เปิดตัวบริการ Chatbot Engine เครื่องมือสำหรับสร้างแชทบ็อต

ก่อนหน้านี้ LINE เปิดให้ทำแชทบ็อตอยู่แล้ว แต่กระบวนการยังค่อนข้างยุ่งยากและนักพัฒนาต้องทำงาน manual เยอะ แต่ด้วย Chatbot Engine ทำให้การสร้างแชทบ็อตง่ายขึ้น มี GUI ให้พร้อมสรรพสำหรับการกำหนดคำถาม-คำตอบของบ็อตด้วย

ทีมพัฒนาของ LINE ระบุว่าเบื้องต้นยังรองรับบ็อตที่แชทแบบข้อความเท่านั้น แต่ในอนาคตจะทำให้รองรับการคุยด้วยเสียงเช่นกัน

SharePoint

ไมโครซอฟท์ประกาศเพิ่มฟีเจอร์ด้าน AI ใช้แปลงวิดีโอ-เสียงเป็นข้อความ และการค้นหาภาพ-วิดีโอ-เสียง ให้กับซอฟต์แวร์สายธุรกิจอย่าง OneDrive และ SharePoint

ความสามารถด้าน AI เหล่านี้ไม่ใช่เรื่องใหม่ เพราะมีอยู่ก่อนแล้วบน Azure และ Microsoft Stream แค่ว่ารอบนี้ถูกเพิ่มเข้ามาให้กับซอฟต์แวร์ตัวอื่นๆ ด้วย

Subscribe to Speech Recognition