Speech Recognition

SCB 10X เปิดตัวโมเดล Typhoon Isan เทรนมาเพื่อถอดเสียงภาษาอีสาน

By mk

on 28 November 2025 - 21:38 Tag: Typhoon, SCB 10X, LLM, Thailand, Speech Recognition

Typhoon

SCB 10X เปิดตัวโมเดลภาษาตระกูล Typhoon Isan ที่ออกแบบมาเพื่อถอดเสียงพูดภาษาอีสานโดยเฉพาะ

Typhoon Isan ASR เป็นโมเดลถอดเสียงเป็นตัวอักษร (Automatic Speech Recognition) ที่พยายามแก้ปัญหาเรื่องภาษาถิ่นของประเทศไทย ซึ่งยังไม่มีการจัดเก็บข้อมูลในระบบดิจิทัลมากนัก เมื่อผู้พูดใช้ภาษาถิ่น โมเดลในปัจจุบันจึงถอดเสียงผิดเพี้ยน ทำให้ทีมพัฒนาของ SCB 10X เลือกภาษาอีสานที่มีคนพูด 20 ล้านคน คิดเป็น 1/3 ของประชากร มาเป็นภาษาแรก

Meta โอเพนซอร์สโมเดลแปลภาษา Speech Recognition ที่มีจุดเด่นรองรับมากกว่า 1,600 ภาษา

By arjin

on 12 November 2025 - 22:51 Tag: Meta, Artificial Intelligence, Translation, Speech Recognition

Amazon เปิดตัว Nova Sonic โมเดล speech-to-speech ฟังเสียงพูด แล้วตอบเป็นเสียง

By mk

on 9 April 2025 - 12:12 Tag: Nova, Amazon, LLM, Speech Recognition, Speech Synthesis

Nova

Amazon ยังเดินหน้าเปิดตัวโมเดลตระกูล Nova อย่างต่อเนื่อง ถัดจาก Nova Reel โมเดลสร้างวิดีโอ ตามมาด้วย Nova Sonic โมเดลสร้างคำตอบเสียง ที่เป็นโมเดลตัวเดียวทำงานทั้งการเข้าใจเสียงพูด (speech understanding) และสร้างเสียงพูด (speech generation) ไม่ต้องแยกสองโมเดลทำงานอีกต่อไป

ความน่าสนใจของ Nova Sonic คือเป็นโมเดลแบบเสียง-เสียง (speech-to-speech) รับอินพุตเป็นเสียงพูด แล้วสร้างเอาต์พุตเป็นข้อความหรือเป็นเสียงก็ได้ สามารถทำงานแบบเรียลไทม์

OpenAI ออกโมเดล text-to-speech และ speech-to-text ใหม่ ทำงานดีขึ้น

By arjin

on 21 March 2025 - 18:34 Tag: OpenAI, Artificial Intelligence, Speech Recognition, Text-to-Speech

OpenAI

OpenAI ออกโมเดลแปลงข้อความเป็นเสียงใหม่ กำหนดโทนได้มากขึ้น และเสียงเป็นข้อความที่ผิดพลาดน้อยลง

โมเดล text-to-speech หลักตัวใหม่คือ gpt-4o-mini-tts มีจุดเด่นคือนักพัฒนาสามารถกำหนดรูปแบบนำเสียงการพูด เช่น ให้พูดแนว mad scientist หรือพูดในโทนเสียงคุณครูที่อบอุ่น เป็นต้น สามารถทดลองรูปแบบใช้งานได้ที่นี่

พบบั๊ก Dictation ใน iOS แสดงคำว่า Trump ชั่วคราว เมื่อพูดคำว่า racist - Apple บอกกำลังแก้ไข

By arjin

on 26 February 2025 - 06:43 Tag: Apple, Bug, Siri, Speech Recognition, Donald Trump, iOS

Apple

เกิดไวรัลในกลุ่มคนใช้ iPhone ในอเมริกา โดยพบว่า Dictation หรือเครื่องมือช่วยเขียนข้อความตามเสียงพูดใน iPhone เมื่อพูดคำว่า "racist" หน้าจอจะปรากฏคำว่า "Trump" ขึ้นมาชั่วคราว ก่อนแก้ไขเป็นคำว่า "racist" ที่ถูกต้อง ซึ่งสามารถทำซ้ำได้หลายครั้ง จึงเกิดคำถามว่านี่คือข้อผิดพลาดระบบหรือเป็นความตั้งใจกันแน่

ตัวแทนของแอปเปิลชี้แจงว่าปัญหานี้เกิดจากการออกเสียงที่ทับซ้อนกันของสองคำ (phonetic overlap) ซึ่งบริษัทกำลังแก้ไขปัญหานี้อยู่

กูเกิลโชว์ USM โมเดลแยกแยะเสียงพูดที่รองรับมากกว่า 300 ภาษา มีภาษายาวีด้วย

By mk

on 8 March 2023 - 21:10 Tag: Google, Speech Recognition, Artificial Intelligence

Google

ทีมวิจัย Google Research เผยแพร่ข้อมูลของโมเดลแยกแยะเสียงพูดตัวใหม่ชื่อ Universal Speech Model (USM) ที่รองรับภาษามากกว่า 300 ภาษา ซึ่งครอบคลุมถึงภาษาที่อาจไม่ได้มีผู้ใช้งานเยอะนัก (จากภาพของกูเกิลจะเห็นคำว่า "ภาษายาวี" อยู่ด้วย)

โมเดล USM เป็นก้าวแรกสู่เป้าหมาย โมเดลเดียวรองรับ 1,000 ภาษา (1,000 Languages Intitiative) ที่กูเกิลเคยประกาศไว้ช่วงปลายปี 2022 โดยตอนนี้ USM ถูกนำไปใช้แล้วกับ YouTube ในการฟังเสียงจากวิดีโอแล้วสร้างเป็นซับไตเติลในภาษาต่างๆ

Common Voice เปิดรับบริจาค/ตรวจเสียงภาษาลาวแล้ว

By tontan

on 14 December 2022 - 13:41 Tag: Crowdsourcing, Mozilla, Speech Recognition, Common Voice, Laos

Crowdsourcing

วันนี้ Common Voice ของ Mozilla ซึ่งเป็นโครงการรับบริจาคเสียงเพื่อทำชุดข้อมูลเสียงสาธารณะสำหรับระบบรู้จำเสียง ได้เปิดรับบริจาคเสียงภาษาลาวแล้ว โดยภาษาลาวเป็นภาษาในตระกูลภาษาขร้า-ไท (Kra–Dai languages) ภาษาที่สองถัดจากภาษาไทยใน Common Voice

คนไทย/คนลาว ที่สามารถอ่านข้อความอักษรลาวได้ สามารถเข้าไปร่วมบริจาคได้ครับ โดยเข้าไปที่ https://commonvoice.mozilla.org/lo

มาช่วยกันผลักดัน Common Voice ภาษาลาวกัน!!!

By tontan

on 21 November 2022 - 20:55 Tag: Crowdsourcing, Mozilla, Speech Recognition, Common Voice, Laos

Crowdsourcing

หลังจากที่ภาษาไทย เราได้ช่วยกันผลักดันให้โครงการ Common Voice ของ Mozilla เปิดรับบริจาคเสียงภาษาไทยได้เป็นที่สำเร็จเมื่อ 1 ปีก่อน มาวันนี้ขอเชิญชวนคนไทย/คนลาวที่อ่านหรือพิมพ์ภาษาลาวได้ มาช่วยกันผลักดันให้ Common Voice เปิดรับบริจาคเสียงภาษาลาวกัน

โค้งสุดท้าย! ร่วมตรวจสอบเสียงใน Common Voice เพื่อช่วยพัฒนา AI รู้จำเสียงภาษาไทย

By ppnplus on 5 September 2022 - 12:43 Tag: Mozilla, Crowdsourcing, Speech Recognition, Artificial Intelligence

Mozilla

Common Voice เป็นโครงการที่ Mozilla ซึ่งเป็นองค์กรไม่แสวงหาผลกำไร ได้สร้างขึ้นเพื่อแก้ปัญหาการขาดแคลนชุดข้อมูลเสียงที่เป็นสาธารณสมบัติ (ไม่มีลิขสิทธิ์) ที่ทุกคน ทุกหน่วยงาน สามารถมีส่วนร่วมและใช้เพื่อสอนระบบ AI ต่าง ๆ เช่นระบบพิมพ์ด้วยเสียงได้

ปัจจุบันในภาษาไทยมีจำนวนเสียงที่บันทึกแล้ว 393 ชั่วโมง แต่ตรวจสอบไปเพียง 154 ชั่วโมง (ไม่ถึงครึ่งของจำนวนเสียงที่บันทึกไว้ทั้งหมด) ในขณะที่ชุดข้อมูลรอบถัดไปจะตัดรอบในวันที่ 7 กันยายน 2565 นี้ เราจึงต้องการให้ทุกคนเข้ามาร่วมตรวจสอบเสียงง่าย ๆ โดยไม่ต้องโหลดแอปใด ๆ ตามขั้นตอนด้านล่างนี้

[Gartner] ตลาด Conversational AI จะมาลดต้นทุน Call Center ได้ถึง 8 หมื่นล้านดอลลาร์ ในปี 2026

By arjin

on 4 September 2022 - 15:20 Tag: Gartner, Artificial Intelligence, Market Research, Speech Recognition

Gartner

บริษัทวิจัยตลาด Gartner พยากรณ์ว่าจะมีการลงทุนใน AI สำหรับตอบโต้บทสนทนา (Conversational AI) เพื่อใช้ในงาน Call Center รวมราว 2 พันล้านดอลลาร์ ภายในสิ้นปี 2022 ผลจากการลงทุนนี้จะช่วยลดต้นทุนแรงงานคนได้ถึง 8 หมื่นล้านดอลลาร์ ภายในปี 2026

Daniel O’Connell รองประธานฝ่ายวิเคราะห์ของ Gartner ให้ข้อมูลว่าองค์กรส่วนใหญ่ ประสบปัญหาท้าทายของการขาดแคลนแรงงานในฝ่าย Call Center และต้นทุนส่วนใหญ่ของธุรกิจนี้ก็คือค่าแรง การนำ AI มาช่วยจึงลดต้นทุนส่วนนี้ได้ และ AI ประเภทดังกล่าวก็มีประสิทธิภาพที่ดีขึ้นมาก ในแง่ประสบการณ์ของฝั่งลูกค้า

Chrome OS เพิ่มฟีเจอร์ Screencast อัดคลิปหน้าจอพร้อมหน้าคนพูด ถอดเสียงบรรยายให้ด้วย

By mk

on 12 June 2022 - 18:51 Tag: ChromeOS, Google Classroom, Education, Speech Recognition, Google

ChromeOS

กูเกิลประกาศฟีเจอร์สำคัญของ Chrome OS เวอร์ชัน M103 คือการบันทึกวิดีโอหน้าจอ (screencast) โดยเป็นแอพตัวใหม่ชื่อ Screencast กดปุ่มเดียวเพื่ออัดวิดีโอการใช้งานหน้าจอ พร้อมภาพใบหน้าและเสียงของคนพูดจากกล้องที่มุมขวาล่างของวิดีโอให้เสร็จสรรพ สามารถเขียนไฮไลท์หน้าจอตามช่วงเวลาที่พูดได้

ที่ไม่ธรรมดาคือ เมื่ออัดคลิปเสร็จแล้ว วิดีโอจะถูกอัพโหลดขึ้น Google Drive ให้อัตโนมัติ พร้อมถอดเสียง (transcript) ให้เสร็จสรรพ แสดงข้อความบรรยายที่ sidebar ด้านข้างตามช่วงเวลาที่พูด (แก้ไขข้อความเองได้ถ้าถอดเสียงผิด) เมื่อตัดต่อคลิปพร้อมแล้วกดแชร์ให้คนอื่นดูได้เลย

มาช่วยกันตรวจสอบกับบริจาคเสียงภาษาไทยใน Common Voice กัน

By tontan

on 8 April 2022 - 21:05 Tag: Mozilla, Crowdsourcing, Speech Recognition, Common Voice

Mozilla

หลังจากที่ผมเขียนมาร่วมกันบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice ลง Blognone ครบ 1 ปี บทความนี้ผมจะมาเขียนบทความว่าเกิดอะไรขึ้นบ้าง เมื่อได้รับเสียงภาษาไทยบริจาคจำนวนมากถึง 300 กว่าชั่วโมง แต่ก็ยังคงต้องการรับบริจาคเสียงกับตรวจเสียงเพิ่มเติม

Twitter เพิ่มระบบ Auto Caption ใส่ข้อความบรรยายวิดีโอที่อัพโหลดให้อัตโนมัติ

By mk

on 16 December 2021 - 14:05 Tag: Twitter, Accessibility, Speech Recognition

Twitter

Twitter เพิ่มระบบ auto caption ใส่ข้อความบรรยายวิดีโอที่อัพโหลดขึ้นระบบให้อัตโนมัติ (เบื้องหลังใช้ระบบถอดเสียงพูดของไมโครซอฟท์) รองรับทั้งหมด 16 ภาษา ซึ่งเว็บไซต์ TechCrunch ระบุว่ามีภาษาไทยด้วย

วิธีการใช้งานคือคนโพสต์อัพโหลดวิดีโอขึ้นตามปกติได้เลย ส่วนคนดูคลิป

สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย ความแม่นยำทัดเทียมกูเกิล

By tontan

on 6 September 2021 - 14:07 Tag: Thailand, Artificial Intelligence, Speech Recognition, PyThaiNLP

Thailand

วันนี้ทางสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (AIResearch) และทีม PyThaiNLP ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย (Automatic Speech Recognition) ที่มีความแม่นยำทัดเทียมกับกูเกิล และบริษัทชั้นนำอื่น ๆ

โมเดลดังกล่าวฝึกฝนบนชุดข้อมูล Mozilla Common Voice 7.0 ที่ได้รับการบริจาคเสียงภาษาไทย จำนวน 133 ชั่วโมง ผู้พูด 7,212 คน (อ่านเพิ่มเติม ร่วมบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice) โดยฝึกกับโมเดล XLSR-Wav2Vec2 ของ Facebook

ร่วมบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice

By tontan

on 10 April 2021 - 18:47 Tag: Crowdsourcing, Mozilla, Speech Recognition, Common Voice

Crowdsourcing

เทคโนโลยีการรู้จำเสียง (Speech Recognition) เป็นเทคโนโลยีที่ช่วยให้เราสื่อสารหรือสั่งงานกับคอมพิวเตอร์ได้ง่ายขึ้น ซึ่งระบบดังกล่าวเป็นที่นิยมกันอย่างเผยแพร่ ตัวอย่างเช่น ใช้งานในระบบผู้ช่วยอัจฉริยะ, ใช้สร้างคำบรรยายในวิดีโอ และใช้พิมพ์ข้อความตามเสียง เป็นต้น อย่างไรก็ตามเทคโนโลยีการรู้จำเสียงทุกภาษาต้องการชุดข้อมูลเสียงขนาดใหญ่สำหรับมาทำเทคโนโลยีดังกล่าว ยิ่งมีข้อมูลมากเท่าไร ความแม่นยำยิ่งสูงขึ้น แต่ชุดข้อมูลเสียงขนาดใหญ่จำนวนมากที่ถูกสร้างโดยบริษัทใหญ่ ๆ เราไม่สามารถใช้งานได้ เนื่องจากราคาที่แพงหรือติดลิขสิทธิ์ จึงทำให้บริษัทเล็ก ๆ หรือนักพัฒนาไม่สามารถเข้าถึงชุดข้อมูลดังกล่าวได้

กูเกิลเพิ่มฟีเจอร์ Live Caption ใน Chrome แปลงเสียงในเว็บเป็นข้อความ

By lew

on 19 March 2021 - 01:01 Tag: Chrome, Accessibility, Speech Recognition

Chrome

กูเกิลเพิ่มฟีเจอร์ Live Caption สำหรับแปลงเสียงเป็นข้อความเข้าเป็นส่วนหนึ่งของฟีเจอร์หมวด Accessibility ของเบราว์เซอร์ Chrome ช่วยให้ผู้ที่ฟังเสียงได้ยากสามารถอ่านข้อความจากเสียงต่างๆ ในเว็บไม่ว่าจะเป็นวิดีโอหรือ podcast ตลอดจนวิทยุอินเทอร์เน็ต

ปัญญาประดิษฐ์สำหรับแปลงเสียงเป็นข้อความนี้รันอยู่ในเครื่องของเราเองไม่ต้องส่งข้อมูลไปยังกูเกิลแต่อย่างใด และเราสามารถใช้เบราว์เซอร์แปลงข้อความจากเสียงในไฟล์วิดีโอหรือไฟล์เสียงในเครื่องของเราได้อีกด้วย

AWS เปิดตัว Amazon Transcribe Medical บริการแปลงเสียงเป็นข้อความเพื่อการแพทย์โดยเฉพาะ

By lew

on 2 December 2019 - 22:42 Tag: AWS, Medical, Speech Recognition

AWS

AWS เปิดตัวบริการ Amazon Transcribe Medical เป็นบริการแปลงเสียงเป็นข้อความสำหรับงานด้านการแพทย์โดยเฉพาะ โดยระบุว่าเป้าหมายว่าต้องการลดระยะเวลาที่แพทย์ใช้ในการกรอกบันทึกการรักษา (electronic health record - EHR) ที่มีรายงานว่าแพทย์ในสหรัฐฯ ใช้เวลาถึงวันละ 6 ชั่วโมงในการกรอก

ทาง AWS แนะนำการใช้งาน เช่น การสร้างบันทึกของแพทย์เองเป็นตัวอักษร, ใช้แปลงบันทึกระหว่างแพทย์กับคนไข้ จากเดิมแพทย์ต้องนั่งจด, หรือใช้แปลงเสียงโทรศัพท์ระหว่างคนไข้ถึงแพทย์หรือเภสัชกร เพื่อหาชื่อยาที่ถูกพูดถึง

Word เปิดตัวฟีเจอร์ Transcribe แปลงไฟล์เสียงที่อัดเป็นข้อความ แยกเสียงคนพูดได้ด้วย

By mk

on 4 October 2019 - 13:37 Tag: Microsoft Word, Speech Recognition, Microsoft Office, Microsoft

Microsoft Word

นอกจาก Excel รองรับอินพุตปากกา ไมโครซอฟท์ยังประกาศฟีเจอร์ใหม่ของ Word คือ Transcribe หรือการแปลงเสียงพูดเป็นข้อความ

การพูดแล้วให้ Word พิมพ์ตามหรือ Dictate นั้นมีใน Word มานานแล้ว แต่ Transcribe คือการแปลงไฟล์เสียงทั้งไฟล์เป็นข้อความให้เลย แถมยังสามารถแยกเสียงคนพูดได้ด้วย (จะขึ้นเป็น Speaker 1, Speaker 2, ...) เมื่อแปลงข้อความเสร็จแล้วเราก็สามารถลากข้อความช่วงนั้นๆ มาใส่ในตัวเอกสารหลักของ Word ได้ง่ายๆ

LINE โชว์เทคโนโลยี สร้าง Fan Cam ไว้ถ่ายเจาะเป็นบุคคลได้ด้วย AI

By arjin

on 24 November 2018 - 18:59 Tag: LINE, Naver, Clova, Artificial Intelligence, Video Editing, Speech Recognition, Speech Synthesis

LINE

ที่งาน LINE Developer Day 2018 บริษัท LINE เปิดตัวบริการ Chatbot Engine เครื่องมือสำหรับสร้างแชทบ็อต

ก่อนหน้านี้ LINE เปิดให้ทำแชทบ็อตอยู่แล้ว แต่กระบวนการยังค่อนข้างยุ่งยากและนักพัฒนาต้องทำงาน manual เยอะ แต่ด้วย Chatbot Engine ทำให้การสร้างแชทบ็อตง่ายขึ้น มี GUI ให้พร้อมสรรพสำหรับการกำหนดคำถาม-คำตอบของบ็อตด้วย

ทีมพัฒนาของ LINE ระบุว่าเบื้องต้นยังรองรับบ็อตที่แชทแบบข้อความเท่านั้น แต่ในอนาคตจะทำให้รองรับการคุยด้วยเสียงเช่นกัน

OneDrive และ SharePoint เพิ่มฟีเจอร์ AI แปลงเสียงเป็นข้อความ, ค้นรูปจากข้อความในรูป

By mk

on 30 August 2018 - 10:44 Tag: SharePoint, OneDrive, Microsoft, Office 365, Artificial Intelligence, Speech Recognition, Image Recognition

SharePoint

ไมโครซอฟท์ประกาศเพิ่มฟีเจอร์ด้าน AI ใช้แปลงวิดีโอ-เสียงเป็นข้อความ และการค้นหาภาพ-วิดีโอ-เสียง ให้กับซอฟต์แวร์สายธุรกิจอย่าง OneDrive และ SharePoint

ความสามารถด้าน AI เหล่านี้ไม่ใช่เรื่องใหม่ เพราะมีอยู่ก่อนแล้วบน Azure และ Microsoft Stream แค่ว่ารอบนี้ถูกเพิ่มเข้ามาให้กับซอฟต์แวร์ตัวอื่นๆ ด้วย

Subscribe to Speech Recognition