Tags:
Node Thumbnail

MyShell ผู้ให้บริการปัญญาประดิษฐ์สร้างตัวตนออนไลน์ ปล่อยโมเดล OpenVoice สำหรับการเลียนแบบเสียงพูดโดยอาศัยตัวอย่างเสียงไม่มากนัก

โมเดลปัญญาประดิษฐ์เลียนเสียงพูดมีงานวิจัยออกมาเรื่อยๆ จำนวนมาก OpenVoice ชูจุดเด่นว่าสามารถควบคุมน้ำเสียง, จังหวะพูด ได้ละเอียดกว่า ทำให้มีความเป็นไปได้ที่จะสร้างเสียงที่สมจริงขึ้น

โมเดลแยกออกเป็นสองส่วน คือการแปลงข้อความเป็นเสียงพูด จากนั้นค่อยแปลงเสียงที่ได้ให้น้ำเสียงเหมือนกันเสียงพูดของบุคคลเป้าหมายอีกที เรียกว่า Tone Color Converter

ตัวโมเดลพร้อมค่า weight เปิดให้ดาวน์โหลดไปใช้งานได้แต่จำกัดห้ามใช้งานเชิงการค้า และทาง MyShell ระบุว่าอาจจะมีแนวทางในการตรวจจับว่าเสียงสร้างขึ้นมาจากโมเดล OpenVoice อยู่

Tags:
Node Thumbnail

ทีมวิจัย Meta AI รายงานถึงปัญญาประดิษฐ์ Voicebox ที่แปลงข้อความเป็นเสียง (text-to-speech - TTS) ด้วยความแม่นยำสูง มีอัตราความผิดพลาดของคำต่ำ และยังสามารถเลียนแบบเสียงใครก็ได้ โดยต้องการตัวอย่างเสียงเพียงสั้นๆ เท่านั้น

ทีมงานสร้าง Voicebox จากหนังสือเสียงภาษาอังกฤษ, ฝรั่งเศส, สเปน, เยอรมนี, และโปรตุเกส รวมข้อมูล 50,000 ชั่วโมง ความสามารถของ Voicebox สามารถเลียนแบบเสียงจากตัวอย่างเสียงสั้นๆ เท่านั้น, สามารถเลียนแบบสไตล์การพูดข้ามภาษาได้ ด้วยการใส่ข้อความภาษาอื่นๆ เข้าไปแม้ว่าตัวอย่างเสียงจะพูดอีกภาษา, ใช้ลบเสียงรบกวนและตัดต่อข้อความได้ โดยการตัดช่วงเวลาที่ไม่ต้องการออกจากตัวอย่าง แล้วใส่แต่ข้อความเข้าไป

Tags:
Node Thumbnail

ซัมซุงออกอัพเดตใหญ่ให้ Bixby ผู้ช่วยส่วนตัวบนอุปกรณ์ตระกูล Galaxy ของใหม่ที่สำคัญคือฟีเจอร์ Text Call ที่เคยเปิดตัวในเกาหลีเมื่อเดือนธันวาคม 2022 ตอนนี้ออกเวอร์ชันภาษาอังกฤษแล้ว

Text Call คือการให้ Bixby สนทนาด้วยเสียงทางโทรศัพท์แทนผู้ใช้ (ที่อาจไม่สะดวกรับสาย เช่น กำลังประชุมอยู่) โดยผู้ใช้มีหน้าที่พิมพ์ข้อความที่อยากตอบ จากนั้น Bixby จะแปลงเป็นเสียงพูดแล้วไปคุยกับคนที่โทรมาให้แทน ฟีเจอร์ใหม่ที่เพิ่มเข้ามาคือ Custom Voice Creato ผู้ใช้สามารถอัดเสียงตัวเองเป็นตัวอย่างฝาก Bixby เอาไว้ แล้วแปลงเป็นเสียงพูดที่คล้ายๆ กับเสียงเราได้ ตอนนี้ฟีเจอร์นี้ยังใช้ได้เฉพาะภาษาเกาหลีเท่านั้น

Tags:
Node Thumbnail

ซัมซุงโชว์ฟีเจอร์ใหม่ของรอม One UI 5.0 ที่จะออกตัวจริงในเร็วๆ นี้ ฟีเจอร์ที่ว่าคือ Bixby Text Call เป็นการใช้ผู้ช่วยอัจฉริยะ Bixby (ที่หลายคนลืมชื่อนี้ไปแล้ว) ช่วยคุยโทรศัพท์แทนเรา

หากมีคนโทรมา แล้วเราไม่สะดวกรับสาย เราสามารถกดเลือก Text Call แล้ว Bixby จะถอดเสียงพูดของคู่สายมาเป็นข้อความ ให้เราพิมพ์ตอบเป็นข้อความได้ จากนั้น Bixby จะอ่านออกเสียงให้คู่สนทนาฟังเอง

ซัมซุงบอกว่าฟีเจอร์นี้เหมาะกับสถานการณ์ที่ส่งเสียงได้ยาก เช่น ในรถบัสหรือรถไฟที่มีคนมากๆ หรือในงานคอนเสิร์ตที่เสียงดังมาก ตอนนี้ฟีเจอร์นี้ใช้งานได้แล้วในภาษาเกาหลี ส่วนภาษาอังกฤษจะตามมาในช่วงต้นปี 2023

Tags:
Node Thumbnail

ในระหว่างนี้ที่โรงเรียนยังปิดอยู่ กูเกิลก็ได้เปิดตัวแอป Read Along แอปบนแอนดรอยด์ ช่วยเรียนรู้การอ่านออกเสียงสำหรับเด็กเล็กอายุมากกว่า 5 ขวบขึ้นไป ใช้เทคโนโลยี text-to-speechในการโต้ตอบให้ฟีดแบคกับเด็กๆ รองรับ 9 ภาษา (ยังไม่มีภาษาไทย) เปิดตัวใน 180 ประเทศ

ในแอป Read Along มี Diya เป็นคล้ายๆ ผู้ช่วยอัจฉริยะ ที่ใช้เทคโนโลยี text-to-speech และ speech recognition เพื่อให้ฟีดแบคกับเด็กได้ทันทีว่าเด็กๆ อ่านถูกต้องหรือไม่ เด็กๆ สามารถแตะที่ Diya เพื่อให้เธอช่วยเหลือในกรณีที่เด็กไม่รู้ว่าคำนี้ออกเสียงอย่างไร ในแอปยังมีเกมย่อยๆ ให้เล่นและเรียนรู้คำใหม่ไปพร้อมกัน มีฟังก์ชั่นให้เด็กๆ สะสม badge เพื่อให้เด็กๆ รุ้สึกสนุกและอยากเรียนรู้คำใหม่ๆ ต่อไป

Tags:
Node Thumbnail

Google Assistant เพิ่มความสามารถใหม่ ให้ผู้ใช้งานสั่งให้ Google Assistant อ่านข้อมูลข่าวสารจากหน้าเว็บไซต์บนบราวเซอร์ Chrome, Google News ให้ฟังได้แล้วด้วยการสั่ง “Hey Google, read this page” หรือ “Hey Google, read it” ใช้พลังจากเทคโนโลยี Text-to-Speech

ในระหว่างที่ Google Assistant อ่านข้อความให้ฟัง ระบบจะ scroll หน้าเว็บและไฮไลต์ข้อความที่อ่านอยู่ให้อัตโนมัติ ผู้ใช้ยังสามารถเลือกความเร็ว และโทนเสียงการอ่านได้ให้ฟังดูเป็นธรรมชาติมากขึ้น นอกจากนี้ยังเลือกให้อ่านในภาษาของตัวเองได้ด้วย โดยตอนนี้รองรับ 42 ภาษา จากการลองใช้งานอ่านข่าวจากเว็บไซต์ภาษาอังกฤษให้ฟัง พบว่ารองรับการอ่านเป็นภาษาไทยด้วย

Tags:
Node Thumbnail

กูเกิลประกาศฟีเจอร์ Read It บน Android เวอร์ชัน 5.0 ขึ้นไป มันคือฟีเจอร์อ่านออกเสียงเว็บเพจโดย Google Assistant ด้วยเทคโนโลยี text-to-speech ที่พัฒนาด้วย machine learning ให้เสียงที่เป็นธรรมชาติมากขึ้น

วิธีการใช้งานถูกออกแบบมาให้ง่ายสุดๆ เพียงแค่เราเปิดหน้าเว็บที่ต้องการขึ้นมา แล้วพูดว่า "Hey Google, Read It" เท่านั้น เราสามารถควบคุมความเร็วของการอ่านได้ด้วย

นอกจากการอ่านออกเสียงเป็น text-to-speech แล้ว เรายังสามารถสั่งให้กูเกิลแปลเป็นภาษาต่างๆ (รองรับ 42 ภาษา รวมภาษาไทย) ก่อนแล้วค่อยสั่งให้อ่านให้ฟังได้เช่นกัน

Tags:
Node Thumbnail

Amazon ประกาศเพิ่มฟีเจอร์ใหม่ให้ Polly บริการแปลงข้อความเป็นเสียงหรือ Text-To-Speech สองอย่าง คือระบบเสียงแบบ Neural Text-To-Speech และสไตล์การพูดแบบพูดประกาศข่าว

สิ่งแรกคือ Neural Text-To-Speech โดย Amazon ได้นำ machine learning มาเพิ่มคุณภาพให้เสียงสังเคราะห์ ทำให้เสียงรูปแบบใหม่ฟังดูเป็นธรรมชาติและใกล้เคียงกับเสียงของมุษย์มากยิ่งขึ้น

ตอนนี้ Neural Text-To-Speech รองรับ 11 เสียง ทั้งในรูปแบบเรียลไทม์และ batch ได้แก่

Tags:
Node Thumbnail

Sony ประกาศปรับปรุงฟีเจอร์ Party ของ PS4 โดยขยายจำนวนสมาชิกสูงสุดในปาร์ตี้จาก 8 คนเป็น 16 คน, ปรับปรุงเรื่องคุณภาพเสียงของ voice chat และปรับปรุงการเชื่อมต่อกับเครือข่าย

นอกจากนี้ Sony ยังทดสอบฟีเจอร์ chat transcription หรือแปลงเสียงพูดเป็นข้อความ รวมถึงอ่านข้อความออกมาเป็นเสียงพูดให้เพื่อนร่วมปาร์ตี้คนอื่นๆ ฟังโดยอัตโนมัติ (ยังรองรับเฉพาะภาษาอังกฤษ) ซึ่งใช้ได้กับทั้ง Party ของ PS4 และแอพ PS4 Second Screen บนสมาร์ทโฟน

Sony เปิดทดสอบฟีเจอร์ Party เวอร์ชันใหม่ให้กับผู้สมัครเข้าโครงการ PS4 System Software Beta แล้ว โดยยังไม่ระบุว่าจะออกเวอร์ชันจริงเมื่อไร

Tags:
Node Thumbnail

ทีมวิจัยร่วมระหว่างไมโครซอฟท์และมหาวิทยาลัยเจ้อเจียง (Zhejiang University) รายงานความสำเร็จในการออกแบบปัญญาประดิษฐ์ที่สามารถแปลงข้อความเป็นเสียงพูด (text-to-speech - TTS) และแปลงเสียงพูดเป็นข้อความ (automatic speech recognition - ASR) โดยใช้ข้อมูลปริมาณน้อยมาก คิดเป็นเสียงพูดประมาณ 20 นาทีเท่านั้น แต่ยังความแม่นยำของการสร้างเสียงพูดที่ฟังออก (intelligible rate) สูงถึง 99.84%

Tags:
Node Thumbnail

DeepMind นำเสนองานวิจัย WaveNet โมเดลปัญญาประดิษฐ์ deep learning สำหรับสร้างเสียงพูดและเสียงดนตรีมาตั้งแต่ปี 2016 และนำมาใช้กับ Google Assistant เมื่อปีที่แล้ว ตอนนี้มันก็กลายเป็นสินค้าบน Google Cloud Platform แล้ว แต่ยังไม่รองรับภาษาไทย

กูเกิลระบุว่ามีจำนวนเสียงให้เลือกกว่า 30 เสียงแล้วแต่ภาษา เช่น ภาษาอังกฤษแบบสหรัฐฯ มี 6 เสียง บริการรองรับภาษา SSML (Speech Synthesis Markup Language) สำหรับการกำหนดจังหวะหายใจ การเน้นเสียง หรือการปรับความเร็วในบางช่วง เพื่อความสมจริงยิ่งขึ้นด้วย

Tags:
Node Thumbnail

เรื่องเสียงพูดจากคอมพิวเตอร์ก็เป็นอีกประเด็นที่หลายเจ้าพยายามทำให้เหมือนเสียงมนุษย์มากที่สุด ล่าสุดวิศวกรของกูเกิลทีมหนึ่งได้ตีพิมพ์เอกสารนำเสนอระบบสร้างเสียงพูดตัวใหม่ในชื่อ Tacotron 2 ที่ฟังแล้วแยกแทบไม่ออกว่าเป็นเสียงมนุษย์หรือเสียงจากระบบนี้

Tacotron 2 จะสร้าง spectrogram หรือรูปที่แสดงให้เห็นว่าคำพูดควรจะมีเสียงอย่างไร แล้วเอารูปนี้ไปผ่านอัลกอริทึม WaveNet ของกูเกิลเอง ทำให้ได้เสียงพูดที่เหมือนมนุษย์มาก

นักวิจัยระบุว่าเสียงพูดจาก Tacotron 2 ได้คะแนน Mean Opinion Score (MOS) ที่ 4.53 ในขณะที่เสียงพูดของมนุษย์ที่อัดมาอย่างดีได้คะแนน 4.58 โดย MOS คือคะแนนที่วัดว่าเสียงใดๆ มีความเป็นธรรมชาติแค่ไหน

Tags:
Node Thumbnail

งานวิจัยชื่อ My Text in Your Handwriting จาก University College London สามารถเรียนรู้รูปแบบลายมือการเขียนข้อความของคนจนสามารถแยกแยะข้อความของคนอื่นที่พยายามเลียนแบบเพื่อปลอมลายมือนั้นได้ และที่สำคัญตัวโปรแกรมเองสามารถสังเคราะห์ข้อความที่กำหนดขึ้นมาโดยใช้ลายมือดังกล่าวได้เองด้วย

My Text in Your Handwriting มีการพัฒนาอัลกอริทึมแบบอาศัย machine learning ซึ่งทำงานเน้นการวิเคราะห์ภาพสัญลักษณ์ต่างๆ โดยอิงจากเอกลักษณ์เฉพาะในลายมือของแต่ละคนที่แตกต่างกันไป ทั้งการจัดเรียงตัวอักษร, การจัดเว้นช่องว่าง, ความต่อเนื่องของการลากเส้นเขียน, รูปร่างและรูปทรงของตัวอักขระต่างๆ ตลอดจนการลงน้ำหนักเส้น

Tags:
Node Thumbnail

หลังจากสี่ปีก่อนที่อเมซอนเปิดตัว Kindle Touch ซึ่งเป็นคินเดิลรุ่นสุดท้ายที่ยังมีฟีเจอร์อ่านออกเสียง นับแต่นั้นเป็นต้นมาอเมซอนก็เดินหน้าตัดช่องเสียบหูฟัง ตัดลำโพงออก และตัดฟีเจอร์อ่านออกเสียงออก (Text-to-Speech) หลังจากนั้นก็เดินหน้าขายหนังสือเสียงผ่าน Audible เต็มที่ ทำให้ผู้ที่มีปัญหาทางสายตาไม่มีทางเลือกมากนักในการใช้งานอุปกรณ์คินเดิล

Tags:
Node Thumbnail

ลำโพงอัจฉริยะ Amazon Echo ได้ฟีเจอร์ใหม่ชื่อ Kindle Books by Alexa ให้ผู้ช่วยส่วนตัว Alexa อ่านหนังสือในระบบ Kindle ให้เราฟังได้ด้วย

Alexa จะอ่านอีบุ๊กในไลบรารี Kindle ของเราโดยใช้เทคโนโลยี text-to-speech แบบเดียวกับที่ใช้อ่านบทความและข่าวให้เราฟัง แต่น่าเสียดายว่ายังไม่สามารถฟัง audiobook จากระบบ Audible ได้ ความสามารถก็ยังถือว่าจำกัดอยู่บ้างครับ

ที่มา - Amazon, ZDNet

Tags:
Node Thumbnail

กูเกิลรายงานถึงโครงการวิจัย Unison เป็นโครงการเพื่อการเก็บข้อมูลพัฒนาระบบออกเสียงจากข้อความ (text-to-speech - TTS) จากภาษาที่มีข้อมูลน้อย (low resource languages) โดยเลือกภาษาบังคลาเทศ และใช้อาสาสมัครที่เป็นพนักงานของกูเกิลเองมาช่วยพูดให้เสียง

ทางโครงการพัฒนาเครื่องมือที่ชื่อว่า ChitChat เป็นเว็บแอพที่บันทึกเสียงตามข้อความที่กำหนด สำรวจเสียง, รบกวนในห้อง, และเล่นไฟล์ที่บันทึกไปแล้ว อุปกรณ์ทั้งชุดมีราคาไม่ถึง 2,000 ดอลลาร์ ส่วนประโยคที่ต้องอ่าน ใช้เวลาบันทึกเสียงทั้งหมด 3 วัน บันทึกครั้งละ 250 ประโยค แต่ละครั้งใช้เวลา 30-60 นาที รวมทั้งหมด 2000 ข้อความ โดยเลือกข้อความจากการวิเคราะห์ฐานข้อมูล Wikipedia

Tags:
Node Thumbnail

ก่อนหน้านี้เราเคยมี Vaja และ Vocalizer ซึ่งเป็นแอพพลิเคชัน Text to Speech บนระบบปฏิบัติการแอนดรอยด์ ซึ่งมีเสียงอ่านในภาษาไทย ล่าสุด Google ก็ได้เพิ่มความสามารถนี้ให้ชาวไทยแล้วเช่นกัน 

โดยในการอัพเดตล่าสุด แอพ Google Text to Speech เวอร์ชัน 3.56.2080558 ได้เพิ่มการรองรับการอ่านในภาษาต่างๆ อีกกว่า 6 ภาษา ได้แก่ Cantonese (Hong Kong), Chinese (China), Hindi (India), Indonesian (Indonesia), Thai (Thailand) และ Turkey (Turkish)

Tags:
Node Thumbnail

เมื่อเกือบปีที่ผ่านมา ทาง Code Factory ได้ปล่อย เสียง Eloquence ซึ่งเป็นเสียง Text to Speech (TTS) ยอดนิยม สำหรับระบบปฏิบัติการ Android ออกมาให้เราได้ใช้งานกัน แต่เนื่องจากเสียง Eloquence นั้นเป็น TTS สำหรับภาษาอังกฤษ คนไทยเราอาจจะใช้งานได้ไม่สะดวกนัก แต่ล่าสุด ทาง Code Factory ได้ปล่อยเสียง TTS ตัวล่าสุดออกมาให้เราได้ใช้งานกัน ซึ่งก็คือ Vocalizer นั่นเอง

Tags:

ที่ผ่านมา หลายบริษัทได้ขยับตัวไปเล่นในตลาดเทคโนโลยีทางด้านเสียงมากขึ้น อย่างการนำไปประยุกต์เป็น voice input/output ในสมาร์ทโฟน หรือการประยุกต์ใช้กับอุปกรณ์ไฟฟ้าภายในบ้าน ด้วยความที่ผมสนใจในเรื่องพวกนี้อยู่พอสมควร แล้วก็มีโอกาสได้เห็นการสาธิตโปรแกรม VAJA ของ สวทช. ในงาน Microsoft Innovation Days จึงได้นัดสัมภาษณ์ ดร. ชัย วุฒิวิวัฒน์ชัย ผู้อำนวยการหน่วยวิจัยวิทยาการสารสนเทศแห่ง NECTEC บุคคลหนึ่งที่เป็นผู้อยู่เบื้องหลังของโปรแกรมนี้เกี่ยวกับแนวคิดและความเป็นมาในการวิจัยและพัฒนาโปรแกรม

Tags:
Node Thumbnail

เสียงสังเคราะห์อย่าง ETI-Eloquence นี้สำหรับคนตาบอดที่ใช้โปรแกรมอ่านจอภาพคงจะคุ้นเคยกันเป็นอย่างดี เนื่องจากเสียงนี้ได้ถูกใช้เป็นค่าปริยายบนโปรแกรมอ่านจอภาพยอดนิยมอย่าง [Jaws for Windows](http://www.freedomscientific.com/products/fs/jaws-product-page.asp) ดังนั้นถึงแม้ว่าเจ้า Eloquence TTS ตัวนี้อาจจะไม่ใช่เสียงที่มีความชัดหรือเป็นธรรมชาติที่สุด แต่ด้วยความคุ้นเคย หลายคนก็อาจจะรอคอย TTS ตัวนี้ให้สามารถใช้งานบนระบบปฏิบัติการอื่นๆ นอกจากบนวินโดส์ได้อยู่เหมือนกัน

Tags:
Node Thumbnail

กูเกิลอัพเดต Google Text-to-speech Engine บน Android เวอร์ชัน 3.0 โดยการเปลี่ยนแปลงที่สำคัญคือเพิ่ม "เสียงพูดคุณภาพสูง" ที่ฟังดูเป็นมนุษย์มากขึ้น ไฟล์เสียงภาษาอังกฤษมีขนาด 244MB (ของเดิม 6.8MB) มีให้เลือกดาวน์โหลดทั้งสำเนียงแบบบริติชและอเมริกัน (ดาวน์โหลดแยกเองในหน้า Settings > Language & input > Text-to-speech)

นอกจากนี้กูเกิลยังปรับ UI ใหม่ให้บริหารจัดการไฟล์เสียงได้ง่ายขึ้น และเพิ่มเสียงพูดในภาษาโปรตุเกสสำเนียงบราซิล กับสเปนสำเนียงอเมริกัน เข้ามาด้วย

Tags:
Node Thumbnail

Google นำระบบการอ่านออกเสียงของ Android มาทำเป็นแอพ Google Text-to-Speech ให้ดาวน์โหลดได้โดยตรงผ่านทาง Google Play

ระบบการอ่านออกเสียงหรือที่เรียกโดยทั่วไปว่า TTS (Text To Speech) นี้ คือการใช้เสียงสังเคราะห์อ่านข้อความที่ถูกเลือกหรือกำหนดไว้โดยผู้ใช้ ซึ่ง Google เองได้พยายามพัฒนาระบบดังกล่าวเพื่อให้สามารถใช้งานได้กับระบบปฏิบัติการ Android แต่ผู้ผลิตอุปกรณ์ Android หลายค่ายกลับเลือกที่จะตัดระบบนี้ออกไปจากผลิตภัณฑ์ที่วางจำหน่ายจริง

ด้วยเหตุนี้ Google จึงพิจารณาทำแอพสำหรับระบบการอ่านออกเสียงนี้ออกมาต่างหากและเปิดให้ผู้ใช้สามารถดาวน์โหลดแอพดังกล่าวได้โดยตรงจาก Google Play

Tags:
Node Thumbnail

เกิดเรื่องฮา ๆ ขึ้นได้อย่างไรก็ไม่รู้ เมื่อเอนจิน text-to-speech ของกูเกิลเพี้ยน ทำให้ทั้ง Google Now และ Google Translate พูดคำว่า "He now praises the iPad" หรือ "เขายกย่อง iPad" ในประโยคที่มีคำเหล่านี้: end with, enraged with และ filled with

เรื่องเกิดตั้งแต่เดือนตุลาคมปี 2012 มีคนแจ้งปัญหานี้ในหน้า Android support ของกูเกิล แต่ทาง Hacker News เพิ่งจะไปขุดและเขียนข่าวขึ้นมาจนเป็นประเด็น

Tags:
Node Thumbnail

ความหวังในการใช้งานโทรศัพท์มือถือ Android สำหรับคนตาบอด (โดยเฉพาะในประเทศไทย) เริ่มเห็นแววอีกครั้ง เมื่อ NECTEC ประกาศเปิดให้บุคคลทั่วไปได้ทดสอบ Vaja Android

ในปัจจุบันนี้ระบบปฏิบัติการบนมือถือเกือบทุกค่ายล้วนมีโปรแกรมอ่านหน้าจอ (screen reader) ซึ่งมักจะถูกใส่ไว้ในส่วนช่วยเหลือผู้พิการ (Accessibility) ตัวอย่างเช่น VoiceOver บน iOS แต่มีเพียง screen Reader บน Symbian (3RD party software) และ VoiceOver ของ iOS เท่านั้นที่มีเสียงอ่าน TTS ในภาษาไทย ดังนั้นตัวเลือกของคนตาบอดในประเทศไทยในการซื้อสมาร์ทโฟนจึงมีอยู่ค่อนข้างจำกัด

Tags:
Node Thumbnail

เมื่อเดือนที่แล้วกูเกิลได้เผยความสามารถใหม่ของ Google Translate หนึ่งในลูกเล่นใหม่เหล่านั้นมีฟังค์ชั่น text-to-speech อย่างง่ายๆ อยู่ด้วย คุณสามารถลองดูได้ หรือดูวีดิโอนี้ว่ามันทำงานอย่างไร (ที่ 0:45 นาที)

ยังไม่มีการเปิดตัวบริการ API Text-to-speech อย่างเป็นทางการ แต่ทีมงานของ TechCrunch ได้สังเกตว่าใครๆ ก็สามารถเข้าถึงบริการนี้ได้ในแบบที่กูเกิลทำ โดยดูจากหน้า Firebug ที่มีการส่งข้อมูล TTS มา, สังเกตได้ว่าเสียงพูดนั้นส่งมาเป็น MP3 โดยคิวรี่ผ่านคำสั่ง HTTP GET (REST) ง่ายๆ ดังนี้

Pages