Tags:
Node Thumbnail

Amazon ประกาศเพิ่มฟีเจอร์ใหม่ให้ Polly บริการแปลงข้อความเป็นเสียงหรือ Text-To-Speech สองอย่าง คือระบบเสียงแบบ Neural Text-To-Speech และสไตล์การพูดแบบพูดประกาศข่าว

สิ่งแรกคือ Neural Text-To-Speech โดย Amazon ได้นำ machine learning มาเพิ่มคุณภาพให้เสียงสังเคราะห์ ทำให้เสียงรูปแบบใหม่ฟังดูเป็นธรรมชาติและใกล้เคียงกับเสียงของมุษย์มากยิ่งขึ้น

ตอนนี้ Neural Text-To-Speech รองรับ 11 เสียง ทั้งในรูปแบบเรียลไทม์และ batch ได้แก่

Tags:
Node Thumbnail

Sony ประกาศปรับปรุงฟีเจอร์ Party ของ PS4 โดยขยายจำนวนสมาชิกสูงสุดในปาร์ตี้จาก 8 คนเป็น 16 คน, ปรับปรุงเรื่องคุณภาพเสียงของ voice chat และปรับปรุงการเชื่อมต่อกับเครือข่าย

นอกจากนี้ Sony ยังทดสอบฟีเจอร์ chat transcription หรือแปลงเสียงพูดเป็นข้อความ รวมถึงอ่านข้อความออกมาเป็นเสียงพูดให้เพื่อนร่วมปาร์ตี้คนอื่นๆ ฟังโดยอัตโนมัติ (ยังรองรับเฉพาะภาษาอังกฤษ) ซึ่งใช้ได้กับทั้ง Party ของ PS4 และแอพ PS4 Second Screen บนสมาร์ทโฟน

Sony เปิดทดสอบฟีเจอร์ Party เวอร์ชันใหม่ให้กับผู้สมัครเข้าโครงการ PS4 System Software Beta แล้ว โดยยังไม่ระบุว่าจะออกเวอร์ชันจริงเมื่อไร

Tags:
Node Thumbnail

ทีมวิจัยร่วมระหว่างไมโครซอฟท์และมหาวิทยาลัยเจ้อเจียง (Zhejiang University) รายงานความสำเร็จในการออกแบบปัญญาประดิษฐ์ที่สามารถแปลงข้อความเป็นเสียงพูด (text-to-speech - TTS) และแปลงเสียงพูดเป็นข้อความ (automatic speech recognition - ASR) โดยใช้ข้อมูลปริมาณน้อยมาก คิดเป็นเสียงพูดประมาณ 20 นาทีเท่านั้น แต่ยังความแม่นยำของการสร้างเสียงพูดที่ฟังออก (intelligible rate) สูงถึง 99.84%

Tags:
Node Thumbnail

DeepMind นำเสนองานวิจัย WaveNet โมเดลปัญญาประดิษฐ์ deep learning สำหรับสร้างเสียงพูดและเสียงดนตรีมาตั้งแต่ปี 2016 และนำมาใช้กับ Google Assistant เมื่อปีที่แล้ว ตอนนี้มันก็กลายเป็นสินค้าบน Google Cloud Platform แล้ว แต่ยังไม่รองรับภาษาไทย

กูเกิลระบุว่ามีจำนวนเสียงให้เลือกกว่า 30 เสียงแล้วแต่ภาษา เช่น ภาษาอังกฤษแบบสหรัฐฯ มี 6 เสียง บริการรองรับภาษา SSML (Speech Synthesis Markup Language) สำหรับการกำหนดจังหวะหายใจ การเน้นเสียง หรือการปรับความเร็วในบางช่วง เพื่อความสมจริงยิ่งขึ้นด้วย

Tags:
Node Thumbnail

เรื่องเสียงพูดจากคอมพิวเตอร์ก็เป็นอีกประเด็นที่หลายเจ้าพยายามทำให้เหมือนเสียงมนุษย์มากที่สุด ล่าสุดวิศวกรของกูเกิลทีมหนึ่งได้ตีพิมพ์เอกสารนำเสนอระบบสร้างเสียงพูดตัวใหม่ในชื่อ Tacotron 2 ที่ฟังแล้วแยกแทบไม่ออกว่าเป็นเสียงมนุษย์หรือเสียงจากระบบนี้

Tacotron 2 จะสร้าง spectrogram หรือรูปที่แสดงให้เห็นว่าคำพูดควรจะมีเสียงอย่างไร แล้วเอารูปนี้ไปผ่านอัลกอริทึม WaveNet ของกูเกิลเอง ทำให้ได้เสียงพูดที่เหมือนมนุษย์มาก

นักวิจัยระบุว่าเสียงพูดจาก Tacotron 2 ได้คะแนน Mean Opinion Score (MOS) ที่ 4.53 ในขณะที่เสียงพูดของมนุษย์ที่อัดมาอย่างดีได้คะแนน 4.58 โดย MOS คือคะแนนที่วัดว่าเสียงใดๆ มีความเป็นธรรมชาติแค่ไหน

Tags:
Node Thumbnail

งานวิจัยชื่อ My Text in Your Handwriting จาก University College London สามารถเรียนรู้รูปแบบลายมือการเขียนข้อความของคนจนสามารถแยกแยะข้อความของคนอื่นที่พยายามเลียนแบบเพื่อปลอมลายมือนั้นได้ และที่สำคัญตัวโปรแกรมเองสามารถสังเคราะห์ข้อความที่กำหนดขึ้นมาโดยใช้ลายมือดังกล่าวได้เองด้วย

My Text in Your Handwriting มีการพัฒนาอัลกอริทึมแบบอาศัย machine learning ซึ่งทำงานเน้นการวิเคราะห์ภาพสัญลักษณ์ต่างๆ โดยอิงจากเอกลักษณ์เฉพาะในลายมือของแต่ละคนที่แตกต่างกันไป ทั้งการจัดเรียงตัวอักษร, การจัดเว้นช่องว่าง, ความต่อเนื่องของการลากเส้นเขียน, รูปร่างและรูปทรงของตัวอักขระต่างๆ ตลอดจนการลงน้ำหนักเส้น

Tags:
Node Thumbnail

หลังจากสี่ปีก่อนที่อเมซอนเปิดตัว Kindle Touch ซึ่งเป็นคินเดิลรุ่นสุดท้ายที่ยังมีฟีเจอร์อ่านออกเสียง นับแต่นั้นเป็นต้นมาอเมซอนก็เดินหน้าตัดช่องเสียบหูฟัง ตัดลำโพงออก และตัดฟีเจอร์อ่านออกเสียงออก (Text-to-Speech) หลังจากนั้นก็เดินหน้าขายหนังสือเสียงผ่าน Audible เต็มที่ ทำให้ผู้ที่มีปัญหาทางสายตาไม่มีทางเลือกมากนักในการใช้งานอุปกรณ์คินเดิล

Tags:
Node Thumbnail

ลำโพงอัจฉริยะ Amazon Echo ได้ฟีเจอร์ใหม่ชื่อ Kindle Books by Alexa ให้ผู้ช่วยส่วนตัว Alexa อ่านหนังสือในระบบ Kindle ให้เราฟังได้ด้วย

Alexa จะอ่านอีบุ๊กในไลบรารี Kindle ของเราโดยใช้เทคโนโลยี text-to-speech แบบเดียวกับที่ใช้อ่านบทความและข่าวให้เราฟัง แต่น่าเสียดายว่ายังไม่สามารถฟัง audiobook จากระบบ Audible ได้ ความสามารถก็ยังถือว่าจำกัดอยู่บ้างครับ

ที่มา - Amazon, ZDNet

Tags:
Node Thumbnail

กูเกิลรายงานถึงโครงการวิจัย Unison เป็นโครงการเพื่อการเก็บข้อมูลพัฒนาระบบออกเสียงจากข้อความ (text-to-speech - TTS) จากภาษาที่มีข้อมูลน้อย (low resource languages) โดยเลือกภาษาบังคลาเทศ และใช้อาสาสมัครที่เป็นพนักงานของกูเกิลเองมาช่วยพูดให้เสียง

ทางโครงการพัฒนาเครื่องมือที่ชื่อว่า ChitChat เป็นเว็บแอพที่บันทึกเสียงตามข้อความที่กำหนด สำรวจเสียง, รบกวนในห้อง, และเล่นไฟล์ที่บันทึกไปแล้ว อุปกรณ์ทั้งชุดมีราคาไม่ถึง 2,000 ดอลลาร์ ส่วนประโยคที่ต้องอ่าน ใช้เวลาบันทึกเสียงทั้งหมด 3 วัน บันทึกครั้งละ 250 ประโยค แต่ละครั้งใช้เวลา 30-60 นาที รวมทั้งหมด 2000 ข้อความ โดยเลือกข้อความจากการวิเคราะห์ฐานข้อมูล Wikipedia

Tags:
Node Thumbnail

ก่อนหน้านี้เราเคยมี Vaja และ Vocalizer ซึ่งเป็นแอพพลิเคชัน Text to Speech บนระบบปฏิบัติการแอนดรอยด์ ซึ่งมีเสียงอ่านในภาษาไทย ล่าสุด Google ก็ได้เพิ่มความสามารถนี้ให้ชาวไทยแล้วเช่นกัน 

โดยในการอัพเดตล่าสุด แอพ Google Text to Speech เวอร์ชัน 3.56.2080558 ได้เพิ่มการรองรับการอ่านในภาษาต่างๆ อีกกว่า 6 ภาษา ได้แก่ Cantonese (Hong Kong), Chinese (China), Hindi (India), Indonesian (Indonesia), Thai (Thailand) และ Turkey (Turkish)

Tags:
Node Thumbnail

เมื่อเกือบปีที่ผ่านมา ทาง Code Factory ได้ปล่อย เสียง Eloquence ซึ่งเป็นเสียง Text to Speech (TTS) ยอดนิยม สำหรับระบบปฏิบัติการ Android ออกมาให้เราได้ใช้งานกัน แต่เนื่องจากเสียง Eloquence นั้นเป็น TTS สำหรับภาษาอังกฤษ คนไทยเราอาจจะใช้งานได้ไม่สะดวกนัก แต่ล่าสุด ทาง Code Factory ได้ปล่อยเสียง TTS ตัวล่าสุดออกมาให้เราได้ใช้งานกัน ซึ่งก็คือ Vocalizer นั่นเอง

Tags:

ที่ผ่านมา หลายบริษัทได้ขยับตัวไปเล่นในตลาดเทคโนโลยีทางด้านเสียงมากขึ้น อย่างการนำไปประยุกต์เป็น voice input/output ในสมาร์ทโฟน หรือการประยุกต์ใช้กับอุปกรณ์ไฟฟ้าภายในบ้าน ด้วยความที่ผมสนใจในเรื่องพวกนี้อยู่พอสมควร แล้วก็มีโอกาสได้เห็นการสาธิตโปรแกรม VAJA ของ สวทช. ในงาน Microsoft Innovation Days จึงได้นัดสัมภาษณ์ ดร. ชัย วุฒิวิวัฒน์ชัย ผู้อำนวยการหน่วยวิจัยวิทยาการสารสนเทศแห่ง NECTEC บุคคลหนึ่งที่เป็นผู้อยู่เบื้องหลังของโปรแกรมนี้เกี่ยวกับแนวคิดและความเป็นมาในการวิจัยและพัฒนาโปรแกรม

Tags:
Node Thumbnail

เสียงสังเคราะห์อย่าง ETI-Eloquence นี้สำหรับคนตาบอดที่ใช้โปรแกรมอ่านจอภาพคงจะคุ้นเคยกันเป็นอย่างดี เนื่องจากเสียงนี้ได้ถูกใช้เป็นค่าปริยายบนโปรแกรมอ่านจอภาพยอดนิยมอย่าง [Jaws for Windows](http://www.freedomscientific.com/products/fs/jaws-product-page.asp) ดังนั้นถึงแม้ว่าเจ้า Eloquence TTS ตัวนี้อาจจะไม่ใช่เสียงที่มีความชัดหรือเป็นธรรมชาติที่สุด แต่ด้วยความคุ้นเคย หลายคนก็อาจจะรอคอย TTS ตัวนี้ให้สามารถใช้งานบนระบบปฏิบัติการอื่นๆ นอกจากบนวินโดส์ได้อยู่เหมือนกัน

Tags:
Node Thumbnail

กูเกิลอัพเดต Google Text-to-speech Engine บน Android เวอร์ชัน 3.0 โดยการเปลี่ยนแปลงที่สำคัญคือเพิ่ม "เสียงพูดคุณภาพสูง" ที่ฟังดูเป็นมนุษย์มากขึ้น ไฟล์เสียงภาษาอังกฤษมีขนาด 244MB (ของเดิม 6.8MB) มีให้เลือกดาวน์โหลดทั้งสำเนียงแบบบริติชและอเมริกัน (ดาวน์โหลดแยกเองในหน้า Settings > Language & input > Text-to-speech)

นอกจากนี้กูเกิลยังปรับ UI ใหม่ให้บริหารจัดการไฟล์เสียงได้ง่ายขึ้น และเพิ่มเสียงพูดในภาษาโปรตุเกสสำเนียงบราซิล กับสเปนสำเนียงอเมริกัน เข้ามาด้วย

Tags:
Node Thumbnail

Google นำระบบการอ่านออกเสียงของ Android มาทำเป็นแอพ Google Text-to-Speech ให้ดาวน์โหลดได้โดยตรงผ่านทาง Google Play

ระบบการอ่านออกเสียงหรือที่เรียกโดยทั่วไปว่า TTS (Text To Speech) นี้ คือการใช้เสียงสังเคราะห์อ่านข้อความที่ถูกเลือกหรือกำหนดไว้โดยผู้ใช้ ซึ่ง Google เองได้พยายามพัฒนาระบบดังกล่าวเพื่อให้สามารถใช้งานได้กับระบบปฏิบัติการ Android แต่ผู้ผลิตอุปกรณ์ Android หลายค่ายกลับเลือกที่จะตัดระบบนี้ออกไปจากผลิตภัณฑ์ที่วางจำหน่ายจริง

ด้วยเหตุนี้ Google จึงพิจารณาทำแอพสำหรับระบบการอ่านออกเสียงนี้ออกมาต่างหากและเปิดให้ผู้ใช้สามารถดาวน์โหลดแอพดังกล่าวได้โดยตรงจาก Google Play

Tags:
Node Thumbnail

เกิดเรื่องฮา ๆ ขึ้นได้อย่างไรก็ไม่รู้ เมื่อเอนจิน text-to-speech ของกูเกิลเพี้ยน ทำให้ทั้ง Google Now และ Google Translate พูดคำว่า "He now praises the iPad" หรือ "เขายกย่อง iPad" ในประโยคที่มีคำเหล่านี้: end with, enraged with และ filled with

เรื่องเกิดตั้งแต่เดือนตุลาคมปี 2012 มีคนแจ้งปัญหานี้ในหน้า Android support ของกูเกิล แต่ทาง Hacker News เพิ่งจะไปขุดและเขียนข่าวขึ้นมาจนเป็นประเด็น

Tags:
Node Thumbnail

ความหวังในการใช้งานโทรศัพท์มือถือ Android สำหรับคนตาบอด (โดยเฉพาะในประเทศไทย) เริ่มเห็นแววอีกครั้ง เมื่อ NECTEC ประกาศเปิดให้บุคคลทั่วไปได้ทดสอบ Vaja Android

ในปัจจุบันนี้ระบบปฏิบัติการบนมือถือเกือบทุกค่ายล้วนมีโปรแกรมอ่านหน้าจอ (screen reader) ซึ่งมักจะถูกใส่ไว้ในส่วนช่วยเหลือผู้พิการ (Accessibility) ตัวอย่างเช่น VoiceOver บน iOS แต่มีเพียง screen Reader บน Symbian (3RD party software) และ VoiceOver ของ iOS เท่านั้นที่มีเสียงอ่าน TTS ในภาษาไทย ดังนั้นตัวเลือกของคนตาบอดในประเทศไทยในการซื้อสมาร์ทโฟนจึงมีอยู่ค่อนข้างจำกัด

Tags:
Node Thumbnail

เมื่อเดือนที่แล้วกูเกิลได้เผยความสามารถใหม่ของ Google Translate หนึ่งในลูกเล่นใหม่เหล่านั้นมีฟังค์ชั่น text-to-speech อย่างง่ายๆ อยู่ด้วย คุณสามารถลองดูได้ หรือดูวีดิโอนี้ว่ามันทำงานอย่างไร (ที่ 0:45 นาที)

ยังไม่มีการเปิดตัวบริการ API Text-to-speech อย่างเป็นทางการ แต่ทีมงานของ TechCrunch ได้สังเกตว่าใครๆ ก็สามารถเข้าถึงบริการนี้ได้ในแบบที่กูเกิลทำ โดยดูจากหน้า Firebug ที่มีการส่งข้อมูล TTS มา, สังเกตได้ว่าเสียงพูดนั้นส่งมาเป็น MP3 โดยคิวรี่ผ่านคำสั่ง HTTP GET (REST) ง่ายๆ ดังนี้

Tags:
Node Thumbnail

Paul Aiken ผู้อำนวยการบริหารของสมาคมนักเขียนให้สัมภาษณ์กับ Wall Street Journal ว่าการใช้คุณสมบัติการอ่านออกเสียงโดยซอฟท์แวร์ (Text-to-Speech) เป็นเรื่องผิดกฏหมาย ทั้งในแง่ลอกเลียนแบบจากหนังสือที่ืมีลิขสิทธิ์ ในแบบ Audio Book และการเผยแพร่เนื้อหาสู่สาธารณชน

"พวกมัน(Text-to-Speech)ไม่มีสิทธิ์อ่านออกเสียง" Paul Aiken กล่าว
"มันเป็นเสียงที่ลอกแบบมาจากหนังสือที่มีลิขสิทธิ์คุ้มครอง"

โดยเฉพาะ Kindle 2 ที่จะออกในเร็ววันนี้

ทางโฆษกของ Amazon ก็ออกมาตอบโต้ว่าคุณลักษณะการอ่านขึ้นอยู่กับเทคโนโลยีของ Text-to-Speech และผู้อ่านจะไม่สับสนกับการฟังจาก Audio Book

ก็ว่ากันไปครับ ต่างคนต่างมุม