Tags:

ที่ผ่านมา หลายบริษัทได้ขยับตัวไปเล่นในตลาดเทคโนโลยีทางด้านเสียงมากขึ้น อย่างการนำไปประยุกต์เป็น voice input/output ในสมาร์ทโฟน หรือการประยุกต์ใช้กับอุปกรณ์ไฟฟ้าภายในบ้าน ด้วยความที่ผมสนใจในเรื่องพวกนี้อยู่พอสมควร แล้วก็มีโอกาสได้เห็นการสาธิตโปรแกรม VAJA ของ สวทช. ในงาน Microsoft Innovation Days จึงได้นัดสัมภาษณ์ ดร. ชัย วุฒิวิวัฒน์ชัย ผู้อำนวยการหน่วยวิจัยวิทยาการสารสนเทศแห่ง NECTEC บุคคลหนึ่งที่เป็นผู้อยู่เบื้องหลังของโปรแกรมนี้เกี่ยวกับแนวคิดและความเป็นมาในการวิจัยและพัฒนาโปรแกรม

เท้าความก่อนว่าโปรแกรม text-to-speech คือโปรแกรมแปลงข้อความให้กลายเป็นเสียง ตัวอย่างเช่น ฟังก์ชันอ่านข้อความของ Google Translate, Vocalizer ของ Nuance, SVOX ของ SVOX Mobile Voices เป็นต้น ส่วนโปรแกรม VAJA คือโปรแกรม text-to-speech ที่พัฒนาโดย NECTEC และมีให้ดาวน์โหลดเอาไปใช้งานใน Google Play ปัจจุบันคือเวอร์ชัน 7

No Description

Blognone: รบกวนแนะนำตัวเองหน่อยครับ

สวัสดีครับ ผม ดร.ชัย วุฒิวิวัฒน์ชัย ครับ จบปริญญาโทจากจุฬาฯ ทางด้าน Digital Signal Processing มีความสนใจในเรื่อง speech processing มีอยู่ช่วงนึงผมเรียนวิชา Pattern Recognition ซึ่งเป็นวิชาประมาณว่าจำลายมือ จำหน้าคน จำเสียง ผมรู้สึกตื่นเต้นมากเลยว่า เฮ้ย! คอมพิวเตอร์มันฉลาดได้ขนาดนี้ ก็เลยไปปรึกษาอาจารย์ที่เป็น supervisor อาจารย์ท่านก็แนะนำให้ทำโปรเจคทางด้านการจำเสียง ทำไปทำมาก็รู้สึกชอบ ก็เลยไปต่อเอกที่ Tokyo Institute of Technology กับ Prof.Dr. Sadaoki Furui ซึ่งเค้าทำทางด้านนี้โดยตรง

พอเรียนจบกลับมาก็ยังคงมีความใฝ่ฝันเหมือนเดิม ก็คือว่า speech technology ของไทยมันเพิ่งจะเกิดก็อยากจะมาสร้างสรรค์ต่อ ก็มีแต่ NECTEC แหละครับที่ให้ความสนใจ เลยมาทำงานที่นี่ ตั้งแต่เป็นนักวิจัยทางด้าน speech processing มาเป็นหัวหน้างานทางด้านทีม speech แล้วก็มาเป็นหัวหน้าแล็บทางด้าน language technology และตอนนี้เมื่อประมาณปีที่ผ่านมาผมก็ขึ้นมาดูแลเรื่องของ information technology ใน NECTEC เราเป็นฮาร์ดคอร์ในงานวิจัยทางด้าน information technology มีอยู่ 70 กว่าคน ทำ speech processing, image processing, text processing แล้วก็มาทำพวก digital media

Blognone: อยากให้ ดร. แนะนำโครงการ VAJA หน่อยครับ

โครงการ VAJA เริ่มวิจัยครั้งแรกตอนปี 1997 ออกเวอร์ชัน 1 ตอนปี 1999 ทีมที่ทำ VAJA เริ่มต้นจากนักวิจัยเพียงคนเดียว คือ ดร.ประดิษฐ์ มิตราปิยานุรักษ์ พอเวอร์ชัน 2 มีนักวิจัยเพิ่มขึ้นและก็เป็นเวอร์ชันแรกที่สังคมเริ่มเห็น เพราะว่าเราออกไปทดลองใช้งานกับวิทยาลัยราชสุดาภายใต้คำแนะนำของ ศ.ดร.ไพรัช ธัชยพงษ์ (ผู้ก่อตั้ง NECTEC) ท่านอยากจะให้เริ่มทำโครงการ VAJA ก็เพราะว่าอยากจะให้คนพิการได้มีทางเลือก

ช่วงที่ออกเป็นเวอร์ชัน 3 มีการเปลี่ยนแปลงค่อนข้างเยอะ เสียง smooth ขึ้น แต่ก็ยังเป็นหุ่นยนต์แข็งๆ อยู่ คนพิการรู้สึกดีใจว่าเออได้เริ่มใช้ แต่ว่าเทคโนโลยี portable device สมัยนั้นผมว่ายังไม่สามารถรันโปรแกรมเหล่านี้ได้ เรายังใช้พีซีกันอยู่ โน้ตบุ๊คยังไม่ค่อยมี แต่อาจารย์ไพรัชท่านบอกว่า ต้องทำให้ได้เป็น portable เลยนะ ไม่งั้นคนเค้าจะเอาไปใช้กันยังไง โอ้โห! สมัยนั้นจะเอา portable device ที่่รัน text-to-speech นี่นะ ผมคิดไม่ออกเลยจริงๆ แล้วเราก็ไม่ใช่ประเทศที่เป็น manufacturing เราไม่ได้สร้าง device เองได้ เราก็ต้องมานั่งรอ โซนี่เมื่อไหร่จะออก โตชิบ้าเมื่อไหร่จะมีโมเดลใหม่

พอช่วงหลังๆ ซอฟต์แวร์ก็ค่อยๆ เล็กลง ใช้ทรัพยากรน้อยลง ตัวฮาร์ดแวร์ค่อยๆ ดีขึ้น จนกระทั่งมีสมาร์ทโฟนเข้ามาตีตลาดตอนปี 2010 ผมจำได้ว่าตอนนั้นออกเวอร์ชัน 6 ก็พัฒนาซอฟต์แวร์ให้มีขนาดเล็ก แล้วก็เสียงที่ออกมา smooth ราบเรียบขึ้น ผมเรียกว่าดีมากๆ เลย ตอนนั้นเอาไปออกงานก็ปรากฏว่ามีคนติดต่อนำไปใช้จริงครับ ASTV ใช้ ไทยรัฐใช้ โรงพยาบาลใช้ในการเรียกคิวคนไข้ บริษัทหลายๆ แห่งใช้ใน call center แต่สุดท้ายก็ยังรันบน portable device ไม่ได้นะ เพิ่งจะพัฒนาให้มาลงใน Android ได้ตอนปี 2012 ซึ่งตอนนั้นผมก็ถือว่าบรรลุเป้าหมายในเชิงวิจัยแล้ว

แล้ววิธีขายเป็นยังไง ตอนนี้ก็ขึ้น Google Play มีภาคเอกชนที่มารับ license ไปดูแลในเรื่องของการทำ service ดูแลในเรื่องของการจัดการ payment ราคาก็ไม่แพงมากเมื่อเทียบกับของต่างชาติ สามารถให้มันอ่านข้อความที่มีภาษาไทยและอังกฤษปนกันได้ แล้วเท่าที่ผมรู้ในตอนนี้ก็น่าจะเป็นเจ้าเดียวในไทยที่ยังมีการพัฒนาอย่างต่อเนื่องมาเป็นเวลายาวนาน

Blognone: บทบาทที่สำคัญของทีมวิจัยของ ดร. ที่ผ่านมาคืออะไร

ผมคิดว่าเราเป็นซอฟต์แวร์ทางเลือกให้กับลูกค้า คือผมก็ไม่ได้คิดว่าเราจะเป็นผู้นำในตลาดนะ เป็นผู้นำก็ดี แต่ว่าการเป็นซอฟต์แวร์ทางเลือกก็ไม่ได้หมายความว่าเราไปต่อสู้กับเอกชนนะครับ ถ้าเอกชนไทยทำได้ก็ดีครับเราสนับสนุน แต่ถ้าเค้าไปใช้ของเอกชนต่างชาติแล้วถูกบีบด้วยราคา มันก็ควรจะมีภาครัฐที่เข้ามาช่วยเหลือเรื่องนี้

ตัวอย่างหนึ่งที่ผมเห็นได้ชัดก็คือ ความสำเร็จของ VAJA ผมเชื่อว่าทำให้หลายๆ หน่วยงานที่จะหันไปใช้ text-to-speech เค้ามีทางเลือก ในเมื่อมีทางเลือก มีคู่แข่งในตลาดมากๆ มันสามารถทำให้ราคาลดลงให้เหมาะสมกับประเทศไทยได้ แล้วตลาดใหญ่ๆ เช่น ผู้พิการ มีความจำเป็นมากในการใช้ text-to-speech เพราะไม่กี่ปีที่ผ่านมาเค้าก็ยังใช้ text-to-speech ที่เป็นภาษาอังกฤษล้วนๆ อยู่

ผมพยายามสังเกตนะว่าเทคโนโลยีที่ต่างชาติทำอยู่แล้ว เวลามีหน่วยงานในประเทศไทยต้องการใช้ เค้าเอามาใช้ไม่ค่อยได้เพราะว่ามันจะติดอยู่บนเทคโนโลยีของเค้าเท่านั้น อย่างถ้าเกิดว่าเค้าทำอยู่แล้วบน iOS 8 แล้วเราใช้ iPhone เราก็สามารถใช้มันได้ ผมถามว่าวันใดวันหนึ่ง ผมจะเอามาใช้ในการถอดความในการประชุมรัฐสภา เราต้องทำยังไง เราต้องซื้อ iPhone แจกทุกท่านหรือเปล่า ถ้าจะมาปรับใช้กับงานเฉพาะด้าน เค้าจะทำหรือไม่ อันนี้คือสิ่งที่ประเทศไทยเองหรือแม้แต่ประเทศใดๆ ก็แล้วแต่ที่มีภาษาของตัวเองควรจะต้องตระหนักไว้นะ เพราะเราจะรอให้เทคโนโลยีเกิดขึ้นจากคนต่างชาติเป็นคนกำหนดหรือเปล่า ผมก็มีความคิดเรื่องแบบนี้เยอะ

Blognone: ภาษาไทยมีความยากง่ายต่างจากภาษาอังกฤษอย่างไรในแง่ของการพัฒนา

เอาแบบง่ายๆ คืออย่างนี้ text-to-speech จะแบ่งออกเป็น 3 ส่วน คือ

  1. ส่วนวิเคราะห์ข้อความ
  2. ส่วนทำนายอารมณ์ ทำนอง ความดังที่ควรจะเป็น เราเรียกว่า prosody
  3. ส่วนที่ generate เสียง

ส่วนวิเคราะห์ข้อความนั่นก็หมายความว่ามีข้อความเข้ามาก็ต้องตัดคำ ตัดให้ถูกนะ ตากลมต้องตาก-ลมนะ ไม่ใช่ตา-กลมอะไรอย่างนี้ พอตัดคำเสร็จปุ๊บต้องหาหน้าที่ของคำว่าอันนี้เป็นประธาน อันนี้เป็นกริยา อันนี้เป็นอะไร เก็บไว้ก่อน เสร็จแล้วก็เปลี่ยนให้เป็นสัญลักษณ์แทนเสียงเหมือนคาราโอเกะครับ ตรงนี้ก็ต้องอาศัยหน้าที่ของคำในการวิเคราะห์ว่าควรจะอ่านว่าอะไร อย่างสระ (สะ) กับสระ (สะ-หระ) มันก็ขึ้นอยู่กับว่าบริบทข้างๆ เป็นอะไร พอเราวิเคราะห์ตรงนั้นได้แล้ว เอาพวกนี้โยนใส่ส่วนวิเคราะห์ prosody เพื่อที่จะบอกว่า ถ้าอย่างนั้นคุณควรจะให้เสียงดังตรงบริเวณพยางค์นี้นะ เสียงนี้สูงหน่อย ตรงนี้เว้นวรรคด้วย เป็นต้น สุดท้ายเอาตัวทั้งหมดเนี้ยโยนไปให้ตัว generate เสียงให้ทำได้ตามนั้น

เรารู้เลยว่าสองส่วนแรกแตกต่างกันมาก ทุกภาษาจะไม่เหมือนกัน ก็คือว่าถ้าจะวิเคราะห์ข้อความภาษาไทยต้องตัดคำ ภาษาอังกฤษไม่ต้อง ถ้าจะวิเคราะห์ว่าคำนี้อ่านว่าอะไร ภาษาไทยมีความกำกวม ภาษาอังกฤษก็มี แต่ละภาษามีวิธีการแยกแยะความกำกวมที่ต่างกัน ส่วนการตัดประโยค ภาษาไทยก็โหดร้ายมากไม่มีการตัดประโยคอีก คือเราตัดประโยคเพื่อที่จะบอกว่าตรงนี้สามารถหยุดยาวๆ ได้ไม่ต้องมาเกี่ยวกัน เพราะฉะนั้นเวลาเราเลือกช่วงที่หยุดก็ต้องเลือกให้ถูกที่ ถ้าเลือกไม่ถูกที่เวลาพูดก็พูดไม่รู้เรื่อง แต่ส่วนหลังจะเหมือนกันหมดก็คือตัว generate เสียง เพียงแต่บอก parameter ให้ครบมันก็ generate ได้หมด

Blognone: เรื่องที่ยากที่สุดในการพัฒนาแต่ละเวอร์ชันของ VAJA คืออะไร

ผมว่ามุมมองของแต่ละคนต่างกันนะ ถ้ามุมมองของผู้ใช้ผมว่า response time เป็นเรื่องใหญ่มาก text-to-speech กดปุ๊บต้องออก เพราะว่าเค้าใช้บน mobile ไงครับ เค้าไม่รอ เพราะงั้น response time เป็นเรื่องใหญ่ แต่ถ้ามุมมองของนักวิจัย ผมคิดว่าเค้าพยายามที่จะแก้ไขในเรื่องของคุณภาพเสียงที่ยังดูไม่เป็นธรรมชาติ ทุกวันนี้ VAJA ยังมีเพี้ยนอยู่บ้าง โดยเฉพาะโทนเพี้ยน เพราะว่ามันทำนายได้ไม่ดีพอ สาเหตุที่มันทำนายได้ไม่ดีพอก็เพราะว่าตัวอย่างข้อมูลไม่เยอะพอ แล้วตัวอย่างข้อมูลทำไมไม่เยอะ จริงๆ ตัวอย่างเสียงมีให้เห็นอยู่เยอะแยะ แต่ข้อมูลที่จะเอามาใช้ในการสอนให้มันเรียนรู้ต้องผ่าน process เยอะครับ ต้องลงทุนเยอะ แล้วเราก็มีฐานข้อมูลที่ลงทุนพัฒนาไปแล้วก็ใช้อยู่สูงสุดก็ประมาณ 15 ชั่วโมงซึ่งต้องลงทุนเป็นล้าน

Blognone: สมมติว่า VAJA ที่เป็นอุดมคติคือ 100% เทียบกับโปรเจคที่ทำอยู่ ณ ตอนนี้คิดเป็นกี่เปอร์เซ็นต์แล้วครับ

Text-to-speech ที่ดีจะต้องสามารถพูดได้อย่างที่ผมพูด คือดูบริบทว่ากำลังคุยกับใคร อยู่ในเนื้อหาอะไร สภาพแวดล้อมเป็นอะไร ถ้าอยู่ในสถานบันเทิงผมต้องพูดอีกแบบหนึ่ง ถ้าอยู่ในออฟฟิศผมก็พูดอีกแบบนึง ถ้าผมพูดกับน้องผมพูดอีกแบบนึง พูดกับอาจารย์ ผู้บริหาร ผมพูดอีกแบบนึง เนื้อหาที่ผมพูดเป็นเรื่องขำขันหรือเป็นเรื่องซีเรียส ต่างกันหมดเลย VAJA สุดท้ายต้องทำได้อย่างนั้นนะ ถ้าผมถามว่าแล้วถ้าอย่างนั้นตอนนี้มันได้ซักเท่าไหร่ ผมว่ายังไม่ถึง 30% เพราะตอนนี้มันทำได้แต่อ่านข่าวครับ เพราะฉะนั้นยังห่างไกลอีกมาก text-to-speech ของชาวต่างชาติก็ยังห่างไกลเช่นกัน

Blognone: จะมีอะไรใหม่ใน VAJA เวอร์ชัน 8 ครับ

ผมอยากให้ VAJA สามารถสร้างเสียงคนได้ด้วยราคาที่ถูก มีแพลตฟอร์มพร้อมสำหรับการสร้างเสียงใหม่ในเวลาอันสั้น แต่ก็ไม่แน่ใจว่าจะเสร็จเมื่อไหร่นะ เพราะงานวิจัยบางทีต้องลุ้นเหมือนกันว่าจะทำได้สำเร็จหรือไม่ ผมยอมรับว่าผมทำวิจัยเรื่องของการที่จะเพิ่มเสียงมา 2-3 ปีแล้วแต่ไม่สำเร็จ

Blognone: ถ้าเกิดว่าน้องๆ ที่มาอ่านอยากจะเติบโตขึ้นมาเป็นนักวิจัย ดร. จะแนะนำน้องเค้าอย่างไรครับ

คือผมว่าเราต้องมี passion แรงๆ สิ่งเหล่านี้มันเกิดขึ้นได้ด้วยน้ำมือเรา ถ้าเราคิดได้แบบนี้ที่เหลือก็คือเราหาแนวร่วม หางบประมาณ ทำกันเป็นทีมให้มีความเข้มแข็งในเทคโนโลยีเหล่านั้น

ผมบอกนักวิจัยใหม่ๆ ที่อยากจะเติบโตในสายนี้อีกทางหนึ่งก็คือ คุณไปทำงานกับบริษัทเอกชนต่างชาติเลยสิ เพราะถ้าในไทยเองยังไม่มีบริษัทที่ทำวิจัยแบบนี้ คุณก็ไม่มีทางเลือกต้องไปทำกับบริษัทต่างชาติ เปิดกันเยอะแยะเลยนะ เพราะว่าพอกูเกิลทำได้ แอปเปิลก็ต้องทำเค้าก็จ้างคนไทยไป มันมีอีกหลายบริษัทที่เค้ามีความจำเป็นต้องใช้เทคโนโลยีเหล่านี้ และเค้าจำเป็นต้องพัฒนาเอง จะไปคอยซื้อจากบริษัทอื่นไม่ได้ นี่เป็นทางที่ทำให้นักวิจัยหรือนักพัฒนากลุ่มนี้มี career path ในฐานะรัฐบาลหรือของ NECTEC ผมว่าต้องสร้าง infrastructure สร้าง career path ผมมีความหวังนะว่า SME หรือแม้แต่บริษัทยักษ์ใหญ่ในประเทศไทยจะทำวิจัยมากขึ้นเพื่อที่จะเป็น career path ให้กับน้องๆ ซึ่งตอนนี้ผมคิดว่าหลายๆ บริษัทเริ่มตื่นตัวในเรื่องของการสร้าง R&D ของตัวเองบ้างแล้ว

สิ่งที่น้องๆ ควรจะต้องสร้างสมตัวเองไว้ก็คือว่าก็ต้องกล้าทำอะไรที่มันยากๆ อย่าไปทำอะไรที่มันง่ายๆ นะ เช่น ใครๆ ก็เขียนเว็บลิงก์ database ได้ก็อย่าทำเลยครับ อยากเป็นนักวิจัยแบบนี้ต้องมีอาการแบบผมนี่ คือผมทำเพื่อที่วันสุดท้ายจะได้เอ็นโดรฟินหลั่ง คือมันมีความสุขมากเลยเราสามารถทำอันนี้ได้สำเร็จในสิ่งที่ยากๆ เราต้องเรียนรู้ในสิ่งที่ยากๆ เช่น ทุกวันนี้หาคนเขียน C C++ C# ลึกๆ ไม่ได้แล้ว หายากมาก ถ้าเขียน JAVA ก็เอาแบบเบื้องลึกให้สุดโต่ง เขียน Android ก็เอาประเภทที่แบบว่าเครื่องต้องแฮงค์เลย อย่าเขียนแต่แอพง่ายๆ มันไม่พัฒนาตัวเอง ทำแบบนั้นเอาไว้แล้วก็สั่งสมความรู้ตัวเองให้มากๆ รับรองว่ามีทั้งบริษัทข้ามชาติ บริษัทไทยและภาครัฐไทยอยากได้ตัวแน่นอน

ตัวอย่างเปรียบเทียบ voice output ของโปรแกรม VAJA ในแต่ละเวอร์ชันเมื่อให้โปรแกรมอ่านบทความดังต่อไปนี้

ข้อความที่ 1: “จากนี้ บาร์โค้ดหรือแถบรหัสสินค้าที่ติดอยู่บนหีบห่อ กำลังเข้าสู่ยุคแห่งการเปลี่ยนแปลง เพราะเนคเทคอยู่ระหว่างพัฒนาบาร์โค้ดแบบ 2 มิติ รองรับการบันทึกตัวอักษรได้มากกว่าบาร์โค้ดที่ใช้ทั่วไป 200 เท่า”

VAJA เวอร์ชัน 2

VAJA เวอร์ชัน 5

VAJA เวอร์ชัน 6

ข้อความที่ 2: “David Moyes เข้ามารับตำแหน่งกุนซือใหญ่แห่งถิ่น Old Trafford ต่อจาก Sir Alex Ferguson อดีตนายใหญ่โบราณวัตถุเมื่อช่วง summer ที่แล้ว”

VAJA เวอร์ชัน 6

VAJA เวอร์ชัน 7

Get latest news from Blognone

Comments

By: itpcc
ContributoriPhoneRed HatUbuntu
on 17 June 2014 - 15:42 #714074
itpcc's picture

ผมยังใช้ V.6 อยู่เลย
ไม่น่าเชื่อว่าผ่านไปไม่นาน ระบบก็พัฒนามาได้ไกลขนาดนี้แล้ว เห็นความแตกต่างอย่างชัดเจนระหว่าง V.6 กับ V.7 เลย
ปล. ตัวอย่างข้างหลังเปลี่ยนเป็นฟาลกัลเถอะครับ นึกถึงมอยส์แล้วมันช้ำใจ T___T
ปล 2. เรียกป๋าว่าโบราณวัตถุ ยอมไม่ได้ อ๊ากกก...
ปล 3. ถ้าเสียง V.8 คมชัดเหมือนหรือดีกว่า V.2 คงจะประเสริฐมาก


บล็อกส่วนตัวที่อัพเดตตามอารมณ์และความขยัน :P

By: Virusfowl
ContributorAndroidSymbianWindows
on 17 June 2014 - 16:17 #714092

ข้อมูลเสริมข่าวเก่าครับ [ไม่สิ้นหวังแล้ว! เมื่อ NECTEC เปิดให้ทดสอบ Vaja for Android (beta)](https://www.blognone.com/news/30027) #พื้นที่โฆษณา

และถ้าใครอยากเปรียบเทียบการอ่านของ Thai Text To Speech เท่าที่มีตอนนี้ เชิญชมได้จากคลิปนี้ครับ (สคริปต์แอบผิดนิดนึง)

ป.ล. เมื่อไหร่ Vaja for Android จะซื้อผ่าน Wallet ได้สักที จ่ายแบบ in app แบบปัจจุบันนี้ค่อนข้างไม่สะดวกเลยครับ ไหนจะคนที่เปลี่ยนเครื่องบ่อยๆ อีก ถ้าซื้อเครื่องใหม่ ก็ต้องจ่ายตังใหม่ :(


@ Virusfowl

I'm not a dev. not yet a user.

By: hisoft
ContributorWindows PhoneWindows
on 17 June 2014 - 17:04 #714122 Reply to:714092
hisoft's picture

ทำไมเสียงสุดท้ายแนะนำตัวว่าชื่อนาริสาล่ะครับ - -"

By: Virusfowl
ContributorAndroidSymbianWindows
on 17 June 2014 - 18:05 #714157 Reply to:714122

บอกแล้วไงครับว่าสคริปต์แอบมีผิดนิดนึง >-<


@ Virusfowl

I'm not a dev. not yet a user.

By: Kerberos
AndroidRed HatUbuntuWindows
on 18 June 2014 - 22:47 #714543 Reply to:714092
Kerberos's picture

เอ.. มี PPA Salika ด้วยไหมครับ หรือว่าจะนับรวมไปกับ PPA Tatip เลย เพราะผมว่าเสียงมันก็ดีกว่า Tatip นะ

By: zipper
ContributorAndroid
on 17 June 2014 - 17:23 #714130

จะมีใครทำแบบ vocaloid หรือเปล่า

By: hisoft
ContributorWindows PhoneWindows
on 17 June 2014 - 17:42 #714147 Reply to:714130
hisoft's picture

สักวันน่าจะมีครับ แต่พื้นฐานต่างกันค่อนข้างมาก คงต้องพัฒนาแยกกันตั้งแต่ช่วงแรกๆ เลยล่ะครับ

By: mr_tawan
ContributoriPhoneAndroidWindows
on 19 June 2014 - 03:22 #714616 Reply to:714130
mr_tawan's picture

สำหรับ vocaloid ผมเข้าใจว่าใช้วิธีการบันทึกเสียง phenom แต่ละตัว จากนั้นตอนที่ใช้จะนำเอาเสียงไปผ่านชุด pitch shift เพื่อเพิ่ม/ลด pitch ให้ตรงโน๊ต สุดท้ายก็จะเอาไปผ่านชุดเอฟเฟคอย่าง vibrato เพื่อสร้างเอฟเฟคแบบต่าง ๆ

ผมคิดว่าถ้าจะทำมันไม่ยากนะ แต่ถึกสุด ๆ เรียกว่าอัดกันจนนักร้องเซ็งไปข้างนึง เอาจริง ๆ กลายเป็นภาษาญี่ปุ่นเป็นภาษาที่ทำ vocaloid ได้ง่ายที่สุดภาษานึงเลย เพราะความที่มีจำนวนเสียงไม่มาก ส่วนภาษาไทยนี่เรียกว่าเดินไปจ้างนักร้องข้างบ้านมาอัดให้อาจจะคุ้มค่าเสียเวลามากกว่า เพราะว่ามีำจำนวนเสียงมากกว่า

ส่วนฝั่งคนใช้ถ้าไม่มีความพยายามพอ ใส่ไปครึ่งทางก็เลิกแล้วครับ 555

คือ Vocaloid ไม่ต้องมีวิเคราะห์เรื่องคำ ไม่ต้องมีวิเคราะห์เรื่องของอารมณ์ เพราะทั้งสองส่วนผู้ใช้เป็นคนทำ นอกจากนั้นผู้ใช้ต้องควบคุมวิธีการร้องอย่างละเอียด เรื่องของการใช้เทคนิคการร้องต่าง ๆ น้ำหนักดังเบา ระดับเสียง และพารามิเตอร์อื่น ๆ อีกเป็นกระบุง (เคยทำมาแล้วครับ โ_ตรเหนื่อย ทำออกมาเพลงนึงเสร็จนี่แทบจะฉลอง นั่นขนาดว่ายังร้องพิการ ๆ อยู่นะ 555) แต่ทั้งหมดนี้ TTS ต้องทำเองหมดเลย ดังนั้นผมยังคิดว่า TTS น่าจะยากกว่าแค่จับมาร้องเพลงครับ

ปล.ใครอยากลองฟังเพลงที่ผมทำโดยใช้ Vocaloid ลองเข้าไปดูใน SoundCloud ผมนะครับ ร้องยังพิการ ๆ อยู่นะ แต่ขี้เกียจแก้แล้ว 555


  • 9tawan.net บล็อกส่วนตัวฮับ
By: zipper
ContributorAndroid
on 19 June 2014 - 11:51 #714692 Reply to:714616

เคยคิดว่าจะลองเอาโปรแกรม utau ซึ่งเป็นฟรีแวร์ใช้ทำเหมือน vocaloid มาลองทำ utauloid เอง

เมื่อได้ลองศึกษาไปลึกๆ แล้วรู้สึกว่ามันก็ลำบากเหมือนกัน ภาษาไทยต้องพูดบันทึกหลายคำมากเลยแถมมีเสียงวรรณยุกต์อีกด้วย เมื่อบันทึกเสียงมาแล้วก็ต้องมาตั้งค่าว่าไฟล์เสียงที่ได้มาแต่ละคำๆ ตรงไหนเป็นจุดเริ่ม ตรงไหนเป็นจุดจบของเสียง

พอมาถึงจุดนี้ก็เลยถอยๆ ไป แต่ก็คิดว่าถ้าอยากให้เร็วที่สุดคืออัดคำเฉพาะเพลงที่เราต้องการร้องก็พอ คือ ใช้ได้คนเดียวไม่สามารถแจกให้คนอื่นใช้งานได้เพราะเสียงไม่ครบทุกคำ

By: terap
Windows PhoneAndroidRed HatUbuntu
on 17 June 2014 - 20:54 #714209
terap's picture

Text to Speech ภาษาไทยที่ผมชอบมากที่สุดนะครับ คือ Narisa จากเว็บนี้ครับ

http://www.oddcast.com/home/demos/tts/tts_example.php?sitepal

มีมาหลายปีแล้วครับ

By: Pingz
ContributoriPhone
on 18 June 2014 - 10:06 #714312 Reply to:714209

ตอนนี้ Narisa อยู่ใน OS X ครับ

By: Palajin
AndroidWindows
on 18 June 2014 - 12:08 #714346 Reply to:714209
Palajin's picture

นาริสา ใน Garmin ผมอ่าน
งามวงศ์วาน เป็น หงัมวงวาน ทุกทีเลยอ่ะ
แต่ นาริสา ใน link นี้ไม่เป็นแฮะ

By: Virusfowl
ContributorAndroidSymbianWindows
on 18 June 2014 - 12:45 #714356 Reply to:714346

ตัว source ของแอปที่ใช้มันมีหลายขนาดเลยครับ (ยิ่งใหญ่ความละเอียดยิ่งสูง) คือจะอ่านชัดขึ้นนั่นเอง มีตั้งแต่ไม่กี่เม็ก จนตัวใหญ่สุดเกือบ 500MB เลยครับ สำหรับนาริสานี่นะ

ตัวจากเว็บที่ @hisoft แปะลิงก์ไว้ น่าจะเป็นตัวที่เป็นความละเอียดสูงสุดครับ บนคอมผมก็มีตัวนี้ใช้อยู่เหมือนกัน (ราคามหาโหด T_T) แต่ตัวที่ Garmin ใส่มาให้น่าจะเป็นตัวกลาง - เล็กครับ ดังนั้นก็อาจจะฟังดูไม่ชัดเจนเท่า แล้วก็อาจจะอ่านบางคำได้ไม่ชัดนัก แต่เท่าที่ผมลองปรับๆ อ่านดูนี่ มันก็ไม่ถึงกับ "หงำ" นะ แต่เสียงสระอาอาจจะดูสั้นๆ ลงไปบ้าง เต็มที่ก็แค่ "งำ" นะ 55


@ Virusfowl

I'm not a dev. not yet a user.

By: hisoft
ContributorWindows PhoneWindows
on 18 June 2014 - 13:01 #714368 Reply to:714356
hisoft's picture

ผมไม่ได้แปะลิงก์อะไรเลยนะครับ... :p

By: exodus32 on 17 June 2014 - 22:17 #714236

ใช้ ios6 อ่านต่อไป เป็นThai TTS แบบพกพาที่ดีที่สุดแล้วครับ

By: azpirin
AndroidUbuntuWindows
on 17 June 2014 - 22:37 #714240

หลายปีก่อนมีโอกาสได้เรียนวิชา select topic in a.i. กับแก ก็จำได้ว่าแกพูดถึงโปรแกรมตัวนี้อยู่เหมือนกัน

By: cartier
iPhoneAndroid
on 18 June 2014 - 15:53 #714424
cartier's picture

PARTY Thai Speech-to-Text นี่ก็ของ ดร. ใช่ไหมครับ
อยากให้พัฒนาไวๆมาก ตอนนี้ยังไม่เปิดให้นักพัฒนาภายนอกใช้ แต่ที่ลอง App PARTY บน iOS ไม่แม่นเอาซะเลย
เพราะตอนนี้ก็พึ่งแต่ของ Dragon ของ Nuance อยู่ licence แพงเอาการมาก

เป็นกำลังใจให้นักพัฒนาไทยครับ

By: Kerberos
AndroidRed HatUbuntuWindows
on 18 June 2014 - 22:37 #714537
Kerberos's picture

อ่านแล้วนึกถึงบรรยากาศของ SLL Lab ของ NECTEC เลย เมื่อสัก 10 กว่าปีที่แล้วเคยได้ไปฟังเสียงของ TTS ดู เสียงลื่นทีเดียว สมัยนั้นก็น่าตื่นเต้นมากๆ แล้ว

lab นี้มีเป็นแหล่งรวมคนเก่งๆ ของวงการภาษาไทยบนคอมพิวเตอร์เลย เช่น คุณเทพพิทักษ์ (คนแถวนี้น่าจะรู้จักกันเยอะ) หรือ ดร.สุรพันธ์ (ที่ทำ search engine Siam Gugu)