Tags:
Node Thumbnail

เราเห็นกูเกิลโชว์ Google Duplex ฟีเจอร์ที่ใช้ AI คุยโทรศัพท์นัดหมายได้แทนมนุษย์ มาตั้งแต่ปี 2018 (รายละเอียดในเชิงเทคนิค) ฝั่งบริษัทฟากเอเชียอย่าง LINE ที่มีฝ่ายพัฒนา AI ชื่อ LINE Brain ก็มีโครงการบ็อตคุยโทรศัพท์ลักษณะเดียวกันชื่อว่า LINE Duet (ชื่อในการค้าคือ LINE AiCall ส่วน LINE Duet คือชื่อโครงการ)

No Description

ทีมงาน LINE ที่นำเสนอเรื่องนี้คือคุณ KyoungTae Doh (จาก Naver ฝั่งเกาหลี) ระบุว่าเขาประทับใจ Google Duplex มาก และอยากสร้างเทคโนโลยีแบบเดียวกันขึ้นมาบ้าง แต่แนวคิดของ LINE นั้นกลับข้างกัน เพราะ Google Duplex เป็นผู้ช่วยลูกค้าโทรไปจองโต๊ะที่ร้านอาหาร แต่ LINE Duet ออกแบบมาเพื่อให้ร้านอาหารรับสายจองโต๊ะจากลูกค้า ทำให้แนวคิดและการออกแบบต่างกันในรายละเอียด (ปีนี้กูเกิลเพิ่งเปิดตัว CallJoy ที่ใช้รับสายฝั่งร้านอาหารเช่นกัน)

แนวคิดของ LINE Duet มาจากการสำรวจข้อมูลว่า คนยังใช้วิธีจองโต๊ะผ่านโทรศัพท์กันอยู่มาก คิดเป็น 65% ของวิธีการจองโต๊ะทั้งหมด ที่เหลือจึงเป็นการจองผ่านเว็บและแอพมือถือ

สิ่งที่ทีมงาน LINE ทำคือเรียนรู้จากการโทรศัพท์ไปจองโต๊ะก่อน โดยทีมงานทดสอบการโทรศัพท์ไปจองโต๊ะเป็นจำนวนครั้งเยอะมาก และเรียนรู้บทเรียน 3 ข้อดังนี้

1) มนุษย์รับสายโทรศัพท์ไม่เก่งเท่าไร มีความผิดพลาดสูง คนรับสายไม่ได้ถูกเทรนมาทางนี้ และร้านอาหารก็อยากลดภาระตรงนี้

No Description

2) การสร้าง AI รับสายโทรศัพท์ แตกต่างจาก AI ลำโพงอัจฉริยะ (LINE มี Clova อยู่แล้ว) แม้เป็นการสั่งงานด้วยเสียงเหมือนกัน แต่พฤติกรรมใช้งานต่างกัน ตัวอย่างคือ AI ลำโพงมีหน้าที่รับคำสั่งสั้นๆ เป็นหลัก ในขณะที่ AI โทรศัพท์เป็นการสนทนายาวๆ

No Description

3) หากเทียบ AI โทรศัพท์กับ Chat Bot ก็แตกต่างกันอีก เพราะ Chat Bot มักมีภาพเข้ามาช่วย และผู้ใช้เห็นข้อความทั้งหมดในการสนทนาครั้งนั้น แต่พอเป็นการคุยโทรศัพท์ ผู้ใช้ก็จำไม่ได้ว่าคุยอะไรไปแล้วบ้าง

No Description

ปัจจัยเหล่านี้ทำให้ทีมงาน LINE ต้องกลับมาออกแบบ Voice User Interface (VUI) เพื่อการสนทนาทางโทรศัพท์กันอย่างละเอียด ถึงขั้นต้องมานั่ง "แยกส่วน" โครงสร้างของการสนทนาออกเป็นส่วนๆ

  • โทรศัพท์มีการพูดเปิด (opening) ตอนรับสาย และพูดปิด (closing) ก่อนวางสาย
  • ฝั่งผู้รับสาย (agent) ต้องเป็นฝ่ายพูดก่อน ตรงนี้กลับกันกับ AI ลำโพง
  • ผู้ใช้มักพูดประโยคแรกด้วยการถามว่ามีมั้ย (capacity check)

No Description

การสนทนาด้วยเสียงยังมีปัจจัยอื่นๆ

  • turn การสลับกันพูด ต้องเว้นช่วงให้อีกฝ่ายได้พูดด้วย
  • ถ้าเว้นไม่ดีจะเกิด overlap หรือพูดทับกัน หรือช่วงเงียบเกินไป (silence)
  • ความยาวของการคุยแต่ละรอบ (turn) ก็สำคัญ คือต้องไม่ยาวเกินไป

No Description

ทีมงานจึงต้องแยกหน่วย (unit) ของการสนทนาด้วยเสียงเป็น 4 ระดับ คือ Turn, Sequence, Activity, Task ตามภาพ

No Description

No Description

แต่ชีวิตก็ไม่ง่ายแบบนั้นไปทั้งหมด เพราะถ้า AI ตอบคำถามของผู้ใช้ได้ไม่ตรงกับที่ผู้ใช้ต้องการ จะเกิดการถามซ้ำอีกรอบ (repeat request) หรือการขอให้อธิบายเพิ่ม (definition request)

No Description

เมื่อสามารถจัดการหน่วยสนทนาออกเป็น activity ได้แล้ว ก็ต้องเอา activity มาจัดเป็นแผนผังความสัมพันธ์ด้วย เพื่อให้สามารถประกอบมันกลับมาเป็นบทสนทนาที่มีความหมาย

No Description

No Description

ทั้งหมดที่กล่าวมาเป็นแค่การจัดการลำดับของการสนทนา ยังไม่เข้าถึงชั้นของการแยกแยะ (speech recognition) สังเคราะห์เสียง (speech synthesis) ซึ่งโชคดีว่า LINE มีเทคโนโลยีนี้มาแล้วจากการทำ Clova แต่ก็ต้องปรับแต่งให้เหมาะกับการคุยโทรศัพท์ ให้โทนเสียงดูเป็นธรรมชาติ ทั้งความเร็ว จังหวะหยุด ระดับความดัง ฯลฯ

No Description

No Description

ระหว่างการพัฒนายังมีประเด็นเรื่องความเข้าใจทางภาษาด้วย แต่ตรงนี้เป็นภาษาญี่ปุ่น ซึ่งผมไม่เข้าใจ ก็ขอข้ามไปนะครับ

เอาเป็นว่าผลของการพัฒนา LINE Duet ออกมาเป็นบ็อตสำหรับรับสายโทรศัพท์จองร้าน (เป็นภาษาญี่ปุ่น) ที่ค่อนข้างราบรื่นดีเลย ตอนนี้เริ่มทดสอบกับร้านอาหารบางแห่งในประเทศญี่ปุ่นแล้ว

สไลด์ทั้งหมดอยู่ที่ DUET: How to make AI Reservation Agent via Telephony เผื่อใครต้องการอ่านข้อมูลเพิ่มเติมในทางเทคนิค

Get latest news from Blognone

Comments

By: sian
Windows PhoneAndroidWindows
on 23 November 2019 - 11:22 #1138257
sian's picture

ขณธที่ > ขณะที่