Tags:
Node Thumbnail

ความน่าสนใจจากงาน Max Conference โดย Adobe ยังคงมีอยู่อย่างต่อเนื่อง ในงานนี้ Adobe ยังเปิดตัวเครื่องมือทำงานด้านไฟล์เสียงใหม่ ซึ่งก็คือ Project VoCo ให้ผู้ใช้แก้ไขไฟล์เสียงง่ายเหมือแก้ไขข้อความ และยังสร้างไฟล์เสียงขึ้นมาใหม่ได้โดยใช้อัลกอริทึม

Project VoCo สามารถวิเคราะห์และแปลงไฟล์เสียงออกมาเป็น phoneme หรือหน่วยพื้นฐานของเสียง หลังจากวิเคราะห์แล้วจะสามารถสร้างโมเดลเสียงขึ้นมาใหม่ได้ นอกจากนี้ยังแก้ไขเสียงได้ด้วยการพิมพ์คำที่ต้องการแก้ลงในโปรแกรม คำพูดต่างๆ จะถูกถอดเป็นข้อความโดยโปรแกรมอยู่แล้ว

แม้จะใช้งานง่าย และมีฟีเจอร์สร้างเสียง แต่ตัวโปรแกรมอาจถูกตั้งคำถามว่าจะมีปัญหาเกี่ยวกับการสร้างเสียงปลอมของบุคคล ซึ่งอาจส่งผลกระทบในเรื่องใดเรื่องหนึ่งหรือไม่

Tags:
Node Thumbnail

ทีม Microsoft Artificial Intelligence and Research (ที่เพิ่งก่อตั้ง) ประสบความสำเร็จกับระบบแยกแยะเสียงพูด (speech recognition) ที่มีความผิดพลาดน้อยเทียบเท่ากับมนุษย์ผู้เชี่ยวชาญด้านการถอดเสียงพูดแล้ว

ไมโครซอฟท์สามารถพัฒนาระบบถอดเสียงพูดที่มีอัตราความผิดพลาด (word error rate หรือ WER) ที่ 5.9% ซึ่งใกล้เคียงกับการถอดเสียงโดยมนุษย์ และถือเป็นระบบแยกแยกเสียงตัวแรกที่มีความแม่นยำถึงระดับนี้

ระบบของไมโครซอฟท์ใช้เทคนิค neural network เรียนรู้เสียงพูดของมนุษย์ โดยใช้ชุดพัฒนา CNTK ตัวเดียวกับที่ไมโครซอฟท์เปิดซอร์สโค้ดขึ้นไว้บน GitHub

Tags:
Node Thumbnail

มีข้อมูลของกล้อง GoPro 5 หลุดออกมา ทั้งภาพเครื่องและภาพคู่มือของกล้อง โดยภาพคู่มือนั้นยังเผยรายละเอียดฟีเจอร์ใหม่ที่สำคัญ 2 อย่าง คือการเชื่อมต่อพื้นที่เก็บไฟล์ภาพบนกลุ่มเมฆ และฟีเจอร์รองรับการสั่งงานด้วยเสียง

ข้อมูลที่หลุดออกมานั้น ปรากฏจากต้นทาง 2 แห่ง คือ ภาพหลุดเครื่องต้นแบบและข้อมูลสเป็กเบื้องต้นจากเว็บไซต์ญี่ปุ่นที่ชื่อ Nokishita (ซึ่งแม้ว่าต้นทางจะลบข้อมูลไปแล้ว แต่เว็บข่าววงการกล้อง Mirrorless Rumors ก็เก็บภาพและข้อมูลไว้ได้ทันและทำการเผยแพร่ต่อ) อีกส่วนหนึ่งเป็นภาพคู่มือการใช้งาน GoPro Hero 5 ซึ่งโพสต์โดยผู้ใช้ Reddit รายหนึ่ง (ซึ่งปัจจุบันโพสต์ดังกล่าวก็ถูกลบไปแล้วเช่นกัน)

Tags:
Node Thumbnail

ซัมซุงได้นำอุปกรณ์ชิ้นใหม่ไปจดทะเบียนกับ FCC หรือหน่วยงานด้านการสื่อสารของรัฐบาลกลางสหรัฐฯ (คล้าย กสทช.) ซึ่งอุปกรณ์นี้ที่มีชื่อตามเอกสารว่า Scoop เป็นลำโพงบลูทูธที่รองรับการสั่งงานด้วยเสียงแบบ Amazon Echo และ Google Home

รูปทรงของ Scoop ก็ไม่แตกต่างจากทั้งสองเจ้ามากนัก เพียงแต่มีความเตี้ยกว่า ด้านบนเป็นลำโพง ปุ่มเพิ่มลดเสียง ปุ่ม playและบลูทูธ และไฟแสดงสถานะ ด้านข้างมีปุ่ม power พอร์ต USB และพอร์ตชาร์จไฟ

สิ่งที่น่าสนใจคือระบบ Voice Assistant ที่ซัมซุงนำมาใช้เป็นการพัฒนาขึ้นมาเอง หรือนำเข้าซอฟต์แวร์จากกูเกิล และมันจะดีเหมือน Siri, Google Now หรือแม้แต่ Alexa มากน้อยแค่ไหน

ที่มา - Venturebeat

Tags:
Node Thumbnail

Amazon ได้ปรับปรุงแอพสโตร์ของ Alexa ผู้ช่วยเสมือนจริงใหม่ทั้งหมด มีการจัดเป็นหมวดหมู่และระบบการค้นหาใหม่ ทำให้ผู้ใช้สามารถค้นหาแอพที่จะเพิ่มความสามารถให้กับ Alexa ได้ง่ายยิ่งขึ้น รวมถึงสามารถสั่งให้ Alexa ค้นหาและเพิ่มแอพได้ด้วยตัวเอง ผ่านการสั่งงานผ่านเสียงแล้ว

Amazon ระบุด้วยว่ากลุ่มแอพบนสโตร์ที่เติบโตมากเป็นอันดับต้นๆ คือกลุ่ม Smart Home โดยระยะเวลาเพียงไม่ถึงปี จากแอพที่มีแอพอยู่เพียงประมาณ 130 แอพ ปัจจุบันเพิ่มขึ้นมาอยู่ที่มากกว่า 1,400 แอพแล้ว ซึ่งนับว่าเป็น ecosystem ใหม่ที่เติบโตเร็วมาก หากมองว่า Alexa เพิ่งเปิด APIs ให้กับนักพัฒนาเพียงปีเดียวเท่านั้น

Tags:
Node Thumbnail

Creative Strategies ได้จัดทำแบบสำรวจเกี่ยวกับผู้ใช้ Voice Assistant บนสมาร์ทโฟนทั้ง Siri และ Google Now ในสหรัฐพบว่าผู้ใช้ iPhone เพียง 2% ไม่เคยใช้งาน Siri และผู้ใช้แอนดรอยด์ 4% ไม่เคยใช้งาน Google Now

ขณะที่ผู้ใช้ iPhone กว่า 70% ระบุใช้งาน Siri เป็นบางครั้งบางคราว ส่วนฝั่งผู้ใช้งานแอนดรอยด์มี 62% ที่ใช้งาน Google Now บ้างเป็นบางครั้ง โดยกว่า 39% ของผู้ตอบแบบสอบถามระบุว่าใช้งานที่บ้านเป็นส่วนใหญ่ และอีกกว่า 51% ใช้งานภายในรถ มีเพียง 1.3% และ 3% เท่านั้นที่เลือกใช้งานในที่ทำงานและในที่สาธารณะตามลำดับ

Tags:
Node Thumbnail

​ปัจจุบันอุปกรณ์หลายตัวรอบตัวผู้ใช้รองรับการสั่งการด้วยเสียงเพื่อปลุกเครื่องขึ้นมาทำงาน (voice activation) แต่ก็เป็นไปได้ที่อุปกรณ์เหล่านั้นหากอยู่ใกล้กันจะทำงานพร้อมกันเมื่อรับคำสั่งเสียงเดียวกัน

ล่าสุด ไมโครซอฟท์จดสิทธิบัตร Device Arbitration for Listening Devices ที่กล่าวถึงวิธีการที่อุปกรณ์จะสื่อสารกับอุปกรณ์อื่นในเครือข่ายก่อนที่จะตื่นขึ้นอย่างสมบูรณ์ และตัดสินใจว่าอุปกรณ์ใดจะตื่นขึ้นจากเสียงสั่งการ อาทิ มีการกำหนดค่าอุปกรณ์หลักไว้ หรือตามกิจกรรมที่ถูกตรวจจับโดยอุปกรณ์

ดูรายละเอียดสิทธิบัตรทั้งหมดได้จากที่มาของข่าว

ที่มา: WIPO ผ่าน MSPoweruser

Tags:
Node Thumbnail

ไม่ผิดจากที่ลือก่อนหน้านี้ Google ได้เปิดตัว Google Home อุปกรณ์ที่รองรับการสั่งงานด้วยเสียงตลอดเวลา ออกมาท้าชน Amazon Echo โดยตรง

รูปทรงของ Google Home ไม่แตกต่างจากเราท์เตอร์ OnHub มากนัก โดยฐานของตัวเครื่องจะมีตัวเลือกให้ผู้ใช้เปลี่ยนได้หลากหลายทังสีและวัสดุ

Tags:
Node Thumbnail

ระบบปฏิบัติการ Android มีฟีเจอร์ Voice Command มาได้หลายปีแล้ว แต่ข้อจำกัดของมันคือรองรับการสั่งงาน "บางอย่าง" เท่าที่กูเกิลเตรียมไว้ให้

ล่าสุดกูเกิลออกแอพอีกตัวชื่อ Voice Access สามารถควบคุม Android ทั้งเครื่องด้วยเสียงพูดเพียงอย่างเดียว แอพตัวนี้ออกแบบมาสำหรับผู้พิการหรือมีข้อจำกัดในการใช้งาน (เช่น พิการทางสายตาหรือการเคลื่อนไหวของมือ) ช่วยให้สั่งงานโทรศัพท์ด้วยเสียงได้ง่ายขึ้นมาก (ตัวอย่างคำสั่งอย่างเช่น open chrome, go home, scroll down)

Voice Access ยังกำหนดหมายเลขให้ปุ่มทั้งหมดบนหน้าจอ เราสามารถสั่ง "tap" ตามด้วยหมายเลขที่ต้องการ แทนการเอานิ้วแตะที่ปุ่มได้ด้วย

แอพ Voice Access ยังมีสถานะเป็น Beta และต้องสมัครเข้าร่วมโครงการทดสอบก่อนใช้งาน (ตอนที่เขียนข่าว ปิดรับลงทะเบียนแล้ว)

Node Thumbnail

ถ้ายังจำกันได้ ปีที่แล้วไมโครซอฟท์มีเว็บแอพวิเคราะห์ข้อมูลภาพให้เล่นกันสนุกๆ หลายตัว เช่น How-Old.net ทายอายุ, TwinOrNot.net เทียบคนหน้าเหมือน

เว็บแอพเหล่านี้อยู่ภายใต้ Project Oxford โครงการพัฒนา API ด้านการแยกแยะภาพและเสียงพูด ซึ่งวันนี้ได้ชื่อเรียกอย่างเป็นทางการว่า Microsoft Cognitive Services

Tags:
Node Thumbnail

ไมโครซอฟท์ประกาศเพิ่มฟีเจอร์ชุดใหญ่ให้ Cortana และวางตัว Cortana เป็น "บริการข้ามแพลตฟอร์ม" ไม่ได้ผูกเฉพาะกับ Windows แต่สามารถใช้บน iOS/Android ได้ด้วย ซิงก์ข้อมูลทุกอย่างของเราได้อัตโนมัติ

นอกจากนี้ ไมโครซอฟท์ยังเปิด API ของ Cortana ให้เชื่อมโยงกับแอพตัวอื่นๆ ได้แล้ว (ใช้ได้กับทุกแพลตฟอร์ม ไม่ใช่แค่บน Windows)

Tags:
Node Thumbnail

ผู้ช่วยส่วนตัว Amazon Alexa ที่มาพร้อมกับลำโพง Amazon Echo พัฒนาตัวเองไปอีกขั้น ล่าสุดมันสามารถจ่ายบัตรเครดิตให้เราได้แล้ว

งานนี้ Amazon จับมือกับ Capital One สถาบันการเงินรายใหญ่ของสหรัฐอเมริกา ลูกค้าที่มีบัญชี Capital One สามารถทำธุรกรรมต่างๆ ได้ด้วยเสียงพูด ไม่ว่าจะเป็นการถามยอดเงินในบัญชี เช็คการโอนเงินล่าสุด ไปจนถึงขั้นจ่ายหนี้บัตรเครดิตได้ด้วย

ตัวอย่างการใช้งานก็สามารถพูดประโยคเหล่านี้ได้เลย

  • “Alexa, ask Capital One for my Quicksilver Card balance”
  • “Alexa, ask Capital One when is my credit card payment due?”
  • “Alexa, ask Capital One to pay my credit card bill”
Tags:
Node Thumbnail

เราเห็นลำโพงพูดได้ Amazon Echo กันมาได้สักพักใหญ่ๆ แล้ว วันนี้ Amazon เปิดตัวลำโพงรุ่นเล็กลงมาอีกสองรุ่นครับ

ตัวแรกคือ Amazon Tap เป็นลำโพงแบบเดียวกับ Echo แต่ขนาดเล็กลงมาหน่อย มีฟีเจอร์สั่งงานด้วยเสียง Alexa เหมือนกัน จุดต่างคือมันออกแบบมาให้พกพาไปนอกสถานที่ได้ เป็น portable speaker ที่มีแบตเตอรี่ใช้เล่นเพลงได้นาน 9 ชั่วโมง และสามารถซื้อเคส Amazon Tap Sling ช่วยปกป้องเวลาเดินถือออกไปนอกบ้านได้

Amazon Tap ออกแบบมาเพื่อแข่งกับลำโพง Bluetooth ในท้องตลาด ชูจุดเด่นเหนือกว่าเรื่องการเล่นเพลงแบบสตรีมมิ่งได้ในตัว และสั่งงานด้วยเสียงได้ด้วย ราคาขายเครื่องละ 129.99 ดอลลาร์ (Echo รุ่นใหญ่ขาย 179.99 ดอลลาร์)

Tags:
Node Thumbnail

กูเกิลเคยโชว์ Hands Free ระบบจ่ายเงินที่ยืนยันตัวตนด้วยเสียงพูด ไม่ต้องหยิบมือถือออกมาจากกระเป๋า มาแล้วครั้งหนึ่ง ตอนนี้ระบบ Hands Free เริ่มเปิดบริการแล้วแบบจำกัดพื้นที่ โดยใช้ได้กับร้าน McDonald’s และ Papa John’s ในย่าน South Bay ของรัฐแคลิฟอร์เนีย (ใกล้ๆ กับสำนักงานใหญ่ของกูเกิล)

ผู้ใช้จะต้องดาวน์โหลดแอพ Hands Free (มีทั้งบน Android/iOS) มาติดตั้งก่อน จากนั้นแอพจะตรวจสอบพิกัดจาก Bluetooth LE และ Wi-Fi ว่าอยู่ใกล้ร้านที่รองรับหรือไม่ เมื่อเราหยิบของไปที่แคชเชียร์ ก็ให้พูดว่า “I’ll pay with Google” เพื่อยืนยันคำสั่งซื้อโดยไม่ต้องหยิบโทรศัพท์เลย

Tags:
Node Thumbnail

ปีที่แล้ว Google Docs รองรับการพิมพ์งานด้วยเสียงหรือ Voice Typing แต่ยังมีข้อจำกัดที่เป็นการพิมพ์งานไปข้างหน้าอย่างเดียวเท่านั้น

ปีนี้ Google Docs พัฒนาฟีเจอร์พิมพ์งานด้วยเสียงเพิ่มเติม เราสามารถสั่งให้เลือกคำที่พิมพ์ไปแล้วเพื่อเปลี่ยนเป็นคำอื่นได้ และรองรับการจัดฟอร์แมตเอกสารด้วยเสียงพูดได้อีกด้วย ("apply heading 1") ดูคลิปประกอบน่าจะเข้าใจง่ายขึ้นครับ

Tags:
Node Thumbnail

มีรายงานจากเว็บไซต์ 9to5mac ระบุว่าแอปเปิลกำลังทดสอบฟังก์ชัน Siri บน OS X 10.12 อยู่ในขั้นตอนสุดท้ายก่อนเปิดตัวจริงแล้ว

รายงานเผยว่า Siri บน OS X จะอยู่ในรูปแบบของปุ่มลัดบนเมนูบาร์ด้านบน พร้อมเปิดให้ผู้ใช้สามารถตั้งคีย์ลัดเพิ่มเติมได้ และเมื่อเรียกใช้งาน ก็จะปรากฎกล่องสีดำเทาพื้นโปร่ง พร้อมใช้ลักษณะการเล่นคำ และเล่นสีบาร์เหมือนกับใน tvOS ทุกอย่าง พร้อมรองรับคำสั่ง Hey, Siri เมื่อต่อสายชาร์จไว้กับเครื่องด้วย

อย่างไรเสียรูปแบบ UI ของ Siri ยังไม่มีการลงล็อกว่าจะอยู่ในรูปแบบใด และคาดว่าจะสามารถปรับเปลี่ยนได้จนกว่าจะถึงงานเปิดตัวในช่วงกลางปีนี้

Tags:

SoundHound บริการค้นหาเพลงด้วยเสียง ที่ภายหลังหันมาลุยตลาดซอฟต์แวร์สั่งงานด้วยเสียงลักษณะเดียวกับ Siri/Google Now ใต้แบรนด์ Hound ประกาศขยายผลิตภัณฑ์ของตัวเองจาก Hound มาเป็นแพลตฟอร์ม Houndify ที่เป็นอินเทอร์เฟซรับคำสั่งเสียงให้กับแอพทุกประเภท

Tags:

การสั่งงานด้วยเสียงบนสมาร์ทโฟน หรืออุปกรณ์ไอทีใดๆ ไม่ใช่เรื่องแปลกในปัจจุบัน แต่ในขณะเดียวกันก็ไม่ใช่เรื่องง่ายถึงขนาดที่ใครก็ได้จะสามารถพัฒนาระบบดังกล่าวขึ้นมาด้วยตัวเอง แม้แต่แอปเปิล หรือซัมซุงยังได้รับความช่วยเหลือจาก Nuance ผู้เชี่ยวชาญด้านซอฟต์แวร์วิเคราะห์เสียงที่วันนี้ออกมาเปิดตัว Nuance Mix ชุดเครื่องมือสำหรับให้นักพัฒนาทำแอพรองรับคำสั่งเสียงได้สะดวกขึ้นแล้ว

Nuance Mix เป็นชุดเครื่องมือสำหรับผนวกฟีเจอร์สั่งงานด้วยเสียงเข้าไปในแอพ โดยเริ่มจากการสอนให้ Mix เรียนรู้คำสั่ง และวัตถุเสียก่อน เมื่อป้อนข้อมูลไปได้ระดับหนึ่ง Mix จะสามารถเรียนรู้ต่อด้วยตัวเอง และเริ่มตอบสนองกับคำพูดได้

Tags:
Node Thumbnail

ไมโครซอฟท์ทดสอบ Cortana for Android มาได้สักพักแล้ว ฟีเจอร์ใหม่ล่าสุดที่เพิ่มเข้ามาคือการสั่งงานด้วยเสียงแบบไม่ต้องแตะอุปกรณ์ เพียงพูดว่า "Hey Cortana" (แบบเดียวกับ OK Google) ก็จะเรียก Cortana ขึ้นมาได้เลย

ข้อจำกัดของฟีเจอร์นี้คือมันใช้งานได้ต่อเมื่อเราปลดล็อคหน้าจอแล้วเท่านั้น เหตุเพราะ Android เพียงบางรุ่นเท่านั้นที่มีฮาร์ดแวร์รองรับคำสั่งเสียงตลอดเวลา (ซึ่งเป็นปัญหาเดียวกับ OK Google)

ฟีเจอร์นี้มีใน Windows Phone มาตั้งแต่ปี 2014

ที่มา - Android Central

Tags:
Node Thumbnail

ข่าวช้าไปนิดหน่อยครับ Chrome 46 ออกรุ่นจริงแล้ว ของใหม่ในรุ่นนี้ได้แก่

Tags:
Node Thumbnail

นอกจากจะขยายบริการผู้ช่วยอัจฉริยะให้สามารถใช้งานได้หลายอุปกรณ์ขึ้นแล้ว อีกภารกิจสำคัญของแอปเปิลคือการพัฒนา Siri ให้ประสิทธิภาพดีขึ้น ล่าสุดมีรายงานว่าแอปเปิลเข้าซื้อบริษัทหน้าใหม่ผู้พัฒนาซอฟต์แวร์ด้านการรับคำสั่งเสียงมาเสริมทัพ Siri แล้ว

บริษัทที่ว่านี้คือ VocalIQ ผลงานเด่นคือการพัฒนาระบบที่ช่วยให้บริการผู้ช่วยอัจฉริยะ สามารถเข้าใจการใช้ภาษามนุษย์ได้ดีขึ้น เช่นความสามารถในการทำความเข้าใจกับคำถาม เมื่อไม่เข้าใจคำถามของผู้ใช้ และยังสามารถจดจำบทสนทนาก่อนหน้า และใช้เป็นส่วนหนึ่งของการตอบคำถามได้ ซึ่งเหนือกว่าทุกระบบในปัจจุบันที่ทำไม่ได้แม้แต่การจดจำคำถามล่าสุดที่เพิ่งถามไป ตรงส่วนนี้ทำให้ระบบผู้ช่วยใกล้เคียงกับมนุษย์มากขึ้น

Tags:
Node Thumbnail

ดูเหมือนบริษัทไอทีรายใหญ่ของโลกจะอยากมีผู้ช่วยส่วนตัวให้ผู้ใช้สมาร์ทโฟนกันทุกราย ไม่ว่าจะเป็นกูเกิล แอปเปิล ไมโครซอฟท์ หรือแม้แต่ Facebook ล่าสุดยักษ์ใหญ่จากจีนอย่าง Baidu ไม่ยอมแพ้ ส่งผู้ช่วยบนสมาร์ทโฟนมาบ้างแล้วในชื่อ Du Secretary

Du Secretary เพิ่งเปิดตัวอย่างเป็นทางการในงาน Baidu World ที่จัดขึ้นในวันนี้ เป็นฟีเจอร์ใหม่อยู่ในแอพค้นหา Mobile Baidu เวอร์ชัน 6.8 เป็นต้นไป ฟีเจอร์พื้นฐานจะมีตั้งแต่การสั่งงานในตัวเครื่อง ไปจนถึงการสั่งซื้อสินค้า และบริการ เช่นซื้อตั๋วภาพยนตร์ สั่งอาหาร ซึ่งเหนือไปกว่านั้นยังสามารถแนะนำบริการได้ด้วย ถ้าหากใช้งานจนเข้าใจพฤติกรรมของผู้ใช้เมื่อใช้งานไปซักระยะ

Tags:

Nuance ผู้พัฒนาซอฟต์แวร์สั่งงานด้วยเสียงรายใหญ่ของโลก เปิดตัวแอพใหม่ Dragon Anywhere สำหรับลูกค้าองค์กรให้สามารถถอดความจากเสียงสู่เอกสารได้อย่างรวดเร็ว แม่นยำ

Dragon Anywhere เป็นภาคต่อที่เหนือขึ้นไปกว่าระบบถอดความจากเสียงที่มีอยู่บนคีย์บอร์ด โดยตัวแอพทำหน้าที่เป็นตัวจัดการเอกสาร ซึ่งสามารถใช้เสียงในการพิมพ์ จัดหน้า และแก้ไขเอกสารได้เบ็ดเสร็จ พร้อมแชร์จากอุปกรณ์พกพาสู่พีซีได้ในตัว

Tags:
Node Thumbnail

กูเกิลออกมาโชว์ผลงานการแปลงเสียงพูดเป็นข้อความ (transcription) ที่ใช้กับบริการ Voice Mail ใน Google Voice และ Project Fi ว่ามีความแม่นยำเพิ่มขึ้น ข้อผิดพลาดลดลงจากเดิม 49%

เทคนิคที่กูเกิลใช้คือ long short-term memory deep recurrent neural network โดยขอไฟล์ตัวอย่าง Voice Mail จากผู้ใช้งานมาเป็นข้อมูลจริงสำหรับการวิเคราะห์

กูเกิลไม่ได้อธิบายรายละเอียดของเทคนิคดังกล่าว แต่ก็ถือเป็นผลดีสำหรับผู้ใช้ที่ได้ระบบแปลงเสียงพูดที่แม่นยำยิ่งขึ้นครับ

ที่มา - Google Blog

Pages