Tags:
Node Thumbnail

แม้ข่าวนี้จะมาช้าไปหน่อย (ราว 2 สัปดาห์) แต่ก็ถือว่าควรค่าแก่การติดตาม กับผลงานการวิจัยจาก MIT เกี่ยวกับเทคนิคที่เรียกว่า Visual Microphone ซึ่งสามารถถอดรหัสเสียงจากคลิปวิดีโอที่ถ่ายภาพวัตถุในบริเวณที่มีเสียงนั้น

เราคงพอรู้จักเทคนิคการอ่านปากจากในหนังหรือตามข่าวต่างๆ ถึงความสามารถในการเข้าใจคำพูดของบุคคลได้โดยพิจารณาจากลักษณะริมฝีปากของผู้พูด และนั่นทำให้เรารู้ได้ว่าเขากำลังพูดว่าอะไรแม้ว่าในความจริงแล้วเราจะไม่ได้ยินเสียงพูดนั้น แต่ผลงานวิจัยของ MIT นั้นล้ำไปกว่านั้น เพราะอัลกอริธึมของงานวิจัยนี้สามารถรู้ถึงเสียงพูดได้โดยการวิเคราะห์การสั่นไหวของวัตถุซึ่งอยู่ในสถานที่นั้น

หนึ่งในการสาธิตผลงานวิจัยคือการติดตั้งกล้องถ่ายภาพความเร็วสูงไว้ภายนอก โดยกล้องดังกล่าวจับภาพถุงมันฝรั่งที่วางอยู่บนพื้นภายในห้อง ระหว่างกล้องและมันฝรั่งนั้นมีกระจกกันเสียงคั่นกลางไว้อยู่ ด้วยสภาพนี้กล้องถ่ายวิดีโอดังกล่าวจะไม่สามารถได้ยินเสียงในห้องได้เลย จากนั้นจึงให้คนพูดข้อความสั้นๆ ภายในห้อง ซึ่งคลื่นเสียงนั้นมีผลทำให้ถุงมันฝรั่งเกิดการสั่นสะเทือน และเมื่อนำภาพจากกล้องวิดีโอไปประมวลผล ก็สามารถถอดรหัสเสียงพูดได้โดยอาศัยจากการตรวจจับการสั่นสะเทือนของถุงมันฝรั่งในคลิปนั่นเอง

แม้คุณภาพของเสียงที่ถอดมาได้นั้นจะมิได้ชัดเจนเท่าเสียงจริงในเหตุการณ์จริง แต่มันก็เพียงพอที่จะทำให้เข้าใจถ้อยคำพูดของคนที่อยู่ในห้องได้ หรือในอีกตัวอย่างหนึ่ง ผลการถอดรหัสเสียงที่ได้เป็นเสียงเพลงที่ไม่เพียงมนุษย์จะรับรู้ได้ทันทีว่าคือเพลงอะไร แต่กระทั่งซอฟต์แวร์ค้นหาเพลงออนไลน์ก็ยังสามารถหาเพลงที่สัมพันธ์กับผลการถอดรหัสนั้นได้ถูกต้องเช่นกัน

ในด้านหนึ่งงานวิจัยนี้ชวนให้นึกถึงการพัฒนาเทคนิคการจารกรรมข้อมูล หรือการลอบดักฟัง แต่การใช้งานจริงยังคงมีข้อจำกัดจากปัจจัยภายนอกอีกหลายประการ เพราะการที่จะใช้อัลกอริธิม Visual Microphone นี้ได้ จำเป็นต้องมีการถ่ายภาพด้วยกล้องความเร็วสูง ทั้งยังต้องควบคุมให้กล้องและวัตถุที่ถูกถ่ายวิดีโอนิ่งให้มากที่สุด ซึ่งยังคงยากที่จะทำได้จริงในบริเวณทั่วไปนอกพื้นที่วิจัย

ที่มา - The Next Web

Get latest news from Blognone

Comments

By: panurat2000
ContributorSymbianUbuntuIn Love
on 18 August 2014 - 07:03 #732651
panurat2000's picture

ซึ่งคลื่้นเสียงนั้นมีผลทำให้ถุงมันฝรั่งเกิดการสั่นสะเทือน

คลื่้นเสียง => คลื่นเสียง

By: มายองเนสจัง
iPhone
on 18 August 2014 - 07:45 #732654
มายองเนสจัง's picture

Eagle Eye

By: RedWing
iPhoneWindows PhoneAndroidBlackberry
on 18 August 2014 - 09:13 #732665 Reply to:732654

นึกถึงเรื่องนี้เหมือนกันเลย

By: Pinery
ContributoriPhoneAndroidIn Love
on 18 August 2014 - 12:08 #732712 Reply to:732654

เป๊ะเลย นึกถึงหนังเรื่องนี้ทันที

สุดยอดเวลามันเข้าใกล้ความจริงเนี่ย

By: 100dej
AndroidWindows
on 18 August 2014 - 08:34 #732656

พัฒนาการของกล้องวงจรปิดซินะ

By: e.p.
ContributorAndroid
on 18 August 2014 - 10:28 #732682
e.p.'s picture

ส่วนที่ใช้กล้องความเร็วสูงผมไม่รู้สึกว่ามีอะไรใหม่ (ตอนเด็กๆ อ่านเจอว่าเค้ายิง laser ไปแล้ววัดความเปลี่ยนแปลงคลื่นสะท้อนเอา ซึ่งมันคือลักษณะเดียวกัน) แต่ตอนช่วงหลังเค้าใช้กล้อง DSLR ธรรมดาที่ถ่ายได้ 60 fps แต่อาศัยความที่มันใช้ rolling shutter (shutter ไม่ได้ทำงานพร้อมกันทั้งเฟรม แต่ว่าทำทีละเส้นแล้ววนไปเรื่อยๆ แบบที่ถ้าเราส่ายกล้องไปมาระหว่างถ่าย เราจะเห็นวัตถุที่ถ่ายโย้ไปเย้มาได้นั่นแหละ) นั่นถึงทำให้ผมทึ่ง

By: deaw on 18 August 2014 - 11:12 #732695
deaw's picture

หมายความว่า frame per sec = sampling rate รึป่าว แสดงว่า ถ้า fps น้อยก็จะได้เสียงแบบตัวโน้ตเดี่ยวๆ เหมือนเครื่องเกม 8bit ผมเข้าใจถูกมั้ย / แต่ผมว่ามันว้าววแฮะ

By: HackKingSoft
iPhoneAndroidUbuntuWindows
on 18 August 2014 - 11:22 #732699
HackKingSoft's picture

Jusci

By: Bound
Windows PhoneAndroidWindows
on 18 August 2014 - 17:18 #732817

สุดยอดจริง ๆ...

By: shikima
Windows PhoneAndroidUbuntu
on 18 August 2014 - 21:30 #732911

ลมพัดใบไม้ แม่บ้านหยิบถุงไปทิ้ง

mission fail!!