Tags:
Node Thumbnail

สำนักงานข้อมูลรัฐวิกตอเรีย (Office of the Victorian Information Commission - OVIC) ออกรายงานการสอบสวนข้อมูลผู้โดยสารระบบขนส่งสาธารณะ ที่ขนส่งรัฐวิกตอเรียเปิดออกมาเพื่อใช้แข่ง Datathon (hackathon สำหรับนักวิยาศาสตร์ข้อมูล) แต่ผู้เข้าแข่งขันกลับพบว่าข้อมูลสามารถนำไปโยงกลับกับตัวตนผู้ใช้งานได้

ชุดข้อมูลการเดินทางนี้มาจากบัตร myki ของรัฐวิกตอเรีย เป็นข้อมูลจากบัตร 15 ล้านใบ รวม 1,800 ล้านรายการ ในช่วงปี 2015-2018 โดยข้อมูลได้ปิดบังตัวตนผ่านการเปลี่ยนหมายเลขบัตร

ปัญหาเกิดขึ้นเมื่อผู้เข้าแข่งขันรายหนึ่งในงาน Datathon สามารถตรวจสอบได้ว่ารายการเดินทางในชุดข้อมูลนี้เป็นของใคร ทางขนส่งรัฐวิกตอเรียจึงต้องแจ้งเหตุข้อมูลรั่วไหลไปยัง OVIC เพื่อสอบสวน ทาง OVIC ให้บริษัท Data61 เข้าสอบสวนชุดข้อมูลและยืนยันว่าอาจหาตัวตนผู้ใช้ได้จริงหากมีแหล่งข้อมูลอื่น

ผู้เข้าแข่งสามารถหาข้อมูลการเดินทางผู้อื่นได้ เพราะจำได้ว่าเคยเดินทางกับเพื่อนพร้อมๆ กัน ทำให้สามารถค้นหารายการเดินทางในช่วงเวลาเดียวกันได้ จากนั้นจึงหาเลขประจำตัวบัตรที่ถูกเปลี่ยนไปแล้ว และดึงประวัติการเดินทางของเพื่อนตลอดระยะเวลาสามปีออกมาได้

เหตุการณ์นี้ทางขนส่งรัฐวิกตอเรียยืนยันว่าไม่ได้ทำผิดกฎหมายข้อมูลส่วนบุคคล และรายการเดินทางที่ปกปิดตัวตนแล้วก็ไม่ใช่ข้อมูลส่วนบุคคลแต่อย่างใด และการค้นข้อมูลการเดินทางจากชุดข้อมูลอย่างเดียวก็ทำไม่ได้

ที่มา - iTNews

No Description

บัตร myki ของขนส่งรัฐวิกตอเรีย

Get latest news from Blognone

Comments

By: deaknaew on 19 August 2019 - 13:10 #1124349

เปลี่ยนเลขไม่พอ ต้องเปลี่ยนวันที่ด้วย...

By: artofdestroy
Windows PhoneAndroidUbuntuWindows
on 19 August 2019 - 13:13 #1124350 Reply to:1124349

เปลี่ยนวันนี่น่าจะทำให้ผลการวิเคราะห์ข้อมูลเปลี่ยนไปเลยนะครับ

By: lew
FounderJusci's WriterMEconomicsAndroid
on 19 August 2019 - 14:21 #1124355 Reply to:1124349
lew's picture

คิดว่าจริงๆ ควรลบ ID ทิ้งทั้งหมดเลยครับ แล้วให้วิเคราะห์ข้อมูล pattern การเดินทางเอา

แค่ hash ID แบบกรณีนี้ไม่พอ หรืออีกท่านึง คือแยก ID ของแต่ละวันออกจากกันก็น่าจะลดความเสี่ยงลงได้มาก


lewcpe.com, @wasonliw

By: akira on 19 August 2019 - 14:56 #1124360 Reply to:1124349

มันเป็น Dimension ทางลึก ยังไงก็ต้องมีเพื่อหมุนข้อมูลใหม่ กรณีที่มีหลาย Pattern ที่มีเวลาเป็นมิติที่ 3 แต่ก็พอมีวิธี แต่อาจลด Performance หน่อยถ้าดูแบบ Real-time แต่ถ้าไม่ดู Real-time ก็สบาย

By: panurat2000
ContributorSymbianUbuntuIn Love
on 19 August 2019 - 13:40 #1124353
panurat2000's picture

ชุดข้อมลการเดินทางนี้มาจากบัตร myki

ข้อมล => ข้อมูล

By: Fourpoint
Windows PhoneAndroidSymbian
on 19 August 2019 - 14:58 #1124361

วิธี trace กลับเกิดจากเจ้าตัวจำ transaction ของตัวเองได้ เลยไล่ย้อนดู หา grouping ข้อมูลร่วมกันกับของเพื่อนๆที่เดินทางวันเดียวกันคล้ายๆกัน

วิธีนี้ต้องคนในเท่านั้นแหละ ต่อให้แปลงค่า binding,hash หรือแม้แต่สุ่มkey ใหม่มาแทน ยังไงก็ trace ย้อนได้ ยกเว้นการ ปกปิดหรือเปลี่ยนวันที่ข้อมูลหรือตัดความเชื่อมโยงจาก key แต่มันก็จะกลายเป็นข้อมูลที่ไร้ค่า ไม่สามารถนำไปวิเคราะห์หาประโยชน์อะไรได้ เลย

อย่างข้างบนบอกให้ แยก id แต่ละวัน มันก็จะหาความเชื่อมโยงกับ timeline หรือ trend แบบละเอียดไม่ได้

By: lew
FounderJusci's WriterMEconomicsAndroid
on 19 August 2019 - 15:15 #1124363 Reply to:1124361
lew's picture

ไม่ต้องคนในก็ความเสี่ยงเพิ่มขึ้นมากครับ ถ้ามี "ฐานข้อมูลอื่น"

เช่น ผมเป็น HR บริษัทในแนวรถไฟ้า รู้เวลามาทำงานแน่ชัดของแต่ละวัน ผมถอยไป search เวลาออกจากรถไฟฟ้า 10-20 นาทีเพื่อหา ID ของพนักงานคนนึง ประมาณ 10 วันเพื่อ match ให้เหลือ ID เดียว กลายเป็นว่าผมได้ข้อมูลเดินทางพนักงานตลอดสามปีเลย (หาได้เลยว่าแอบไปสัมภาษณ์ที่อื่นไหม)


lewcpe.com, @wasonliw

By: Fourpoint
Windows PhoneAndroidSymbian
on 20 August 2019 - 06:49 #1124393 Reply to:1124363

ถ้าเป็น HR มาค้นเองผมก็ยังว่าเข้าข่ายคนในนะ

คล้ายๆ social engineering มาหาความสัมพันธ์กับชุดข้อมูล แต่ก็ต้องมีข้อมูลที่เป็นส่วนตัวอีกชุด มาใช้ matching

ไม่ใช่ว่าจะใช้ฐานข้อมูลสาธารณะอื่นใดๆก็ได้

ผมก็ยังมองว่าขั้นนี้ก็ยังค่อนข้างยากในการระบุตัวแล้วล่ะ

By: waroonh
Windows
on 19 August 2019 - 16:24 #1124366

ปรกติ คนเราเดินทางไปเรียน ไปเที่ยว ไปทำงาน มันจะซ้ำๆกันครับ ออกเวลาเดิม ๆ ขับรถทางเดิม ๆ กลับก็เวลาเดิม ๆ ถ้ารู้สุ่มๆซัก 10 วัน ไม่ต้องรู้ทุกวัน ที่เหลือก็ พอเดาได้นะครับ เช่น ออกจากบ้านเวลาเดิม ขึ้นรถไฟฟ้าตู้เดิม คุณจะขับมาเจอกับรถคันเดิมบนถนน(ที่ปาดหน้าคุณเมื่อวาน)หรือคนข้นรถคันเดียวกันหน้าเดิมๆ อะไรแบบนั้น

By: TheOrbital
iPhoneWindows PhoneAndroidSymbian
on 20 August 2019 - 13:21 #1124440 Reply to:1124366
TheOrbital's picture

ใช่เลย ยิ่งบริการสาธารณะต่างๆและเป็นพื้นที่ที่เจาะจงลงไป ยิ่งมีสิทธิมากที่จะเจอคนกลุ่มเดิม
ช่วงที่ผมยังโสด ถึงกับต้องมารอขึ้นรถสองแถวเวลาเดิมทุกๆวัน เพราะจะได้เจอผดส.คนเดิม(คนนั้น)

เอ๊ะ ผมจำได้นะว่าเธอคนนั้นลงป้ายไหนทุกวัน
แบบนี้ถ้าผมใช้วิธีนี้ได้ ผมก็รู้ที่ทำงาน เธอแล้วสินะ

By: pepporony
ContributorAndroid
on 20 August 2019 - 14:46 #1124446 Reply to:1124440

ช่วงที่ผมยังโสด

แสดงว่าได้ผลเรอะ!

By: IDCET
Contributor
on 19 August 2019 - 17:39 #1124369

ลองคิดว่าข้อมูลตกอยู่ในมือคนสะกดรอยตาม คนลักพาตัว ฆาตรกรต่อเนื่อง อาชญากร หรือแม้แต่เจ้าหน้าที่รัฐ ผลลัพธ์ที่จะเกิดก็ร้ายแรงแล้ว


ความล้มเหลว คือจุดเริ่มต้นสู่ความหายนะ มีผลกระทบมากกว่าแค่เสียเงิน เวลา อนาคต และทรัพยากรที่เสียไป - จงอย่าล้มเหลว

By: whitebigbird
Contributor
on 19 August 2019 - 18:45 #1124374
whitebigbird's picture

มีความจำเป็นต้องให้ id มาเพื่อแข่งขันมั้ยครับ?

By: hisoft
ContributorWindows PhoneWindows
on 19 August 2019 - 19:37 #1124376 Reply to:1124374
hisoft's picture

ผมว่าข้อมูลที่ระบุตัวได้กับไม่ได้นี่มีผลมากๆ กับการใช้งานจริงๆ ดังนั้นมันก็จะมีผลมากกับการแข่งขันเช่นกันครับ เว้นแต่จะทำการแปลงข้อมูลทั้งหมดแบบที่มันไม่กระทบกับรูปแบบได้ ซึ่งก็ยากมาก

แต่พอเปิดออกสู่สาธารณะมันก็สภาพอย่างที่เห็นล่ะครับ

By: lew
FounderJusci's WriterMEconomicsAndroid
on 19 August 2019 - 22:35 #1124381 Reply to:1124374
lew's picture

มันเป็น hackathon น่ะครับ แข่งกันเอาข้อมูลมา "สร้างสรรค์" ดังนั้นข้อมูลยิ่งเยอะก็ยิ่งเล่นได้เยอะ

บางทีมอาจจะหา pattern จากการเดินทาง เช่น คนเดินทางตรงเวลาทุกวันกี่คน คน flexible เวลาทำงานกี่คน อะไรแบบนั้นก็ได้ ดังนั้นการมี id ที่ตรงกันทั้งหมดจะทำให้หา pattern แบบนี้ได้ แต่ถ้า reset ID ทุกวันก็บอกไม่ได้แล้ว ว่าคนที่เดินทาง 9:13 นาฬิกาวันนี้ นี่เมื่อวานเดินทางกี่โมง

สำหรับ Data Scientist ข้อมูลยิ่งมากก็คงยิ่งดี แต่มากแค่ไหนจะไม่ละเมิด (โดยเฉพาะกรณีนี้ที่เปิดข้อมูลต่อสาธารณะ) อันนี้เป็นคำถามอีกชุด

ถ้าเคยเล่น Keggle จะเห็นว่าหลายองค์กรเลือกจะไม่เปิดข้อมูลจริงเลย โดยเฉพาะพวกชุดข้อมูลทางการเงิน แต่สร้างข้อมูลจำลองจากข้อมูลจริงขึ้นมาจัดแข่งแทน แต่นั่นก็แปลว่าข้อมูลจำลองจะผ่านมมุมมองที่คนสร้างชุดข้อมูลมองเห็นมาแล้วเท่านั้น (ถ้าคนสร้างเห็นว่าบางมิติไม่สำคัญ เขาก็ไม่จำลองในชุดข้อมูลจำลอง) ก็เป็นข้อจำกัด


lewcpe.com, @wasonliw

By: whitebigbird
Contributor
on 20 August 2019 - 14:51 #1124447 Reply to:1124374
whitebigbird's picture

ขอบคุณทั้งสองท่านครับ

แสดงว่าจริงๆ แล้วมันก็ควรจะเอามาลงเพื่อให้ผู้แข่งขันเอาไปใช้สร้างสรรค์ได้มากขึ้น แต่มันไม่ควร trackback ได้ และถ้าทำได้ก็ไม่ควรเป็นข้อมูลที่อ้างอิงกับคนจริงๆ ได้