สำนักงานข้อมูลรัฐวิกตอเรีย (Office of the Victorian Information Commission - OVIC) ออกรายงานการสอบสวนข้อมูลผู้โดยสารระบบขนส่งสาธารณะ ที่ขนส่งรัฐวิกตอเรียเปิดออกมาเพื่อใช้แข่ง Datathon (hackathon สำหรับนักวิยาศาสตร์ข้อมูล) แต่ผู้เข้าแข่งขันกลับพบว่าข้อมูลสามารถนำไปโยงกลับกับตัวตนผู้ใช้งานได้
ชุดข้อมูลการเดินทางนี้มาจากบัตร myki ของรัฐวิกตอเรีย เป็นข้อมูลจากบัตร 15 ล้านใบ รวม 1,800 ล้านรายการ ในช่วงปี 2015-2018 โดยข้อมูลได้ปิดบังตัวตนผ่านการเปลี่ยนหมายเลขบัตร
ปัญหาเกิดขึ้นเมื่อผู้เข้าแข่งขันรายหนึ่งในงาน Datathon สามารถตรวจสอบได้ว่ารายการเดินทางในชุดข้อมูลนี้เป็นของใคร ทางขนส่งรัฐวิกตอเรียจึงต้องแจ้งเหตุข้อมูลรั่วไหลไปยัง OVIC เพื่อสอบสวน ทาง OVIC ให้บริษัท Data61 เข้าสอบสวนชุดข้อมูลและยืนยันว่าอาจหาตัวตนผู้ใช้ได้จริงหากมีแหล่งข้อมูลอื่น
ผู้เข้าแข่งสามารถหาข้อมูลการเดินทางผู้อื่นได้ เพราะจำได้ว่าเคยเดินทางกับเพื่อนพร้อมๆ กัน ทำให้สามารถค้นหารายการเดินทางในช่วงเวลาเดียวกันได้ จากนั้นจึงหาเลขประจำตัวบัตรที่ถูกเปลี่ยนไปแล้ว และดึงประวัติการเดินทางของเพื่อนตลอดระยะเวลาสามปีออกมาได้
เหตุการณ์นี้ทางขนส่งรัฐวิกตอเรียยืนยันว่าไม่ได้ทำผิดกฎหมายข้อมูลส่วนบุคคล และรายการเดินทางที่ปกปิดตัวตนแล้วก็ไม่ใช่ข้อมูลส่วนบุคคลแต่อย่างใด และการค้นข้อมูลการเดินทางจากชุดข้อมูลอย่างเดียวก็ทำไม่ได้
ที่มา - iTNews

on
เปลี่ยนเลขไม่พอ
deaknaew Mon, 19/08/2019 - 13:10
เปลี่ยนเลขไม่พอ ต้องเปลี่ยนวันที่ด้วย...
เปลี่ยนวันนี่น่าจะทำให้ผลการว
artofdestroy Mon, 19/08/2019 - 13:13
In reply to เปลี่ยนเลขไม่พอ by deaknaew
เปลี่ยนวันนี่น่าจะทำให้ผลการวิเคราะห์ข้อมูลเปลี่ยนไปเลยนะครับ
คิดว่าจริงๆ ควรลบ ID
lew Mon, 19/08/2019 - 14:21
In reply to เปลี่ยนเลขไม่พอ by deaknaew
คิดว่าจริงๆ ควรลบ ID ทิ้งทั้งหมดเลยครับ แล้วให้วิเคราะห์ข้อมูล pattern การเดินทางเอา
แค่ hash ID แบบกรณีนี้ไม่พอ หรืออีกท่านึง คือแยก ID ของแต่ละวันออกจากกันก็น่าจะลดความเสี่ยงลงได้มาก
มันเป็น Dimension ทางลึก
akira Mon, 19/08/2019 - 14:56
In reply to เปลี่ยนเลขไม่พอ by deaknaew
มันเป็น Dimension ทางลึก ยังไงก็ต้องมีเพื่อหมุนข้อมูลใหม่ กรณีที่มีหลาย Pattern ที่มีเวลาเป็นมิติที่ 3 แต่ก็พอมีวิธี แต่อาจลด Performance หน่อยถ้าดูแบบ Real-time แต่ถ้าไม่ดู Real-time ก็สบาย
ชุดข้อมลการเดินทางนี้มาจากบัต
panurat2000 Mon, 19/08/2019 - 13:40
ข้อมล => ข้อมูล
วิธี trace
Fourpoint Mon, 19/08/2019 - 14:58
วิธี trace กลับเกิดจากเจ้าตัวจำ transaction ของตัวเองได้ เลยไล่ย้อนดู หา grouping ข้อมูลร่วมกันกับของเพื่อนๆที่เดินทางวันเดียวกันคล้ายๆกัน
วิธีนี้ต้องคนในเท่านั้นแหละ ต่อให้แปลงค่า binding,hash หรือแม้แต่สุ่มkey ใหม่มาแทน ยังไงก็ trace ย้อนได้ ยกเว้นการ ปกปิดหรือเปลี่ยนวันที่ข้อมูลหรือตัดความเชื่อมโยงจาก key แต่มันก็จะกลายเป็นข้อมูลที่ไร้ค่า ไม่สามารถนำไปวิเคราะห์หาประโยชน์อะไรได้ เลย
อย่างข้างบนบอกให้ แยก id แต่ละวัน มันก็จะหาความเชื่อมโยงกับ timeline หรือ trend แบบละเอียดไม่ได้
ไม่ต้องคนในก็ความเสี่ยงเพิ่มข
lew Mon, 19/08/2019 - 15:15
In reply to วิธี trace by Fourpoint
ไม่ต้องคนในก็ความเสี่ยงเพิ่มขึ้นมากครับ ถ้ามี "ฐานข้อมูลอื่น"
เช่น ผมเป็น HR บริษัทในแนวรถไฟ้า รู้เวลามาทำงานแน่ชัดของแต่ละวัน ผมถอยไป search เวลาออกจากรถไฟฟ้า 10-20 นาทีเพื่อหา ID ของพนักงานคนนึง ประมาณ 10 วันเพื่อ match ให้เหลือ ID เดียว กลายเป็นว่าผมได้ข้อมูลเดินทางพนักงานตลอดสามปีเลย (หาได้เลยว่าแอบไปสัมภาษณ์ที่อื่นไหม)
ถ้าเป็น HR
Fourpoint Tue, 20/08/2019 - 06:49
In reply to ไม่ต้องคนในก็ความเสี่ยงเพิ่มข by lew
ถ้าเป็น HR มาค้นเองผมก็ยังว่าเข้าข่ายคนในนะ
คล้ายๆ social engineering มาหาความสัมพันธ์กับชุดข้อมูล แต่ก็ต้องมีข้อมูลที่เป็นส่วนตัวอีกชุด มาใช้ matching
ไม่ใช่ว่าจะใช้ฐานข้อมูลสาธารณะอื่นใดๆก็ได้
ผมก็ยังมองว่าขั้นนี้ก็ยังค่อนข้างยากในการระบุตัวแล้วล่ะ
ปรกติ คนเราเดินทางไปเรียน
waroonh Mon, 19/08/2019 - 16:24
ปรกติ คนเราเดินทางไปเรียน ไปเที่ยว ไปทำงาน มันจะซ้ำๆกันครับ ออกเวลาเดิม ๆ ขับรถทางเดิม ๆ กลับก็เวลาเดิม ๆ ถ้ารู้สุ่มๆซัก 10 วัน ไม่ต้องรู้ทุกวัน ที่เหลือก็ พอเดาได้นะครับ เช่น ออกจากบ้านเวลาเดิม ขึ้นรถไฟฟ้าตู้เดิม คุณจะขับมาเจอกับรถคันเดิมบนถนน(ที่ปาดหน้าคุณเมื่อวาน)หรือคนข้นรถคันเดียวกันหน้าเดิมๆ อะไรแบบนั้น
ใช่เลย
TheOrbital Tue, 20/08/2019 - 13:21
In reply to ปรกติ คนเราเดินทางไปเรียน by waroonh
ใช่เลย ยิ่งบริการสาธารณะต่างๆและเป็นพื้นที่ที่เจาะจงลงไป ยิ่งมีสิทธิมากที่จะเจอคนกลุ่มเดิม
ช่วงที่ผมยังโสด ถึงกับต้องมารอขึ้นรถสองแถวเวลาเดิมทุกๆวัน เพราะจะได้เจอผดส.คนเดิม(คนนั้น)
เอ๊ะ ผมจำได้นะว่าเธอคนนั้นลงป้ายไหนทุกวัน
แบบนี้ถ้าผมใช้วิธีนี้ได้ ผมก็รู้ที่ทำงาน เธอแล้วสินะ
ช่วงที่ผมยังโสด
pepporony Tue, 20/08/2019 - 14:46
In reply to ใช่เลย by TheOrbital
แสดงว่าได้ผลเรอะ!
ลองคิดว่าข้อมูลตกอยู่ในมือคนส
IDCET Mon, 19/08/2019 - 17:39
ลองคิดว่าข้อมูลตกอยู่ในมือคนสะกดรอยตาม คนลักพาตัว ฆาตรกรต่อเนื่อง อาชญากร หรือแม้แต่เจ้าหน้าที่รัฐ ผลลัพธ์ที่จะเกิดก็ร้ายแรงแล้ว
มีความจำเป็นต้องให้ id
whitebigbird Mon, 19/08/2019 - 18:45
มีความจำเป็นต้องให้ id มาเพื่อแข่งขันมั้ยครับ?
ผมว่าข้อมูลที่ระบุตัวได้กับไม
hisoft Mon, 19/08/2019 - 19:37
In reply to มีความจำเป็นต้องให้ id by whitebigbird
ผมว่าข้อมูลที่ระบุตัวได้กับไม่ได้นี่มีผลมากๆ กับการใช้งานจริงๆ ดังนั้นมันก็จะมีผลมากกับการแข่งขันเช่นกันครับ เว้นแต่จะทำการแปลงข้อมูลทั้งหมดแบบที่มันไม่กระทบกับรูปแบบได้ ซึ่งก็ยากมาก
แต่พอเปิดออกสู่สาธารณะมันก็สภาพอย่างที่เห็นล่ะครับ
มันเป็น hackathon น่ะครับ
lew Mon, 19/08/2019 - 22:35
In reply to มีความจำเป็นต้องให้ id by whitebigbird
มันเป็น hackathon น่ะครับ แข่งกันเอาข้อมูลมา "สร้างสรรค์" ดังนั้นข้อมูลยิ่งเยอะก็ยิ่งเล่นได้เยอะ
บางทีมอาจจะหา pattern จากการเดินทาง เช่น คนเดินทางตรงเวลาทุกวันกี่คน คน flexible เวลาทำงานกี่คน อะไรแบบนั้นก็ได้ ดังนั้นการมี id ที่ตรงกันทั้งหมดจะทำให้หา pattern แบบนี้ได้ แต่ถ้า reset ID ทุกวันก็บอกไม่ได้แล้ว ว่าคนที่เดินทาง 9:13 นาฬิกาวันนี้ นี่เมื่อวานเดินทางกี่โมง
สำหรับ Data Scientist ข้อมูลยิ่งมากก็คงยิ่งดี แต่มากแค่ไหนจะไม่ละเมิด (โดยเฉพาะกรณีนี้ที่เปิดข้อมูลต่อสาธารณะ) อันนี้เป็นคำถามอีกชุด
ถ้าเคยเล่น Keggle จะเห็นว่าหลายองค์กรเลือกจะไม่เปิดข้อมูลจริงเลย โดยเฉพาะพวกชุดข้อมูลทางการเงิน แต่สร้างข้อมูลจำลองจากข้อมูลจริงขึ้นมาจัดแข่งแทน แต่นั่นก็แปลว่าข้อมูลจำลองจะผ่านมมุมมองที่คนสร้างชุดข้อมูลมองเห็นมาแล้วเท่านั้น (ถ้าคนสร้างเห็นว่าบางมิติไม่สำคัญ เขาก็ไม่จำลองในชุดข้อมูลจำลอง) ก็เป็นข้อจำกัด
ขอบคุณทั้งสองท่านครับ
whitebigbird Tue, 20/08/2019 - 14:51
In reply to มีความจำเป็นต้องให้ id by whitebigbird
ขอบคุณทั้งสองท่านครับ
แสดงว่าจริงๆ แล้วมันก็ควรจะเอามาลงเพื่อให้ผู้แข่งขันเอาไปใช้สร้างสรรค์ได้มากขึ้น แต่มันไม่ควร trackback ได้ และถ้าทำได้ก็ไม่ควรเป็นข้อมูลที่อ้างอิงกับคนจริงๆ ได้