Pantip.com เปิดตัวฟีเจอร์ใหม่ Auto Tag ระบบจัดแท็กให้กระทู้อัตโนมัติ โดยใช้เทคนิควิเคราะห์คำในกระทู้ตั้งแต่ตอนโพสต์ ระบบจะอ่านข้อความแล้วคัดเลือกแท็กที่น่าจะเกี่ยวข้องมานำเสนอให้ 15 แท็ก (Pantip ใส่ได้ 5 แท็ก) เป้าหมายเพื่อช่วยให้เจ้าของกระทู้เลือกแท็กอย่างแม่นยำขึ้น และลดภาระการดูแลกระทู้ของทีมงานลง
ระบบนี้เป็นความร่วมมือของ Pantip.com, บริษัท อินโนเวทีฟ เอ็กซ์ตรีมิสต์ (INOX) ผู้ดูแลระบบโครงสร้างพื้นฐานไอทีให้ Pantip และภาควิชาวิศกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์
คุณอภิศิลป์ ตรุงกานนท์ ซีทีโอของ Pantip (หรือที่รู้จักกันในชื่อ @macroart) เล่าว่าตอนนี้ Pantip มีคนเข้าเว็บวันละ 4.2 ล้านคน คิดเป็น 16 ล้านเพจวิว มีกระทู้ใหม่วันละ 5,000 กระทู้ ซึ่งเติบโตขึ้นเรื่อยๆ
ห้องยอดนิยมของ Pantip ในปี 2015 คือห้องก้นครัว แต่ตอนนี้ห้องบางขุนพรหม (ข่าวดารา-บันเทิง) ที่เพิ่งเปิดเมื่อกลางปีที่แล้ว แซงหน้ากลายเป็นห้องยอดนิยมอันดับหนึ่งไปแล้ว
แท็กยอดนิยมคือแท็ก "ความรัก" ตามด้วย "ชีวิตวัยรุ่น" และ "หุ้น"
ที่ผ่านมา Pantip ให้เจ้าของกระทู้เป็นฝ่ายเลือกแท็กให้กระทู้เอง ปัญหาที่พบคือ 1) ใส่แท็กไม่เป็น 2) สแปมแท็ก อยากให้คนเห็นเยอะๆ เลยตั้งแท็กหว่านๆ
ทางแก้ของ Pantip คือต้องมีทีมงานตรวจสอบกระทู้อย่างละเอียด และแก้ไขแท็กให้ถูกต้อง ปัจจุบันมีกระทู้ใหม่วันละ 5,000 กระทู้ ถือเป็นงานหนัก ต้องใช้ทีมเว็บมาสเตอร์หลายสิบคนช่วยกันมอนิเตอร์ เปลืองแรงมาก
Pantip จึงปรึกษากับ INOX ในฐานะพาร์ทเนอร์ทางเทคโนโลยี ที่คอยดูแลระบบให้อยู่แล้ว ว่าถ้ามีปัญหาแบบนี้ทำอะไรได้บ้าง ทางออกก็ชัดเจนว่าต้องมีระบบเข้ามาช่วยแยกแยะข้อความในกระทู้ เพื่อนำเสนอแท็กให้ผู้ใช้งาน
การทำระบบนี้ได้ประโยชน์ 2 ต่อ คือ ผู้ใช้เลือกแท็กได้แม่นยำขึ้น โดยไม่ต้องทำอะไรเพิ่ม และช่วยลดภาระของทีมแอดมินลง
ผู้เชี่ยวชาญที่เข้ามาช่วยคือห้องวิจัย MIKE (Massive Information & Knowledge Engineering) ของภาควิชาวิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ ที่มีความชำนาญเรื่องการจัดการข้อมูลขนาดใหญ่อยู่แล้ว
รศ.ดร.อานนท์ รุ่งสว่าง จากห้องวิจัย MIKE อธิบายว่าใช้เทคนิค Big Data และ Machine Learning สร้างระบบนี้ขึ้น กระบวนการของ Machine Learning คือ Pantip มีข้อมูลกระทู้เก่าที่คัดแยกแท็กโดยทีมงานอยู่แล้ว ข้อมูลพวกนี้ใช้เป็น Training Data เพื่อหาโมเดลการแยกแยะข้อมูลได้
รายละเอียดในเชิงเทคนิคคือสร้าง "เวกเตอร์" ของกลุ่มแท็กประเภทต่างๆ ขึ้นมาจากข้อมูลเก่าและโมเดลที่เทรนไว้
เมื่อมีกระทู้ใหม่ถูกส่งเข้ามาในระบบ มันจะถูกมองว่าเป็นเวกเตอร์ใหม่หนึ่งตัว ระบบจะพิจารณา "ทิศทาง" ของเวกเตอร์นั้นจากเนื้อหาของกระทู้ (ด้วย natural language processing) จากนั้นนำเวกเตอร์กระทู้ไปเทียบกับเวกเตอร์ตัวอื่นๆ ที่เคยประมวลผลไว้แล้ว ว่ามีความคล้ายคลึงกันแค่ไหน แล้วจึงคัดเลือกแท็กในกลุ่มเดียวกันให้
ในงานแถลงข่าวมีเดโม โดยใช้เนื้อหากระทู้จากข่าวไฟไหม้ธนาคาร SCB เมื่อคืนนี้ ผลคือระบบแยกแยะคำว่า "อุบัติเหตุ" ได้ แต่กลับไม่แนะนำแท็ก "SCB" ให้ตอนตั้งกระทู้ ซึ่งอธิบายได้ว่าเป็นผลมาจากกลุ่ม "SCB" มักใช้กับแท็ก "การเงิน" หรือ "หุ้น" มากกว่า พอมีเนื้อหาที่ไม่เชื่อมโยงกันนัก ทำให้ระบบยังไม่สามารถจัดกลุ่ม "SCB" กับ "อุบัติเหตุ" เข้าด้วยกันได้
แต่เนื่องจากระบบ Auto Tag ใช้เทคนิค Machine Learning ดังนั้นเมื่อมีเนื้อหาลักษณะนี้มากขึ้น ระบบก็จะเรียนรู้ได้เองว่ามีข่าวแบบนี้ด้วย และจะพัฒนาตัวเองให้นำเสนอแท็กที่แม่นยำขึ้นในภายหลัง
รายละเอียดในแง่การใช้งาน อ่านได้จาก เปิดตัวฟีเจอร์ใหม่ : Auto Tag

on












"พอดีเข้าห้องนี้บ่อยเลยขอ tag
plagapong Mon, 14/03/2016 - 18:00
"พอดีเข้าห้องนี้บ่อยเลยขอ tag ห้องนี้นะครับ/คะ" เจอตรรกะแบบนี้เข้าผมก็ปวดหัวแทน mod เหมือนกัน
อ่านกระทู้ในพันทิปทีไร
Sephanov Mon, 14/03/2016 - 18:03
อ่านกระทู้ในพันทิปทีไร ต้องกลอกตามองบนทุกที
หมอประจำห้อง สุขภาพจิต
sariarty Mon, 14/03/2016 - 18:06
หมอประจำห้อง สุขภาพจิต ไปไหนไม่รู้ T^T
และภาควิชาวิศกรรมคอมพิวเตอร์
panurat2000 Mon, 14/03/2016 - 19:11
วิศกรรม => วิศวกรรม
ชอบเข้าหว้ากอบ่อยพอๆ
crucifier Mon, 14/03/2016 - 19:57
ชอบเข้าหว้ากอบ่อยพอๆ กับเข้าบล็อกนัน แต่โดนยึดอมยิ้มไปละ ไปอธิบายสาเหตุที่เฟสบุ๊กไม่ขึ้นรูปโปรไฟล์ลายธงชาติไทยกรณีระเบิดราชประสงค์เหมือนเหตุระเบิดที่ฝรั่งเศส ตอนนั้นคนเข้าใจผิดกันเยอะว่าเฟสบุ๊คเคารพกฎหมายเกี่ยวกับธงชาติของไทย ซึ่งความจริงมันไม่ใช่ แต่คงแทงใจดำพวกคลั่งชาติเยอะไปหน่อย
เห็นสถิติจำนวนกระทู้และความคิ
Kittichok Mon, 14/03/2016 - 20:09
เห็นสถิติจำนวนกระทู้และความคิดเห็นแล้วเหนื่อยเลย ตอนแรกคิดว่าน่าจะเยอะแล้ว นี่สถิติบอกเยอะกว่าไปมากเลย หวังว่าระบบนี้จะช่วยแบ่งเบาทีมงานได้ล่ะนะ แล้วเอาเวลาไปจัดการปัญหาอื่นให้ดีขึ้น
ป.ล. กังวลว่าระบบจะเพิ่มแท็ก "ราชดำเนิน" เองจังฮะ หลายกระทู้ทางเจ้าของกระทู้ก็ไม่ได้เลือกแท็กนี้ แต่หลายความคิดดันโยงไปการเมืองได้ยังไงไม่รู้ กลัวระบบจะเรียนรู้ในส่วนไม่ดีนี้
ถ้าเลือกแท็กมาจากกระทู้เก่าๆไ
gosol Mon, 14/03/2016 - 20:16
ถ้าเลือกแท็กมาจากกระทู้เก่าๆได้ ถ้าเป็นกระทู้คำถามน่าจะแสดงกระทู้เก่าๆขึ้นมาก่อนตั้งกระทู้ใหม่ก็ดี กระทู้จะได้ไม่ซ้ำ(แถมลดภาระการจัดเก็บ) อย่างพวกถามนี่ตัวอะไร ถ้าผู้ชายทำอย่างนี้หมายความว่ายังไงคะ เขารักเรารึเปล่าโน่นนี่ คำตอบไม่เก่าเกินไป หรือเก่าก็แสดงๆไปก็ไม่เสียหายไร
คนที่ดูแล server pantip เก๋า
proxima Mon, 14/03/2016 - 20:19
คนที่ดูแล server pantip เก๋า นะเนี่ยะ
รับโหลดได้เยอะขนาดนี้ เมพมาก
ขำตรง tag พจน์ อานนท์
likito Mon, 14/03/2016 - 20:23
ขำตรง tag พจน์ อานนท์
หลังๆ ไม่ได้เข้าเลย
255BB Mon, 14/03/2016 - 21:37
หลังๆ ไม่ได้เข้าเลย กระทู้ไม่ค่อยน่าสนใจ แต่ยังจำเลขสมาชิกตัวเองได้ (85000) คนที่เลขสมาชิกหลักพันนี่รุ่นลายครามเลย มาพร้อมยุคก่อตั้งเว็บ
ต่อไประบบคงเรียนรู้และสร้างแท
nrml Mon, 14/03/2016 - 21:48
ต่อไประบบคงเรียนรู้และสร้างแท็กดราม่าขึ้นมาเป็นแท็กยอดนิยมแซงแท็กอื่นๆ แบบไม่เห็นฝุ่นเลยก็ได้
พจน์ อานนท์ ?
มายองเนสจัง Mon, 14/03/2016 - 22:42
พจน์ อานนท์ ?
เมือไรจะดูกระทู้แนะนำเก่าๆแบบ
movement41 Mon, 14/03/2016 - 23:12
เมือไรจะดูกระทู้แนะนำเก่าๆแบบไม่ต้องไปหาเอง เวลากระทู้ตกหน้าแนะนำไปหาลำบากมาก
ตอบเอาไว้สิครับ
thep497 Tue, 15/03/2016 - 10:23
In reply to เมือไรจะดูกระทู้แนะนำเก่าๆแบบ by movement41
ตอบเอาไว้สิครับ จะได้ไปอยู่ในประวัติของเรา หรือทำ bookmark ไว้ก็ได้ถ้าเล่นผ่าน web
ผมไม่ได้ตามทุกกระทู้นะครับ
movement41 Wed, 16/03/2016 - 02:22
In reply to เมือไรจะดูกระทู้แนะนำเก่าๆแบบ by movement41
ผมไม่ได้ตามทุกกระทู้นะครับ กระทู้เก่าๆจะไปขุดจากไหน
ทำไมต้อง พจน์ อานนท์
alph501 Tue, 15/03/2016 - 09:03
ทำไมต้อง พจน์ อานนท์
เดาเอานะสำหรับคนที่สงสัยว่าทำ
akira Tue, 15/03/2016 - 10:36
เดาเอานะสำหรับคนที่สงสัยว่าทำไม พจน์ อานนท์ คิดว่าเขาใช้ Solr เพื่อแตกคำ ถ้าไปสังเกตุจะเห็นว่าอาจารย์ คือ ดร.อานนท์ ระบบคงอ่านจากเนื้อหา แล้วหาจากคำที่เคยบันทึกในระบบ คงมีการ Group เอาไว้ว่าคำใดมีการค้นหาบ่อย แล้วทำเป็น Auto Tag เก็บไว้ อาจารย์อาจไม่เคยเล่นพันธ์ทิปมันเลยไม่เจอ แต่บังเอิญ พจน์ อานนท์ แบบว่า Pop ในพันทิป เวลาระบบมัน Match มันก็เลยนึกว่าเป็นคนเดียวกัน