Tags:
Node Thumbnail

Pantip.com เปิดตัวฟีเจอร์ใหม่ Auto Tag ระบบจัดแท็กให้กระทู้อัตโนมัติ โดยใช้เทคนิควิเคราะห์คำในกระทู้ตั้งแต่ตอนโพสต์ ระบบจะอ่านข้อความแล้วคัดเลือกแท็กที่น่าจะเกี่ยวข้องมานำเสนอให้ 15 แท็ก (Pantip ใส่ได้ 5 แท็ก) เป้าหมายเพื่อช่วยให้เจ้าของกระทู้เลือกแท็กอย่างแม่นยำขึ้น และลดภาระการดูแลกระทู้ของทีมงานลง

ระบบนี้เป็นความร่วมมือของ Pantip.com, บริษัท อินโนเวทีฟ เอ็กซ์ตรีมิสต์ (INOX) ผู้ดูแลระบบโครงสร้างพื้นฐานไอทีให้ Pantip และภาควิชาวิศกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์

alt="Pantip Auto Tag"

คุณอภิศิลป์ ตรุงกานนท์ ซีทีโอของ Pantip (หรือที่รู้จักกันในชื่อ @macroart) เล่าว่าตอนนี้ Pantip มีคนเข้าเว็บวันละ 4.2 ล้านคน คิดเป็น 16 ล้านเพจวิว มีกระทู้ใหม่วันละ 5,000 กระทู้ ซึ่งเติบโตขึ้นเรื่อยๆ

alt="Pantip Auto Tag"

ห้องยอดนิยมของ Pantip ในปี 2015 คือห้องก้นครัว แต่ตอนนี้ห้องบางขุนพรหม (ข่าวดารา-บันเทิง) ที่เพิ่งเปิดเมื่อกลางปีที่แล้ว แซงหน้ากลายเป็นห้องยอดนิยมอันดับหนึ่งไปแล้ว

alt="Pantip Auto Tag"

แท็กยอดนิยมคือแท็ก "ความรัก" ตามด้วย "ชีวิตวัยรุ่น" และ "หุ้น"

alt="Pantip Auto Tag"

ที่ผ่านมา Pantip ให้เจ้าของกระทู้เป็นฝ่ายเลือกแท็กให้กระทู้เอง ปัญหาที่พบคือ 1) ใส่แท็กไม่เป็น 2) สแปมแท็ก อยากให้คนเห็นเยอะๆ เลยตั้งแท็กหว่านๆ

alt="Pantip Auto Tag"

ทางแก้ของ Pantip คือต้องมีทีมงานตรวจสอบกระทู้อย่างละเอียด และแก้ไขแท็กให้ถูกต้อง ปัจจุบันมีกระทู้ใหม่วันละ 5,000 กระทู้ ถือเป็นงานหนัก ต้องใช้ทีมเว็บมาสเตอร์หลายสิบคนช่วยกันมอนิเตอร์ เปลืองแรงมาก

alt="Pantip Auto Tag"

alt="Pantip Auto Tag"

Pantip จึงปรึกษากับ INOX ในฐานะพาร์ทเนอร์ทางเทคโนโลยี ที่คอยดูแลระบบให้อยู่แล้ว ว่าถ้ามีปัญหาแบบนี้ทำอะไรได้บ้าง ทางออกก็ชัดเจนว่าต้องมีระบบเข้ามาช่วยแยกแยะข้อความในกระทู้ เพื่อนำเสนอแท็กให้ผู้ใช้งาน

การทำระบบนี้ได้ประโยชน์ 2 ต่อ คือ ผู้ใช้เลือกแท็กได้แม่นยำขึ้น โดยไม่ต้องทำอะไรเพิ่ม และช่วยลดภาระของทีมแอดมินลง

alt="Pantip Auto Tag"

ผู้เชี่ยวชาญที่เข้ามาช่วยคือห้องวิจัย MIKE (Massive Information & Knowledge Engineering) ของภาควิชาวิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ ที่มีความชำนาญเรื่องการจัดการข้อมูลขนาดใหญ่อยู่แล้ว

alt="Pantip Auto Tag"

รศ.ดร.อานนท์ รุ่งสว่าง จากห้องวิจัย MIKE อธิบายว่าใช้เทคนิค Big Data และ Machine Learning สร้างระบบนี้ขึ้น กระบวนการของ Machine Learning คือ Pantip มีข้อมูลกระทู้เก่าที่คัดแยกแท็กโดยทีมงานอยู่แล้ว ข้อมูลพวกนี้ใช้เป็น Training Data เพื่อหาโมเดลการแยกแยะข้อมูลได้

alt="Pantip Auto Tag"

รายละเอียดในเชิงเทคนิคคือสร้าง "เวกเตอร์" ของกลุ่มแท็กประเภทต่างๆ ขึ้นมาจากข้อมูลเก่าและโมเดลที่เทรนไว้

alt="Pantip Auto Tag"

เมื่อมีกระทู้ใหม่ถูกส่งเข้ามาในระบบ มันจะถูกมองว่าเป็นเวกเตอร์ใหม่หนึ่งตัว ระบบจะพิจารณา "ทิศทาง" ของเวกเตอร์นั้นจากเนื้อหาของกระทู้ (ด้วย natural language processing) จากนั้นนำเวกเตอร์กระทู้ไปเทียบกับเวกเตอร์ตัวอื่นๆ ที่เคยประมวลผลไว้แล้ว ว่ามีความคล้ายคลึงกันแค่ไหน แล้วจึงคัดเลือกแท็กในกลุ่มเดียวกันให้

alt="Pantip Auto Tag"

ในงานแถลงข่าวมีเดโม โดยใช้เนื้อหากระทู้จากข่าวไฟไหม้ธนาคาร SCB เมื่อคืนนี้ ผลคือระบบแยกแยะคำว่า "อุบัติเหตุ" ได้ แต่กลับไม่แนะนำแท็ก "SCB" ให้ตอนตั้งกระทู้ ซึ่งอธิบายได้ว่าเป็นผลมาจากกลุ่ม "SCB" มักใช้กับแท็ก "การเงิน" หรือ "หุ้น" มากกว่า พอมีเนื้อหาที่ไม่เชื่อมโยงกันนัก ทำให้ระบบยังไม่สามารถจัดกลุ่ม "SCB" กับ "อุบัติเหตุ" เข้าด้วยกันได้

แต่เนื่องจากระบบ Auto Tag ใช้เทคนิค Machine Learning ดังนั้นเมื่อมีเนื้อหาลักษณะนี้มากขึ้น ระบบก็จะเรียนรู้ได้เองว่ามีข่าวแบบนี้ด้วย และจะพัฒนาตัวเองให้นำเสนอแท็กที่แม่นยำขึ้นในภายหลัง

รายละเอียดในแง่การใช้งาน อ่านได้จาก เปิดตัวฟีเจอร์ใหม่ : Auto Tag

No Description

Get latest news from Blognone

Comments

By: plagapong
AndroidRed Hat
on 14 March 2016 - 18:00 #893522

"พอดีเข้าห้องนี้บ่อยเลยขอ tag ห้องนี้นะครับ/คะ" เจอตรรกะแบบนี้เข้าผมก็ปวดหัวแทน mod เหมือนกัน

By: Sephanov
iPhoneUbuntu
on 14 March 2016 - 18:03 #893524
Sephanov's picture

อ่านกระทู้ในพันทิปทีไร ต้องกลอกตามองบนทุกที

By: sariarty
ContributoriPhoneAndroidRed Hat
on 14 March 2016 - 18:06 #893527
sariarty's picture

หมอประจำห้อง สุขภาพจิต ไปไหนไม่รู้ T^T


ข้าขอทรยศต่อคนทั้งโลก ดีกว่าให้ใครมาทรยศข้า

By: panurat2000
ContributorSymbianUbuntuIn Love
on 14 March 2016 - 19:11 #893537
panurat2000's picture

และภาควิชาวิศกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์

วิศกรรม => วิศวกรรม

By: crucifier
iPhoneAndroidUbuntu
on 14 March 2016 - 19:57 #893543

ชอบเข้าหว้ากอบ่อยพอๆ กับเข้าบล็อกนัน แต่โดนยึดอมยิ้มไปละ ไปอธิบายสาเหตุที่เฟสบุ๊กไม่ขึ้นรูปโปรไฟล์ลายธงชาติไทยกรณีระเบิดราชประสงค์เหมือนเหตุระเบิดที่ฝรั่งเศส ตอนนั้นคนเข้าใจผิดกันเยอะว่าเฟสบุ๊คเคารพกฎหมายเกี่ยวกับธงชาติของไทย ซึ่งความจริงมันไม่ใช่ แต่คงแทงใจดำพวกคลั่งชาติเยอะไปหน่อย

By: Kittichok
Contributor
on 14 March 2016 - 20:09 #893545

เห็นสถิติจำนวนกระทู้และความคิดเห็นแล้วเหนื่อยเลย ตอนแรกคิดว่าน่าจะเยอะแล้ว นี่สถิติบอกเยอะกว่าไปมากเลย หวังว่าระบบนี้จะช่วยแบ่งเบาทีมงานได้ล่ะนะ แล้วเอาเวลาไปจัดการปัญหาอื่นให้ดีขึ้น

ป.ล. กังวลว่าระบบจะเพิ่มแท็ก "ราชดำเนิน" เองจังฮะ หลายกระทู้ทางเจ้าของกระทู้ก็ไม่ได้เลือกแท็กนี้ แต่หลายความคิดดันโยงไปการเมืองได้ยังไงไม่รู้ กลัวระบบจะเรียนรู้ในส่วนไม่ดีนี้

By: gosol
AndroidWindows
on 14 March 2016 - 20:16 #893550
gosol's picture

ถ้าเลือกแท็กมาจากกระทู้เก่าๆได้ ถ้าเป็นกระทู้คำถามน่าจะแสดงกระทู้เก่าๆขึ้นมาก่อนตั้งกระทู้ใหม่ก็ดี กระทู้จะได้ไม่ซ้ำ(แถมลดภาระการจัดเก็บ) อย่างพวกถามนี่ตัวอะไร ถ้าผู้ชายทำอย่างนี้หมายความว่ายังไงคะ เขารักเรารึเปล่าโน่นนี่ คำตอบไม่เก่าเกินไป หรือเก่าก็แสดงๆไปก็ไม่เสียหายไร

By: proxima
iPhoneAndroid
on 14 March 2016 - 20:19 #893553
proxima's picture

คนที่ดูแล server pantip เก๋า นะเนี่ยะ
รับโหลดได้เยอะขนาดนี้ เมพมาก

By: likito
iPhone
on 14 March 2016 - 20:23 #893555

ขำตรง tag พจน์ อานนท์

By: 255BB
Android
on 14 March 2016 - 21:37 #893564

หลังๆ ไม่ได้เข้าเลย กระทู้ไม่ค่อยน่าสนใจ แต่ยังจำเลขสมาชิกตัวเองได้ (85000) คนที่เลขสมาชิกหลักพันนี่รุ่นลายครามเลย มาพร้อมยุคก่อตั้งเว็บ

By: nrml
ContributorIn Love
on 14 March 2016 - 21:48 #893567
nrml's picture

ต่อไประบบคงเรียนรู้และสร้างแท็กดราม่าขึ้นมาเป็นแท็กยอดนิยมแซงแท็กอื่นๆ แบบไม่เห็นฝุ่นเลยก็ได้

By: มายองเนสจัง
iPhone
on 14 March 2016 - 22:42 #893579
มายองเนสจัง's picture

พจน์ อานนท์ ?

By: movement41
Windows PhoneAndroidWindows
on 14 March 2016 - 23:12 #893584

เมือไรจะดูกระทู้แนะนำเก่าๆแบบไม่ต้องไปหาเอง เวลากระทู้ตกหน้าแนะนำไปหาลำบากมาก

By: thep497
Windows PhoneAndroidWindows
on 15 March 2016 - 10:23 #893672 Reply to:893584
thep497's picture

ตอบเอาไว้สิครับ จะได้ไปอยู่ในประวัติของเรา หรือทำ bookmark ไว้ก็ได้ถ้าเล่นผ่าน web

By: movement41
Windows PhoneAndroidWindows
on 16 March 2016 - 02:22 #894019 Reply to:893584

ผมไม่ได้ตามทุกกระทู้นะครับ กระทู้เก่าๆจะไปขุดจากไหน

By: alph501
iPhoneWindowsIn Love
on 15 March 2016 - 09:03 #893643
alph501's picture

ทำไมต้อง พจน์ อานนท์

By: akira on 15 March 2016 - 10:36 #893680

เดาเอานะสำหรับคนที่สงสัยว่าทำไม พจน์ อานนท์ คิดว่าเขาใช้ Solr เพื่อแตกคำ ถ้าไปสังเกตุจะเห็นว่าอาจารย์ คือ ดร.อานนท์ ระบบคงอ่านจากเนื้อหา แล้วหาจากคำที่เคยบันทึกในระบบ คงมีการ Group เอาไว้ว่าคำใดมีการค้นหาบ่อย แล้วทำเป็น Auto Tag เก็บไว้ อาจารย์อาจไม่เคยเล่นพันธ์ทิปมันเลยไม่เจอ แต่บังเอิญ พจน์ อานนท์ แบบว่า Pop ในพันทิป เวลาระบบมัน Match มันก็เลยนึกว่าเป็นคนเดียวกัน