สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทยปล่อยโมเดล deep learning แปลไทย-อังกฤษ พร้อมชุดข้อมูล 1 ล้านคู่ประโยค

By lew

on 23 June 2020 - 22:38 Tag: Thailand, Artificial Intelligence

Thailand

สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (VISTEC-depa Thailand Artificial Intelligence Research Institute) ปล่อยโมเดล deep learning แบบ Transformer ที่ฝึกด้วย toolkitfairseq ของเฟซบุ๊ก ที่ฝึกกับชุดข้อมูลแปลภาษาไทย-อังกฤษมาแล้ว 1 ล้านคู่ประโยค พร้อมปล่อยชุดข้อมูล โดยได้คะแนน BLEU เหนือกว่า Google Translate API

ทางสถาบันสร้างชุดข้อมูลโดยอาศัยทั้งการจ้างนักแปลโดยตรง, จ้างจากแพลตฟอร์ม crowdsourcing, ใช้นักแปลตรวจสอบการแปลของ Google Translate API, ไปจนถึงเอกสารที่มีการแปลอยู่แล้ว เช่น เอกสารราชการหรือวิกิพีเดีย

โมเดล Transformer เป็นโมเดลที่กูเกิลเสนอไว้ตั้งแต่ปี 2017 และโมเดลในกลุ่มนี้ยังคงเป็นกลุ่มที่มีความแม่นยำสูงสุด ทางสถาบันวิจัยปัญญาประดิษฐ์ใช้โมเดล Transformer แบบพื้นฐานขนาด 74 ล้านพารามิเตอร์ แล้วทดสอบคะแนนด้วยชุดข้อมูล IWSLT 2015 จำนวน 4,242 ประโยค สร้างโมเดลแปลที่ความแม่นยำตามคะแนน BLEU สูงขึ้นกว่าเดิม โดยก่อนหน้านี้ทางสถาบันเคยใช้ชุดข้อมูล OPUS ขนาด 5.4 ล้านประโยคในการสร้างปัญญาประดิษฐ์แบบเดียวกันมาก่อนแล้ว

ที่มา - AIResearch.in.th 1, 2

Hiring! บริษัทที่น่าสนใจ

Carmen Software

Hotel Financial Solutions

Next Innovation (Thailand) Co., Ltd.

We are web design with consulting & engineering services driven the future stronger and flexibility.

KKP Dime

KKP Dime บริษัทในเครือเกียรตินาคินภัทร

Kiatnakin Phatra Financial Group

Financial Service

Fastwork Technologies

Fastwork.co เว็บไซต์ที่รวบรวม ฟรีแลนซ์ มืออาชีพจากหลากหลายสายงานไว้ในที่เดียวกัน

Thoughtworks Thailand

Thoughtworks เป็นบริษัทที่ปรึกษาด้านเทคโนโยลีระดับโลกที่คว้า Great Place to Work 3 ปีซ้อน

Iron Software

Iron Software is an American company providing a suite of .NET libraries by engineer for engineers.

CLEVERSE

Cleverse is a Venture Builder. Our team builds several tech companies.

Nipa Cloud

#1 OpenStack cloud provider in Thailand with our own data center and software platform.

Bangmod Enterprise

The leader in Cloud Server and Hosting in Thailand.

CIMB THAI Bank

MOVING FORWARD WITH YOU - CIMB is the leading ASEAN Bank

Bangkok Bank

Bangkok Bank is one of Southeast Asia's largest regional banks, a market leader in business banking

MuvMi (Urban Mobility Tech Co.,Ltd.)

Shape the future of urban mobility towards affordable, clean, and safe solutions

T.N. Digital Solution Co., Ltd.

TNDS has been involving in every first move of banking’s major digital transformation.

KBTG - KASIKORN Business-Technology Group

KBTG - "The Technology Company for Digital Business Innovation"

Siam Commercial Bank Public Company Limited

"Let's start a brighter career future together"

Icon Framework co.,Ltd.

Global Standard Platform for Real Estate แพลตฟอร์มสำหรับธุรกิจอสังหาริมทรัพย์ครบวงจร มาตรฐานระดับโลก

REFINITIV

The Financial and Risk business of Thomson Reuters is now Refinitiv

H LAB

Re-engineering healthcare systems through intelligent platforms and system design.

The Gang Technology Co., Ltd.

We're a Digital Agency that helps our customers transform their business into digital with ease.

LTMH

LTMH มุ่งเน้นการพัฒนาผลิตภัณฑ์ที่สามารถช่วยพันธมิตรของเราให้บรรลุเป้าหมาย

Seven Peaks

We Drive Digital Transformation

Wisesight (Thailand) Co., Ltd.

The Best Choice For Handling Social Media · High Expertise in Social Data · Most Advanced and Secure

MOLOG Tech

We are Modern Logistic Platform, Specialize in WMS, OMS and TMS.

Data Wow Co.,Ltd

We enable our clients to realize increased productivity by solving their most complex issues by Data

LINE Company Thailand

LINE, the world's hottest mobile messaging platform, offers free text and voice messaging + Call

LINE MAN Wongnai

Join our journey to becoming No.1 food platform in Thailand

ถ้าประเทศไทย มี dataset

kora Tue, 23/06/2020 - 22:49

ถ้าประเทศไทย มี dataset เยอะพอ จะได้วิจัย AI ได้ก้าวหน้า แข่งกับต่างประเทศได้ครับ.

ทรัพยากรต้องอยู่ในระดับ

lew Tue, 23/06/2020 - 23:34

ทรัพยากรต้องอยู่ในระดับ "พอไหว" ด้วยครับ โมเดล deep learning เดี๋ยวนี้ใหญ่เกินการ์ดจอ consumer ไปไกล (น่าจะเป็นความตั้งใจของ NVIDIA ที่อั้นแรมไว้) เจอโมเดลใหม่ๆ นี่เทรนทำซ้ำยังไม่ไปเลย

อย่างเคสนี้ของทางสถาบันก็ใช้ DGX-1 มารันได้ ตามมหาวิทยาลัยนี่ก็อาจจะต้องจัดหา Tesla/Quadro แรมเยอะๆ มาให้นักวิจัยใช้งานกันได้สะดวกๆ หน่อย

ผมว่า Nvidia

phurich Wed, 24/06/2020 - 06:31

ผมว่า Nvidia ไม่ได้อั้นแรมหรอกครับ แต่ลูกค้าขาดเงินมากกว่า ถ้ามีเงินก็บอก Nvidia ไปว่าจะเอาแรมเท่าไร เงินถึง ผมว่ายังไงเค้าก็ผลิตให้ครับ

งานนี้เราใช้ V100

cstorm Wed, 24/06/2020 - 09:54

งานนี้เราใช้ V100 ในการเทรนไม่ใช่ DGX-1 แต่โมเดล transformers-base นี้เทรนด้วย GPU ฟรีของ Google Colab หรือ Kaggle ได้ครับ ถ้าในระดับประมาณ 5 ล้านคู่ประโยคเท่าที่เรามีอยู่

data ผมว่ามีอยู่แล้ว

phurich Wed, 24/06/2020 - 06:28

data ผมว่ามีอยู่แล้ว แต่น่าจะขาดคนรวบรวม วิเคราะห์ และนำมาใช้ ส่วนหนึ่งต้องยอมรับว่า ทำไปก็ไม่ได้เงิน ทำไปขายได้แค่ตลาดเล็ก ๆ ในประเทศ ได้แต่ใช้เอง ทำไปตลาดต่างประเทศก็ไม่สนใจผลงานของเรา เทคโนโลยีจากประเทศไทย vs เทคโนโลยีจากสหรัฐอเมริกา อืม..แค่ฟังชื่อความรู้สึกก็ต่างกันแล้วครับ มวยรองถ้าจะชนะต้องเอาถึงขั้นน็อคครับ สูสียังไงก็แพ้ แต่ว่ากันเป็นขั้น เอาให้พึ่งพาตัวเองได้ก่อน เพราะตอนนี้อะไร ๆ เราก็ใช้ของนอกครับ แค่ทำเว็บยังใช้ framework เมืองนอกทั้งนั้น

framework มัน opensource

varshard Fri, 26/06/2020 - 14:20

framework มัน opensource ไม่มีประเทศหรอกครับ ใครอยาก contribute ก็ช่วยกัน contribute เข้าไป

ต้องมีดาต้าถึงจะขับเคลื่อนไปไ

tg-thaigamer Tue, 23/06/2020 - 23:55

ต้องมีดาต้าถึงจะขับเคลื่อนไปได้ 555

ในรูปนั่นแปลตกใช่ไหม

Lightwave Wed, 24/06/2020 - 00:01

ในรูปนั่นแปลตกใช่ไหม

ตลาดเอเชียหายไปไหนเลย

adente Wed, 24/06/2020 - 09:33

ตลาดเอเชียหายไปไหนเลย

พึ่งรู้ว่ามีสถาบันแบบนี้ในไทย

Sephanov Wed, 24/06/2020 - 06:52

พึ่งรู้ว่ามีสถาบันแบบนี้ในไทยด้วย

เพิ่งก่อตั้งและให้ทุนโดย ปตท

psemanssc Thu, 25/06/2020 - 03:27

เพิ่งก่อตั้งและให้ทุนโดย ปตท เหมือนจะมีแต่ Graduated School รวมอาจารย์เก่งๆ นักศึกษาเก่งๆไว้เยอะอยู่ครับเท่าที่ได้ข่าว คล้ายๆโรงเรียนกำเนิดวิทย์ซึ่งตอนนี้บางคนบอกว่าดีกว่ามหิดลวิทยานุสรณ์อีกเข้ายากมาก

เฉพาะการแปลคำไม่ใช่สิ่งที่ยาก

TheOrbital Wed, 24/06/2020 - 09:16

เฉพาะการแปลคำไม่ใช่สิ่งที่ยากมากนัก แต่การจัดเรียงคำเป็นรูปประโยคสิยาก อย่างตัวอย่างในภาพ การวางตำแหน่งคำยังแปลกๆอยู่

ถ้าแบบไม่มีความรู้ด้านนี้ว่า

redondo16 Wed, 24/06/2020 - 10:26

ถ้าแบบไม่มีความรู้ด้านนี้ว่า ยังไม่ได้ให้ user ทั่วไปใช้ใช่ไหมครับ
แบบว่าโหลดมาเปิดในโปรแกรม python แล้วลอง run ดูได้เลย

ลองได้ครับ

TNkyo Wed, 24/06/2020 - 11:12

ลองได้ครับ
จาก link ต้นทาง

นอกจากนี้ทางศูนย์วิจัยได้เตรียม Jupyter Notebook สำหรับการทดสอบการรันโมเดล Machine Translation ได้โดยทันทีผ่าน Google Colaboratory

กดเข้าไปแล้ว Copy to Drive
จากนั้นเลือก Runtime->Run all ก่อน 1 ครั้งเพื่อติดตั้งแพคเกจและโหลดโมเดล
ลองเปลี่ยน input_sentence แล้วกด run cell นั้นได้เลย

ขอบคุณครับ

redondo16 Wed, 24/06/2020 - 12:01

ขอบคุณครับ ลองแปะประโยคสั้นๆดูก็ยังมีแปลแปลกๆแต่ก็โอเคนะครับ เดี๋ยวค่อยลองไปเรื่อยๆ
Chelsea confirm Willian and Pedro have signed short-term contracts to stay until the end of the season.

แปลว่า

Chelsea ยืนยัน Musa และ Pedro ได้ลงนามในสัญญาระยะสั้นที่จะอยู่จนกระทั่งสิ้นสุดฤดูกาล