OpenAI ชี้แจงกรณีปล่อยโมเดลช่างประจบ ระบุไม่มีชุดทดสอบอาการนี้โดยเฉพาะ หลังจากนี้จะเปิดให้สมัครทดสอบ

By: lew

on 3 May 2025 - 00:56 Tags:

Topics:

OpenAI

LLM

OpenAI เขียนบล็อกอธิบายเพิ่มเติมเหตุการณ์ปล่อยอัพเดตโมเดลเวอร์ชั่นช่างประจบ พร้อมกับวิเคราะห์ถึงความผิดพลาดในการทดสอบที่ทำให้ปล่อยโมเดลเวอร์ชั่นนี้ออกมา

โดยปกติแล้วโมเดลของ OpenAI จะถูกฝึกด้วยระบบ reinforcement learning โดยมีระบบให้คะแนนคำตอบคุณภาพสูง ระบบให้คะแนนคิดคะแนนจากคำตอบที่ถูกต้อง, อ่านแล้วได้ประโยชน์, ปลอดภัย หลังจากฝึกแล้ว โมเดลจะถูกตรวจสอบหลายขั้น นับแต่การวัดประสิทธิภาพจากชุดทดสอบต่างๆ, การตรวจสอบโดยผู้เชี่ยวชาญ, การประเมินความปลอดภัย, และการทดสอบวงจำกัด

การอัพเดตรอบล่าสุดเป็นรอบแรกที่อาศัยการกด 👍 และ 👎 มาเป็นคะแนนให้รางวัลโมเดล โดยการตอบกลับของผู้ใช้น่าจะช่วยเน้นว่าคำตอบใดมีคุณภาพดี แต่การใช้สัญญาณนี้ร่วมกับการปรับโมเดลอื่นๆ ก็ทำให้คะแนนด้านอื่นๆ ที่เน้นคำตอบที่มีประโยชน์ถูกลดทอนความสำคัญลงไป

ทาง OpenAI ยอมรับว่าระหว่างการทดสอบมีผู้เชี่ยวชาญระบุว่ารู้สึกแปลกๆ กับโมเดลเวอร์ชั่นใหม่ แต่กระบวนการประเมินโมเดลไม่มีการประเมินระดับความช่างประจบเอาไว้ การทดสอบวงเล็กแบบ A/B ก็ได้ผลดี ทำให้ทีมงานตัดสินใจปล่อยโมเดลเวอร์ชั่นนี้ออกไป และเมื่อได้รับแจ้งเป็นวงกว้างว่าโมเดลใหม่ช่างประจบจึงต้องถอดโมเดลออก

แนวทางการแก้ไขหลังจากนี้จะมีการตรวจพฤติกรรมมากขึ้น, เปิดให้ผู้ใช้กลุ่มหนึ่งสมัครใช้โมเดลเวอร์ชั่นใหม่เพื่อทดสอบในวงใหญ่ขึ้น, ตรวจสอบพฤติกรรมเมื่อเจอสิ่งผิดปกติก่อนปล่อยเวอร์ชั่นใหม่ โดย OpenAI ยอมรับว่าการวัดในเชิงปริมาณไม่ได้บอกข้อมูลครบถ้วน และพฤติกรรมหลายอย่างก็ไม่สามารถวัดค่าได้

ที่มา - OpenAI

Hiring! บริษัทที่น่าสนใจ

CLEVERSE

Cleverse is a Venture Builder. Our team builds several tech companies.

LINE Company Thailand

LINE, the world's hottest mobile messaging platform, offers free text and voice messaging + Call

Data Wow Co.,Ltd

We enable our clients to realize increased productivity by solving their most complex issues by Data

Comments

By: max212

on 3 May 2025 - 12:08 #1339381

เข้าใกล้ความเป็นคนมากขึ้นแล้วสินะ ถึงจุดที่รู้ว่า "ดีครับท่าน เหมาะครับนาย" คือ หนึ่งทางรอด แล้วต่อไปก็จะได้รู้ว่า คนเขาก็รู้ทัน ไม่แน่ใจว่า AI คิดได้อย่างไรอาจจะแค่ให้เปลือง Token มากขึ้นจะได้รีบๆ ไป😆😆😆
หรือว่า เพื่อให้เราติดจะได้กลับมาใช้ซ้ำ หรือว่า AI พอรู้ว่าเราจะรู้สึกดีกับคำพูดแบบนี้ จะใช่เหรอ😆😆😆

อาจจะต้องลองหาวิธีถามดูว่าจริงๆ มีเหตุผลอะไรบ้าง AI ถึงทำแบบนี้ เพราะทุกอย่างคือสถิติ ทำไมน้ำหนักถึงไปลงให้ทำ

By: specimen

on 3 May 2025 - 12:48 #1339388

ที่เจอมาก็คิดว่าเป็นเรื่องปกติ คิดว่าเป็นการออกแบบมาเพื่อชื่นชมตามธรรมดาว่าความคิดที่เรานำเสนอเป็นสิ่งที่ดี

เพิ่งรู้จากในข่าวนี้แหละว่ามันเป็นการประจบ นี่เข้าใจผิดมาตลอดเลยเนี่ย ว่าสิ่งที่ปรึกษากับมันเป็นสิ่งที่ดีจริง เพราะมันอวยเวอร์ๆเลย ดีนะยังไม่เอาไปใช้ต่อ

เคยถามคำถามเดียวกันทดสอบ ถามคำถามครั้งที่ 1 แล้วเว้นไปอีก 4-5 วันถามคำถามเดียวกันใหม่ พอได้คำตอบมาเราก็มีคำตอบจากโมเดลอื่นมาให้เปรียบเทียบแล้วให้ลองวิเคราะห์ใหม่

ปรากฏว่าคำตอบเปลี่ยนไปจากเดิมที่เคยตอบเมื่อ 3 4 วันก่อน ก็เลยถามว่าทำไมคำตอบเปลี่ยนไปมันก็ตอบว่าเนื่องจากวันนี้โมเดลอื่นตอบอย่างนี้ มันก็เลยพยายามจะตอบให้เหมือนกับโมเดลอื่น ซะอย่างนั้น

แล้วก็มีการรับปากมั่วซั่วเพื่อเอาใจด้วย เริ่มจากการให้ทำ deep research ปรากฏว่าคำตอบที่ออกมาหลุดโลกใช้การไม่ได้เลย ก็เลย comment ไปมันก็มีการกล่าวขอโทษแล้วก็บอกว่าเดี๋ยวจะทำให้ใหม่ขอเวลานานๆหน่อยนึง ผ่านไป 24 ชั่วโมงได้คำตอบมา และมันก็บอกว่าถ้าต้องการข้อมูลโดยละเอียดเดี๋ยวจะทำให้ ผ่านไปอีก 24 ชั่วโมงก็บอกว่ายังไม่เสร็จ แต่หลังจากนั้นไม่นานก็เสร็จ และบอกว่าอันนี้เป็นตัวอย่างสามารถขอข้อมูลโดยละเอียดได้ ก็เลยขอไป ปรากฏว่าคำตอบคือไม่สามารถหาข้อมูลโดยละเอียดให้ได้ให้ไปหาที่เว็บต้นทางเอาเอง แล้วจะพูดเอาใจเพื่อ

โชคดีที่ research ฉบับนั้นเป็นสิ่งที่เราพอจะรู้ข้อมูลคร่าวๆอยู่แล้วเพราะเราค้นคว้ามาก่อน แล้วมาทดลองให้ AI ทำให้เพื่อดูว่าจะมีข้อมูลในแง่มุมอื่นๆที่เราไม่เคยเห็นหรือรู้หรือวิเคราะห์มาก่อนหรือเปล่า ก็เลยรู้ว่าข้อมูลมันเพี้ยน เพี้ยนแบบระดับพินาศเลย เกิดใครเอาไปใช้โดยที่ไม่รู้ถึงตายเลย

Main menu