LMSYS เว็บจัดอันดับแชตบอตแบบอาศัยการส่งคำตอบจากแชตบอตหลายตัวให้ผู้ใช้เลือกตัวที่ดีกว่า เปิดผลสัปดาห์ล่าสุดพบว่า Gemini 1.5 Pro รุ่นทดสอบ 0801 เอาชนะ GPT-4o จนขึ้นที่หนึ่งได้เป็นครั้งแรก
โมเดลเวอร์ชั่น 0801 นี้สามารถใช้งานได้ใน AI Studio ยังไม่ได้เปิดใช้ใช้งานเป็นวงกว้างนัก ขณะที่ Gemini Advanced ก็ตามมาอยู่อันดับ 4 ร่วมกับ Claude 3.5 Sonnet และ Llama 3.1 405B ซึ่งเป็นครั้งแรกๆ ที่โมเดลแบบโอเพนซอร์สขึ้นอันดับสูงขนาดนี้
แม้ว่าอันดับรวมจะเป็นที่หนึ่ง แต่เมื่อแยกเฉพาะหัวข้อแล้วก็อาจจะมีอันดับต่างกันไป เช่น เมื่อพบคำถามยากๆ GPT-4o ยังชนะอยู่ หรือหากเป็นการเขียนโปรแกรม Claude 3.5 Sonnet ก็ยังเป็นที่หนึ่ง
กูเกิลเคยได้อันดับสูงสุดบน LMSYS เมื่อต้นปีที่ผ่านมา เป็นอันดับสอง ในตอนที่ใช้ Gemini Pro
ที่มา - LMSYS

on
gemini
checkmate95 Fri, 02/08/2024 - 20:16
gemini นี่มั่วยับมากสั่งเข้าไป prompt 1 กับ prompt2 เหมือนจำไม่ได้ว่ากำลังคุยเรื่องอะไร ให้คำตอบไม่สัมพันธ์กันฟีเจอร์ที่ให้ช่วยงานได้จริงๆค่อนข้างน้อย อ่านรูปก็ไม่เก่ง อ่านไฟล์ก็ไม่ค่อยได้ 🙄 ถ้าให้คะแนนแบบ use case จริงๆให้สอบตกในสามค่ายใหญ่
ถ้า gemini ปกติในเว็บ
Fzo Sat, 03/08/2024 - 00:37
In reply to gemini by checkmate95
ถ้า gemini ในเว็บปกติ (ที่ไม่ใช่ aistudio) ตอนนี้น่าจะเป็นโมเดล gemini 1.5 flash แล้วครับ ซึ่งไม่ได้ติด top 10 ในบอร์ดนี้
สุดท้ายก็มาเทรนเอาคะแนนทดสอบ
platalay Fri, 02/08/2024 - 20:26
สุดท้ายก็มาเทรนเอาคะแนนทดสอบ แต่ใช่งานจริงกาก
Advance ไมกากจังเสียเงินนะ
zda98 Fri, 02/08/2024 - 22:13
Advance ไมกากจังเสียเงินนะ
กากมากจริงคุยไม่รู้เรื่อง
hidap Sat, 03/08/2024 - 00:05
กากมากจริงคุยไม่รู้เรื่อง
ไปอ่านๆ ใน reddit
Fzo Sat, 03/08/2024 - 00:30
ไปอ่านๆ ใน reddit เหมือนเขาจะไม่ค่อยเชื่อถือบอร์ดนี้เท่าไรแล้วครับ ไม่รู้เพราะปั่นกันง่ายหรืออย่างไร อย่าง gpt-4o-mini นี่ไม่ควรไปอยู่อันดับ 3 ได้
ส่วน gemini บางทีนี่เซ็นเซอร์เยอะมากจนน่ารำคาญเหมือนกัน อ้างว่าต้องเป็นกลาง หรือมีความละเอียดอ่อน
ฝั่ง API มันปิด censor
lew Sat, 03/08/2024 - 21:55
In reply to ไปอ่านๆ ใน reddit by Fzo
ฝั่ง API มันปิด censor ได้นะครับ
ปิดเป็น NONE
Fzo Sun, 11/08/2024 - 23:18
In reply to ฝั่ง API มันปิด censor by lew
ปิดเป็น NONE แล้วก็ยังไม่ได้ครับ 55
เจอปัญหาอะไรหรือครับ
lew Mon, 12/08/2024 - 10:43
In reply to ปิดเป็น NONE by Fzo
เจอปัญหาอะไรหรือครับ เมื่อเดือนก่อนผมเจอปัญหา RECITATION บ่อยมาก แต่ทางกูเกิลแจ้งว่าแก้ไขแล้วก็เจอน้อยลงจริง