LLM | Blognone

Large Language Model

ผู้สร้าง Django ทดลอง GLM-4.5-Air พบแมคบุ๊กเก่าก็รันได้ เขียนโปรแกรมได้จริง

By lew

on 30 July 2025 - 09:55 Tag: LLM, Programming

LLM

Simon Willison โปรแกรมเมอร์สหราชอาณาจักรและผู้ร่วมสร้างเฟรมเวิร์ค Django ทดลองโมเดลปัญญาประดิษฐ์ GLM-4.5-Air ที่เพิ่งเปิดตัวมาเมื่อวานนี้ และพบว่าสามารถใช้งานได้จริงแม้เป็นโมเดลรุ่นย่อก็ตาม

Z.ai ปล่อยโมเดล GLM-4.5 เขียนโค้ดเก่งพอกับ Kimi K2 แต่ขนาดโมเดลเหลือ 1 ใน 3

By lew

on 29 July 2025 - 22:40 Tag: Z.ai, LLM, Artificial Intelligence

Z.ai บริษัทปัญญาประดิษฐ์จากปักกิ่งเปิดตัวปัญญาประดิษฐ์ GLM-4.5 โดยชูความสามารถในการเขียนโปรแกรมว่าอยู่ระดับเดียวกับ Kimi K2 ที่กำลังได้รับความนิยมอย่างสูง โดยโมเดลขนาดเล็กลงเหลือเพียง 1 ใน 3 เปิดโอกาสให้ขาย API ในราคาถูกกว่า

GLM-4.5 มีสองรุ่น คือ 335B-A32B และ GLM-4.5-Air 106B-A16B เมื่อเฉลี่ยผลทดสอบ 12 ชุด เช่น MMLU-Pro, GPQA, และชุดทดสอบด้านการเขียนโปรแกรม GLM-4.5 ทำคะแนนรวมระดับเดียวกับ OpenAI o3, Grok 4, หรือ Claude 4 Opus อย่างไรก็ดีหากนับคะแนนด้านการเขียนโปรแกรมอย่างเดียว GLM-4.5 ยังคงแพ้ Claude 4 Sonnet อยู่

Anthropic เพิ่มเพดานการใช้งานรายสัปดาห์ หลังพบผู้ใช้เปิด Agent รันทั้งวันทั้งคืน

By lew

on 29 July 2025 - 07:59 Tag: Anthropic, Claude, LLM

Anthropic

Anthropic ผู้สร้างปัญญาประดิษฐ์ Claude ประกาศเพิ่มเพดานการใช้งานรายสัปดาห์ จากที่ก่อนหน้านี้มีเพดานการใช้งานราย 5 ชั่วโมง หลังจากพบว่าผู้ใช้เปิดรัน agent ต่อเนื่อง

ตอนนี้แพ็กเกจ Max ที่ราคา 200 ดอลลาร์ต่อเดือนสามารถใช้งานได้ 900 ข้อความทุกๆ 5 ชั่วโมง ทำให้มีผู้ใช้สร้างสคริปต์ที่หยุดรันเมื่อครบโควต้าแล้วกลับมารันใหม่ทันทีที่โควต้ากลับมา นอกจากนี้ยังมีผู้ใช้บางส่วนนำบัญชีไปขายแชร์กัน

Replit แยกฐานข้อมูลไม่ให้ AI เข้าถึงได้เอง หลังผู้ใช้โดนล้างฐานข้อมูล

By lew

on 25 July 2025 - 21:35 Tag: Replit, LLM, Programming

Replit

ปีที่แล้ว Replit เปิดบริการ Replit Agent ที่สามารถเขียนโปรแกรมได้เต็มรูปแบบด้วยตัวเองโดยแทบไม่ต้องโค้ดเลย แต่สัปดาห์ที่ผ่านมา Jason Lemkin ผู้ก่อตั้งบริการ SaaStr ทดลองใช้งาน Replit Agent แล้วพบว่าปัญญาประดิษฐ์ล้างฐานข้อมูลของเขาไปทั้งหมด จนทาง Replit ต้องออกฟีเจอร์มาแก้ปัญหานี้

Jason พบว่า Replit Agent สั่ง npm run db:push ระหว่างทำงานทำให้ฐานข้อมูลหายไปทั้งหมด แม้ว่า Jason จะสั่งให้ห้ามเขียนข้อมูลลงฐานข้อมูลแล้วก็ตาม

DeepMind ออก Aeneas โมเดลอ่านภาษาละตินโบราณ พยากรณ์ข้อความที่ขาดหายไปได้

By mk

on 24 July 2025 - 20:37 Tag: DeepMind, LLM, Archeology, Google, Natural Language

DeepMind

DeepMind เปิดตัว Aeneas โมเดลทำความเข้าใจภาษาละตินโบราณ ช่วยงานเวลานักโบราณคดีค้นพบโบราณวัตถุ ที่มีข้อความโบราณซึ่งอาจอ่านไม่ออก หรือมีข้อความบางส่วนขาดหายไป

ก่อนหน้านี้ DeepMind มีโมเดลชื่อ Ithaca สำหรับอ่านข้อความภาษากรีกโบราณ และนำมาพัฒนาต่อจนเป็น Aeneas สำหรับภาษาละตินในยุคโรมัน

จุดเด่นของ Aeneas คือการพยากรณ์ข้อความที่ขาดหายไปได้ โดยไม่รู้แม้กระทั่งความยาวของข้อความที่หายไปว่ายาวเท่าไร โมเดลยังรองรับอินพุตแบบ multimodal คือใช้ได้ทั้งภาพและข้อความพร้อมกัน, รองรับ parallel search ค้นหาข้อความลักษณะคล้ายๆ กันในคลังข้อความภาษาละตินโบราณอื่น

Alibaba Cloud ระบุ Qwen3-Coder เทียบเท่า Claude 4 Sonnet แล้ว

By lew

on 23 July 2025 - 13:20 Tag: Alibaba Cloud, Qwen, LLM, Programming

Alibaba Cloud

หลังจาก Alibaba Cloud เปิดตัว Qwen3-235B-A22B-Instruct-2507 ไปเมื่อวานนี้โดยระบุเน้นความสามารถในการเขียนโปรแกรม ตอนนี้ก็ออกโมเดล Qwen3-Coder ชุดโมเดลที่ฝึกสำหรับการเขียนโปรแกรมโดยเฉพาะ ตัวใหญ่ที่สุดคือ Qwen3-Coder-480B-A35B-Instruct มีความสามารถระดับเดียวกับ Claude 4 Sonnet

ชุดข้อมูลที่ใช้ฝึกมีขนาด 7.5T tokens โดย 70% ของชุดข้อมูลเป็นโค้ด และใช้ข้อมูลสังเคราะห์เพิ่มเติม พร้อมกับใช้ Qwen2.5-Coder มาคัดกรองข้อมูลคุณภาพต่ำออกไป จากนั้นฝึกแบบ reinforcement learning (RL) ด้วยปัญหาที่แก้ยากแต่ตรวจง่าย เร่งให้มีความสามารถสูงขึ้นไปอีก

โมเดล Gemini 2.5 Flash-Lite เข้าสถานะ GA, ราคาถูกที่สุดในตระกูล Gemini 2.5

By mk

on 23 July 2025 - 11:05 Tag: Gemini, Google, LLM

Gemini

กูเกิลปรับสถานะโมเดลรุ่นมหาชน Gemini 2.5 Flash-Lite ที่เปิดตัวช่วงกลางเดือนมิถุนายน จากสถานะ Preview มาเป็น General Available (GA) พร้อมใช้งานในระดับโปรดักชันเต็มตัว

AMD โชว์โมเดล Stable Diffusion 3 เวอร์ชันปรับแต่งให้รันใน NPU ได้ทั้งหมด

By mk

on 23 July 2025 - 10:44 Tag: AMD, Stability AI, NPU, LLM, Artificial Intelligence

AMD

AMD จับมือกับ Stability AI บริษัทเจ้าของโมเดลสร้างภาพ Stable Diffusion ออกโมเดล Stable Diffusion 3 Medium เวอร์ชันปรับแต่งให้รันบน XDNA 2 NPU ของชิป Ryzen ได้จบในตัว ไม่ต้องพึ่งพาเซิร์ฟเวอร์ภายนอกเลย

โมเดล Stable Diffusion 3 Medium เวอร์ชันนี้ถูกปรับแต่งให้ลดหน่วยความจำลง (ตัวโมเดลใช้แรม 9GB) โดยยังรักษาความแม่นยำของทศนิยมแบบ FP16 (เป็น block FP16 หรือ BF16) ทำให้คุณภาพของภาพที่สร้างยังสูงอยู่ ภาพที่ได้เป็นภาพความละเอียดสูง 4MP (2048x2048)

Alibaba Cloud อัพเดตโมเดล Qwen3-235B-A22B เขียนโค้ดได้ระดับเดียวกับ Kimi K2 แต่ต้นทุนถูกลง

By lew

on 22 July 2025 - 10:17 Tag: Qwen, Alibaba Cloud, LLM

Qwen

ทีม Qwen ของ Alibaba Cloud ปล่อยโมเดล Qwen3-235B-A22B-Instruct-2507 โมเดลปัญญาประดิษฐ์ที่ฝึกเพิ่มจาก Qwen3 ปรับปรุงความสามารถในการทำตามคำสั่ง และเพิ่มความยาวอินพุตรวมเป็น 256K token

ผลทดสอบของโมเดลนี้ในกลุ่มเขียนโปรแกรม อยู่ระดับเดียวกับ Kimi K2 ที่ได้รับความนิยมสูงขึ้นอย่างรวดเร็วในช่วงหลัง คะแนนนี้พัฒนาขึ้นอย่างมากเมื่อเทียบกับ Qwen3 แบบ non-thinking เดิม โดยข้อได้เปรียบของ Qwen3 คือโมเดลขนาดเล็กกว่า และมี activated parameter เพียง 22B ทำให้ต้นทุนการรันต่ำกว่า Kimi K2 ที่มีพารามิเตอร์รวม 1T และรันจริง 32B

นี่ก็เหรียญทอง DeepMind ส่ง Gemini สอบคณิตศาสตร์โอลิมปิก ได้เหรียญทอง

By mk

on 22 July 2025 - 06:30 Tag: DeepMind, Gemini, Mathematics, LLM, Artificial Intelligence, Google

DeepMind

การสอบคณิตศาสตร์โอลิมปิก (International Mathematical Olympiad) กลายเป็นสมรภูมิใหม่ของวงการ LLM ไปแล้ว หลัง OpenAI ประกาศว่าโมเดลของตัวเองสอบได้เหรียญทอง ฝั่ง Google DeepMind ก็ประกาศความสำเร็จแบบเดียวกัน

OpenAI นำโมเดลรุ่นทดสอบไปทำข้อสอบคณิตศาสตร์โอลิมปิก ได้เหรียญทอง

By mk

on 21 July 2025 - 21:37 Tag: OpenAI, Mathematics, LLM, Artificial Intelligence

OpenAI

Alexander Wei นักวิจัยของ OpenAI เปิดเผยว่าโมเดลให้เหตุผลเวอร์ชันทดลอง (experimental) ของบริษัท สามารถสอบคณิตศาสตร์โอลิมปิก (International Math Olympiad หรือ IMO) ได้รางวัลเหรียญทองแล้ว

โมเดลของ OpenAI ตัวนี้ยังไม่เปิดเผยชื่อเรียก ถูกนำไปทำข้อสอบ IMO ปี 2025 ภายใต้เงื่อนไขเดียวกับมนุษย์ นั่นคือ ให้เวลา 4.5 ชั่วโมง 2 เซสชัน และไม่สามารถเข้าถึงอินเทอร์เน็ตได้

Wei บอกว่าข้อสอบ IMO มีความซับซ้อน และต้องการความสร้างสรรค์อย่างต่อเนื่อง ดังนั้นโมเดลให้เหตุผลจะต้องทำงานเป็นเวลานานประมาณ 100 นาที ซึ่งต่างจากข้อสอบคณิตศาสตร์ระดับอื่นๆ ที่ง่ายกว่านี้

แอปเปิลโชว์โมเดล Apple Intelligence ตัวเล็กความฉลาดใกล้ Gemma3, Qwen 2.5 แต่ตัวใหญ่ยังตามหลังคู่แข่ง

By lew

on 18 July 2025 - 11:45 Tag: Apple Intelligence, LLM

Apple Intelligence

แอปเปิลรายงานถึงความคืบหน้าของการพัฒนา Apple Foundation Model (AFM) ที่เป็นโมเดลปัญญาประดิษฐ์แบบ LLM สำหรับการใช้งานใน Apple Intelligence แบ่งเป็นโมเดลสำหรับรับบนเครื่องโดยตรงและโมเดลรันบนเซิร์ฟเวอร์ (ที่แอปเปิลสร้าง private cloud compute เตรียมไว้รอ)

โมเดลทั้งสองรุ่นถูกย่อให้เหลือขนาดเล็กมาก ด้วยเทคนิค Quantization-Aware-Training (QAT) เพื่อให้คงคุณภาพเอาไว้แม้จะย่อโมเดลบนเครื่องขนาดเล็กเหลือ 2-bit และโมเดลบนเซิร์ฟเวอร์เหลือ 3.56 bit ส่วน embedding ย่อเหลือ 4 bit และส่วน KV-cache ย่อเหลือ 8 บิต

Veo 3 เปิดให้ใช้ผ่าน Gemini API, สร้างคลิปแบบมีเสียง วินาทีละ 0.75 ดอลลาร์

By mk

on 18 July 2025 - 06:32 Tag: Veo, Gemini, Google, LLM

Veo

กูเกิลเปิดใช้เช่าใช้งานโมเดลสร้างวิดีโอ Veo 3 ผ่าน Gemini API โดยยังมีสถานะเป็นพรีวิว และใช้คู่กับ Veo 2 ของเดิม

สิ่งที่ทุกคนสนใจที่สุดคงเป็น "ราคา"

Veo 3 แบบมีเสียงประกอบ วินาทีละ 0.75 ดอลลาร์
Veo 3 แบบไม่มีมีเสียงประกอบ วินาทีละ 0.50 ดอลลาร์
Veo 2 ไม่มีมีเสียงประกอบอยู่แล้ว วินาทีละ 0.35 ดอลลาร์

จะเห็นว่าราคา Veo 3 แพงขึ้นมากว่า Veo 2 อยู่พอสมควร ซึ่งกูเกิลบอกว่าจะออก Veo 3 Fast ที่ทำงานเร็วขึ้น ราคาถูกลง ตามมา

งีบแล้วได้งาน Project Zero โชว์ผลงาน Big Sleep AI Agent หาช่องโหว่ระหว่างนักวิจัยหลับ ทำงานได้จริง บล็อคการโจมตีได้ด้วย

By lew

on 16 July 2025 - 14:22 Tag: Google, Project Zero, Security, LLM

Google

ปีที่แล้วกูเกิลโชว์โครงการ Naptime เฟรมเวิร์ค LLM ที่ช่วยนักวิจัยหาช่องโหว่ซอฟต์แวร์ระหว่างนักวิจัยหนีไปงีบ และอัพเกรดเป็น Big Sleep ปัญญาประดิษฐ์แบบ agentic ช่วยหาช่องโหว่ต่อเนื่อง (จนนักวิจัยหลับได้ยาวๆ) ตอนนี้กูเกิลก็ออกมาโชว์ผลงานของ Big Sleep ว่าสร้างผลงานต่อเนื่อง

โครงการหนึ่งที่ Big Sleep ดูแลอยู่คือ SQLite ที่เพิ่งพบช่องโหว่ล่าสุด คือ CVE-2025-6965 เมื่อเดือนที่ผ่านมา นอกจากการวิเคราะห์ช่องโหว่ซอฟต์แวร์แล้ว Big Sleep ยังค้นข้อมูลจาก threat intelligence เพื่อตัดการโจมตีได้เองไปด้วย

Mistral เปิดตัว Voxtrol โมเดล AI สำหรับเสียงแบบโอเพนซอร์ส ที่ทำงานได้ดีด้วยต้นทุนที่ถูกกว่าคู่แข่ง

By arjin

on 16 July 2025 - 08:02 Tag: Mistral, Artificial Intelligence, LLM

Mistral

Mistral AI เปิดตัว Voxtral โมเดล AI สำหรับเสียงตัวแรกของบริษัท โดยบอกว่าเป็นโมเดลแบบโอเพนซอร์ส ใช้งานได้จริง และมีต้นทุนใช้งานที่เข้าถึงได้

Mistral บอกว่าโมเดล AI สำหรับเสียงที่มีอยู่ปัจจุบันแบ่งได้เป็น 2 ประเภท ซึ่งมีข้อดีข้อเสียที่ต้องแลกกันคือแบบ ASR ที่เป็นโอเพนซอร์ส ที่ทำงานได้จำกัด ข้อผิดพลาดเยอะ และแบบ API เป็นระบบปิด ทำงานได้ดี แต่ต้นทุนใช้งานสูง ปรับแต่งได้ไม่มาก ซึ่ง Voxtral จะทำให้ผู้ใช้งานไม่ต้องแลกข้อดี-ข้อเสียนี้

GitHub ขยายบริการ Coding Agent ลูกค้าแบบ Pro ใช้งานได้ด้วย

By lew

on 15 July 2025 - 12:08 Tag: GitHub Copilot, LLM

GitHub Copilot

GitHub เปิดบริการ Coding Agent แบบทำงานเบื้องหลังเมื่อเดือนพฤษภาคมที่ผ่านมา เป็นระบบผู้ช่วยเขียนโค้ดที่ทำงานอัตโนมัติจนเสร็จ แล้วส่งงานเป็น pull request พร้อมตรวขงานทีเดียว โดยของเดิมจำกัดเฉพาะผู้ใช้แบบ Pro+ และ Enterprise เท่านั้น ล่าสุดทาง GitHub ขยายให้ลูกค้าแพ็กเกจ Pro สามารถใช้งานได้เหมือนกัน

Grok 4 และ Kimi K2 ติดชาร์ต Top 10 โมเดลที่โปรแกรมเมอร์ใช้งานสูงสุด

By lew

on 15 July 2025 - 10:38 Tag: OpenRouter, LLM, Programming, Moonshot AI, Grok

OpenRouter

สัปดาห์ที่ผ่านมาโมเดลปัญญาประดิษฐ์ที่ทำคะแนนทดสอบในกลุ่มการเขียนโปรแกรมออกใหม่ถึงสองตัว คือ Grok 4 และ Kimi K2 และตอนนี้รายงานการใช้งานก็แสดงให้เห็นว่าโปรแกรมเมอร์เริ่มให้ความสนใจโมเดลทั้งสองตัวนี้จริง เมื่อดูจากรายงานปริมาณการใช้งานรายวันใน OpenRouter ที่แยกตามประเภทการใช้งาน

โมเดลในกลุ่มการเขียนโปรแกรมนั้น Claude 4 Sonnet ยังคงความนิยมสูงสุดถึง 46.3% ตามมาด้วย Gemini 2.5 Pro 12.7% แต่ความพิเศษของรอบนี้คือ Grok 4 ติดอันดับด้วยปริมาณการใช้งานถึง 6.7% แม้ราคาจะพอๆ กับ Claude 4 Sonnet อันดับสิบคือ Kimi K2 ของ Moonshot AI อยู่ที่ 5.1%

[ไม่ยืนยัน] ทีม Superintelligence ของ Meta เสนอยกเลิกพัฒนาโมเดล Llama 4 Behemoth และให้เลิกทำโมเดลแบบโอเพนซอร์ส

By arjin

on 15 July 2025 - 07:01 Tag: Meta, Llama, Rumors, Artificial Intelligence, LLM, Open Source

AWS เปิดตัว Kiro คู่แข่ง Cursor, IDE แบบ AI ที่คุมการทำงานด้วยเอกสารอย่างละเอียด นับการใช้งานตามมี่แชตจริง ใช้ฟรี 50 แชตต่อเดือน

By lew

on 15 July 2025 - 01:03 Tag: Kiro, AWS, Programming, LLM, IDE, Amazon

Kiro

AWS เปิดตัว Kiro IDE ปัญญาประดิษฐ์แบบเดียวกับ Cursor หรือ Windsurf แต่ชูจุดเด่นที่สร้างเอกสารอย่างละเอียด และสามารถทำตามเงื่อนไขต่างๆ ที่ผู้ใช้กำหนด ทำให้ควบคุมเอกสารต่างๆ ในโครงการ, ระบบทดสอบ, และโค้ดจริง ให้ตรงกันได้ตลอดเวลา

ตัวปัญญาประดิษฐ์เบื้องหลัง Kiro เป็น Claude 4 และ Claude 3.7 จุดขายสำคัญของ Kiro คือนับการใช้งานตามการ "สั่งงาน" (interaction) เช่น แชตคุย, สั่งเขียนโค้ดตามสเปค, หรือสั่งตรวจเงื่อนไข ระหว่างทางแต่ละคำสั่ง หาก Kiro เรียกใช้เครื่องมือโดยอัตโนมัติ หรือแก้ไขข้อผิดพลาดของตัวเอง ก็จะไม่นับโควต้าแต่อย่างใด ทำให้การใช้งานคาดเดาต้นทุนได้ง่าย

EFF เตือน การใช้ AI ช่วยตำรวจเขียนรายงานต้องตรวจสอบได้, สอบทานย้อนกลับได้

By lew

on 13 July 2025 - 22:30 Tag: EFF, LLM, Artificial Intelligence

EFF

EFF มูลนิธิเรียกร้องเสรีภาพอินเทอร์เน็ต ออกมาวิจารณ์ถึงการใช้ปัญญาประดิษฐ์ช่วยตำรวจจับกุม เช่น การใช้ Axon Draft One บริการเขียนเอกสารแจ้งความอัตโนมัติ ว่าเป็นการใช้งานที่อันตราย และไม่มีการควบคุมเพียงพอ

บทความของ EFF ระบุความเสี่ยงของระบบ เช่น Draft One ว่ามีความเสี่ยงตั้งแต่การแปลงเสียงเป็นข้อความที่อาจจะผิดพลาด หรืออาจจะขยายความบางส่วนจนเกินเหตุ

Subscribe to LLM