Image

Large Language Model

By lew Founder on Tag: LLM, Programming
LLM

Simon Willison โปรแกรมเมอร์สหราชอาณาจักรและผู้ร่วมสร้างเฟรมเวิร์ค Django ทดลองโมเดลปัญญาประดิษฐ์ GLM-4.5-Air ที่เพิ่งเปิดตัวมาเมื่อวานนี้ และพบว่าสามารถใช้งานได้จริงแม้เป็นโมเดลรุ่นย่อก็ตาม

By lew Founder on Tag: Z.ai, LLM, Artificial Intelligence

Z.ai บริษัทปัญญาประดิษฐ์จากปักกิ่งเปิดตัวปัญญาประดิษฐ์ GLM-4.5 โดยชูความสามารถในการเขียนโปรแกรมว่าอยู่ระดับเดียวกับ Kimi K2 ที่กำลังได้รับความนิยมอย่างสูง โดยโมเดลขนาดเล็กลงเหลือเพียง 1 ใน 3 เปิดโอกาสให้ขาย API ในราคาถูกกว่า

GLM-4.5 มีสองรุ่น คือ 335B-A32B และ GLM-4.5-Air 106B-A16B เมื่อเฉลี่ยผลทดสอบ 12 ชุด เช่น MMLU-Pro, GPQA, และชุดทดสอบด้านการเขียนโปรแกรม GLM-4.5 ทำคะแนนรวมระดับเดียวกับ OpenAI o3, Grok 4, หรือ Claude 4 Opus อย่างไรก็ดีหากนับคะแนนด้านการเขียนโปรแกรมอย่างเดียว GLM-4.5 ยังคงแพ้ Claude 4 Sonnet อยู่

By lew Founder on Tag: Anthropic, Claude, LLM
Anthropic

Anthropic ผู้สร้างปัญญาประดิษฐ์ Claude ประกาศเพิ่มเพดานการใช้งานรายสัปดาห์ จากที่ก่อนหน้านี้มีเพดานการใช้งานราย 5 ชั่วโมง หลังจากพบว่าผู้ใช้เปิดรัน agent ต่อเนื่อง

ตอนนี้แพ็กเกจ Max ที่ราคา 200 ดอลลาร์ต่อเดือนสามารถใช้งานได้ 900 ข้อความทุกๆ 5 ชั่วโมง ทำให้มีผู้ใช้สร้างสคริปต์ที่หยุดรันเมื่อครบโควต้าแล้วกลับมารันใหม่ทันทีที่โควต้ากลับมา นอกจากนี้ยังมีผู้ใช้บางส่วนนำบัญชีไปขายแชร์กัน

By lew Founder on Tag: Replit, LLM, Programming
Replit

ปีที่แล้ว Replit เปิดบริการ Replit Agent ที่สามารถเขียนโปรแกรมได้เต็มรูปแบบด้วยตัวเองโดยแทบไม่ต้องโค้ดเลย แต่สัปดาห์ที่ผ่านมา Jason Lemkin ผู้ก่อตั้งบริการ SaaStr ทดลองใช้งาน Replit Agent แล้วพบว่าปัญญาประดิษฐ์ล้างฐานข้อมูลของเขาไปทั้งหมด จนทาง Replit ต้องออกฟีเจอร์มาแก้ปัญหานี้

Jason พบว่า Replit Agent สั่ง npm run db:push ระหว่างทำงานทำให้ฐานข้อมูลหายไปทั้งหมด แม้ว่า Jason จะสั่งให้ห้ามเขียนข้อมูลลงฐานข้อมูลแล้วก็ตาม

By mk Founder on Tag: DeepMind, LLM, Archeology, Google, Natural Language
DeepMind

DeepMind เปิดตัว Aeneas โมเดลทำความเข้าใจภาษาละตินโบราณ ช่วยงานเวลานักโบราณคดีค้นพบโบราณวัตถุ ที่มีข้อความโบราณซึ่งอาจอ่านไม่ออก หรือมีข้อความบางส่วนขาดหายไป

ก่อนหน้านี้ DeepMind มีโมเดลชื่อ Ithaca สำหรับอ่านข้อความภาษากรีกโบราณ และนำมาพัฒนาต่อจนเป็น Aeneas สำหรับภาษาละตินในยุคโรมัน

จุดเด่นของ Aeneas คือการพยากรณ์ข้อความที่ขาดหายไปได้ โดยไม่รู้แม้กระทั่งความยาวของข้อความที่หายไปว่ายาวเท่าไร โมเดลยังรองรับอินพุตแบบ multimodal คือใช้ได้ทั้งภาพและข้อความพร้อมกัน, รองรับ parallel search ค้นหาข้อความลักษณะคล้ายๆ กันในคลังข้อความภาษาละตินโบราณอื่น

By lew Founder on Tag: Alibaba Cloud, Qwen, LLM, Programming
Alibaba Cloud

หลังจาก Alibaba Cloud เปิดตัว Qwen3-235B-A22B-Instruct-2507 ไปเมื่อวานนี้โดยระบุเน้นความสามารถในการเขียนโปรแกรม ตอนนี้ก็ออกโมเดล Qwen3-Coder ชุดโมเดลที่ฝึกสำหรับการเขียนโปรแกรมโดยเฉพาะ ตัวใหญ่ที่สุดคือ Qwen3-Coder-480B-A35B-Instruct มีความสามารถระดับเดียวกับ Claude 4 Sonnet

ชุดข้อมูลที่ใช้ฝึกมีขนาด 7.5T tokens โดย 70% ของชุดข้อมูลเป็นโค้ด และใช้ข้อมูลสังเคราะห์เพิ่มเติม พร้อมกับใช้ Qwen2.5-Coder มาคัดกรองข้อมูลคุณภาพต่ำออกไป จากนั้นฝึกแบบ reinforcement learning (RL) ด้วยปัญหาที่แก้ยากแต่ตรวจง่าย เร่งให้มีความสามารถสูงขึ้นไปอีก

By mk Founder on Tag: Gemini, Google, LLM
Gemini

กูเกิลปรับสถานะโมเดลรุ่นมหาชน Gemini 2.5 Flash-Lite ที่เปิดตัวช่วงกลางเดือนมิถุนายน จากสถานะ Preview มาเป็น General Available (GA) พร้อมใช้งานในระดับโปรดักชันเต็มตัว

By mk Founder on Tag: AMD, Stability AI, NPU, LLM, Artificial Intelligence
AMD

AMD จับมือกับ Stability AI บริษัทเจ้าของโมเดลสร้างภาพ Stable Diffusion ออกโมเดล Stable Diffusion 3 Medium เวอร์ชันปรับแต่งให้รันบน XDNA 2 NPU ของชิป Ryzen ได้จบในตัว ไม่ต้องพึ่งพาเซิร์ฟเวอร์ภายนอกเลย

โมเดล Stable Diffusion 3 Medium เวอร์ชันนี้ถูกปรับแต่งให้ลดหน่วยความจำลง (ตัวโมเดลใช้แรม 9GB) โดยยังรักษาความแม่นยำของทศนิยมแบบ FP16 (เป็น block FP16 หรือ BF16) ทำให้คุณภาพของภาพที่สร้างยังสูงอยู่ ภาพที่ได้เป็นภาพความละเอียดสูง 4MP (2048x2048)

By lew Founder on Tag: Qwen, Alibaba Cloud, LLM
Qwen

ทีม Qwen ของ Alibaba Cloud ปล่อยโมเดล Qwen3-235B-A22B-Instruct-2507 โมเดลปัญญาประดิษฐ์ที่ฝึกเพิ่มจาก Qwen3 ปรับปรุงความสามารถในการทำตามคำสั่ง และเพิ่มความยาวอินพุตรวมเป็น 256K token

ผลทดสอบของโมเดลนี้ในกลุ่มเขียนโปรแกรม อยู่ระดับเดียวกับ Kimi K2 ที่ได้รับความนิยมสูงขึ้นอย่างรวดเร็วในช่วงหลัง คะแนนนี้พัฒนาขึ้นอย่างมากเมื่อเทียบกับ Qwen3 แบบ non-thinking เดิม โดยข้อได้เปรียบของ Qwen3 คือโมเดลขนาดเล็กกว่า และมี activated parameter เพียง 22B ทำให้ต้นทุนการรันต่ำกว่า Kimi K2 ที่มีพารามิเตอร์รวม 1T และรันจริง 32B

By mk Founder on Tag: DeepMind, Gemini, Mathematics, LLM, Artificial Intelligence, Google
DeepMind

การสอบคณิตศาสตร์โอลิมปิก (International Mathematical Olympiad) กลายเป็นสมรภูมิใหม่ของวงการ LLM ไปแล้ว หลัง OpenAI ประกาศว่าโมเดลของตัวเองสอบได้เหรียญทอง ฝั่ง Google DeepMind ก็ประกาศความสำเร็จแบบเดียวกัน

By mk Founder on Tag: OpenAI, Mathematics, LLM, Artificial Intelligence
OpenAI

Alexander Wei นักวิจัยของ OpenAI เปิดเผยว่าโมเดลให้เหตุผลเวอร์ชันทดลอง (experimental) ของบริษัท สามารถสอบคณิตศาสตร์โอลิมปิก (International Math Olympiad หรือ IMO) ได้รางวัลเหรียญทองแล้ว

โมเดลของ OpenAI ตัวนี้ยังไม่เปิดเผยชื่อเรียก ถูกนำไปทำข้อสอบ IMO ปี 2025 ภายใต้เงื่อนไขเดียวกับมนุษย์ นั่นคือ ให้เวลา 4.5 ชั่วโมง 2 เซสชัน และไม่สามารถเข้าถึงอินเทอร์เน็ตได้

Wei บอกว่าข้อสอบ IMO มีความซับซ้อน และต้องการความสร้างสรรค์อย่างต่อเนื่อง ดังนั้นโมเดลให้เหตุผลจะต้องทำงานเป็นเวลานานประมาณ 100 นาที ซึ่งต่างจากข้อสอบคณิตศาสตร์ระดับอื่นๆ ที่ง่ายกว่านี้

By lew Founder on Tag: Apple Intelligence, LLM
Apple Intelligence

แอปเปิลรายงานถึงความคืบหน้าของการพัฒนา Apple Foundation Model (AFM) ที่เป็นโมเดลปัญญาประดิษฐ์แบบ LLM สำหรับการใช้งานใน Apple Intelligence แบ่งเป็นโมเดลสำหรับรับบนเครื่องโดยตรงและโมเดลรันบนเซิร์ฟเวอร์ (ที่แอปเปิลสร้าง private cloud compute เตรียมไว้รอ)

โมเดลทั้งสองรุ่นถูกย่อให้เหลือขนาดเล็กมาก ด้วยเทคนิค Quantization-Aware-Training (QAT) เพื่อให้คงคุณภาพเอาไว้แม้จะย่อโมเดลบนเครื่องขนาดเล็กเหลือ 2-bit และโมเดลบนเซิร์ฟเวอร์เหลือ 3.56 bit ส่วน embedding ย่อเหลือ 4 bit และส่วน KV-cache ย่อเหลือ 8 บิต

By mk Founder on Tag: Veo, Gemini, Google, LLM
Veo

กูเกิลเปิดใช้เช่าใช้งานโมเดลสร้างวิดีโอ Veo 3 ผ่าน Gemini API โดยยังมีสถานะเป็นพรีวิว และใช้คู่กับ Veo 2 ของเดิม

สิ่งที่ทุกคนสนใจที่สุดคงเป็น "ราคา"

  • Veo 3 แบบมีเสียงประกอบ วินาทีละ 0.75 ดอลลาร์
  • Veo 3 แบบไม่มีมีเสียงประกอบ วินาทีละ 0.50 ดอลลาร์
  • Veo 2 ไม่มีมีเสียงประกอบอยู่แล้ว วินาทีละ 0.35 ดอลลาร์

จะเห็นว่าราคา Veo 3 แพงขึ้นมากว่า Veo 2 อยู่พอสมควร ซึ่งกูเกิลบอกว่าจะออก Veo 3 Fast ที่ทำงานเร็วขึ้น ราคาถูกลง ตามมา

By lew Founder on Tag: Google, Project Zero, Security, LLM
Google

ปีที่แล้วกูเกิลโชว์โครงการ Naptime เฟรมเวิร์ค LLM ที่ช่วยนักวิจัยหาช่องโหว่ซอฟต์แวร์ระหว่างนักวิจัยหนีไปงีบ และอัพเกรดเป็น Big Sleep ปัญญาประดิษฐ์แบบ agentic ช่วยหาช่องโหว่ต่อเนื่อง (จนนักวิจัยหลับได้ยาวๆ) ตอนนี้กูเกิลก็ออกมาโชว์ผลงานของ Big Sleep ว่าสร้างผลงานต่อเนื่อง

โครงการหนึ่งที่ Big Sleep ดูแลอยู่คือ SQLite ที่เพิ่งพบช่องโหว่ล่าสุด คือ CVE-2025-6965 เมื่อเดือนที่ผ่านมา นอกจากการวิเคราะห์ช่องโหว่ซอฟต์แวร์แล้ว Big Sleep ยังค้นข้อมูลจาก threat intelligence เพื่อตัดการโจมตีได้เองไปด้วย

By arjin Writer on Tag: Mistral, Artificial Intelligence, LLM
Mistral

Mistral AI เปิดตัว Voxtral โมเดล AI สำหรับเสียงตัวแรกของบริษัท โดยบอกว่าเป็นโมเดลแบบโอเพนซอร์ส ใช้งานได้จริง และมีต้นทุนใช้งานที่เข้าถึงได้

Mistral บอกว่าโมเดล AI สำหรับเสียงที่มีอยู่ปัจจุบันแบ่งได้เป็น 2 ประเภท ซึ่งมีข้อดีข้อเสียที่ต้องแลกกันคือแบบ ASR ที่เป็นโอเพนซอร์ส ที่ทำงานได้จำกัด ข้อผิดพลาดเยอะ และแบบ API เป็นระบบปิด ทำงานได้ดี แต่ต้นทุนใช้งานสูง ปรับแต่งได้ไม่มาก ซึ่ง Voxtral จะทำให้ผู้ใช้งานไม่ต้องแลกข้อดี-ข้อเสียนี้

By lew Founder on Tag: GitHub Copilot, LLM
GitHub Copilot

GitHub เปิดบริการ Coding Agent แบบทำงานเบื้องหลังเมื่อเดือนพฤษภาคมที่ผ่านมา เป็นระบบผู้ช่วยเขียนโค้ดที่ทำงานอัตโนมัติจนเสร็จ แล้วส่งงานเป็น pull request พร้อมตรวขงานทีเดียว โดยของเดิมจำกัดเฉพาะผู้ใช้แบบ Pro+ และ Enterprise เท่านั้น ล่าสุดทาง GitHub ขยายให้ลูกค้าแพ็กเกจ Pro สามารถใช้งานได้เหมือนกัน

By lew Founder on Tag: OpenRouter, LLM, Programming, Moonshot AI, Grok
OpenRouter

สัปดาห์ที่ผ่านมาโมเดลปัญญาประดิษฐ์ที่ทำคะแนนทดสอบในกลุ่มการเขียนโปรแกรมออกใหม่ถึงสองตัว คือ Grok 4 และ Kimi K2 และตอนนี้รายงานการใช้งานก็แสดงให้เห็นว่าโปรแกรมเมอร์เริ่มให้ความสนใจโมเดลทั้งสองตัวนี้จริง เมื่อดูจากรายงานปริมาณการใช้งานรายวันใน OpenRouter ที่แยกตามประเภทการใช้งาน

โมเดลในกลุ่มการเขียนโปรแกรมนั้น Claude 4 Sonnet ยังคงความนิยมสูงสุดถึง 46.3% ตามมาด้วย Gemini 2.5 Pro 12.7% แต่ความพิเศษของรอบนี้คือ Grok 4 ติดอันดับด้วยปริมาณการใช้งานถึง 6.7% แม้ราคาจะพอๆ กับ Claude 4 Sonnet อันดับสิบคือ Kimi K2 ของ Moonshot AI อยู่ที่ 5.1%

By arjin Writer on Tag: Meta, Llama, Rumors, Artificial Intelligence, LLM, Open Source
Meta

หลังจาก Meta ได้ตั้งแผนกปัญญาประดิษฐ์ใหม่ Superintelligence ที่มี Alexandr Wang อดีตซีอีโอ Scale AI เป็นหัวหน้าทีม ล่าสุดมีรายงานจาก The New York Times เกี่ยวกับการหารือถึงการปรับยุทธศาสตร์โมเดล AI ในอนาคตของ Meta ใหม่ทั้งหมด

รายงานบอกว่า Wang ได้พูดคุยกับทีมงานหลักของ Superintelligence เสนอให้ยกเลิกการพัฒนา Behemoth ที่เป็นโมเดล AI รุ่นบนของ Meta ไปเลย ซึ่งโมเดลนี้อยู่ในชุด Llama 4 ที่เปิดตัวไปเมื่อเดือนเมษายน โดยเป็นโมเดล LLM ขนาดใหญ่ที่สุด และมีข่าวก่อนหน้านี้ว่าเลื่อนเปิดตัวไปเป็นปลายปีเพราะความสามารถยังไม่ดีพอ ทั้งนี้ Behemoth เสร็จสิ้นขั้นตอนการฝึกฝนโมเดลแล้ว

By lew Founder on Tag: Kiro, AWS, Programming, LLM, IDE, Amazon
Kiro

AWS เปิดตัว Kiro IDE ปัญญาประดิษฐ์แบบเดียวกับ Cursor หรือ Windsurf แต่ชูจุดเด่นที่สร้างเอกสารอย่างละเอียด และสามารถทำตามเงื่อนไขต่างๆ ที่ผู้ใช้กำหนด ทำให้ควบคุมเอกสารต่างๆ ในโครงการ, ระบบทดสอบ, และโค้ดจริง ให้ตรงกันได้ตลอดเวลา

ตัวปัญญาประดิษฐ์เบื้องหลัง Kiro เป็น Claude 4 และ Claude 3.7 จุดขายสำคัญของ Kiro คือนับการใช้งานตามการ "สั่งงาน" (interaction) เช่น แชตคุย, สั่งเขียนโค้ดตามสเปค, หรือสั่งตรวจเงื่อนไข ระหว่างทางแต่ละคำสั่ง หาก Kiro เรียกใช้เครื่องมือโดยอัตโนมัติ หรือแก้ไขข้อผิดพลาดของตัวเอง ก็จะไม่นับโควต้าแต่อย่างใด ทำให้การใช้งานคาดเดาต้นทุนได้ง่าย

By lew Founder on Tag: EFF, LLM, Artificial Intelligence
EFF

EFF มูลนิธิเรียกร้องเสรีภาพอินเทอร์เน็ต ออกมาวิจารณ์ถึงการใช้ปัญญาประดิษฐ์ช่วยตำรวจจับกุม เช่น การใช้ Axon Draft One บริการเขียนเอกสารแจ้งความอัตโนมัติ ว่าเป็นการใช้งานที่อันตราย และไม่มีการควบคุมเพียงพอ

บทความของ EFF ระบุความเสี่ยงของระบบ เช่น Draft One ว่ามีความเสี่ยงตั้งแต่การแปลงเสียงเป็นข้อความที่อาจจะผิดพลาด หรืออาจจะขยายความบางส่วนจนเกินเหตุ

Subscribe to LLM