LLM | Blognone

Large Language Model

ChatGPT เพิ่มเมนู Image Library รวมรูปภาพที่เคยสร้างด้วย GenAI ในอัลบั้มเดียว

By arjin

on 16 April 2025 - 12:55 Tag: ChatGPT, OpenAI, LLM

ChatGPT

อัปเดตสั้น ๆ จาก OpenAI เกี่ยวกับฟีเจอร์ใน ChatGPT หลังประสบความสำเร็จจากฟีเจอร์ Image Generation จนทำให้ผู้ใช้งานต่าง prompt คำสั่งสร้างรูปภาพด้วย AI กันเป็นจำนวนมาก ตอนนี้เลยเจอปัญหารูปเยอะ หาย้อนหลังลำบาก

ChatGPT เลยเพิ่มฟังก์ชัน Image Library ซึ่งการทำงานก็ตรงตามชื่อ ผู้ใช้งานสามารถเรียกดูคลังรูปภาพที่เคยสร้างไว้รวมในอัลบั้มเดียว

Image Library รองรับผู้ใช้งาน ChatGPT ทุกประเภททั้งแบบฟรีและเสียเงิน

ที่มา: OpenAI

ผู้ใช้ Cursor โวยหลังบอต AI แจ้งลูกค้าว่าบังคับล็อกอินทีละเครื่อง บริษัทแจงบอต hallucinate ไปเอง

By lew

on 16 April 2025 - 11:24 Tag: Cursor, LLM, Artificial Intelligence

Cursor

ผู้ใช้ Cursor จำนวนหนึ่งประสบปัญหาถูกตัดออกจากบริการเมื่อล็อกอินพร้อมกันหลายเครื่อง ปัญหานี้เป็นปัญหาที่เกิดขึ้นได้แต่เมื่อผู้ใช้อีเมลไปถามซัพพอร์ต AI ซัพพอร์ตกลับยืนยันว่าเป็นเป็นตามนโยบายการล็อกอิน

DeepSeek ประกาศร่วมพัฒนาซอฟต์แวร์รัน LLM แบบโอเพนซอร์ส จะได้เอาเวลาไปพัฒนาโมเดลใหม่

By lew

on 15 April 2025 - 11:38 Tag: DeepSeek, LLM, Open Source

DeepSeek

DeepSeek ประกาศแนวทางการพัฒนาซอฟต์แวร์รันโมเดลปัญญาประดิษฐ์ (inference engine) หลังจากก่อนหน้านี้บริษัทใช้ vLLM รุ่นพิเศษที่แก้ไขภายในเพื่อให้บริการ มาเป็นการทำงานร่วมกับโครงการโอเพนซอร์ส

ก่อนหน้านี้ DeepSeek เปิดซอฟต์แวร์ที่เกี่ยวข้องกับระบบรันปัญญาประดิษฐ์จำนวนมาก โดยซอฟต์แวร์มักเป็นการออปติไมซ์ประสิทธิภาพการรันปัญญาประดิษฐ์บนชิป NVIDIA Hopper ทาง DeepSeek ระบุว่าเคยพิจารณาว่าจะเปิดเอนจินออกมาทั้งชุด แต่พบปัญหา 3 ประการ

OpenAI จะปิดการใช้งาน API ของ GPT-4.5 ให้นักพัฒนาไปใช้ GPT-4.1 ที่ถูกกว่า ดีกว่าแทน

By arjin

on 15 April 2025 - 10:53 Tag: OpenAI, Artificial Intelligence, LLM, Developer

OpenAI

OpenAI เปิดเผยว่า GPT-4.5 โมเดล AI ขนาดใหญ่ที่เปิดตัวเมื่อเดือนกุมภาพันธ์ที่ผ่านมา จะปิดการเข้าถึงใช้งาน API สำหรับนักพัฒนา ตั้งแต่ 14 กรกฎาคมเป็นต้นไป หลังจาก OpenAI เปิดตัวโมเดลใหม่ GPT-4.1 เมื่อคืนนี้

OpenAI บอกว่า GPT-4.1 มีความสามารถการทำงานที่ใกล้เคียงหรือดีกว่า GPT-4.5 ในหลายด้าน ด้วยต้นทุนการใช้งานที่ต่ำกว่า ดังนั้นบริษัทจะปิดการใช้งานโมเดลนี้ เพื่อนำทรัพยากรไปโฟกัสที่การพัฒนาโมเดลใหม่ในอนาคตแทน

OpenAI เปิดตัว GPT-4.1 ถูกกว่า GPT-4o แต่ความสามารถเขียนโค้ดเหนือ o3-mini

By lew

on 15 April 2025 - 01:43 Tag: OpenAI, LLM

OpenAI

OpenAI เปิดตัวโมเดล GPT-4.1 เป็นชุดโมเดล LLM สามขนาดปรับปรุงความสามารถจาก GPT-4o ทำให้รองรับอินพุตถึง 1 ล้านโทเค็น และเพิ่มความสามารถด้านการเขียนโปรแกรมจนสูงกว่าโมเดล OpenAI o3-mini ที่ราคาแพงกว่ามาก

ทาง OpenAI โชว์ผลทดสอบของ GPT-4.1 ด้วยการทดสอบ SWE Bench Verified ได้คะแนนถึง 55% (เหลือ 52% ถ้านับข้อที่มีปัญหาระหว่างทดสอบ) สามารถตอบเป็น diff เพื่อการแก้ไขไฟล์ได้ค่อนข้างแม่นยำ ความเปลี่ยนแปลงสำคัญคือการขยายอินพุตเป็น 1 ล้านโทเค็น ผลทดสอบ needle in haystack สามารถหาข้อมูลได้ทุกจุด

กูเกิลเปิดตัว DolphinGemma โมเดลภาษาโลมา เรียนรู้แพทเทิร์นสื่อสารของโลมา

By mk

on 15 April 2025 - 00:59 Tag: Gemma, Google, Gemini, LLM, Research, Biology

Gemma

กูเกิลเปิดตัว DolphinGemma โมเดลภาษาขนาดใหญ่ตัวใหม่ ซึ่งจากชื่อก็พอเดากันได้ว่ามันคือโมเดลภาษาโลมา!

โลมาเป็นสิ่งมีชีวิตที่มีความฉลาดสูง มีภาษาของตัวเองที่สื่อสารระหว่างกันได้ แต่ก็เป็นความยากของมนุษย์ในการทำความเข้าใจภาษาของโลมา เมื่อมีเทคโนโลยีแบบ LLM เข้ามาช่วยเรียนรู้แพทเทิร์นของภาษาโลมา

กูเกิลเปิดตัวโมเดล Lyria แต่งเสียงเพลงตามสั่ง เพิ่มเข้าชุด Imagen, Veo, Chirp

By mk

on 12 April 2025 - 20:11 Tag: Lyria, Google Cloud, Google, Music, LLM, Audio

Lyria

กูเกิลเปิดตัวโมเดลแต่งเพลงชื่อ Lyria สามารถสั่งสร้างเพลงได้จากพร็อมต์ข้อความได้เลย ตัวโมเดลจะเปิดใช้งานบน Vertex AI ในระยะถัดไป

ในแง่ความสามารถของ Lyria คงไม่ต่างจากโมเดลแต่งเพลงอื่นๆ นัก (คงต้องให้ผู้เชี่ยวชาญลองพิสูจน์กัน) แต่จุดขายของกูเกิลคือมีโมเดลสร้างสื่อครบทุกอย่างแล้ว ตั้งแต่ Gemini (ข้อความ), Imagen 3 (ภาพ), Veo 2 (วิดีโอ), Chirp 3 (เสียงพูด) และล่าสุดคือ Lyria (เสียงเพลง)

กูเกิลประกาศรองรับ Model Context Protocol ใน Gemini

By mk

on 12 April 2025 - 11:09 Tag: Gemini, Google, LLM, Anthropic, MCP

Gemini

ผู้บริหารของกูเกิลได้แก่ Sundar Pichai ซีอีโอใหญ่ และ Demis Hassabis ซีอีโอของ Google DeepMind ประกาศว่ากูเกิลจะรองรับ Model Context Protocol (MCP) โปรโตคอลสำหรับเชื่อมแหล่งข้อมูลภายนอกเข้าสู่โมเดล LLM

Model Context Protocol (MCP) ถูกเสนอโดย Anthropic ช่วงปลายปี 2024 และล่าสุด OpenAI ประกาศสนับสนุนแล้ว การที่กูเกิลประกาศร่วมด้วยอีกราย ย่อมทำให้ MCP กลายเป็นมาตรฐานของวงการ

OpenAI เตรียมถอดโมเดล GPT-4 จาก ChatGPT ให้ใช้ GPT-4o แทน

By arjin

on 12 April 2025 - 07:18 Tag: OpenAI, Artificial Intelligence, LLM, ChatGPT

OpenAI

OpenAI ประกาศแผนยุติการใช้งานโมเดล GPT-4 จากบริการ ChatGPT ทั้งหมด มีผลตั้งแต่ 30 เมษายน 2025 เป็นต้นไป โดยแทนที่ด้วยโมเดล GPT-4o ทั้งนี้ GPT-4 เป็นโมเดลที่ออกมาตั้งแต่เมษายน 2023

OpenAI บอกว่า GPT-4o เป็นโมเดลที่ใหม่กว่า รองรับข้อมูลผสมผสานเป็นพื้นฐาน ในการทดสอบทุกด้านมีความสามารถที่สูงกว่า GPT-4 ไม่ว่าจะเป็นการเขียน, เขียนโค้ด, ตอบปัญหา STEM และอื่น ๆ

กูเกิลโอเพนซอร์ส Agent Development Kit เฟรมเวิร์คเบื้องหลัง Agentspace รองรับ MCP

By lew

on 9 April 2025 - 22:15 Tag: Google Cloud, LLM, Google, Open Source

Google Cloud

กูเกิลโอเพนซอร์สเฟรมเวิร์ค Agent Development Kit (ADK) สำหรับการพัฒนา Agent ในรูปแบบต่างๆ โดยแม้จะพัฒนาโดยกูเกิลแต่ก็รองรับโมเดลจากผู้ผลิตหลากหลาย และเชื่อมต่อเครื่องมือภายนอกผ่านโปรโตคอล MCP ได้

ความพิเศษของ ADK ต่อกูเกิลเองคือ Vertex AI รองรับโดยตรงผ่าน Vertex AI Agent Engine อย่างไรก็ดี ตัว ADK นั้นแพ็กเกจเป็นคอนเทนเนอร์ทำให้ไปรันที่ไหนก็ได้อยู่แล้ว และกูเกิลระบุว่า ADK ออปติไมซ์ให้ทำงานกับ Gemini 2.5 Pro เป็นพิเศษ

กูเกิลเปิดตัว Gemini 2.5 Flash โมเดลรุ่นเล็ก ตอบเร็ว ต้นทุนต่ำ มี Reasoning

By mk

on 9 April 2025 - 21:52 Tag: Gemini, Google, LLM

Gemini

เพียงไม่กี่สัปดาห์หลัง Gemini 2.5 Pro รุ่นใหญ่ กูเกิลเดินหน้าเปิดตัว Gemini 2.5 Flash โมเดลรุ่นเล็กต่อทันที

กูเกิลเรียกโมเดล Gemini 2.5 Flash ว่าเป็นโมเดลที่ใช้ทำงานจริงๆ (workhorse model) ปรับแต่งมาให้ตอบเร็ว (low latency) ต้นทุนต่ำ แต่ยังมีฟีเจอร์การให้เหตุผล (reasoning) โดยสามารถปรับแต่งระยะเวลาในการคิดตามงบประมาณ (thinking budget) จึงเหมาะสำหรับงานที่ต้องเรียกโมเดลเป็นจำนวนครั้งมากๆ และต้องการความเร็วแบบเรียลไทม์ เช่น การตอบคำถามลูกค้า หรือ การประมวลผลเอกสาร

Amazon เปิดตัว Nova Sonic โมเดล speech-to-speech ฟังเสียงพูด แล้วตอบเป็นเสียง

By mk

on 9 April 2025 - 12:12 Tag: Nova, Amazon, LLM, Speech Recognition, Speech Synthesis

Nova

Amazon ยังเดินหน้าเปิดตัวโมเดลตระกูล Nova อย่างต่อเนื่อง ถัดจาก Nova Reel โมเดลสร้างวิดีโอ ตามมาด้วย Nova Sonic โมเดลสร้างคำตอบเสียง ที่เป็นโมเดลตัวเดียวทำงานทั้งการเข้าใจเสียงพูด (speech understanding) และสร้างเสียงพูด (speech generation) ไม่ต้องแยกสองโมเดลทำงานอีกต่อไป

ความน่าสนใจของ Nova Sonic คือเป็นโมเดลแบบเสียง-เสียง (speech-to-speech) รับอินพุตเป็นเสียงพูด แล้วสร้างเอาต์พุตเป็นข้อความหรือเป็นเสียงก็ได้ สามารถทำงานแบบเรียลไทม์

Amazon ออกโมเดลสร้างวิดีโอ Nova Reel 1.1 ขยายความยาวคลิปเป็น 2 นาที

By mk

on 9 April 2025 - 07:16 Tag: Nova, Amazon, Artificial Intelligence, LLM

Nova

หลัง Amazon เปิดตัวโมเดลตระกูล Nova ของตัวเองช่วงปลายปี 2024 ก็เริ่มทยอยปล่อยของอย่างต่อเนื่อง ก่อนหน้านี้มี Nova Act โมเดลที่ควบคุมเว็บเบราว์เซอร์ ล่าสุดเปิดตัว Nova Reel ปัญญาประดิษฐ์สร้างวิดีโอสั้นเวอร์ชันใหม่ 1.1

Shopify ปรับนโยบายการจ้างพนักงานใหม่ ต้องเป็นงานที่ AI ทำไม่ได้เท่านั้น

By lew

on 8 April 2025 - 08:18 Tag: Shopify, LLM, Artificial Intelligence, Employment

Shopify

Tobi Lütke ซีอีโอ Shopify ออกจดหมายเวียนในบริษัท ปรับนโยบายการทำงานในอนาคต โดยระบุนโยบาย 6 ข้อ ได้แก่

ไมโครซอฟท์เปิดให้องค์กรธุรกิจใช้งาน Llama 4 ใหม่ใน Azure AI Foundry และ Azure Databricks แล้ว

By Phantip

on 6 April 2025 - 14:50 Tag: Microsoft, Microsoft Azure, Meta, Llama, Artificial Intelligence, LLM, Enterprise

Microsoft

ไมโครซอฟท์ร่วมมือกับ Meta เปิดให้องค์กรธุรกิจใช้งาน Llama 4 Maverick และ Scout ใน Azure AI Foundry และ Azure Databricks แล้ว

Llama 4 เป็นโมเดล AI โอเพนซอร์สรุ่นใหม่สำหรับการใช้งานแบบ Multimodal ซึ่ง Meta เพิ่งประกาศเปิดตัววันนี้

Meta เปิดตัว Llama 4 โมเดล AI รุ่นล่าสุด ขนาด 109B และ 400B บอกมีประสิทธิภาพดีที่สุดในโลกตอนนี้

By arjin

on 6 April 2025 - 07:09 Tag: Llama, Meta AI, Meta, LLM, Artificial Intelligence

Llama

Meta ออกโมเดลปัญญาประดิษฐ์ภาษาขนาดใหญ่ (LLM) รุ่นใหม่ Llama 4 ซึ่ง Mark Zuckerberg ซีอีโอ Meta บอกว่าเป็นโมเดล AI พื้นฐานที่มีประสิทธิภาพสูงที่สุดในโลกตอนนี้

Llama 4 มีสองรุ่นย่อย ได้แก่ Llama 4 Scout ขนาดพารามิเตอร์ 17B, 16 โมเดลย่อย (Experts) รวม 109B ซึ่ง Meta บอกว่าเป็นโมเดลผสมผสานที่มีประสิทธิภาพดีที่สุดในโลกตอนนี้ สามารถรันได้บนจีพียู NVIDIA H100 ตัวเดียว รองรับอินพุท 10M ทำงานได้ดีกว่าโมเดลที่คล้ายกันอย่าง Gemma 3, Gemini 2.0 Flash-Lite และ Mistral 3.1

กูเกิลเปิดให้เช่า Gemini 2.5 Pro ตั้งราคาเช่าโมเดลแพงที่สุดที่เคยทำมา

By mk

on 5 April 2025 - 16:12 Tag: Gemini, LLM, Google

Gemini

กูเกิลเปิดตัว Gemini 2.5 Pro โมเดลพลังสูง ประสิทธิภาพเป็นเยี่ยม เมื่อปลายเดือนมีนาคม จากนั้นมีแหวกขนบเดิมๆ เล็กน้อย ด้วยการเปิดให้ผู้ใช้ Gemini ทุกคนใช้ฟรี โดยไม่ต้องรอกันนาน

ล่าสุดกูเกิลนำโมเดล Gemini 2.5 Pro เปิดให้เช่าใช้งานใน Google AI Studio โดยประกาศราคามาแล้ว ราคาเริ่มต้นคือ อินพุต 1.25 ดอลลาร์ต่อ 1 ล้านโทเคน และเอาท์พุต 10 ดอลลาร์ต่อ 1 ล้านโทเคน

OpenAI ปรับแผนการออกโมเดลใหม่ เตรียมปล่อย o3 และเลื่อน GPT-5 ออกไปก่อน

By arjin

on 5 April 2025 - 09:05 Tag: OpenAI, Artificial Intelligence, LLM

OpenAI

Sam Altman ซีอีโอ OpenAI ประกาศว่าบริษัทเปลี่ยนแผนการออกโมเดลรุ่นใหม่ โดยจะกลับมาออกโมเดลคิดเป็นเหตุผล o3 และ o4-mini โมเดลคิดเป็นเหตุผลขนาดเล็กเวอร์ชันใหม่ ทั้งสองโมเดลนี้จะออกมาในอีกไม่กี่สัปดาห์ข้างหน้า

Midjourney ออกโมเดลใหม่ V7 เพิ่มความสามารถปรับตั้งค่าโมเดลแบบ Personalize

By arjin

on 4 April 2025 - 17:20 Tag: Midjourney, LLM, Artificial Intelligence

Midjourney

Midjourney ออกโมเดลปัญญาประดิษฐ์สร้างรูปภาพเวอร์ชันใหม่ V7 หลังจากไม่มีโมเดลเวอร์ชันใหม่ออกมาเกือบหนึ่งปี โดยสถานะการออกมาให้ใช้งานตอนนี้เป็น alpha-test และจะทยอยปรับปรุงความสามารถทุกสัปดาห์เป็นเวลา 2 เดือน

Midjourney บอกว่า V7 เป็นโมเดลสร้างรูปภาพที่ฉลาดที่สุด สร้างรูปได้สวยงามและแม่นยำที่สุดที่เคยทำออกมา David Holz ซีอีโอ Midjourney บอกว่า V7 มีการเปลี่ยนแปลงสถาปัตยกรรมการทำงานของโมเดลใหม่ทั้งหมด

Alibaba Cloud เปิดตัว Qwen Omni ดูวิดีโอตอบเป็นเสียงได้, QVQ-Max อ่านภาพแล้วคิดก่อนตอบ

By lew

on 4 April 2025 - 12:58 Tag: Alibaba Cloud, LLM, Qwen

Alibaba Cloud

ทีม Qwen ของ Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์เพิ่มสองรุ่น คือ Qwen2.5 Omni โมเดลแบบ multimodal อ่านภาพ, ฟังเสียง, และดูวิดีโอได้ พร้อมกับสามารถตอบเป็นเสียงหรือข้อความได้ อีกโมเดลคือ QVQ-Max โมเดลคิดก่อนตอบแบบอ่านภาพได้ ทำให้สามารถอ่านเอกสารซับซ้อนสูงได้

Qwen2.5 Omni เป็นโมเดล multimodal ที่รับได้ทั้งข้อความ, เสียง, และภาพ โดยภายในมันสามารถดูภาพตามเวลา (time aligned multimodal) ทำให้เข้าใจวิดีโอได้ด้วย ขณะที่ฝั่งเอาท์พุตนั้นสามารถสร้างเสียงตอบกลับได้ ตัวสถาปัตยกรรมรองรับการ "ฟังไป ตอบไป" โดยสามารถรับอินพุตยังไม่จบแต่ตอบไปก่อนได้

Subscribe to LLM