Image

Large Language Model

By arjin Writer on Tag: ChatGPT, OpenAI, LLM
ChatGPT

อัปเดตสั้น ๆ จาก OpenAI เกี่ยวกับฟีเจอร์ใน ChatGPT หลังประสบความสำเร็จจากฟีเจอร์ Image Generation จนทำให้ผู้ใช้งานต่าง prompt คำสั่งสร้างรูปภาพด้วย AI กันเป็นจำนวนมาก ตอนนี้เลยเจอปัญหารูปเยอะ หาย้อนหลังลำบาก

ChatGPT เลยเพิ่มฟังก์ชัน Image Library ซึ่งการทำงานก็ตรงตามชื่อ ผู้ใช้งานสามารถเรียกดูคลังรูปภาพที่เคยสร้างไว้รวมในอัลบั้มเดียว

Image Library รองรับผู้ใช้งาน ChatGPT ทุกประเภททั้งแบบฟรีและเสียเงิน

ที่มา: OpenAI

By lew Founder on Tag: Cursor, LLM, Artificial Intelligence
Cursor

ผู้ใช้ Cursor จำนวนหนึ่งประสบปัญหาถูกตัดออกจากบริการเมื่อล็อกอินพร้อมกันหลายเครื่อง ปัญหานี้เป็นปัญหาที่เกิดขึ้นได้แต่เมื่อผู้ใช้อีเมลไปถามซัพพอร์ต AI ซัพพอร์ตกลับยืนยันว่าเป็นเป็นตามนโยบายการล็อกอิน

By lew Founder on Tag: DeepSeek, LLM, Open Source
DeepSeek

DeepSeek ประกาศแนวทางการพัฒนาซอฟต์แวร์รันโมเดลปัญญาประดิษฐ์ (inference engine) หลังจากก่อนหน้านี้บริษัทใช้ vLLM รุ่นพิเศษที่แก้ไขภายในเพื่อให้บริการ มาเป็นการทำงานร่วมกับโครงการโอเพนซอร์ส

ก่อนหน้านี้ DeepSeek เปิดซอฟต์แวร์ที่เกี่ยวข้องกับระบบรันปัญญาประดิษฐ์จำนวนมาก โดยซอฟต์แวร์มักเป็นการออปติไมซ์ประสิทธิภาพการรันปัญญาประดิษฐ์บนชิป NVIDIA Hopper ทาง DeepSeek ระบุว่าเคยพิจารณาว่าจะเปิดเอนจินออกมาทั้งชุด แต่พบปัญหา 3 ประการ

By arjin Writer on Tag: OpenAI, Artificial Intelligence, LLM, Developer
OpenAI

OpenAI เปิดเผยว่า GPT-4.5 โมเดล AI ขนาดใหญ่ที่เปิดตัวเมื่อเดือนกุมภาพันธ์ที่ผ่านมา จะปิดการเข้าถึงใช้งาน API สำหรับนักพัฒนา ตั้งแต่ 14 กรกฎาคมเป็นต้นไป หลังจาก OpenAI เปิดตัวโมเดลใหม่ GPT-4.1 เมื่อคืนนี้

OpenAI บอกว่า GPT-4.1 มีความสามารถการทำงานที่ใกล้เคียงหรือดีกว่า GPT-4.5 ในหลายด้าน ด้วยต้นทุนการใช้งานที่ต่ำกว่า ดังนั้นบริษัทจะปิดการใช้งานโมเดลนี้ เพื่อนำทรัพยากรไปโฟกัสที่การพัฒนาโมเดลใหม่ในอนาคตแทน

By lew Founder on Tag: OpenAI, LLM
OpenAI

OpenAI เปิดตัวโมเดล GPT-4.1 เป็นชุดโมเดล LLM สามขนาดปรับปรุงความสามารถจาก GPT-4o ทำให้รองรับอินพุตถึง 1 ล้านโทเค็น และเพิ่มความสามารถด้านการเขียนโปรแกรมจนสูงกว่าโมเดล OpenAI o3-mini ที่ราคาแพงกว่ามาก

ทาง OpenAI โชว์ผลทดสอบของ GPT-4.1 ด้วยการทดสอบ SWE Bench Verified ได้คะแนนถึง 55% (เหลือ 52% ถ้านับข้อที่มีปัญหาระหว่างทดสอบ) สามารถตอบเป็น diff เพื่อการแก้ไขไฟล์ได้ค่อนข้างแม่นยำ ความเปลี่ยนแปลงสำคัญคือการขยายอินพุตเป็น 1 ล้านโทเค็น ผลทดสอบ needle in haystack สามารถหาข้อมูลได้ทุกจุด

By mk Founder on Tag: Gemma, Google, Gemini, LLM, Research, Biology
Gemma

กูเกิลเปิดตัว DolphinGemma โมเดลภาษาขนาดใหญ่ตัวใหม่ ซึ่งจากชื่อก็พอเดากันได้ว่ามันคือโมเดลภาษาโลมา!

โลมาเป็นสิ่งมีชีวิตที่มีความฉลาดสูง มีภาษาของตัวเองที่สื่อสารระหว่างกันได้ แต่ก็เป็นความยากของมนุษย์ในการทำความเข้าใจภาษาของโลมา เมื่อมีเทคโนโลยีแบบ LLM เข้ามาช่วยเรียนรู้แพทเทิร์นของภาษาโลมา

By mk Founder on Tag: Lyria, Google Cloud, Google, Music, LLM, Audio
Lyria

กูเกิลเปิดตัวโมเดลแต่งเพลงชื่อ Lyria สามารถสั่งสร้างเพลงได้จากพร็อมต์ข้อความได้เลย ตัวโมเดลจะเปิดใช้งานบน Vertex AI ในระยะถัดไป

ในแง่ความสามารถของ Lyria คงไม่ต่างจากโมเดลแต่งเพลงอื่นๆ นัก (คงต้องให้ผู้เชี่ยวชาญลองพิสูจน์กัน) แต่จุดขายของกูเกิลคือมีโมเดลสร้างสื่อครบทุกอย่างแล้ว ตั้งแต่ Gemini (ข้อความ), Imagen 3 (ภาพ), Veo 2 (วิดีโอ), Chirp 3 (เสียงพูด) และล่าสุดคือ Lyria (เสียงเพลง)

By mk Founder on Tag: Gemini, Google, LLM, Anthropic, MCP
Gemini

ผู้บริหารของกูเกิลได้แก่ Sundar Pichai ซีอีโอใหญ่ และ Demis Hassabis ซีอีโอของ Google DeepMind ประกาศว่ากูเกิลจะรองรับ Model Context Protocol (MCP) โปรโตคอลสำหรับเชื่อมแหล่งข้อมูลภายนอกเข้าสู่โมเดล LLM

Model Context Protocol (MCP) ถูกเสนอโดย Anthropic ช่วงปลายปี 2024 และล่าสุด OpenAI ประกาศสนับสนุนแล้ว การที่กูเกิลประกาศร่วมด้วยอีกราย ย่อมทำให้ MCP กลายเป็นมาตรฐานของวงการ

By arjin Writer on Tag: OpenAI, Artificial Intelligence, LLM, ChatGPT
OpenAI

OpenAI ประกาศแผนยุติการใช้งานโมเดล GPT-4 จากบริการ ChatGPT ทั้งหมด มีผลตั้งแต่ 30 เมษายน 2025 เป็นต้นไป โดยแทนที่ด้วยโมเดล GPT-4o ทั้งนี้ GPT-4 เป็นโมเดลที่ออกมาตั้งแต่เมษายน 2023

OpenAI บอกว่า GPT-4o เป็นโมเดลที่ใหม่กว่า รองรับข้อมูลผสมผสานเป็นพื้นฐาน ในการทดสอบทุกด้านมีความสามารถที่สูงกว่า GPT-4 ไม่ว่าจะเป็นการเขียน, เขียนโค้ด, ตอบปัญหา STEM และอื่น ๆ

By lew Founder on Tag: Google Cloud, LLM, Google, Open Source
Google Cloud

กูเกิลโอเพนซอร์สเฟรมเวิร์ค Agent Development Kit (ADK) สำหรับการพัฒนา Agent ในรูปแบบต่างๆ โดยแม้จะพัฒนาโดยกูเกิลแต่ก็รองรับโมเดลจากผู้ผลิตหลากหลาย และเชื่อมต่อเครื่องมือภายนอกผ่านโปรโตคอล MCP ได้

ความพิเศษของ ADK ต่อกูเกิลเองคือ Vertex AI รองรับโดยตรงผ่าน Vertex AI Agent Engine อย่างไรก็ดี ตัว ADK นั้นแพ็กเกจเป็นคอนเทนเนอร์ทำให้ไปรันที่ไหนก็ได้อยู่แล้ว และกูเกิลระบุว่า ADK ออปติไมซ์ให้ทำงานกับ Gemini 2.5 Pro เป็นพิเศษ

By mk Founder on Tag: Gemini, Google, LLM
Gemini

เพียงไม่กี่สัปดาห์หลัง Gemini 2.5 Pro รุ่นใหญ่ กูเกิลเดินหน้าเปิดตัว Gemini 2.5 Flash โมเดลรุ่นเล็กต่อทันที

กูเกิลเรียกโมเดล Gemini 2.5 Flash ว่าเป็นโมเดลที่ใช้ทำงานจริงๆ (workhorse model) ปรับแต่งมาให้ตอบเร็ว (low latency) ต้นทุนต่ำ แต่ยังมีฟีเจอร์การให้เหตุผล (reasoning) โดยสามารถปรับแต่งระยะเวลาในการคิดตามงบประมาณ (thinking budget) จึงเหมาะสำหรับงานที่ต้องเรียกโมเดลเป็นจำนวนครั้งมากๆ และต้องการความเร็วแบบเรียลไทม์ เช่น การตอบคำถามลูกค้า หรือ การประมวลผลเอกสาร

By mk Founder on Tag: Nova, Amazon, LLM, Speech Recognition, Speech Synthesis
Nova

Amazon ยังเดินหน้าเปิดตัวโมเดลตระกูล Nova อย่างต่อเนื่อง ถัดจาก Nova Reel โมเดลสร้างวิดีโอ ตามมาด้วย Nova Sonic โมเดลสร้างคำตอบเสียง ที่เป็นโมเดลตัวเดียวทำงานทั้งการเข้าใจเสียงพูด (speech understanding) และสร้างเสียงพูด (speech generation) ไม่ต้องแยกสองโมเดลทำงานอีกต่อไป

ความน่าสนใจของ Nova Sonic คือเป็นโมเดลแบบเสียง-เสียง (speech-to-speech) รับอินพุตเป็นเสียงพูด แล้วสร้างเอาต์พุตเป็นข้อความหรือเป็นเสียงก็ได้ สามารถทำงานแบบเรียลไทม์

By mk Founder on Tag: Nova, Amazon, Artificial Intelligence, LLM
Nova

หลัง Amazon เปิดตัวโมเดลตระกูล Nova ของตัวเองช่วงปลายปี 2024 ก็เริ่มทยอยปล่อยของอย่างต่อเนื่อง ก่อนหน้านี้มี Nova Act โมเดลที่ควบคุมเว็บเบราว์เซอร์ ล่าสุดเปิดตัว Nova Reel ปัญญาประดิษฐ์สร้างวิดีโอสั้นเวอร์ชันใหม่ 1.1

By lew Founder on Tag: Shopify, LLM, Artificial Intelligence, Employment
Shopify

Tobi Lütke ซีอีโอ Shopify ออกจดหมายเวียนในบริษัท ปรับนโยบายการทำงานในอนาคต โดยระบุนโยบาย 6 ข้อ ได้แก่

Microsoft

ไมโครซอฟท์ร่วมมือกับ Meta เปิดให้องค์กรธุรกิจใช้งาน Llama 4 Maverick และ Scout ใน Azure AI Foundry และ Azure Databricks แล้ว

Llama 4 เป็นโมเดล AI โอเพนซอร์สรุ่นใหม่สำหรับการใช้งานแบบ Multimodal ซึ่ง Meta เพิ่งประกาศเปิดตัววันนี้

By arjin Writer on Tag: Llama, Meta AI, Meta, LLM, Artificial Intelligence
Llama

Meta ออกโมเดลปัญญาประดิษฐ์ภาษาขนาดใหญ่ (LLM) รุ่นใหม่ Llama 4 ซึ่ง Mark Zuckerberg ซีอีโอ Meta บอกว่าเป็นโมเดล AI พื้นฐานที่มีประสิทธิภาพสูงที่สุดในโลกตอนนี้

Llama 4 มีสองรุ่นย่อย ได้แก่ Llama 4 Scout ขนาดพารามิเตอร์ 17B, 16 โมเดลย่อย (Experts) รวม 109B ซึ่ง Meta บอกว่าเป็นโมเดลผสมผสานที่มีประสิทธิภาพดีที่สุดในโลกตอนนี้ สามารถรันได้บนจีพียู NVIDIA H100 ตัวเดียว รองรับอินพุท 10M ทำงานได้ดีกว่าโมเดลที่คล้ายกันอย่าง Gemma 3, Gemini 2.0 Flash-Lite และ Mistral 3.1

By mk Founder on Tag: Gemini, LLM, Google
Gemini

กูเกิลเปิดตัว Gemini 2.5 Pro โมเดลพลังสูง ประสิทธิภาพเป็นเยี่ยม เมื่อปลายเดือนมีนาคม จากนั้นมีแหวกขนบเดิมๆ เล็กน้อย ด้วยการเปิดให้ผู้ใช้ Gemini ทุกคนใช้ฟรี โดยไม่ต้องรอกันนาน

ล่าสุดกูเกิลนำโมเดล Gemini 2.5 Pro เปิดให้เช่าใช้งานใน Google AI Studio โดยประกาศราคามาแล้ว ราคาเริ่มต้นคือ อินพุต 1.25 ดอลลาร์ต่อ 1 ล้านโทเคน และเอาท์พุต 10 ดอลลาร์ต่อ 1 ล้านโทเคน

By arjin Writer on Tag: OpenAI, Artificial Intelligence, LLM
OpenAI

Sam Altman ซีอีโอ OpenAI ประกาศว่าบริษัทเปลี่ยนแผนการออกโมเดลรุ่นใหม่ โดยจะกลับมาออกโมเดลคิดเป็นเหตุผล o3 และ o4-mini โมเดลคิดเป็นเหตุผลขนาดเล็กเวอร์ชันใหม่ ทั้งสองโมเดลนี้จะออกมาในอีกไม่กี่สัปดาห์ข้างหน้า

By arjin Writer on Tag: Midjourney, LLM, Artificial Intelligence
Midjourney

Midjourney ออกโมเดลปัญญาประดิษฐ์สร้างรูปภาพเวอร์ชันใหม่ V7 หลังจากไม่มีโมเดลเวอร์ชันใหม่ออกมาเกือบหนึ่งปี โดยสถานะการออกมาให้ใช้งานตอนนี้เป็น alpha-test และจะทยอยปรับปรุงความสามารถทุกสัปดาห์เป็นเวลา 2 เดือน

Midjourney บอกว่า V7 เป็นโมเดลสร้างรูปภาพที่ฉลาดที่สุด สร้างรูปได้สวยงามและแม่นยำที่สุดที่เคยทำออกมา David Holz ซีอีโอ Midjourney บอกว่า V7 มีการเปลี่ยนแปลงสถาปัตยกรรมการทำงานของโมเดลใหม่ทั้งหมด

By lew Founder on Tag: Alibaba Cloud, LLM, Qwen
Alibaba Cloud

ทีม Qwen ของ Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์เพิ่มสองรุ่น คือ Qwen2.5 Omni โมเดลแบบ multimodal อ่านภาพ, ฟังเสียง, และดูวิดีโอได้ พร้อมกับสามารถตอบเป็นเสียงหรือข้อความได้ อีกโมเดลคือ QVQ-Max โมเดลคิดก่อนตอบแบบอ่านภาพได้ ทำให้สามารถอ่านเอกสารซับซ้อนสูงได้

Qwen2.5 Omni เป็นโมเดล multimodal ที่รับได้ทั้งข้อความ, เสียง, และภาพ โดยภายในมันสามารถดูภาพตามเวลา (time aligned multimodal) ทำให้เข้าใจวิดีโอได้ด้วย ขณะที่ฝั่งเอาท์พุตนั้นสามารถสร้างเสียงตอบกลับได้ ตัวสถาปัตยกรรมรองรับการ "ฟังไป ตอบไป" โดยสามารถรับอินพุตยังไม่จบแต่ตอบไปก่อนได้

Subscribe to LLM