Image

Large Language Model

By arjin Writer on Tag: Gemini, Google, Artificial Intelligence, LLM, Advertising, Super Bowl
Gemini

กูเกิลออกโฆษณาในช่วงการแข่งขัน Super Bowl โดยเผยแพร่ก่อนทางออนไลน์ เป็นหนังโฆษณา 50 เรื่องราว ของธุรกิจขนาดเล็กใน 50 รัฐทั่วสหรัฐอเมริกา กับการนำ Gemini AI มาช่วยเพิ่มความสะดวกในการทำงาน

หนังโฆษณาทั้ง 50 เรื่องราวสามารถรับชมได้ที่นี่ ตัวอย่างเรื่องราวเช่น ร้าน Nuts.com ในนิวเจอร์ซีย์ ที่ใช้ฟังก์ชันแปลภาษาเรียลไทม์ช่วยในการเจรจาธุรกิจต่างประเทศ, องค์กร Wild Hearts Idaho ในไอดาโฮ ที่นำ AI มาช่วยเขียนแคปชันโพสต์ลงโซเชียล, ร้าน Fitz's Bottling ในมิสซูรีใช้ Gemini บน Sheets สรุปข้อมูลสินค้าในสต็อกอย่างรวดเร็ว

By mk Founder on Tag: OpenAI, LLM, Artificial Intelligence, ChatGPT
OpenAI

OpenAI ประกาศปล่อยโมเดล o3-mini ตามที่เคยสัญญาไว้

OpenAI เปิดตัวโมเดลตระกูล o3 มาตั้งแต่เดือนธันวาคม 2024 ถือเป็นเวอร์ชันพัฒนาขึ้นจากโมเดล o1 เดิม (ข้าม o2 ไปด้วยเหตุผลเรื่องเครื่องหมายการค้ากับโอเปอเรเตอร์ O2) มีประสิทธิภาพตอบคำถามด้านคณิตศาสตร์-วิทยาศาสตร์ (STEM) ได้ดีกว่า ตอบเร็วกว่า o1-mini โดยยังคงต้นทุนในการรันระดับเดียวกับ o1-mini

By mk Founder on Tag: AWS, DeepSeek, Artificial Intelligence, LLM, Amazon
AWS

คล้อยหลัง Microsoft Azure เปิดให้เช่าโมเดล DeepSeek R1 เพียงแค่วันเดียว ฝั่งของ AWS ก็เปิดบริการ DeepSeek R1 แบบเดียวกันผ่าน Amazon Bedrock และ Amazon SageMaker และที่ไม่ธรรมดาคือ Andy Jassy ซีอีโอของ Amazon โพสต์ข้อความช่วยโปรโมทให้เป็นพิเศษด้วย

Amazon บอกว่านโยบายของตัวเองคือเปิดให้ลูกค้าเลือกโมเดลที่ต้องการได้เอง ดังนั้นบริษัทจะพยายามหาโมเดลที่ผู้ใช้เรียกร้องมาให้เยอะที่สุด

By mk Founder on Tag: Microsoft Copilot, OpenAI, LLM, Artificial Intelligence, Microsoft
Microsoft Copilot

ไมโครซอฟท์เปิดให้ผู้ใช้ Copilot ทุกคน เข้าถึงโมเดล OpenAI o1 ที่มีจุดเด่นเรื่องการคิดอย่างมีเหตุผล (reasoning model) และมีความสามารถตอบคำถามด้านวิทยาศาสตร์ คณิตศาสตร์ เขียนโปรแกรม ดีขึ้นกว่าโมเดลรุ่นก่อนๆ มาก แลกกับการที่ต้องใช้เวลาประมวลผลนานขึ้นเป็นราวๆ 30 วินาที

By mk Founder on Tag: Gemini, LLM, Google
Gemini

กูเกิลเปิดให้ผู้ใช้ Gemini ทุกคนเข้าถึงโมเดล Gemini 2.0 Flash ที่เปิดตัวในเดือนธันวาคม 2024 และจำกัดเฉพาะผู้ซื้อแพ็กเกจ Gemini Advanced และผู้ใช้บางกลุ่มมาสักระยะหนึ่ง ตอนนี้สามารถเรียกใช้ Gemini 2.0 Flash จากแอพ Gemini บนมือถือได้แล้ว

จุดเด่นของ Gemini 2.0 Flash คือประสิทธิภาพของผลลัพธ์ดีขึ้น ทำคะแนนได้ดีกว่าโมเดลตระกูล Gemini 1.5 และตอบเร็วขึ้นกว่าเดิม

By mk Founder on Tag: AMD, Radeon, LLM, DeepSeek, GeForce, GPU
AMD

AMD เกาะกระแส DeepSeek ด้วยการโชว์เบนช์มาร์คว่าจีพียู​ Radeon RX 7900 XTX สามารถรันโมเดล DeepSeek R1 Distill (เวอร์ชันย่อยให้เล็กลงแล้ว)​ ได้แรงกว่าคู่แข่ง GeForce RTX 4090 สูงสุด 13% (ตามภาพท้ายข่าว)

โมเดลที่นำมารันโชว์มีทั้ง DeepSeek R1 Distill ที่ถอดมาจาก Alibaba Qwen และ Meta Llama ที่ขนาดพารามิเตอร์หลายแบบ โดยโมเดลที่ขนาดเล็กกว่า เช่น 7B จะเห็นความแตกต่างของการรันบนชิป AMD กับ NVIDIA ได้มากกว่าโมเดลขนาดใหญ่

วิธีการติดตั้งและรัน DeepSeek R1 Distill ในพีซี สามารถดูได้จากคลิปท้ายข่าว

By ShiRaTo on Tag: OpenAI, DeepSeek, LLM, Artificial Intelligence
OpenAI

Mark Chen (Chief Research Officer ของ OpenAI) แสดงความคิดเห็นผ่านทาง X (Twitter) ว่าขอแสดงความยินดีกับทีม DeepSeek ที่สามารถพัฒนาโมเดล LLM ให้มีความสามารถด้าน Reasoning เทียบเท่ากับ OpenAI o1 ได้

Chen กล่าวชื่นชมว่าทีมพัฒนา DeepSeek สามารถค้นพบแนวคิดหลักบางส่วนที่ทีม OpenAI ใช้ในการพัฒนา o1 ได้ด้วยตนเอง โดยระบุว่า "...they've independently found some of the core ideas that we did on our way to o1"

By arjin Writer on Tag: Block, LLM
Block

Block บริษัทฟินเทคที่ก่อตั้งและมีซีอีโอคือ Jack Dorsey อดีตซีอีโอ Twitter เผยแพร่โครงการโอเพนซอร์ส codename goose เป็น AI Agent ที่ผู้ใช้งานสามารถสั่งรันได้ที่ระดับอุปกรณ์ (on-machine)

Block บอกว่า Goose มีความสามารถเป็นผู้ช่วยงานวิศวกรรมบนอุปกรณ์ที่ทำงานได้ตามคำสั่ง จุดเด่นคือสามารถคัสตอมได้ว่าจะใช้โมเดล LLM ตัวใดทำงานร่วมกับ Goose โดยเชื่อมต่อผ่าน API โดยตัวที่ Block แนะนำคือ Claude 3.5 Sonnet และ o1 ของ OpenAI เนื่องจาก Goose ออกแบบมาให้ทำงานสำหรับนักพัฒนา จึงสามารถเชื่อมต่อตรงกับ GitHub หรือแม้แต่ Google Drive

By arjin Writer on Tag: Alibaba Cloud, Artificial Intelligence, LLM, Qwen
Alibaba Cloud

Alibaba เผยแพร่โมเดลปัญญาประดิษฐ์ Qwen2.5-Max ซึ่งเป็นโมเดลภาษาขนาดใหญ่แบบ MoE (Mixture-of-Expert) เหมือนกับ DeepSeek V3 ถูก Pre-train มากกว่า 20 ล้านล้านโทเค็น และทำ Post-Train ด้วยวิธี SFT (Supervised Fine-Tuning) และ RLHF (Reinforcement Learning from Human Feedback)

ผลทดสอบความสามารถของ Qwen2.5-Max ได้คะแนนเหนือกว่า DeepSeek-V3, GPT-4o และ Claude-3.5-Sonnet ในหัวข้อเช่น Arena-Hard, LiveBench ส่วนหัวข้ออย่าง MMLU-Pro กับ LiveCodeBench คะแนนสูงกว่า DeepSeek-V3 แต่น้อยกว่า Claude-3.5-Sonnet

By lew Founder on Tag: Hugging Face, DeepSeek, LLM
Hugging Face

ทีมวิจัยจาก Hugging Face ประกาศโครงการ Open-R1 พยายามฝึกโมเดลใหม่ที่เทียบเท่ากับ DeepSeek-R1 แต่มีชุดข้อมูลเปิดให้คนอื่นไปทำซ้ำได้

หลักการของ DeepSeek-R1 ในแกนกลางนั้นตรงไปตรงมา คือผู้ฝึกมีชุดข้อมูลการให้เหตุผลในการแก้ปัญหาไว้ล่วงหน้า จากนั้นพยายามฝึกโมเดล LLM ปกติสักตัว โดยให้รางวัลการให้เหตุผลแบบ reinforcement learning (RL) แบบเดียวกับการให้รางวัล AI เล่นเกมที่ให้รางวัลเมื่อเล่นชนะ

By arjin Writer on Tag: DeepSeek, Artificial Intelligence, Chatbot, LLM
DeepSeek

DeepSeek กลายเป็นกระแสมาแรงในนาทีนี้ของโลกปัญญาประดิษฐ์ ทำให้ใครก็อยากทดลองใช้งานเพื่อเปรียบเทียบกับเครื่องมือ AI ที่ใช้ประจำ ซึ่งทำให้ DeepSeek ต้องประกาศจำกัดการลงทะเบียนสร้างบัญชีใช้งานในช่วงนี้

ก่อนหน้านี้ DeepSeek ขึ้นข้อความในหน้าสมัครใช้งานว่าระงับชั่วคราว เนื่องจากแพลตฟอร์มถูกรบกวนจากการโจมตีขนาดใหญ่ ในบางช่วงการลงทะเบียนต้องใช้เบอร์โทรศัพท์ในจีนเท่านั้น แต่ล่าสุดข้อความบอกว่าการโจมตียังมีอยู่ ระบบลงทะเบียนอาจใช้งานไม่ได้ในบางช่วง ให้ผู้สนใจรอและทดลองสมัครอีกครั้ง ส่วนคนที่มีบัญชีอยู่แล้วสามารถล็อกอินได้ตามปกติ ขอบพระคุณที่เข้าใจและให้การสนับสนุน

By arjin Writer on Tag: DeepSeek, LLM, Artificial Intelligence
DeepSeek

DeepSeek เปิดตัวโมเดล AI รองรับสื่อผสมผสานหรือ Multimodal ชื่อว่า Janus-Pro มีขนาดพารามิเตอร์ 1B และ 7B พร้อมความสามารถในการวิเคราะห์และสร้างรูปภาพขึ้นใหม่ตามที่กำหนดได้

ผลการทดสอบด้วยชุดทดสอบ GenEval และ DPG-Bench พบว่า Janus-Pro-7B ทำคะแนนได้สูงกว่า DALL-E 3 ของ OpenAI ตลอดจนโมเดลสร้างรูปภาพอื่นอย่าง PixArt-alpha, Emu3-Gen และ Stable Diffusion XL ของ Stability AI

โมเดลสามารถดาวน์โหลดได้ที่ GitHub ภายใต้เงื่อนไขใช้งาน MIT จึงสามารถใช้งานในเชิงพาณิชย์ได้

By arjin Writer on Tag: Alibaba Cloud, LLM, Qwen
Alibaba Cloud

Alibaba เปิดตัวโมเดลปัญญาประดิษฐ์ใหม่ในตระกูล Qwen2.5 ชื่อว่า Qwen2.5-VL โดย VL ย่อมาจาก Vision Language เป็นรุ่นถัดจาก Qwen2-VL มีความสามารถเข้าใจวิดีโอ รูปภาพ ข้อความ และเป็น Agentic ที่ทำงานแทนได้ด้วย

By arjin Writer on Tag: NVIDIA, Artificial Intelligence, LLM, DeepSeek
NVIDIA

NVIDIA ชี้แจงกับสื่อหลังราคาหุ้นปรับลดลงแรง 17% จากความกังวลว่า DeepSeek ได้นำเสนอเทคโนโลยีการพัฒนาปัญญาประดิษฐ์ที่ไม่ต้องพึ่งพาฮาร์ดแวร์ประสิทธิภาพสูง จึงอาจเข้าสู่จุดพีคของความต้องการจีพียู

NVIDIA บอกว่าเทคโนโลยี DeepSeek ทำให้เห็นว่าเราสามารถสร้างโมเดลใหม่ขึ้นมาได้ โดยใช้เทคนิคหลายอย่าง รวมทั้งต่อยอดจากโมเดลโอเพนซอร์สที่มีอยู่ ร่วมกับการประมวลผลที่ถูกควบคุมไว้อย่างดี ซึ่งเป็นความก้าวหน้าในการทำส่วน Test-Time Scaling ตามกฎการ Scaling 3 อย่าง (Three Scaling Laws) ที่ซีอีโอ Jensen Huang เคยอธิบายไว้

By arjin Writer on Tag: Meta, Rumors, Artificial Intelligence, LLM, DeepSeek
Meta

The Information อ้างแหล่งข่าวภายใน Meta บอกว่าได้มีการเรียกประชุมหัวหน้าและวิศวกร ส่วนที่ดูแล Generative AI และ Infrastructure เป็นการเร่งด่วน โดยตั้งวอร์รูม (War Room) เป็น 4 ทีม เพื่อประเมินการทำงานและผลกระทบที่เกิดขึ้นจาก DeepSeek

โดยมี 2 ทีม โฟกัสที่การทำงานของ DeepSeek ว่าใช้วิธีอย่างไรทำให้ต้นทุนการฝึกฝนต่ำมาก รวมทั้งใช้ทรัพยากรน้อยในการรันโมเดล อีกทีมทำการศึกษาว่า DeepSeek ใช้ข้อมูลจากแหล่งใดในการฝึกฝน AI และทีมสุดท้ายพิจารณาว่า Meta สามารถนำวิธีการใหม่ ๆ จาก DeepSeek มาปรับใช้ในการพัฒนาโมเดลของบริษัทอย่างไรได้บ้าง

By arjin Writer on Tag: ChatGPT, OpenAI, Artificial Intelligence, LLM
ChatGPT

OpenAI ประกาศเพิ่มฟีเจอร์ใหม่ให้อินเทอร์เฟซ ChatGPT Canvas ซึ่งเหมาะสำหรับการใช้งานเขียนโค้ดหรือปรับปรุงการเขียนบทความ รายละเอียดดังนี้

By arjin Writer on Tag: DeepSeek, ChatGPT, Artificial Intelligence, LLM
DeepSeek

DeepSeek บริษัทปัญญาประดิษฐ์ของจีนที่เพิ่งเปิดตัวโมเดลคิดเป็นขั้นตอน R1 เมื่อสัปดาห์ที่แล้ว กลายเป็นหัวข้อสนทนาหลักในวงการ AI ถึงความก้าวหน้าครั้งใหญ่ เพราะโมเดลมีขนาดเล็กที่สุด 1.5B แต่ความสามารถหลายด้านสูงกว่า OpenAI o1-mini ขณะที่ต้นทุนในการฝึกฝนโมเดลนั้นต่ำมาก โดยบริษัทบอกว่าใช้เงิน 5.6 ล้านดอลลาร์เท่านั้น

กระแสข่าวที่ออกมาทำให้ DeepSeek ตอนนี้ขึ้นอันดับ 1 แอปยอดนิยมของ App Store ในสหรัฐอเมริกา แซงหน้า ChatGPT ไปเรียบร้อย

By arjin Writer on Tag: Anthropic, Claude, LLM, Artificial Intelligence
Anthropic

Anthropic เปิดตัวความสามารถใหม่สำหรับ API ของนักพัฒนาเรียกชื่อว่า Citations เพื่อให้คำตอบที่ได้ สามารถตรวจสอบย้อนกลับไปต้นทางได้ว่ามีที่มาอย่างไร เพิ่มความน่าเชื่อถือและลดความผิดเพี้ยน

ในการใช้งาน Citations ผู้ใช้งานจะอัปโหลดเอกสารอ้างอิง จากนั้นโมเดล Claude จะแยกประโยคเป็นส่วน ๆ เพื่อให้ถูกลิงก์กลับมาเมื่อมีการให้คำตอบในประเด็นนั้น ผลการทดสอบภายในของ Anthropic พบว่าการอ้างอิงทำให้คำตอบมีความแม่นยำมากขึ้น 15%

By arjin Writer on Tag: ByteDance, LLM, Artificial Intelligence
ByteDance

ByteDance เปิดตัว Doubao-1.5-pro โมเดลปัญญาประดิษฐ์ LLM เรือธงของบริษัท โดยระบุว่าผลการทดสอบในบางหัวข้อ เช่น ความรู้ MMLU, โค้ด McEval หรือการให้เหตุผล DROP ทำได้เหนือกว่าโมเดลรุ่นบนของค่ายอื่นทั้ง Llama3.1-405B หรือ GPT4o-0806

การเปิดตัวโมเดลปัญญาประดิษฐ์รุ่นใหม่ของ ByteDance นี้ ทำให้เห็นถึงการแข่งขันด้าน AI จากบริษัทจีน โดยเมื่อต้นสัปดาห์ DeepSeek ก็เปิดตัว DeepSeek-R1 ซึ่งทำงานด้วยการคิดเป็นขั้นตอน และมีผลทดสอบบางชุดดีกว่า o1 ของ OpenAI

By lew Founder on Tag: DeepSeek, LLM, Artificial Intelligence, China
DeepSeek

DeepSeek บริษัทปัญญาประดิษฐ์จากจีนเปิดตัวโมเดล DeepSeek-R1 โมเดล LLM แบบคิดหาเหตุผลก่อนตอบ (reasoning model) โดยแบ่งเป็นสองรุ่นย่อย คือ

Subscribe to LLM