Large Language Model

Tags:
Topics: 
Node Thumbnail

Cloudflare ประกาศเตรียมเปิดบริการ Firewall for AI ชุดความสามารถใหม่สำหรับลูกค้าองค์กรที่เริ่มใช้งานแชตบอตในกลุ่ม LLM เพิ่มขึ้น โดยพยายามป้องกันทั้งการยิงเกินกำหนด, การส่งข้อมูลส่วนบุคคลเข้าออก, และการยิง prompt injection เพื่อเปลี่ยนพฤติกรรมของแชตบอต

บริการชุดนี้จะปิดให้ผู้ใช้คอนฟิกว่าส่วนใดของ JSON เป็น prompt สำหรับ LLM เพื่อมาวิเคราะห์เพิ่มเติม สามารถตั้งไฟร์วอลล์ให้บล็อคแชตได้ตามหัวข้อ เช่น เกี่ยวกับศาสนา, การเมือง, หรือเรื่องทางเพศ

ตอนนี้ Cloudflare เปิดบริการจำกัดปริมาณการใช้งาน และการตรวจสอบข้อมูลส่วนบุคคลออกมาก่อนโดยใช้ได้เฉพาะลูกค้าระดับ Enterprise ส่วนการวิเคราะห์ prompt นั้นกำลังอยู่ระหว่างพัฒนาและจะเปิดให้กับผู้ใช้ Worker AI ทุกคน

Tags:
Node Thumbnail

Anthropic บริษัทปัญญาประดิษฐ์ด้าน LLM เปิดตัวโมเดล Claude 3 โดยจุดเด่นสำคัญคือรุ่นสูงสุดนั้นทำคะแนนชนะ GPT-4 แทบทุกชุดทดสอบ และยังชนะ Gemini Ultra อีกด้วย

Claude 3 ประกอบด้วยรุ่นย่อย 3 รุ่น จากใหญ่ไปเล็กได้แก่ Opus ที่ชนะ GPT-4, Sonnet ใกล้เคียงกับ GPT-4, และ Haiku ที่อยู่ระดับเหนือกว่า GPT-3.5 โดยตัว Haiku นั้นออกแบบให้รันงานได้เร็ว เช่นการอ่านเอกสารความยาวเกินหมื่นโทเค็นก็ยังใช้เวลาไม่ถึง 3 วินาที โมเดลทั้งสามรุ่นรองรับการอ่านภาพ, ไฟล์เอกสาร, และ flowchart ต่างๆ โดยทำคะแนนใกล้เคียงกับ Gemini Ultra

Tags:
Node Thumbnail

เบราว์เซอร์ Brave ที่ชูจุดขายเรื่องความเป็นส่วนตัว ประกาศว่าฟีเจอร์ Leo ปัญญาประดิษฐ์ผู้ช่วย ที่เปิดตัวก่อนหน้านี้สำหรับผู้ใช้งานงานเดสก์ท็อป ตอนนี้ขยายมายังผู้ใช้ Brave บน Android แล้ว

Leo บน Android มีความสามารถเหมือนกันบนเดสก์ท็อป เช่น สรุปเนื้อหาเว็บเพจหรือวิดีโอแบบเรียลไทม์, ตอบคำถามที่อิงคำตอบจากเนื้อหาในคอนเทนต์นั้น, สร้างเนื้อหาแบบยาว, แปลเว็บเพจหรือวิเคราะห์, เขียนทรานสคริปต์ของวิดีโอหรือเสียง ตลอดจนสามารถเขียนโค้ดได้ด้วย ซึ่งทั้งหมดยังคงรักษาความเป็นส่วนตัว ข้อมูลถูกกำหนดเป็นนิรนาม

Brave Leo เปิดให้ใช้งานฟรีสำหรับผู้ใช้ Brave ทุกคน แต่สามารถสมัครใช้งานแบบพรีเมียม 14.99 ดอลลาร์ต่อเดือน ซึ่งใช้งานได้ไม่จำกัดครั้ง ใช้งานร่วมกันสูงสุด 5 อุปกรณ์

Tags:
Node Thumbnail

ServiceNow, Hugging Face และ NVIDIA เปิดตัว StarCoder2 ชุดโมเดลภาษาขนาดใหญ่ (LLM) ที่เปิดให้ใช้งานได้ฟรี (open-access) สำหรับงานเขียนโค้ด ซึ่งมีจุดเด่นคือประสิทธิภาพการทำงาน ความโปร่งใสของ AI และช่วยในการจัดการต้นทุน

StarCoder2 เป็นโครงการของชุมชน BigCode ที่ให้การสนับสนุนโดย ServiceNow และ Hugging Face โมเดลถูกเทรนบนภาษาเขียนโปรแกรม 619 ภาษา ออกแบบมาให้สามารถทำงานร่วมกับแอพพลิเคชันภายในองค์กร สำหรับงานต่าง ๆ เช่น ช่วยสร้างซอร์สโค้ด, สร้างเวิร์กโฟลว์, เขียนสรุปเนื้อหา และอื่น ๆ องค์กรสามารถนำไปใช้งาน โดยอาศัยการปรับแต่งด้วยทรัพยากรที่ไม่ต้องสูงมาก

Tags:
Node Thumbnail

แอปเปิลได้จัดการประชุมสามัญประจำปีผู้ถือหุ้นเมื่อวานนี้ ซึ่งประเด็นที่ผู้ถือหุ้นสอบถามกันเป็นจำนวนมากคือทิศทางของบริษัทกับ AI โดยเฉพาะ Generative AI ซึ่งเป็นหัวข้อหลักในโลกเทคโนโลยีตอนนี้ แต่แอปเปิลยังไม่มีผลิตภัณฑ์โดยตรงเรื่องนี้ออกมา

ซีอีโอ Tim Cook บอกว่า แอปเปิลได้เทเงินจำนวนมากสำหรับการพัฒนาผลิตภัณฑ์ AI และมองเห็นโอกาสที่เป็นนวัตกรรมใหม่ทั้งหมดจาก Generative AI เขาเชื่อว่ามันจะเปลี่ยนแปลงและมอบโอกาสใหม่กับผู้ใช้งานในทุกด้าน

เมื่อถามว่าแล้วผลิตภัณฑ์ด้าน AI จากแอปเปิลจะออกมาเมื่อใด Cook บอกว่ารายละเอียดต่าง ๆ จะเปิดเผยภายในปีนี้

Tags:
Node Thumbnail

Sundar Pichai ซีอีโอกูเกิล ออกอีเมลถึงพนักงานในประเด็นที่ Gemini Image Generation โปรแกรมสร้างรูปภาพด้วย AI ทำงานผิดพลาด โดยพยายามให้ผลลัพธ์รูปบุคคลที่แสดงความหลากหลายจนผิดเจตนาของผู้ใช้งาน หรือสร้างรูปที่ผิดไปจากประวัติศาสตร์

Pichai บอกว่าสิ่งที่เกิดขึ้นเป็นเรื่องที่ไม่สามารถยอมรับได้ และเราทำผิดจริง ๆ ตอนนี้ทีมงานต่างทำงานกันต่อเนื่องทั้งคืนทั้งวันเพื่อแก้ไขปัญหา ซึ่งเริ่มเห็นผลลัพธ์ที่ดีขึ้นเรื่อย ๆ ไม่มี AI ตัวใดที่สมบูรณ์แบบ พวกเรายังอยู่ในช่วงเริ่มต้นของอุตสาหกรรม แต่มาตรฐานที่เราต้องทำนั้นสูง และกูเกิลก็ต้องไปให้ถึงตรงนั้น

ในอีเมลไม่ได้ระบุว่าโปรแกรมสร้างรูปภาพที่เป็นบุคคลจะกลับมาใช้งานได้เมื่อใด

Tags:
Topics: 
Node Thumbnail

Mistral บริษัทปัญญาประดิษฐ์ LLM จากฝรั่งเศสเปิดตัวโมเดลใหม่สองโมเดล โดยไม่ได้เปิดเผยโครงสร้างภายในให้คนภายนอกใช้งานผ่านคลาวด์ สองโมเดล ได้แก่

  • Mistal Large โมเดลที่เก่งที่สุดของบริษัท รองรับภาษาอังกฤษ, ฝรั่งเศส, สเปน, เยอรมนี, และอิตาลี รองรับข้อมูลขนาด 32K โทเค็น ปรับแต่งให้ทำตามคำสั่งอย่างแม่นยำและเปิดให้นักพัฒนาปรับแต่งการคัดกรองเนื้อหาได้เอง คะแนนทดสอบความรู้ทั่วไป MMLU ของโมเดลนี้เป็นรองเพียง GPT-4
  • Mistral Small โมเดลที่ประสิทธิภาพเหนือว่า Mixtral 8x7B ที่บริษัทเปิดให้ใช้งานเสรีก่อนหน้านี้ แต่เน้นความเร็วสูงคล้ายกัน

ทั้งสองโมเดลถูกปรับให้รองรับการสร้าง output เป็น JSON และสามารถเรียก API ภายนอกได้

Tags:
Topics: 
Node Thumbnail

เบราว์เซอร์ Brave เพิ่มฟีเจอร์ให้ปัญญาประดิษฐ์ Leo ผู้ช่วยที่มาพร้อมกับเบราว์เซอร์ โดยในเวอร์ชั่นใหม่ Leo จะสามารถอ่านข้อมูลบนเบราว์เซอร์ได้หลากหลายขึ้น ทำให้ขอความช่วยเหลือเพิ่มเติมได้หลากหลาย

Leo สามารถอ่านข้อมูลในเอกสาร ได้แก่ 1) PDF อ่านข้อมูลไฟล์เอกสาร งานวิจัยต่างๆ เพื่อคุยกับเอกสาร 2) Google Docs สามารถอ่านและแก้ไขเอกสาร 3) Google Sheet วิเคราะห์ตารางและช่วยเขียนสูตรสมการ 4) Slack อ่านข้อความใน thread เพื่อสรุป 5) YouTube แปลงวิดีโอเป็นทรานสคริปต์และสรุปเนื้อหา

Tags:
Node Thumbnail

ทีมวิจัยจากสถาบัน Human-Centered Artificial Intelligence (HAI) ของมหาวิทยาลัยสแตนฟอร์ด รายงานถึงผลทดสอบการใช้งานปัญญาประดิษฐ์ในกลุ่ม LLM ว่าแม้จะมีข่าวว่า LLM สามารถวินิจฉัยโรคได้อย่างน่าทึ่งแต่ก็มีความผิดพลาดสูง ต้องระมัดระวัง

ทีมงานทดสอบการใช้งาน LLM โดยใช้โมเดล 4 ตัว ได้แก่ GPT-4, Claude 2.1, Mistral Medium, และ Gemini Pro เฉพาะ GPT-4 นั้นสร้างแอป retrieval augmented generation (RAG) ครอบอีกชั้นเพื่อทดสอบ โดยวัดว่าเวลาที่ LLM เหล่านี้ตอบคำถามแล้ว สามารถสร้างคำตอบโดยมีการอ้างอิงอย่างถูกต้องหรือไม่

Tags:
Topics: 
Node Thumbnail

AWS ประกาศเพิ่มโมเดล Mistral 7B และ Mixtral 8x7B ให้ใช้งานบน AWS Bedrock เร็วๆ นี้ โดยระบุว่าทั้งสองโมเดลมีจุดเด่นเรื่องของความเร็วและค่าใช้จ่ายที่ถูกกว่า นอกจากนี้องค์กรบางส่วนยังอาจต้องการโมเดลที่ตรวจสอบได้ การใช้โมเดลโอเพนซอร์สจึงเป็นทางเลือกสำคัญ

Mixtral 8x7B นั้นมีคะแนนทดสอบค่อนข้างใกล้เคียงกับ GPT-3.5 แต่มีจุดเด่นที่รันได้เร็วมาก โดยตอนนี้ผู้ให้บริการที่เน้นความเร็วอย่าง Groq นั้นโชว์ว่าสามารถรันได้ที่ระดับ 500 token/s เลยทีเดียว

Tags:
Node Thumbnail

MediaTek ประกาศความสำเร็จในการปรับแต่งโมเดล Google Gemini Nano และ Meta Llama 2 7B ให้รันบนชิป Dimensity 9300 และ 8300 เปิดทางให้ใช้งานฟีเจอร์ Generative AI แบบออฟไลน์ ไม่ต้องผ่านคลาวด์

การรันโมเดลเหล่านี้บนชิป เกิดขึ้นได้เพราะใช้ APU (AI processing unit ตามภาษาของ MediaTek) รุ่นใหม่ที่มีประสิทธิภาพสูงขึ้น

MediaTek ประกาศว่าจะร่วมมือกับกูเกิลเปิดตัวแอพ APK ที่ช่วยให้นักพัฒนาและแบรนด์ OEM รันโมเดล Gemini Nano ของตัวเองบนชิป Dimensity ในเร็วๆ นี้

Tags:
Node Thumbnail

Phind บริษัทปัญญาประดิษฐ์ LLM สำหรับการช่วยเขียนโค้ดเป็นหลัก เปิดตัวโมเดลของตัวเอง Phind-70B ที่วัดเฉพาะความสามารถในการเขียนโค้ด HumanEval และ CRUXEval ใกล้เคียงกับ GPT-4 มาก แต่ชูความเด่นกว่าที่ความเร็วในการตอบและโมเดลถูกฝึกให้ขยันตอบมากกว่า GPT-4 ที่เคยมีปัญหาไม่ยอมตอบบางคำถาม

ความเร็วในการตอบของ Phind-70B อยู่ที่ 80 token/s เร็วกว่า GPT-4 Turbo ประมาณสี่เท่าตัว และคาดว่าจะเร่งความเร็วได้สูงกว่านี้อีก

ก่อนหน้านี้ Phind เคยออกโมเดลเวอร์ชั่น 34B มาก่อนแล้ว และเตรียมจะปล่อยโมเดลให้เอาไปใช้งานในอนาคตรวมถึงโมเดลเวอร์ชั่น 70B เช่นกันแต่ยังไม่ระบุช่วงเวลา สำหรับผู้ใช้ทั่วไปสามารถเข้าไปใช้ Phind-70B ได้ฟรีแบบจำกัดข้อความต่อวัน และสามารถจ่ายเงินค่าสมาชิกเพื่อเพิ่มโควต้าได้

Tags:
Node Thumbnail

Stability AI เปิดตัวเครื่องมือสร้างรูปภาพจากข้อความด้วย AI เวอร์ชันล่าสุด Stable Diffusion 3 ตอนนี้อยู่ในสถานะพรีวิวขั้นต้น จึงยังไม่เปิดให้ใช้งานทั่วไปในวงกว้าง แต่ผู้ใช้งานสามารถเข้าร่วมใน waitlist เพื่อทดสอบได้ที่นี่

Stable Diffusion 3 เป็นโมเดลที่มีพารามิเตอร์ตั้งแต่ 800M ถึง 8B พารามิเตอร์ จึงรองรับตัวเลือกและคุณภาพของผลลัพธ์ที่มากยิ่งขึ้น

ในตอนนี้ Stability AI ยังไม่ได้เปิดเผยรายละเอียดของ Stable Diffusion 3 มากนัก มีเพียงการนำเสนอภาพที่สร้างขึ้นมาจำนวนหนึ่ง แต่บอกว่าจะเผยแพร่รายละเอียดทางเทคนิคในภายหลัง ขณะนี้อยู่ในขั้นตอนนี้ตรวจสอบด้านความปลอดภัยของ AI ก่อนเผยแพร่ในวงกว้างกับสาธารณะต่อไป

Tags:
Node Thumbnail

กูเกิลเปิดตัว Gemma โมเดลภาษาแบบโอเพนซอร์ส ที่ได้แรงบันดาลใจมาจาก Gemini โมเดลเชิงพาณิชย์ของตัวเอง และพัฒนาโดยทีม Google DeepMind เหมือนกัน มีโครงสร้างทางเทคนิคบางส่วนเหมือนกัน

กูเกิลปล่อย Gemma ออกมา 2 ขนาดคือ 2B และ 7B (ดาวน์โหลดได้จาก Kaggle หรือ Hugging Face) โดยระบุว่าโมเดลขนาด 7B สามารถเอาชนะคู่แข่งที่ระดับเดียวกันคือ Llama 7B ในเบนช์มาร์คต่างๆ ได้ค่อนข้างทิ้งห่าง และเอาชนะได้แม้กระทั่ง Llama 13B ที่มีขนาดใหญ่กว่าได้ด้วยซ้ำ

Tags:
Node Thumbnail

Adobe เปิดตัว AI Assistant ที่ตอนนี้มีสถานะเบต้า โดยเป็น Generative AI สำหรับไฟล์ PDF ในสองโปรแกรมของ Adobe คือ Reader และ Acrobat รองรับการสรุปเนื้อหา, ตอบคำถาม และจัดฟอร์แมตสำหรับใช้ส่งอีเมล ทำรายงาน หรือการนำเสนอ

Adobe บอกว่าความสามารถของ AI Assistant จะช่วยปลดล็อกคุณค่าของข้อมูลในเอกสาร PDF ที่มีประมาณ 3 ล้านล้านชุดในโลก

AI Assistant ทำงานบน AI และ Machine Learning บนพื้นฐานเดียวกับ Acrobat Liquid Mode ฟีเจอร์ที่ใช้ปรับปรุงการแสดงผลของเอกสาร PDF ให้เหมาะกับการอ่านบนหน้าจอมือถือ

Tags:
Node Thumbnail

กูเกิลอัพเดตบริการ Gemini Advanced (ที่ตอนนี้น่าจะยังอยู่ในช่วงทดสอบฟรีกันทุกคน) ให้สามารถรันโค้ดภาษา Python ได้ในเว็บ เป็นฟีเจอร์สำหรับผู้ใช้ที่สมัครแพ็กเกจจ่ายเงินเท่านั้น

แนวทางนี้ทำให้ผู้ใช้สามารถกดรันโค้ดและดูผลลัพธ์ได้ทันที โดยเมื่อผู้ใช้กดรันโค้ดบนหน้าเว็บแล้วเว็บ Gemini จะส่งโค้ดไปรันบนเซิร์ฟเวอร์เพื่อแสดงผล โดยตัว Gemini นั้นไม่ได้อ่านผลการรันด้วยตัวเองแต่อย่างใด ทำให้บางคำถาม ตัว Gemini จะตอบผลที่ผิดแม้จะเขียนโค้ดถูกและเมื่อรันโค้ดแล้วได้ผลลัพธ์ที่ถูกต้องก็ตาม

Tags:
Node Thumbnail

Dylan Roussel นักแกะฟีเจอร์ใหม่ Android โพสต์ข้อมูลที่เขาพบในบัญชี X เกี่ยวกับฟีเจอร์ใหม่ที่เตรียมประกาศของ Gemini สำหรับลูกค้า Google Workspace เพื่อนำ Gemini มาใช้ภายในองค์กร ที่ต้องการความสามารถปกป้องข้อมูลเพิ่มเติม

แผนที่กูเกิลเปิดให้สมัครได้แก่ Gemini Business และ Gemini Enterprise สามารถใช้งานโมเดล Gemini Ultra 1.0 โดยกูเกิลจะไม่นำข้อมูลในการสนทนาไปใช้ในการเทรน AI รองรับเฉพาะภาษาอังกฤษสำหรับลูกค้าใน 150 ประเทศ ทั้งนี้รายละเอียดและราคาต้องรอประกาศทางการอีกครั้ง

Tags:
Node Thumbnail

Groq สตาร์ตอัพผู้พัฒนาชิป GroqChip 1 สำหรับการรันโมเดลปัญญาประดิษฐ์ LLM และผู้ให้บริการ LLM แบบคลาวด์ระบุถึงผลทดสอบของ ArtificialAnalysis.ai ที่แสดงให้เห็นว่า Groq เป็นผู้ให้บริการที่สามารถประมวลผล LLM ได้เร็วที่สุดในตลาด

โมเดลที่ใช้ทดสอบเป็นโมเดล Llama 2 70B ที่มีคลาวด์หลายเจ้าให้บริการกัน รวมถึงคลาวด์รายใหญ่อย่าง Amazon Bedrock และ Azure แต่จุดที่ Groq นำมาเน้นคือความเร็วในการตอบ ที่ระยะเวลาจนถึงการตอบ 100 token แรกนั้นกินเวลาเพียง 0.7 วินาที และอัตราการตอบรวมได้เร็วกว่า 240 token ต่อวินาที นับว่าเร็วกว่าคู่แข่งอันดับสองแบบห่างไกล (Lepton รันได้สูงกว่า 120 token ต่อวินาทีไปเล็กน้อย)

Tags:
Node Thumbnail

Ollama ซอฟต์แวร์รันโมเดล LLM สำหรับรันบนพีซีออกเวอร์ชั่น 0.1.25 ความเปลี่ยนแปลงสำคัญคือการรองรับวินโดวส์เป็นเวอร์ชั่นแรก

ตอนนี้เวอร์ชั่นวินโดวส์ยังอยู่ในสถานะพรีวิวแต่ก็สามารถใช้งานทั้งการเร่งความเร็วด้วยชิปกราฟิกหรือซีพียู และสามารถใช้งานโมเดลได้ทุกตัวในไลบรารี

เมื่อติดตั้งและรันโมเดลแล้ว ตัว Ollama จะรันที่พอร์ต 11434 รอรับ REST API โดยเวอร์ชั่นก่อนหน้านี้ Ollama เพิ่งรองรับ API แบบ OpenAI ไป ในเวอร์ชั่นนี้ก็ได้ฟีเจอร์นี้ด้วย

ที่มา - Ollama

Tags:
Node Thumbnail

อาจเรียกได้ว่าเป็นวันของการปล่อยของด้าน AI นอกจาก Gemini 1.5 Pro จากกูเกิล และ Sora จาก OpenAI แล้ว Meta ก็เปิดตัว V-JEPA สถาปัตยกรรมตัวใหม่ของระบบการเรียนรู้ตนเอง สำหรับการพัฒนา AI ขั้นสูง

โดย V-JEPA ซึ่งย่อมาจากคำว่า Video Joint Embedding Predictive Architecture พัฒนาโดยทีม AI ของ Meta ที่นำโดย Yann LeCun ต้องการสร้างโมเดลเรียนรู้ของ AI ขั้นสูง เพื่อให้รองรับการทำความเข้าใจทุกอย่างในโลกได้ดียิ่งขึ้น โดยมีหลักคิดว่ามนุษย์เราเริ่มเรียนรู้สิ่งใหม่จากการดูและสังเกต โดยไม่จำเป็นต้องอ่านหนังสือจำนวนมากเพื่อจะเข้าใจทุกเรื่อง V-JEPA จึงออกแบบมาให้เรียนรู้และเข้าใจโลกในวิธีเดียวกับที่คนเรียนรู้ ประยุกต์ และคิดต่อยอด ในการแก้ปัญหาต่าง ๆ

Tags:
Node Thumbnail

นอกจากเปิดตัว Gemini 1.5 Pro แล้ว กูเกิลยังประกาศว่าโมเดล AI ทั้ง Gemini 1.0 Pro และ Gemini 1.0 Ultra ที่เปิดตัวเมื่อสัปดาห์ที่แล้ว ตอนนี้เปิดให้นักพัฒนาสามารถใช้งานได้แล้วผ่าน Vertex AI

โดย Gemini 1.0 Pro สามารถใช้งานได้แล้วสำหรับลูกค้า Vertex AI ทุกคน ส่วน Gemini 1.0 Ultra โมเดลรุ่นใหญ่ที่สุดในตระกูล Gemini ที่กูเกิลบอกว่าคะแนนทดสอบสูงกว่า GPT-4 ตอนนี้เปิดให้ใช้งานสำหรับลูกค้า Vertex AI ที่อยู่ใน allowlist

ที่มา: กูเกิล

Tags:
Node Thumbnail

OpenAI เปิดตัวโมเดลใหม่ สำหรับสร้างวิดีโอด้วย AI จากข้อความ (Text-to-Video) มีชื่อว่า Sora จุดเด่นคือสามารถสร้างวิดีโอความยาวถึง 1 นาที ที่มีความละเอียดสูง และลงรายละเอียดในวิดีโอได้ตาม prompt ของผู้ใช้งาน

Sora มีความสามารถสร้างวิดีโอที่มีฉากหลังรายละเอียดซับซ้อน มีตัวละครอยู่ในวิดีโอหลายคน ระบุรูปแบบการเคลื่อนไหวได้ รวมถึงลงรายละเอียดปลีกย่อยได้ ซึ่งจุดเด่นที่ Sora มีคือการแสดงผลแบบเป็นไปตามสภาพจริงที่ปรากฏอยู่

มีข้อดีก็มีข้อจำกัด OpenAI บอกว่า Sora ยังไม่สมบูรณ์แบบ โดยเฉพาะฉากที่มีวัตถุหลายอย่างซับซ้อน การแสดงผลทางฟิสิกส์อาจผิดพลาด เช่น ฉากกินขนม ขนมก็อาจไม่มีรอยหรือหายไปตามการถูกกิน และบางครั้งโมเดลก็สับสนในการทำงานระหว่างซ้ายและขวา

Tags:
Node Thumbnail

กูเกิลเพิ่งเปิดตัว Gemini Ultra ไปหมาดๆ วันนี้ปล่อยของต่อเนื่องด้วยโมเดลเวอร์ชันอัพเดต Gemini 1.5 Pro ซึ่งเป็นการอัพเกรดโมเดลระดับกลาง (Pro) ที่มีความสามารถระดับเดียวกับ Gemini 1.0 Ultra แต่ใช้พลังประมวลผลน้อยกว่า

ฟีเจอร์เด่นของ Gemini 1.5 Pro ที่น่าสนใจคือการรองรับอินพุตขนาดใหญ่ถึง 1 ล้านโทเคน ซึ่งถือว่ามากที่สุดในบรรดาโมเดลภาษาขนาดใหญ่ทุกวันนี้ (Anthropic Claude 2.1 รองรับ 2 แสนโทเคน) เปิดโอกาสให้ใช้งานโมเดล LLM กับงานที่หลากหลายขึ้นอีกมาก กูเกิลเทียบให้เห็นภาพว่าเท่ากับคลิปเสียงยาว 11 ชั่วโมง, วิดีโอ 1 ชั่วโมง, เอกสาร 700,000 คำ, โค้ด 30,000 บรรทัด

Tags:
Node Thumbnail

Stability AI เปิดตัวโมเดลสร้างรูปภาพจากข้อความ Stable Cascade ที่สถานะตอนนี้ยังเป็นงานวิจัย สามารถนำไปใช้งานได้ในงานที่ไม่ใช่เชิงพาณิชย์ สามารถดูรายละเอียดเพิ่มเติมได้ที่ GitHub

Stable Cascade เป็นโมเดลสร้างรูปภาพที่มีขั้นตอนการทำงานต่างไปจาก Stable Diffusion ที่เป็นเครื่องมือสร้างรูปภาพหลักของ Stability AI โดยประกอบด้วย 3 โมเดลย่อยบนสถาปัตยกรรม Würstchen ขั้นตอนแรกเรียกว่า Stage C เป็นการสร้างรายละเอียดย่อยในภาพ (Latent Generator) แล้วส่งต่อไป Stage B และ Stage A เพื่อปรับแต่งความละเอียดรูปภาพให้ออกมาคมชัด ผลลัพธ์ที่ได้นอกจากภาพที่ละเอียดมากกว่า ยังใช้เวลาในการสร้างรูปภาพที่สั้นกว่าโมเดลเดิมด้วย

Tags:
Node Thumbnail

แอปเปิลเผยแพร่งานวิจัยด้าน AI ตัวล่าสุด ซึ่งอาจทำให้เห็นทิศทางฟีเจอร์ใหม่ ๆ ในสินค้าแอปเปิล โดยคราวนี้เป็นเครื่องมือชื่อว่า Keyframer ที่มีความสามารถสร้างอนิเมชันเคลื่อนไหว จากภาพนิ่งตั้งต้น 2 มิติ โดยใช้โมเดลภาษาขนาดใหญ่ (LLM) ช่วยป้อนคำสั่งที่ต้องการ

ในงานวิจัยนี้ อินพุทของรูปภาพต้องเป็นไฟล์ภาพ SVG แล้วป้อน prompt สิ่งที่ต้องการให้ในภาพมีการเคลื่อนไหว จากนั้น Keyframer จะสร้างโค้ด CSS เพื่อปรับวัตถุในภาพแต่ละส่วนให้เป็นไปตาม prompt ที่ระบุ

ทีมวิจัยบอกว่า Keyframer ช่วยลดขั้นตอนของผู้ผลิตอนิเมชัน ที่ทำให้สร้างภาพเคลื่อนไหวจากงานเริ่มต้น ซึ่งเดิมอาจต้องใช้เวลาพอสมควรเพราะต้องขยับวัตถุ มาช่วยให้ได้ผลลัพธ์ทันทีจากคำสั่ง

Pages