lew | Blognone

Member for : Thu, 11/08/2005 - 11:15

กูเกิลอัพเดต Gemini 1.5 ฟังเสียงได้แล้ว เพิ่มรุ่น Flash ราคาประหยัด, ความเร็วสูง

By lew

on 15 May 2024 - 01:04 Tag: Gemini, Google, LLM

Gemini

กูเกิลอัพเดตโมเดล Gemini 1.5 Pro โดยขยาย context window เป็น 2 ล้านโทเค็น ทำให้สามารถรองรับข้อมูลขนาดใหญ่มาก และเชื่อฟังคำสั่งมากขึ้น โดยเฉพาะคำสั่งฟอร์แมต์เอาท์พุต หรือพฤติกรรมของ AI และการวางแผนการทำงานได้ดีขึ้นทำให้สามารถเรียกฟังก์ชั่นภายนอกได้มากขึ้น

นอกจากนี้กูเกิลยังเปิดตัว Gemini 1.5 Flash ที่ราคาประหยัดลงแต่ประสิทธิภาพยังใกล้เคียง Gemini 1.5 Pro โดยอาศัยเทคนิค distillation ที่ดึงความสามารถจากโมเดลขนาดใหญ่ และรองรับ context window ขนาด 1 ล้านโทเค็นเท่ากับรุ่นใหญ่ ราคาค่าใช้งาน 0.35 ดอลลาร์ต่อล้านโทเค็น

AWS ปรับนโยบายคิดค่า S3 API ไม่คิดเงินหากตอบกลับ 3XX/4XX จาก request ภายนอก

By lew

on 14 May 2024 - 11:50 Tag: AWS, Cloud Storage

AWS

AWS ประกาศปรับนโยบายคิดเงินค่า S3 API หลังจากเกิดเหตุคิดเงินค่า bucket เปล่ากับลูกค้าถึงวันละ 50,000 บาท โดยจะยกเลิกการคิดเงินกรณีที่ตอบกลับแบบ redirect (HTTP 3XX) หรือแสดงความผิดพลาด (HTTP 4xx) จากนอกเน็ตเวิร์คของลูกค้าเอง แต่หากเรียกจากเครื่องภายในเองแล้วได้ error เองก็ยังคิดเงินต่อไป รวมถึงกรณีที่ใช้ S3 โฮสต์เว็บ และตั้ง custom error หรือ custom redirect ก็จะคิดเงินด้วย

สำหรับการตอบกลับแบบที่ผิดพลาดจากฝั่ง S3 (HTTP 5XX) นั้นทาง AWS ไม่เคยคิดเงินอยู่แล้ว ส่วนการตอบกลับปกติ HTTP 200 นั้นคิดเงินแทบทุกกรณี

ผลทดสอบ Tokenizer ของ GPT-4o ภาษาไทยประหยัดเท่าตัว

By lew

on 14 May 2024 - 10:22 Tag: OpenAI, ChatGPT, LLM

OpenAI

เมื่อคืนที่ผ่านมา OpenAI เปิดตัว GPT-4o พร้อมกับประกาศเปลี่ยน tokenizer ใหม่โดยอาศัย 20 ภาษาต้นแบบในการบีบอัดข้อมูล ทำให้ภาษาต่างๆ ประหยัดโทเค็นยิ่งขึ้น แม้ภาษาไทยจะไม่อยู่ในรายชื่อ 20 ภาษา แต่ผลการทดลองก็พบว่าภาษาไทยนั้นประหยัดโทเค็นลงเท่าตัว

tokenizer ของ GPT-4o สามารถจับคำหรือส่วนของคำในภาษาไทยได้ชัดเจน คำสามัญเช่น "ของ" หรือ "จำนวน" ก็สามารถมองเป็นโทเค็นเดียวได้ทันที เทียบกับ tokenizer ของ GPT-4 ที่ไม่สามารถรวบตัวอักษรหลายตัวในภาษาไทยเข้าด้วยกันได้เลย ทำให้จำนวนโทเค็นกับจำนวนตัวอักษรใกล้เคียงกัน

OpenAI ปรับ tokenizer รองรับภาษาเพิ่ม 20 ภาษา ประหยัดค่า token

By lew

on 14 May 2024 - 00:47 Tag: OpenAI, LLM, ChatGPT

OpenAI

update: เวอร์ชั่นแรกขอข่าวนี้พาดหัวว่ายังไม่รองรับภาษาไทย แต่เมื่อทดสอบแล้วจำนวนโทเค็นในภาษาไทยลดลงกว่าเท่าตัว

ในงานเปิดตัว GPT-4o ของ OpenAI นอกจากประเด็นโมเดลมีประสิทธิภาพสูงขึ้นแล้ว ยังมีประเด็นการออปติไมซ์ tokenizer เพื่อให้ใช้งานภาษาอื่นๆ นอกจากภาษาอังกฤษได้ดีขึ้น โดยทีมงาน OpenAI เลือกมา 20 ภาษารวมถึงภาษาอังกฤษแต่ยังไม่มีภาษาไทย ทำให้ภาษาเหล่านี้ใช้งานได้มีประสิทธิภาพมากขึ้นเพราะคำในภาษาเหล่านี้มีจำนวนโทเค็นน้อยลง

OpenAI เปิดตัว GPT-4o เปิดให้ใช้ฟรีทุกคน ฟังเสียงและอ่านภาพได้ในตัว พร้อมแอปเดสก์ทอปอ่านจอได้โดยตรง

By lew

on 14 May 2024 - 00:29 Tag: OpenAI, LLM, ChatGPT

OpenAI

OpenAI เปิดตัว GPT-4 รุ่นใหม่ในชื่อ GPT-4o (โฟร์-โอ) ความสามารถใกล้เคียง GPT-4 แต่ความเร็วสูงกว่า ขณะที่ยังมีความสามารถรองรับอินพุตหลายแบบ (multimodal) สามารถฟังเสียงและอ่านภาพได้โดยไม่ต้องการโมเดลปัญญาประดิษฐ์ speech-to-text แยก

เนื่องจากประสิทธิภาพ GPT-4o สูงกว่าทำให้ OpenAI สามารถเปิดให้ผู้ใช้ทุกคนใช้งานได้ฟรีโดยมีโควต้ามากขึ้น สำหรับการใช้งานฝั่ง API ราคาของ GPT-4o จะถูกกว่า GPT-4 Turbo ลงครึ่งหนึ่ง ความเร็วโดยรวมเพิ่มขึ้นเท่าตัว และโควต้าการใช้งานเพิ่มขึ้นถึง 5 เท่า

Wikipedia ทดสอบบริการ AI เช็คข้อมูลเว็บต่างๆ ด้วยวิกิ อาศัยพลัง ChatGPT

By lew

on 13 May 2024 - 23:05 Tag: Wikipedia, ChatGPT, LLM

Wikipedia

Wikimedia Foundation ผู้ให้บริการ Wikipedia ทดสอบปลั๊กอินเบราว์เซอร์ Citation Needed เป็นการตรวจสอบข้อมูลในเว็บด้วยการค้นหาข้อมูลในวิกิมาอ้างอิง โดยใช้ ChatGPT มาอ่านข้อความและหน้าเว็บอ้างอิงว่าเนื้อหาสนับสนุนกันหรือไม่

ปลั๊กอินเบราว์เซอร์ตัวนี้รับอินพุตโดยให้ผู้ใช้เลือกข้อความในเว็บใดๆ จากนั้นจะอาศัย ChatGPT ในการสร้างคำค้นหา และค้นหาหน้าวิกิด้วย API ของ Wikipedia เอง สุดท้ายจะใช้ ChatGPT ในการแยกประโยคที่เกี่ยวข้องและสรุปออกมาว่าเป็นเนื้อหาที่ผู้ใช้เลือกมานั้นสอดคล้องกับข้อความในหน้าวิกิหรือไม่

01.AI ปล่อย Yi-1.5 โมเดล AI โอเพนซอร์ส เปิดตัวคู่แข่ง ChatGPT เน้นภาษาจีน

By lew

on 13 May 2024 - 19:50 Tag: Kai Fu Lee, Artificial Intelligence, LLM, China

Kai Fu Lee

01.AI บริษัทปัญญาประดิษฐ์ที่ก่อตั้งโดย Kai-Fu Lee เปิดตัวโมเดล Yi เวอร์ชั่น 1.5 โดยชูประเด็นว่าโมเดลขนาด 9B นั้นสามารถทำคะแนนทดสอบชนะโมเดลโอเพนซอร์สขนาดใกล้เคียงกันได้ทั้งหมด (แม้่ว่านับจริงๆ Yi 9B จะใหญ่กว่าคนอื่นพอสมควรก็ตาม)

ทีมงาน 01.AI ระบุว่า Yi ฝึกด้วยชุดข้อมูลคุณภาพสูงขนาดใหญ่มากถึงห้าแสนล้านโทเค็น แล้วฝึกต่อด้วยตัวอย่างอีกสามล้านชุด

Mayo Clinic พัฒนาผู้ช่วยแพทย์รักษามะเร็ง finetune จาก Llama 2 ข้อมูลไม่ออกจากโรงพยาบาลเลย

By lew

on 12 May 2024 - 15:30 Tag: Llama, Meta, LLM, Medical, Research

Llama

Mayo Clinic รายงานถึงการพัฒนา RadOnc-GPT ผู้ช่วยวิเคราะห์โรคมะเร็งที่อาศัยข้อมูลการรักษามะเร็งในโรงพยาบาล Mayo Clinic เอง นำมา finetune โมเดล Llama 2 ของ Meta กระบวนการฝึกและการใช้งานทั้งหมดอยู่ในเน็ตเวิร์คของโรงพยาบาลเอง

IBM ปล่อย AI ช่วยเขียนโค้ด Granite เก่งสุดในกลุ่ม 8B ใช้งานได้อิสระ

By lew

on 10 May 2024 - 23:05 Tag: IBM, LLM, Programming

IBM

IBM ปล่อยโมเดลปัญญาประดิษฐ์ Granite ที่ฝึกจากฐานข้อมูลโค้ด 116 ภาษา โดยโมเดลมี 4 ขนาดได้แก่ 3B, 8B, 20B, และ 34B แยกรุ่นพื้นฐานและรุ่นรับคำสั่ง (instruct) โดยเฉพาะรุ่น 8B นั้นความสามารถในการเขียนโปรแกรมเหนือกว่าโมเดลขนาดเดียวกันค่อนข้างมาก

กระบวนการฝึกโมเดลเวอร์ชั่น 34B นั้นพิเศษกว่าเวอร์ชั่นอื่นๆ เพราะอาศัยการ upscaling โดยนำโมเดล 20B ที่มี 52 ชั้นสองเวอร์ชั่น มาถอดฝั่ง output 8 ชั้น และ input ของอีกโมเดลหนึ่ง 8 ชั้น แล้วนำมาต่อกันเป็น 34B ข้อมูลที่ใช้ฝึกนั้นมีตั้งแต่ GitHub Code Clean, StarCoderData, และโค้ดอื่นๆ รวมถึง

DeepMind เปิดตัว AlphaFold 3 ทำนายปฎิกริยาโมเลกุล พร้อมบริการช่วยออกแบบโมเลกุลยาให้นักวิจัยฟรี

By lew

on 9 May 2024 - 23:53 Tag: DeepMind, Google, Artificial Intelligence, Medical, Research

DeepMind

Google DeepMind เปิดตัวโมเดลปัญญาประดิษฐ์ AlphaFold 3 ที่เป็นปัญญาประดิษฐ์สำหรับการทำนายโครงสร้างของโมเลกุล หลังจากเปิดตัว AlphaFold 2 มาตั้งแต่ปี 2020 และใช้สร้างฐานข้อมูลโครงสร้างโปรตีนเมื่อปี 2022 เปิดให้นักวิจัยเข้าใช้งานได้ฟรี

ทาง DeepMind ระบุว่าจนถึงตอนนี้งานวิจัยที่อ้างอิงกลับมายัง AlphaFold มีจำนวนมากกว่า 20,000 รายงานวิจัย และถูกใช้ในการออกแบบวัคซีนมาลาเรีย, มะเร็ง, ตลอดจนการออกแบบเอนไซม์

กูเกิลเปิดตัว TimesFM โมเดล AI พื้นฐานสำหรับทำนายข้อมูลตัวเลขแบบไม่ต้องฝึกล่วงหน้า

By lew

on 9 May 2024 - 17:28 Tag: Artificial Intelligence, Google

Artificial Intelligence

กูเกิลปล่อยโมเดล TimesFM โมเดลปัญญาประดิษฐ์พื้นฐาน (foundational model) สำหรับการทำนายข้อมูลตัวเลขโดยเฉพาะ เช่น เมื่อผู้ใช้ให้ตัวเลขเบื้องต้น แล้วโมเดลสามารถทำนายค่าต่อไปได้โดยไม่ต้องฝึกจากข้อมูลก่อนหน้า

กระบวนการฝึกโมเดลนี้ กูเกิลอาศัยข้อมูลในโลกความเป็นจริงรวมกว่าแสนล้านชุด เช่น Google Trends หรือสถิติการเข้าชม Wikipedia พร้อมกับข้อมูลสังเคราะห์ที่เป็นโมเดลทางคณิตศาสตร์หรือฟิสิกส์พื้นฐาน

TIOBE รายงานอันดับภาษาโปรแกรม Fortran ขึ้น Top 10 ครั้งแรกในรอบ 20 ปี

By lew

on 8 May 2024 - 20:58 Tag: TIOBE, Programming, Fortran

TIOBE

TIOBE รายงานลำดับความนิยมภาษาโปรแกรมรอบเดือนพฤษภาคม 2024 โดยมีความเปลี่ยนแปลงไม่มากนักยกเว้นภาษา Fortran ที่ขึ้นมาอยู่อันดับ 10 นับเป็นครั้งแรกในรอบ 20 ปีที่ภาษานี้กลับมาอยู่ Top 10

Stack Overflow ล็อกบัญชีผู้ใช้หลังพยายามแก้คำตอบประท้วงการขายข้อมูลให้ OpenAI

By lew

on 8 May 2024 - 20:35 Tag: Stack Overflow, OpenAI

Stack Overflow

หลังจาก OpenAI ตกลงซื้อข้อมูลจาก Stack Overflow นำข้อมูลไปฝึกปัญญาประดิษฐ์ ผู้ใช้บางส่วนก็แสดงความไม่พอใจ ผู้ใช้ชื่อบัญชี benui ก็พยายามลบคำตอบของตัวเอง แต่กลับถูกล็อกบัญชี

benui ระบุว่าตอนแรกเขาพยายามลบคำตอบแต่ก็พบว่า Stack Overflow ล็อกไม่ให้ลบคำตอบที่ถูกยอมรับแล้วและมีโหวตจำนวนมาก เขาจึงพยายามแก้คำตอบเพื่อประท้วงแต่ผู้ดูแลเว็บก็แก้คำตอบกลับภายในเวลาไม่นาน และล็อกบัญชีของเขาเป็นเวลา 7 วัน

ภาษา Go ปรับไลบรารี math/rand/v2 เปลี่ยนมาใช้ตัวสร้างเลขสุ่มปลอดภัยขึ้น แม้ช้าลงบ้าง

By lew

on 8 May 2024 - 12:30 Tag: Go, Cryptography

Go เวอร์ชั่น 1.22 เปลี่ยนโครงสร้างภายในของไลบรารี math/rand เป็นเวอร์ชั่น 2 โดยแกนกลางสำคัญคือการเปลี่ยนอัลกอริทึมจากเดิมที่เคยเป็น linear-feedback shift register แบบง่ายๆ ทำงานได้เร็ว มาเป็นตัวสร้างเลขสุ่มแบบ PCG และ ChaCha8 หลายเดือนหลังปรับปรุงทีมงานก็ออกมาอธิบายแนวคิดเบื้องหลัง

กูเกิลเปิดตัว Pixel 8a ใช้ชิป G3 ไม่กั๊ก Gemini, เพิ่มรุ่น 256GB, มี 4 สีให้เลือก

By lew

on 8 May 2024 - 00:26 Tag: Google Pixel 8, Google, Android

Google Pixel 8

กูเกิลเปิดตัว Google Pixel 8a โทรศัพท์รุ่นกลาง ที่สเปคใกล้เคียงกับ Pixel 8 อย่างมากเพราะใช้ชิปรุ่นเดียวกันและแรมเท่ากัน โดยประกาศใส่ Gemini Nano ตั้งแต่แรก แต่ราคาเปิดตัวถูกกว่า 200 ดอลลาร์ (Pixel 8 ราคาตั้ง 699 ดอลลาร์ Pixel 8a ราคา 499 ดอลลาร์) ตวามแตกต่างของสองรุ่น ได้แก่

สหรัฐฯ ประกาศชื่อผู้พัฒนามัลแวร์เรียกค่าไถ่ LockBit ตั้งรางวัลนำจับ 10 ล้านดอลลาร์

By lew

on 7 May 2024 - 23:33 Tag: FBI, LockBit, Ransomware

FBI

กระทรวงยุติธรรมสหรัฐฯ ออกหมายจับ Dimitry Yuryevich Khoroshev (Дмитрий Юрьевич Хорошев) หรือชื่อบัญชี LockBitSupp อายุ 31 ปีจากรัสเซีย ข้อหาเป็นผู้พัฒนาและดำเนินการมัลแวร์เรียกค่าไถ่ LockBit มัลแวร์ที่ประสบความสำเร็จอันดับต้นๆ ได้เงินค่าไถ่รวมกว่า 500 ล้านดอลลาร์สหรัฐฯ โดยตัว Khoroshev เองได้เงินเข้ากระเป๋ากว่า 100 ล้านดอลลาร์สหรัฐฯ

OpenSSF เตือนแฮกเกอร์หลอกขอสิทธิ์ส่งโค้ดเคยพยายามโจมตีโครงการอื่นนอกจาก XZ

By lew

on 7 May 2024 - 22:25 Tag: Security, Open Source

Security

หลังจากเหตุการณ์คนร้ายส่งโค้ดมุ่งร้ายเข้าโครงการ XZ โดยคนร้ายแฝงตัวเป็นนักพัฒนาไปช่วยส่งโค้ดเล็กๆ น้อยสร้างความไว้วางใจให้กับผู้ดูแลโครงการเพื่อให้ยกสิทธิ์ส่งโค้ดให้คนร้าย ทาง OpenSSF และ OpenJS ก็ออกมาเตือนว่ามีคนร้ายใช้วิธีการแบบนี้กับโครงการอื่นๆ เหมือนกัน

OpenAI ซื้อ API จาก Stack Overflow เป็นรายที่สองต่อจากกูเกิล

By lew

on 6 May 2024 - 22:14 Tag: Stack Overflow, OpenAI

Stack Overflow

Stack Overflow เปิด API ให้บริษัทปัญญาประดิษฐ์ดูดข้อมูลไปใช้ตั้งแต่ต้นปีที่ผ่านมาโดยมีลูกค้ารายแรกคือกูเกิล ตอนนี้ OpenAI ก็ประกาศใช้บริการนี้เหมือนกัน

ประกาศครั้งนี้มีประเด็นเพิ่มเติม คือทาง Stack Overflow จะใช้บริการของ OpenAI มาสร้าง OverflowAI สำหรับช่วยตอบคำถามภายในองค์กรเอง

Figma เลิกใช้ภาษา Skew ของตัวเอง หันมาใช้ TypeScript ทั้งหมดแล้ว

By lew

on 4 May 2024 - 18:47 Tag: Figma, Programming, TypeScript

Figma

Figma รายงานถึงกระบวนการย้ายโค้ดของตัวเอง จากเดิมที่ใช้ภาษา Skew ที่เริ่มใช้งานมาตั้งแต่เริ่มต้นบริษัท (ปล่อยเวอร์ชั่นแรกๆ ปี 2016 เหมือนกัน) โดยเงื่อนไขสำคัญคือการใช้ภาษา Skew เพื่อคอมไพล์โค้ดกลางไปใช้งานได้ทั้งเว็บและโทรศัพท์มือถือ โดยตอนนั้นภาษา TypeScript ยังซัพพอร์ตกันไม่มากนัก ทำให้ใช้ Skew เรื่อยมา แต่สุดท้ายก็พบว่าสร้างความลำบากเพราะใช้งานโค้ดหรือเครื่องมือภายนอกไม่ได้ ตลอดจนเสียเวลาฝึกพนักงานใหม่

Backblaze รายงานความทนทานฮาร์ดดิสก์ เพิ่มหมวดดิสก์ขนาดใหญ่ Western Digital นำชัด

By lew

on 3 May 2024 - 06:53 Tag: Backblaze, Storage, Cloud Storage

Backblaze

Backblaze บริษัทคลาวด์สตอเรจที่เปิดเผยข้อมูลความน่าเชื่อถือของดิสก์ที่นำมาใช้งานเปิดเผยรายงานรอบล่าสุด โดยรอบนี้เน้นไปที่ดิสก์ที่มีความจุขนาดใหญ่กว่า 12TB เนื่องจากเป็นกลุ่มที่บริษัทกำลังนำมาเปลี่ยนทดแทนดิสก์เดิมไปเรื่อยๆ

ทาง Backblaze เทียบความทนทานของดิสก์ขนาดใหญ่ 3 ความจุ คือ 12TB, 14TB, และ 16TB โดยยกเว้น 22TB เนื่องจากมีเฉพาะ Western Digital รุ่นเดียว