Nvidia เรียกโมเดล DeepSeek R1 ของจีนว่าเป็น “ความก้าวหน้าด้าน AI ที่ยอดเยี่ยม”

nvidia-calls-chinas-deepseek-r1-model-an-excellent-ai-advancement-Social

Nvidia เรียกโมเดล R1 ของ DeepSeek ว่า “ความก้าวหน้าที่ยอดเยี่ยมของ AI” แม้ว่าการเกิดขึ้นของสตาร์ทอัพจากจีนนี้จะทำให้ราคาหุ้นของบริษัทผลิตชิปร่วงลงถึง 17% เมื่อวันจันทร์ที่ผ่านมา

“DeepSeek เป็นความก้าวหน้าที่ยอดเยี่ยมของ AI และเป็นตัวอย่างที่สมบูรณ์แบบของ Test Time Scaling” โฆษกของ Nvidia กล่าวกับ CNBC เมื่อวันจันทร์ “งานของ DeepSeek แสดงให้เห็นว่ามีการสร้างโมเดลใหม่ได้อย่างไร โดยใช้เทคนิคนี้ ซึ่งใช้ประโยชน์จากโมเดลและการประมวลผลที่มีอยู่ทั่วไป และเป็นไปตามข้อกำหนดการควบคุมการส่งออกอย่างสมบูรณ์”

ความคิดเห็นดังกล่าวเกิดขึ้นหลังจากที่ DeepSeek ปล่อยโมเดล R1 เมื่อสัปดาห์ที่แล้ว ซึ่งเป็นโมเดลการใช้เหตุผลแบบโอเพนซอร์สที่รายงานว่าสามารถทำผลงานได้ดีกว่าโมเดลที่ดีที่สุดจากบริษัทในสหรัฐฯ เช่น OpenAI โดยค่าใช้จ่าย Self-reported training R1 นั้นน้อยกว่า 6 ล้านดอลลาร์ ซึ่งถือว่าน้อยมากเมื่อเทียบกับพันล้านดอลลาร์ที่บริษัทในซิลิคอนวัลเลย์ใช้ในการสร้างโมเดลปัญญาประดิษฐ์ของตน

แถลงการณ์ของ Nvidia ระบุว่าบริษัทมองว่าความก้าวหน้าของ DeepSeek คือการสร้างงานเพิ่มเติมสำหรับหน่วยประมวลผลกราฟิกหรือ GPU ของผู้ผลิตชิปสัญชาติอเมริกัน

Jensen Huang, co-founder และ chief executive officer ของ Nvidia Corp

“การใช้งาน Inference ต้องการจำนวนหน่วยประมวลผลกราฟิก (GPU) ของ NVIDIA อย่างมาก รวมถึงเครือข่ายที่มีประสิทธิภาพสูง” โฆษกกล่าวเพิ่มเติม “ตอนนี้เรามีกฎการขยายขนาด 3 ประเภท: Pre-training และ Post-training ที่ยังคงดำเนินต่อไป และ Test-time scaling แบบใหม่”

Nvidia ยังระบุด้วยว่า GPU ที่ DeepSeek ใช้นั้นเป็นไปตามข้อกำหนดทั้งหมด ซึ่งเป็นการโต้แย้งความคิดเห็นของ Alexandr Wang ซีอีโอของ Scale AI ที่กล่าวกับ CNBC เมื่อสัปดาห์ก่อนว่าเขาเชื่อว่า DeepSeek ใช้ GPU ของ Nvidia รุ่นที่ถูกห้ามนำเข้าในจีนแผ่นดินใหญ่ DeepSeek ชี้แจงว่าได้ใช้ GPU ของ Nvidia เวอร์ชันพิเศษที่ออกแบบมาสำหรับตลาดจีน

นักวิเคราะห์กำลังตั้งคำถามว่าการลงทุนในโครงสร้างพื้นฐาน AI ที่ใช้ Nvidia จากบริษัทอย่าง Microsoft, Google และ Meta ที่มีมูลค่าหลายพันล้านดอลลาร์นั้นสูญเปล่าหรือไม่ เมื่อผลลัพธ์เดียวกันสามารถทำได้ด้วยต้นทุนที่ถูกกว่า

เมื่อต้นเดือน Microsoft กล่าวว่าจะใช้เงิน 80 พันล้านดอลลาร์ในโครงสร้างพื้นฐาน AI ภายในปี 2025 เพียงปีเดียว ในขณะที่ Mark Zuckerberg ซีอีโอของ Meta เมื่อสัปดาห์ที่แล้วระบุว่าบริษัทโซเชียลมีเดียวางแผนที่จะลงทุนระหว่าง 60 พันล้านดอลลาร์ถึง 65 พันล้านดอลลาร์ในรายจ่ายเพื่อการลงทุนภายในปี 2025 ซึ่งเป็นส่วนหนึ่งของกลยุทธ์ AI

“หากต้นทุนการฝึกโมเดลลดลงอย่างมีนัยสำคัญ เราคาดว่าจะเห็นประโยชน์ด้านต้นทุนในระยะสั้นสำหรับบริษัทที่ใช้บริการ AI บนคลาวด์ เช่น บริษัทโฆษณา การเดินทาง และแอปพลิเคชันสำหรับผู้บริโภคอื่นๆ ในขณะที่รายได้และต้นทุนที่เกี่ยวข้องกับ AI ในระยะยาวของผู้ให้บริการคลาวด์ขนาดใหญ่ (hyperscalers) น่าจะลดลง” นักวิเคราะห์จาก BofA Securities ชื่อ Justin Post เขียนไว้ในหมายเหตุเมื่อวันจันทร์

คำแถลงของ Nvidia ยังสะท้อนถึงแนวคิดใหม่ที่ Jensen Huang ซีอีโอของ Nvidia, Sam Altman ซีอีโอของ OpenAI และ Satya Nadella ซีอีโอของ Microsoft ได้พูดคุยกันในช่วงไม่กี่เดือนที่ผ่านมา

ความเจริญเติบโตของ AI และความต้องการ GPU ของ Nvidia ส่วนใหญ่ได้รับแรงหนุนจาก “Scaling law” ซึ่งเป็นแนวคิดในการพัฒนา AI ที่ถูกเสนอโดยนักวิจัยจาก OpenAI ในปี 2020 แนวคิดนี้ชี้ให้เห็นว่าระบบ AI ที่ดีกว่าสามารถพัฒนาได้โดยการเพิ่มปริมาณการประมวลผลและข้อมูลที่ใช้ในการสร้างโมเดลใหม่ ซึ่งต้องการชิปจำนวนมากขึ้นเรื่อยๆ

ตั้งแต่เดือนพฤศจิกายนเป็นต้นมา Huang และ Altman ได้มุ่งเน้นไปที่กฎการขยายขนาดที่มีความซับซ้อนขึ้น ซึ่ง Huang เรียกว่า “Test-time scaling”

แนวคิดนี้ระบุว่าหากโมเดล AI ที่ถูกฝึกมาอย่างสมบูรณ์ใช้เวลาในการใช้พลังการประมวลผลเพิ่มขึ้นเมื่อทำการคาดการณ์หรือสร้างข้อความหรือภาพเพื่อให้สามารถ “ใช้เหตุผล” ได้ โมเดลจะให้คำตอบที่ดีกว่าถ้ารันด้วยเวลาที่น้อยกว่า

รูปแบบของกฎ Test-time scaling นี้ถูกใช้ในโมเดลบางตัวของ OpenAI เช่น o1 รวมถึงโมเดล R1 ที่ก้าวล้ำของ DeepSeek

Source: cnbc.com

ผู้ที่สนใจสอบถามข้อมูลเพิ่มเติม สามารถติดต่อทีมงาน WIT ได้ที่

Related Posts