การพัฒนา AI Deepseek มีค่าใช้จ่าย 1.6 พันล้านเหรียญ
Chatbot ใหม่จาก Deepseek แนะนำตัวเองด้วยคำสัญญาที่น่าดึงดูด: "สวัสดีฉันถูกสร้างขึ้นเพื่อให้คุณสามารถถามอะไรก็ได้และรับคำตอบที่อาจทำให้คุณประหลาดใจ" คำแถลงนี้สรุปสาระสำคัญของสิ่งที่ Deepseek มีจุดมุ่งหมายเพื่อให้บรรลุในตลาด AI ที่มีการแข่งขันซึ่งเพิ่งเห็นหนึ่งในราคาหุ้นที่ใหญ่ที่สุดของ Nvidia ลดลงเนื่องจากผลกระทบของ Deepseek
รูปภาพ: Ensigame.com
โมเดล AI ของ Deepseek โดดเด่นเนื่องจากสถาปัตยกรรมที่เป็นนวัตกรรมและวิธีการฝึกอบรม นี่คือเทคโนโลยีสำคัญที่แยกความแตกต่าง:
Multi-Token Prediction (MTP) : ซึ่งแตกต่างจากแบบจำลองดั้งเดิมที่ทำนายคำหนึ่งคำต่อครั้ง MTP ของ Deepseek คาดการณ์หลายคำพร้อมกันโดยการวิเคราะห์ส่วนต่าง ๆ ของประโยค วิธีนี้ไม่เพียง แต่ช่วยเพิ่มความแม่นยำ แต่ยังช่วยเพิ่มประสิทธิภาพของโมเดล
ส่วนผสมของผู้เชี่ยวชาญ (MOE) : Deepseek V3 ใช้สถาปัตยกรรม MOE โดยใช้เครือข่ายประสาท 256 แห่งโดยมีการเปิดใช้งานแปดเครือข่ายสำหรับงานการประมวลผลโทเค็นแต่ละครั้ง วิธีการนี้เร่งการฝึกอบรม AI และปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญ
ความสนใจแฝงหลายหัว (MLA) : MLA มุ่งเน้นไปที่ส่วนที่สำคัญที่สุดของประโยคโดยการแยกรายละเอียดสำคัญซ้ำ ๆ จากชิ้นส่วนข้อความ สิ่งนี้จะช่วยลดโอกาสในการขาดข้อมูลที่สำคัญทำให้ AI สามารถจับภาพความแตกต่างที่สำคัญได้อย่างมีประสิทธิภาพ
แม้จะอ้างว่าได้พัฒนารูปแบบ AI ที่มีการแข่งขันด้วยงบประมาณน้อยที่สุด 6 ล้านเหรียญสหรัฐสำหรับการฝึกอบรม Deepseek V3 โดยใช้โปรเซสเซอร์กราฟิกเพียง 2048 แต่การตรวจสอบเพิ่มเติมเผยให้เห็นภาพที่ซับซ้อนมากขึ้น
รูปภาพ: Ensigame.com
นักวิเคราะห์จาก Semianalysis ค้นพบว่า Deepseek ดำเนินการโครงสร้างพื้นฐานการคำนวณมากมายซึ่งประกอบด้วย GPU Nvidia Hopper ประมาณ 50,000 ตัว ซึ่งรวมถึง 10,000 H800 หน่วย, อีก 10,000 H100s และ H20 GPU เพิ่มเติมกระจายไปทั่วศูนย์ข้อมูลหลายแห่งสำหรับการฝึกอบรม AI การวิจัยและการสร้างแบบจำลองทางการเงิน การลงทุนทั้งหมดในเซิร์ฟเวอร์อยู่ที่ประมาณ 1.6 พันล้านดอลลาร์โดยมีค่าใช้จ่ายในการดำเนินงานอยู่ที่ 944 ล้านดอลลาร์
Deepseek เป็น บริษัท ในเครือของกองทุนป้องกันความเสี่ยงของจีนซึ่งหมุนตัวออกจากการเริ่มต้นในปี 2566 เพื่อมุ่งเน้นไปที่เทคโนโลยี AI ซึ่งแตกต่างจาก บริษัท สตาร์ทอัพหลายแห่งที่พึ่งพาผู้ให้บริการคลาวด์ Deepseek เป็นเจ้าของศูนย์ข้อมูลทำให้สามารถควบคุมการเพิ่มประสิทธิภาพแบบจำลอง AI ได้อย่างเต็มที่และเปิดใช้งานนวัตกรรมที่รวดเร็ว บริษัท ได้รับเงินสนับสนุนตนเองซึ่งช่วยเพิ่มความยืดหยุ่นและความเร็วในการตัดสินใจ
รูปภาพ: Ensigame.com
Deepseek ยังดึงดูดความสามารถสูงสุดโดยนักวิจัยบางคนมีรายได้มากกว่า 1.3 ล้านเหรียญสหรัฐต่อปีส่วนใหญ่มาจากมหาวิทยาลัยชั้นนำของจีน การเรียกร้องของ บริษัท ในการฝึกอบรมรูปแบบล่าสุดเพียง $ 6 ล้านดูเหมือนจะไม่สมจริงเมื่อพิจารณาบริบทที่กว้างขึ้น ตัวเลขนี้มีเพียงบัญชีสำหรับการใช้งาน GPU ในระหว่างการฝึกอบรมก่อนและไม่รวมค่าใช้จ่ายในการวิจัยการปรับแต่งแบบจำลองการประมวลผลข้อมูลและต้นทุนโครงสร้างพื้นฐานโดยรวม
นับตั้งแต่ก่อตั้งขึ้น Deepseek ได้ลงทุนกว่า 500 ล้านดอลลาร์ในการพัฒนา AI โครงสร้างขนาดกะทัดรัดช่วยให้การใช้งานนวัตกรรมของ AI มีประสิทธิภาพและมีประสิทธิภาพซึ่งแตกต่างจาก บริษัท ที่มีขนาดใหญ่และมีระบบราชการมากขึ้น
รูปภาพ: Ensigame.com
การเดินทางของ Deepseek แสดงให้เห็นว่า บริษัท AI อิสระที่ได้รับการสนับสนุนอย่างดีสามารถแข่งขันกับยักษ์ใหญ่ในอุตสาหกรรมได้ อย่างไรก็ตามผู้เชี่ยวชาญทราบว่าความสำเร็จของมันเกิดจากการลงทุนที่สำคัญการพัฒนาทางเทคนิคและทีมที่แข็งแกร่งแทนที่จะเป็น "งบประมาณปฏิวัติ" สำหรับการพัฒนา AI อย่างไรก็ตามเรื่องนี้ค่าใช้จ่ายของ Deepseek ยังคงต่ำกว่าคู่แข่งอย่างมีนัยสำคัญ ตัวอย่างเช่นในขณะที่ Deepseek ใช้จ่าย $ 5 ล้านใน R1 การฝึกอบรมของ CHATGPT4O มีค่าใช้จ่าย $ 100 ล้าน
อย่างไรก็ตามมันยังคงถูกกว่าคู่แข่ง
บทความล่าสุด