Trang chủ Tin tức DeepSeek AI Develop

DeepSeek AI Develop

Tác giả : Violet Cập nhật : Apr 12,2025

Chatbot mới từ Deepseek đã tự giới thiệu với một lời hứa quyến rũ: "Xin chào, tôi được tạo ra để bạn có thể hỏi bất cứ điều gì và nhận được câu trả lời thậm chí có thể làm bạn ngạc nhiên." Tuyên bố này gói gọn bản chất của những gì Deepseek nhắm đến để đạt được trong thị trường AI cạnh tranh, gần đây đã chứng kiến ​​một trong những mức giá cổ phiếu lớn nhất của Nvidia do tác động của Deepseek.

DeepSeek Test Hình ảnh: Ensigame.com

Mô hình AI của Deepseek nổi bật do kiến ​​trúc và phương pháp đào tạo sáng tạo của nó. Dưới đây là các công nghệ chính phân biệt nó:

Dự đoán đa điểm (MTP) : Không giống như các mô hình truyền thống dự đoán một từ tại một thời điểm, MTP của Deepseek dự báo nhiều từ đồng thời bằng cách phân tích các phần khác nhau của một câu. Phương pháp này không chỉ tăng độ chính xác mà còn tăng cường hiệu quả của mô hình.

Hỗn hợp các chuyên gia (MOE) : Deepseek V3 sử dụng kiến ​​trúc MOE, sử dụng 256 mạng thần kinh, với tám mạng được kích hoạt cho mỗi nhiệm vụ xử lý mã thông báo. Cách tiếp cận này tăng tốc đào tạo AI và cải thiện đáng kể hiệu suất.

Sự chú ý tiềm ẩn đa đầu (MLA) : MLA tập trung vào các phần quan trọng nhất của câu bằng cách liên tục trích xuất các chi tiết chính từ các đoạn văn bản. Điều này làm giảm cơ hội bỏ lỡ thông tin quan trọng, cho phép AI nắm bắt các sắc thái quan trọng một cách hiệu quả.

Mặc dù tuyên bố đã phát triển một mô hình AI cạnh tranh với ngân sách tối thiểu là 6 triệu đô la để đào tạo Deepseek V3 chỉ bằng cách sử dụng 2048 bộ xử lý đồ họa, điều tra thêm cho thấy một bức tranh phức tạp hơn.

Deepseek v3 Hình ảnh: Ensigame.com

Các nhà phân tích từ Semianalysis đã phát hiện ra rằng Deepseek vận hành một cơ sở hạ tầng tính toán rộng lớn, bao gồm khoảng 50.000 GPU phễu NVIDIA. Điều này bao gồm 10.000 đơn vị H800, 10.000 H100 khác và GPU H20 khác, trải đều trên nhiều trung tâm dữ liệu để đào tạo, nghiên cứu và mô hình tài chính của AI. Tổng số tiền đầu tư vào máy chủ là khoảng 1,6 tỷ đô la, với chi phí hoạt động ước tính là 944 triệu đô la.

Deepseek là một công ty con của Quỹ phòng hộ Trung Quốc Flyer, công ty khởi nghiệp vào năm 2023 để tập trung vào các công nghệ AI. Không giống như nhiều công ty khởi nghiệp dựa vào các nhà cung cấp đám mây, Deepseek sở hữu các trung tâm dữ liệu của mình, giúp nó kiểm soát hoàn toàn đối với tối ưu hóa mô hình AI và cho phép đổi mới nhanh chóng. Công ty được tự tài trợ, giúp tăng cường tính linh hoạt và tốc độ ra quyết định.

Deepseek Hình ảnh: Ensigame.com

Deepseek cũng thu hút tài năng hàng đầu, với một số nhà nghiên cứu kiếm được hơn 1,3 triệu đô la hàng năm, chủ yếu từ các trường đại học hàng đầu Trung Quốc. Yêu cầu đào tạo mô hình mới nhất của công ty chỉ với 6 triệu đô la có vẻ không thực tế khi xem xét bối cảnh rộng hơn. Con số này chỉ chiếm việc sử dụng GPU trong quá trình đào tạo trước và loại trừ các chi phí nghiên cứu, sàng lọc mô hình, xử lý dữ liệu và chi phí cơ sở hạ tầng tổng thể.

Kể từ khi thành lập, Deepseek đã đầu tư hơn 500 triệu đô la vào phát triển AI. Cấu trúc nhỏ gọn của nó cho phép thực hiện tích cực và hiệu quả các đổi mới AI, không giống như các công ty lớn hơn, quan liêu hơn.

Deepseek Hình ảnh: Ensigame.com

Hành trình của Deepseek minh họa rằng một công ty AI độc lập được tài trợ tốt thực sự có thể cạnh tranh với những người khổng lồ trong ngành. Tuy nhiên, các chuyên gia lưu ý rằng thành công của nó là do các khoản đầu tư đáng kể, đột phá kỹ thuật và một nhóm mạnh mẽ, thay vì "ngân sách cách mạng" để phát triển AI. Mặc dù vậy, chi phí của Deepseek vẫn thấp hơn đáng kể so với các đối thủ cạnh tranh. Ví dụ, trong khi Deepseek đã chi 5 triệu đô la cho R1, việc đào tạo của TATGPT4O có giá 100 triệu đô la.

Tuy nhiên, nó vẫn rẻ hơn so với các đối thủ cạnh tranh.