DeepSeek vừa công bố phiên bản mạnh mẽ nhất của mình, DeepSeek-V3.2-Speciale, được cho là tương ứng với mô hình Gemini 3 Pro mới của Google DeepMind trong một số nhiệm vụ nhất định. Thành tựu của phòng thí nghiệm nguồn mở đã mở ra nhiều cuộc thảo luận rộng rãi trong cộng đồng nghiên cứu AI, trùng với thời điểm diễn ra Hội nghị thường niên uy tín về Hệ thống xử lý thông tin thần kinh, hay NeurIPS.
Trong thông báo hôm thứ Hai, DeepSeek có trụ sở tại Hàng Châu cho biết V3.2-Speciale ngang bằng với Gemini 3 Pro của Google, được phát hành cách đây hai tuần, về khả năng suy luận, trong khi mô hình cơ sở của V3.2-Speciale, V3.2 được giới thiệu cùng ngày, có hiệu suất ngang bằng với GPT-5 của OpenAI ra mắt vào tháng 8.
DeepSeek cho biết V3.2-Speciale đã đạt huy chương vàng trong bài kiểm tra Olympic Toán học quốc tế – một thành tích trước đây chỉ có các mô hình nội bộ từ OpenAI và Google DeepMind đạt được nhưng chưa được công bố.
Trên mạng xã hội, kỹ sư nghiên cứu chính của Google DeepMind, Susan Zhang, đã khen ngợi DeepSeek về báo cáo kỹ thuật chi tiết đi kèm với các mô hình mới, đồng thời ghi nhận những nỗ lực của công ty khởi nghiệp này trong việc ổn định các mô hình sau khi đào tạo và nâng cao khả năng tác nhân của chúng.
Theo báo cáo kỹ thuật, DeepSeek đã đạt được điều này với tổng số FLOP đào tạo ít hơn so với các đối thủ cạnh tranh ở Mỹ, chủ yếu là do các biện pháp kiểm soát xuất khẩu hạn chế khả năng tiếp cận chip bán dẫn tiên tiến của Trung Quốc. FLOP, hay số phép tính dấu chấm động trên giây, là thước đo tiêu chuẩn về sức mạnh tính toán được sử dụng để đào tạo các mô hình AI.
DeepSeek đã mở mã nguồn V3.2 của mình trên nền tảng dành cho nhà phát triển Hugging Face, trong khi V3.2-Speciale chỉ có thể truy cập thông qua giao diện lập trình ứng dụng hoặc API. Phiên bản này có giá 0,28 đô la Mỹ cho mỗi triệu token đầu vào và 0,42 đô la Mỹ cho mỗi triệu token đầu ra. Để so sánh, Gemini 3 Pro tính phí người dùng API lên đến 4 đô la Mỹ cho mỗi triệu token đầu vào và 18 đô la Mỹ cho mỗi triệu token đầu ra.
Tuy nhiên, DeepSeek thừa nhận rằng mô hình của họ kém hơn đáng kể so với Gemini 3 Pro về hiệu suất mã thông báo, cho thấy V3.2 cần nhiều mã thông báo hơn để xử lý cùng một truy vấn. Công ty khởi nghiệp này cho rằng sự thiếu hụt là do sức mạnh tính toán.
DeepSeek cho biết họ có ý định thu hẹp khoảng cách này bằng cách mở rộng sức mạnh tính toán được sử dụng cho các mô hình đào tạo, một phương pháp cũng được sử dụng bởi Google DeepMind. Patrick Zhang, giám đốc chính sách và luật công nghệ toàn cầu của ByteDance, cho biết trong bản tin Geopolitechs của mình rằng mô hình mới nhất của DeepSeek đưa ra câu trả lời rất rõ ràng rằng tính toán vẫn là biến số trung tâm quyết định ai dẫn đầu cuộc đua AI.
.jpg)
“Trong một thế giới mà hầu hết các mô hình tiên phong đều có khả năng tiếp cận kiến thức tương tự nhau, những mô hình đào tạo nhiều hơn, mở rộng quy mô hơn và hoạt động lâu hơn sẽ định hình hướng đi của lĩnh vực này.”
Việc ra mắt mô hình DeepSeek trước NeurIPS đã tạo nên sự so sánh với việc OpenAI phát hành ChatGPT vào cuối tháng 11 năm 2022, cũng trùng với hội nghị năm đó tại New Orleans.
Vốn thường kín tiếng, DeepSeek chưa tiết lộ liệu họ có cử nhân viên đến dự hội nghị năm nay hay không. Florian Brand, một chuyên gia về hệ sinh thái AI nguồn mở của Trung Quốc tham dự NeurIPS năm nay tại San Diego, cho biết bất kỳ nhà nghiên cứu nào của DeepSeek hiện diện đều có khả năng thu hút sự chú ý đáng kể.
DeepSeek từng là một startup vô danh, song bất ngờ nổi tiếng toàn cầu sau khi phát hành hai mô hình AI tiên tiến giá rẻ. Những công nhân công nghệ trẻ, đầy nhiệt huyết đằng sau DeepSeek, đang nỗ lực để bắt kịp những gã khổng lồ công nghệ ở Thung lũng Silicon, bất chấp các lệnh cấm xuất khẩu chip tiên tiến.
“DeepSeek làm nổi bật sức mạnh của nhóm nhân tài AI Trung Quốc, được hỗ trợ bởi một số lượng lớn các kỹ sư phần mềm có trình độ và năng lực cao”, Angela Zhang, giáo sư tại Đại học Nam California, nói với Rest of World . “Tôi tin rằng lợi thế về nhân tài sẽ định vị Trung Quốc một cách mạnh mẽ cho giai đoạn phát triển AI tiếp theo”.
Theo báo cáo gần đây từ hãng công nghệ Trung Quốc 36Kr, DeepSeek trả lương cho nhân viên cao hơn cả ByteDance. Ngoài ra, không giống như nhiều công ty công nghệ Trung Quốc thúc đẩy cạnh tranh nội bộ và bắt các kỹ sư làm việc nhiều giờ liền, nhà sáng lập Liang của statup này cho phép nhân viên mình tự tìm nhiệm vụ và truy cập sức mạnh tính toán một cách tự do.
.jpg)
Trong cùng một cuộc phỏng vấn, Liang cho biết việc đưa nghiên cứu thành nguồn mở giúp nhân viên có cảm giác tự hào nâng cao danh tiếng công ty. Một số nhà nghiên cứu DeepSeek đã thu hút được hàng chục nghìn người theo dõi trên X khi cùng thảo luận về các phương pháp nghiên cứu.
“DeepSeek, đối thủ cạnh tranh của ChatGPT, đã tạo ra một làn sóng chấn động. Nói vậy là còn nhẹ. DeepSeek giống như một quả bom hạt nhân trong thế giới công nghệ AI tại Mỹ và châu Âu bởi vì chỉ trong một đòn, công ty này đã cho thấy định giá của cổ phiếu chip AI và tất cả các cổ phiếu cơ sở hạ tầng AI là quá cao. DeepSeek có thể tạo ra một sản phẩm vượt trội hơn ChatGPT với chi phí chỉ bằng 1/20”, ông Francis Lun, Giám đốc điều hành Geo Securities, cho biết.
Theo: SCMP, Nikkei Asia

