Tuần này, một phòng thí nghiệm trí tuệ nhân tạo nhỏ tại Trung Quốc đã khiến thế giới bất ngờ khi tiết lộ công thức kỹ thuật cho mô hình tiên tiến của mình. Điều này đã biến nhà lãnh đạo kín tiếng của họ trở thành một vị anh hùng quốc gia, người đã thách thức những nỗ lực của Mỹ nhằm kiềm chế tham vọng công nghệ cao của Trung Quốc.
DeepSeek, công ty được thành lập bởi nhà quản lý quỹ đầu cơ Liang Wenfeng, đã ra mắt mô hình R1 vào thứ hai, kèm theo một báo cáo chi tiết hướng dẫn cách xây dựng một mô hình ngôn ngữ lớn với ngân sách khởi điểm thấp. Điều đặc biệt, mô hình này có khả năng tự động học hỏi và cải thiện mà không cần sự can thiệp của con người.
Các công ty Mỹ như OpenAI và Google DeepMind trước đó đã tiên phong trong việc phát triển các mô hình lập luận, một lĩnh vực nghiên cứu AI tương đối mới nhằm đưa khả năng tư duy của máy móc tiệm cận trí tuệ con người. Vào tháng 12, OpenAI có trụ sở tại San Francisco, Mỹ đã phát hành phiên bản đầy đủ của mô hình o1 nhưng giữ bí mật phương pháp phát triển.
Việc DeepSeek công bố mô hình R1 đã làm bùng nổ cuộc tranh luận tại Thung lũng Silicon về việc liệu các công ty AI Mỹ với nguồn lực mạnh mẽ như Meta và Anthropic có thể duy trì lợi thế kỹ thuật của mình hay không.
BIỂU TƯỢNG QUỐC GIA
Trong khi đó, tại Trung Quốc, Liang Wenfeng đã trở thành biểu tượng của niềm tự hào dân tộc. Tuần này, ông là nhà lãnh đạo AI duy nhất được mời tham dự một cuộc họp công khai với ông Lý Cường. Tại cuộc họp, các doanh nhân được kêu gọi "tập trung nỗ lực để đột phá các công nghệ cốt lõi".
Vào năm 2021, Liang Wenfeng bắt đầu mua hàng nghìn chip xử lý đồ họa Nvidia cho dự án AI của mình trong khi vẫn điều hành quỹ giao dịch định lượng High-Flyer. Các chuyên gia trong ngành khi đó coi đây là hành động kỳ lạ của một tỷ phú đang tìm kiếm sở thích mới.
“Một trong những lần đầu tiên gặp ông ấy, Liang Wenfeng là một người có vẻ ngoài rất mọt sách với kiểu tóc lộn xộn, luôn nói về việc xây dựng một cụm 10.000 chip để đào tạo mô hình của riêng mình. Chúng tôi không đề cao ý tưởng đó”, một đối tác kinh doanh của ông Liang Wenfeng chia sẻ.
“Ông ấy không thể trình bày rõ ràng tầm nhìn của mình ngoài câu: Tôi muốn xây dựng thứ này, và nó sẽ thay đổi cuộc chơi. Chúng tôi nghĩ điều này chỉ khả thi với các gã khổng lồ như ByteDance và Alibaba”, người này nói thêm.
Tuy nhiên, việc ông Liang Wenfeng không xuất thân từ ngành AI hóa ra lại là một lợi thế bất ngờ. Tại High-Flyer, ông đã gây dựng khối tài sản khổng lồ bằng cách sử dụng AI và thuật toán để xác định các xu hướng có thể ảnh hưởng đến giá cổ phiếu. Đội ngũ của ông đã trở nên thành thạo trong việc sử dụng chip Nvidia để tối ưu hóa giao dịch chứng khoán.
Đến năm 2023, Liang Wenfeng thành lập DeepSeek và tuyên bố mục tiêu phát triển AI đạt trình độ ngang bằng con người.
“Liang Wenfeng đã xây dựng một đội ngũ cơ sở hạ tầng xuất sắc, thực sự hiểu rõ cách hoạt động của các con chip”, một nhà sáng lập tại công ty đối thủ về mô hình ngôn ngữ lớn nhận xét. “Ông ấy đã mang theo những người giỏi nhất từ quỹ đầu cơ sang DeepSeek”.
Sau khi Washington cấm Nvidia xuất khẩu các chip mạnh nhất sang Trung Quốc, các công ty AI tại nước này buộc phải tìm những cách sáng tạo để tối đa hóa sức mạnh tính toán từ số lượng chip nội địa hạn chế - một vấn đề mà đội ngũ của DeepSeek đã biết cách giải quyết từ trước.
“Kỹ sư của DeepSeek biết cách khai thác tối đa tiềm năng của những GPU này, ngay cả khi chúng không phải là công nghệ tiên tiến nhất”, một nhà nghiên cứu AI thân cận với công ty chia sẻ.
Các chuyên gia trong ngành cho rằng sự tập trung duy nhất của DeepSeek vào nghiên cứu khiến công ty trở thành một đối thủ nguy hiểm vì sẵn sàng chia sẻ những đột phá của mình thay vì giữ bí mật để thu lợi thương mại. DeepSeek không kêu gọi vốn từ các quỹ bên ngoài hay có động thái đáng kể nào để thương mại hóa các mô hình của mình.
“DeepSeek hoạt động giống như những ngày đầu của DeepMind”, một nhà đầu tư AI tại Bắc Kinh nhận xét. “Công ty hoàn toàn tập trung vào nghiên cứu và kỹ thuật”.
VƯƠN RA THẾ GIỚI
Liang Wenfeng, người trực tiếp tham gia vào các nghiên cứu của DeepSeek, sử dụng lợi nhuận từ quỹ đầu cơ High-Flyer để trả mức lương hàng đầu cho các tài năng AI xuất sắc nhất. Cùng với ByteDance, công ty sở hữu TikTok, DeepSeek được biết đến là nơi chi trả mức lương cao nhất cho các kỹ sư AI tại Trung Quốc, với các văn phòng đặt tại Hàng Châu và Bắc Kinh.
“Văn phòng của DeepSeek giống như một khuôn viên đại học dành cho các nhà nghiên cứu nghiêm túc”, một đối tác kinh doanh cho biết. “Đội ngũ này tin vào tầm nhìn của Liang Wenfeng: cChứng minh với thế giới rằng người Trung Quốc có thể sáng tạo và xây dựng mọi thứ từ con số không”.
Liang Wenfeng đã định hình DeepSeek như một công ty "thuần Trung Quốc", với đội ngũ nhân sự là các Tiến sĩ tốt nghiệp từ các trường đại học hàng đầu trong nước như Bắc Kinh, Thanh Hoa và Hàng Không Bắc Kinh, thay vì tuyển dụng chuyên gia từ các tổ chức Mỹ.
Trong một cuộc phỏng vấn với báo chí nội địa vào năm ngoái, ông Liang Wenfeng cho biết đội ngũ cốt lõi của mình “không có người nào từng học tập ở nước ngoài. Họ đều là nhân tài trong nước... Chúng tôi phải tự phát triển các tài năng hàng đầu”.
Bản sắc này đã giúp DeepSeek nhận được sự hoan nghênh rộng rãi tại quê nhà, trở thành biểu tượng cho một công ty mô hình ngôn ngữ lớn (LLM) hoàn toàn Trung Quốc.
DeepSeek tuyên bố đã sử dụng chỉ 2.048 chip Nvidia H800 và 5,6 triệu USD để huấn luyện một mô hình với 671 tỷ tham số — một con số nhỏ hơn rất nhiều so với chi phí mà OpenAI và Google bỏ ra để phát triển các mô hình có kích thước tương đương.
Ritwik Gupta, nhà nghiên cứu chính sách AI tại Đại học California, Berkeley, nhận định rằng việc DeepSeek phát hành các mô hình gần đây chứng tỏ rằng “không có bức tường thành vững chắc nào trong khả năng AI”.
“Người đi đầu thường phải tiêu tốn nhiều tài nguyên để đạt được mục tiêu”, Gupta nói. “Nhưng những người đi sau có thể đạt được điều đó với chi phí rẻ hơn và nhanh hơn”.
Gupta cũng chỉ ra rằng Trung Quốc có nguồn nhân lực kỹ sư hệ thống lớn hơn nhiều so với Mỹ. Họ có kỹ năng tối ưu hóa tài nguyên tính toán để huấn luyện và vận hành các mô hình với chi phí thấp hơn.
Mặc dù đạt được kết quả ấn tượng với nguồn lực hạn chế, các chuyên gia trong ngành vẫn đặt câu hỏi liệu DeepSeek có thể duy trì tính cạnh tranh khi ngành AI tiếp tục phát triển.
Hiệu suất của High-Flyer, quỹ đầu cơ hỗ trợ lớn nhất cho DeepSeek, bị giảm sút trong năm 2024. Một người thân cận với Liang Wenfeng cho biết sự suy giảm này một phần do nhà sáng lập dành phần lớn thời gian tập trung vào DeepSeek.
Trong khi đó, các đối thủ tại Mỹ không ngừng tiến xa. Các công ty đang xây dựng những cụm siêu máy tính khổng lồ sử dụng chip Blackwell thế hệ tiếp theo của Nvidia, tạo ra sức mạnh tính toán có thể một lần nữa nới rộng khoảng cách hiệu suất với các đối thủ Trung Quốc.
Tuần này, OpenAI công bố hợp tác với SoftBank của Nhật Bản trong một liên doanh mới mang tên Stargate, với kế hoạch chi ít nhất 100 tỷ USD để phát triển hạ tầng AI tại Mỹ. Đồng thời, xAI của Elon Musk đang mở rộng siêu máy tính Colossus lên hơn 1 triệu GPU để hỗ trợ việc huấn luyện các mô hình Grok AI.
“DeepSeek hiện sở hữu một trong những cụm máy tính tiên tiến lớn nhất tại Trung Quốc”, một đối tác kinh doanh của Liang Wenfeng chia sẻ. “Họ có đủ năng lực cho hiện tại, nhưng điều đó sẽ không kéo dài được lâu”.
Khi các đối thủ Mỹ tiếp tục tăng cường đầu tư vào hạ tầng AI, câu hỏi đặt ra là liệu DeepSeek có thể duy trì lợi thế trong bối cảnh cạnh tranh ngày càng khốc liệt. Sự phát triển của ngành không chỉ đòi hỏi sáng tạo mà còn cần một nguồn lực tài chính và công nghệ vượt trội để bắt kịp tốc độ đổi mới.
Theo: Financial Times