Hiện nay, thảo luận về “Trí tuệ nhân tạo tổng quát” (Artificial General Intelligence - AGI) đang dần chuyển từ văn bản và hình ảnh sang thế giới vật lý. “Trí tuệ nhân tạo hiện thân” (Embodied AI), tức là trao cho AI một cơ chế vật lý để AI có thể cảm nhận, hiểu và tương tác với môi trường thực tế, đang trở thành chiến lược then chốt tiếp theo của cuộc cạnh tranh công nghệ toàn cầu.
Tuy nhiên, khác với thời kỳ của các mô hình ngôn ngữ mà “dữ liệu vốn đã tồn tại sẵn”, các mô hình “bộ não” của “trí tuệ nhân tạo hiện thân” đang rơi vào một cơn “khát dữ liệu” chưa từng có.
Việc huấn luyện “trí tuệ nhân tạo hiện thân” có thể khái quát hóa cao trong các nhiệm vụ phức tạp, thông tin dài không còn chỉ dừng lại ở hàng nghìn tỷ token văn bản, mà đòi hỏi phải xử lí “dữ liệu hành vi con người” đảm bảo đầu ra đạt kết quả chất lượng cao, đa phương thức và dựa theo không gian - thời gian.
Đằng sau điều này là một cuộc cách mạng mang tính hệ thống, từ kiến trúc phần cứng, thu thập dữ liệu đến mô hình xử lý.
Dòng tiền đổ vào ồ ạt, nhưng AI vẫn chưa “hoàn hảo”
Theo dự báo của Trung tâm Nghiên cứu Phát triển Quốc vụ viện Trung Quốc, quy mô thị trường “Trí tuệ nhân tạo hiện thân” của nước này sẽ đạt 400 tỷ nhân dân tệ vào năm 2030 và vượt mốc nghìn tỷ vào năm 2035.
Đồng thời, trong “Báo cáo phát triển Trí tuệ hiện thân (2025)” của Viện Thông tin và Truyền thông Trung Quốc, “Trí tuệ nhân tạo hiện thân” lần đầu tiên được đưa vào danh mục các ngành công nghiệp tương lai trọng điểm cấp quốc gia; quy mô thị trường toàn cầu năm 2025 đạt 19,5 tỷ nhân dân tệ.
Chỉ trong ba tháng đầu năm 2026, quy mô đầu tư cho lĩnh vực “Trí tuệ nhân tạo hiện thân” ở Trung Quốc đã gần chạm mốc 30 tỷ nhân dân tệ, số lượng các thương vụ đầu tư tăng 63% so với cùng kỳ.
Trong đó, công ty chuyên về công nghệ mô phỏng và dữ liệu tổng hợp Lightwheel Intelligence đã huy động hơn 500 triệu USD, lập kỷ lục trong lĩnh vực này. Công ty robot LimX Dynamics hoàn tất vòng B trị giá 200 triệu USD với định giá vượt 1 tỷ USD.
Bên cạnh đó, công ty Xinghai Map tiếp tục nhận thêm 2 tỷ nhân dân tệ ở vòng B+. Như vậy có thể thấy rằng dòng vốn đang tăng tốc đổ vào lĩnh vực này.
Tuy nhiên, trái ngược với sự sôi động của dòng vốn, quá trình đưa “trí tuệ nhân tạo hiện thân” vào đời sống và sản xuất lại không mấy suôn sẻ.
Theo chia sẻ của ông Tống Kế Cường, Phó Chủ tịch Viện Nghiên cứu Intel kiêm Viện trưởng Intel Trung Quốc: “Sự phát triển của trí tuệ nhân tạo hiện nay đang ở giai đoạn chiến lược kép giữa 'nâng cao giới hạn trên của năng lực' và 'đảm bảo giới hạn dưới của năng lực'. Hầu hết các doanh nghiệp công nghệ đều đang phô diễn khả năng thông minh của robot, nhưng rất ít doanh nghiệp quan tâm phải làm gì khi nó hoạt động kém, đây chính là khoảng cách mà công nghiệp hóa bắt buộc phải vượt qua.”
Mặc dù hiện đã có các nhà sản xuất các bộ phần chính của robot “Trí tuệ nhân tạo hiện thân” như Unitree Robotics hay Galbot. Những robot họ tạo ra có độ linh hoạt cao để thực hiện các màn trình diễn như: nhào lộn, nhảy múa… nhưng phần lớn những kỹ thuật này thực chất vẫn được thực thi thông qua các chương trình được lập trình sẵn.
Nói cách khác, “tiểu não” của “trí tuệ nhân tạo hiện thân” đã khá phát triển, nhưng ở cấp độ “đại não”, làm thế nào để robot có “cảm giác giống con người” hơn, có thể thực hiện mệnh lệnh thông qua tư duy tự chủ, mới là trọng tâm của ngành trong thời gian tới.

Hình ảnh Robot trình diễn trong Gala Tết Nguyên đán năm 2026 tại Trung Quốc
Liên quan đến vấn đề này, đồng sáng lập công ty đổi mới Giản Trí Trung Quốc (Jianzhi Robotics), ông Chu Nhạn Minh (Zhu Yanming), cho biết: “Hiện nay, năng lực mô hình hóa thực sự của các công ty “Trí tuệ nhân tạo hiện thân vẫn” vẫn chỉ dừng lại ở những nhiệm vụ rất ngắn và đơn giản, như gấp quần áo, rót nước, cầm cốc.”
Điều này đã phản ánh thực trạng chung của ngành, đó là “trình diễn” thì ấn tượng nhưng ứng dụng thực tế còn xa. Những nhiệm vụ trình diễn được thiết kế kỹ lưỡng thường diễn ra trong môi trường kiểm soát, còn cách rất xa yêu cầu xử lý các nhiệm vụ phức tạp, biến động, chuỗi dài trong các bối cảnh thực tế như gia đình, nhà máy hay hệ thống logistics.
Cũng theo ông Chu Nhạn Minh, các mô hình “Trí tuệ hiện thân” hiện vẫn cần đột phá về mặt học thuật, còn khoảng cách trong công nghiệp hóa và thương mại hóa thì lớn hơn nhiều. Do đó, đồng thuận của ngành đang chuyển sang xây dựng “mô hình thế giới”.
Cốt lõi của mô hình này là giúp AI hiểu các quy luật vật lý cơ bản như lực ma sát, động lực học vật rắn, quan hệ không gian…, thay vì chỉ lập kế hoạch dựa trên mô tả ngôn ngữ. Điều này sẽ đánh dấu một bước tiến lớn khi “trí tuệ nhân tạo hiện thân” bước từ giai đoạn “mô phỏng dựa trên ngôn ngữ” sang “học quy luật vật lý”
Một xu hướng đáng chú ý là lượng lớn nhân tài trong lĩnh vực nghiên cứu lái xe thông minh đang chuyển sang lĩnh vực “Trí tuệ nhân tạo hiện thân”. Thành viên nòng cốt công ty đổi mới Giản Trí cũng chủ yếu xuất phát từ lĩnh vực này.
Ông Chu Nhạn Minh cho rằng đây không phải ngẫu nhiên, mà do hai lĩnh vực có sự tương đồng sâu sắc về công nghệ (như mô hình VLA hay Vision-Language-Action, mô phỏng môi trường) và phương pháp tạo ra sản phẩm.
Quan trọng hơn, năng lực kĩ thuật sản phẩm dựa trên “vòng lặp dữ liệu khép kín” (tức là liên tục huấn luyện, kiểm tra, thử nghiệm và tối ưu mô hình bằng dữ liệu thực) chính là năng lực kỹ thuật hoá mà “Trí tuệ nhân tạo hiện thân” đang rất cần để chuyển từ trình diễn sang ứng dụng thực tế.
Tuy nhiên, dù là theo đuổi đột phá lý thuyết của “mô hình thế giới” hay tham khảo kinh nghiệm kỹ thuật từ lĩnh vực lái xe thông minh, tất cả đều cùng hướng đến một nút thắt cốt lõi: sự thiếu hụt nghiêm trọng dữ liệu huấn luyện chất lượng cao.
Bài toán dữ liệu của “Trí tuệ nhân tạo hiện thân”
Nếu coi sức mạnh tính toán là động cơ, thuật toán là bản thiết kế, thì dữ liệu chính là nhiên liệu. Không có nhiên liệu phù hợp, dù động cơ mạnh đến đâu hay bản thiết kế tinh vi đến mức nào cũng không thể đưa “trí tuệ hiện thân” tiến vào thực tế.
Điều này khiến một số startup như công ty đổi mới Giản Trí không chọn “cạnh tranh mô hình”, mà chuyển sang xây dựng “hạ tầng dữ liệu”. Hướng đi này được đánh giá mang tính khác biệt cao hơn.
Ông Vương Kỳ, Giám đốc Marketing (CMO) mảng “trí tuệ hiện thân” của Công ty TNHH Công nghệ Topstar Trung Quốc đã từng chỉ ra ba điểm nghẽn chính của dữ liệu: Thứ nhất, thiếu tiêu chuẩn thống nhất. Thứ hai, thu thập dữ liệu khó và chi phí cao. Thứ ba, vấn đề bảo mật và quyền riêng tư.
Việc huấn luyện một “bộ não” cho “trí tuệ hiện thân” mạnh, đặc biệt là “mô hình thế giới” đòi hỏi nguồn dữ liệu lớn với yêu cầu cực kỳ khắt khe. Riêng ở khâu thu thập, có thể tóm lược thành ba chiều chính: đa phương thức, độ chính xác cao và quan hệ nhân quả mạnh. Tuy nhiên, các phương án hiện tại đều gặp vấn đề nghiêm trọng ở cả ba khía cạnh.
Rõ ràng, công nghệ thu thập dữ liệu hiện tại chưa thể đáp ứng nhu cầu mới. So với tốc độ phát triển nhanh của phần cứng robot, nút thắt dữ liệu đang trở thành “chiếc khóa nặng nề” kìm hãm sự tiến hóa của bộ não “Trí tuệ hiện thân”.
Điều gì khiến giải pháp truyền thống thất thế?
Để đáp ứng yêu cầu khắt khe của mô hình, công nghệ thu thập dữ liệu cần một sự chuyển đổi sâu sắc. Các giải pháp truyền thống như thiết bị đeo linh hoạt, thu thập thị giác… đều tồn tại hạn chế lớn về độ chính xác, hiệu suất và khả năng mở rộng.
Ở cấp độ phần cứng, một hướng đi mới là chuyển từ thiết bị mềm sang thiết bị cứng mô phỏng cấu trúc xương người. Công ty đổi mới Giản Trí sử dụng cấu trúc ngoại xương kết hợp bộ mã hóa từ để đo trực tiếp chuyển động khớp, loại bỏ sai số do biến dạng ngay từ cơ chế vật lý.
Thiết bị Gen DAS Dex của họ áp dụng thiết kế này, với khả năng đo chính xác cao, trọng lượng chỉ khoảng 210g, kích thước tương đương găng tay trượt tuyết, không gây cản trở khi sử dụng.

Ở cấp độ cảm nhận, Công ty đổi mới Giản Trí phát triển cảm biến xúc giác từ tính độ phân giải cao, có thể cảm nhận lực 3D, giúp mô hình học được các yếu tố như ma sát, độ trượt, kết cấu vật thể.
Để giải quyết vấn đề che khuất trong thị giác, họ sử dụng giải pháp “định vị tại thiết bị + phối hợp đầu–tay”, kết hợp IMU trên mu bàn tay và camera độc lập bên dưới bàn tay, thông qua kĩ thuật SLAM (Simultaneous Localization and Mapping - Định vị và xây dựng bản đồ đồng thời) một tay, kết hợp với thông tin vị trí tương đối giữa đầu và tay để tái tạo độ không gian - thời gian.
Ở cấp độ đồng bộ hệ thống sâu hơn, họ Công ty đổi mới Giản Trí đạt được đồng bộ thời gian nghiêm ngặt của phần cứng thông qua SoC (System on Chip - hệ thống trên một vi mạch) tự phát triển và giao thức truyền thông, đồng thời kiểm soát độ trễ truyền thông giữa các thiết bị dưới 1 mili giây.
Thu thập chỉ là bước đầu tiên, chế biến dữ liệu thô thành "dữ liệu hành vi con người" mà mô hình có thể sử dụng mới là thách thức lớn hơn. Ông Chu Nhạn Minh đã chia sẻ giải pháp của Công ty đổi mới Giản Trí: họ phát triển một mô hình xử lý đầu-cuối, đầu vào là luồng dữ liệu đa phương thức thô, đầu ra là gói dữ liệu chuẩn hóa đã được căn chỉnh không gian – thời gian, khép kín quan hệ nhân quả, kèm theo COT giải thích ngữ nghĩa (Chain of Thought – Chuỗi suy nghĩ).
Hệ thống này giúp nâng cao hiệu suất đáng kể: lọc dữ liệu không hợp lệ theo thời gian thực, nén dữ liệu xuống còn 2% mà không mất thông tin quan trọng, và tự động xử lý trên nền tảng đám mây. Nhờ đó, công việc gán nhãn vốn cần hàng nghìn người nay chỉ cần một nhóm nhỏ.
Như vậy, khi toàn ngành công nghệ nói chung và ngành “trí tuệ nhân tạo hiện thân” nói riêng nhận ra rằng “mô hình thế giới” cần được nuôi dưỡng bằng dữ liệu, một làn sóng đổi mới sâu rộng xoay quanh hạ tầng dữ liệu đã bắt đầu.
Từ phần cứng mô phỏng sinh học, hệ thống thu thập thông minh tại thiết bị, đến mô hình xử lý dữ liệu tự động. Tất cả đang cùng trả lời một câu hỏi cốt lõi: làm thế nào để ghi lại một cách trung thực kinh nghiệm của con người trong thế giới vật lý nhằm huấn luyện robot.
Cuộc cách mạng về “hạ tầng dữ liệu” này đang âm thầm đặt nền móng cho việc “trí tuệ nhân tạo hiện thân” hòa nhập vào thế giới thực. Và ai nắm được khả năng sản xuất “dữ liệu con người” một cách hiệu quả, người đó có thể nắm giữ chìa khóa mở ra kỷ nguyên phát triển lên một tầm cao .
*Theo: TMTPost
