Theo thông tin của tờ Sina Tech, sự xuất hiện của nhà khoa học OpenAI Trần Bác Viễn (Boyuan Chen) cùng những đột phá trong khả năng hiển thị văn bản của GPT Image 2.0 không chỉ là lời giải cho bài toán ngôn ngữ phức tạp, mà còn là minh chứng cho một tư duy mới, nơi AI không chỉ vẽ tranh mà AI đang học cách “hiểu” cấu trúc của thế giới.
Dấu ấn của anh Trần Bác Viễn trong “bộ não” GPT Image 2.0
Ngay sau khi OpenAI trình làng mô hình tạo ảnh thế hệ mới GPT Image 2.0 (ChatGPT Images 2.0), Trần Bác Viễn, nhà khoa học người Mỹ gốc Hoa hiện nghiên cứu tại đội ngũ GPT Image của Open AI đã có một thông báo đầy trực diện trên nền tảng hỏi đáp Zhihu của Trung Quốc rằng:
“Xin chào mọi người, tôi là Trần Bác Viễn. Mô hình tạo ảnh GPT vừa ra mắt tuần trước chính là do tôi chủ trì huấn luyện! Lần này, cuối cùng chúng tôi đã khắc phục được khả năng hiển thị tiếng Trung của mô hình”.
Trước đây, việc hiển thị ký tự tượng hình như tiếng Trung luôn là điều khó khăn của các mô hình ngôn ngữ lớn. Chúng thường tạo ra những ký tự vô nghĩa, sai lệch cấu trúc.
Tuy nhiên, GPT Image 2.0 đã làm đảo lộn hoàn toàn định kiến đó. Mô hình này không chỉ viết đúng chữ mà còn có khả năng dàn trang, phân đoạn và xử lý các infographic có cấu trúc logic phức tạp như tiếng Trung.
Tại sự kiện ra mắt, anh Trần Bác Viễn đã cùng CEO Sam Altman trực tiếp trình diễn năng lực này. Anh còn tiết lộ thêm những chi tiết hậu trường thú vị như: Trong quá trình thử nghiệm mù đôi (double blind) LMArena, GPT Image 2.0 từng sử dụng mật danh là “duct tape” (băng dính vải).
Giải thích về cái tên này, anh hóm hỉnh: “Tất nhiên là vì bạn có thể dùng băng dính vải để dán quả chuối lên tường rồi!”.

Anh Trần Bác Viễn không phải là một ngôi sao truyền thông, nhưng sự hiện diện của anh in đậm trong từng thông số của mô hình. Với tấm bằng Tiến sĩ ngành Kỹ thuật Điện và Khoa học Máy tính tại MIT cùng nền tảng nghiên cứu về Triết học, anh mang tới một cách tiếp cận khác biệt.
Hướng nghiên cứu cốt lõi của anh tập trung vào ba trụ cột: Mô hình thế giới (World Models), Trí tuệ hiện thân (Embodied AI) và Học tăng cường (reinforcement learning).
Khi phần lớn mọi người còn đang bàn luận xem mô hình ngôn ngữ lớn có thể viết tốt hơn hay vẽ giống thực tế hơn không, anh quan tâm đến một tầng cơ bản hơn, đó là rốt cuộc mô hình đang “hiểu” điều gì.
Từ đó, vấn đề được cụ thể thành ba khía cạnh then chốt: mô hình diễn giải hình ảnh ra sao, mối quan hệ giữa hình ảnh và ngôn ngữ được thiết lập như thế nào và khi đối diện với thế giới thực tế, mô hình đang tạo ra kết quả hay đang mô phỏng lại chính thế giới đó.
Theo anh Trần Bác Viễn, một AI thực sự “hiểu” thế giới phải biết rằng một chiếc cốc nhựa rơi xuống đất sẽ nảy lên, còn cốc thủy tinh sẽ vỡ tan. Đó chính là sự thấu hiểu về không gian, thời gian và kết quả của hành động.
Những công trình mô hình lớn tiêu biểu mà anh tham gia như: Diffusion Forcing (thống nhất việc tạo sinh từng bước và ràng buộc tổng thể trên trục thời gian) hay SpatialVLM (xây dựng hệ thống suy luận không gian) đã giúp mô hình không chỉ “nhìn thấy” mà còn biết “suy luận” về vị trí, kích thước và quan hệ giữa các vật thể.
Từ bỏ hướng đi dễ dàng để giải quyết “bài toán cấu trúc”
Trong khi phần lớn giới nghiên cứu chọn con đường tăng độ phân giải hay dữ liệu để ảnh giống thực tế hơn, anh Trần Bác Viễn lại chọn giải quyết bài toán tính nhất quán của cấu trúc.
Nhiều bức ảnh trên trang blog chính thức của OpenAI thực chất là những “bài kiểm tra năng lực” do chính tay anh thiết kế.
Ví dụ như bức truyện tranh tiếng Trung. Anh muốn làm một hình ảnh thật hài nên sử dụng các “meme bắt trend” và “meme quả chuối”. Để thể hiện năng lực văn bản, anh cố ý để mô hình thêm chữ đa ngôn ngữ vào hình, đồng thời góc bên phải của poster tạo ra một dòng chữ tiếng Trung cực kì nhỏ, nhằm kiểm tra độ chi tiết mà mô hình có thể xử lí.

Điều này cho thấy rõ điểm khó của GPT Image 2. Trước đây nếu mô hình có thể xử lí ngôn ngữ phức tạp với cấu trúc tượng hình như tiếng Trung không sai đã là rất tốt.
Nhưng GPT Image 2 phải xử lý cả một hệ thống phân cấp như: hiểu đây là ảnh chụp một cuốn truyện tranh, trong truyện có hình, trong hình lại có hình, phải đặt văn bản đa ngôn ngữ ở các tầng khác nhau. Đồng thời đảm bảo mối quan hệ giữ chữ và hình hợp lý chứ không phải ngẫu nhiên.
Anh Trần Bác Viễn khẳng định: “Các mô hình thông thường dễ suy luận ra lời giải đại số, nhưng lời giải bằng hình khối thì chỉ có mô hình thị giác mới làm được”. Điều này cho thấy GPT Image 2.0 đã chuyển dịch từ việc “tạo pixel” sang “biểu đạt thị giác có cấu trúc”.
Dù giữ vai trò chủ lực trong quá trình phát triển, anh Trần Bác Viễn vẫn nhấn mạnh rằng GPT Image 2.0 là thành quả của một đội ngũ tương đối nhỏ, chỉ hơn 10 người.
Đáng chú ý, trong nhóm này có sự góp mặt của nhiều nhà nghiên cứu gốc Hoa như Vương Kiếm Phong (Jianfeng Wang), Lương Vĩ Tân (Weixin Liang) hay Dương Vũ Quang (Yuguang Yang).
Thành công của lần ra mắt này không chỉ đến từ năng lực kỹ thuật, mà còn là kết quả của sự phối hợp chặt chẽ giữa các bộ phận nghiên cứu, nghệ thuật và marketing. Nhờ đó, những khả năng vốn mang tính kỹ thuật đã được chuyển hóa thành các ví dụ trực quan, dễ tiếp cận như mã QR ẩn, áp phích tìm kiếm hay các bài toán chứng minh bằng hình ảnh.
Trong chia sẻ của mình, anh Trần Bác Viễn cũng không xem đây là thành tựu cá nhân. Ở phần cuối bài viết trên Zhihu, anh gửi lời cảm ơn tới toàn bộ đội ngũ, đồng thời nhấn mạnh mỗi thành viên đều đóng góp rất nhiều vào sản phẩm chung.
Bản thân anh đảm nhiệm vai trò kép khi vừa tham gia trực tiếp vào quá trình huấn luyện mô hình, vừa góp phần xây dựng cách thức trình bày để công chúng có thể hiểu rõ năng lực của hệ thống.
Không chỉ dừng lại ở việc phát triển công nghệ, anh còn trực tiếp thiết kế nhiều hình ảnh minh họa, qua đó giúp người dùng hình dung cụ thể hơn về những gì mô hình có thể làm được.
Thông qua đó, mỗi hình ảnh không chỉ là một sản phẩm trực quan, mà còn là lời gợi mở: những giới hạn từng được cho là khó vượt qua đối với mô hình tạo ảnh giờ đây có thể được kiểm chứng lại.
Ở một khía cạnh khác, nếu GPT Image 2.0 là sản phẩm do anh đóng vai trò huấn luyện chính, thì khả năng hiển thị tiếng Trung, điểm cải tiến dễ nhận thấy nhất đối với người dùng cũng chính là một trong những đột phá anh trực tiếp tham gia hoàn thiện.
Khi AI bắt đầu có thể thể hiện chính xác ngôn ngữ phức tạp trong các cấu trúc hình ảnh đa tầng, vai trò của những nhà nghiên cứu như Trần Bác Viễn càng trở nên rõ ràng hơn.
Đằng sau những hình ảnh ấn tượng là một quá trình nghiên cứu bền bỉ, hướng tới mục tiêu giúp AI tiến gần hơn tới việc hiểu và mô phỏng thế giới thực.
*Nguồn: Sina Tech
