“Từ những ngày đầu thành lập, chúng tôi đã xác định dữ liệu là nền tảng cốt lõi trong công cuộc chuyển đổi số toàn diện. Đây cũng là lý do mà khi ChatGPT bùng nổ toàn cầu, chúng tôi đã ngay lập tức hoàn thiện và công bố mô hình ngôn ngữ lớn tiếng Việt (tháng 08/2023), đặt nền móng cho việc ra mắt ViGPT – “ChatGPT phiên bản Việt” đầu tiên dành cho người dùng cuối. Sản phẩm này không chỉ có ý nghĩa về mặt ứng dụng, mà còn có ý nghĩa lớn về mặt xã hội khi xu thế ngày càng nhiều người sử dụng ChatGPT hay các công cụ tương tự để học tập, tra cứu thông tin...”
Thưa ông, vậy tại sao chúng ta cần xây dựng mô hình ngôn ngữ lớn tiếng Việt và một “ChatGPT phiên bản Việt”?
Với những mô hình từ nước ngoài như ChatGPT của Open AI thì tiếng Việt được coi là ngôn ngữ “low-resource”, tức là không phải trọng tâm của sản phẩm. Về mặt ngữ pháp thì họ có thể viết ra những đoạn văn rất trôi chảy, mượt mà, nhưng vấn đề thực sự lại nằm ở nội dung, nếu hỏi điều gì chi tiết, cần thông tin chính xác thì vẫn còn nhiều khả năng sai sót.
Cộng đồng ngày càng quen với việc sử dụng ChatGPT hay các công cụ tương tự trong việc học tập, tra cứu thông tin. Thói quen suy nghĩ và cả nhận thức của chúng ta sẽ bi ảnh hưởng lớn từ các thông tin do các công cụ này đưa ra. Trong tình thế này, một vấn đề tất yếu, mà nhiều trí thức đã nghĩ tới, là phải xây dựng được một nền tảng chính xác, phản ánh và gìn giữ được những nét đặt trưng người Việt, không quá phụ thuộc vào các công cụ của nước ngoài.
Theo tôi được biết đã có một số sản phẩm tương tự ChatGPT ra đời tại Việt Nam, vậy ViGPT khác biệt ở đâu và VinBigdata tự tin ra sao với sản phẩm này?
Thật ra không ai làm sản phẩm startup mà tự tin 100%, đặc biệt làm startup công nghệ thì tỷ lệ thành công chỉ quãng 5%.
Tuy nhiên, điều mà chúng tôi hướng tới là những sản phẩm của mình được nghiên cứu và phát triển theo một chu trình chỉn chu nhất có thể. Chẳng hạn chúng tôi luôn bắt đầu bằng việc xây dựng một cơ sở dữ liệu lớn và hoàn thiện, để làm nguồn tài nguyên cho nhiều sản phẩm và nhiều dự án. Một sản phẩm cũng thường được xây dựng theo nhiều mô hình khác nhau, và sau đó mới chọn ra mô hình tối ưu nhất. Bên cạnh đó, sự thành công của sản phẩm không chỉ nằm ở nghiên cứu mà còn phụ thuộc rất nhiều vào cách đóng góp của cộng đồng.
Từ trí tuệ nhân tạo thường gơi cho người dùng một suy nghĩ là sản phẩm phải có trí tuệ như người, ví dụ trợ lý ảo thì phải nói chuyện như một người bạn. Điều này đẩy bật sự chờ đợi của người dùng lên một ngưỡng rất xa so với cái mà kỹ thuật đương thời có thể thực hiện được.
ChatGPT của OpenAI khi vừa ra đời được truyền thông vô cùng mạnh mẽ, khiến các trường đại học ngay cả ở Mỹ bỗng trở nên hoang mang vì khả năng làm bài cho học sinh của nó. Tuy nhiên, sau nhiều hội thảo, giáo viên nhận ra ảnh hưởng của nó vẫn còn khiêm tốn, ví dụ như có thể giúp các sinh viên viết tiếng Anh tốt hơn, nhưng để nâng cao kiến thức học thuật sâu thì có lẽ còn cần một chặng đường dài. Hiện nay chúng ta vẫn chưa thực sự hiểu nguyên lý vận hành của các công cụ này. Ví dụ như khi câu trả lời sai, và sai theo rất nhiều cách khác nhau, ta cũng chưa biết đích xác tại sao máy lại đưa ra câu trả lời như vậy.
Vì vậy, người làm sản phẩm cần chỉ ra rõ giá trị thực của sản phẩm, thay vì quảng bá một “ảo giác” cho người dùng, với những từ ngữ diêm dúa, để họ mong chờ một phép màu. Làm sản phẩm công nghệ cao cần phải có sự nghiêm túc, đầu tư bài bản, xây dựng từ gốc rễ, không làm từ ngọn hay chạy theo trào lưu nhất thời. Chỉ như vậy sản phẩm mới có hy vọng tốt lên cùng theo thời gian, với sự tham gia tích cực của cộng đồng sử dụng nó.
Bản thân ChatGPT của OpenAI cũng đã có những bước tiến bộ rất đáng kể từ khi ra đời nhờ vào những góp ý tích cực của người dùng, chỉ ra các lỗi sai, từ các lỗi có tính hệ thống cho những lỗi ngẫu nhiên, để các kỹ sư có cơ sở tinh chỉnh thuật toán qua từng giai đoạn. Tương tự như vậy, chắc chắn phiên bản hiện nay của chúng tôi chưa thể hoàn thiện, lỗi là không thể tránh khỏi. Nhưng chúng tôi chấp nhận “liều”, bởi rằng tri thức Việt, dữ liệu Việt, cần được người Việt làm chủ, và chúng ta phải bước đi những bước đầu tiên. Chúng tôi tin tưởng rằng sự hỗ trợ, bao dung, đồng hành của người sử dụng sẽ giúp cho chúng ta có một sản phẩm thuần Việt đem lại nhiều lợi ích cho cộng đồng.
Mô hình dành cho cộng đồng của chúng tôi sẽ tập trung vào các lĩnh vực chứa các kiến thức cơ bản của người Việt như văn hoá, lịch sử, địa lý, luật pháp Việt Nam vv... Ngoài ra, chúng tôi cũng sẽ giới thiệu những mô hình tiện dụng với hiệu quả kinh tể cao cho các lĩnh vực chuyên sâu như Tài chính, Ngân hàng, Vận tải vv.
Năm 2018, ông quyết định gia nhập Tập đoàn Vingroup, đâu là lý do cho “cú bắt tay” định mệnh này?
Thời điểm đó, Chủ tịch Phạm Nhật Vượng có mời tôi đến nói chuyện về việc muốn phát triển yếu tố công nghệ tại Việt Nam. Tại cuộc trò chuyện, tôi đã trình bày tất cả những ý tưởng của mình về Viện Nghiên cứu Dữ liệu lớn, lấy dữ liệu làm nền móng cơ sở cho nghiên cứu và làm các sản phẩm trí tuệ nhân tạo phục vụ cho mọi lĩnh vực trong đời sống.
Cùng với đó, chúng tôi đã thảo luận thành lập một quỹ tại Việt Nam là Quỹ Đổi mới sáng tạo Vingroup (VinIF) nhằm hỗ trợ những tổ chức, cá nhân thực hiện nghiên cứu khoa học, công nghệ và đổi mới sáng tạo nhằm mang lại lợi ích thiết thực cho cộng đồng. Như vậy, cả hai yếu tố trở thành những lí do quan trọng giúp tôi quyết định gia nhập Vingroup.
So với những mục tiêu thời điểm đó, giờ đây VinBigdata đã thay đổi ra sao?
So với tầm nhìn, định hướng ban đầu là Viện nghiên cứu làm cơ sở dữ liệu trong 2 đến 3 năm đầu, sản phẩm đầu ra được đo là những bài báo khoa học hoặc những nghiên cứu sáng tạo. Tuy nhiên tròn 2 năm từ khi thành lập, tập đoàn đã quyết định sẽ chuyển công ty sang hoạt động kinh doanh, biến những nghiên cứu trên giấy thành sản phẩm thực tế và là sản phẩm có thể kinh doanh được.
Đây là bước thay đổi rất lớn bởi khoa học gồm 3 phần: nghiên cứu về nền tảng, lý thuyết; nghiên cứu ra sản phẩm chỉ ở trong phòng thí nghiệm và đưa sản phẩm trong phòng thí nghiệm đó đến tay người dùng.
Ở nước ngoài, để thực hiện cả 3 bước trên cần một khoảng thời gian rất dài, đơn vị chục năm. Tuy nhiên, VinBigdata đã thực hiện chỉ trong vòng 5 năm, quả thực đó là bước nhảy vọt từ thành quả nghiên cứu cho đến việc ứng dụng vào thực tế và cho đến nay công ty đã có doanh thu tương đối ổn định.
VinBigdata giờ đây tách ra thành 2 phần. Viện nghiên cứu vẫn nghiên cứu khoa học cơ bản. Phần thứ 2 chính là các startup lập trên các công trình có tính ứng dụng của Viện, như công ty VinBigdata hay công ty Genestory.
Sự chuyển đổi này đã thay đổi mọi thứ trong tổ chức như thế nào thưa ông?
Đó là bước thay đổi rất lớn, gần như một bước ngoặt, vì mọi người đều phải thay đổi cách suy nghĩ, cách làm việc. Toàn tập thể phải học hỏi rất nhiều, mỗi người phải tự thay đổi để thích nghi với hoàn cảnh, những người không thích nghi được thì họ sẽ tìm một công việc khác, còn những người ở lại vẫn có lửa thì đều phải tự biến mình từ nhà khoa học bàn giấy trở thành một người phát triển sản phẩm thực thụ, với hiểu biết về khách hàng và nhu cầu của họ, biết cách truyền cảm hứng cho nhân viên, cũng như cách điều hành một bộ máy. Đây cũng là cơ hội cho mỗi người trong VinBigdata trên con đường tự khám phá bản thân.
Viện được đặt tên là Viện Nghiên cứu Dữ liệu lớn (Bigdata). Tại sao ông lại chọn tên đó mà không phải một cái gì đó thời thượng hơn?
Tôn chỉ mà chúng tôi theo đuổi trong quá trình phát triển của khoa học – công nghệ và giáo dục nước nhà là: “Có những bài toán nếu không phải người Việt làm thì ai làm?”
Dữ liệu đang là một dạng tài nguyên quý giá, và là cơ sở của các đột phá về công nghệ hiện nay, nổi bật nhất là trí tuệ nhân tạo. Vì vậy người Việt thì cần biết cách khai triển tài nguyên đó để làm lợi cho cộng đồng, hơn là đợi một công ty nước ngoài đến khai thác. Họ sẽ dùng tài nguyên chính của mình, thậm chí thuê người của mình làm, nhưng phần lớn lợi nhuận chạy ra nước ngoài, quả thực đó là một sự lãng phí.
Sau 5 năm, VinBigdata đã hiện thực hóa giấc mơ phát triển khoa học ở Việt Nam thế nào?
Thứ nhất, VinBigdata đang cố gắng mang lại những lợi ích mang ý nghĩa lâu dài. Chúng tôi đã thu thập và làm sạch nhiều bộ dữ liệu đồ sộ, và qua đó đã phát triển các sản phẩm trên nhiều lĩnh vưc khác nhau, từ camera thông minh cho các khu đô thị, phần mềm nhận diện khách hàng cho các trung tâm thương mại hay khách sạn, trợ lý ảo Vivi cho xe điện VinFast, hay các dịch vụ xét nghiệm gen để phòng chữa bệnh. Chúng tôi cũng sẵn sàng chia sẻ với những đơn vị khác, tận dụng nguồn dữ liệu của VinBigdata để thực hiện các nghiên cứu của họ. VinBigdata còn là nơi hội tụ cho rất nhiều nhà khoa học trẻ gốc Việt được đào tạo từ nước ngoài trở về, cùng chung sức xây dựng đất nước.
Sau 5, 10 năm nữa, ông hình dung thế nào về sự phát triển của dữ liệu lớn nói chung và khoa học Việt Nam nói riêng?
Điều mà tôi hy vọng là chúng ta nhận ra vai trò của việc thu thập, quản lý dữ liệu và sử dụng dữ liệu trong sinh hoạt cũng như trong hoạch định các kế hoạch lớn. Ví dụ trong nhà muốn đầu tư vào cái gì, cho con đi học trường nào, cũng dựa trên những cơ sở dữ liệu, ở tầm vĩ mô là đầu tư làm đường sá, xây khu dân cư, hay những chẩn đoán về y tế. Tôi hy vọng vai trò của dữ liệu sẽ lớn hơn, tạo ra nhiều sản phẩm thông minh hơn giúp ích cho cuộc sống.
5, 10 năm nữa, xã hội sẽ thấy công dụng thực sự của dữ liệu và khoa học công nghệ, nhất là trí tuệ nhân tạo, sản phẩm con cưng của khoa học dữ liệu. Tuy nhiên, người làm sản phẩm của mình có lẽ phải chịu rủi ro và đi trước cộng đồng một chút. Việc đẩy mạnh truyền thông để làm rõ công dụng của các sản phẩm tiên tiến, nhưng cũng tránh được những sự chờ đợi quá mức vào những điều huyễn hoặc, là rất cần thiết.
Trong 5 năm gắn bó với VinBigdata, ông đã có cho mình những điều trải nghiệm “phiêu lưu” gì?
Những gì tôi thu hoạch được trong những năm qua khá là đặc biệt. Như đã nói, có 3 loại nghiên cứu: nghiên cứu lý thuyết, nghiên cứu ứng dụng tạo ra sản phẩm trong phòng thí nghiệm, và nghiên cứu sản phẩm thương mại hóa. Rất ít người làm cả 3 cùng một lúc. Nhưng nhờ thời gian làm việc tại VinBigdata, tôi thực sự đã thu được những kinh nghiệm quý báu trong cả 3 lĩnh vực này, và cũng một phần nào hiểu được sự khó khăn trong từng lĩnh vực và trong sự chuyển đổi từ lĩnh vực này sang lĩnh vực khác. Sự dấn thân này cũng giúp tôi hiều cuộc sống ở quanh mình hơn, cảm thông hơn với người khác, và cũng hiều được rằng đôi khí có những việc tưởng chừng như rất vô lý, nhưng mà nó lại phải xảy ra như thế.
Hiện tại ông đang vừa làm giáo sư giảng dạy bên Mỹ, vừa tham gia công việc ở Việt Nam, ông cân bằng 2 công việc này ra sao?
Hiện tại tôi vẫn duy trì cả việc giảng dạy và nghiên cứu ở Mỹ. Vấn đề giảng dạy không tốn quá nhiều thời gian, nhưng có những dự án nghiên cứu, nhất là hướng dẫn sinh viên thì tôi vẫn rất thích làm, vì đó làm niềm đam mê. Duy việc dự hội thảo thì tôi cố gắng sắp xếp giảm bớt vì đi lại nhiều cũng mệt mỏi.
Thú thực, làm nghiên cứu lý thuyết ở Mỹ, một khi có chỗ đứng vững chắc rồi thì rất sướng. Làm nghiên cứu lý thuyết không có nhiều áp lực, khi nào có công trình là tuỳ mình, và giáo sư của một trường đại học lớn thì hoàn toàn tự do trong việc lựa chọn các chủ đề nghiên cứu. Đôi khi còn có người làm nghiên cứu theo phong cách dưỡng sinh, rất thảnh thơi nhàn nhã. Bởi vậy, rất ít ai muốn ra khỏi “tháp ngà” ấy cho nó vất vả. Nhất là lại là bắt đầu từ bước đầu tiên của một việc rất khó khăn.
Nhưng ở một khía cạnh khác. Nếu không nhờ VinBigdata, sự đầu tư nhạy bén và hiệu quả của Vingroup, sự quyết liệt của những người lãnh đạo như anh Vượng, thì tôi đã không có một hành trình đầy cảm hứng, hành trình của khát vọng làm chủ dữ liệu Việt, công nghệ Việt, mang lại những thay đổi tích cực cho khoa học công nghệ nước nhà. Hy vọng rằng VinBigdata và rộng hơn nữa, Vingroup, sẽ tiếp tục có những bước tiến mạnh mẽ trong công cuộc phát triển công nghệ ở Viêt Nam.
Bài: Khánh Vy
Thiết kế: Hải An