Mới đây, Meta cùng Giám đốc điều hành Mark Zuckerberg đã chính thức bị lôi vào một vụ kiện tập thể từ liên minh các nhà xuất bản hàng đầu. Đơn kiện cáo buộc nền tảng mạng xã hội này đã sử dụng trái phép hàng loạt tác phẩm có bản quyền để "nuôi" các mô hình AI Llama của mình.
Năm tên tuổi đình đám trong ngành xuất bản bao gồm: Hachette, Macmillan, McGraw Hill, Elsevier và Cengage, cùng tác giả có sách bán chạy nhất Scott Turow, đã đồng loạt ký tên vào đơn kiện ông lớn công nghệ này. Họ gọi đây là "một trong những vụ vi phạm tài liệu có bản quyền lớn nhất trong lịch sử".
Theo hồ sơ đệ trình lên tòa án liên bang Manhattan vào thứ Ba vừa qua, Meta bị cáo buộc đã tiếp cận hàng triệu cuốn sách và bài báo khoa học từ các trang web lưu trữ tài liệu lậu. Không dừng lại ở đó, công ty còn bị cho là đã "quét" trái phép dữ liệu của "gần như toàn bộ internet" để huấn luyện các mô hình AI tạo sinh.
Đơn kiện nhấn mạnh, công ty có giá trị 1.500 tỷ USD này đã sao chép và phân phối tài liệu mà không hề xin phép. Đặc biệt, các nguyên đơn khẳng định chính Mark Zuckerberg "đã đích thân cho phép và tích cực khuyến khích hành vi vi phạm này".
Họ cũng cáo buộc Meta cố tình xóa bỏ các dữ liệu trích dẫn nguồn nhằm che giấu nguồn gốc dữ liệu huấn luyện.
Theo báo cáo từ The Atlantic, một phần quan trọng trong dữ liệu huấn luyện mà các công ty AI như Meta sử dụng đến từ một tập hợp dữ liệu có tên là "Books3". Tập dữ liệu này chứa hơn 191.000 cuốn sách từ các trang web lưu trữ tài liệu lậu như Bibliotik.

Các nhà xuất bản và tác giả đã phát hiện ra rằng Meta sử dụng tập dữ liệu "The Pile" của EleutherAI (trong đó bao gồm Books3) để huấn luyện Llama. Sự việc này làm dấy lên tranh cãi dữ dội về việc liệu các công ty công nghệ có đang cố tình phớt lờ nguồn gốc bất hợp pháp của dữ liệu để đổi lấy sự phát triển nhanh chóng của AI hay không.
Cuộc chiến pháp lý không hồi kết của kỷ nguyên AI
Vụ kiện này là diễn biến mới nhất trong chuỗi các cuộc đối đầu nảy lửa về bản quyền giữa giới nghệ sĩ, tác giả, báo chí với các "ông lớn" AI như Microsoft và OpenAI. Điểm chung của các vụ kiện là cáo buộc các công ty công nghệ sử dụng nội dung sáng tạo mà không trả phí hay xin phép để huấn luyện chatbot.
Năm ngoái, startup AI Anthropic đã phải chấp nhận chi ra 1,5 tỷ USD để dàn xếp một vụ kiện bản quyền tương tự liên quan đến việc sử dụng văn bản lậu.
Tuy nhiên, con đường tìm lại công lý của các tác giả không phải lúc nào cũng trải đầy hoa hồng. Vào tháng 6, Meta từng giành chiến thắng trong một vụ kiện bản quyền do các tác giả như Ta-Nehisi Coates và Richard Kadrey khởi xướng.
Khi đó, thẩm phán phán quyết rằng các nguyên đơn chưa đưa ra đủ bằng chứng cho thấy AI của Meta gây hại đến thị trường nội dung do con người tạo ra. Việc Meta sử dụng tài liệu bản quyền được coi là "sử dụng hợp lý" (fair use) để phát triển một công nghệ mang tính đột phá.

Cuộc chiến pháp lý này xoay quanh cách giải thích Đạo luật Bản quyền của Hoa Kỳ, đặc biệt là mục 107 về "Sử dụng hợp lý". Meta lập luận rằng việc sử dụng dữ liệu là mang tính "chuyển đổi", tức là tạo ra một sản phẩm mới hoàn toàn khác biệt so với nguyên tác.
Tuy nhiên, theo một báo cáo của Reuters, giới chuyên gia pháp lý cho rằng nếu đầu ra của AI bắt chước quá sát phong cách hoặc nội dung của tác giả gốc, ranh giới giữa "sử dụng hợp lý" và "vi phạm" sẽ trở nên cực kỳ mong manh.
Sự thành bại của vụ kiện Meta lần này sẽ đặt ra tiền lệ pháp lý quan trọng cho toàn bộ ngành công nghiệp AI trong tương lai.
Phản hồi từ Meta: "Sẽ đấu tranh quyết liệt"
Ngay sau khi đơn kiện được đệ trình, Meta đã ra tuyên bố sẽ phản kháng "mạnh mẽ". Đại diện công ty cho biết: "AI đang thúc đẩy những đổi mới mang tính đột phá, nâng cao năng suất và sự sáng tạo cho các cá nhân và doanh nghiệp. Các tòa án đã đúng khi nhận định rằng việc huấn luyện AI trên tài liệu có bản quyền có thể được coi là sử dụng hợp lý."
Trái ngược với tuyên bố trên, đơn kiện tiết lộ một chi tiết gây sốc: Meta ban đầu đã có ý định đàm phán các thỏa thuận cấp phép bản quyền với các nhà xuất bản, nhưng sau đó đã hủy bỏ theo "chỉ thị cá nhân của Zuckerberg".

The Guardian đưa tin rằng mức thu nhập trung bình của các tác giả chuyên nghiệp đã sụt giảm nghiêm trọng trong thập kỷ qua. Việc AI có thể tạo ra các tác phẩm mô phỏng với chi phí gần như bằng không đe dọa trực tiếp đến sinh kế của những người sáng tạo nội dung.
Hiệp hội Tác giả (Authors Guild) nhấn mạnh rằng nếu không có sự bảo vệ bản quyền nghiêm ngặt, sự sáng tạo của con người sẽ bị bóp nghẹt bởi chính những công cụ được xây dựng trên "xương máu" của các tác phẩm đi trước. Việc Meta từ chối trả phí bản quyền không chỉ là vấn đề tài chính mà còn là sự coi thường giá trị trí tuệ của con người.
Các nhà xuất bản lập luận rằng các tác giả đang chịu thiệt hại nặng nề vì Llama đang được sử dụng để tạo ra các phiên bản "nhái" tác phẩm của họ. Họ gọi công nghệ này là "cỗ máy thay thế vô tận".
Đáng quan ngại hơn, họ chỉ ra rằng các loại sách do AI tạo ra đang "tràn ngập Amazon - thị trường sách lớn nhất thế giới - với số lượng lớn đến mức chiếm chỗ của các tác phẩm do con người viết".
Theo một cuộc điều tra của The New York Times, số lượng sách điện tử do AI viết trên Amazon đã tăng đột biến, thường sử dụng tên các tác giả nổi tiếng để lừa dối người mua. Các thuật toán của Meta có khả năng tóm tắt, viết lại hoặc mô phỏng phong cách viết của bất kỳ tác giả nào có trong dữ liệu huấn luyện.
Điều này không chỉ gây thiệt hại về doanh thu cho các nhà xuất bản chính thống mà còn làm xói mòn lòng tin của độc giả, khi họ khó có thể phân biệt đâu là tinh hoa trí tuệ con người và đâu là sản phẩm từ các dòng mã máy tính.
Hiện các nguyên đơn đang yêu cầu bồi thường thiệt hại (chưa tiết lộ con số cụ thể) và đặt mục tiêu đại diện cho một nhóm rộng lớn hơn các chủ sở hữu bản quyền đang bị xâm phạm.
*Nguồn: Financial Times
