Google vẫn có thể huấn luyện AI tìm kiếm bằng nội dung web ngay cả khi trang web chọn “không tham gia” AI

Công nghệ

Google vẫn có thể huấn luyện AI tìm kiếm bằng nội dung web ngay cả khi trang web chọn “không tham gia” AI

BBWV - Một lãnh đạo cấp cao của Google xác nhận công ty vẫn sử dụng dữ liệu từ các trang web đã chọn không cho phép huấn luyện AI, miễn là dữ liệu đó phục vụ sản phẩm tìm kiếm — động thái làm dấy lên lo ngại về quyền kiểm soát nội dung và cạnh tranh công bằng.

Hình ảnh: David Gray/Bloomberg

Tác giả: Davey Alba

05 tháng 05, 2025 lúc 5:45 PM

Ông Eli Collins, phó chủ tịch tại DeepMind, cho biết lựa chọn từ chối mà Google cung cấp chỉ giới hạn trong phạm vi huấn luyện AI của DeepMind — phòng thí nghiệm AI nội bộ. Các nhóm khác trong Google vẫn có thể dùng dữ liệu đó để huấn luyện mô hình phục vụ cho sản phẩm riêng.

“Giả sử mô hình AI Gemini được đưa vào nhóm sản phẩm tìm kiếm, thì nhóm này có thể huấn luyện mô hình bằng dữ liệu từ các nhà xuất bản đã chọn không cho phép huấn luyện, đúng không?” luật sư Diana Aguilar của Bộ Tư pháp Mỹ hỏi.

“Đúng, nếu dùng cho sản phẩm tìm kiếm,” Collins đáp.

Nhiều nhà xuất bản cho biết Google đang hiển thị phần trả lời do AI tạo ra ngay đầu trang kết quả tìm kiếm, khiến người dùng không còn truy cập vào các trang web như trước, góp phần làm giảm doanh thu của họ. Trong khi đó, Google lại sử dụng chính nội dung từ các trang này để tạo câu trả lời bằng AI.

Google xác nhận rằng nhà xuất bản chỉ có thể ngăn dữ liệu bị dùng để huấn luyện AI tìm kiếm nếu họ đồng thời không cho phép Google lập chỉ mục trang web. “Google cung cấp một cơ chế riêng để nhà xuất bản kiểm soát nội dung hiển thị trên Search thông qua chuẩn robots.txt, vốn đã được sử dụng rộng rãi,” người phát ngôn của Google cho biết. Robots.txt là tệp tích hợp trong trang web, cho phép quản trị viên quyết định có cho phép các bot thu thập dữ liệu từ trang hay không.

Google đã triệu tập ông Collins làm nhân chứng tại phiên tòa kéo dài ba tuần ở tòa liên bang Washington, nơi tòa đang xem xét cách buộc công ty khôi phục cạnh tranh trong lĩnh vực tìm kiếm trực tuyến. Năm ngoái, thẩm phán Amit Mehta đã kết luận Google duy trì thế độc quyền bất hợp pháp và hiện đang cân nhắc các biện pháp chấn chỉnh do cơ quan chống độc quyền đề xuất.

Bộ Tư pháp muốn tòa yêu cầu Google bán trình duyệt Chrome, chia sẻ dữ liệu cốt lõi dùng để tạo kết quả tìm kiếm và cấm chi trả để giữ vị trí mặc định trên các ứng dụng, thiết bị và cả các sản phẩm AI như Gemini — vốn bị cáo buộc hưởng lợi từ thế độc quyền của Google.

Luật sư Aguilar hỏi Collins liệu ông có biết nhóm tìm kiếm của Google đã truy cập bao nhiêu dữ liệu ngoài phần DeepMind sử dụng để huấn luyện AI hay không. Collins nói ông không rõ. Aguilar sau đó đưa ra một tài liệu nội bộ đề ngày 26 tháng 8 năm 2024, có tiêu đề “Search GenAI <> Gemini v3.”

Theo tài liệu, Google đã loại bỏ 80 tỷ trong số 160 tỷ “token” — tức các đoạn nội dung — sau khi lọc ra những nội dung bị nhà xuất bản từ chối cho dùng để huấn luyện. Tài liệu cũng liệt kê “dữ liệu phiên tìm kiếm” và video YouTube là các nguồn có thể dùng để huấn luyện mô hình AI.

Sau khi xem tài liệu, thẩm phán Mehta yêu cầu làm rõ: “80 tỷ trên tổng số 160 tỷ token bị loại vì nhà xuất bản chọn không cho phép, đúng không?”

“Đúng vậy,” Collins trả lời.

Luật sư Google sau đó lập luận rằng vị thế thống trị trong tìm kiếm không cản trở các công ty AI khác cạnh tranh trong việc cung cấp kết quả thời gian thực. Collins cho biết, nếu người dùng hỏi chatbot về tỉ số một trận đấu, chatbot vẫn có thể trả lời chính xác nhờ dữ liệu từ đối tác thương mại — không cần lấy từ các trang web.

Tuy nhiên, lời khai cũng cho thấy Google từng cân nhắc tận dụng lượng dữ liệu khổng lồ từ nhiều năm vận hành công cụ tìm kiếm để cải thiện mô hình AI. Trong một buổi thẩm vấn khác, luật sư Aguilar cho Collins xem tài liệu báo cáo nội bộ gửi ông Demis Hassabis, giám đốc điều hành Google DeepMind.

Trong tài liệu, ông Hassabis bày tỏ quan tâm đến việc thử huấn luyện một mô hình AI sử dụng dữ liệu tìm kiếm — bao gồm cả dữ liệu xếp hạng kết quả — để đánh giá liệu mô hình đó có vượt trội hơn hay không.

“Google đã phát triển mô hình nào sử dụng dữ liệu tìm kiếm chưa?” Aguilar hỏi.

“Tôi không biết,” Collins đáp.

“Nhưng ít nhất ông Hassabis đã cho rằng đó là một điều đáng để thử chứ?” Aguilar gặng hỏi.

“Đúng vậy,” Collins xác nhận.

Theo Bloomberg

Theo phattrienxanh.baotainguyenmoitruong.vn

https://phattrienxanh.baotainguyenmoitruong.vn/google-van-co-the-huan-luyen-ai-tim-kiem-bang-noi-dung-web-ngay-ca-khi-trang-web-chon-khong-tham-gia-ai-53119.html

BÀI LIÊN QUAN