Một sản phẩm của BEACON MEDIA
Khám phá nhiều hơn với tài khoản
Đăng nhập để lưu trữ và dễ dàng truy cập những bài viết bạn yêu thích trên Bloomberg Businessweek Việt Nam.
Công nghệ
Các tài liệu tiết lộ việc Google buộc các nhà xuất bản cho phép công ty này sử dụng dữ liệu để huấn luyện AI.
Trụ sở chính của Google tại Mountain View, California. Hình ảnh: David Paul Morris/Bloomberg
Tác giả: Davey Alba và Julia Love
20 tháng 5, 2025 lúc 4:24 PM
Tóm tắt bài viết
Google bị cáo buộc sử dụng dữ liệu từ các trang web để huấn luyện AI mà không cho phép nhà xuất bản từ chối. Tài liệu nội bộ tiết lộ công ty đã âm thầm sử dụng dữ liệu mà không thông báo công khai.
Thay vì cung cấp tùy chọn cho nhà xuất bản, Google quyết định "âm thầm cập nhật" cách sử dụng dữ liệu. Công ty đặt "giới hạn cứng" yêu cầu nhà xuất bản đồng ý cho phép dữ liệu được sử dụng cho AI.
Nhà xuất bản chỉ có thể ngăn dữ liệu bị sử dụng nếu từ chối xuất hiện trong kết quả tìm kiếm của Google. Với thị phần hơn 90%, các trang web phụ thuộc vào lưu lượng từ Google không thể từ chối.
Bộ Tư pháp Mỹ đề xuất Google phải cho phép nhà xuất bản từ chối việc sử dụng nội dung để huấn luyện AI. Phán quyết về các biện pháp khắc phục dự kiến được công bố vào tháng 8/2024.
Trong năm đầu tiên kể từ khi AI Overviews ra mắt, lưu lượng truy cập vào một số trang web đã giảm mạnh. Các nhà xuất bản lo ngại AI có thể phát triển đến mức thay thế hoàn toàn nội dung của họ.
Tóm tắt bởi AI HAY
Google bị cáo buộc sử dụng dữ liệu từ các trang web để huấn luyện mô hình trí tuệ nhân tạo (AI) mà không cho phép các nhà xuất bản lựa chọn từ chối. Một tài liệu nội bộ tiết lộ rằng công ty từng cân nhắc cho phép các nhà xuất bản kiểm soát dữ liệu của họ, nhưng cuối cùng đã bỏ qua tùy chọn này và âm thầm sử dụng dữ liệu mà không thông báo công khai.
Tài liệu này, được tiết lộ trong phiên tòa chống độc quyền về dịch vụ tìm kiếm của Google, cho thấy công ty đặt ra một "giới hạn cứng" — yêu cầu mọi nhà xuất bản muốn nội dung của họ xuất hiện trên trang kết quả tìm kiếm cũng phải đồng ý cho phép dữ liệu đó được sử dụng để hỗ trợ các tính năng tím kiếm AI.
Thay vì cung cấp tùy chọn cho nhà xuất bản, Google quyết định "âm thầm cập nhật" và "không công bố công khai" cách các dữ liệu được sử dụng. Tài liệu do Chetna Bindra, giám đốc quản lý sản phẩm của Google Search, soạn thảo, nêu rõ: “Làm những gì chúng tôi nói, nói những gì chúng tôi làm, nhưng phải thận trọng.”
Sự thống trị của Google trong lĩnh vực tìm kiếm, vốn đã bị một tòa án liên bang xác định là độc quyền bất hợp pháp vào năm ngoái, đã giúp công ty có lợi thế lớn trong cuộc đua AI. Theo quy tắc của Google — và lời khai trước đây của một phó chủ tịch sản phẩm của công ty trong phiên tòa — gã khổng lồ công nghệ này có quyền sử dụng nội dung thu thập được để hiển thị trong kết quả tìm kiếm nhằm phát triển các sản phẩm AI liên quan đến lĩnh vực này. Các nhà xuất bản chỉ có thể ngăn dữ liệu của họ bị sử dụng để huấn luyện công cụ tìm kiếm AI nếu họ chọn không cho nội dung của mình xuất hiện trong kết quả tìm kiếm của Google.
Các chủ sở hữu trang web phụ thuộc vào lưu lượng truy cập không thể bỏ qua việc xuất hiện trên Google — nền tảng chiếm hơn 90% thị phần tìm kiếm, được xem như cánh cửa chính dẫn vào thế giới Internet hiện đại. Nhiều nhà xuất bản đã miễn cưỡng để Google sử dụng nội dung của họ nhằm hỗ trợ các tính năng AI tìm kiếm, như AI Overviews chuyên cung cấp câu trả lời tự động, dù thực tế, tính năng này thường làm giảm lượng truy cập của họ. Bằng cách trả lời câu hỏi trực tiếp, AI Overviews khiến người dùng không cần nhấp vào liên kết trang web, làm giảm cơ hội kiếm tiền từ quảng cáo hoặc bán sản phẩm của các trang web này.
Tài liệu của Google được công bố tại tòa cho thấy công ty đã sớm nhận ra rằng họ có thể trao nhiều quyền kiểm soát hơn cho các nhà xuất bản, theo Paul Bannister, giám đốc chiến lược của Raptive — tổ chức đại diện cho các nhà sáng tạo nội dung trực tuyến.
“Điều này khá đáng trách,” ông nói. “Họ rõ ràng biết họ có nhiều lựa chọn và đã chọn phương án bảo thủ nhất nhằm bảo vệ lợi ích của mình — phương án không cho các nhà xuất bản bất kỳ quyền kiểm soát nào.”
Google gần đây phải ra hầu tòa tại Washington, nơi một thẩm phán liên bang đang xem xét các biện pháp cần thiết để khôi phục sự cạnh tranh trong lĩnh vực công cụ tìm kiếm trực tuyến. Thẩm phán Amit Mehta, người chủ trì phiên tòa, hiện đang cân nhắc một loạt biện pháp khắc phục do các cơ quan chống độc quyền đề xuất nhằm hạn chế quyền lực của Google trên thị trường tìm kiếm. Phiên điều trần kết thúc vào ngày 9 tháng 5, và các lập luận cuối cùng sẽ diễn ra vào cuối tháng này. Phán quyết về các biện pháp khắc phục dự kiến được công bố vào tháng 8 năm nay.
Một phần trong đề xuất của Bộ Tư pháp Mỹ yêu cầu Google phải cung cấp cho các nhà xuất bản và nhà sáng tạo nội dung trực tuyến quyền được từ chối cho phép nội dung trang web của họ được sử dụng để huấn luyện các mô hình AI tạo sinh (generative AI) của Google. Các quyền này bao gồm việc từ chối theo từng mô hình AI và từ chối theo từng sản phẩm AI riêng lẻ, mà không phải chịu bất kỳ hình phạt hay bất lợi nào.
Trong các phương án được thảo luận trong tài liệu nội bộ của Google, công ty đã đề xuất tùy chọn "chỉ từ chối SGE" — cho phép các nhà xuất bản ngăn không cho nội dung của họ bị sử dụng trong một số tính năng AI tạo sinh của Google Search mà vẫn được hiển thị trong kết quả tìm kiếm.
Một phương án khác đề xuất cho phép các nhà xuất bản “lựa chọn không hiển thị nội dung của họ trong AI Overviews,” mặc dù dữ liệu của họ “vẫn sẽ được sử dụng để huấn luyện AI.” Phương án này, được xem như phương án nặng tay nhất, sẽ cho phép các nhà xuất bản “từ chối việc dữ liệu của họ được sử dụng để hỗ trợ AI” — một quy trình trong đó Google và các công ty AI khác sử dụng nguồn thông tin thực tế để giúp AI đưa ra câu trả lời chính xác hơn, tránh việc tạo ra thông tin sai lệch.
Tuy nhiên, Google cuối cùng đã quyết định không cung cấp thêm bất kỳ tùy chọn nào mới cho các nhà xuất bản. Thay vào đó, công ty đề xuất chuyển hướng nhà xuất bản đến một tùy chọn từ chối hiện có, gọi là “no snippet.” Tùy chọn này cho phép nhà xuất bản tránh bị đưa vào AI Overviews và các tính năng tìm kiếm khác. Tuy nhiên, nếu chọn phương án này, bản tóm tắt nội dung của họ cũng sẽ không xuất hiện trên trang kết quả tìm kiếm, khiến người dùng ít dùng nhấp vào liên kết trang web hơn.
“Các nhà xuất bản luôn có quyền kiểm soát cách nội dung của họ được cung cấp cho Google, ngay cả khi các mô hình AI đã được tích hợp vào tìm kiếm trong nhiều năm, giúp hiển thị các trang web liên quan và tăng lưu lượng truy cập cho họ,” người phát ngôn của Google cho biết trong phản hồi với Bloomberg về tài liệu tại phiên tòa. “Tài liệu này chỉ là danh sách các phương án đang được xem xét trong giai đoạn đầu của một lĩnh vực mới phát triển và không phản ánh quyết định cuối cùng hoặc tính khả thi thực tế của chúng.” Họ cho biết thêm rằng Google thường xuyên cập nhật tài liệu hướng dẫn sản phẩm của mình cho dịch vụ tìm kiếm trực tuyến.
Tài liệu được công bố tại tòa hướng dẫn các đại diện của công ty về cách truyền đạt thông tin và những nội dung cần tránh đề cập rõ ràng. “Nếu được thông qua, bước tiếp theo là chúng tôi sẽ phát triển văn bản chính thức và công bố nội dung này,” tài liệu của Bindra, viết vào tháng 4 năm 2024, cho biết. Một tháng sau, tại hội nghị thường niên dành cho nhà phát triển tại Mountain View, California, Google đã tích hợp AI rộng rãi vào công cụ tìm kiếm, giới thiệu đây là một trải nghiệm “hoàn toàn mới.”
Trong năm đầu tiên kể từ khi AI Overviews ra mắt, lưu lượng truy cập vào một số trang web của nhà xuất bản đã giảm mạnh. Điều đáng lo ngại hơn đối với các nhà xuất bản là sự phát triển của các mô hình AI trong thời gian dài có thể tạo ra nội dung các chất lượng cao đủ để thay thế nội dung của họ, theo Brooke Hartley Moy, giám đốc điều hành của Infactory, một công ty khởi nghiệp AI hợp tác với các nhà xuất bản.
“Nếu mô hình của Google phát triển đến mức yếu tố con người trong nội dung có thể bị loại bỏ hoàn toàn, thì các nhà xuất bản, về cơ bản, đã tự ký vào bản án tử của mình,” Hartley Moy nói.
Trong bối cảnh các nhà xuất bản đang tìm kiếm nguồn doanh thu mới, việc cho phép nội dung của họ được sử dụng cùng phương pháp “truy xuất tăng cường” (Retrieval Augmented Generation - RAG) đã trở thành một lựa chọn đầy tiềm năng, theo Hartley Moy.
Phương pháp này giúp các mô hình AI dựa vào thông tin từ các nguồn cụ thể để đưa ra câu trả lời chính xác hơn. Moy nhấn mạnh rằng việc Google loại bỏ RAG khỏi bàn đàm phán là một quyết định quan trọng.
“RAG không thể tồn tại nếu không có các nhà xuất bản,” Hartley Moy khẳng định. “Theo tôi, đây là một chiến lược nhằm đảm bảo Google duy trì quyền lực tối đa trên thị trường, trong khi các nhà xuất bản mất đi một trong những quân bài thương lượng quan trọng nhất.”
Khi bị luật sư của Google, Kenneth Smurzynski, chất vấn, Liz Reid, giám đốc bộ phận tìm kiếm của công ty, đã làm chứng rằng việc tạo ra nhiều tùy chọn từ chối cho các sản phẩm và mô hình AI khác nhau sẽ rất phức tạp.
“Nếu trên trang kết quả tìm kiếm có nhiều tính năng AI tạo sinh — điều hoàn toàn có khả năng xảy ra — thì mỗi tính năng sẽ cần được hỗ trợ bởi một mô hình riêng. Nhưng chúng tôi không xây dựng các mô hình riêng cho từng tính năng như vậy,” Reid giải thích trong lời khai tại phiên tòa ngày 6 tháng 5.
Bà nhấn mạnh rằng điều này không chỉ tốn kém vì cần khoản đầu tư lớn vào phần cứng và chip mà còn gây khó khăn trong việc duy trì hiệu suất ổn định và đảm bảo các mô hình AI phản hồi nhanh chóng. “Điều đó sẽ làm tăng đáng kể độ phức tạp trong việc vận hành hệ thống,” bà khẳng định.
Theo Bloomberg
Theo phattrienxanh.baotainguyenmoitruong.vn
https://phattrienxanh.baotainguyenmoitruong.vn/google-khong-cho-nha-xuat-ban-quyen-tu-choi-du-lieu-bi-su-dung-de-huan-luyen-ai-53243.html
Tặng bài viết
Đối với thành viên đã trả phí, bạn có 5 bài viết mỗi tháng để gửi tặng. Người nhận quà tặng có thể đọc bài viết đầy đủ miễn phí và không cần đăng ký gói sản phẩm.
Bạn còn 5 bài viết có thể tặng
Liên kết quà tặng có giá trị trong vòng 7 ngày.
BÀI LIÊN QUAN
Truy cập nhanh
Giấy phép thiết lập trang thông tin điện tử tổng hợp trên mạng số 30/ GP-STTTT do Sở Thông Tin và Truyền Thông thành phố Hồ Chí Minh cấp ngày 24/12/2024
Chịu trách nhiệm nội dung: Ông Võ Quốc Khánh
Trụ sở: Lầu 12A, số 412 Nguyễn Thị Minh Khai, phường Bàn Cờ, Thành phố Hồ Chí Minh
Điện thoại: (028) 8889.0868
Email: bientap@bloombergbusinessweek.vn
© Copyright 2023-2025 Công ty Cổ phần Beacon Asia Media