AI

Start-up AI Anthropic bị cáo buộc thu thập dữ liệu từ các trang web một cách quá mức

Nhà xuất bản web khiếu nại: Nhà phát triển thu thập nội dung trái phép cho huấn luyện AI và bỏ qua yêu cầu dừng lại.

Eulerpool News 13:12 28 thg 7, 2024

Công ty khởi nghiệp AI Anthropic bị cáo buộc thu thập dữ liệu từ các trang web một cách hung hăng để huấn luyện hệ thống của mình, có thể vi phạm các điều khoản sử dụng của nhà xuất bản, theo các bên liên quan.

Los desarrolladores de IA confían en grandes cantidades de datos de diversas fuentes para crear grandes modelos de lenguaje que forman la tecnología detrás de los chatbots como ChatGPT de OpenAI y los competidores de Claude de Anthropic.

Anthropic được thành lập bởi các cựu nhà nghiên cứu của OpenAI và hứa hẹn phát triển các hệ thống AI "có trách nhiệm". Tuy nhiên, Matt Barrie, CEO của Freelancer.com, cáo buộc công ty có trụ sở tại San Francisco này là „người thu thập dữ liệu" tích cực nhất từ nền tảng Freelancer của ông, nơi có hàng triệu lượt truy cập mỗi ngày.

Các nhà xuất bản web khác chia sẻ mối lo ngại của Barrie rằng Anthropic đang làm ngập trang của họ và phớt lờ các chỉ dẫn của họ về việc ngừng thu thập nội dung. Theo Barrie, Freelancer.com đã nhận được 3,5 triệu lượt truy cập từ một webcrawler liên kết với Anthropic trong vòng bốn giờ. "Đó có thể là khoảng năm lần so với số hai," Barrie nói.

Here is the translated heading in Vietnamese:
"Lưu lượng truy cập thông qua bot này tiếp tục tăng lên, ngay cả sau khi Freelancer.com đã cố gắng từ chối quyền truy cập bằng các giao thức tiêu chuẩn. Barrie sau đó đã quyết định chặn toàn bộ lưu lượng dữ liệu từ các địa chỉ IP của Anthropic. 'Chúng tôi phải chặn họ vì họ không tuân thủ các quy tắc của internet,' Barrie nói. 'Việc scraping một cách trắng trợn này làm chậm trang web đối với tất cả người dùng và cuối cùng làm ảnh hưởng đến doanh thu của chúng tôi.'

Anthropic thông báo đang điều tra vụ việc và tôn trọng yêu cầu của các nhà xuất bản, không "xâm phạm hoặc gây phiền toái".

Việc quét dữ liệu công khai thường là hợp pháp, nhưng có thể vi phạm các điều khoản sử dụng của trang web và gây tốn kém cho các nhà điều hành trang. Kyle Wiens, CEO của iFixit.com, cho biết, trang web sửa chữa điện tử của ông đã nhận được một triệu lượt truy cập từ các bot của Anthropics trong vòng 24 giờ. "Chúng tôi có rất nhiều cảnh báo về lưu lượng dữ liệu cao, đánh thức mọi người vào lúc 3 giờ sáng. Điều này đã kích hoạt tất cả các cảnh báo của chúng tôi," ông nói.

Điều khoản Sử dụng của iFixit cấm sử dụng dữ liệu của họ cho học máy. „Thông điệp đầu tiên của tôi tới Anthropic là: Nếu bạn sử dụng điều này để huấn luyện mô hình của mình, đó là hành động vi phạm pháp luật. Thông điệp thứ hai của tôi là: Đây không phải là hành vi cư xử lịch sự trên Internet. Việc truy cập tự động là vấn đề về nghi thức.“

Các trang web sử dụng giao thức "robots.txt" để ngăn chặn các trình thu thập dữ liệu và các robot web khác khỏi những khu vực nhất định của trang web, tuy nhiên điều này dựa trên việc tuân thủ tự nguyện. Anthropic cho biết các trình thu thập dữ liệu của họ tôn trọng các "công nghệ chống vượt qua" như CAPTCHA và rằng "hoạt động thu thập dữ liệu của chúng tôi không nên xâm phạm hoặc gây rối".

Việc khai thác dữ liệu đã tăng đáng kể trong hai năm qua do cuộc chạy đua vũ trang về trí tuệ nhân tạo, gây ra chi phí mới cho các nhà quản lý trang web. "Các trình thu thập dữ liệu AI đã gây ra cho chúng tôi chi phí băng thông đáng kể và tốn rất nhiều thời gian để xử lý lạm dụng," Eric Holscher, đồng sáng lập trang lưu trữ tài liệu Read the Docs, viết trong một bài đăng trên blog.

Anthropic đã tạo ra một số chatbot tiên tiến nhất thế giới, cạnh tranh với ChatGPT của OpenAI và định vị mình là một nhân tố đạo đức. Mục tiêu đã tuyên bố của Anthropic là "phát triển và duy trì AI tiên tiến một cách có trách nhiệm vì lợi ích lâu dài của nhân loại.

Trong khi các công ty hàng đầu về trí tuệ nhân tạo phát triển các mô hình ngày càng mạnh mẽ hơn, họ thâm nhập sâu hơn vào những góc chưa được khai thác của Internet, hợp tác với các nhà xuất bản hoặc tạo ra dữ liệu huấn luyện tổng hợp. OpenAI đã ký kết nhiều thỏa thuận với các nhà xuất bản và các nhà cung cấp nội dung như Reddit, The Atlantic và Financial Times trong vài tháng qua. Anthropic chưa công bố các quan hệ đối tác tương tự.

Các công cụ tìm kiếm từ trước đến nay đã thu thập dữ liệu rất nhiều," Barrie nói, "nhưng với việc huấn luyện trí tuệ nhân tạo sinh, nó đã lên một cấp độ hoàn toàn mới.

Nhiệm vụ của iFixit là chia sẻ thông tin để khuyến khích mọi người tự sửa chữa. „Chúng tôi không phản đối việc họ sử dụng nội dung của chúng tôi cho việc đào tạo mô hình, chúng tôi chỉ muốn là một phần của cuộc trò chuyện“, Wiens nói. „Tôi không phải là một chiến binh trong chủ đề này, tôi chỉ cố gắng duy trì một trang web hoạt động trực tuyến.“

Đầu tư thông minh nhất trong đời bạn
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Từ 2 € đảm bảo

Tin tức