Bên trong cuộc đua ngầm mua dữ liệu đào tạo AI của Big Tech

Thuỳ An-Thứ hai, ngày 08/04/2024 06:05 GMT+7

VTV.vn - Nhóm Big Tech được cho là bỏ nhiều tỷ USD để mua dữ liệu nhằm tạo đạo công cụ trí tuệ nhân tạo AI của mình.

Theo Reuter, vào thời kỳ đỉnh cao đầu những năm 2000, Photobucket là công cụ lưu trữ hình ảnh hàng đầu thế giới. Là một trong những dịch vụ hot một thời cùng Myspace và Friendster,  Photobucket tự hào có 70 triệu người dùng và chiếm gần một nửa thị trường ảnh trực tuyến ở Mỹ.

Tuy nhiên, sau hơn 2 thập kỷ, hiện chỉ có 2 triệu người vẫn sử dụng Photobucket, theo thống kê của công cụ theo dõi phân tích của Similarweb. 

Tuy nhiên, cuộc cách mạng AI có thể mang lại cho những dịch vụ như Photobucket một sức sống mới.

Bên trong cuộc đua ngầm mua dữ liệu đào tạo AI của Big Tech - Ảnh 1.

Cuộc đua mua dữ liệu để đào tạo AI có thể khiến những dịch vụ như Photobucket hồi sinh

Giám đốc điều hành Photobucket, Ted Leonard, người điều hành công ty gồm 40 thành viên ở Edwards, Colorado, nói với Reuters rằng ông đang đàm phán với nhiều công ty công nghệ để cấp phép quyền tiếp cận 13 tỷ bức ảnh và video của Photobucket. Kho dữ liệu này được sử dụng để đào tạo các mô hình AI tạo sinh có khả năng tạo ra nội dung mới. 

Ông Ted Leonard cho biết, đang thảo luận về mức giá từ 5 xu đến 1 USD cho mỗi bức ảnh và hơn 1 USD cho mỗi video. Mức giá rất khác nhau tùy theo người mua và loại hình ảnh được tìm kiếm.

"Chúng tôi đã nói chuyện với các công ty và họ nhấn mạnh "chúng tôi cần nhiều hơn thế nữa", Ted Leonard nói.

Ông cho biết thêm, một người mua nói với ông ấy rằng họ muốn có hơn một tỷ video, nhiều hơn những gì Photobucket có.

Bên trong cuộc đua ngầm mua dữ liệu đào tạo AI của Big Tech - Ảnh 2.

Nhiều gã khổng lồ công nghệ đang bỏ tiền ra mua dữ liệu nhằm đào tạo các công cụ AI

Photobucket từ chối tiết lộ danh tính người mua tiềm năng với lý do bảo mật thương mại. 

Reuter cho hay, các cuộc đàm phán đang diễn ra và chưa được báo cáo trước đây, cho thấy, Photobucket có thể nắm giữ nội dung trị giá hàng tỷ USD đồng thời cung cấp một góc nhìn về thị trường dữ liệu đang rất nhộn nhịp trong cơn sốt thống trị của AI.

Photobucket cho biết lợi nhuận hoạt động trong quý đầu tiên sẽ tăng hơn 10 lần, lên gần 4,9 tỷ USD.

Những gã khổng lồ công nghệ như Google, Meta hay Microsoft, OpenAI ban đầu sử dụng miễn phí hàng loạt dữ liệu được lấy từ Internet để đào tạo các mô hình AI có tính sáng tạo như ChatGPT. Big Tech nói rằng làm như vậy vừa hợp pháp vừa có đạo đức, mặc dù họ phải đối mặt với các vụ kiện từ hàng loạt chủ sở hữu bản quyền về hành vi này.

Cùng với việc sử dụng miễn phí, các ông lớn công nghệ cũng đang âm thầm trả tiền cho nội dung phải trả phí, dẫn đến hàng loạt những hoạt động giao dịch ngầm nhằm mua bán từ nhật ký trò chuyện đến ảnh cá nhân bị lãng quên từ lâu trên các ứng dụng mạng xã hội đã lỗi thời.

Bên trong cuộc đua ngầm mua dữ liệu đào tạo AI của Big Tech - Ảnh 3.

Những công cụ như ChatGPT cần được đào tạo qua một lượng dữ liệu khổng lồ

Edward Klaris từ công ty luật Klaris Law, cho biết, đang có làn sóng tìm kiếm những chủ nhân có bản quyền của những nội dung riêng tư. Công ty này cho biết họ đang tư vấn cho chủ sở hữu nội dung về các giao dịch trị giá hàng chục triệu USD để cấp phép tiếp cận kho lưu trữ ảnh, phim và sách nhằm đào tạo AI.

Reuters cho hay, OpenAI, Google, Meta, Microsoft, Apple và Amazon đều từ chối bình luận chủ đề này trong đó, Microsoft và Google đã cung cấp thêm thông tin về các quy tắc ứng xử của nhà cung cấp bao gồm các điều khoản về quyền riêng tư dữ liệu.

Google nói thêm rằng tập đoàn sẽ "có hành động ngay lập tức, bao gồm cả việc chấm dứt" thỏa thuận với nhà cung cấp nếu phát hiện ra hành vi vi phạm.

Nhiều công ty nghiên cứu thị trường lớn cho biết họ thậm chí còn chưa bắt đầu ước tính quy mô của thị trường dữ liệu AI không rõ ràng, nơi các công ty thường không tiết lộ các thỏa thuận chi tiết. 

Một công ty nghiên cứu là Business Research Insights, ước tính thị trường hiện ở mức khoảng 2,5 tỷ USD và dự đoán nó có thể tăng gần 30 tỷ USD trong vòng một thập kỷ.

Rò rỉ dữ liệu cá nhân của 73 triệu tài khoản di động ở Mỹ Rò rỉ dữ liệu cá nhân của 73 triệu tài khoản di động ở Mỹ

VTV.vn - AT&T Inc. cho biết dữ liệu cá nhân của khoảng 73 triệu tài khoản di động của công ty này đã bị rò rỉ trên một trang web đen ở Mỹ.

* Mời quý độc giả theo dõi các chương trình đã phát sóng của Đài Truyền hình Việt Nam trên TV OnlineVTVGo!

TIN MỚI

    X

    ĐANG PHÁT

    Bản tin thời tiết chào buổi sáng 3 phút trước