Google ra mắt công cụ dịch giọng nói tức thời bằng AI

VTV.vn - Google công bố Gemini 3.5 Live Translate, công cụ dịch giọng nói theo thời gian thực, hỗ trợ hơn 70 ngôn ngữ và giữ được sắc thái giọng của người nói.

(Ảnh: Aurich Lawson)

(Ảnh: Aurich Lawson)

Google vừa công bố Gemini 3.5 Live Translate, mô hình trí tuệ nhân tạo mới có khả năng dịch trực tiếp từ giọng nói sang giọng nói. Công cụ này được thiết kế để hỗ trợ hội thoại theo thời gian thực, với độ trễ thấp hơn và có thể sử dụng trên nhiều dịch vụ của Google.

Trong nhiều năm qua, Google đã theo đuổi công nghệ dịch tức thời. Trước đây, người dùng thường cần điện thoại Pixel, tai nghe Pixel Buds hoặc một số thiết bị nhất định để sử dụng các tính năng dịch trực tiếp. Với Gemini 3.5 Live Translate, Google muốn mở rộng khả năng này tới nhiều người dùng hơn.

Theo Google, công cụ mới có thể tự nhận diện và dịch hơn 70 ngôn ngữ. Hệ thống hoạt động gần như song song với cuộc trò chuyện, chỉ chậm hơn người nói vài giây. Điểm đáng chú ý là bản dịch không chỉ chuyển nội dung lời nói mà còn cố gắng giữ nhịp nói, ngữ điệu và cao độ giọng, giúp âm thanh tự nhiên hơn so với giọng máy thông thường.

Gemini 3.5 Live Translate là một phần trong dòng mô hình Gemini 3.5 được Google giới thiệu tại sự kiện I/O. Trước đó, hãng mới triển khai phiên bản Flash và dự kiến tiếp tục ra mắt bản Pro trong thời gian tới.

Công cụ dịch mới sẽ được đưa vào nhiều sản phẩm trong hệ sinh thái Google. Các nhà phát triển có thể thử nghiệm thông qua Gemini Live API hoặc AI Studio. Mô hình này có thể xử lý giọng nói liên tục, tự nhận diện nhiều ngôn ngữ và lọc bớt tiếng ồn nền trong môi trường đông người.

Một số khách hàng doanh nghiệp cũng sẽ được dùng tính năng dịch trực tiếp mới trên Google Meet từ tháng này, trước khi Google triển khai rộng rãi hơn. Hãng cho biết sẽ điều chỉnh giao diện Google Meet để người dùng dễ truy cập tính năng dịch theo thời gian thực.

Gemini 3.5 Live Translate cũng sẽ sớm có mặt trên ứng dụng Google Translate cho cả Android và iOS. Người dùng có thể sử dụng tính năng này với tai nghe bất kỳ hoặc không cần tai nghe. Trên Android, người dùng có thể đưa điện thoại lên tai như khi gọi điện để nghe bản dịch.

Để hạn chế nguy cơ lạm dụng, Google cho biết mọi luồng âm thanh do Gemini 3.5 Live Translate tạo ra sẽ được gắn dấu nhận diện SynthID. Dấu này cho biết âm thanh được tạo bởi AI và hiện chưa có cách gỡ bỏ.

Tin liên quan

Bạn cần đăng nhập để thực hiện chức năng này!

Bình luận không đăng nhập

Bạn không thể gửi bình luận liên tục.
Xin hãy đợi 60 giây nữa.