ChatGPT Images 2.0 cải thiện mạnh khả năng tạo chữ trong ảnh

VTV.vn - ChatGPT Images 2.0 gây chú ý khi có thể tạo hình ảnh chứa văn bản rõ ràng, khắc phục hạn chế lâu nay của các mô hình AI tạo ảnh.

Hình minh họa về công nghệ tạo ảnh AI. (Ảnh: Bryce Durbin/TechCrunch)

Hình minh họa về công nghệ tạo ảnh AI. (Ảnh: Bryce Durbin/TechCrunch)

ChatGPT Images 2.0 - mô hình tạo ảnh mới của OpenAI - đang cho thấy bước tiến rõ rệt trong khả năng hiển thị chữ trong hình ảnh, một điểm yếu kéo dài của công nghệ AI trước đây.

Chỉ cách đây khoảng 2 năm, việc phân biệt hình ảnh do con người tạo ra và hình ảnh do AI tạo ra khá dễ dàng, khi các mô hình thường mắc lỗi chính tả nghiêm trọng. Ví dụ, khi tạo thực đơn món Mexico, AI có thể sinh ra những từ vô nghĩa như “enchuita”, “churiros” hay “burrto”.

Tuy nhiên, với ChatGPT Images 2.0, khi được yêu cầu tạo một thực đơn món Mexico, hệ thống có thể tạo ra nội dung gần như hoàn chỉnh, đủ để sử dụng trong thực tế mà người dùng khó nhận ra sự khác biệt.

Trước đây, các mô hình tạo ảnh chủ yếu dựa trên phương pháp diffusion - tái tạo hình ảnh từ nhiễu - nên gặp khó khăn trong việc hiển thị chữ, do văn bản chỉ chiếm một phần rất nhỏ trong tổng số điểm ảnh. Điều này khiến AI khó học được các quy luật liên quan đến chữ viết.

Gần đây, các nhà nghiên cứu đã thử nghiệm những cách tiếp cận mới như mô hình tự hồi quy (autoregressive), hoạt động tương tự các mô hình ngôn ngữ lớn (LLM), giúp cải thiện khả năng dự đoán và hiển thị nội dung trong ảnh. Tuy nhiên, OpenAI chưa tiết lộ cụ thể công nghệ đứng sau Images 2.0.

ChatGPT Images 2.0 cải thiện mạnh khả năng tạo chữ trong ảnh - Ảnh 1.

(Ảnh: ChatGPT Images 2.0)

Theo OpenAI, mô hình mới được trang bị “khả năng suy luận”, cho phép tìm kiếm thông tin trên web, tạo nhiều hình ảnh từ một yêu cầu và tự kiểm tra lại kết quả. Nhờ đó, Images 2.0 có thể tạo các sản phẩm như tài liệu marketing, tranh truyện nhiều khung hoặc hình ảnh có bố cục phức tạp.

Ngoài ra, mô hình cũng cải thiện khả năng hiển thị chữ không phải Latin như tiếng Nhật, Hàn, Hindi và Bengali. Tuy nhiên, dữ liệu của hệ thống chỉ được cập nhật đến tháng 12/2025, nên có thể ảnh hưởng đến độ chính xác khi tạo nội dung liên quan đến các sự kiện gần đây.

OpenAI cho biết Images 2.0 có thể tạo hình ảnh với độ chi tiết cao, tuân thủ tốt yêu cầu đầu vào, xử lý tốt các yếu tố nhỏ như chữ, biểu tượng, giao diện người dùng và phong cách hình ảnh, với độ phân giải lên tới 2K.

Dù việc tạo ảnh phức tạp có thể mất nhiều thời gian hơn so với việc trả lời văn bản, nhưng các tác vụ như tạo truyện tranh nhiều khung vẫn chỉ mất vài phút để hoàn thành.

OpenAI dự kiến cung cấp Images 2.0 cho tất cả người dùng ChatGPT và Codex từ ngày thứ Ba, trong khi người dùng trả phí sẽ có quyền truy cập các tính năng nâng cao hơn. Đồng thời, công ty cũng mở API gpt-image-2 với mức giá phụ thuộc vào chất lượng và độ phân giải hình ảnh.

Tin liên quan

Bạn cần đăng nhập để thực hiện chức năng này!

Bình luận không đăng nhập

Bạn không thể gửi bình luận liên tục.
Xin hãy đợi 60 giây nữa.