Sora - "bầu trời mới" của OpenAI
Sora là một bước tiến lớn của OpenAI khi cho phép chuyển thể từ văn bản thành hình ảnh với chất lượng đáng kinh ngạc.
Trong tiếng Nhật, "Sora" có nghĩa là bầu trời. Nhóm nghiên cứu đứng sau công nghệ này chọn tên Sora bởi nó gợi lên ý tưởng về tiềm năng sáng tạo không giới hạn.
Sora có khả năng sáng tạo hoạt cảnh gồm nhiều nhân vật, chuyển động với bối cảnh chi tiết. Công cụ này không chỉ hiểu những gợi ý trong câu lệnh mà cả cách nó biểu hiện trong thực tế. Theo đánh giá, Sora có khả năng làm tăng tốc độ làm việc của các nhà làm phim, đồng thời thay thế hoàn toàn những kỹ sư đồ họa ít kinh nghiệm.
Sora không phải chương trình AI duy nhất chuyển thể thành công từ văn bản thành hình ảnh. Trong suốt 1 năm qua, đã có khá nhiều các phần mềm khác cũng chung một chức năng. Các sản phẩm do công nghệ AI tạo ra ngày càng hoàn thiện và giống như thật.
Công nghệ vượt trội đứng sau Sora
Để sản xuất ra các video trông như thật, Sora phải có khả năng hiểu được ngôn từ, các yêu cầu, mệnh lệnh của người dùng. Nhưng không chỉ dừng ở đó, Sora còn phải hiểu được quy tắc vật lý, mọi vật chuyển động như thế nào, ánh sáng, bóng tối sẽ thay đổi ra sao khi nhân vật đi lại, chuyển động.
Ví dụ, mệnh lệnh đặt ra là một cô gái đi giữa đường phố đêm ở Tokyo. Và sản phẩm mà Sora tạo ra khá hoàn hảo. Nếu không tinh mắt, ta sẽ không thể soi ra được những khuyết điểm nho nhỏ của video.
Video giống thực tế tới 99% với độ sinh động của những ánh đèn đường hắt bóng qua những vũng nước mưa dưới đất. Đây là những thứ không có trong mệnh lệnh mà tự AI hiểu được quy tắc vật lý của thế giới thực và tự vẽ ra.
Theo trang AI news, công nghệ phía sau Sora có một phần là GPT-4. Đây là một mô hình đa phương thức lớn có thể xử lý đầu vào văn bản và hình ảnh. GPT-4 cập nhật mô hình ngôn ngữ lớn của OpenAI, được đào tạo trên lượng lớn dữ liệu trực tuyến để tạo phản hồi phức tạp cho các truy vấn của người dùng.
Phần còn lại của Sora là là mô hình khuếch tán, biến nhiễu tĩnh thành một video mạch lạc bằng cách giảm dần độ nhiễu đó qua nhiều bước. Sora cũng sử dụng công nghệ tương tự như Dalle-3: Biến văn bản thành hình ảnh, ở đây là những video giống thật đến khó tin.
AI sẽ tác động thế nào tới lĩnh vực sáng tạo?
Những người làm về mặt hình ảnh, quay phim, thiết kế đồ hoạ rất quan tâm tới sự phát triển của AI. Tại Hollywood, kinh đô điện ảnh thế giới, các chuyên gia đã đo đạc được tác động của AI.
Theo báo cáo, 21,4 % các nhà làm phim, truyền hình và hoạt hình tại Hollywood dự đoán sẽ bị thay thế bởi AI vào năm 2026.
Hè năm ngoái, Netflix đã bắt đầu tuyển dụng cho vị trí quản lý sản phẩm AI với mức lương ngất ngưởng, từ 300.000 - 900.000 USD, cao gấp hàng chục lần lương của một diễn viên bình thường không nổi tiếng.
Lo ngại về sự phát triển vượt tầm kiểm soát của AI
Xu hướng trí tuệ nhân tạo được ví như một cơn sóng lớn. Nếu bạn học cách lướt sóng để luôn luôn đứng trên đầu ngọn sóng, khả năng cao là bạn và công việc, vị trí của bạn sẽ an toàn, thậm chí còn thăng hoa hơn.
Tuy nhiên, đi kèm với thời cơ luôn luôn có cả những nguy cơ. Những chương trình trí tuệ nhân tạo siêu việt này cũng gây ra những rủi ro. Và với sự phát triển vượt sức tưởng tượng của AI, những rủi ro này lại càng đáng quan ngại hơn.
Theo Tiến sĩ Trần Văn Cảnh, nhà hoa khoc dữ liệu thuộc Khoa Công nghệ thông tin, trường Đại học Heidelberg, Đức, dù mô hình Sora hiện tại còn nhiều thiếu sót như nhầm lẫn bên trái và bên phải hoặc không duy trì được hình ảnh liên tục trong suốt thời lượng của video, tuy nhiên, nguy cơ Sora tạo ra thông tin sai lệch là hoàn toàn có thể, khiến việc xác định đâu là sự thật trên Internet càng trở nên khó khăn hơn.
"Với ứng dụng Sora, việc phân biệt tin thật giả là rất khó khăn vì các video do Sora tạo ra có tính chân thực rất cao. Bản thân OpenAI đang tìm ra các giải pháp hạn chế, tuy nhiên, chúng ta phải chấp nhận rằng, không có giải pháp nào triệt để cả. Sắp tới, ứng dụng sẽ cho phép người sử dụng cung cấp hình ảnh, văn bản để từ đó tạo ra video mới, như vậy các phát biểu của các nhân vật có ảnh hưởng trên thế giới có thể bị làm giả rất dễ dàng, gây ra hệ lụy lớn với công chúng" - Tiến sĩ Trần Văn Cảnh nhận định.
Trước Sora, OpenAI đã phát hành 2 sản phẩm, bao gồm ChatGPT có thể tạo văn bản giống như con người và công nghệ DALL-E tạo nên "Deepfake" - kỹ thuật sử dụng AI để tạo ra âm thanh, hình ảnh và video giả mạo. Rất nhiều người đã bị biến thành nạn nhân của Deepfake, từ Giáo hoàng, cựu Tổng thống Mỹ Donald Trump hay mới đây là vụ việc ngôi sao nhạc pop Taylor Swift bị ghép mặt để tạo ra hình ảnh khiêu dâm giả mạo.
"Trên thực tế, OpenAI là một công ty đi tiên phong trong công nghệ GenAI. Họ có một đội ngũ nhà khoa học rất xuất sắc. Kinh phí mà họ đầu tư vào cho các mô hình AI và nhân sự con người cũng như học máy là rất lớn nên các sản phẩm OpenAI tạo ra có độ chân thực rất cao" - Tiến sĩ Trần Văn Cảnh cho biết.
Điều này cho thấy, sự phát triển của AI mang lại cả tính tích cực lẫn tiêu cực trong dòng chảy không ngừng của Internet. Và với sự xuất hiện của Sora, dự báo cuộc đua công nghệ sẽ trở nên nóng hơn bao giờ hết. Hiện tại, các công ty công nghệ lớn như Meta, Google và Runway AI cũng đang nghiên cứu và phát triển công nghệ AI tạo video từ văn bản và đã công bố một số mô hình tương tự.
* Mời quý độc giả theo dõi các chương trình đã phát sóng của Đài Truyền hình Việt Nam trên TV Online và VTVGo!