TV& VIDEO

Ứng dụng trí tuệ nhân tạo trong công nghiệp media và giải trí (Phần 2)

Trần Dũng Trình - Nguyên Phó TGĐ Đài THVNCập nhật 10:16 ngày 26/03/2018

VTV.vn - Trí tuệ nhân tạo và ứng dụng của nó trong công nghiệp media và giải trí vẫn còn là những khái niệm khá mới mẻ. Trí tuệ nhân tạo đang làm thay đổi như thế nào?

Trí tuệ nhân tạo trong media và giải trí

Khi xem xét các khối lượng rất lớn data xung quanh mỗi nhu cầu con người chúng ta cần để tiêu thụ media, trí tuệ nhân tạo ở tư thế sẵn sàng để có tác động lớn trong lĩnh vực này.

Cơ sở: Metadata

AI có được sức mạnh là bởi data. Thường điều này có nghĩa là Big Data, nhưng khi nói tới việc tối ưu hóa các dòng làm việc media và giải trí, thì dữ liệu chính xác hơn về những tài sản cụ thể đó chính là metadata. Metadata có thể bao gồm một mẩu thông tin bất kỳ về một tài sản riêng biệt. Ví dụ, metadata cho video có thể chứa: Sự phân phối các vai diễn (cast) và toàn bộ đội (crew), Format, Các vị trí quay, Các thuật ngữ bản quyền, Mô tả, Các timecode cảnh, Các thông tin tập (series)/đoạn(episode), Thông tin sự kiện …

Một mẩu thông tin bất kỳ, có thể được tạo ra về một tài sản cụ thể, có thể được lưu như metadata. Và khi bạn có nhiều metadata hơn, nhiều AI hơn có thể tối ưu tài sản và cực đại hóa sự hoàn vốn đầu tư (ROI) của nó.

Tự động hóa cách mà metadata được nắm bắt (capture)

Hãy hình dung rất nhiều tờ khai báo đặc điểm kỹ thuật đang được dùng kết hợp cho việc nhập dữ liệu thủ công, hoặc đội quân đang sao chép các video. Nắm bắt và nhập metadata có truyền thống dựa trên loại đầu vào thủ công nặng nề này. Thường để có một giờ nội dung thì phải mất bốn giờ lao động thủ công để capture và nhập metadata cho tài sản đó. Điều này đang thay đổi nhờ việc tạo metadata tự động dựa trên nền tảng của nhiều công ty, ví dụ như giải pháp của Microsoft và Ooyala như trình bày dưới đây.

Các nền tảng (platform) như Microsoft Azure Cognitive Services đang đi đầu trong việc sao chép tiên tiến và nhận dạng bộ mặt, đối tượng và text để tạo ra (capture) metadata chính yếu một cách tự động. Chắc chắn công nghệ này sẽ được sử dụng để ingest nội dung VOD và lưu trữ metadata xung quanh nó, nhưng ví dụ thời gian thực thú vị hơn khi xảy ra trong các sự kiện trực tiếp, ở đó chương trình AI có thể nhận dạng ngay tức khắc điểm dữ liệu (datapoint) chính và hành động trên nó trong trình tự rất ngắn. Ví dụ, nếu một diễn viên ngôi sao của phim xuất hiện trong đám đông ở một trận đấu bóng rổ, AI có thể kéo clip phim thông dụng nhất của ngôi sao đó, kiểm tra bản quyền và chuẩn bị cho phát sóng … tất cả trong vài phút, nếu không nói là vài giây.

Ứng dụng trí tuệ nhân tạo trong công nghiệp media và giải trí (Phần 2) - Ảnh 1.

Microsoft Video Indexer

Quản lý và tận dụng dữ liệu

Việc cài đặt nền tảng cho tạo và quản lý dữ liệu hợp lý là điều quan trọng. Điều này bắt đầu với engine nắm bắt dữ liệu như Microsoft Video Indexer của công ty Microsoft và Ooyala Flex của công ty Ooyala

Chìa khóa ở đây là tự động hóa. Ngay khi bạn có dữ liệu, Ooyala Flex có thể giúp đỡ tổ chức bạn cấu trúc dữ liệu tiên tiến khi mô hình hóa các cơ cấu làm việc (framework) để cài đặt các quan hệ và các quy tắc dòng làm việc, những cái cho phép đơn giản hóa và làm hiệu quả quá trình ra quyết định phức tạp. Các nhiệm vụ đã từng là phức tạp có thể được hợp lý hóa và các quyết định được ra hiệu quả hơn nhiều, thậm chí thường là tự động. Điều làm kinh ngạc hơn nhiều là cách mà mọi vật được thực hiện (run) với dữ liệu chảy tới các vị trí trúng trong cách đúng.

Hiện tại Ooyala đang làm việc trực tiếp với Microsoft Azure Cognitive Services để nắm bắt metadata chính như bản sao (transcript) audio, dữ liệu kkuôn mặt, đối tượng và nhận ra text. Dữ liệu này được capture bởi công nghệ Microsoft Video Indexer và chuyển sang Ooyala Flex cho lưu trữ và quản lý.

Ngay khi có mặt trong Ooyala Flex, các giá trị dữ liệu quan trọng này có thể được sử dụng để di chuyển tài sản dọc chu trình sống sản xuất và phân bố sao cho hiệu quả nhất có thể. Các nhiệm vụ được thực hiện nhanh hơn, các câu hỏi công việc được trả lời hiệu quả hơn và giá thành được giảm thiểu. Đó là tương lai của cung ứng dịch vụ media.

MỘT TRƯỜNG HỢP THỰC TẾ

ZoneTV đang dùng các công cụ cung ứng dịch vụ media từ Ooyala cộng với Video Indexer, một phần của Microsoft Cognitive Services, để tự động hóa việc dẫn hướng (curation) nội dung của hệ các kênh truyền hình tuyến tính, có khả năng theo yêu cầu của khách hàng, loạt đầu tiên của ZoneTV. Việc này được bắt đầu vào mùa hè năm 2017.

ZoneTV đã đăng ký bản quyền nội dung số đầu tiên (digital-first), nội dung này sẽ dẫn hướng các kênh chuyên được phân phối tới các thuê bao PayTV. Đối với người tiêu dùng, khởi đầu các kênh này sẽ xuất hiện giống như kênh tuyến tính truyền thống bất kỳ. Dịch vụ đặc biệt của ZoneTV cho phép khách hàng làm nhiều hơn, khi kết hợp (combining) những lựa chọn tuyến tính, theo yêu cầu và theo khách hàng thành một chào hàng mới gọi là "Các kênh động của ZoneTV" (ZoneTV Dynamic Channels). Khả năng của công ty dẫn hướng đồng thời 6.000 giờ video ngay lập tức trong các kênh này tạo ra trải nghiệm khác thường và nhân sự hóa cho cho khách hàng.

Nội dung trong các kênh đặc biệt này sẽ sẽ được trình diễn trong cách thân thiện với khách hàng, dễ dàng được phát hiện đối với người xem. ZoneTV sẽ thực hiện điều này khi dùng ZoneTV Programming Studio, được tích hợp với Ooyala Flex và Video Indexer để dẫn hướng các kênh chuyên được tinh chỉnh này.

Việc kết hợp các công cụ này đề cao các thuật toán tiên tiến, những thuật toán mô tả nội dung; phương thức trích và phân tích tự động metadata để nhận dạng loại video và tính chất truyền cảm của nội dung, kéo các chủ đề từ lời nói và text, sao chép các tiêu đề (caption) thành nhiều ngôn ngữ và tích hợp các phân tích thuê bao. Điều này cung cấp sự mở rộng nhanh của ZoneTV khi nó thêm vào nội dung bổ sung, và giảm các quá trình thủ công mà các quá trình đó có thể làm chậm việc dẫn hướng nội dung và đưa vào các lỗi trong sao chép và ứng dụng metadata.

Ứng dụng trí tuệ nhân tạo trong công nghiệp media và giải trí (Phần 2) - Ảnh 2.

Tạo nguồn thu (Monetization)

Chúng ta đã thấy cách mà AI có thể hợp lý hóa các quá trình để tiết kiệm giá thành. Tiếp theo là nói về cách mà thực tế nó đang giúp để tạo ra nguồn thu.

Các trải nghiệm quảng cáo nhân sự hóa

Các nhà quảng cáo biết nhiều về chúng ta. Sẽ không phải là điều xấu nếu chúng ta xem quảng cáo mà quảng cáo đó phù hợp với sở thích của mình. Nếu bạn là người yêu ôtô thì thường bạn sẽ thích xem quảng cáo về xe Audi mới hơn là xem quảng cáo về bảo hiểm nhân thọ. Nhưng AI đóng vai trò như thế nào trong nhân sự hóa quảng cáo ? Thế đấy, việc này xuất phát từ dữ liệu. Đối với các nhà quảng cáo để biết chúng ta thích cái gì, họ cần thu thập một khối lượng lớn dữ liệu qua các phương thức (platform) đang ngày càng tăng. Và cách duy nhất để sử dụng giá trị của đống dữ liệu đồ sộ này là dùng AI để ra các quyết định phức tạp, thời gian thực mà chỉ các chương trình máy tính có thể xử lý.

Cung cấp quảng cáo programmatic

Ngày càng có nhiều quảng cáo đang được cung cấp trong thời gian thực dựa trên một số yếu tố. Những điều chưa biết như bạn là ai và các sở thích đã được biết của bạn, bạn có thể xem quảng cáo khác nhau trên cơ sở phương thức hiện có của bạn cũng như thiết bị bạn đang dùng, thời gian của ngày … Tất cả các yếu tố này phải được xem xét trong thời gian thực để chọn lựa thông minh phiên bản đúng của quảng cáo, cái mà tốt nhất cho bạn ở thời điểm cụ thể đó. Nhiều thông tin phải được xử lý cực nhanh, điều mà AI có thể giúp dễ dàng trong một số cách. Ví dụ, nếu nhà quảng cáo có dữ liệu rằng bạn đang ở gần một trong những kho hàng của họ, thì dường như họ sẽ cố gắng hơn trong thời gian thực để phục vụ bạn một quảng cáo; trong khi đó nếu bạn không sống gần kho thì họ có thể không cố gắng cung cấp cho bạn bất cứ quảng cáo nào.

Tiếp thị nội dung động

Bạn đang xem một show truyền hình yêu thích của bạn và chiếc xe buýt trong show có quảng cáo Coca-Cola trên đó. Một người bạn của bạn cũng xem chính xác show đó nhưng nhìn thấy quảng cáo FedEx thay cho Coca-Cola. Điều đó có nghĩa AI đang làm việc. Công nghệ, mà công nghệ đó đang được triển khai, sẽ nhận dạng các giá trị khác nhau trong nội dung mà nội dung đó đưa các giá trị tới quảng cáo gốc (native advertising). Ngay khi ở trong kho, các giá trị quảng cáo này có thể được lập trình động để cài đặt các quảng cáo khác nhau dựa trên cơ sở khách hàng và các động lực ngữ cảnh khác. Áp dụng công nghệ này trên tất cả các nội dung và AI đã mở ra một kênh quảng cáo đại chúng mới với các ứng dụng nhắm tới mục tiêu đầy uy lực.

An toàn thương hiệu

Nếu bạn theo dõi công nghiệp quảng cáo, bạn biết an toàn thương hiệu là một thỏa thuận lớn hiện nay. Đơn giản các nhà quảng cáo không muốn thương hiệu thèm muốn của họ đi kèm với nội dung mà nội dung đó không hay như thường lệ. Google đã thực hiện các phép đo bằng cách dùng sức mạnh của AI để đảm bảo các nhà quảng cáo bậc cao không tìm thấy quảng cáo của họ ở phía trước nội dung không trong sáng, và dường như khi công nghệ tiến bộ, cùng một dạng đánh giá và báo cáo thông minh sẽ được dùng bởi tất cả các nhà xuất bản lớn và nhỏ.

Phân tích và báo cáo

Dữ liệu tăng cường sức mạnh của AI, đó là lý do tại làm sao AI phải tăng cường sức mạnh cho dữ liệu của bạn.

Báo cáo thông minh

Dữ liệu là mọi thứ! Bạn không thể có đủ nó, nhưng nó cũng khó để quản lý. Dữ liệu cũng ở khắp mọi nơi. Nó ở trên các nền tảng của bên tham gia thứ ba như Google Analytics và facebook Insights, trong các bảng tính của máy tính (spreadsheet) nội bộ … Với quá nhiều dữ liệu qua quá nhiều vị trí, điều hầu như không thể là giải mã các phân tích tinh tế mà không có sự giúp đỡ nhỏ nào. Đây là nơi mà AI có tác dụng sống còn. Hãy hình dung khi kết nối dữ liệu của bên tham gia thứ ba, bảng máy tính của bạn và các giá trị dữ liệu bất kỳ khác mà bạn có thành một chương trình mà chương trình đó xử lý thông minh tất cả và cho ra một tập các tham số rõ ràng, dễ hiểu, nói trực tiếp với các đối tác kinh doanh của bạn. Âm thanh nghe có thú vị không? Tuy chúng ta vẫn chưa ở trình độ đó, nhưng hãy chờ nhé.

Tầm nhìn áp dụng (Applied Insights)

Nếu bạn đang ra các quyết định kinh doanh dựa trên các phép đo hiệu năng và các tầm nhìn dữ liệu chính, vậy thì bạn đang trên con đường đúng. Nhưng sẽ là thế nào nếu bạn không cần phải ra các quyết định này? Sẽ thế nào nếu người khác làm cho bạn? Hãy hình dung khi hỏi AI dạng nội dung nào để sản xuất tiếp theo? Đối tác syndication nào để mở rộng? Các phương thức nào để tập trung vào, hoặc các diễn viên nào đang cung cấp ROI tốt nhất? Liệu bạn có thể hỏi máy tính các câu hỏi này và có được câu trả lời ngay lập tức và với giải thích dựa trên dữ liệu để hỗ trợ nó? Để cho rõ ràng, các quyết định giống như thế này sẽ luôn cần có sự tham gia của con người, vì có những trường hợp AI không thể hiểu thấu. Nhưng AI hùng mạnh này nhất định sẽ làm cho việc đó dễ dàng hơn!

Trí tuệ nhân tạo và học máy đưa chất lượng video lên tầm cao mới

Trí tuệ nhân tạo và học máy, cùng với học sâu và các mạng neural, đang giải quyết các thách thức OTT từ chất lượng mã hóa tới tạo phụ đề.

Từ quảng bá truyền hình đầu tiên vào năm 1928, công nghệ video đã đưa chúng ta tiến lên phía trước, từ truyền hình đen-trắng độ phân giải chuẩn (SD) tới streaming video số độ phân giải cao (HD) trên mạng (Over-The-Top: OTT) tới hàng trăm thiết bị kết nối. Theo báo cáo Visual Networking Index mới nhất của công ty Cisco, vào năm 2021 lưu lượng video sẽ chiếm 82% tất cả lưu lượng Internet, so với 73% vào năm 2013. Xa hơn nữa, CEO của Cisco, Chuck Robbins, dự đoán rằng sẽ có một triệu thiết bị được bổ sung vào mạng mỗi giờ trong năm 2020. Thách thức lớn nhất cho streaming video là cung cấp chất lượng trải nghiệm (QoE – Quality of Experience) và chất lượng dịch vụ (QoS – Quality of Service) cao nhất có thể.

Theo bài báo do giáo sư Ramesh K. Sitarman, University of Massachsetts, xuất bản gần đây, người xem bắt đầu từ bỏ xem video khi nó bị trễ sau 2 giây, với 6% không tiếp tục xem mỗi giây trễ sau đó. Các giải pháp như nhớ đệm (buffering) và tác động vào các điểm ảnh (pixelation) có thể tạo ra phản ứng tiêu cực của người xem và tổn hao nguồn thu từ các quảng cáo số. Việc streaming tốc độ bít thích nghi (Adaptice Bitrate – ABR) đang được áp dụng để giảm thiểu việc nhớ đệm bằng việc chuyển mạch tốc độ bit khi cần thiết và được đảm bảo bằng việc thay đổi băng thông. Quan niệm ABR giải quyết một phần các thách thức của streaming OTT. Nhưng ABR không thể loại bỏ hoàn toàn việc nhớ đệm lại (re-buffering) và pixelation trên các thiết bị di động cầm tay, khi xét tới các thay đổi động về vị trí và tính kết nối của người sử dụng mobile – các biện pháp khắc phục bổ sung là cần thiết để làm cho nhớ đệm lại trở thành một việc của quá khứ. Cũng như vậy, các rắc rối bổ sung như cuộn nhanh (fast-forward) và cuộn lại (rewind) thường dẫn tới đóng băng hình ảnh, tạo ra phản ứng tiêu cực của người dùng.

Các câu trả lời với các thách thức này được ẩn giấu trong các khái niệm công nghệ mới hơn của trí tuệ nhân tạo và học máy. Phòng thí nghiệm khoa học máy tính và trí tuệ nhân tạo của Đại học MIT, Hoa Kỳ, đã phát triển Mạng neural Pensieve (Pensieve neural Network), một hệ thống AI dùng học máy để chọn ra các thuật toán khác nhau hiện có, như các thuật toán dựa trên tốc độ (rate-based algorithms), các thuật toán dựa trên bộ nhớ đệm (buffer-based algorithms) phụ thuộc vào các điều kiện mạng. Mạng neural Pensieve dự đoán sớm các vấn đề kết nối và điều chỉnh có tính dự đoán độ phân giải streaming để tạo ra bộ nhớ đệm playback (playback buffer) đủ cho trải nghiệm người dùng tự do khỏi bộ nhớ đệm (buffer-free user experience). Thực tế phương pháp này không loại bỏ hoàn toàn việc nhớ đệm, nhưng sẽ giúp bộ nhớ đệm giảm việc nhớ đệm và đưa chúng ta một bước tiến gần hơn tới streaming video không phụ thuộc vào nhớ đệm. Trải nghiệm thực địa khi dùng mạng neural pensieve cho kết quả giảm tới hơn 30% việc nhớ đệm lại và làm tăng chất lượng trải nghiệm (QoE) chủ yếu tới 25%. Hiển nhiên, luôn có thể đạt tới các cải thiện tiếp theo khi có sẵn các dữ liệu toàn diện để đào tạo mạng neural Pensieve.

Việc streaming video cũng có thể được lợi từ các tiên tiến trong công nghệ học máy. YouTube và Netflix dùng học máy để tối ưu hóa động các thông số mã hóa. Việc này không chỉ tăng QoE và QoS của người sử dụng mà cũng giảm số bit cần thiết với cùng một chất lượng. Việc tối ưu hóa mã hóa khi dùng học máy cũng có thể giúp tối ưu hóa giá thành dưới dạng dùng băng thông ít hơn. Trong trường hợp của YouTube, các mạng neural được sử dụng để dự đoán động mức lượng tử mã hóa video, điều này có thể tạo ra tốc độ bit nhắm tới và thực hiện hiệu năng của việc mã hóa kép trong mã hóa đơn. Kết quả là nó sẽ giảm độ trễ video tổng thể và các giá thành mã hóa.

Tính sẵn sàng để dùng của các thiết bị kết nối – từ di động cầm tay tới các TV màn hình lớn – đang tạo ra nhiều thách thức, vì các kích thước màn khác nhau có thể tạo sự khác nhau to lớn trong chất lượng video thụ cảm. Các mô hình mã hóa tĩnh là không giá thành-hiệu quả, khi xét rằng chúng không lấy kích thước màn hình và độ phức tạp của màn hình để tính toán. Các thuật toán học máy có thể được sử dụng để thực hiện mã hóa "ý thức nội dung" (content-aware encoding), dựa trên chất lượng video thụ cảm. Các thuật toán này có thể quyết định các thông số mã hóa dựa trên kích thước màn hình và chất lượng thụ cảm mục tiêu nhắm tới kích thước màn hình cụ thể đó. Ví dụ, để thực hiện cùng một chất lượng thụ cảm trên hai màn hình kích thước khác nhau, số bit cần thiết có thể là ít hơn nhiều cho một màn hình so với màn hình kia. Học máy có thể giúp chúng ta thực hiện điều này ngay tức thì, dẫn tới giảm tiêu thụ băng thông và tiết kiệm giá thành.

Trí tuệ nhân tạo và học máy có thể cung cấp các giải pháp hiệu quả đối với các thách thức lâu dài của việc phát hiện động sự không đồng bộ lời nói và hình ảnh (lip sync) và các vấn đề đồng bộ chữ viết, phụ đề hay thuyết minh (closed caption - CC) với hình ảnh trên màn, những vấn đề mà nếu khác đi đòi hỏi phải chăm chú nhìn để phát hiện hoặc dùng các phương pháp xâm nhập như cài dấu nước (watermark) hoặc dấu vân tay (fingerprint) vào video baseband (SDI) hay audio. Các thực nghiệm do khoa Khoa học máy tính của đại học Oxford thực hiện khi dùng hệ thống trí tuệ nhân tạo có tên gọi Lipnet đã xác định hệ thống có thể nhận dạng các từ với độ chính xác 93.4%, so với 52.3% do các chuyên gia thực hiện. Mộ thử nghiệm tương tự do Google Deepmind project thực hiện công bố rằng AI dễ dàng làm tốt hơn những người đọc theo cách máy môi (lip-reader) chuyên nghiệp khi cố gắng giải mã (decipher) 100 clip ngẫu nhiên của tệp dữ liệu. AI đã giải mã thành công 46.8% tất cả các từ trong khi đối với các lip-reader chuyên nghiệp con số này là 12.4%. Nhiều sản phẩm dùng AI và học máy để phát hiện lipsync và các vấn đề đồng bộ chữ viết CC đang có mặt trên thị trường. Một sản phẩm như vậy là Lipsync của công ty Multicoreware Inc. Sản phẩm này dùng AI và học sâu để theo dõi sự di chuyển của môi để đo đồng bộ video-audio.

Khi chúng ta bước vào trí tuệ nhân tạo, các quan niệm và các lý thuyết mới đang xuất hiện để tối ưu hóa việc tạo, chuẩn bị, phân phối, an ninh và trình diễn nội dung. Ví dụ, việc thực hiện Deep Neural Networks có tác động khổng lồ tới hệ thống khuyến cáo video của YouTube. Thậm chí hứa hẹn hơn đó là các mạng trực giác cao (highly intuitive networks) dựa trên trí tuệ nhân tạo và học máy, điều này sẽ có tác động tích cực, vô cùng to lớn tới việc streaming video, định hướng việc áp dụng và phát triển nó, và tăng cường an ninh nội dung.

(Theo vtv.net)