Hình minh họa. (Ảnh: breakingisraelnews.com)
Phương pháp trên được gọi là công cụ trích dẫn đa ngôn ngữ (MUSE), đã được thử nghiệm với 9 ngôn ngữ khác nhau gồm tiếng Trung, Anh, Hebrew, Arab, Ba Tư, Nga, Đức, Pháp và Tây Ban Nha. Bản tóm tắt tự động bằng công cụ mới khá giống văn bản tóm tắt do con người thực hiện.
Việc gia tăng số lượng các văn bản trực tuyến dẫn đến sự cần thiết phát triển các phương pháp tự động tóm tắt các file văn bản như các bài báo, các bải phỏng vấn, để phục vụ việc xử lý tiếp theo. Cùng với đó, thời gian để đọc lượng lớn văn bản cũng cần được rút ngắn, vì vậy, các phương pháp tự động là cần thiết để tổng hợp các văn bản này.
Hầu hết các phương pháp tự động hiện nay phụ thuộc vào ngôn ngữ và các thuật toán đã được lập trình đã trải qua quá trình thử nghiệm trên rất nhiều văn bản. Phương pháp mới cung cấp các bản tóm tắt bằng nhiều ngôn ngữ khác nhau, dựa trên thuật toán phân loại các câu trong một văn bản, sử dụng các đặc tính thống kê của các câu viết đó. Cách phân loại này có thể thực hiện đối với các câu viết trong bất kỳ ngôn ngữ nào, sau đó rút ra các câu quan trọng thành một bản tóm tắt.
Các nhà nghiên cứu đánh giá công cụ mới sẽ là phần bổ sung có giá trị, giúp người sử dụng hưởng lợi ích từ một lượng lớn các tài liệu sẵn có trên mạng Internet.
* Mời quý độc giả theo dõi các chương trình đã phát sóng của Đài Truyền hình Việt Nam trên TV Online!