Hệ thống thị giác máy tính do UCLA phát triển có thể xác định các đối tượng chỉ bằng cái nhìn thoáng qua
Các nhà nghiên cứu từ trường kỹ thuật UCLA Samueli và Stanford mới đây đã giới thiệu hệ thống máy tính có thể phát hiện và xác định các vật thể thông qua việc "nhìn" vật thể trực quan giống như con người.
Hệ thống là một sự phát triển của công nghệ mang tên "thị giác máy tính", công nghệ cho phép máy tính đọc và định hình các hình ảnh trực quan. Hệ thống được coi là bước tiến quan trọng trong việc nghiên cứu và phát triển trí tuệ nhân tạo (AI), giúp các hệ thống máy tính có thể tự học, tự quan sát và tự đưa ra quyết định giống như con người
Hệ thống thị giác máy tính dành cho trí tuệ nhân tạo hiện được thiết kế và lập trình riêng cho những nhiệm vụ nhất định do khả năng xác định vật thể của các hệ thống bị giới hạn và phụ thuộc vào dữ liệu đầu vào cũng như cách lập trình của con người. Thậm chí, các hệ thống tốt nhất hiện nay cũng chưa thể tạo ra phác hoạ đầy đủ một vật thể nếu chỉ nhìn thấy một vài bộ phận hay phần nhất định của vật thể. Ngoài ra, các hệ thống có thể dễ dàng bị đánh lừa nếu xem xét đối tượng trong một khung cảnh khác lạ.
Các hệ thống thị giác máy tính hiện tại không được thiết kế để tự học. Chúng cần được chỉ dẫn và đào tạo chính xác về vật thể, thông thường bằng cách xem xét hàng ngàn hình ảnh được lựa chọn sẵn, trong có chứa các đối tượng chúng cần xác định.
Cách tiếp cận một vật thể của các hệ thống thị giác máy tính thông thường bao gồm 3 bước:
- Bước 1: Hệ thống chia nhỏ một hình ảnh thành nhiều điểm ảnh, hay còn gọi là thiết lập "khung nhìn".
- Bước 2: Máy tính tìm hiểu cách các ô điểm ảnh này lắp ghép với nhau để tạo thành đối tượng cần xác định.
- Bước 3: Máy tính xem xét các điểm ảnh chứa các phần còn lại trong bức ảnh và quyết định xem liệu các điểm ảnh đó có liên quan đến việc mô tả và xác định đối tượng chính hay không.
Tuy nhiên, phương pháp trên lộ rõ những thiếu sót trong việc quan sát các vật thể. Các kỹ sư đang hướng tới việc nâng cấp hệ thống máy tính đạt tới khả năng nhận biết giống con người hơn. Ví dụ, dù chỉ nhìn thấy chân sau và cái đuôi, chúng ta vẫn dễ dàng phác hoạ được phần đầu và thân đã bị che khuất của một chú cún đang nấp sau ghế.
Tiếc thay, các hệ thống AI hiện tại chưa thể thực hiện được khả năng này. Để giúp hệ thống mới "học" và bắt chước giống con người hơn, các kỹ sư đã quyết định đưa hệ thống này vào môi trường giả lập trên Internet.
Vwani Roychowdhury, giáo sư ngành kỹ thuật điện và máy tính tại UCLA, một trong những thành viên chính của nghiên cứu chia sẻ: "Điều may mắn là Internet cung cấp hai yếu tố quan trọng giúp hệ thống thị giác máy tính phát triển. Thứ nhất, Internet cung cấp vô vàn hình ảnh và video mô tả các vật thể. Thứ hai, các vật thể được chụp và ghi lại từ nhiều góc độ, giúp tạo dựng các khung cảnh bị che khuất, góc quay từ trên cao, góc cận cảnh".
Để phát triển thư viện này, các nhà nghiên cứu đã đúc rút kiến thức từ cả ngành tâm lý học nhận thức và khoa học thần kinh. Roychowdhury nói thêm: "Từ khi còn nhỏ, chúng ta học được những điều mới là bởi chúng ta đã thấy rất nhiều ví dụ đa dạng, đặt trong nhiều bối cảnh của sự vật. Việc học theo ngữ cảnh là một tính năng chính của bộ não con người, giúp chúng ta không những nhận biết được vật thể mà còn thấy rõ mối liên kết giữa vật thể với các sự vật khác trong thế giới quan".
Các nhà nghiên cứu đã thử nghiệm hệ thống với khoảng 9.000 hình ảnh, bao gồm cả hình ảnh của con người và các vật thể khác. Hệ thống đã có thể xây dựng một mô hình chi tiết về cơ thể người mà không cần hướng dẫn từ bên ngoài cũng như không có những hình ảnh được chọn lọc, đánh dấu sẵn như trước.
Các kỹ sư cũng đã tiến hành thành công một thử nghiệm tương tự bằng cách sử dụng hình ảnh của xe máy, ô tô và máy bay. Trong mọi trường hợp, hệ thống của họ hoạt động tốt hơn hoặc ít nhất bằng với các hệ thống thị giác máy tính truyền thống khác.
* Mời quý độc giả theo dõi các chương trình đã phát sóng của Đài Truyền hình Việt Nam trên TV Online!