AI học trực giác vật lý như trẻ sơ sinh

Hãy tưởng tượng một thí nghiệm đơn giản dành cho trẻ sơ sinh: bạn đặt một cốc nước lên bàn, sau đó che nó bằng một tấm ván gỗ. Khi bạn di chuyển tấm ván, nếu nó đi xuyên qua vị trí của cốc nước như thể không có gì ở đó, liệu đứa trẻ có ngạc nhiên không? Nhiều em bé 6 tháng tuổi đã thể hiện sự bất ngờ, và đến 1 tuổi, hầu hết trẻ em đều có một khái niệm trực quan về sự tồn tại của vật thể (object permanence) được học qua quan sát. Điều đáng kinh ngạc là giờ đây, một số mô hình trí tuệ nhân tạo cũng đang bắt đầu thể hiện khả năng tương tự.

Các nhà nghiên cứu đã phát triển một hệ thống AI có khả năng học hỏi về thế giới thông qua các video và thể hiện sự “ngạc nhiên” khi được cung cấp thông tin đi ngược lại với kiến thức mà nó đã thu thập được. Mô hình này, được tạo ra bởi Meta và có tên là Video Joint Embedding Predictive Architecture (V-JEPA), không hề được lập trình sẵn bất kỳ giả định nào về các quy luật vật lý của thế giới trong video. Tuy nhiên, nó vẫn có thể bắt đầu hiểu được cách thế giới vận hành. Đây là một bước tiến quan trọng, mở ra cánh cửa cho những hệ thống AI có khả năng nhận thức và tương tác với môi trường một cách sâu sắc và tự nhiên hơn, giống như cách chúng ta học hỏi từ khi còn nhỏ.

Vượt qua giới hạn không gian pixel: V-JEPA học cách nhìn thế giới

Như các kỹ sư chế tạo xe tự lái đều biết, việc khiến một hệ thống AI hiểu được những gì nó nhìn thấy một cách đáng tin cậy là một thách thức lớn. Hầu hết các hệ thống được thiết kế để “hiểu” video – nhằm phân loại nội dung (ví dụ: “một người đang chơi tennis”) hoặc xác định đường nét của một vật thể (ví dụ: một chiếc ô tô phía trước) – đều hoạt động trong “không gian pixel”. Mô hình này về cơ bản coi mọi pixel trong video có tầm quan trọng như nhau. Tuy nhiên, các mô hình dựa trên không gian pixel này có nhiều hạn chế. Hãy hình dung việc cố gắng hiểu một con phố ngoại ô: nếu cảnh có ô tô, đèn giao thông và cây cối, mô hình có thể tập trung quá nhiều vào các chi tiết không liên quan như chuyển động của lá cây mà bỏ lỡ màu sắc của đèn giao thông hoặc vị trí của các xe gần đó.

Kiến trúc V-JEPA, ra mắt vào năm 2024, được thiết kế để khắc phục những vấn đề này. Mặc dù các chi tiết cụ thể của mạng lưới thần kinh nhân tạo cấu thành V-JEPA khá phức tạp, khái niệm cơ bản của nó rất đơn giản. Thay vì dự đoán những gì đằng sau các vùng bị che khuất ở cấp độ từng pixel riêng lẻ, V-JEPA sử dụng các cấp độ trừu tượng cao hơn, hay còn gọi là “biểu diễn tiềm ẩn” (latent representations), để mô hình hóa nội dung. Các biểu diễn tiềm ẩn này chỉ nắm bắt những chi tiết thiết yếu về dữ liệu. Ví dụ, từ các bản vẽ đường nét của nhiều hình trụ khác nhau, một mạng lưới thần kinh có thể học cách chuyển đổi mỗi hình ảnh thành các con số đại diện cho các khía cạnh cơ bản của hình trụ đó, như chiều cao, chiều rộng, hướng và vị trí. Bằng cách này, thông tin chứa trong hàng trăm hoặc hàng nghìn pixel được chuyển đổi thành một vài con số – chính là các biểu diễn tiềm ẩn. Mô hình học cách tập trung vào những khía cạnh quan trọng hơn của video và loại bỏ thông tin không cần thiết.

Trí tuệ nhân tạo biết ‘ngạc nhiên’: V-JEPA và trực giác vật lý

Vào tháng 2 vừa qua, nhóm nghiên cứu V-JEPA đã báo cáo về cách hệ thống của họ hiểu các thuộc tính vật lý trực quan của thế giới thực – những thuộc tính như sự tồn tại của vật thể, tính bất biến của hình dạng và màu sắc, cũng như tác động của trọng lực và va chạm. Trong một bài kiểm tra có tên IntPhys, yêu cầu các mô hình AI xác định xem các hành động trong video có khả thi về mặt vật lý hay không, V-JEPA đạt độ chính xác gần 98%. Một mô hình nổi tiếng dự đoán trong không gian pixel chỉ tốt hơn một chút so với việc đoán ngẫu nhiên. Điều này cho thấy khả năng vượt trội của V-JEPA trong việc nắm bắt các quy luật vật lý cơ bản.

Đặc biệt, nhóm V-JEPA cũng đã định lượng rõ ràng “sự ngạc nhiên” mà mô hình của họ thể hiện khi dự đoán không khớp với quan sát. Họ đã lấy một mô hình V-JEPA được huấn luyện trước trên các video tự nhiên, cho nó xem các video mới, sau đó tính toán sự khác biệt toán học giữa những gì V-JEPA dự kiến sẽ thấy trong các khung hình tương lai của video và những gì thực sự xảy ra. Nhóm nghiên cứu nhận thấy rằng lỗi dự đoán tăng vọt khi các khung hình tương lai chứa các sự kiện bất khả thi về mặt vật lý. Ví dụ, nếu một quả bóng lăn khuất sau một vật cản và tạm thời biến mất khỏi tầm nhìn, mô hình sẽ tạo ra lỗi khi quả bóng không xuất hiện lại từ phía sau vật cản trong các khung hình tiếp theo. Phản ứng này tương tự như phản ứng trực giác được thấy ở trẻ sơ sinh, cho thấy V-JEPA, có thể nói, đã “ngạc nhiên”. Mặc dù đã có những tiến bộ vượt bậc, các chuyên gia như Karl Friston, nhà thần kinh học tính toán tại University College London, cho rằng V-JEPA vẫn thiếu một số yếu tố cơ bản, như khả năng mã hóa sự không chắc chắn một cách phù hợp. Phiên bản tiếp theo, V-JEPA 2, ra mắt vào tháng 6, với 1,2 tỷ tham số và được huấn luyện trên 22 triệu video, đã được áp dụng vào robotics nhưng vẫn còn hạn chế về “trí nhớ” khi chỉ xử lý được vài giây video đầu vào.

V-JEPA đại diện cho một bước nhảy vọt trong lĩnh vực trí tuệ nhân tạo, đặc biệt là trong việc học hỏi và hiểu biết thế giới vật lý một cách trực quan. Khả năng của nó trong việc học từ video và thể hiện “sự ngạc nhiên” khi đối mặt với những sự kiện phi vật lý mở ra những hướng đi mới cho AI, tiến gần hơn đến cách con người học hỏi và nhận thức. Mặc dù vẫn còn những thách thức như khả năng xử lý sự không chắc chắn và giới hạn về “trí nhớ”, những nền tảng vững chắc mà V-JEPA đã đặt ra hứa hẹn sẽ thúc đẩy sự phát triển của các hệ thống AI thông minh hơn, có khả năng tương tác và hiểu biết thế giới thực một cách sâu sắc hơn trong tương lai.

Share your love
Gọi ngay Chat