AI của NVIDIA biến loạt ảnh 2D thành khung cảnh 3D trong chớp mắt

Thứ tư, 06/04/2022

Instant NeRF là một mô hình dựng ảnh thần kinh có khả năng học hỏi để nhận biết một khung cảnh 3D độ phân giải cao chỉ trong vài giây, và có thể dựng hình khung cảnh đó trong vài milli-giây!

Khi bức ảnh lấy ngay đầu tiên được chụp cách đây 75 năm bằng một chiếc máy ảnh Polaroid, đó được xem là một bước tiến đột phá khi mà con người đã có thể nhanh chóng chụp lại thế giới ba chiều (3D) vào một bức ảnh hai chiều (2D) chân thực. Ngày nay, các nhà nghiên cứu trí tuệ nhân tạo (AI) đang làm điều ngược lại: biến một loạt ảnh tĩnh thành một khung cảnh 3D kỹ thuật số trong chớp mắt.

Và nhằm bày tỏ sự ngưỡng mộ đối với những ngày đầu của ảnh Polaroid, nhóm nghiên cứu NVIDIA đã tái hiện lại một bức ảnh kinh điển về nhiếp ảnh gia Andy Warhol đang chụp ảnh lấy ngay, biến nó thành khung cảnh 3D bằng Instant NeRF.

Được biểu diễn trong một phiên tại NVIDIA GTC tuần qua, Instant NeRF cho thấy nó có thể được sử dụng để tạo ra các avatar hoặc các khung cảnh cho thế giới ảo, nhằm dựng hình 3D những người tham dự hội thảo video và môi trường của họ, hoặc nhằm tái cấu trúc các khung cảnh cho bản đồ số 3D.

"Theo cách hiểu đó, Instant NeRF có thể rất quan trọng đối với ảnh 3D, giống như máy ảnh kỹ thuật số và dạng nén JPEG đối với nhiếp ảnh 2D vậy - nó giúp cải thiện đáng kể tốc độ, sự dễ dàng, và phạm vi tiếp cận của hoạt động chụp và chia sẻ 3D" - theo David Luebke, phó chủ tịch mảng nghiên cứu đồ họa tại NVIDIA. "Nếu ảnh 3D truyền thống, như những lưới đa giác, có đặc tính của ảnh vector, thì NeRF giống như ảnh bitmap: chúng bắt được cách mà ánh sáng chiếu lên một vật thể hay trong một khung cảnh"

NVIDIA đã áp dụng kỹ thuật này vào một công nghệ mới khá phổ biến gọi là trường ánh sáng thần kinh, hay NeRF. Kết quả thu được - Instant NeRF - là kỹ thuật NeRF nhanh nhất cho đến thời điểm hiện tại, mà trong một số trường hợp cho ra sản phẩm với tốc độ nhanh gấp 1.000 lần thông thường. Mô hình này chỉ mất vài giây để học từ vài chục bức ảnh tĩnh - cộng thêm dữ liệu về các góc máy mà ảnh được chụp - và sau đó có thể dựng ra khung cảnh 3D chỉ trong chưa đầy 10 milli-giây.

Được biết đến với tên gọi "dựng hình nghịch đảo", quy trình này sử dụng AI để tính toán chuyển động của ánh sáng trong thế giới thực, cho phép các nhà nghiên cứu tái cấu trúc một khung cảnh 3D từ một loạt ảnh 2D chụp ở nhiều góc độ khác nhau. Nhóm nghiên cứu NVIDIA đã phát triển được một kỹ thuật có khả năng hoàn thành tác vụ này gần như tức thời - biến nó thành một trong những mô hình đầu tiên trên thế giới vận hành thông qua sự kết hợp giữa huấn luyện mạng thần kinh siêu nhanh và dựng hình tốc độ cao.

Xem video tại: NVIDIA Instant NeRF

NeRF là gì?

NeRF sử dụng mạng thần kinh để tái hiện và dựng nên những khung cảnh 3D chân thực dựa trên loạt ảnh 2D mà người dùng cung cấp.

Thu thập dữ liệu để NeRF "học" giống như bạn đang làm một nhiếp ảnh gia trên thảm đỏ, tìm cách chụp bộ trang phục của một người nổi tiếng nào đó từ mọi góc độ - mạng thần kinh đòi hỏi vài chục bức ảnh chụp từ nhiều vị trí xung quanh khung cảnh, cũng như vị trí máy ảnh của từng bức ảnh đó.

Trong một khung cảnh bao gồm người hoặc các yếu tố di chuyển khác, ảnh được chụp càng nhanh thì càng cho ra kết quả tốt hơn. Nếu có quá nhiều chuyển động trong quá trình chụp ảnh 2D, khung cảnh 3D do AI dựng nên sẽ bị mờ nhòe.

Từ những "nguyên liệu" đó, NeRF về cơ bản sẽ lấp vào những khoảng trống, huấn luyện một mạng thần kinh nhỏ để tái cấu trúc khung cảnh bằng cách dự đoán màu sắc của ánh sáng chiếu lên bất kỳ hướng nào, từ bất kỳ điểm nào trong không gian 3D. Kỹ thuật này thậm chí có thể vượt qua một số giới hạn - ví dụ, khi mà các vật thể trong một số bức ảnh bị chắn bởi chướng ngại vật như những cây cột trong những bức ảnh khác chẳng hạn.

Tăng tốc 1.000 lần với Instant NeRF

Dù ước tính độ sâu và diện mạo của một vật thể dựa trên thông tin chưa hoàn chỉnh là kỹ năng tự nhiên của con người, AI lại gặp khá nhiều khó khăn khi làm điều tương tự.

Tạo nên một khung cảnh 3D với các phương pháp truyền thống đòi hỏi nhiều giờ, hoặc thậm chí là lâu hơn nữa, tùy thuộc độ phức tạp và độ phân giải của hình ảnh. Dùng AI sẽ giúp tăng tốc quá trình này. Những mô hình NeRF đời đầu dựng được những khung cảnh sắc nét mà không bị lỗi chỉ trong vài phút, nhưng để huấn luyện chúng vẫn tốn nhiều giờ.

Tuy nhiên, Instant NeRF có thời gian dựng hình ngắn hơn nhiều. Nó dựa trên một kỹ thuật do NVIDIA phát triển, gọi là "multi-resolution hash grid encoding", vốn được tối ưu để chạy mượt trên các GPU của hãng. Sử dụng một phương thức mã hóa đầu vào mới, các nhà nghiên cứu có thể đạt được kết quả chất lượng cao bằng cách sử dụng một mạng thần kinh nhỏ tốc độ cao.

Mô hình này được phát triển bằng NVIDIA CUDA Toolkit và thư viện Tiny CUDA Neural Networks. Bởi đây là một mạng thần kinh nhẹ, nó có thể được huấn luyện và chạy trên một GPU NVIDIA duy nhất - và chạy nhanh nhất trên các card với NVIDIA Tensor Cores.

Công nghệ này có thể được sử dụng để huấn luyện robot và xe tự hành, giúp chúng hiểu được kích cỡ và hình dạng của các vật thể trong thế giới thực bằng cách chụp ảnh hoặc quay video 2D của các đối tượng đó. Nó cũng có thể được sử dụng trong kiến trúc và giải trí để nhanh chóng tạo ra các ảnh kỹ thuật số của môi trường thực, cho phép các nhà sáng tạo có thể chỉnh sửa và phát triển sâu hơn.

Ngoài NeRF, các nhà nghiên cứu NVIDIA còn đang tìm hiểu cách để ứng dụng kỹ thuật mã hóa đầu vào này nhằm tăng tốc nhiều tác vụ AI khác, bao gồm học tăng cường, biên dịch ngôn ngữ,và các thuật toán học sâu mục đích đại trà.

Theo genk.vn/ (Tham khảo: NVIDIA)