Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation
개방형 융합: 쿼리 가능한 개방형 어휘 3D 지도를 실시간으로 구축합니다. 내 생각에 이것은 현재 로봇 공학의 가장 중요한 문제 중 하나를 향한 멋진 진전입니다.
- 로봇이 탐색하면서 RGB-D 이미지 스트림을 받아들입니다.
- 지역 정렬 비전 언어 기능을 위해 SEEM을 사용하여 개방형 어휘 기능을 추출합니다.
- TSDF (잘린 부호 거리)를 사용하여 관찰 내용을 3D 표현에 통합합니다.
- 오픈 소스 코드, 더 나은 성능 및 SOTA (ConceptFusion)와 동등한 정확도
Paper
http://arxiv.org/pdf/2310.03923
Abstract
정확한 3D 환경 매핑은 로봇 공학에서 중추적이다. 기존 방법은 종종 훈련 중에 미리 정의된 개념에 의존하거나 시맨틱 맵을 생성할 때 시간이 많이 소요된다. 이 논문은 RGB-D 데이터를 사용한 실시간 공개 어휘 3D 매핑 및 쿼리 가능한 장면 표현을 위한 획기적인 접근 방식인 Open-Fusion을 제시한다. 오픈 퓨전은 오픈 세트 의미 이해를 위해 사전 훈련된 비전 언어 기초 모델(VLFM)의 힘을 활용하고 신속한 3D 장면 재구성을 위해 TSDF(Truncated Signed Distance Function)를 사용합니다. VLFM을 활용하여, 우리는 지역 기반 임베딩과 관련 신뢰 지도를 추출합니다. 그런 다음 향상된 헝가리 기반 기능 매칭 메커니즘을 사용하여 TSDF의 3D 지식과 통합됩니다. 특히, Open-Fusion은 추가 3D 교육을 필요로 하지 않고도 개방형 어휘를 위한 뛰어난 주석이 없는 3D 세분화를 제공합니다. 선도적인 제로 샷 방법에 대한 ScanNet 데이터 세트의 벤치마크 테스트는 Open-Fusion의 우월성을 강조한다. 게다가, 그것은 지역 기반 VLFM과 TSDF의 강점을 원활하게 결합하여 객체 개념과 오픈 월드 의미론을 포함하는 실시간 3D 장면 이해를 용이하게 한다.
Code
https://uark-aicv.github.io/OpenFusion/
Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation
Precise 3D environmental mapping is pivotal in robotics. Existing methods often rely on predefined concepts during training or are time-intensive when generating semantic maps. This paper presents Open-Fusion, a groundbreaking approach for real-time open-v
uark-aicv.github.io
