피드로 돌아가기
새로워지기·마흔의 생활코딩

Open-Fusion

NS
normalstory
표지 이미지

Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation


개방형 융합: 쿼리 가능한 개방형 어휘 3D 지도를 실시간으로 구축합니다. 내 생각에 이것은 현재 로봇 공학의 가장 중요한 문제 중 하나를 향한 멋진 진전입니다.
- 로봇이 탐색하면서 RGB-D 이미지 스트림을 받아들입니다.
- 지역 정렬 비전 언어 기능을 위해 SEEM을 사용하여 개방형 어휘 기능을 추출합니다.
- TSDF (잘린 부호 거리)를 사용하여 관찰 내용을 3D 표현에 통합합니다.
- 오픈 소스 코드, 더 나은 성능 및 SOTA (ConceptFusion)와 동등한 정확도





Paper


http://arxiv.org/pdf/2310.03923

Abstract

정확한 3D 환경 매핑은 로봇 공학에서 중추적이다. 기존 방법은 종종 훈련 중에 미리 정의된 개념에 의존하거나 시맨틱 맵을 생성할 때 시간이 많이 소요된다. 이 논문은 RGB-D 데이터를 사용한 실시간 공개 어휘 3D 매핑 및 쿼리 가능한 장면 표현을 위한 획기적인 접근 방식인 Open-Fusion을 제시한다. 오픈 퓨전은 오픈 세트 의미 이해를 위해 사전 훈련된 비전 언어 기초 모델(VLFM)의 힘을 활용하고 신속한 3D 장면 재구성을 위해 TSDF(Truncated Signed Distance Function)를 사용합니다. VLFM을 활용하여, 우리는 지역 기반 임베딩과 관련 신뢰 지도를 추출합니다. 그런 다음 향상된 헝가리 기반 기능 매칭 메커니즘을 사용하여 TSDF의 3D 지식과 통합됩니다. 특히, Open-Fusion은 추가 3D 교육을 필요로 하지 않고도 개방형 어휘를 위한 뛰어난 주석이 없는 3D 세분화를 제공합니다. 선도적인 제로 샷 방법에 대한 ScanNet 데이터 세트의 벤치마크 테스트는 Open-Fusion의 우월성을 강조한다. 게다가, 그것은 지역 기반 VLFM과 TSDF의 강점을 원활하게 결합하여 객체 개념과 오픈 월드 의미론을 포함하는 실시간 3D 장면 이해를 용이하게 한다.




Code
https://uark-aicv.github.io/OpenFusion/

Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation

Precise 3D environmental mapping is pivotal in robotics. Existing methods often rely on predefined concepts during training or are time-intensive when generating semantic maps. This paper presents Open-Fusion, a groundbreaking approach for real-time open-v

uark-aicv.github.io

친절한 찰쓰씨
글쓴이
친절한 찰쓰씨
친절한 찰쓰씨 · 일상 UX 디자이너
기획·디자인·단상을 조용히 기록합니다.
작가 페이지에서 더 보기

이어서 읽기

새로워지기

꾸준히, 오래, 지치지 않고

Mar 31, 2026·8
새로워지기

테크 라이프 발란스

Feb 7, 2026·3
새로워지기

휴탈리티 박정렬

Feb 7, 2026·11