KR20230071052A - 이미지 처리 방법 및 장치 - Google Patents

이미지 처리 방법 및 장치 Download PDF

Info

Publication number
KR20230071052A
KR20230071052A KR1020220111206A KR20220111206A KR20230071052A KR 20230071052 A KR20230071052 A KR 20230071052A KR 1020220111206 A KR1020220111206 A KR 1020220111206A KR 20220111206 A KR20220111206 A KR 20220111206A KR 20230071052 A KR20230071052 A KR 20230071052A
Authority
KR
South Korea
Prior art keywords
feature information
fusion
voxel
image
image processing
Prior art date
Application number
KR1020220111206A
Other languages
English (en)
Inventor
하오 왕
웨이밍 리
치앙 왕
김지연
장현성
홍성훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to EP22207194.6A priority Critical patent/EP4181079A1/en
Priority to JP2022182118A priority patent/JP2023073231A/ja
Priority to US17/987,060 priority patent/US20230154170A1/en
Publication of KR20230071052A publication Critical patent/KR20230071052A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

이미지 처리 방법, 이미지 처리 장치, 전자 장치, 및 컴퓨터 판독 가능 저장 매체가 개시된다. 이미지 처리 방법은, 컬러 이미지 및 깊이 이미지를 기반으로 3차원 특징 정보 및 2차원 특징 정보를 획득하는 단계; 어텐션 메커니즘을 기반으로 상기 3차원 특징 정보와 상기 2차원 특징 정보를 융합하여 융합 특징 정보를 획득하는 단계; 및 상기 융합 특징 정보를 기반으로 이미지 처리를 수행하는 단계를 포함한다.

Description

이미지 처리 방법 및 장치{APPARATUS AND METHOD FOR IMAGE PROCESSING}
본 개시는 이미지 처리 및 인공지능 기술분야에 관한 것으로, 구체적으로, 이미지 처리 방법, 장치, 전자 장치, 컴퓨터 판독 가능 저장 매체 및 컴퓨터 프로그램 제품이 개시된다.
이미지 처리 기술에서 포즈 추정, 이미지 분할, 객체 인식 등은 상대적으로 중요한 연구 방향이다. 일반적으로 단일 모달리티(modality)의 정보만이 이미지 처리에 사용된다. 단일 모달리티의 정보를 사용할 경우 이미지 처리 결과의 정확도가 낮아질 수 있다.
실시예는 관련 기술의 이미지 처리 결과의 정확도를 제고할 수 있는 이미지 처리 방법, 장치, 전자 장치, 컴퓨터 판독 가능 저장 매체 및 컴퓨터 프로그램 제품을 제공한다.
일 실시예에 따른 이미지 처리 방법은, 컬러 이미지 및 깊이 이미지를 기반으로 3차원 특징 정보 및 2차원 특징 정보를 획득하는 단계; 어텐션(attention) 메커니즘을 기반으로 상기 3차원 특징 정보와 상기 2차원 특징 정보를 융합하여 융합(fused) 특징 정보를 획득하는 단계; 및 상기 융합 특징 정보를 기반으로 이미지 처리를 수행하는 단계를 포함한다.
선택적으로, 상기 융합 특징 정보는, 적어도 하나 이상의 스케일(scale)의 상기 3차원 특징 정보와, 적어도 하나 이상의 스케일의 상기 2차원 특징 정보를 융합하여 획득된 것일 수 있다.
선택적으로, 상기 융합 특징 정보를 획득하는 단계는, 어느 하나의 스케일의 상기 3차원 특징 정보 및 어느 하나의 스케일의 상기 2차원 특징 정보에 대해: 상기 어텐션 메커니즘을 기반으로 현재(current) 스케일의 3차원 특징 정보와 현재 스케일의 2차원 특징 정보에 대해 특징 융합을 진행하여, 현재 스케일의 융합 특징 정보를 획득하는 단계 - 상기 현재 스케일의 3차원 특징 정보는 이전(previous) 스케일의 융합 특징 정보 및 상기 이전 스케일의 3차원 특징 정보에 따라 결정되고, 상기 현재 스케일의 2차원 특징 정보는 이전 스케일의 2차원 특징 정보에 따라 결정됨 -를 포함할 수 있다.
선택적으로, 상기 융합 특징 정보를 획득하는 단계는, 상기 3차원 특징 정보에 따라 포인트 클라우드 복셀(voxel) 특징 정보 및/또는 복셀 위치 특징 정보를 획득하는 단계; 상기 2차원 특징 정보에 따라 제1 이미지 복셀 특징 정보를 획득하는 단계; 및 상기 어텐션 메커니즘을 기반으로, 상기 포인트 클라우드 복셀 특징 정보, 복셀 위치 특징 정보 및/또는 상기 제1 이미지 복셀 특징 정보에 따라 특징을 융합하여 융합 특징 정보를 획득하는 단계를 포함할 수 있다.
선택적으로, 상기 어텐션 메커니즘을 기반으로, 상기 포인트 클라우드 복셀 특징 정보, 상기 복셀 위치 특징 정보 및/또는 상기 제1 이미지 복셀 특징 정보에 따라 상기 특징을 융합하여 상기 융합 특징 정보를 획득하는 단계는, 상기 제1 이미지 복셀 특징 정보, 및 상기 어텐션 메커니즘을 기반으로 상기 복셀 위치 특징 정보, 상기 포인트 클라우드 복셀 특징 정보 및 상기 제1 이미지 복셀 특징 정보를 처리한 후 출력되는 특징 정보에 대해, 교차 어텐션 메커니즘을 통해 특징을 융합하여 상기 융합 특징 정보를 획득하는 단계; 상기 제1 이미지 복셀 특징 정보, 및 상기 어텐션 메커니즘을 기반으로 상기 포인트 클라우드 복셀 특징 정보를 처리한 후 출력되는 상기 특징 정보에 대해, 상기 교차 어텐션 메커니즘을 통해 특징을 융합하여 상기 융합 특징 정보를 획득하는 단계; 상기 제1 이미지 복셀 특징 정보, 및 상기교차 어텐션 메커니즘을 기반으로 상기 포인트 클라우드 복셀 특징 정보를 처리한 후 출력되는 상기 특징 정보에 대해, 셀프 어텐션 메커니즘을 통해 특징을 융합하여 상기 융합 특징 정보를 획득하는 단계; 또는 상기 셀프 어텐션 메커니즘을 기반으로 상기 제1 이미지 복셀 특징 정보를 처리한 후 출력되는 특징 정보, 및 상기 교차 어텐션 메커니즘을 기반으로 상기 포인트 클라우드 복셀 특징 정보 및 상기 제1 이미지 복셀 특징 정보를 처리한 후 출력되는 상기 특징 정보에 대해, 특징을 융합하여 상기 융합 특징 정보를 획득하는 단계 중 어느 하나를 포함할 수 있다.
선택적으로, 상기 융합 특징 정보를 기반으로 이미지 처리를 수행하는 단계는, 상기 융합 특징 정보를 기반으로 포즈 추정 및/또는 사이즈 추정을 수행하는 단계; 또는 상기 융합 특징 정보를 기반으로 형상 재구성 및/또는 분할을 수행하는 단계 중 적어도 하나 이상을 포함할 수 있다.
선택적으로, 상기 융합 특징 정보를 기반으로 상기 형상 재구성 및/또는 분할을 수행하는 단계는, 상기 형상 재구성 및/또는 분할을 수행하여 형상 정보 및/또는 분할 정보를 획득하는 단계를 포함할 수 있다.
일 실시예에 따른 이미지 처리 장치는, 컬러 이미지 및 깊이 이미지를 기반으로 3차원 특징 정보 및 2차원 특징 정보를 획득하도록 구성된 획득 모듈; 어텐션 메커니즘을 기반으로 상기 3차원 특징 정보와 상기 2차원 특징 정보를 융합하여 융합 특징 정보를 획득하도록 구성된 융합 모듈; 및 상기 융합 특징 정보를 기반으로 이미지 처리를 수행하도록 구성된 처리 모듈을 포함한다.
일 실시예에 따른 전자 장치는, 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서에 의해 실행되도록 구성되고, 상술한 방법들 중 어느 하나의 방법을 실행하도록 구성되는 하나 이상의 컴퓨터 프로그램을 저장하는 메모리를 포함한다.
일 실시예에 따르면, 컴퓨터 상에서 실행될 때 컴퓨터가 상술한 방법들 중 어느 하나의 방법을 실행하도록 하는 컴퓨터 명령을 저장하는 컴퓨터 판독 가능 저장 매체가 제공된다.
본 개시는, 입력 이미지에 대해, 먼저 입력 이미지의 컬러 이미지 및 깊이 이미지에 기초하여 3차원 특징 정보 및 2차원 특징 정보를 획득하고, 3차원 특징 및 2차원 특징 정보를 특징 융합한 후 융합 특징 정보를 획득할 수 있고, 여기에서, 특징 융합은 어텐션 메커니즘에 의해 실현된다. 또한, 융합 특징 정보를 기반으로 이미지를 처리한다. 본 개시는, 특징 융합을 통해 다중 모달리티의 융합 특징 정보를 획득하고, 이를 통해 다중 모달리티 정보에 기반한 이미지 처리를 실현하며, 단일 모달리티 정보에 기반한 이미지 처리와 비교할 때, 이미지 처리의 정확도를 제고할 수 있다. 또한, 증강 현실(Augmented Realtity) 등의 응용(applications)에서, 3차원 정보를 인식하는 능력이 향상되므로, 시스템의 처리 효율성과 견고성이 제고된다.
도 1은 일 실시예에 따른 이미지 처리 방법의 흐름 예시도이다.
도 2는 일 실시예에 따른 이미지 처리 방법의 흐름 블록도이다.
도 3a는 일 실시예에 따른 컬러 이미지 및 깊이 이미지의 카테고리 레벨에 기초한 객체 6D 포즈 및 사이즈 추정 방법의 흐름 블록도이다.
도 3b는 일 실시예에 따른 컬러 이미지 및 깊이 이미지에 기초한 이미지 처리 방법의 흐름 블록도이다.
도 3c는 일 실시예에 따른 ARF-Net의 블록도이다.
도 3d는 일 실시예에 따른 또 다른 ARF-Net의 블록도이다.
도 4는 일 실시예에 따른 어텐션 메커니즘의 다중 스케일 융합에 기초한 객체 포즈 추정 방법의 흐름 블록도이다.
도 5는 일 실시예에 따른 어텐션 메커니즘에 기초한 깊이 특징 융합 방법의 흐름 블록도이다.
도 6은 일 실시예에 따른 어텐션 메커니즘의 설계 블록도이다.
도 7은 일 실시예에 따른 어텐션 메커니즘의 설계 블록도이다.
도 8은 일 실시예에 따른 어텐션 메커니즘의 설계 블록도이다.
도 9는 일 실시예에 따른 다중 모달리티(modality) 융합을 결합한 종단간(between ends) 객체 포즈 추정 방법의 흐름 블록도이다.
도 10은 일 실시예에 따른 연합 객체 형상 재구성 및 분할 작업을 위한 포즈 추정 방법의 흐름 블록도이다.
도 11a는 일 실시예에 따른 운영 환경의 개략도이다.
도 11b는 일 실시예에 따른 입력 이미지의 개략도이다.
도 11c는 일 실시예에 따른 이미지 처리 결과의 개략도이다.
도 12는 일 실시예에 따른 이미지 처리 장치의 구조 개략도이다.
도 13은 일 실시예에 따른 전자 장치의 구조 개략도이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 개시의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
"제1" 또는 "제2" 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, "제1 구성요소"는 "제2 구성요소"로 명명될 수 있고, 유사하게 "제2 구성요소"는 "제1 구성요소"로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 개시에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에서 사용된 단수형 "일”, "하나”, "상기” 및 "해당”은 특별히 언급되지 않는 한 복수형도 포함할 수 있음은 당업자에게 있어 자명하다. 본 출원의 실시예에서 사용된 "포함” 및 "함유”라는 용어는 상응하는 특징이 제시된 특징, 정보, 데이터, 단계, 동작, 요소 및/또는 구성요소로서 구현될 수 있음을 의미하고, 본 기술분야에서 지원하는 다른 특징, 정보, 데이터, 단계, 동작, 요소, 구성 요소 및/또는 이들의 조합 등을 배제하지 않는다. 한 요소가 다른 요소에 "연결”되거나 "결합”되었다고 말할 때, 해당 하나의 요소는 다른 요소에 직접 연결되거나 결합될 수 있고, 해당 하나의 요소 및 다른 요소가 중간 요소를 통해 연결 관계가 구성될 수도 있다. 또한, 본 명세서에서 "연결” 또는 "결합”은 무선 연결 또는 무선 결합을 포함할 수 있다. 본 명세서에서 "및/또는”의 용어는 해당 용어가 정의한 항목 중 적어도 하나를 나타내며, 예를 들어 "A 및/또는 B"는 "A"로 구현 또는 "A 및 B"로 구현됨을 나타낸다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 개시에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
인공지능(AI)은 디지털 컴퓨터 또는 디지털 컴퓨터로 제어되는 기계를 사용하여 인간 지능을 시뮬레이션, 연장 및 확장하고, 환경을 인식하고, 지식을 획득하고, 지식을 사용하여 최상의 결과를 얻는 이론, 방법, 기술 및 응용 시스템이다. 즉, 인공지능은 지능의 본질을 이해하고 인간의 지능과 유사하게 반응할 수 있는 새로운 지능 기계를 생산하려는 컴퓨터 과학의 종합 기술이다. 인공지능은 다양한 지능형 기계의 설계 원리와 구현 방법을 연구하여 기계가 인식, 추론 및 의사 결정 기능을 갖도록 하는 것이다.
인공지능 기술은 하드웨어 측면의 기술과 소프트웨어 측면의 기술을 모두 포함하는 광범위한 분야를 포함하는 포괄적인 분야이다. 인공지능의 기본 기술에는 일반적으로 센서, 특수 인공지능 칩, 클라우드 컴퓨팅, 분산 스토리지, 빅 데이터 처리 기술, 운영/상호 작용 시스템, 전자 기계 통합 등과 같은 기술이 포함된다. 인공지능 소프트웨어 기술은 주로 컴퓨터 비전 기술, 음성 처리 기술, 자연어 처리 기술 및 기계 학습/딥 러닝 등을 포함한다. 본 개시는 컴퓨터 비전 기술에 관한 것일 수 있다.
컴퓨터 비전(CV)은 기계가 "보는” 방법을 연구하는 과학으로, 보다 구체적으로, 사람의 눈 대신 카메라와 컴퓨터를 사용하여 대상을 인식, 추적 및 측정하고, 추가 그래픽 처리를 통해 컴퓨터 처리가 사람의 눈이 관찰하거나 검출용 기기로 전송하기에 더 적합한 이미지가 될 수 있도록 하는 것이다. 컴퓨터 비전은 과학 분야로서 관련 이론과 기술을 연구하여 이미지나 다차원 데이터에서 정보를 얻을 수 있는 인공 지능 시스템을 구축하려고 한다. 컴퓨터 비전 기술에는 일반적으로 이미지 처리, 이미지 인식, 이미지 의미론적 이해, 이미지 검색, OCR, 비디오 처리, 비디오 의미론적 이해, 비디오 컨텐츠/행동 인식, 3D 객체 재구성, 3D 기술, 가상 현실, 증강 현실, 동시 포지셔닝(Simultaneous positioning) 및 지도 구축, 자율주행, 스마트 교통 등 기술을 포함하고, 얼굴 인식 및 지문 인식과 같은 일반적인 생체 인식 기술도 포함할 수 있다.
구체적으로, 실시예에서 제공하는 이미지 처리 방법 및 장치는, 증강 현실(AR), 이미지 처리, 이미지 인식, 객체 인식, 이미지 분할 및 6D 포즈 추정 등과 같은 예시적 시나리오에 적용될 수 있다. 일례로, 증강 현실 시나리오에서 일반적으로 사용자 앞의 실제 시나리오에 가상 컨텐츠를 추가하여 사용자에게 실제 시나리오 경험을 제공한다. 3차원 공간에서 증강현실 기술을 기반으로 하는 시스템 처리를 구현하기 위해, 사용자 앞에서 고품질의 가상현실 융합 효과를 보여주기 위해 주변 사물의 3차원 상태에 대한 고정밀 실시간 처리 및 이해가 요구된다.
통상 단일 모달리티의 이미지 데이터만을 이미지 처리에 사용하였다. 예를 들어, 깊이 이미지만 6D 포즈 추정에 사용되는 반면, RGB 이미지는 객체 검출에만 사용되었다. 이러한 방법은, 센서 노이즈, 물체 가려짐 등과 같은 이미지 처리에 일정한 제한이 따르게 되고, 이로 인해 예측된 포즈가 흐려질 수 있다. 또한, 이미지 처리에서 클래스 내의 형상 변경은 종종 객체의 부정확한 예측 및 포지셔닝으로 이어질 수 있다.
본 개시는, 이미지 처리 방법, 장치, 전자 장치, 및 컴퓨터 판독 가능 저장 매체를 제공하고; 구체적으로, 이미지 처리를 위한 컬러 및 깊이 정보를 포함하는 이미지를 입력함으로써, 증강 현실 등 응용에서 시스템의 효율성 및 견고성을 제고할 수 있다. 또한, 컬러 특징과 깊이 특징을 동시에 융합하면 3차원 정보에 대한 모델의 인식 능력을 향상시킬 수 있고, 클래스 레벨 객체의 형상 및 사이즈 변경을 보다 더 잘 처리할 수 있다.
도 1 및 도 2는 이미지 처리 방법의 일례를 도시한다. 도 1은 일 실시예에 따른 이미지 처리 방법의 흐름 예시도이고, 도 2는 일 실시예에 따른 이미지 처리 방법의 흐름 블록도이다. 일 실시예에 따른 방법은, 임의의 전자 장치에서 실행할 수 있다. 도 11a에 도시된 바와 같이, 임의의 전자 장치는 사용자 단말(100) 또는 서버(200)일 수 있다. 사용자 단말(100)은 스마트폰, 태블릿 컴퓨터, 노트북, 데스크탑 컴퓨터, 스마트 스피커, 스마트 워치, 자동차 탑재 장치, AR 장치 등을 포함할 수 있다. 서버(200)는 독립적인 물리적 서버이거나 여러 물리적 서버로 구성된 서버 클러스터 또는 분산 시스템일 수 있으며, 클라우드 서비스, 클라우드 데이터베이스, 클라우드 컴퓨팅, 클라우드 기능, 클라우드 스토리지, 네트워크 서비스, 클라우드 통신, 미들웨어 서비스, 도메인 네임 서비스, 보안 서비스, CDN(Content Deliver Network) 및 빅 데이터와 인공 지능 플랫폼 등과 같은 기본 클라우드 컴퓨팅 서비스를 제공하는 클라우드 서버일 수도 있고, 이에 제한되지 않는다. 사용자 단말(100)과 서버(200)는 서로 통신할 수 있다.
구체적으로, 도 1에 도시된 바와 같이, 일 실시예에 따른 이미지 처리 방법은 단계(S101-S103)를 포함할 수 있다:
단계 S101: 컬러 이미지 및 깊이 이미지를 기반으로 3차원 특징 정보 및 2차원 특징 정보를 획득한다.
구체적으로, 컬러 이미지 및 깊이 이미지는 입력된 하나의 이미지에 포함된 깊이 정보 및 컬러 정보에 각각 대응하는 이미지일 수 있다. 입력된 이미지는 컬러 이미지(RGB 이미지)와 깊이(depth) 이미지가 중첩(RGB-D 이미지)된 것과 같은 컬러가 있는 깊이 이미지일 수 있고, 그레이스케일 이미지와 깊이 이미지가 중첩된 것일 수도 있다. 여기에서, 입력 이미지는 도 11b와 같이 나타낼 수 있다.
깊이 이미지를 기반으로 3차원 특징 정보를 추출할 수 있고, 컬러 이미지 또는 그레이스케일 이미지를 기반으로 2차원 특징 정보를 추출할 수 있다. 구체적으로, 입력된 이미지는 객체 검출기에 의해 객체 검출되어 객체 영역을 획득하고, 객체를 포함하는 컬러 이미지 및 깊이 이미지는 해당 객체 영역에 대한 깊이 및 컬러 이미지를 클리핑(clipping)하여 획득할 수 있다.
이미지 특징의 추출은 하위 레이어에서 상위 레이어로의 특징 추출 프로세스를 채택한다. 도 11b에 도시된 바와 같이, 네트워크의 하위 레이어에서 추출된 특징은 테이블의 윤곽(contour) 특징일 수 있고, 네트워크가 점점 더 깊어짐에 따라 추출된 특징은 테이블 다리 및 테이블 서랍과 같은 더 높은 수준의 특징 정보가 될 수 있으며, 다른 스케일의 특징은 네트워크의 다른 스케일에서 추출된 특징을 지칭할 수 있다. 선택적으로, 이미지 특징을 추출할 때, 하나의 스케일의 3차원 특징 정보 및 2차원 특징 정보가 처리되거나, 다중 스케일의 3차원 특징 정보 및 2차원 특징 정보가 처리될 수 있다.
단계 S102: 어텐션 메커니즘을 기반으로 상기 3차원 특징 정보와 상기 2차원 특징 정보를 융합하여 융합 특징 정보를 획득한다.
특징 정보 융합 처리는, 이미지에서 추출한 단일 모달리티 특징을 입력 특징보다 더 변별력이 높은(discriminative) 다중 모달리티 특징으로 합병하는 것이다. 일 실시예에서, 어텐션 메커니즘을 채택하여 3차원 특징 정보와 2차원 특징 정보의 융합을 실현한다. 3차원 특징 정보와 2차원 특징 정보를 융합한 후 얻어지는 융합 특징 정보에서, 특징들 간의 상보성은 단일 모달리티 특징의 고유한 결함(defects)의 영향을 줄일 수 있다.
선택적으로, 다중 스케일의 3차원 특징 정보 및 2차원 특징 정보가 추출될 때, 융합에 의해 획득된 융합 특징 정보는 다중 스케일 융합의 특징 정보일 수 있다.
단계 S103: 상기 융합 특징 정보를 기반으로 이미지 처리를 수행한다.
구체적으로, 융합 특징 정보를 기반으로 하는 이미지 처리는 정확한 3차원 모델이 없는 경우 이미지 처리를 수행하기 어려울 수 있으므로, 실제 복잡한 응용 시나리오(일측에서, 실제 시나리오에서 정확한 AR 상호 작용을 수행하기 위해 알려진 객체가 필요하지 않은 모델의 RGBD 데이터를 사용할 수 있음)에 더 잘 대처할 수 있다. 도 11c에 도시된 바와 같이, 일 실시예에 따른 이미지 처리 방법에 의해 이미지 처리 후 얻어진 결과 이미지는, 해당 결과 이미지를 기반으로 증강 현실 시스템에서 렌더링된 가상 객체를 제어할 수 있으므로, 실제 객체와 가상 객체가 실제적이고 자연스러운 상호 작용을 할 수 있다.
본 개시에 따르면, 3차원 특징과 2차원 특징의 융합을 최대한 활용하여 컴퓨팅 스토리지 리소스와 에너지 소비가 제한된 모바일 플랫폼에서 효율적인 처리 능력을 가질 수 있고, 3D 객체 처리 및 이해 측면에서도 정확성 및 견고성에 대한 요구 사항을 충족할 수 있다.
일 실시예에 따른 이미지 처리 방법에 적응하기 위해, 트랜스포머(transformer) 메커니즘을 사용하여 다중 모달리티 정보를 융합할 수 있는 ARF-Net(Attention-guided RGB-D Fusion Net)이 제안된다. 구체적으로, ARF-Net는 어텐션 메커니즘을 통해 2차원 특징(RGB 이미지에서 추출한 겉보기 특징(apparent features))과 3차원 특징(깊이 이미지 또는 포인트 클라우드에서 추출한 3차원 특징)을 적응적으로(adaptively) 융합할 수 있고, 구조적 특징을 탐색하여 서로 다른 인스턴스(instance)의 형상을 구별할 수 있다. 일 실시예에 따른 ARF 네트워크는 RGB 특징과 포인트 클라우드 특징을 융합할 수 있고, 다양한 특징 추출기의 성능을 향상시킬 수 있다.
이하, 입력 이미지를 기반으로 3차원 특징 정보 및 2차원 특징 정보를 획득하는 과정에 대해 설명한다.
일 실시예에서, 단계 S101 중 입력 이미지의 적어도 하나의 스케일의 3차원 특징 정보 및 2차원 특징 정보를 획득하는 단계는 다음 단계 A1 및 A2를 포함할 수 있다:
단계 A1: 입력된 깊이 이미지를 3차원 공간의 포인트 클라우드 특징 정보로 변환하고, 포인트 클라우드 특징 정보를 기반으로 인코딩하여 적어도 하나의 스케일의 3차원 특징 정보를 얻는다.
구체적으로, 도 3a에 도시된 바와 같이, 카메라 내부 파라미터와 결합된 깊이 이미지는 3차원 공간의 포인트 클라우드 특징 정보(포인트 클라우드 데이터라고도 함)로 변환될 수 있고, 나아가 포인트 클라우드 특징 정보를 3차원 특징 인코더의 입력으로 사용하여, 3차원 특징 인코더의 처리를 통해 3차원 특징 정보를 획득할 수 있다.
3차원 특징 정보는 MLP(Multi-layer Perceptual Network) 인코더, 3D 복셀 네트워크와 같은 3차원 특징 추출 네트워크(3D 특징 인코더)를 이용하여 구현할 수 있고, 각 점에 해당하는 3차원 특징 벡터를 추출할 수 있다. 3차원 특징 추출 네트워크는 3차원 공간에서 깊이 이미지의 3차원 구조적 특징을 기술할 수 있다.
단계 A2: 입력된 컬러 이미지 또는 컬러 깊이 이미지를 기반으로 인코딩하여 적어도 하나의 스케일의 2차원 특징 정보를 획득한다.
구체적으로, 도 3a에 도시된 바와 같이, 컬러 이미지, 그레이스케일 이미지, 컬러 깊이 이미지, 그레이스케일 깊이 이미지 등 중 하나를 2차원 코드 특징 인코더의 입력으로 사용할 수 있고, 2차원 코드 특징 인코더의 처리를 통해 2차원 특징 정보를 얻을 수 있다. 2차원 코드 인코더는 딥 컨볼루션 신경망으로 구현될 수 있고, 입력 이미지의 2차원 겉보기 특징(apparent features)은 2차원 코드 인코더로 추출할 수 있다.
일 실시예에서, 정렬된(aligned) RGB-D 시나리오의 경우, 먼저 인스턴스 분할 방법을 사용하여 객체 인스턴스를 감지하고 분할할 수 있다. 객체 경계 박스에 의해 잘린 인스턴스의 RGB 이미지에 의해, 마스크된 깊이 정보와 카메라 내부 파라미터로 계산된 인스턴스의 포인트 클라우드 데이터의 데이터 쌍은 ARF 네트워크의 입력으로 사용된다. 도 3c 및 도 3d에 도시된 바와 같이, ARF-Net은 먼저 컨볼루션 신경망(RGB 네트워크)을 사용하여 RGB 특징을 추출하고, 포인트 클라우드 네트워크(point cloud network)를 사용하여 포인트 클라우드 특징을 추출한다. 두 가지 모달리티의 특징을 ARF(Attention-guided RGB-D fusion module)를 통해 융합하여 객체의 표준 형상에 대한 네트워크의 학습 능력을 더욱 향상시킨다. 융합 모듈을 기반으로 객체의 외관 특징을 객체의 기하학적 특징에 적응적으로 융합할 수 있다. 형상 디코딩 단계에서, MLP 기반의 디코더를 사용하여 융합 특징을 입력으로 사용하는 NOCS(Normalized Object Coordinate Space)를 재구성할 수 있다. Umeyama 알고리즘과 같은 유사성 변환을 사용하여 예측된 NOCS 좌표를 관측점과 일치시킴으로써 객체의 6D 포즈와 사이즈를 얻을 수 있다.
이하, 특징 융합의 처리 과정에 대해 상세히 설명한다.
도 3a에 도시된 바와 같이, 일 실시예는 3차원 특징 인코더에 의해 추출된 3차원 특징 정보와 2차원 특징 인코더에 의해 추출된 2차원 특징 정보를 어텐션 메커니즘 기반의 다중 스케일 융합 모듈에 입력하여 특징 융합을 실현할 수 있고, 융합 특징 정보를 출력할 수 있다. 일 실시예에서, 어텐션 메커니즘에 기초하여 적어도 하나의 스케일의 3차원 특징 정보와 적어도 하나의 스케일의 2차원 특징 정보를 융합하여 융합 특징 정보를 획득할 수 있다.
일 실시예에서, 도 4에 도시된 바와 같이, 단계 S102에서의 어텐션 메커니즘을 기반으로 상기 3차원 특징 정보 및 2차원 특징 정보를 융합하여 융합 특징 정보를 획득하는 단계는, 단계 B1을 포함할 수 있다:
단계 B1: 임의의 스케일의 3차원 특징 정보 및 2차원 특징 정보에 대해 다음 작업을 수행한다: 어텐션 메커니즘을 기반으로 현재(current) 스케일의 3차원 특징 정보와 현재 스케일의 2차원 특징 정보를 특징 융합하여, 융합 특징 정보를 획득한다.
현재 스케일의 3차원 특징 정보는 이전(previous) 스케일의 융합 특징 정보와 이전 스케일의 3차원 특징 정보에 따라 결정되고; 현재 스케일의 2차원 특징 정보는 이전 스케일의 2차원 특징 정보에 따라 결정된다.
구체적으로, 다중 스케일의 특징 융합은 각각 서로 다른 스케일에서 추출된 3차원 특징 정보와 2차원 특징 정보의 융합이다. 어텐션 메커니즘에 기반한 융합 방식을 채택할 수 있으며, 다중 스케일의 융합은 캐스케이드 방식으로 구현될 수 있다. 선택적으로, 각 스케일의 융합 후의 특징은 이전 스케일의 3차원 특징 정보와 스플라이싱된 후, 다음 스케일의 3차원 특징 인코더의 입력으로 사용될 수 있고; 이전 스케일의 2차원 특징 정보는 다음 스케일의 2차원 특징 인코더의 입력으로 사용될 수 있다.
도 4에 도시된 3가지 스케일의 융합 방식을 예로 들어 설명한다.
스케일 1의 경우, 포인트 클라우드 데이터를 기반으로 해당 스케일에서의 제1 3차원 특징 정보를 추출할 수 있고, 컬러 이미지를 기반으로 해당 스케일에서의 제1 2차원 특징 정보를 추출할 수 있고, 어텐션 메커니즘을 기반으로 하는 융합 1의 모듈을 사용하여 제1 3차원 특징 정보 및 제1 2차원 특징 정보를 융합함으로써 제1 융합 특징 정보를 획득할 수 있다.
스케일 2의 경우, 제1 3차원 특징 정보 및 제1 융합 특징 정보를 기반으로, 해당 스케일에서의 제2 3차원 특징 정보를 얻을 수 있고, 제1 2차원 특징 정보를 기반으로, 해당 스케일에서의 제2 2차원 특징 정보를 얻을 수 있고, 어텐션 메커니즘의 융합(2)의 모듈을 사용하여 제2 3차원 특징 정보 및 제2 2차원 특징 정보를 융합함으로써 제2 융합 특징 정보를 얻을 수 있다.
스케일 3의 경우, 제2 3차원 특징 정보 및 제2 융합 정보를 기반으로 획득한 해당 스케일에서의 제2 3차원 특징 정보를 추출할 수 있고, 제2 2차원 특징 정보를 기반으로 획득한 해당 스케일에서의 제3 2차원 특징 정보를 추출할 수 있고, 제2 2차원 특징 정보를 기반으로 획득한 해당 스케일에서의 제3 2차원 특징 정보를 추출할 수 있고, 어텐션 메커니즘을 기반으로 하는 융합 3의 모듈을 사용하여 제3 3차원 특징 정보 및 제3 2차원 특징 정보를 융합함으로써 제3 융합 특징 정보(즉, 최종 획득한 융합 특징)를 얻을 수 있다.
일 실시예에서, 단계 S102 중 어텐션 메커니즘을 기반으로 3차원 특징 정보와 2차원 특징 정보을 융합하여 융합 특징 정보를 획득하는 단계는, 다음 단계 B2 내지 B4를 포함할 수 있다:
단계 B2: 상기 3차원 특징 정보에 따라 포인트 클라우드 복셀 특징 정보 및/또는 복셀 위치 특징 정보를 획득한다.
구체적으로, 3차원 특징 정보를 직접 복셀화하여 포인트 클라우드 복셀 특징 정보로 변환할 수 있다.
도 5에 도시된 바와 같이, 3차원 특징 정보가 복셀 특징인지 여부를 먼저 판단할 수 있다. 3차원 특징 정보가 복셀 특징인 경우, 복셀화 후, 복셀 특징 코딩을 통해 복셀 위치 특징 정보 및 포인트 클라우드 복셀 특징 정보를 얻는다. 3차원 특징 정보가 복셀 특징이 아닌 경우, 3차원 특징 정보를 기반으로 복셀 위치 특징 정보 및 포인트 클라우드 복셀 특징 정보로 직접 변환한다. 여기에서, 복셀(voxel)은 볼륨 픽셀(volume pixel)의 약자이다. 복셀화(Voxelization)는 객체의 기하학적 표현을 해당 객체에 가장 가까운 복셀 표현으로 변환하는 것을 의미한다.
단계 B3: 상기 2차원 특징 정보에 따라 제1 이미지의 복셀 특징 정보를 획득한다.
구체적으로, RGBD 이미지는 정렬되기 때문에 이미지 픽셀과 포인트 클라우드의 3차원 포인트는 일대일 위치 관계를 갖는다. 이를 기반으로, 알려진 2D-3D의 위치 관계를 통해 포인트 클라우드와 일치하는 복셀 공간에 2차원 특징 정보(이미지 특징)를 투영함으로써 이미지 복셀 특징 정보를 얻을 수 있다.
단계 B4: 어텐션 메커니즘을 기반으로 상기 포인트 클라우드 복셀 특징 정보, 복셀 위치 특징 정보 및/또는 제1 이미지 복셀 특징 정보에 따라 특징을 융합하여 융합 특징 정보를 얻는다.
구체적으로, 포인트 클라우드 복셀 특징 정보, 제1 이미지 복셀 특징 정보 및 복셀 위치 특징 정보을 어텐션 모듈의 입력으로 사용하여, 어텐션 메커니즘을 통해 특징 정보의 융합 처리를 구현할 수 있다.
일 실시예에서, RGB의 외관 특징과 포인트 클라우드의 기하학적 특징을 고려하여, 일 실시예에 따른 ARF-Net는 교차 어텐션 모듈을 사용하여 RGB 특징과 포인트 클라우드 특징 사이의 상관관계를 설정한다. 융합 모듈은 교차 모달리티의 상관 계산을 통해 대표적인 겉보기 특징을 적응적으로 선택하여 해당 포인트 클라우드 특징을 향상시킬 수 있다. ARF-Net는 셀프 어텐션 모듈을 사용하여 객체 포인트 클라우드 간의 내부 공간 관계를 추출하고 로컬 객체 간의 전역 공간 구조 관계를 설명한다.
구체적으로, 융합 모듈에서, 셀프 어텐션을 갖는 구조적 지각 기하학적 특징을 얻은 다음, 교차 어텐션을 갖는 관계형 융합 RGB 특징을 얻을 수 있다. 해당 융합 모듈은 단독으로 또는 여러 개 겹쳐서 사용할 수 있다.
구조 인지의 포인트 클라우드 특징의 경우, 셀프 어텐션 모듈을 사용하여 포인트 클라우드 간의 종속성(dependency)을 설정한다. 다중 스케일의 포인트 클라우드 특징을 수집하기 위해, 하위 레벨의 다중 스케일 포인트 클라우드 특징을 동일한 해상도로 업샘플링(upsampling)하고, 특징 스플라이싱(splicing)을 수행한다. 도 3c 및 도 3d에 도시된 바와 같이, 다중 스케일의 특징이 스플라이싱된 후, 다중 레이어 퍼셉트론(perceptron)을 사용하여 특징 차원을 고정된 특징 차원으로 압축한다.
여기에서, 셀프 어텐션 모듈은 포인트 클라우드 특징을 입력으로 사용하고, 선형 작업을 통해 프로젝션을 수행하여 쿼리, 키 및 값을 생성할 수 있다. 구체적으로, 아래의 수학식 1 내지 4 로 표현될 수 있다.
Figure pat00001
Figure pat00002
Figure pat00003
Figure pat00004
여기에서, m은 어텐션 헤드의 수량이고, 다중 헤드 어텐션 모듈에서, 다중 헤드에서 병렬 계산 어텐션 작업을 수행한다. 각 헤드에서, 어텐션 맵(Am)은 투영된 임베딩 공간의 각 로컬 특징 간에 계산되고, 어텐션 맵에 Vm(값)을 곱하여 인스턴스의 향상된 포인트 클라우드 특징을 얻는다. 각 헤드 포인트 클라우드(Fpm)에서 각 헤드의 특징을 연결(concat)하여 객체 구조를 포괄적으로 모델링한다.
softmax()는 활성화 함수, Qm은 쿼리 벡터,
Figure pat00005
는 키 벡터, Vm은 값 벡터, WQm, WKm 및 WVm은 각각 쿼리 벡터, 키 벡터 및 값 벡터의 가중치 계수이고; T와 d는 어텐션 계산과 관련된 관련 파라미터이다.
관계 인식의 RGB 특징에 대해 3차원 표현을 향상시키기 위해, 해당 포인트 클라우드의 상대 RGB 특징을 적응적으로 선택하는 것을 고려한다. RGB-D 이미지가 정렬되기 때문에, 각 포인트에 해당하는 RGB 특징은 객체의 포인트 위치를 관찰하여 얻을 수 있다. RGB 특징과 포인트 클라우드 특징 간의 상관성 모델을 설정할 때, 역시 멀티 헤드 어텐션 방식을 채택하여 구현한다. 예를 들어, 3차원 포인트 클라우드를 사용하여 저레벨의 다중 스케일의 픽셀 레벨의 RGB 특징을 포인트 레벨로 샘플링할 수 있으며, 그 후 다중 스케일 특징을 스플라이싱한 후, 공유된 다중 레이어 퍼셉트론을 적용하여 상기 포인트 클라우드 특징과 동일한 특징 차원으로 압축한다. 포인트가 희박(scarce)하기 때문에 인접 픽셀에서 컨텍스트 큐를 채택할 때, 각 픽셀의 RGB 특징 맵에 최대 풀링 연산을 사용하여 aggregation 작업 전에 컨텍스트 특징을 aggregation할 수 있다. 구체적으로, 아래의 수학식 5와 같이 표현될 수 있다.
Figure pat00006
멀티 헤드 어텐션 작업은 위에서 설명한 어텐션 계산과 유사하지만, 포인트 레벨의 RGB 특징(Fr)을 키(key)와 값(value)으로 사용하고 포인트 클라우드 특징(Fp)을 쿼리(query)로 사용하여 입력이 조금 다르다.
교차 어텐션 작업에서 학습된 어텐션의 각 요소는 i번째 포인트의 외과 특징과 j번째 포인트의 기하학적 특징 사이의 관계 점수를 나타낸다. 상관 관계가 높을수록 특정 포인트에 해당하는 외관 특징의 기여도가 커짐을 의미한다. 따라서, 학습된 상관성은 중요한 외관 특징을 강조 표시하는 지시자(indication)로 사용된다. 개선된 Fr 및 Fp를 스플라이싱한 후, 선형 변환 레이어로 구성된 피드포워드 네트워크(FFN)에 공급함으로써 객체 인스턴스의 완전한 다중 모달리티 특징을 얻는다. 구체적으로 아래의 수학식 6과 같다:
Figure pat00007
일 실시예에서, 2개의 다중 어텐션 모듈을 사용하여 포인트 및 RGB 특징에서 3D 특징을 추출한다. RGBD 융합 모듈에 의한 특징 융합의 처리는 풍부한 의미론적 외관 특징을 갖는 기하학적 특징을 향상시킬 뿐만 아니라, 전역(grobal) 구조 정보 또한 탐색한다. 이러한 방식으로 네트워크는 로컬 및 글로벌 다중 모달리티 정보를 활용하여 기하학적 표현의 학습을 개선하여 정확한 포즈 추정을 구현할 수 있다.
구체적으로, 단계 B4에서, 어텐션 메커니즘을 기반으로, 상기 포인트 클라우드 복셀 특징 정보, 복셀 위치 특징 정보 및/또는 제1 이미지 복셀 특징 정보에 따라 특징을 융합하여 융합 특징 정보를 획득하는데, 이 때 아래의 단계 B41 내지 B44 중 하나를 포함할 수 있다:
단계 B41: 상기 제1 이미지 복셀 특징 정보, 및 어텐션 메커니즘을 기반으로 상기 복셀 위치 특징 정보, 포인트 클라우드 복셀 특징 정보 및 제1 이미지 복셀 특징 정보를 처리한 후 출력되는 특징 정보에 대해, 교차 어텐션 메커니즘을 통해 특징을 융합하여 융합 특징 정보를 획득한다.
구체적으로, 도 5에 도시된 바와 같이, 셀프 어텐션 모듈은 포인트 클라우드 복셀 특징 정보와 제1 이미지 복셀 특징 정보를 스플라이싱한 후의 특징 정보와 복셀 위치 특징 정보를 입력으로 취하고, 처리된 특징 정보를 교차 어텐션 모듈로 출력한다. 교차 어텐션 모듈은 어텐션 모듈에서 출력된 특징 정보와 제1 이미지 복셀 특징을 입력으로 취한다.
선택적으로, 교차 어텐션 모듈이 입력을 융합한 후, 융합된 특징은 처리를 위해 순방향 특징 추출 네트워크에 입력되고, 융합 특징 정보가 출력된다.
단계 B42: 상기 제1 이미지 복셀 특징 정보, 및 어텐션 메커니즘을 기반으로 상기 포인트 클라우드 복셀 특징 정보를 처리한 후 출력되는 특징 정보에 대해, 교차 어텐션 메커니즘을 통해 특징을 융합하여 융합 특징 정보를 획득한다.
구체적으로, 도 6에 도시된 바와 같이, 셀프 어텐션 모듈은 포인트 클라우드 복셀 특징을 입력으로 취하고, 처리된 특징 정보를 교차 어텐션 모듈로 출력한다. 교차 어텐션 모듈은 어텐션 모듈에서 출력된 특징 정보와 제1 이미지 복셀 특징을 입력으로 취한다.
선택적으로, 교차 어텐션 모듈의 출력은 순방향(forward) 특징 추출 네트워크에 입력되고 최종적으로 융합 특징 정보를 출력한다.
단계 B43: 상기 제1 이미지 복셀 특징 정보, 및 교차 어텐션 메커니즘을 기반으로 상기 포인트 클라우드 복셀 특징 정보를 처리한 후 출력되는 특징 정보에 대해, 셀프 어텐션 메커니즘을 통해 특징을 융합함으로써 융합 특징 정보를 획득한다.
구체적으로, 도 7에 도시된 바와 같이, 교차 어텐션 모듈은 포인트 클라우드 복셀 특징을 입력으로 취하고, 처리된 특징 정보를 셀프 어텐션 모듈로 출력한다. 셀프 어텐션 모듈은 교차 어텐션 모듈에서 출력된 특징 정보와 제1 이미지 복셀 특징을 입력으로 취한다.
선택적으로, 어텐션 모듈의 출력은 순방향 특징 추출 네트워크에 입력되고 최종적으로 융합 특징 정보가 출력된다.
단계 B44: 셀프 어텐션 메커니즘을 기반으로 상기 제1 이미지 복셀 특징 정보를 처리한 후 출력되는 특징 정보, 및 교차 어텐션 메커니즘을 기반으로 상기 포인트 클라우드 복셀 특징 정보 및 제1 이미지 복셀 특징 정보를 처리한 후 출력되는 특징 정보에 대해, 특징을 융합함으로써 융합 특징 정보를 획득한다.
구체적으로, 도 8에 도시된 바와 같이, 교차 어텐션 모듈은 포인트 클라우드 복셀 특징과 제1 이미지 복셀 특징을 입력으로 취하고, 셀프 어텐션 모듈은 제1 이미지 복셀 특징을 입력으로 취한다.
선택적으로, 교차 어텐션 모듈에서 출력된 특징 정보와 어텐션 모듈에서 출력된 특징 정보는 특징 스플라이싱된 후 순방향 특징 추출 네트워크에 입력되고, 최종적으로 융합 특징 정보를 출력한다.
교차 어텐션 모듈은 각각 키(key) 또는 쿼리(query)로 처리할 수 있는 두 가지 입력 특징이 있다. 선택적으로, 두 어텐션 모듈의 특징 매핑 방법은 MLP 방법을 채택할 수 있고, 복셀 간의 구조적 정보를 모델링하기 위해 그래프 컨볼루션 기반 방법을 채택할 수도 있다. N 개의 어텐션 모듈을 처리한 후, 융합된 3차원 특징(융합 특징 정보)은 순방향 특징 추출 네트워크를 통해 출력될 수 있으며, 이미지 처리 모듈(예측(prediction) 모듈이라고도 함)의 특징 입력으로 사용할 수 있다.
이하, 일 실시예에 따른 이미지 처리 방법을 상세히 설명한다.
일 실시예에서, 단계 S103에서 상기 융합 특징 정보를 기반으로 이미지 처리를 수행하는 단계는, 아래의 단계 C1-C2 중 적어도 하나를 포함할 수 있다:
단계 C1: 상기 융합 특징 정보를 기반으로 포즈 추정 및/또는 사이즈 추정을 수행한다.
구체적으로, 포즈 추정을 위해서 3차원 대상 객체의 방향을 결정한다. 일 실시예에서, 융합 특징 정보를 기반으로 객체의 구조 및 형상을 특징화하고, 객체 특징을 추출하여 모델과 이미지 간의 대응 관계를 설정하여 객체의 공간적 포즈 추정을 실현한다. 포즈 추정 후, 3차원 회전 및 3차원 병진과 같은 6-자유도 포즈를 출력할 수 있다.
구체적으로, 사이즈 추정은 객체의 실제 사이즈를 추정하는데 사용된다. 사이즈 추정 후 물체의 3차원 사이즈를 출력할 수 있다.
도 11c에 도시된 바와 같이, 포즈 추정 및 사이즈 추정 후의 효과 표시도이다.
선택적으로, 포즈 추정 및/또는 사이즈 추정을 수행할 때, 융합 특징 정보에 기반한 처리 외에, 3차원 공간을 더 잘 인지하기 위해 3차원 특징 정보와 결합하여 처리할 수도 있다.
단계 C2: 상기 융합 특징 정보를 기반으로 형상 재구성 및/또는 분할을 수행한다.
구체적으로, 형상 재구성 및 분할은 형상 디코더에 의해 수행될 수 있다. 본 출원의 실시예에서, 형상 디코더의 처리 흐름은 보조 태스크의 분기로 사용될 수 있고, 융합 특징 정보에 기초한 처리 후, 형상 재구성 결과 및 객체 분할 결과를 출력할 수 있다.
일 실시예에서, 단계 C1에서 상기 융합 특징 정보를 기반으로 포즈 추정 및/또는 사이즈 추정을 수행하는 단계는, 단계 C11 내지 C13을 포함한다:
단계 C11: 융합 특징 정보를 기반으로 3차원 객체 검출을 수행하여 각 객체의 감지 정보를 결정한다.
구체적으로, 도 9에 도시된 바와 같이, 객체 포즈 추정을 수행함에 있어서 전체 이미지의 RGBD 이미지를 2차원 특징 인코더에 대한 입력으로 사용할 수 있다.
여기에서, 포인트 클라우드 데이터를 추출할 때, 객체 영역을 얻기 위해 객체 검출기를 사용하여 입력 이미지를 감지할 필요가 없고, 단일 객체의 공간적 관계만 처리하는 대신 종단간 모델을 사용하여 전역 공간 시나리오 컨텍스트 및 객체 간의 관계를 캡처할 수 있다.
구체적으로, 어텐션 메커니즘 기반의 다중 스케일 융합에 의해 획득된 융합 특징 정보는 먼저 3D 객체 검출기를 통해 시나리오 내의 3D 객체를 검출할 수 있다. 3차원 객체 검출기는 3차원 객체를 포지셔닝하고 객체 범주를 식별할 수 있다. 선택적으로, 3차원 객체 검출기는 시나리오의 객체의 공간적 관계를 학습하기 위해 다중 변환(Tansformer) 모듈을 포함할 수 있다.
단계 C12: 상기 검출 정보를 기반으로 상기 융합 특징 정보를 클리핑 및 샘플링하여 3차원 객체 특징을 획득한다.
구체적으로, 검출된 3차원 객체를 기반으로 융합 특징 정보를 클리핑하고, 일반 3차원 객체 특징으로 샘플링할 수 있다.
단계 C13: 상기 3차원 객체 특징을 기반으로 포즈 추정 및/또는 사이즈 추정을 수행한다.
상기 검출 정보는 위치 정보 및 카테고리 정보를 포함할 수 있다.
일 실시예에서, 단계 C13에서 상기 3차원 객체 특징을 기반으로 포즈 추정 및/또는 사이즈 추정을 수행하는 단계는, 단계 C131-C132를 포함할 수 있다:
단계 C131: 상기 2차원 특징 정보를 투영, 클리핑 및 샘플링한 후, 상기 융합 특징 정보에 대응하는 공간 일치의 제2 이미지 복셀 특징 정보로 변환한다.
구체적으로, 도 9에서 점선으로 나타낸 바와 같이, 2차원 특징 정보를 3차원 공간에 투영하고, 융합 특징 정보가 위치한 공간과 일치하는 이미지 복셀 특징을 클리핑 및 샘플링하여 처리한다.
단계 C132: 상기 3차원 객체 특징과 제2 이미지 복셀 특징 정보를 스플라이싱하여 얻은 특징에 기초하여 포즈 추정 및/또는 사이즈 추정을 수행한다.
구체적으로, 단계 C131에서 획득된 제2 이미지의 복셀 특징 정보는 클리핑 및 샘플링 후의 융합 특징 정보와 결합되어 객체 포즈 추정 및 사이즈 추정을 수행할 수 있다.
클리핑 및 샘플링 후의 특징 정보는 객체 포즈 특징 추출기의 입력으로 사용될 수 있다. 추출된 특징은 포즈 추정기 및 사이즈 추정기에 입력되고, 객체의 6D 포즈 및 3차원 사이즈가 출력된다. 선택적으로, 객체 포즈 특징 추출기는 객체 간의 부분적 관계를 추가로 학습하기 위해 복수의 변환(Transformer) 모듈을 포함할 수 있다.
일 실시예에서, 단계 C2에서 상기 융합 특징 정보에 기초하여 형상 재구성 및/또는 분할을 수행하는 단계는, 다음 단계 C21을 포함할 수 있다:
단계 C21: 융합 특징 정보에 기초하여 형상 재구성 및/또는 분할을 수행하여 재구성된 형상 정보 및/또는 분할 정보를 획득한다.
구체적으로, 다중 스케일의 특징 제안에 있어서, 계단식 모양 디코더를 사용하여 형상 재구성 및 분할을 실현할 수 있다. 도 10에 도시된 바와 같이, 3개의 스케일이 포함된 경우에 대해 설명한다: 3개의 스케일의 융합 특징 정보는 3개의 형상 디코더의 입력으로 사용되고; 여기에서, 형상 디코더 1은 스케일 1의 융합 특징 정보만을 입력하고, 형상 디코더 2의 입력은 형상 디코더 1의 출력과 스케일 2의 융합 특징 정보를 포함하고, 형상 디코더 3의 입력은 형상 디코더 2의 출력 및 스케일 3의 융합 특징 정보을 포함하고; 그 다음, 형상 디코더 3은 마지막 형상 디코더로서, 출력된 형상과 분할 결과는 최종 네트워크 출력 결과로 취해진다.
선택적으로, 도 3b에 도시된 바와 같이, 일 실시예는 영역 간의 공간 의존성 및 구조적 세부사항을 위한 구조 인식 어텐션 융합 네트워크를 제안한다. 여기에서, 대상 형상 재구성 및 분할은 보조 태스크의 하나의 분기로서 네트워크 학습 대상의 내부 구조를 안내하는데 사용될 수 있다. 도 3b에 도시된 바와 같이, 이미지 처리에서 주요 포즈 추정 작업을 수행할 때, 융합 특징 정보와 2차원 특징 정보를 기반으로 포즈 추정 및 사이즈 추정을 수행할 수 있다.
일 실시예에서, 도 3c 및 도 3d에 도시된 바와 같이, 보조 태스크의 설계를 고려하면, 형상 재구성의 신뢰도가 점진적으로 증가될 수 있고, 형상 편차는 감소될 수 있다. 분기를 추가함으로써, 백본 포즈 추정 네트워크에 의해 학습된 다중 모달리티 특징은 클래스 내의 객체 형상의 이해에 더 강건(robust)할 수 있고, 객체 포즈와 사이즈의 보다 더 변별력 있는 특징을 학습할 수 있다. 선택적으로, 형상 인코더에 대응하는 분기는 일 실시예의 보조 태스크로서 선택적으로 사용될 수 있고, 예를 들어, 일부 시나리오에서 객체 형상 및 분할 결과를 출력할 필요가 없는 경우 네트워크 추론 중에 해당 분기 계산을 무시하여 시스템 처리의 효율성을 보장할 수 있다.
도 3c 및 도 3d에 도시된 바와 같이, N은 사용된 ARF 모듈의 수량을 나타내고; 일 실시예에서, N은 3일 수 있다. 인스턴스 분할(Instance segmentation)은 MaskRCNN을 통해 실현될 수 있다.
일 실시예에 따른 ARF-Net는 RGBD 기반의 클래스 레벨 6D 포즈 추정에 사용될 수 있다. 특히, 공간 의존성 및 구조적 세부 사항을 캡처하는데 사용되는 구조 인식 어텐션을 기반으로 하는 융합 모델을 포함한다. 네트워크 학습 대상의 내부 구조를 더 잘 안내하고 네트워크 처리의 정확도와 효율성을 향상시키기 위해 형상 재구성 및 이미지 분할을 위한 보조 태스크 분기를 더 포함할 수 있다. ARF-Net은 클래스 레벨 6D 포즈 및 사이즈 추정을 위해 종단간 어텐션 융합 네트워크에 적용될 수도 있다.
일 실시예에서, 이미지 처리 장치가 제공된다. 도 12에 도시된 바와 같이, 이미지 처리 장치(1200)는 획득 모듈(1201), 융합 모듈(1202) 및 처리 모듈(1203)을 포함할 수 있다.
획득 모듈(1201)은, 컬러 이미지 및 깊이 이미지를 기반으로 3차원 특징 정보 및 2차원 특징 정보를 획득하고; 어텐션 메커니즘을 기반으로 상기 3차원 특징 정보와 2차원 특징 정보를 융합하여 융합 특징 정보를 획득하고; 상기 융합 특징 정보를 기반으로 이미지 처리를 수행하도록 구성된다.
일 실시예에서, 융합 모듈(1202)은 어텐션 메커니즘을 기반으로 상기 3차원 특징 정보와 2차원 특징 정보를 융합하여 융합 특징 정보를 획득할 때, 구체적으로 다음 동작을 수행하도록 구성된다:
어텐션 메커니즘을 기반으로, 적어도 하나의 스케일의 3차원 특징 정보와 적어도 하나의 스케일의 2차원 특징 정보를 융합하여 융합 특징 정보를 획득하는 동작.
일 실시예에서, 융합 모듈(1202)은 어텐션 메커니즘을 기반으로 상기 3차원 특징 정보와 2차원 특징 정보를 융합하여 융합 특징 정보를 획득할 때, 어느 한 스케일의 3차원 특징 정보 및 2차원 특징 정보에 대해 다음 동작을 수행하도록 구성된다:
어텐션 메커니즘을 기반으로 현재 스케일의 3차원 특징 정보와 현재 스케일의 2차원 특징 정보에 대해 특징 융합을 진행하여, 현재 스케일의 융합 특징 정보를 획득하는 동작 - 현재 스케일의 3차원 특징 정보는 이전 스케일의 융합 특징 정보 및 이전 스케일의 3차원 특징 정보에 따라 결정됨 -; 현재 스케일의 2차원 특징 정보는 이전 스케일의 2차원 특징 정보에 따라 결정되는 동작.
일 실시예에서, 융합 모듈(1202)은 어텐션 메커니즘을 기반으로 상기 3차원 특징 정보와 2차원 특징 정보를 융합하여 융합 특징 정보를 획득할 때, 구체적으로 다음 동작을 수행하도록 구성된다:
상기 3차원 특징 정보에 따라 포인트 클라우드 복셀(voxel) 특징 정보 및/또는 복셀 위치 특징 정보를 획득하는 동작;
상기 2차원 특징 정보에 따라 제1 이미지 복셀 특징 정보를 획득하는 동작; 및
어텐션 메커니즘을 기반으로, 상기 포인트 클라우드 복셀 특징 정보, 복셀 위치 특징 정보 및/또는 제1 이미지 복셀 특징 정보에 따라 특징을 융합하여 융합 특징 정보를 획득하는 동작.
일 실시예에서, 융합 모듈(1202)은 어텐션 메커니즘을 기반으로, 상기 포인트 클라우드 복셀 특징 정보, 복셀 위치 특징 정보 및/또는 제1 이미지 복셀 특징 정보에 따라 특징을 융합하여 융합 특징 정보를 획득하도록 구성될 때, 구체적으로 다음 동작 중 하나를 실행하도록 구성된다:
제1 이미지 복셀 특징 정보, 및 어텐션 메커니즘을 기반으로 상기 복셀 위치 특징 정보, 포인트 클라우드 복셀 특징 정보 및 제1 이미지 복셀 특징 정보를 처리한 후 출력되는 특징 정보에 대해, 교차 어텐션 메커니즘을 통해 특징을 융합하여 융합 특징 정보를 획득하는 동작;
제1 이미지 복셀 특징 정보, 및 어텐션 메커니즘을 기반으로 상기 포인트 클라우드 복셀 특징 정보를 처리한 후 출력되는 특징 정보에 대해, 교차 어텐션 메커니즘을 통해 특징을 융합하여 융합 특징 정보를 획득하는 동작;
제1 이미지 복셀 특징 정보, 및 교차 어텐션 메커니즘을 기반으로 상기 포인트 클라우드 복셀 특징 정보를 처리한 후 출력되는 특징 정보에 대해, 셀프 어텐션 메커니즘을 통해 특징을 융합하여 융합 특징 정보를 획득하는 동작;
셀프 어텐션 메커니즘을 기반으로 제1 이미지 복셀 특징 정보를 처리한 후 출력되는 특징 정보, 및 교차 어텐션 메커니즘을 기반으로 상기 포인트 클라우드 복셀 특징 정보 및 제1 이미지 복셀 특징 정보를 처리한 후 출력되는 특징 정보에 대해, 특징을 융합하여 융합 특징 정보를 획득하는 동작.
일 실시예에서, 처리 모듈(1203)은 상기 융합 특징 정보를 기반으로 이미지 처리를 수행할 때, 구체적으로 다음 동작 중 적어도 하나를 수행하도록 구성된다:
상기 융합 특징 정보를 기반으로 포즈 추정 및/또는 사이즈 추정을 수행하는 동작; 또는
상기 융합 특징 정보를 기반으로 형상 재구성 및/또는 분할을 수행하는 동작.
일 실시예에서, 처리 모듈(1203)은 상기 융합 특징 정보를 기반으로 형상 재구성 및/또는 분할을 수행하도록 구성되고, 구체적으로: 융합 특징 정보를 기반으로 형상 재구성 및/또는 분할을 수행하여 재구성된 형상 정보 및/또는 분할 정보를 획득하도록 구성될 수 있다.
일 실시예에 따른 장치는 본 개시에 따른 방법을 수행할 수 있고, 그 구현 원리들은 유사하다. 다양한 실시예들에 따른 장치의 각 모듈에 의해 수행되는 동작은 본 개시에 따른 방법의 단계에 대응할 수 있다. 장치의 각 모듈에 대한 자세한 기능 설명은 앞서 설명한 해당 방법의 설명을 참조할 수 있으므로, 여기서 더는 반복하지 않는다.
일 실시예에 따르면, 프로세서 및 프로세서에 의해 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하는 전자 장치가 제공된다. 프로세서는 이미지 처리 방법의 단계를 실현하기 위해 상기 컴퓨터 프로그램을 실행한다. 일 실시예에서, 입력 이미지에 대해, 먼저 입력 이미지의 컬러 이미지 및 깊이 이미지에 기초하여 적어도 하나의 스케일의 3차원 특징 정보 및 2차원 특징 정보를 획득하고, 3차원 특징 및 2차원 특징 정보를 특징 융합한 후 융합 특징 정보를 획득할 수 있고, 특징 융합은 어텐션 메커니즘에 의해 실현된다. 또한, 융합 특징 정보를 기반으로 이미지를 처리한다. 해당 방안의 구현은 특징 융합을 통해 다중 모달리티의 융합 특징 정보를 획득하고, 이를 통해 다중 모달리티 정보에 기반한 이미지 처리를 실현한다. 단일 모달리티 정보에 기반한 이미지 처리와 비교할 때, 일 실시예에 따른 전자 장치는 이미지 처리의 정확도를 향상시킬 수 있다. 또한, 증강 현실의 응용 시나리오 등에서, 일 실시예에 따른 전자 장치는 3차원 정보를 인식하는 능력을 향상시켜 시스템의 처리 효율성과 견고성을 향상시킬 수 있다.
선택 가능한 실시예에서, 전자 장치가 제공된다. 도 13에 도시된 바와 같이, 도 13에 도시된 전자 장치(1300)는 프로세서(1301) 및 메모리(1303)를 포함한다. 프로세서(1301)는, 예를 들어 버스(1302)를 통해 메모리(1303)에 연결된다. 선택적으로, 전자 장치(1300)는 트랜시버(1304)를 더 포함할 수 있으며, 트랜시버(1304)는 데이터 송신 및/또는 데이터 수신과 같은 전자 장치와 다른 전자 장치 간의 데이터 상호작용을 위해 사용될 수 있다. 실제 응용에서 트랜시버(1304)는 하나로 제한되지 않으며, 해당 전자 장치(1300)의 구조는 본 개시에 대한 제한이 아님에 유의해야 한다.
프로세서(1301)는 CPU, 범용 프로세서, DSP, 주문형 집적 회로(ASIC), 필드 프로그램 가능 게이트 어레이(FPGA) 또는 기타 프로그램 가능 논리 장치, 트랜지스터 논리 장치, 하드웨어 구성 요소, 또는 이들의 임의의 조합일 수 있다. 이는 본 개시에서 설명된 다양한 예시적 논리 블록, 모듈 및 회로를 구현하거나 실행할 수 있다. 프로세서(1301)는 또한, 예를 들어, 하나 이상의 마이크로프로세서 조합, DSP와 마이크로프로세서의 조합 등을 포함하는 컴퓨팅 기능을 실현하는 조합일 수 있다.
버스(1302)는 상기 구성요소들 사이에서 정보를 전달하기 위한 경로를 포함할 수 있다. 버스(1302)는 PCI(Peripheral Component Interconnect) 버스 또는 EISA(Extended Industry Standard Architecture) 버스일 수 있다. 버스(1302)는 어드레스 버스, 데이터 버스, 제어 버스 등으로 구분될 수 있다. 예시의 편의를 위해, 도 13에는 굵은 선 하나만 도시하였으나, 버스가 하나 또는 한 종류만 있는 것은 아니다.
메모리(1303)는 읽기 전용 메모리(ROM) 또는 정적 정보 및 명령을 저장할 수 있는 다른 유형의 정적 저장 장치, 랜덤 액세스 메모리(RAM) 또는 정보 및 명령을 저장할 수 있는 다른 유형의 동적 저장 장치일 수 있고, EEPROM, CD-ROM 또는 기타 광 디스크 스토리지, 광 디스크 스토리지(압축 광 디스크, 레이저 디스크, 광 디스크, 디지털 다목적 디스크, 블루 레이 디스크 등 포함), 디스크 저장 매체, 기타 자기 저장 장치 또는 컴퓨터 프로그램을 운반하거나 저장하는데 사용할 수 있고 컴퓨터에서 읽을 수 있는 기타 모든 매체일 수도 있으며, 여기서 이에 대해 제한하지는 않는다.
메모리(1303)는 일 실시예를 실행하기 위한 컴퓨터 프로그램을 저장하고, 프로세서(1301)에 의해 제어된다. 프로세서(1301)는 메모리(1303)에 저장된 컴퓨터 프로그램을 실행하여 전술한 방법 실시예에 도시된 단계들을 실현하도록 구성된다.
전자 장치는 스마트 폰, 태블릿 컴퓨터, 노트북, 스마트 스피커, 스마트 워치, 차량 탑재 장치 등을 포함하나 이에 국한되지는 않는다.
여기에 개시된 일 실시예들은 컴퓨터 프로그램이 저장된 컴퓨터 판독가능 저장 매체를 제공한다. 컴퓨터 프로그램은 프로세서에 의해 실행될 때, 전술한 방법의 실시예들 및 대응하는 내용을 수행할 수 있다.
일 실시예에 따르면, 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품이 더 제공된다. 컴퓨터 프로그램은 프로세서에 의해 실행될 때, 전술한 방법 실시예의 단계 및 대응하는 내용을 수행할 수 있다.
일 실시예에서, 전자 장치에 의해 수행되는 상기 장치의 포즈 추정 방법은 인공 지능 모델을 이용하여 수행될 수 있다.
일 실시예에 따르면, 전자 장치에서 실행되는 해당 방법은 이미지 데이터 또는 비디오 데이터를 인공 지능 모델의 입력 데이터로 이용하여 이미지 또는 이미지 내의 이미지 특징을 식별하는 출력 데이터를 획득할 수 있다. 인공 지능 모델은 훈련(training)을 통해 얻을 수 있다. 여기서, “훈련을 통한 획득”은 훈련 알고리즘을 통해 복수의 훈련 데이터로 기본 인공지능 모델을 훈련하여 원하는 특징(또는 목적)을 수행하도록 구성된 사전 정의된 동작 규칙 또는 인공지능 모델을 얻는 것을 의미한다. 인공 지능 모델은 다중 신경망(neural network) 레이어를 포함할 수 있다. 복수의 신경망 레이어의 각 레이어는 복수의 가중치 값을 포함하고, 신경망 계산은 이전 레이어의 계산 결과와 복수의 가중치 값 사이의 계산에 의해 수행된다.
시각적 이해는 인간의 시각처럼 사물을 인식하고 처리하는 기술로서, 예를 들어 객체 인식, 객체 추적, 이미지 검색, 인간 인식, 시나리오 인식, 3D 재구성/포지셔닝 또는 이미지 향상을 포함할 수 있다.
일 실시예에 따른 이미지 처리 장치는, AI 모델을 통해 복수의 모듈 중 적어도 하나의 모듈을 구현할 수 있다. AI와 관련된 기능은 비휘발성 메모리, 휘발성 메모리 및 프로세서에 의해 수행될 수 있다.
프로세서는 하나 이상의 프로세서를 포함할 수 있다. 하나 이상의 프로세서는 범용 프로세서(예, 중앙 처리 장치(CPU), 응용 프로세서(AP) 등) 또는 순수 그래픽 처리 장치(예, 그래픽 처리 장치(GPU), 시각 처리 장치(VPU)), 및/또는 AI 전용 프로세서(예, 신경 처리 장치(NPU))일 수 있다.
하나 이상의 프로세서는 비휘발성 메모리 및 휘발성 메모리에 저장된 사전 정의된 동작 규칙 또는 인공 지능(AI) 모델에 따라 입력 데이터의 처리를 제어한다. 훈련 또는 학습을 통해 사전 정의된 동작 규칙 또는 인공 지능 모델을 제공한다.
여기서, 학습에 의한 제공은 복수의 학습 데이터에 학습 알고리즘을 적용하여 사전 정의된 동작 규칙 또는 원하는 특성을 갖는 AI 모델을 얻는 것을 의미한다. 이러한 학습은 실시예에 따른 AI가 수행되는 장치 자체에서 수행될 수 있고, 및/또는 별도의 서버/시스템에 의해 구현될 수 있다.
AI 모델은 복수의 신경망 레이어로 구성될 수 있다. 각 레이어는 복수의 가중치 값을 갖고, 하나의 레이어의 계산은 이전 레이어의 계산 결과와 현재 레이어의 복수의 가중치에 의해 수행된다. 신경망의 예시로, 컨볼루션 신경망(CNN), 심층 신경망(DNN), 순환 신경망(RNN), 제한된 볼츠만 머신(RBM), 심층 신뢰망(DBN), 양방향 순환 심층 신경망(BRDNN), 생성 대응 네트워크(GAN) 및 심층 Q 네트워크를 포함하나 이에 제한되지 않는다.
학습 알고리즘은 복수의 학습 데이터를 이용하여 소정의 타겟 장치(예, 로봇)를 훈련시켜 타겟 장치를 결정 또는 예측하도록 유도, 허용 또는 제어하는 방법이다. 학습 알고리즘의 예시는 지도 학습(supervised learning), 비지도 학습, 반 지도 학습 또는 강화 학습을 포함하나 이에 국한되지는 않는다.
일 실시예에 따른 흐름도에서 각각의 동작 단계가 화살표로 표시되지만, 이들 단계의 실행 순서는 화살표로 표시된 순서에 제한되지 않는다는 점을 이해해야 한다. 본문에 명시적으로 언급되지 않는 한, 일 실시예의 일부 구현 시나리오에서, 각 흐름도의 구현 단계는 요구 사항에 따라 다른 순서로 실행될 수 있다. 또한, 각 흐름도의 일부 또는 모든 단계는 실제 구현 시나리오에 따라 여러 하위 단계 또는 여러 단계가 포함될 수 있다. 이러한 하위 단계 또는 단계의 일부 또는 전부는 동시에 실행될 수 있고, 이러한 하위 단계 또는 단계의 각 하위 단계 또는 단계는 각각 서로 다른 시간에 실행될 수 있다. 실행 시간이 서로 다른 시나리오에서, 이러한 하위 단계 또는 단계의 실행 순서는 요구 사항에 따라 유연하게 구성될 수 있으며, 본 출원의 실시예는 이에 대해 제한하지 않는다.
위의 설명은 일부 구현 시나리오에 대한 선택 가능한 실시예로서, 본 기술분야의 통상의 지식을 가진 자가 본 개시에 따른 일 실시예에 기재된 기술적 사상에 기초하여 다른 유사한 구현 수단을 채택하는 것 또한 본 개시의 보호 범위에 속한다.

Claims (13)

  1. 이미지 처리 방법에 있어서,
    컬러 이미지 및 깊이 이미지를 기반으로 3차원 특징 정보 및 2차원 특징 정보를 획득하는 단계;
    어텐션(attention) 메커니즘을 기반으로 상기 3차원 특징 정보와 상기 2차원 특징 정보를 융합하여 융합(fused) 특징 정보를 획득하는 단계; 및
    상기 융합 특징 정보를 기반으로 이미지 처리를 수행하는 단계
    를 포함하는, 이미지 처리 방법.
  2. 제1항에 있어서,
    상기 융합 특징 정보는,
    적어도 하나 이상의 스케일(scale)의 상기 3차원 특징 정보와, 적어도 하나 이상의 스케일의 상기 2차원 특징 정보를 융합하여 획득된 것인,
    이미지 처리 방법.
  3. 제2항에 있어서,
    상기 융합 특징 정보를 획득하는 단계는,
    어느 하나의 스케일의 상기 3차원 특징 정보 및 어느 하나의 스케일의 상기 2차원 특징 정보에 대해:
    상기 어텐션 메커니즘을 기반으로 현재(current) 스케일의 3차원 특징 정보와 현재 스케일의 2차원 특징 정보에 대해 특징 융합을 진행하여, 현재 스케일의 융합 특징 정보를 획득하는 단계 - 상기 현재 스케일의 3차원 특징 정보는 이전(previous) 스케일의 융합 특징 정보 및 상기 이전 스케일의 3차원 특징 정보에 따라 결정되고, 상기 현재 스케일의 2차원 특징 정보는 이전 스케일의 2차원 특징 정보에 따라 결정됨 -
    를 포함하는, 이미지 처리 방법.
  4. 제1항에 있어서,
    상기 융합 특징 정보를 획득하는 단계는,
    상기 3차원 특징 정보에 따라 포인트 클라우드 복셀(voxel) 특징 정보 및/또는 복셀 위치 특징 정보를 획득하는 단계;
    상기 2차원 특징 정보에 따라 제1 이미지 복셀 특징 정보를 획득하는 단계; 및
    상기 어텐션 메커니즘을 기반으로, 상기 포인트 클라우드 복셀 특징 정보, 복셀 위치 특징 정보 및/또는 상기 제1 이미지 복셀 특징 정보에 따라 특징을 융합하여 융합 특징 정보를 획득하는 단계;
    를 포함하는, 이미지 처리 방법.
  5. 제4항에 있어서,
    상기 어텐션 메커니즘을 기반으로, 상기 포인트 클라우드 복셀 특징 정보, 상기 복셀 위치 특징 정보 및/또는 상기 제1 이미지 복셀 특징 정보에 따라 상기 특징을 융합하여 상기 융합 특징 정보를 획득하는 단계는,
    상기 제1 이미지 복셀 특징 정보, 및 상기 어텐션 메커니즘을 기반으로 상기 복셀 위치 특징 정보, 상기 포인트 클라우드 복셀 특징 정보 및 상기 제1 이미지 복셀 특징 정보를 처리한 후 출력되는 특징 정보에 대해, 교차 어텐션 메커니즘을 통해 특징을 융합하여 상기 융합 특징 정보를 획득하는 단계;
    상기 제1 이미지 복셀 특징 정보, 및 상기 어텐션 메커니즘을 기반으로 상기 포인트 클라우드 복셀 특징 정보를 처리한 후 출력되는 상기 특징 정보에 대해, 상기 교차 어텐션 메커니즘을 통해 특징을 융합하여 상기 융합 특징 정보를 획득하는 단계;
    상기 제1 이미지 복셀 특징 정보, 및 상기교차 어텐션 메커니즘을 기반으로 상기 포인트 클라우드 복셀 특징 정보를 처리한 후 출력되는 상기 특징 정보에 대해, 셀프 어텐션 메커니즘을 통해 특징을 융합하여 상기 융합 특징 정보를 획득하는 단계; 또는
    상기 셀프 어텐션 메커니즘을 기반으로 상기 제1 이미지 복셀 특징 정보를 처리한 후 출력되는 특징 정보, 및 상기 교차 어텐션 메커니즘을 기반으로 상기 포인트 클라우드 복셀 특징 정보 및 상기 제1 이미지 복셀 특징 정보를 처리한 후 출력되는 상기 특징 정보에 대해, 특징을 융합하여 상기 융합 특징 정보를 획득하는 단계;
    중 어느 하나를 포함하는, 이미지 처리 방법.
  6. 제1항에 있어서,
    상기 융합 특징 정보를 기반으로 이미지 처리를 수행하는 단계는,
    상기 융합 특징 정보를 기반으로 포즈 추정 및/또는 사이즈 추정을 수행하는 단계; 또는
    상기 융합 특징 정보를 기반으로 형상 재구성 및/또는 분할을 수행하는 단계
    중 적어도 하나 이상을 포함하는, 이미지 처리 방법.
  7. 제6항에 있어서,
    상기 융합 특징 정보를 기반으로 상기 형상 재구성 및/또는 분할을 수행하는 단계는,
    상기 형상 재구성 및/또는 분할을 수행하여 형상 정보 및/또는 분할 정보를 획득하는 단계
    를 포함하는, 이미지 처리 방법.
  8. 이미지 처리 장치에 있어서,
    컬러 이미지 및 깊이 이미지를 기반으로 3차원 특징 정보 및 2차원 특징 정보를 획득하도록 구성된 획득 모듈;
    어텐션 메커니즘을 기반으로 상기 3차원 특징 정보와 상기 2차원 특징 정보를 융합하여 융합 특징 정보를 획득하도록 구성된 융합 모듈; 및
    상기 융합 특징 정보를 기반으로 이미지 처리를 수행하도록 구성된 처리 모듈
    을 포함하는, 이미지 처리 장치.
  9. 제8항에 있어서,
    상기 융합 특징 정보는,
    적어도 하나 이상의 스케일(scale)의 상기 3차원 특징 정보와, 적어도 하나 이상의 스케일의 상기 2차원 특징 정보를 융합하여 획득된 것인,
    이미지 처리 장치.
  10. 제8항에 있어서,
    상기 융합 모듈은,
    상기 3차원 특징 정보에 따라 포인트 클라우드 복셀(voxel) 특징 정보 및/또는 복셀 위치 특징 정보를 획득하는 동작;
    상기 2차원 특징 정보에 따라 제1 이미지 복셀 특징 정보를 획득하는 동작; 및
    상기 어텐션 메커니즘을 기반으로, 상기 포인트 클라우드 복셀 특징 정보, 복셀 위치 특징 정보 및/또는 상기 제1 이미지 복셀 특징 정보에 따라 특징을 융합하여 융합 특징 정보를 획득하는 동작
    을 수행하도록 구성되는,
    이미지 처리 장치.
  11. 제8항에 있어서,
    상기 처리 모듈은,
    상기 융합 특징 정보를 기반으로 포즈 추정 및/또는 사이즈 추정을 수행하는 동작; 또는
    상기 융합 특징 정보를 기반으로 형상 재구성 및/또는 분할을 수행하는 동작
    중 적어도 하나 이상을 수행하도록 구성되는, 이미지 처리 방법.
  12. 전자 장치에 있어서,
    하나 이상의 프로세서; 및
    상기 하나 이상의 프로세서에 의해 실행되도록 구성되고, 제1항 내지 제7항 중 어느 한 항에 따른 방법을 실행하도록 구성되는 하나 이상의 컴퓨터 프로그램을 저장하는 메모리
    를 포함하는,
    전자 장치.
  13. 컴퓨터 상에서 실행될 때 컴퓨터가 제1항 내지 제7항 중 어느 한 항에 따른 방법을 실행하도록 하는 컴퓨터 명령을 저장하는 컴퓨터 판독 가능 저장 매체.

KR1020220111206A 2021-11-15 2022-09-02 이미지 처리 방법 및 장치 KR20230071052A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP22207194.6A EP4181079A1 (en) 2021-11-15 2022-11-14 Method and apparatus with multi-modal feature fusion
JP2022182118A JP2023073231A (ja) 2021-11-15 2022-11-14 イメージ処理方法及び装置
US17/987,060 US20230154170A1 (en) 2021-11-15 2022-11-15 Method and apparatus with multi-modal feature fusion

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111348242.6 2021-11-15
CN202111348242.6A CN116152334A (zh) 2021-11-15 2021-11-15 图像处理方法及相关设备

Publications (1)

Publication Number Publication Date
KR20230071052A true KR20230071052A (ko) 2023-05-23

Family

ID=86351076

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220111206A KR20230071052A (ko) 2021-11-15 2022-09-02 이미지 처리 방법 및 장치

Country Status (2)

Country Link
KR (1) KR20230071052A (ko)
CN (1) CN116152334A (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612129A (zh) * 2023-06-02 2023-08-18 清华大学 适用于恶劣环境的低功耗自动驾驶点云分割方法及装置
CN117853695B (zh) * 2024-03-07 2024-05-03 成都信息工程大学 基于局部空间自注意力的3d感知图像合成方法和装置

Also Published As

Publication number Publication date
CN116152334A (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
Li et al. Monocular real-time volumetric performance capture
Chen et al. Spatial information guided convolution for real-time RGBD semantic segmentation
JP2023073231A (ja) イメージ処理方法及び装置
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
US20230410329A1 (en) Scalable Real-Time Hand Tracking
Ren et al. A coarse-to-fine indoor layout estimation (cfile) method
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
Zeng et al. Joint 3d layout and depth prediction from a single indoor panorama image
KR20230071052A (ko) 이미지 처리 방법 및 장치
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
US20220222832A1 (en) Machine learning framework applied in a semi-supervised setting to perform instance tracking in a sequence of image frames
WO2023142602A1 (zh) 图像处理方法、装置和计算机可读存储介质
Szczuko Deep neural networks for human pose estimation from a very low resolution depth image
CN118284905A (zh) 用于3d场景的可泛化语义分割的神经语义场
Afifi et al. Object depth estimation from a single image using fully convolutional neural network
Kaskman et al. 6 dof pose estimation of textureless objects from multiple rgb frames
CN117576248B (zh) 基于姿态引导的图像生成方法和装置
Tang et al. SDRNet: An end-to-end shadow detection and removal network
Shao et al. Efficient three-dimensional point cloud object detection based on improved Complex-YOLO
Shen et al. ImLiDAR: cross-sensor dynamic message propagation network for 3D object detection
Purps et al. Reconstructing facial expressions of hmd users for avatars in vr
US11961249B2 (en) Generating stereo-based dense depth images
US20220180548A1 (en) Method and apparatus with object pose estimation
US20220198707A1 (en) Method and apparatus with object pose estimation
CN113192085A (zh) 三维器官图像分割方法、装置及计算机设备