WO2023120743A1

WO2023120743A1 - 포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법

Info

Publication number: WO2023120743A1
Application number: PCT/KR2021/019369
Authority: WO
Inventors: 최충재; 안일엽; 정성욱
Original assignee: 한국전자기술연구원
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2023-06-29
Also published as: KR20230093592A

Abstract

포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법이 제공된다. 본 발명의 실시예에 따른 객체 인지 모델 학습 방법은, 3차원 영상 데이터를 입력받고, 입력된 3차원 영상의 컨텍스트를 추정하며, 추정된 컨텍스트에 매칭되는 객체 그룹을 선택하고, 선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하며, 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하고, 입력된 3차원 영상 데이터를 이용하여 설정된 객체 인지 모델을 학습시킨다. 이에 의해, 영상 컨텍스트에 따라 인식할 관심 객체들을 제한하고, 관심 객체의 클래스에 따라 적용할 앵커 박스를 적응적으로 결정하여, 객체 인지 모델을 생성하고 설정하여 학습시킴으로써, 트레이드 오프 관계에 있는 객체 인지 모델의 정확도와 속도 모두를 향상시킬 수 있게 된다.

Description

포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법

본 발명은 인공지능 기술에 관한 것으로, 더욱 상세하게는 경량화 딥러닝 기반으로 포인트 클라우드 데이터로부터 3차원 객체를 빠르고 정확하게 인지하는 방법에 관한 것이다.

차량이나 로봇의 자율주행을 위해, 3D 센서, 이를 테면, LiDAR를 통해 수집된 포인트 클라우드 데이터에 대해, 도 1에 도시된 바와 같이, 특정 형태로 변환한 후에 딥러닝 기반으로 3D 객체를 인지하고, 객체의 3D 좌표(position, depth)를 추정하는 기술이 이용된다.

이를 위해서는 도 2에 도시된 바와 같이 사용자가 정한 구조로 딥러닝 기반의 객체 인지 모델을 생성하고, 도 3에 도시된 바와 같이 분류하고자 하는 객체 클래스(Object class)를 사용자가 결정한 후에, 도 4에 도시된 바와 같이 사용자가 정한 앵커 박스를 이용하여 객체 인지 모델을 학습시켜야 한다.

학습 과정은 도 5에 제시된 바와 같이, 트레이닝 데이터인 포인트 클라우드 데이터를 입력받아, BEV(Bird Eye View) 영상으로 변환한 후에, 위에서 사용자가 정한 대로 객체 인지 모델을 설정한 후에, 변환된 BEV 영상으로 객체 인지 모델을 학습시키는 과정에 따른다.

문제는 객체 인지 모델의 낮은 정확도이다. 여러 가지 원인이 있겠지만, 하나의 객체 인지 모델로 하여금 여러 종류의 객체를 인지하도록 학습시키는 것이 원인 중 하나이다.

또한, 인지해야 할 객체들은 매우 다양함에 반해 앵커 박스의 규격이 편협하다는 점도 중요한 원인이 된다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 객체 인지 모델의 정확도와 속도를 모두 향상시키기 위한 방안으로, 영상 컨텍스트에 따라 인식할 관심 객체들을 제한하고, 관심 객체의 클래스에 따라 적용할 앵커 박스를 적응적으로 결정하여, 객체 인지 모델을 생성하고 설정하여 학습시키는 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 객체 인지 모델 학습 방법은, 3차원 영상 데이터를 입력받는 단계; 입력된 3차원 영상의 컨텍스트를 추정하는 단계; 추정된 컨텍스트에 매칭되는 객체 그룹을 선택하는 단계; 선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하는 단계; 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하는 단계; 및 입력된 3차원 영상 데이터를 이용하여, 설정된 객체 인지 모델을 학습시키는 단계;를 포함한다.

또한, 결정 단계는, 객체들 마다 각기 다르게 정해진 앵커 박스들로 결정할 수 있다. 그리고, 결정 단계는, 앵커 박스들의 가로와 세로 비율을 결정할 수 있다.

추정 단계는, 입력된 3차원 영상 데이터로부터 특징들을 추출하는 단계; 및 추출한 특징들을 기초로, 영상의 컨텍스트를 추정하는 단계;를 포함할 수 있다.

영상의 특징들은, 영상에 등장하는 객체들의 기하학적 특징들일 수 있다.

추정 단계는, 영상에 등장하는 객체들의 기하학적 특징들을 DB에 저장된 다수의 컨텍스트들에 각각 매핑되어 있는 기하학적 특징들과 비교하여, 하나의 컨텍스트를 선택할 수 있다.

컨텍스트는, 3차원 영상이 촬영된 환경을 나타낼 수 있다. 객체 인지 모델은, 컨텍스트 마다 생성될 수 있다. 3차원 영상 데이터는, 포인트 클라우드 데이터일 수 있다.

한편, 본 발명의 다른 실시예에 따른, 객체 인지 모델 시스템은, 3차원 영상 데이터를 입력받는 입력부; 및 입력된 3차원 영상의 컨텍스트를 추정하고, 추정된 컨텍스트에 매칭되는 객체 그룹을 선택하며, 선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하고, 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하며, 입력부를 통해 입력된 3차원 영상 데이터를 이용하여 설정된 객체 인지 모델을 학습시키는 프로세서;를 포함한다.

한편, 본 발명의 다른 실시예에 따른, 객체 인지 모델 생성 방법은, 3차원 영상의 컨텍스트를 추정하는 단계; 추정된 컨텍스트에 매칭되는 객체 그룹을 선택하는 단계; 선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하는 단계; 및 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하는 단계;를 포함한다.

한편, 본 발명의 다른 실시예에 따른, 컴퓨터로 읽을 수 있는 기록매체에는, 3차원 영상 데이터를 입력받는 단계; 입력된 3차원 영상의 컨텍스트를 추정하는 단계; 추정된 컨텍스트에 매칭되는 객체 그룹을 선택하는 단계; 선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하는 단계; 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하는 단계; 및 입력된 3차원 영상 데이터를 이용하여, 설정된 객체 인지 모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는 객체 인지 모델 학습 방법을 수행할 수 있는 프로램이 기록된다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 영상 컨텍스트에 따라 인식할 관심 객체들을 제한하고, 관심 객체의 클래스에 따라 적용할 앵커 박스를 적응적으로 결정하여, 객체 인지 모델을 생성하고 설정하여 학습시킴으로써, 트레이드 오프 관계에 있는 객체 인지 모델의 정확도와 속도 모두를 향상시킬 수 있게 된다.

이는, 서비스 제공자 측면에서 데이터 처리시간의 단축(신속한 서비스 제공)과 연산자원과 저장공간의 감소(비용절감)를 기대할 수 있도록 하고, 서비스 이용자 측면에서 모바일/임베디드 기기에서 신속한 서비스를 가능하게 하고 자율주행차 및 로봇의 실시간 객체인식 연산을 가능하게 한다.

도 1은 딥러닝 기반 객체 3D 좌표 인지 기술을 예시한 도면,

도 2는 객체 인지 모델을 예시한 도면,

도 3은 클래스 정의를 예시한 도면,

도 4는 앵커 박스를 예시한 도면,

도 5는 학습 과정을 예시한 도면,

도 6은 본 발명의 일 실시예에 따른 3차원 객체 인지 모델의 컨텍스트 별 학습 방법의 개념도,

도 7은 본 발명의 일 실시예에 따른 3차원 객체 인지 모델의 컨텍스트 별 학습 방법의 순서도,

도 8은 본 발명의 다른 실시예에 따른 3D 객체 인지 시스템의 블럭도,

도 9는 본 발명의 또 다른 실시예에 따른 3D 객체 인지 방법의 설명에 제공되는 흐름도이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

본 발명의 실시예에서는 포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법을 제시한다.

본 발명의 실시예에서는 영상의 컨텍스트에 따라 인식할 관심 객체의 클래스를 제한하고, 관심 객체에 따라 적용할 앵커 박스의 규격을 적응적으로 결정하여, 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 생성하고 설정하며 학습시킨다.

도 6과 도 7은 본 발명의 일 실시예에 따른 3차원 객체 인지 모델의 컨텍스트 별 학습 방법의 개념도와 순서도이다.

도시된 바와 같이, 먼저, 트레이닝 데이터셋을 구성하는 포인트 클라우드 데이터를 입력받아, BEV(Bird Eye View) 영상으로 변환한다. 도 6의 (1)과 도 7의 S110단계 및 S120단계가 이에 해당한다.

여기서, BEV 영상은 2D 영상 또는 3D 영상 모두 가능하다. 후자의 경우 RGB 영상과 뎁스 영상으로 구성된 3D 영상으로 구성된 BEV 영상을 구현하면 된다.

다음, 변환된 BEV 영상의 컨텍스트를 추정하고, 추정된 컨텍스트에 매칭되는 관심 객체(Object Of Interest : OOI) 그룹을 선택한다. 도 6의 (2)과 도 7의 S130단계의 "1."이 이에 해당한다.

컨텍스트는 영상이 촬영된 환경/장소를 나타낸다. 도 6의 중앙 상부를 참조하면, 컨텍스트로 공장, 공원 및 도로를 언급하고 있다.

또한, 각 컨텍스트에는 관심 객체 그룹이 매칭되어 있다. 관심 객체 그룹은 해당 컨텍스트의 영상에 주로 존재하는 객체들의 집합니다.

도 6의 중앙 상부를 참조하면, 1) 공장에는 관심 객체 그룹으로 {작업차, 지게차} 가 매칭되어 있고, 2) 공원에는 관심 객체 그룹으로 {사람, 벤치, 자전거} 가 매칭되어 있으며, 3) 도로에는 관심 객체 그룹으로 {차량, 버스} 가 매칭되어 있음을 확인할 수 있다.

이후, 선택된 관심 객체 그룹에 포함된 각 객체들에 대한 앵커 박스(Anchor box)들을 결정한다. 앵커 박스는 객체 검출 모델이 객체를 검출하기 위해 영상에서 크기와 방향을 바꾸어 가면서 이동시키는 박스를 말한다. 도 6의 (3)과 도 7의 S130단계의 "2."가 이에 해당한다.

여기서는 앵커 박스의 가로와 세로 비율을 결정한다. 객체들 마다 앵커 박스들은 각기 다르게 결정된다. 도 6의 중앙 하부를 참조하면, 1) 공장 컨텍스트의 관심 객체 그룹에 포함된 작업차, 지게차의 앵커 박스는 각각 10×3, 11×3으로 각각 결정되고, 2) 공원 컨텍스트의 관심 객체 그룹에 포함된 사람, 벤치, 자전거의 앵커 박스는 각각 5×1, 5×5, 2×5로 각각 결정되며, 3) 도로 컨텍스트의 관심 객체 그룹에 포함된 차량, 버스의 앵커 박스는 각각 10×7, 15×7로 각각 결정되었음을 확인할 수 있다.

다음, 위에서 결정한 관심 객체 별 앵커 박스를 로드하여, 객체 인지 모델의 앵커 박스를 설정하고 학습시킨다. 도 6의 (4)와 도 7의 S140단계 내지 S170단계가 이에 해당한다.

도 6의 우측에 도시된 바와 같이 객체 인지 모델은 컨텍스트 별로 구분되어 있다. 즉, 공장 컨텍스트의 영상에서 객체를 인지하기 위한 모델(공장 인지 모델), 공원 컨텍스트의 영상에서 객체를 인지하기 위한 모델(공원 인지 모델), 도로 컨텍스트의 영상에서 객체를 인지하기 위한 모델(도로 인지 모델)은 별개의 객체 인식 모델로 생성된다. 이에 의해, 각 객체 인지 모델은 경량화시킬 수 있다.

한편, 도 7에 도시된 나타난 바와 같이, 해당 컨텍스트의 객체 인지 모델이 이미 생성되어 있다면(S150-Y), 객체 인지 모델을 다시 설정하지 않고 영상 데이터로 학습만 수행한다(S160).

이를 테면, 입력된 영상의 컨텍스트가 공원인데 공원 인지 모델이 이미 생성되어 있다면, 공원 인지 모델에 대한 앵커 박스의 재설정 없이 학습만 수행하는 것이다.

반면, 해당 컨텍스트의 객체 인지 모델이 생성되어 있지 않다면(S150-N), 객체 인지 모델을 생성한 후에 앵커 박스를 설정하고 학습을 수행한다(S170).

이를 테면, 입력된 영상의 컨텍스트가 공장인데 공장 인지 모델이 생성되어 있지 않은 경우, 공장 인지 모델을 생성하고 로드된 앵커 박스에 따라 설정한 후에 학습을 수행하는 것이다.

이하에서는, 영상의 컨텍스트를 추정하는 방법에 대해 상세히 설명한다.

영상의 컨텍스트를 추정하기 위해, 먼저 입력된 영상의 특징들을 추출한다. 영상의 특징들은 영상에 등장하는 객체들의 기하학적 특징들을 의미한다. 궁극적으로 추출하는 기하학적 특징들은, 영상에 등장하는 객체들의 평균 높이(Height), 평균 강도(Intensity), 평균 법선 벡터(Normal vector), 평균 엣지 길이(Edge length)를 포함한다.

구체적으로, 평균 높이는 영상에 등장하는 객체들의 높이들의 평균이고, 평균 강도는 영상에 등장하는 객체들의 강도들의 평균이며, 평균 법선 벡터는 영상에 등장하는 객체들의 법선 벡터들의 평균이고, 평균 엣지 길이는 영상에 등장하는 객체들의 엣지 길이들의 평균이다.

이후, 추출한 특징들을 기초로, 영상의 컨텍스트를 추정하는데, 이를 위해, 먼저, 추출한 특징들을 컨텍스트 맵에 수록된 다수의 컨텍스트들에 각각 매핑되어 있는 기하학적 특징들에 매칭시키면서, 가장 잘 매칭되는 컨텍스트 하나를 선택한다.

이를 테면, 공장 컨텍스트의 경우, 평균 높이는 0.3이고, 평균 강도는 0.2이며, 평균 엣지 길이는 0.07이고, 공원 컨텍스트의 경우, 평균 높이는 0.7이고, 평균 강도는 0.1이며, 평균 엣지 길이는 0.13이며, 도로 컨텍스트의 경우, 평균 높이는 1.2이고, 평균 강도는 0.7이며, 평균 엣지 길이는 0.03인 경우, 입력된 영상으로부터 추출한 기하학적 특징들이, 평균 높이 0.6, 평균 강도 0.1, 평균 엣지 길이 0.15라면, 이와 가장 유사한 기하학적 특징들을 갖는 공원 컨텍스트가 선택될 것이다. 이는, 입력된 영상의 컨텍스트를 공원 컨텍스트로 추정하는 것을 의미한다고 할 수 있다.

도 8은 본 발명의 다른 실시예에 따른 3D 객체 인지 시스템의 블럭도이다. 본 발명의 실시예에 따른 3D 객체 인지 시스템은, 입력부(210), 변환부(220), 관심 객체 DB(230), 프로세서(240), 객체 인지 모델 DB(250) 및 출력부(260)를 포함하여 구성된다.

입력부(210)는 트레이닝 데이터셋 DB로부터 학습용 포인트 클라우드 데이터를 입력받는다. 변환부(220)는 입력부(210)를 통해 입력되는 포인트 클라우드 데이터를 BEV 영상으로 변환한다.

관심 객체 DB(230)는 전술한 컨텍스트 별로 관심 객체 그룹을 매칭시켜 놓은 컨텍스트 - 객체 그룹 테이블과 관심 객체 별로 앵커 박스의 규격을 매칭시켜 놓은 객체 - 앵커 박스 테이블이 저장되어 있는 DB이다.

객체 인지 모델 DB(250)는 컨텍스트 별로 생성/설정/학습되는 객체 인지 모델들이 저장되어 있는 DB이다.

프로세서(240)는 영상의 컨텍스트를 추정하고, 관심 객체 DB(230)를 참조하여 추정된 컨텍스트에 매칭되어 있는 관심 객체 그룹에 포함된 각 객체들에 대한 앵커 박스 규격을 확인한다.

다음, 프로세서(240)는 컨텍스트 별 객체 인식 모델을 생성하고 확인된 앵커 박스 규격으로 설정하여 관심 객체 DB(230)에 저장하고, 저장된 객체 인식 모델을 학습시킨다.

이하에서는, 도 8에 제시된 시스템을 이용하여 3D 객체 인지를 수행하는 과정에 대해 도 9를 참조하여 상세히 설명한다. 도 9는 본 발명의 또 다른 실시예에 따른 3D 객체 인지 방법의 설명에 제공되는 흐름도이다.

도시된 바와 같이, 입력부(210)에 3D 센서(라이다, 다시점 카메라, RGB/Depth 카메라 등)로부터 생성된 포인트 클라우드 데이터가 입력되면(S310). 변환부(220)는 S310단계를 통해 입력된 포인트 클라우드 데이터를 BEV 영상으로 변환한다(S320).

다음, 프로세서(240)는 S320단계에서 변환된 BEV 영상의 컨텍스트를 추정하고(S330), 객체 인지 모델 DB(250)에서 추정된 컨텍스트의 객체 인지 모델을 선택한다(S340).

그리고, 프로세서(240)는 S320단계에서 변환된 BEV 영상을 S340단계에서 선택된 객체 인지 모델에 입력하여 3D 객체 인지를 수행하고(S350), 출력부(260)를 통해 객체 인지 결과를 출력한다.

지금까지, 포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법에 대해 바람직한 실시예를 들어 상세히 설명하였다.

위 실시예에서는, 영상의 컨텍스트에 따라 인식할 관심 객체의 클래스를 제한하고, 관심 객체에 따라 적용할 앵커 박스의 규격을 적응적으로 결정하여, 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 생성하고 설정하며 학습시키는 방법을 제시하였다.

본 발명의 실시예에 따르면, 트레이드 오프 관계에 있는 정확도와 인식 속도 모두를 향상시킬 수 있게 된다.

그리고, 위 실시예에서, 객체 인식 모델은 포인트 클라우드 데이터로부터 객체를 인지하는 것을 상정하였는데, 변형이 가능하다. 예를 들어, 객체 인식 모델이 포인트 클라우드 데이터로부터 추출한 특징들을 입력 받아 객체를 인지하는 것으로 구현하는 것이 가능하다.

나아가, 포인트 클라우드 데이터를 BEV 영상으로 전처리하였는데, 이를 생략할 수 있음은 물론, 다른 방식으로 전처리하는 것도 가능하며, 이 경우에도 본 발명의 기술적 사상이 적용될 수 있다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

3차원 영상 데이터를 입력받는 단계;

입력된 3차원 영상의 컨텍스트를 추정하는 단계;

추정된 컨텍스트에 매칭되는 객체 그룹을 선택하는 단계;

선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하는 단계;

객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하는 단계;

입력된 3차원 영상 데이터를 이용하여, 설정된 객체 인지 모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는 객체 인지 모델 학습 방법.
청구항 1에 있어서,

결정 단계는,

객체들 마다 각기 다르게 정해진 앵커 박스들로 결정하는 것을 특징으로 하는 객체 인지 모델 학습 방법.
청구항 2에 있어서,

결정 단계는,

앵커 박스들의 가로와 세로 비율을 결정하는 것을 특징으로 하는 객체 인지 모델 학습 방법.
청구항 1에 있어서,

추정 단계는,

입력된 3차원 영상 데이터로부터 특징들을 추출하는 단계;

추출한 특징들을 기초로, 영상의 컨텍스트를 추정하는 단계;를 포함하는 것을 특징으로 하는 객체 인지 모델 학습 방법.
청구항 1에 있어서,

영상의 특징들은,

영상에 등장하는 객체들의 기하학적 특징들인 것을 특징으로 하는 객체 인지 모델 학습 방법.
청구항 5에 있어서,

추정 단계는,

영상에 등장하는 객체들의 기하학적 특징들을 DB에 저장된 다수의 컨텍스트들에 각각 매핑되어 있는 기하학적 특징들과 비교하여, 하나의 컨텍스트를 선택하는 것을 특징으로 하는 객체 인지 모델 학습 방법.
청구항 1에 있어서,

컨텍스트는,

3차원 영상이 촬영된 환경을 나타내는 것을 특징으로 하는 객체 인지 모델 학습 방법.
청구항 1에 있어서,

객체 인지 모델은,

컨텍스트 마다 생성되는 것을 특징으로 하는 객체 인지 모델 학습 방법.
청구항 1에 있어서,

3차원 영상 데이터는,

포인트 클라우드 데이터인 것을 특징으로 하는 객체 인지 모델 학습 방법.
3차원 영상 데이터를 입력받는 입력부; 및

입력된 3차원 영상의 컨텍스트를 추정하고, 추정된 컨텍스트에 매칭되는 객체 그룹을 선택하며, 선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하고, 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하며, 입력부를 통해 입력된 3차원 영상 데이터를 이용하여 설정된 객체 인지 모델을 학습시키는 프로세서;를 포함하는 것을 특징으로 하는 객체 인지 시스템.
3차원 영상의 컨텍스트를 추정하는 단계;

추정된 컨텍스트에 매칭되는 객체 그룹을 선택하는 단계;

선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하는 단계; 및

객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하는 단계;를 포함하는 것을 특징으로 하는 객체 인지 모델 생성 방법.
3차원 영상 데이터를 입력받는 단계;

입력된 3차원 영상의 컨텍스트를 추정하는 단계;

추정된 컨텍스트에 매칭되는 객체 그룹을 선택하는 단계;

선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하는 단계;

객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하는 단계; 및

입력된 3차원 영상 데이터를 이용하여, 설정된 객체 인지 모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는 객체 인지 모델 학습 방법을 수행할 수 있는 프로램이 기록된 컴퓨터로 읽을 수 있는 기록매체.