KR102598910B1

KR102598910B1 - 왜곡된 이미지에서 객체를 검출하기 위한 방법, 시스템, 및 장치

Info

Publication number: KR102598910B1
Application number: KR1020200022993A
Authority: KR
Inventors: 린스 햄퍼스; 유안 송; 포베르그 요한
Original assignee: 엑시스 에이비
Priority date: 2019-04-10
Filing date: 2020-02-25
Publication date: 2023-11-03
Also published as: CN111815512A; EP3722991B1; TW202042178A; US20200327691A1; US11682190B2; EP3722991A1; KR20200119712A; JP2020194532A

Abstract

본 발명은 슬라이딩 윈도우 알고리즘을 이용하여 제1 왜곡된 이미지(600)에서 객체를 검출하는 방법(S300), 컴퓨터 프로그램 제품, 장치(100) 및 시스템(800)에 관한 것이다. 상기 방법(S300)은, 제1 왜곡된 이미지(600)의 왜곡의 수학적 표현의 역수를 수신하는 단계(S302); 여기서, 상기 객체의 검출은 상기 제1 왜곡된 이미지(600) 상에서 및 상기 제1 왜곡된 이미지(600) 내의 복수의 위치들의 각각의 위치(630, 634, 638)에 대해 슬라이딩 윈도우(620)를 슬라이딩하는 단계(S304)를 포함함: 상기 위치(630, 634, 638)에서의 왜곡의 수학적 표현의 역수에 기초하여 슬라이딩 윈도우(620)를 변형하는 단계(S306); 및 상기 제1 왜곡된 이미지(600)에서 상기 위치(630, 634, 638)에서의 객체 검출을 위해 슬라이딩 윈도우 알고리즘에서 변형된 슬라이딩 윈도우(720, 724, 728)를 사용하는 단계(S308)를 포함한다.

Description

왜곡된 이미지에서 객체를 검출하기 위한 방법, 시스템, 및 장치{METHOD, SYSTEM, AND DEVICE FOR DETECTING AN OBJECT IN A DISTORED IMAGE}

본 발명은 왜곡된 이미지에서 객체를 검출하기 위한 방법, 장치 및 시스템에 관한 것이다.

카메라 애플리케이션의 중요한 분야는 위치의 모니터링이다. 모니터링 애플리케이션에서 모니터링되는 위치의 비디오는 일반적으로 다양한 이미지 처리 알고리즘을 사용하여 처리된다. 예를 들어, 녹화된 비디오에서 모션을 자동으로 검출하는 알고리즘을 구현하는 것이 일반적이다. 중요한 특징의 또 다른 예는 캡처된 이미지에서 객체 검출이다. 그런 다음, 캡처된 이미지를 참조 데이터베이스의 이미지와 비교하는 것이 일반적인 접근 방식이다. 객체 검출 알고리즘은 캡처된 이미지의 특징들 및 참조 데이터베이스의 이미지들을 매칭시키므로, 객체가 검출되고 인식된다.

그러나, 이러한 알고리즘에는 몇 가지 이슈가 있다. 예를 들어 참조 데이터베이스의 이미지에 대한 요구 사항이 높다. 예를 들어, 이러한 이미지는 객체들을 식별 가능한 방식으로 묘사하면서 광범위한 객체들을 반영해야한다. 따라서 객체들은 일반적으로 다양한 조명 조건과 넓은 범위의 방향에서 이미지로 촬영된다. 따라서 참조 데이터베이스가 많은 참조 이미지 세트를 포함하는 것이 일반적이다.

그러나, 캡처된 이미지는 이상적인 이미징 조건에서 거의 캡처되지 않는다. 캡처된 이미지는 예를 들어 밝기가 약하거나 왜곡될 수 있다. 예를 들어, 어안 렌즈 및 광학 돔과 같은 광각 렌즈의 사용, 및 파노라마 이미지를 제공하기 위한 스티칭 기법과 같은 다양한 이미지 왜곡 소스들이 있다.

왜곡 소스와 그 모양에 관계없이 이미지를 분석할 때는 왜곡은 해결해야 하는 과제이다. 예를 들어, 대부분의 알고리즘은 왜곡되지 않은 이미지에 적용되도록 설계되었기 때문에 많은 객체 감지 알고리즘들은 왜곡된 이미지에 적용될 때 큰 어려움을 겪는다. 따라서, 프로세서가 왜곡된 이미지에서 객체들을 검출하는 것은 계산 집약적으로(computationally intensive) 된다.

따라서, 비이상적인 이미지에서 객체 검출을 위한 개선된 알고리즘이 필요하다.

상기와 같은 관점에서, 본 발명의 목적은 당해 기술 분야에서 상기 식별된 결함 또는 문제점 중 하나 이상을 제거하거나 적어도 완화시키는 것이다. 특히, 왜곡된 이미지에서 객체를 검출하기 위한 방법, 시스템 및 장치를 제공하는 것이 목적이다.

제1 측면(aspect)에 따르면, 슬라이딩 윈도우 알고리즘을 사용하여 제1 왜곡된 이미지에서 객체를 검출하는 방법이 제공된다. 상기 방법은 상기 제1 왜곡된 이미지의 왜곡의 수학적 표현의 역수(inverse)를 수신하는 단계를 포함하고, 상기 객체의 검출은 상기 제1 왜곡된 이미지 위에서, 그리고 상기 제1 왜곡된 이미지에서의 복수의 위치들의 각 위치에 대해 슬라이딩 윈도우를 슬라이딩시키는 단계: 상기 위치에서의 왜곡의 수학적 표현의 역수에 기초하여 상기 슬라이딩 윈도우를 변형하는 단계; 및 상기 제1 왜곡된 이미지에서의 상기 위치에서의 객체 검출을 위해 슬라이딩 윈도우 알고리즘에서 상기 변형된 슬라이딩 윈도우를 사용하는 단계를 포함한다.

용어 "왜곡된 이미지"는 본 출원의 맥락 내에서 왜곡된 원근(perspective)을 갖는 이미지로 해석되어야 한다. 왜곡된 이미지에서 상기 장면의 직선은 일반적으로 어느 정도 구부러지게 된다. 대조적으로, 완벽하게 직선인(rectilinear) 이미지는 묘사된 장면에서 직선에 대응하는 완벽하게 직선을 갖는다. 본 출원의 맥락 내에서, 물리적 왜곡 소스 및 디지털 왜곡 소스의 두 가지 유형의 왜곡 소스들이 논의된다. 물리적 왜곡 소스들의 비제한적인 예는 어안 렌즈(예를 들어, f-세타 렌즈), 광학 돔 및 불완전한 직선 렌즈를 포함한 광각 렌즈들이다. 렌즈의 결함은 제조상의 부정확성으로 인해 발생할 수 있다. 디지털 왜곡 소스들의 비제한적인 예는 예를 들어 복수의 이미지들로부터 파노라마 이미지를 생성하기 위한 이미지 스티칭 알고리즘이다. 왜곡 패턴은 불규칙적이거나 방사형 왜곡과 같이 규칙적일 수 있다. 캡처된 이미지의 왜곡 패턴은 왜곡 소스들 중의 하나 또는 조합에 의한 결과일 수 있다.

용어 "슬라이딩 윈도우 알고리즘"은 본 출원의 맥락 내에서 슬라이딩 윈도우를 포함하는 객체 검출 알고리즘으로 해석되어야 한다. 상기 슬라이딩 윈도우는 이미지를 가로 질러 이동되는 초기에 미리 결정된 폭 및 높이의 직사각형 영역이다. 상기 슬라이딩 윈도우에 의해 정의된 영역에 존재하는 이미지 특징들은 이미지 내의 객체를 검출하기 위해 참조 특징들의 데이터베이스와 비교된다. 상기 슬라이딩 윈도우에서의 특징 검출 패턴은 참조 특징들의 데이터베이스에 기초할 수 있다. 상기 슬라이딩 윈도우 알고리즘은 제1 슬라이딩 윈도우가 제1 특징 검출 패턴을 포함하고, 제2 슬라이딩 윈도우가 제2 특징 검출 패턴을 포함하는 등 복수의 특징 검출 패턴들을 포함할 수 있다. 이에 의해, 상기 슬라이딩 윈도우 알고리즘은 복수의 상이한 슬라이딩 윈도우들 및 특징 검출 패턴들을 이용하여 복수의 상이한 특징들을 검출할 수 있다. 상기 슬라이딩 윈도우 알고리즘은 콘볼루션 기반 알고리즘일 수 있다.

용어 "왜곡의 수학적 표현"은 본 출원의 맥락 내에서 직선 이미지에 적용될 때 상기 왜곡된 이미지를 초래하는 이미지 변형의 수학적 설명으로 해석되어야 한다. 앞서 언급한 왜곡은 수학적으로 다항식, 행렬 또는 룩업 테이블(lookup table)로 표현될 수 있다는 것이 이해되어야 한다. 예를 들어, 상기 수학적 표현은 상기 왜곡된 이미지를 캡처할 때 사용되는 어안 렌즈의 전달 함수를 설명하는 다항식/매트릭스일 수 있다. 룩업 테이블은 직선(또는 왜곡되지 않은) 이미지의 좌표에 의해 인덱스된 왜곡된 이미지의 좌표를 포함할 수 있고, 그 반대도 가능하다.

본 방법에 의해, 상기 슬라이딩 윈도우 알고리즘은 제1 왜곡된 이미지와 같은 왜곡된 이미지에서 객체를 검출하는데 사용될 수 있다. 따라서, 상기 제1 왜곡된 이미지와 관련된 이미지 데이터는 상기 슬라이딩 윈도우 알고리즘을 사용하여 객체 검출 전에 변형되거나/디워프(dewarp)될 필요가 없다. 이에 의해, 이미지 변형에 관한 계산 비용이 감소된다. 예를 들어, 객체 검출 전에 곡선 이미지를 직선 이미지로 변형할 필요성이 감소되거나 완전히 제거될 수 있다. 이미지 변형의 필요성을 감소시킴으로써 그러한 이미지 변형과 관련된 임의의 불필요한 이미지 잘라내기(cropping)를 줄일 수 있다. 따라서, 이미지 잘라내기로 인해 제거될 영역들의 이미지 특징들이 슬라이딩 윈도우 알고리즘에 포함될 수 있고, 그에 따라 그러한 영역에 존재하는 객체들이 검출될 수 있다.

또한, 상기 제1 왜곡된 이미지는 변형되거나 드워프될 필요가 없기 때문에, 상기 제1 왜곡된 이미지와 관련된 이미지 데이터는 보간될 필요가 없다. 이에 의해, 상기 슬라이딩 윈도우 알고리즘은 이미지 보간(image interpolation)에서 생성된 이미지 데이터를 포함할 필요가 없기 때문에 상기 슬라이딩 윈도우 알고리즘과 관련된 계산 비용이 감소될 수 있다. 보간된 이미지 데이터는 캡처된 이미지와 관련된 이미지 데이터에 아직 존재하지 않는 추가적인 정보를 포함하지 않으므로, 상기 슬라이딩 윈도우 알고리즘에 이미지 보간에서 생성된 이미지 데이터를 포함시키면 실제 이미지 정보의 대응하는 증가 없이 계산 비용만 증가한다.

또한, 상기 제1 왜곡된 이미지가 변형될 필요가 없기 때문에, 본 방법은 이미지 처리 파이프 라인에서 초기에 수행될 수 있다. 본 방법을 수행하여 상기 이미지 처리 파이프 라인에서 초기에 객체들을 검출하는 것은 상기 이미지 처리 파이프 라인에서 후속 단계들을 지연시키지 않고 상기 이미지 처리 파이프 라인에서 후속 단계들에 대한 입력들로서 검출된 객체들을 사용할 수 있게 하여, 상기 이미지 처리 파이프 라인과 관련된 처리 시간이 더 짧아지게 한다. 예를 들어, 검출된 객체들은 상기 이미지 처리 파이프 라인에 의해 형성된 비디오 스트림에 대한 인코더 설정들을 계산하기 위한, 및/또는 상기 이미지 처리 파이프 라인에 의해 형성된 비디오 스트림에서 바운딩 박스들(bounding boxes)와 같은 오버레이들을 그리기 위한 입력들로서 사용될 수 있다. 상기 이미지 처리 파이프 라인에서 초기에 객체를 검출하는 것과 관련된 다른 이점은, 객체 검출에만 사용되는 분석 카메라의 경우, 상기 이미지 처리 파이프 라인에서의 후속 단계들이 수행될 필요가 없다는 것이다. 따라서, 상기 분석 카메라가 비디오 스트림을 출력할 필요가 없기 때문에, 상기 분석 카메라의 전력 소비가 감소될 수 있다.

상기 슬라이딩 윈도우를 변형하는 단계는 상기 슬라이딩 윈도우의 특징 검출 패턴을 변형하는 단계를 포함할 수 있다.

용어 "특징 검출 패턴"은 본 출원의 맥락 내에서 상기 슬라이딩 윈도우 알고리즘이 특정 특징을 검출하기 위해 사용하는 패턴으로 해석되어야 한다. 상기 슬라이딩 윈도우 알고리즘은 복수의 상이한 특징 검출 패턴들을 포함할 수 있다는 것이 이해되어야 한다. 예를 들어, 특징 검출 패턴은 다양한 각도를 갖는 이미지 프레임에서 가장자리들을 검출하기 위해 사용될 수 있다. 상기 특징 검출 패턴은 또한 이미지 프레임에서 사람, 사람의 특정 얼굴, 또는 자동차, 개 등과 같은 다른 객체들을 검출하는데 사용될 수 있다.

상기 특징 검출 패턴은 상기 슬라이딩 윈도우의 상기 위치에서의 왜곡의 수학적 표현의 역수에 기초하여 변형될 수 있다.

상기 슬라이딩 윈도우의 상기 특징 검출 패턴을 변형하는 이점은 상기 제1 왜곡된 이미지에서 왜곡된 특징들이 검출될 수 있다는 것이다. 이에 의해, 상기 슬라이딩 윈도우 알고리즘은 상기 제1 왜곡된 이미지에서 왜곡된 객체들을 검출할 수 있다.

상기 슬라이딩 윈도우의 상기 특징 검출 패턴을 변형하는 또 다른 이점은, 상기 제1 왜곡된 이미지의 공간 해상도가 상기 제1 왜곡된 이미지에 걸쳐 변할 수 있기 때문에, 상기 특징 검출 패턴이 상기 제1 왜곡된 이미지의 공간 해상도에 맞게 조정될 수 있다는 것이다. 예를 들어, 낮은 공간 해상도의 영역에서, 더 거친(coarser) 특징 검출 패턴이 상기 슬라이딩 윈도우 알고리즘에 사용될 수 있고, 이에 의해 상기 슬라이딩 윈도우 알고리즘과 관련된 계산 비용을 감소시킬 수 있다.

용어 "공간 해상도"는 본 출원의 맥락 내에서 이미지 프레임에 대한 공간 해상도로 이해되어야 한다. 예를 들어 광각 렌즈를 통해 획득되거나 다수의 이미지 프레임들로부터 스티칭된 왜곡된 이미지에서 경우 이미지의 다른 영역들은 서로 다른 공간 해상도를 갖는다. 다시 말해서, 이미지 프레임의 동일한 크기의 영역들은 카메라 시야각(FOV)의 다른 크기의 각도를 커버(cover)한다. 공간 해상도는 이미지 프레임에 대한 픽셀 레벨에서 특정될 수 있거나, 픽셀 서브그룹 레벨에서, 예를 들어 매크로 블록 레벨에서 결정될 수 있다. 공간 해상도는 FOV 각도 당 픽셀의 수 또는 픽셀 당 FOV 각도의 양으로 표현될 수 있다. 통상의 기술자는 응용에 따라 이러한 표현들을 상호 교환하는 방법에 익숙하다. 예를 들어, 본 출원에 따른 방법의 구현에서, 이러한 표현들 중 하나가 사용하는 것이 바람직할 수 있다. 공간 해상도 분포는 예를 들어 픽셀들 또는 픽셀 서브그룹들, 예를 들어 매크로 블록들에 대한 공간 해상도 분포를 나타내는 테이블로 표현될 수 있다.

상기 슬라이딩 윈도우를 변형하는 단계는 상기 슬라이딩 윈도우의 크기를 변형하는 단계를 포함할 수 있다.

상기 슬라이딩 윈도우의 크기는 상기 슬라이딩 윈도우의 상기 위치에서의 왜곡의 수학적 표현의 역수에 기초하여 변형될 수 있다. 상기 슬라이딩 윈도우의 높이는 상기 슬라이딩 윈도우의 폭과 독립적으로 변형될 수 있다는 것이 이해되어야 한다.

상기 슬라이딩 윈도우의 크기를 변형하는 것의 이점은, 상기 제1 왜곡된 이미지의 공간 해상도가 상기 제1 왜곡된 이미지에 걸쳐 변할 수 있기 때문에 상기 슬라이딩 윈도우의 크기가 상기 제1 왜곡된 이미지의 공간 해상도에 맞게 조정될 수 있다는 것이다. 이에 의해, 상기 슬라이딩 윈도우의 크기와 관련된 계산 비용이 감소될 수 있다.

상기 방법은 콘볼루션 신경망(convolutional neural network)의 제1 계층(first layer)에서 상기 변형된 슬라이딩 윈도우를 커널(kernel)로서 사용하는 단계를 더 포함할 수 있다.

"콘볼루션 신경망"이라는 용어는 본 출원의 맥락 내에서 이미지 분류에 사용되는 알고리즘으로 해석되어야 한다. 상기 알고리즘은 객체 검출을 위해 알고리즘을 사용하기 전에 학습될 수 있다. 이러한 학습을 통해 특정 이미지 특징들과 관련된 콘볼루션 필터들의 데이터베이스가 생성된다. 상기 콘볼루션 신경망이 객체 검출을 위해 사용될 때, 복수의 콘볼루션들이 입력 이미지에 대해 수행되며, 여기서 복수의 콘볼루션들의 각각의 콘볼루션은 서로 다른 콘볼루션 필터들을 사용한다. 다시 말해서, 상기 제1 계층은 변형된 커널을 사용하여 콘볼루션 연산을 상기 입력(이미지 프레임의 이미지 데이터)에 적용하여 그 결과를 다음 계층으로 전달하는 콘볼루션 계층이다. 각각의 콘볼루션은 콘볼루션 필터와 관련된 이미지 특징 맵을 생성한다. 그 후, 복수의 콘볼루션들로 인한 특징 맵들은 최종 출력을 형성하기 위해 사용된다. 상기 최종 출력은 상기 입력 이미지에서 객체를 검출하는데 사용될 수 있다.

콘볼루션 신경망의 제1 계층에서 커널로서 상기 변형된 슬라이딩 윈도우를 사용하는 것과 관련된 이점은 상기 제1 왜곡된 이미지의 이미지 변형이 필요하지 않을 수 있다는 것이다. 이에 의해, 이미지 변형과 관련된 계산 비용이 감소될 수 있다.

상기 방법은 상기 제1 왜곡된 이미지에서의 복수의 위치들의 각 위치에 대해 변형된 슬라이딩 윈도우를 저장하는 단계를 더 포함할 수 있다.

상기 제1 왜곡된 이미지에서의 복수의 위치들의 각 위치에 대해 변형된 슬라이딩 윈도우를 저장하는 것과 관련된 이점은 상기 변형된 슬라이딩 윈도우가 나중에 사용될 수 있다는 것이다. 예를 들어, 상기 변형된 슬라이딩 윈도우는 나중에 이미지 처리 파이프 라인에서 추가적인 계산을 위해 사용될 수 있다. 이미지들 간에 왜곡이 동일하기 때문에, 특징 검출 패턴 및/또는 각각의 이미지 프레임에 대한 슬라이딩 윈도우의 크기를 변형할 필요가 없다. 상기 제1 왜곡된 이미지에서의 복수의 위치들의 각 위치에 대해 변형된 슬라이딩 윈도우를 저장함으로써, 상기 제1 왜곡된 이미지와 동일한 방식으로 캡처된 다른 왜곡된 이미지에서의 객체 검출에서 변형된 슬라이딩 윈도우의 재사용을 용이하게 하고, 이는 다수의 왜곡된 이미지들에서 객체 검출과 관련된 계산 시간 및 계산 비용을 감소시킬 수 있다.

상기 변형된 슬라이딩 윈도우는 상기 제1 왜곡된 이미지에서의 복수의 위치들의 상기 위치에 의해 인덱스(index)된 룩업 테이블(lookup table)에 저장될 수 있다.

상기 제1 왜곡된 이미지에서의 복수의 위치들의 상기 위치에 의해 인덱스된 룩업 테이블에 상기 변형된 슬라이딩 윈도우를 저장하는 것과 관련된 이점은 상기 변형된 슬라이딩 윈도우의 단순화된 검색을 가능하게 하여 관련 계산 비용을 감소시킬 수 있다는 것이다.

상기 방법이 복수의 왜곡된 이미지들에 대해 수행되는 경우, 상기 복수의 왜곡된 이미지 각각에서 객체의 검출은 상기 제1 왜곡된 이미지에서 객체 검출에 사용되는 상기 변형된 슬라이딩 윈도우를 사용하는 것을 포함할 수 있다.

상기 슬라이딩 윈도우의 변형이 상기 복수의 왜곡된 이미지들에 대해 한번 수행될 수 있으므로, 상기 슬라이딩 윈도우가 상기 복수의 왜곡된 이미지들에서 각각의 왜곡된 이미지에 대해 변형될 필요가 없기 때문에 상기 슬라이딩 윈도우의 변형과 관련된 계산 비용이 감소될 수 있다.

또한, 상기 슬라이딩 윈도우의 변형이 상기 복수의 왜곡된 이미지들에서 하나의 왜곡된 이미지에 대해 수행될 수 있기 때문에, 종래 기술 시스템에서와 같이 복수의 왜곡된 이미지들에서 각각의 왜곡된 이미지의 변형에 비해 계산 비용이 감소될 수 있다. 다시 말해서, 본 방법에 의해 복수의 왜곡된 이미지들에서의 객체 검출과 관련된 계산 비용이 감소될 수 있다.

상기 방법은 상기 복수의 변형된 이미지들을 변형된 비디오 스트림으로 인코딩하는 단계를 더 포함할 수 있다.

상기 왜곡은 광학 왜곡을 포함할 수 있다. 상기 광학 왜곡은 배럴(barrel) 왜곡, 핀쿠션(pincushion) 왜곡 및/또는 콧수염(mustache) 왜곡을 포함할 수 있다. 상기 광학 왜곡은 이미징 광학계의 광학 축과 이미지 센서 사이의 오정렬을 포함할 수 있다. 상기 광학 왜곡은 접선 왜곡을 포함할 수 있다.

상기 왜곡은 이미지 데이터에 적용되는 이미지 변형을 포함하여, 상기 왜곡된 이미지를 형성할 수 있다.

상기 이미지 변형은 이미지 필터를 포함할 수 있다. 상기 이미지 변형은 이미지 스티칭을 포함할 수 있다. 파노라마 이미지를 형성하기 위해 복수의 기본 이미지들이 스티칭될 수 있다. 상기 왜곡된 이미지는 형성된 파노라마 이미지일 수 있다. 통상의 기술자는 형성된 파노라마 이미지가 이미지 스티칭의 결과로 왜곡된 특징부를 포함할 수 있음을 인식한다.

상기 왜곡이 이미지 데이터에 적용된 이미지 변형을 포함하여 상기 왜곡된 이미지를 형상하는 것과 관련된 이점은 상기 이미지 데이터와 관련된 상기 왜곡된 이미지는 객체 검출을 위해 상기 슬라이딩 윈도우 알고리즘을 적용하기 전에 필터링될 수 있다는 것이다. 이에 의해, 상기 이미지 데이터에 존재하는 특정 특징은 객체 검출 전에 감소되거나 제거될 수 있다.

이미지 스티칭을 포함하는 왜곡과 관련된 이점은 본 방법이 파노라마 이미지에서 객체를 검출할 수 있게 한다는 것이다.

상기 슬라이딩 윈도우를 변형하는 단계는 하드웨어로 구현될 수 있다. 예를 들어, 특징 검출 패턴의 변형은 그래픽 처리 장치(GPU)와 같은 하드웨어에서 유리하게 수행될 수 있다.

제2 측면(aspect)에 따르면, 컴퓨터 프로그램 제품이 제공된다. 상기 컴퓨터 프로그램 제품은 처리 능력을 갖는 장치에 의해 실행될 때 본 방법을 수행하기 위해 명령어 어댑터를 갖는 컴퓨터 판독가능 저장 매체를 포함한다.

상기 컴퓨터 판독가능 저장 매체는 비일시적 컴퓨터 판독가능 저장 매체일 수 있다.

상기 방법의 상기 언급된 특징들은 적용 가능한 경우, 제2 측면에도 적용된다. 과도한 반복을 피하기 위해, 상기 내용을 참조한다.

제3 측면에 따르면, 슬라이딩 윈도우 알고리즘을 사용하여 제1 왜곡된 이미지에서 객체를 검출하도록 마련된 장치가 제공된다.

상기 장치는 상기 제1 왜곡된 이미지를 수신하도록 마련된 이미지 수신기; 상기 제1 왜곡된 이미지의 왜곡의 수학적 표현의 역수를 수신하도록 마련된 왜곡 수신기; 및 상기 제1 왜곡된 이미지에서의 복수의 위치들 위에서, 그리고 상기 제1 왜곡된 이미지에서의 복수의 위치들의 각 위치에 대해 슬라이딩 윈도우를 슬라이딩시키고: 상기 위치에서의 왜곡의 수학적 표현의 역수에 기초하여 슬라이딩 윈도우를 변형하고; 상기 제1 왜곡된 이미지의 각 위치에서의 객체 검출을 위해 상기 슬라이딩 윈도우 알고리즘에서 상기 변형된 슬라이딩 윈도우를 사용하도록 마련된 적어도 하나의 프로세서를 포함한다.

상기 방법 및/또는 상기 컴퓨터 프로그램 제품의 상기 언급된 특징들은 적용 가능한 경우, 제3 측면에도 적용된다. 과도한 반복을 피하기 위해, 상기 내용을 참조한다.

상기 장치는 상기 제1왜곡된 이미지에서의 복수의 위치들의 각 위치에 대해 변형된 슬라이딩 윈도우를 저장하도록 구성된 비일시적 저장 매체를 더 포함할 수 있다.

상기 장치는 카메라일 수 있다.

제4 측면에 따르면, 슬라이딩 윈도우 알고리즘을 사용하여 왜곡된 이미지에서 객체를 검출하도록 마련된 시스템이 제공된다. 상기 시스템은 장면의 왜곡된 이미지를 캡처하도록 마련된 카메라; 및 본 발명의 장치;를 포함하고, 상기 장치의 이미지 수신기는 상기 카메라에 의해 캡처된 상기 장면의 상기 왜곡된 이미지를 수신하도록 마련되는 것을 특징으로 하는 장치.

상기 방법, 상기 컴퓨터 프로그램 제품 및/또는 상기 장치의 상기 언급된 특징들은 적용 가능한 경우, 제4 측면에도 적용된다. 과도한 반복을 피하기 위해, 상기 내용을 참조한다.

본 개시 내용의 추가 적용 범위는 하기 제공된 상세한 설명으로부터 명백해질 것이다. 그러나, 본 발명의 범위 내에서 다양한 변경 및 수정이 상세한 설명으로부터 통상의 기술자에게 명백해질 것이기 때문에, 본 발명의 바람직한 변형들을 나타내는 상세한 설명 및 특정 예들은 단지 예시의 방식으로 주어진다는 것이 이해되어야 한다.

따라서, 본 발명의 개념은 설명된 방법들의 특정 단계들 또는 설명된 시스템들의 구성 요소 부분으로 제한되지 않으며, 그러한 방법 및 시스템이 변할 수 있음이 이해되어야 한다. 또한, 본 명세서에서 사용된 용어는 특정 실시 예만을 설명하기 위한 것이며 제한하려는 것이 아님이 이해되어야 한다. 본 명세서 및 첨부된 청구 범위에 사용된 바와 같이, 관사 "a", "an", "the" 및 "said"는 문맥 상 명확하게 달리 지시하지 않는 한, 하나 이상의 요소가 존재함을 의미하는 것으로 의도된다는 점에 유의해야 한다. 따라서, 예를 들어, "a unit" 또는 "the unit"에 대한 언급은 몇몇 장치 등을 포함할 수 있다. 또한, "포함하는", "함유하는" 및 유사한 문구는 다른 요소 또는 단계를 배제하지 않는다.

본 발명의 상기 측면 및 다른 측면들은 이제 본 발명의 실시 예들을 도시하는 첨부 도면들을 참조하여 보다 상세하게 설명될 것이다. 도면은 본 발명을 특정 실시 예로 제한하는 것으로 간주되어서는 안되며; 대신에 이들은 본 발명을 설명하고 이해하는데 사용된다.
도면에 도시된 바와 같이, 층 및 영역의 크기는 예시의 목적으로 과장되었고, 따라서 본 발명의 실시 예들의 일반적인 구조들을 설명하기 위해 제공된다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
도 1a는 슬라이딩 윈도우 알고리즘을 사용하여 왜곡된 이미지에서 객체를 검출하도록 마련된 장치를 도시한다.
그림 1b는 카메라를 도시한다.
도 2a는 직선들을 포함하는 장면을 도시한다.
도 2b는 도 2a의 장면의 왜곡된 이미지를 도시한다.
도 2c는 특징 검출 패턴 및 복수의 변형된 슬라이딩 윈도우들을 도시한다.
도 3은 슬라이딩 윈도우 알고리즘을 사용하여 제1 왜곡된 이미지에서 객체를 검출하기 위한 방법의 블록도이다.
도 4는 왜곡된 이미지에서 객체를 검출하도록 구성된 시스템을 도시한다.

이하, 본 발명의 바람직한 변형들이 도시된 첨부된 도면을 참조하여 본 발명의 개념이 보다 상세하게 설명될 것이다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 변형들에 한정되지 않는다. 오히려, 이 변형들은 철저함과 완전성을 위해 제공되며, 본 발명의 개념의 범위를 통상의 기술자에게 완전히 전달한다.

왜곡된 이미지의 물체를 감지하는 것은 상기 이미지에서 특징들이 뒤틀리기 때문에 문제가 될 수 있다. 따라서, 해결책은 객체 감지 알고리즘을 적용하기 전에 왜곡된 이미지를 디워프(dewarp)하는 것입니다. 디워핑(dewarping)은 왜곡된 이미지를, 상기 객체 검출 알고리즘이 더 잘 작동하는, 선형으로 투사된 이미지로 되돌리는 프로세스이다. 그러나 디워핑은 그 자체로 프로세서에 부담을 주고, 예를 들어 프로세서에서 시간, 전력 및 대역폭과 같은 귀중한 리소스를 차지하는 매우 무거운 작업이다. 더욱이, 디워핑은 제한된 리소스인 카메라 시스템에서 스케일러(scaler) 유닛에 부담을 주므로 스케일러에 대한 액세스를 필요로 하는 다른 프로세스들도 어려움을 겪을 수 있다.

본 발명자들은 슬라이딩 윈도우 알고리즘에서 슬라이딩 윈도우를 변형함으로써, 객체들이 왜곡된 이미지에서 직접 검출될 수 있음을 깨달았다. 따라서, 본 발명의 개념으로는, 객체 검출을 위해 슬라이딩 윈도우 알고리즘을 적용하기 전에 왜곡된 이미지를 디워프할 필요가 없다. 본 발명은 이제 도 1 내지 도 4를 참조하여 설명될 것이다.

도 1a-1b는 슬라이딩 윈도우 알고리즘을 사용하여 제1 왜곡된 이미지(600)에서 객체를 검출하도록 배치된 장치(100)를 도시한다. 상기 장치의 기능은 이제 도 2a-2c와 함께 설명될 것이다.

장치(100)는 이미지 수신기(102)를 포함한다. 이미지 수신기(102)는 제1 왜곡된 이미지(아래의 도 2b 참조, 600)를 수신하도록 구성된다. 제1 왜곡된 이미지(600)는 비디오 스트림의 프레임일 수 있다. 이미지 수신기(102)는 이미지 센서로부터 이미지 데이터를 수신하도록 구성될 수 있다. 이미지 수신기(102)는 이미지 센서일 수 있다.

장치(100)는 왜곡 수신기(104)를 더 포함한다. 왜곡 수신기(104)는 제1 왜곡된 이미지(600)의 왜곡의 수학적 표현의 역수(inverse)를 수신하도록 구성된다. 상기 왜곡은 광학 왜곡을 포함할 수 있다. 상기 광학 왜곡은 콜리메이터를 사용하여 결정될 수 있다. 상기 왜곡은 알려진 평면 타겟의 왜곡된 이미지에 기초하여 결정될 수 있다. 공지된 평면 타겟은 변하는 및/또는 반복되는 패턴을 포함할 수 있다. 예를 들어, 공지된 평면 타겟은 알려진 지오메트리(geometry)의 반복되는 패턴을 포함할 수 있다. 상기 반복되는 패턴은 체스판(chessboard)형 패턴일 수 있다.

상기 왜곡은 이미지 데이터에 적용되어 왜곡된 이미지를 형성하는 이미지 변형을 포함한다. 상기 이미지 변형은 파노라마 이미지를 형성하기 위한 이미지의 스티칭(stitching)과 관련될 수 있다. 일부 변형들에서, 상기 왜곡은 캡쳐된 이미지 데이터에 적용된 광학 왜곡 및 이미지 변형의 조합이다.

장치(100)는 적어도 하나의 프로세서(106)를 더 포함한다. 상기 적어도 하나의 프로세서(106)은 제1 왜곡된 이미지(600)에서의 복수의 위치들 위에서, 그리고 제1 왜곡된 이미지(600)에서의 복수의 위치들의 각 위치(630, 634, 638)에 대해 슬라이딩 윈도우(620)를 슬라이딩시키고: 상기 위치(630, 634, 638)에서의 왜곡의 수학적 표현의 역수에 기초하여 슬라이딩 윈도우(620)를 변형하고; 제1 왜곡된 이미지(600)에서의 상기 위치(630, 634, 638)에서의 객체 검출을 위해 슬라이딩 윈도우 알고리즘에서 상기 변형된 슬라이딩 윈도우(720, 724, 728)을 사용하도록 마련된다.

슬라이딩 윈도우(620)는 특징 검출 패턴(700)을 포함할 수 있다. 복수의 특징 검출 패턴들은 장치(100)와 통신하거나 장치(100)에 저장된 서버(도시되지 않음)로부터 수신될 수 있다. 복수의 특징 검출 패턴들은 트레이닝 프로세스(training process)에 의해 미리 결정될 수 있다. 상기 트레이닝 프로세스는 관심 특징들을 포함하는 복수의 이미지들을 사용할 수 있다. 상기 트레이닝 프로세스는 관심 특징들을 포함하지 않는 복수의 이미지들을 사용할 수 있다. 예를 들어, 상기 트레이닝 프로세스는 자동차를 포함하는 복수의 이미지들 및 자동차를 포함하지 않는 복수의 이미지들을 사용할 수 있다.

상기 트레이닝 프로세스는 관심 특징들과 가장 잘 맞는 콘볼루션 신경망(CNN)에 대한 커널들을 결정하기 위한 최적화 기법을 포함할 수 있다. CNN에서 제1 계층은 항상 슬라이딩 윈도우 알고리즘과 정의된 커널 세트를 사용하는 콘볼루션 계층이다. 전형적인 CNN 시나리오에서, 각 콘볼루션 계층은 CNN의 객체 검출 시나리오(차량, 사람 등의 관심 특징들)를 기반으로 가중치가 트레이닝되어야 하는 자체의 콘볼루션 커널들의 세트를 가진다. 위에서 설명한 것처럼 왜곡된 이미지의 경우 정의된 커널들만으로는 충분하지 않을 수 있다. 본 명세서에 설명된 본 발명의 개념을 이용하여, 왜곡의 수학적 표현의 역수 및 왜곡된 이미지에서의 위치에 기초하여 특징 검출 패턴 및/또는 CNN의 콘볼루션 계층의 커널들의 세트의 크기가 변형될 수 있다. 결과적으로, 상기 왜곡된 이미지는 CNN에 대한 입력으로서 사용될 수 있고, CNN의 커널들, 특히 제1 계층의 커널들(추가적으로/대안적으로 또한 CNN의 다른 콘볼루션 계층들을 위한 커널들)이 대신 변형될 수 있다.

적어도 하나의 프로세서(106)는 예를 들어 파노라마 이미지를 형성하기 위한 카메라의 이미지 센서로부터 수신된 이미지들을 스티칭하도록 추가로 마련될 수 있다. 제1 왜곡된 이미지(600)은 형성된 파노라마 이미지일 수 있다.

장치(100)는 도 1a에 예시된 바와 같은 비일시적 저장 매체(108)를 더 포함할 수 있다. 비일시적 저장 매체(108)는 변형된 슬라이딩 윈도우(720, 724, 728)를 복수의 위치들의 각 위치(630, 634, 638)마다 제1 왜곡된 이미지(600)에 저장하도록 구성될 수 있다. 비일시적 저장 매체(108)는 이미지 수신기(102)에 의해 수신된 왜곡된 이미지를 저장하도록 추가로 구성될 수 있다. 비일시적 저장 매체(108)는 특정 카메라 및/또는 카메라 모델과 관련된 왜곡 및/또는 왜곡의 역수를 저장하도록 추가로 구성될 수 있다. 왜곡이 저장 매체(108)에 저장되는 경우, 적어도 하나의 프로세서(106)는 왜곡의 역수를 계산하기 위해 사용될 수 있다. 비일시적 저장 매체(108)는 복수의 특징 검출 패턴들을 저장하도록 추가로 구성될 수 있다.

장치(100)는 도 1a에 예시된 바와 같이 인코더(110)를 더 포함할 수 있다. 인코더(110)는 변형된 이미지들을 추가 비디오 스트림(video stream)으로 인코딩하도록 마련될 수 있다. 비일시적 저장 매체(108)는 추가 비디오 스트림을 저장하도록 추가로 구성될 수 있다.

장치(100)는 도 1a에 예시된 바와 같이 데이터 버스(112)를 포함할 수 있다. 이미지 수신기(102), 왜곡 수신기(104), 적어도 하나의 프로세서(106), 비일시적 저장 매체(108) 및/또는 인코더(110)는 데이터 버스(112)를 통해 통신할 수 있다.

장치(100)는 도 1b에 예시된 바와 같이 카메라(200)일 수 있다. 카메라 (200)는 도 1b에 예시된 광학계(202)을 포함할 수 있다. 광학계(202)는 이미징 광학계일 수 있다. 이미징 광학계는 카메라 대물 렌즈일 수 있다. 상기 광학계는 장면(500)을 이미지화할 수 있다. 장치(100)는 장면(500)의 파노라마 이미지를 생성하도록 마련될 수 있다. 적어도 하나의 프로세서(106)는 장면(500)의 파노라마 이미지를 형성하기 위해 이미지들을 스티칭하도록 추가로 마련될 수 있다.

본 발명의 개념은 이제 도 2a 내지 도 2c를 참조하여 추가로 설명될 것이다. 도 2a는 복수의 직선들(510, 512, 514, 516, 518)을 포함하는 장면(500)을 도시한다. 장면(500)의 직선 이미지는 직선들(510, 512, 514, 516, 518)을 재현할 수 있다. 그러나, 이미지는 종종 왜곡되며, 이는 도 2b에서 배럴(barrel) 왜곡으로서 예시된다. 도 2b는 도 2a의 장면(500)의 왜곡된 이미지(600)를 도시한다. 도 2b에 예시된 바와 같이, 장면(500)에서의 직선들(510, 512, 514, 516, 518)은 왜곡된 이미지 (600)에서의 구부러진 선들(610, 612, 614, 616, 618)로 나타난다. 왜곡된 이미지(600)에서 예시된 바와 같이, 왜곡된 이미지(600)에 걸쳐 왜곡이 변한다. 예를 들어, 왜곡된 이미지(600)의 중심 근처에서, 장면(500)의 직선(514)은 왜곡된 이미지 (600)에서 직선(614)으로 이미지화된다. 왜곡된 이미지(600)의 가장자리 근처에서, 장면(500)의 직선들(510, 518)은 왜곡된 이미지 (600)에서 구부러진 선들(610, 618)로 이미지화된다. 다시 말하면, 도 2b에 예시된 왜곡에 대하여, 상기 왜곡은 왜곡된 이미지(600)의 중심에서 더 작고 왜곡된 이미지(600)의 에지를 향하여 더 크다. 따라서, 왜곡의 정도 및 형상은 왜곡 자체 및 왜곡된 이미지(600)에서의 위치(630, 634, 638)에 의존한다.

도 2b에는 슬라이딩 윈도우(620)가 도시되어 있다. 왜곡된 이미지(600)의 특징을 정확하게 식별하기 위해, 왜곡의 역수 및 왜곡된 이미지(600)의 위치(630, 634, 638)에 기초하여 특징 검출 패턴(700)이 변형될 수 있다. 도 2c에 도시된 예에서, 특징 검출 패턴(700)은 직선과 관련되어 있다. 특징 검출 패턴(700)을 왜곡된 이미지(600)에 직접 적용하는 것은 예를 들어 왜곡된 이미지(600)의 제1 위치(630) 및 제3 위치(638)에서 직선과 관련된 특징을 정확하게 검출하지 못할 것이다. 그러나, 특징 검출 패턴(700)을 왜곡된 이미지(600)에 직접 적용하는 것은, 예를 들어 왜곡된 이미지(600)의 제2 위치(634)에서 직선과 관련된 특징을 정확하게 검출할 것이다. 따라서, 슬라이딩 윈도우 알고리즘이 특징 검출 패턴(700)과 관련된 특징을 정확하게 식별하기 위해, 슬라이딩 윈도우(620)는 왜곡된 이미지(600)에서 각 위치(630, 634, 638)에 대한 왜곡의 역수에 기초하여 변형될 수 있다. 이것은 왜곡된 이미지 (600)에서 3개의 상이한 위치(630, 634, 638)에 대한 도 2c의 변형된 특징 검출 패턴을 포함하는 3개의 변형된 슬라이딩 윈도우들(720, 724, 728)에 의해 예시된다. 이에 의해, 슬라이딩 윈도우 알고리즘에서 변형된 슬라이딩 윈도우들(720, 724, 728)을 왜곡된 이미지(600)에 적용하는 것은 왜곡된 이미지(600)의 각 위치(630, 634, 638)에 대한 특징 검출 패턴(700)과 관련된 특징을 정확하게 식별할 것이다.

장면(500)의 직선들(510, 512, 514, 516, 518)은 도 2a에 도시되어 있고, 도 2b의 광학 왜곡 및 도 2c의 특징 검출 패턴(700)은 단지 예들이며, 본 발명의 개념을 설명하기 위해 여기에서 설명된다는 것이 이해되어야 한다. 본 발명의 개념은 상이한 이미지 특징, 예를 들어 실제 객체, 및 다른 왜곡들, 예를 들어 핀쿠션(pincushion) 왜곡, 콧수염(mustache) 왜곡 및/또는 이미지 스티칭을 사용하여 설명될 수 있다는 것이 이해되어야 한다.

도 3은 슬라이딩 윈도우 알고리즘을 사용하여 제1 왜곡된 이미지(600)에서 객체를 검출하기 위한 방법(S300)의 블록도이다. 방법(S300)은 제1 왜곡된 이미지(600)의 왜곡의 수학적 표현의 역수를 수신하는 단계(S302)를 포함한다.

상기 왜곡은 광학 왜곡을 포함할 수 있다. 상기 광학 왜곡은 배럴 왜곡, 핀쿠션 왜곡 및/또는 콧수염 왜곡을 포함할 수 있다. 상기 광학 왜곡은 이미징 광학계의 광학 축과 이미지 센서 사이의 오정렬을 포함할 수 있다.

상기 왜곡은 이미지 데이터에 적용되는 이미지 변형을 포함하여, 왜곡된 이미지를 형성할 수 있다. 상기 이미지 변형은 이미지 스티칭을 포함할 수 있다. 상기 이미지 스티칭은 복수의 기본 이미지들을 스티칭하여 파노라마 이미지를 형성할 수 있다. 상기 왜곡된 이미지는 파노라마 이미지일 수 있다.

상기 왜곡된 이미지는 광학 왜곡 및 이미지 데이터에 적용된 이미지 변형을 포함할 수 있다는 것이 이해되어야 한다.

객체의 검출은 제1 왜곡된 이미지(600) 위에서 그리고 제1 왜곡된 이미지(600)에서의 복수의 위치들의 각 위치(630, 634, 638)에 대해 슬라이딩 윈도우(620)를 슬라이딩시키는 단계(S304): 상기 위치(630, 634, 638)에서의 왜곡의 수학적 표현의 역수에 기초하여 슬라이딩 윈도우(620)를 변형하는 단계(S306), 및 제1 왜곡된 이미지(600)에서의 상기 위치(630, 634, 638)에서의 객체 검출을 위해 슬라이딩 윈도우 알고리즘에서 상기 변형된 슬라이딩 윈도우(720, 724, 728)을 사용하는 단계(S308)을 포함한다.

슬라이딩 윈도우(620)를 변형하는 단계(S306)는 슬라이딩 윈도우(620)의 특징 검출 패턴(700)을 변형하는 단계(S310)를 포함할 수 있다.

슬라이딩 윈도우(620)를 변형하는 단계(S306)는 슬라이딩 윈도우(620)의 크기를 변형하는 단계(S312)를 포함할 수 있다.

슬라이딩 윈도우(620)를 변형하는 단계(S306)는 하드웨어로 구현될 수 있다. 슬라이딩 윈도우(620)를 변형하는 단계(S306)는 주문형 집적 회로(ASIC)로 구현될 수 있다. 슬라이딩 윈도우(620)를 변형시키는 단계(S306)는 다른 변형들에서 장치(100)의 적어도 하나의 프로세서(106)에서 소프트웨어로 구현될 수 있다.

변형된 슬라이딩 윈도우(720, 724, 728)는 제1 왜곡된 이미지(600)에서의 복수의 위치들의 상기 위치(630, 634, 638)에 의해 인덱스된 룩업 테이블에 저장될 수 있다.

방법(S300)은 콘볼루션 신경망의 제1 계층(first layer)에서 커널로서 변형된 슬라이딩 윈도우(720, 724, 728)를 사용하는 단계를 더 포함할 수 있다.

방법(S300)은 제1 왜곡된 이미지(600)에서의 복수의 위치들의 각 위치(630, 634, 638)에 대해 변형된 슬라이딩 윈도우(720, 724, 728)를 저장하는 단계(S316)를 더 포함할 수 있다.

방법(S300)이 복수의 왜곡된 이미지들에 대해 수행되는 경우, 복수의 왜곡된 이미지들 각각에서 객체의 검출은 제1 왜곡된 이미지(600)에서의 객체 검출에 사용되는 상기 변형된 슬라이딩 윈도우(720, 724, 728)를 사용하는 것을 포함할 수 있다. 복수의 왜곡된 이미지들은 비디오 스트림일 수 있다. 방법(S300)은 복수의 변형된 이미지들을 변형된 비디오 스트림으로 인코딩하는 단계를 더 포함할 수 있다.

도 4는 슬라이딩 윈도우 알고리즘을 사용하여 왜곡된 이미지에서 객체를 검출하도록 구성된 시스템(800)을 도시한다. 시스템(800)은, 장면(500)의 왜곡된 이미지를 캡처하도록 구성된 카메라(810); 그리고 본 발명의 장치(100); 여기서 장치(100)의 이미지 수신기(102)는 카메라(810)에 의해 캡처된 장면(500)(도 2a)의 왜곡된 이미지를 수신하도록 마련된다. 카메라(810)는 이미징 광학계(812)를 포함할 수 있다. 장치(100)의 이미지 수신기(102)는 유선 또는 무선 통신 인터페이스를 통해 장면(500)의 왜곡된 이미지를 수신하도록 구성될 수 있다. 왜곡된 이미지는 제1 왜곡된 이미지(600)일 수 있다. 시스템(800)은 장면(500)의 파노라마 이미지를 생성하도록 배열된 복수의 카메라들을 포함할 수 있다. 시스템(800)은 단일 어셈블리에 장착될 수 있다.

통상의 기술자는 본 발명의 개념이 결코 상술된 바람직한 변형들에 제한되지 않음을 인식한다. 반대로, 첨부된 청구 범위의 범위 내에서 많은 수정 및 변형이 가능하다.

또한, 개시된 변형들에 대한 변형은 도면, 개시 및 첨부된 청구 범위의 연구로부터 청구된 발명을 실시할 때 통상의 기술자에 의해 이해되고 영향을 받을 수 있다.

여기에 개시된 상기 시스템 및 방법은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로 구현될 수 있다. 하드웨어 구현에서, 상기 설명에서 언급된 기능 유닛들 사이의 작업의 분할은 물리적 유닛으로의 분할에 반드시 대응할 필요는 없으며; 반대로, 하나의 물리적 구성 요소는 다수의 기능을 가질 수 있고, 하나의 작업은 여러 물리적 구성 요소에 의해 협력하여 수행될 수 있다. 특정 구성 요소 또는 모든 구성 요소는 디지털 신호 프로세서 또는 마이크로 프로세서에 의해 실행되는 소프트웨어로서 구현될 수 있거나, 하드웨어 또는 주문형 집적 회로(ASIC)로서 구현될 수 있다. 예를 들어, 슬라이딩 윈도우의 변형은 GPU 또는 ASIC에서 구현될 수 있지만, 변형된 슬라이딩 윈도우로 슬라이딩 윈도우 알고리즘을 실행하는 것은 상기 장치의 CPU에서 실행되는 소프트웨어에서 구현될 수 있다.

Claims

장면의 단일 이미지에서 객체를 검출하는 방법에 있어서, 상기 단일 이미지는 미리 결정된 왜곡에 의해 왜곡되고,
상기 장면의 단일 이미지를 수신하는 단계;
상기 미리 결정된 왜곡의 수학적 표현의 역수를 수신하는 단계,
여기서, 상기 미리 결정된 왜곡의 수학적 표현은, 상기 장면에 대응하는 직선 이미지에 적용될 때, 상기 미리 결정된 왜곡에 의해 왜곡된 상기 단일 이미지를 초래하는, 이미지 변환임; 및
상기 단일 이미지에서 상기 객체를 검출하는 단계;를 포함하고,
여기서, 상기 단일 이미지에서 상기 객체를 검출하는 단계는,
상기 미리 결정된 왜곡에 의해 왜곡된 상기 단일 이미지에서의 복수의 위치들에 대해 슬라이딩 윈도우를 슬라이딩시키는 단계, 상기 슬라이딩 윈도우는 특징 검출 패턴을 포함함; 및
상기 단일 이미지에서의 복수의 위치들의 각 위치에 대해, 상기 미리 결정된 왜곡의 수학적 표현의 역수의 위치별 값에 기초하여 슬라이딩 윈도우를 변형하는 단계;를 포함하고,
여기서, 상기 단일 이미지에서의 복수의 위치들의 각 위치에서 상기 슬라이딩 윈도우를 변형하는 단계는 상기 슬라이딩 윈도우의 상기 특징 검출 패턴을 변형하는 단계를 포함하여, 변형된 슬라이딩 윈도우의 상기 특징 검출 패턴의 결과적인 위치별 왜곡들이 상기 미리 결정된 왜곡의 위치별 부분들에 대응하도록 하고, 상기 객체가 상기 위치별 왜곡들 중 적어도 하나에 기초하여 상기 단일 이미지에서 검출되도록 하는, 방법.
제1항에 있어서, 상기 슬라이딩 윈도우를 변형하는 단계는 상기 슬라이딩 윈도우의 크기를 변형하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 복수의 위치들의 각 위치에 대해 상기 변형된 슬라이딩 윈도우를 저장하는 단계를 더 포함하는, 방법.
제3항에 있어서, 상기 변형된 슬라이딩 윈도우는 상기 복수의 위치들의 위치들에 의해 인덱스된 룩업 테이블에 저장되는, 방법.
제1항에 있어서,
상기 장면의 두 번째 단일 이미지를 수신하는 단계, 상기 두 번째 단일 이미지는 상기 장면의 상기 단일 이미지를 수신한 후 수신되며, 상기 미리 결정된 왜곡에 의해 왜곡됨; 및
상기 두 번째 단일 이미지에서 상기 객체를 검출하는 단계를 더 포함하고,
여기서, 상기 두 번째 단일 이미지에서 상기 객체를 검출하는 단계는,
상기 특징 검출 패턴을 포함하는 상기 슬라이딩 윈도우를 상기 복수의 위치들에 대해 상기 두 번째 단일 이미지에서 슬라이딩시키는 단계, 및
상기 두 번째 단일 이미지에서의 복수의 위치들 중 각각의 위치에 대해, 상기 미리 결정된 왜곡의 수학적 표현의 역수의 위치별 값에 기초하여 상기 슬라이딩 윈도우를 변형하는 단계를 포함하고,
여기서, 상기 두 번째 단일 이미지에서의 복수의 위치들의 각 위치에서 상기 슬라이딩 윈도우를 변형하는 단계는 상기 슬라이딩 윈도우의 상기 특징 검출 패턴을 변형하는 단계를 포함하여, 상기 변환된 슬라이딩 윈도우의 상기 특징 검출 패턴의 결과적인 위치별적 왜곡들이 상기 미리 결정된 왜곡에 대응하도록 하고, 상기 객체가 상기 위치별 왜곡들 중 적어도 하나에 기초하여 상기 두 번째 단일 이미지에서 검출되도록 하는, 방법.
제1항에 있어서, 상기 왜곡은 이미지 데이터에 적용되는 이미지 변형을 포함하여 왜곡된 이미지를 형성하는, 방법.
제1항에 있어서, 상기 슬라이딩 윈도우를 변형하는 단계는 하드웨어로 구현되는, 방법.
프로세서를 포함하는 장치가 제1항의 방법을 수행하게 하도록 구성된 명령어들을 갖는 비일시적 컴퓨터 판독가능 저장 매체.
장면의 단일 이미지에서 객체를 검출하도록 구성된 장치로서, 상기 단일 이미지는 미리 결정된 왜곡에 의해 왜곡됨,
상기 장면의 단일 이미지를 수신하는 수신기; 및
적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는
상기 미리 결정된 왜곡의 수학적 표현의 역수를 수신하고,
여기서, 상기 미리 결정된 왜곡의 수학적 표현은, 상기 장면에 대응하는 직선 이미지에 적용될 때, 상기 미리 결정된 왜곡에 의해 왜곡된 상기 단일 이미지를 초래하는, 이미지 변환임; 및
상기 단일 이미지에서 상기 객체를 검출하고,
여기서, 상기 단일 이미지에서 상기 객체를 검출하는 것은,
상기 미리 결정된 왜곡에 의해 왜곡된 상기 단일 이미지에서의 복수의 위치들에 대해 슬라이딩 윈도우를 슬라이딩시키는 것, 상기 슬라이딩 윈도우는 특징 검출 패턴을 포함함; 및
상기 단일 이미지에서의 복수의 위치들의 각 위치에 대해, 상기 미리 결정된 왜곡의 수학적 표현의 역수의 위치별 값에 기초하여 슬라이딩 윈도우를 변형하는 것;을 포함하고,
여기서, 상기 단일 이미지에서의 복수의 위치들의 각 위치에서 상기 슬라이딩 윈도우를 변형하는 것은 변형된 슬라이딩 윈도우의 상기 특징 검출 패턴의 결과적인 위치별 왜곡들이 상기 미리 결정된 왜곡의 위치별 부분들에 대응하도록 하도록 상기 슬라이딩 윈도우의 상기 특징 검출 패턴을 변형하는 것을 포함하여, 상기 객체가 상기 위치별 왜곡들 중 적어도 하나에 기초하여 상기 단일 이미지에서 검출되도록 하는, 장치.
제9항에 있어서,
상기 미리 결정된 왜곡의 수학적 표현의 역수에 대응하는 값들, 또는
상기 미리 결정된 왜곡의 수학적 표현의 역수의 위치별 값들, 또는
상기 변형된 슬라이딩 윈도우의 위치별 값들 중 적어도 하나를 저장하도록 구성된 비일시적 저장 매체를 더 포함하는, 장치.
제9항에 있어서, 상기 장치는 카메라인, 장치.
이미지 처리를 위한 시스템으로서,
카메라; 및
제9항에 따른 장치;를 포함하고,
여기서, 상기 장치의 상기 수신기는 상기 카메라로부터 상기 장면의 상기 단일 이미지를 수신하도록 마련된, 시스템.
제9항에 있어서, 상기 복수의 위치들의 각 위치에 대해 상기 변형된 슬라이딩 윈도우에 대응하는 값들이 위치별로 인덱스된 룩업 테이블에 저장되는, 장치.
제1항에 있어서, 상기 미리 결정된 왜곡의 수학적 표현의 역수를 저장하는 단계를 더 포함하고, 상기 미리 결정된 왜곡의 수학적 표현의 저장된 역수는 특정 카메라 또는 카메라 모델과 관련된, 방법.
제1항에 있어서, 상기 미리 결정된 왜곡의 수학적 표현의 역수는 다항식으로 표현되는, 방법.
제1항에 있어서, 상기 미리 결정된 왜곡의 수학적 표현의 역수는 행렬로 표현되는, 방법.
제1항에 있어서, 상기 미리 결정된 왜곡의 수학적 표현의 역수는 룩업 테이블로서 표현되는, 방법.
제1항에 있어서, 상기 미리 결정된 왜곡에 의해 왜곡된 상기 단일 이미지에서 상기 슬라이딩 윈도우를 슬라이딩하는 단계는, 상기 슬라이딩 윈도우를 미리 결정된 방향으로 슬라이딩시키는 것을 포함하는, 방법.
제1항에 있어서, 상기 슬라이딩 윈도우가 슬라이딩하는 상기 단일 이미지에서의 상기 복수의 위치들은 적어도 하나의 미리 결정된 위치를 포함하는, 방법.
장면의 단일 이미지에서 객체를 검출하는 방법에 있어서, 상기 단일 이미지는 미리 결정된 왜곡에 의해 왜곡됨,
상기 장면의 단일 이미지를 수신하는 단계;
상기 단일 이미지에서 상기 객체를 검출하는 단계;를 포함하고,
여기서, 상기 단일 이미지에서 상기 객체를 검출하는 단계는,
상기 미리 결정된 왜곡에 의해 왜곡된 상기 단일 이미지에서의 복수의 위치들에 대해 슬라이딩 윈도우를 슬라이딩시키는 단계, 상기 슬라이딩 윈도우는 특징 검출 패턴을 포함함; 및
상기 단일 이미지에서의 복수의 위치들의 각 위치에 대해, 상기 미리 결정된 왜곡의 수학적 표현의 역수의 위치별 값에 기초하여 슬라이딩 윈도우를 변형하는 단계;를 포함하고,
여기서, 상기 미리 결정된 왜곡의 수학적 표현은, 상기 장면에 대응하는 직선 이미지에 적용될 때, 상기 미리 결정된 왜곡에 의해 왜곡된 상기 단일 이미지를 초래하는, 이미지 변환이고;
여기서, 상기 단일 이미지에서의 복수의 위치들의 각 위치에서 상기 슬라이딩 윈도우를 변형하는 단계는 변형된 슬라이딩 윈도우의 상기 특징 검출 패턴의 결과적인 위치별 왜곡들이 상기 미리 결정된 왜곡의 위치별 부분들에 대응하도록 하도록 상기 슬라이딩 윈도우의 상기 특징 검출 패턴을 변형하는 단계를 포함하여, 상기 객체가 상기 위치별 왜곡들 중 적어도 하나에 기초하여 상기 단일 이미지에서 검출되도록 하는, 방법.