KR20220130567A

KR20220130567A - 이미지에 포함된 상관된 객체들을 검출하기 위한 방법들, 장치들, 디바이스들, 및 저장 매체

Info

Publication number: KR20220130567A
Application number: KR1020217026496A
Authority: KR
Inventors: 춘야 류; 쉐썬 장; 바이룬 왕; 징환 천
Original assignee: 센스타임 인터내셔널 피티이. 리미티드.
Priority date: 2021-03-17
Filing date: 2021-06-07
Publication date: 2022-09-27
Also published as: AU2021204584A1; CN113557546B; CN113557546A; US20220300774A1

Abstract

본 개시내용은 이미지에 포함된 상관된 객체들을 검출하기 위한 방법들, 장치들, 디바이스들, 및 저장 매체를 제공한다. 본 방법은 타겟 이미지에 포함된 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체를 검출하는 단계- 미리 설정된 신체 부분 객체는 얼굴과 손 사이의 미리 설정된 연결 부분을 나타냄 -; 검출된 얼굴 객체와 검출된 미리 설정된 신체 부분 객체 사이의 상관성, 및 검출된 미리 설정된 신체 부분 객체와 검출된 손 객체 사이의 상관성을 각각 예측하여, 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 제1 상관성 예측 결과, 및 미리 설정된 신체 부분 객체와 손 객체 사이의 제2 상관성 예측 결과를 획득하는 단계; 및 제1 상관성 예측 결과 및 제2 상관성 예측 결과에 기초하여 타겟 이미지에 포함된 상관된 객체들을 결정하는 단계를 포함할 수 있다.

Description

이미지에 포함된 상관된 객체들을 검출하기 위한 방법들, 장치들, 디바이스들, 및 저장 매체

본 개시내용은 2021년 3월 17일자로 출원된 싱가포르 특허 출원 제10202102716Y호에 대한 우선권을 주장하며, 이들 모두는 그 전체가 본 명세서에 참고로 포함된다.

본 개시내용은 컴퓨터 기술에 관한 것으로, 특히 이미지에 포함된 상관된 객체들을 검출하기 위한 방법들, 장치들, 디바이스들, 및 저장 매체에 관한 것이다.

지능형 비디오 분석 기술은 사람들이 물리적 공간 내의 객체들의 상태 및 그들의 서로 간의 관계를 이해하는 것을 도울 수 있다. 지능형 비디오 분석의 응용 시나리오에서는, 비디오에 포함된 신체 부분에 대응하는 사람의 신원을 인식할 것으로 예상된다.

신체 부분과 개인 신원 사이의 상관성은 일부 중간 정보에 의해 식별될 수 있다. 중간 정보는 신체 부분과 개인 신원 둘 다에 대해 비교적 명확한 상관성을 갖는 객체를 나타낼 수 있다. 예를 들어, 얼굴 정보는 사람의 신원을 식별하기 위한 생물학적 정보로서 사용될 수 있다. 이미지에서 검출된 손이 속하는 사람의 신원을 확인할 것으로 예상될 때, 손과 상관된 얼굴에 의해 결정될 수 있다. 여기서, 상관된 객체는 2개의 객체가 동일한 제3 객체와 속성 관계를 갖거나, 동일한 신원 정보 속성을 갖는다는 것을 나타낼 수 있다. 2개의 신체 부분이 상관된 객체들인 경우, 2개의 신체 부분이 동일한 사람에 속하는 것으로 간주될 수 있다.

이미지 내의 신체 부분들을 상관시킴으로써, 다자간 시나리오에서 사람의 행동들 및 상태들, 및 복수의 사람 간의 관계를 분석하는 것을 추가로 도울 수 있다.

위의 관점에서, 본 개시내용은 적어도 이미지에 포함된 상관된 객체들을 검출하는 방법을 개시한다. 본 방법은 타겟 이미지에 포함된 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체를 검출하는 단계- 미리 설정된 신체 부분 객체는 얼굴과 손 사이의 미리 설정된 연결 부분을 나타냄 -; 및 검출된 얼굴 객체와 검출된 미리 설정된 신체 부분 객체 사이의 상관성, 및 검출된 미리 설정된 신체 부분 객체와 검출된 손 객체 사이의 상관성을 각각 예측하여, 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 제1 상관성 예측 결과, 및 미리 설정된 신체 부분 객체와 손 객체 사이의 제2 상관성 예측 결과를 획득하는 단계를 포함하고; 제1 상관성 예측 결과 및 제2 상관성 예측 결과에 기초하여 타겟 이미지에 포함된 상관된 객체들이 결정된다.

본 개시내용은 또한 이미지에 포함된 상관된 객체들을 검출하기 위한 장치를 개시한다. 본 장치는 타겟 이미지에 포함된 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체를 검출하도록 구성된 검출기- 미리 설정된 신체 부분 객체는 얼굴과 손 사이의 신체 연결 부분의 미리 설정된 부분을 나타냄 -; 검출된 얼굴 객체와 검출된 미리 설정된 신체 부분 객체 사이의 상관성, 및 검출된 미리 설정된 신체 부분 객체와 검출된 손 객체 사이의 상관성을 각각 예측하여, 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 제1 상관성 예측 결과, 및 미리 설정된 신체 부분 객체와 손 객체 사이의 제2 상관성 예측 결과를 획득하도록 구성된 제1 상관성 예측 유닛; 및 제1 상관성 예측 결과 및 제2 상관성 예측 결과에 기초하여 타겟 이미지에 포함된 상관된 객체들을 결정하도록 구성된 결정 유닛을 포함한다.

본 개시내용은 또한 전자 디바이스를 개시하며, 이 전자 디바이스는 프로세서; 및 프로세서의 실행가능 명령어들을 저장하기 위한 메모리를 포함하고; 프로세서는 상기 예들 중 어느 한 예에 따른 이미지에 포함된 상관된 객체들을 검출하는 방법을 구현하기 위해 메모리에 저장된 실행가능한 명령어들을 호출하도록 구성된다.

비일시적 컴퓨터 판독가능 저장 매체로서, 이 저장 매체는 컴퓨터 프로그램을 저장하고, 컴퓨터 프로그램은 상기 예들 중 어느 한 예에 따른 이미지에 포함된 상관된 객체들을 검출하는 방법을 수행하도록 구성된다.

상기 해결책들에서는, 얼굴과 손 사이의 미리 설정된 연결 부분을 지칭하는 미리 설정된 신체 부분 객체를 중개자로서 사용함으로써, 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 상관성, 및 미리 설정된 신체 부분 객체와 손 객체 사이의 상관성을 각각 예측한다. 그 후, 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 예측 결과, 및 미리 설정된 신체 부분 객체 및 손 객체 사이의 예측 결과에 기초하여, 검출된 얼굴 객체와 손 객체 사이의 상관성이 결정된다. 얼굴과 손 사이의 상관성을 직접 예측하는 것과 비교하여, 얼굴과 손 둘 다와 밀접하게 상관되는 미리 설정된 신체 부분 객체를 중개자로서 도입함으로써, 얼굴 객체와 손 객체 사이의 상관성이 더 높은 정확도로 결정될 수 있다. 또한, 얼굴과 손 사이의 상관성을 예측할 때 더 적은 간섭 정보가 도입될 수 있고, 상관성을 예측하는 정확도가 향상될 수 있다.

일반적인 설명 및 다음의 상세한 설명은 단지 예시적이고 설명적이며, 본 개시내용을 제한할 수 없다는 것을 이해해야 한다.

본 개시내용의 하나 이상의 예에서의 기술적 해결책들 또는 관련 기술들을 보다 명확하게 설명하기 위해, 예들 또는 관련 기술들의 설명에서 사용될 첨부 도면들이 이하에 간략하게 소개될 것이다. 명백하게, 이하의 설명에서의 첨부 도면들은 본 개시내용의 하나 이상의 실시예에서 설명된 예들 중 일부일 뿐이다. 본 기술분야의 통상의 기술자들에게는, 창조적 노력없이 이러한 도면들에 기초하여 다른 도면들이 획득될 수 있다.
도 1은 본 개시내용에 따른 이미지에 포함된 상관된 객체들을 검출하는 방법을 도시하는 흐름도이고;
도 2는 본 개시내용에 따른 타겟 이미지에 포함된 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체를 검출하는 타겟 검출 방법을 도시하는 흐름도이고;
도 3은 본 개시내용에 따른 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 상관성을 예측하는 방법을 도시하는 흐름도이고;
도 4는 본 개시내용에 따른 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 상관성을 예측하는 방법을 도시하는 흐름도이고;
도 5는 본 개시내용에 따른 상관된 객체들을 검출하는 방법을 도시하는 흐름도이고;
도 6은 본 개시내용에 따른 예측 결과를 조정하는 방법을 도시하는 흐름도이고;
도 7은 본 개시내용에 따른 상관된 객체들을 검출하는 방법에서 신경망을 트레이닝하는 방법을 도시하는 흐름도이고;
도 8은 본 개시내용에 따른 이미지에 포함된 상관된 객체들을 검출하기 위한 장치를 도시하는 블록도이고;
도 9는 본 개시내용에 따른 전자 디바이스의 하드웨어 구조를 도시하는 블록도이다.

예들이 본 명세서에서 상세히 설명될 것이며, 그 예시들은 도면들에 나타나 있다. 이하의 설명들이 도면들을 포함할 때, 상이한 도면들에서의 동일한 번호들은 달리 지시되지 않는 한 동일하거나 유사한 요소들을 지칭한다. 하기 예들에 설명된 실시예들은 본 개시내용과 부합하는 모든 실시예를 나타내지 않는다. 오히려, 이들은 본 개시내용의 일부 양태들과 부합하며 첨부된 청구항들에 상술된 바와 같은 디바이스들 및 방법들의 예들에 불과하다.

본 개시내용에서 사용되는 용어들은 단지 특정 예들을 설명하기 위한 것이며, 본 개시내용을 제한하려는 의도는 아니다. 본 개시내용 및 첨부된 청구항들에서 단수 형태("a", "the" 및 "said")의 용어들은, 문맥상 명확히 달리 지시되지 않는 한, 복수 형태를 포함하도록 또한 의도된다. 또한, 본 명세서에서 사용되는 "및/또는"이라는 용어는 하나 이상의 상관된 열거된 항목들 중 임의의 또는 모든 가능한 조합을 포함한다는 것을 이해해야 한다. 또한, 문맥에 따라, 본 명세서에서 사용되는 바와 같은 단어 "~한 경우(if)"는 "~할 때(when)" 또는 "~할 시(upon)" 또는 "결정에 응답하여"로서 해석될 수 있다는 것을 이해해야 한다.

본 개시내용은 이미지에 포함된 관련된 상관된 객체들을 검출하는 방법을 개시한다. 이 방법에서는, 얼굴과 손 사이의 미리 설정된 연결 부분을 지칭하는 미리 설정된 신체 부분 객체를 중개자로서 사용함으로써, 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 상관성, 및 미리 설정된 신체 부분 객체와 손 객체 사이의 상관성이 각각 예측된다. 그 후, 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 예측 결과, 및 미리 설정된 신체 부분 객체 및 손 객체 사이의 예측 결과에 기초하여, 검출된 얼굴 객체와 손 객체 사이의 상관성이 결정된다. 얼굴과 손 사이의 상관성을 직접 예측하는 것과 비교하여, 중개자로서 얼굴과 손 둘 다와 밀접하게 상관되는 미리 설정된 신체 부분 객체를 도입함으로써, 얼굴 객체와 손 객체 사이의 상관성이 개선된 정확도로 결정될 수 있다. 또한, 얼굴과 손 사이의 상관성을 예측할 때 더 적은 간섭 정보가 도입될 수 있고, 상관성을 예측하는 정확도가 향상될 수 있다.

도 1을 참조하면, 도 1은 본 개시내용에 따른 이미지에 포함된 상관된 객체들을 검출하는 방법을 도시하는 흐름도이다. 도 1에 도시된 바와 같이, 본 방법은 다음의 단계들을 포함할 수 있다.

S102에서, 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체가 타겟 이미지로부터 검출되고, 여기서 미리 설정된 신체 부분 객체는 얼굴과 손 사이의 미리 설정된 연결 부분을 나타낸다.

S104에서, 검출된 얼굴 객체와 검출된 미리 설정된 신체 부분 객체 사이의 상관성, 및 검출된 미리 설정된 신체 부분 객체와 검출된 손 객체 사이의 상관성이 각각 예측되어, 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 제1 상관성 예측 결과, 및 미리 설정된 신체 부분 객체와 손 객체 사이의 제2 상관성 예측 결과를 획득한다.

S106에서, 제1 상관성 예측 결과 및 제2 상관성 예측 결과에 기초하여, 타겟 이미지에 포함된 상관된 객체들이 결정된다.

본 검출 방법은 전자 디바이스에 적용될 수 있다. 전자 디바이스는 본 방법에 대응하는 소프트웨어 시스템을 설치함으로써 본 방법을 실행할 수 있다. 본 개시내용의 예들에서, 전자 디바이스의 타입은 노트북 컴퓨터, 컴퓨터, 서버, 모바일 폰, PAD 단말기 등일 수 있으며, 이는 본 개시내용에서 특별히 한정되지 않는다.

본 방법은 클라이언트 디바이스 또는 서버 디바이스 중 어느 하나에 의해 실행될 수 있거나, 클라이언트 디바이스와 서버 디바이스 둘 다 협력하여 실행될 수 있다는 것을 이해할 수 있다.

예를 들어, 본 방법은 클라이언트 디바이스에 통합될 수 있다. 상관된 객체 검출 요청을 수신한 후, 디바이스는 디바이스의 하드웨어에 의해 제공되는 컴퓨팅 능력을 통해 본 방법을 실행할 수 있다.

다른 예로서, 본 방법은 서버 디바이스에 통합될 수 있다. 상관된 객체 검출 요청을 수신한 후, 디바이스는 디바이스의 하드웨어에 의해 제공되는 컴퓨팅 능력을 통해 본 방법을 실행할 수 있다.

다른 예로서, 본 방법은 2개의 단계: 타겟 이미지를 획득하는 단계와 타겟 이미지에 대해 상관된 객체 검출을 수행하는 단계로 분할될 수 있다. 여기서, 타겟 이미지를 획득하는 단계는 클라이언트 디바이스에 의해 수행될 수 있고, 타겟 이미지에 대해 상관된 객체 검출을 수행하는 단계는 서버 디바이스에 의해 수행될 수 있다. 클라이언트 디바이스는 타겟 이미지를 획득한 후에 서버 디바이스에 상관된 객체 검출 요청을 개시할 수 있다. 상관된 객체 검출 요청을 수신한 후, 서버 디바이스는 요청에 응답하여 타겟 이미지에 대해 상관된 객체 검출을 수행할 수 있다.

이하, 실행 엔티티가 전자 디바이스(이하, 디바이스라고 칭함)인 예를 참조하여 설명할 것이다.

타겟 이미지는 유용한 정보를 추출하기 위해 이미지 처리가 필요한 이미지를 지칭한다. 타겟 이미지는 몇몇 검출될 객체들을 포함할 수 있다. 예를 들어, 테이블톱 게임 시나리오에서, 타겟 이미지는 테이블톱 주위의 일부 사람들뿐만 아니라, 사람들의 얼굴 객체들, 손 객체들, 및 (팔꿈치와 같은) 미리 설정된 신체 객체들을 포함할 수 있다.

일부 예들에서, 디바이스는 사용자에 의해 입력된 타겟 이미지를 획득하기 위해 사용자와 상호작용할 수 있다. 예를 들어, 디바이스는 사용자가 그의 구비된 인터페이스를 통해 처리될 타겟 이미지를 입력하기 위한 윈도우를 제공할 수 있다. 따라서, 사용자는 이 윈도우에 기초하여 타겟 이미지의 입력을 완료할 수 있다.

일부 예들에서, 디바이스는 또한 촬상 디바이스에 의해 촬영된 이미지를 획득하고 이미지를 타겟 이미지로서 취하기 위해 촬영될 시나리오에서 현장에 배치된 촬상 디바이스에 연결될 수 있다.

타겟 이미지가 획득된 후에, 상기 S102가 수행되어 타겟 이미지에 포함된 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체를 검출할 수 있고, 여기서 미리 설정된 신체 부분 객체는 얼굴과 손 사이의 미리 설정된 연결 분위를 나타낸다.

미리 설정된 신체 부분 객체는 얼굴과 손 사이의 미리 설정된 연결 부분을 나타낼 수 있다. 얼굴과 손 사이의 상관성을 직접 예측하는 것과 비교하여, 중개자로서 얼굴 및 손과 더 밀접하게 상관되는 미리 설정된 신체 부분 객체를 도입함으로써, 얼굴 객체와 손 객체 사이의 상관성이 개선된 정확도로 결정될 수 있다.

일부 예들에서, 미리 설정된 신체 부분은 팔 위의 미리 설정된 신체 부분 객체를 지칭할 수 있다. 일부 예들에서, 상관성을 예측하는 정확도를 향상시키기 위해, 미리 설정된 신체 부분 객체들은 타겟 이미지로부터 더 쉽게 검출되는 어깨 객체, 팔꿈치 객체, 및 손목 객체 중 적어도 하나를 포함할 수 있다.

이 단계에서, 타겟 이미지는 타겟 검출을 위해 타겟 객체 검출 네트워크에 입력되어, 타겟 이미지에 포함된 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체를 획득할 수 있다.

타겟 이미지에 대한 타겟 검출의 결과는 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체의 위치 정보를 포함할 수 있다는 점이 이해되어야 한다. 위치 정보는 경계 박스 및 경계 박스의 위치 정보를 포함할 수 있다. 경계 박스가 직사각형 박스일 때, 경계 박스의 위치 정보는 경계 박스의 길이 및 폭 정보뿐만 아니라 정점들 중 적어도 하나의 좌표를 포함할 수 있다.

타겟 객체 검출 네트워크는 타겟 검출 작업들을 수행하기 위해 사용된다. 예를 들어, 타겟 객체 검출 네트워크는 RCNN(Region Convolutional Neural Network), FAST-RCNN(Fast a Region Convolutional Neural Network) 또는 FASTER-RCNN(Faster Region Convolutional Neural Network)에 기초하여 구축된 신경망일 수 있다.

실제로, 타겟 객체 검출 네트워크로 타겟을 검출하기 전에, 네트워크는 네트워크가 수렴할 때까지, 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체의 위치 레이블 정보를 갖는 일부 트레이닝 샘플들에 기초하여 트레이닝될 수 있다.

도 2를 참조하면, 도 2는 본 개시내용에 따른 타겟 이미지에 포함된 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체를 검출하는 타겟 검출 방법을 도시하는 흐름도이다. 도 2는 타겟 검출 방법의 프로세스만을 개략적으로 도시한 것으로, 본 개시내용을 제한하지 않는다는 점에 유의해야 한다.

도 2에 도시된 바와 같이, 타겟 객체 검출 네트워크는 FASTER-RCNN일 수 있고, 적어도 백본(백본 네트워크), RPN(Region Proposal Network, 후보 박스 생성 네트워크), 및 RCNN(Region-based Convolutional Neural Network)을 포함할 수 있다.

여기서, 백본 네트워크는 타겟 이미지의 타겟 특징 맵을 획득하기 위해 타겟 이미지에 대해 일부 콘볼루션 연산을 수행할 수 있다. 그 후, 타겟 특징 맵은 타겟 이미지에 포함된 타겟 객체들에 각각 대응하는 앵커들(앵커 박스들)을 획득하기 위해 RPN 네트워크에 의해 처리될 수 있다. 그 후, RPN 네트워크에 의해 출력된 앵커 박스들 및 백본 네트워크에 의해 출력된 타겟 특징 맵은 bbox(경계 박스들) 회귀 및 분류를 위해 RCNN 네트워크에 의해 처리되어 타겟 이미지에 포함된 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체에 각각 대응하는 경계 박스들을 획득할 수 있다.

본 개시내용의 예들에서는, 동일한 타겟 객체 검출 네트워크가 3개의 상이한 타입의 신체 부분 객체를 검출하기 위해 사용될 수 있을 뿐만 아니라, 샘플 이미지들에 포함된 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체의 카테고리들 및 위치들이 트레이닝시 각각 마킹된다는 점에 유의해야 한다. 타겟 검출 작업을 수행할 때, 타겟 객체 검출 네트워크는 상이한 타입의 신체 부분 객체들 및 신체 객체들에 대한 검출 결과를 출력할 수 있다.

얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체에 각각 대응하는 경계 박스들을 결정한 후에, 검출된 얼굴 객체와 검출된 미리 설정된 신체 부분 객체 사이의 상관성, 및 검출된 미리 설정된 신체 부분 객체와 검출된 손 객체 사이의 상관성을 예측하여, 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 제1 상관성 예측 결과, 및 미리 설정된 신체 부분 객체와 손 객체 사이의 제2 상관성 예측 결과를 획득하기 위해 S104가 수행될 수 있다.

위에서 언급된 상관성 예측은 구체적으로 2개의 객체 사이의 상관성을 검출하는 것을 지칭한다. 실제로, 2개의 객체가 동일한 신체 객체에 속할 확률 또는 신뢰도가 계산되어, 2개의 객체 사이의 상관성을 검출할 수 있다. 2개의 객체는 얼굴 객체와 미리 설정된 신체 객체, 또는 미리 설정된 신체 객체와 손 객체를 포함할 수 있다.

일부 예들에서, 검출된 얼굴 객체 및 검출된 미리 설정된 신체 객체가 동일한 신체 객체에 속할 확률, 및 검출된 미리 설정된 신체 객체 및 검출된 손 객체가 동일한 신체 객체에 속할 확률은 거리, 상대 위치 관계, 이미지 내의 2개의 객체 사이의 컬러 상관성 정도, 및 거리, 상대 위치 관계, 실제 장면 내의 2개의 상관된 객체의 컬러와 같은 사전 지식과 같은 특징들에 기초하여 계산될 수 있고, 각각 제1 상관성 예측 결과 및 제2 상관성 예측 결과로서 취해질 수 있다.

일부 예들에서, 상관성 예측은 2개의 객체가 동일한 신체 객체에 속한다는 신뢰도를 획득하기 위해, 신경망에 기초하여 구성되는 상관성 예측 모델을 통해 수행될 수 있다.

일부 예들에서, 신뢰도의 정도는 예측 스코어에 의해 정량화될 수 있다. 예측 스코어가 높을수록, 2개의 부분이 동일한 신체에 속하게 될 확률이 높아진다.

일부 경우들에서, 타겟 이미지는 복수의 얼굴 객체, 복수의 손 객체, 및 복수의 미리 설정된 신체 부분 객체를 포함할 수 있다는 점이 이해되어야 한다. 본 개시내용의 방법에서, 얼굴 객체들은 얼굴 객체와 손 객체 사이의 상관성을 예측하는데 각각 사용되는 복수의 제1 조합을 형성하기 위해 손 객체들과 랜덤하게 조합될 수 있다. 이 경우, 제1 상관성 예측 결과를 결정할 때, S1042가 먼저 수행될 수 있고, 여기서 검출된 얼굴 객체 각각은 미리 설정된 신체 부분 객체 각각과 조합되어 복수의 제2 조합을 획득한다.

S1042를 수행하기 전에, 각각의 검출된 얼굴 객체, 각각의 손 객체, 및 각각의 미리 설정된 신체 부분 객체에 대한 고유 식별자가 생성될 수 있다.

일부 예들에서, 고유 식별자는 각각의 객체의 카테고리 및 정수들의 리스트에 기초하여 각각의 객체마다 생성될 수 있다. 예를 들어, 생성된 식별자는 얼굴 객체 F1, 얼굴 객체 F2, 손 객체 H1, 미리 설정된 신체 부분 객체 E1 등일 수 있고, 여기서, "F", "H", 및 "E"는 얼굴 객체의 카테고리, 손 객체의 카테고리, 및 미리 설정된 신체 부분 객체의 카테고리를 식별하는데 사용된다.

식별자들이 생성된 후, 각각의 얼굴 객체는 차례로 타겟 얼굴 객체로서 사용될 수 있고, 식별자들에 따라 미리 설정된 신체 부분 객체 각각과 조합되어, 복수의 제2 조합을 획득할 수 있다. 본 출원에 포함된 모든 객체 조합 방법은 전술한 제2 조합의 조합 방법을 참조할 수 있으며, 이는 나중에 상세히 설명되지 않는다는 것을 이해해야 한다.

복수의 제2 조합이 획득된 후에, 제2 조합 각각에 대해, 제2 조합에서의 얼굴 객체 및 미리 설정된 신체 부분 객체의 시각적 특징들에 기초하여 제2 조합에서의 얼굴 객체 및 미리 설정된 신체 부분 객체에 대한 상관성을 예측함으로써, 제2 조합 각각에서의 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 제1 상관성 예측 결과를 획득하는 S1044가 수행될 수 있다.

일부 예들에서, 상관성 예측은 상관성 예측 모델에 기초하여 수행될 수 있다. 상관성 예측 모델은 회귀 모델 또는 시각적 특징 추출 유닛에 기초하여 구성된 분류 모델일 수 있다. 예측 모델은 완전 연결 계층을 포함할 수 있고, 최종적으로 상관성 예측 스코어를 출력할 수 있다.

여기서, 완전 연결 계층은 선형 회귀(linear regression) 및 최소 제곱 회귀(least square regression)와 같은 알고리즘들에 기초하여 구성된 계산 유닛일 수 있다. 계산 유닛은 시각적 특징들에 대해 특징 매핑을 수행하여 대응하는 상관성 예측 스코어 값을 획득할 수 있다.

실제로, 계산 유닛은 얼굴 객체들과 미리 설정된 신체 부분 객체들 사이의 상관성들에 대한 레이블 정보를 갖는 몇몇 트레이닝 샘플들에 기초하여 트레이닝될 수 있다.

트레이닝 샘플들을 구성할 때, 몇몇 원본 이미지들이 먼저 획득될 수 있고, 원본 이미지들에 포함된 얼굴 객체들 및 미리 설정된 신체 부분 객체들이 주석 툴(annotation tool)을 사용하여 랜덤하게 조합되어, 복수의 조합을 획득한다. 그 후, 각각의 조합에서의 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 상관성 라벨링이 수행된다. 조합에서의 얼굴 객체가 미리 설정된 신체 부분 객체와 상관되는 경우(동일한 사람에 속하는 경우), 1로 라벨링될 수 있고, 그렇지 않으면 0으로 라벨링될 수 있다. 대안적으로, 원본 이미지가 라벨링될 때, 얼굴 객체 및 미리 설정된 신체 부분 객체가 속하는 (사람 ID와 같은) 사람 객체의 정보가 각각 라벨링될 수 있다. 따라서, 얼굴 객체가 속하는 사람의 정보와 미리 설정된 신체 부분 객체가 속하는 사람의 정보가 일치하는지에 기초하여, 얼굴 객체가 미리 설정된 신체 부분 객체와 조합되어 상관되는지가 결정될 수 있다.

도 3을 참조하면, 도 3은 본 개시내용에 따른 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 상관성을 예측하는 방법을 도시하는 흐름도이다.

예로서, 도 3에 도시된 상관성 예측 모델은 시각적 특징 추출 유닛 및 완전 연결 계층을 포함할 수 있다.

시각적 특징 추출 유닛은 타겟 이미지에 대응하는 경계 박스 및 타겟 특징 맵에 기초하여 특징 영역을 취득할 수 있다.

예를 들어, 시각적 특징 추출 유닛은 RoI 얼라인(Region of interest Align) 유닛 또는 RoI 풀링(Region of interest pooling) 유닛일 수 있다.

완전 연결 계층은 선형 회귀 및 최소 제곱 회귀와 같은 알고리즘들에 기초하여 구성된 유닛일 수 있다. 이 유닛은 특징 영역(픽셀 행렬)에 대해 특징 매핑(행렬 연산)을 수행하여 대응하는 상관성 예측 스코어 값을 획득할 수 있다.

상관성 예측 모델을 사용하여 예측할 때, 각각의 제2 조합에서의 얼굴 객체와 미리 설정된 신체 부분 객체의 경계 박스들, 및 타겟 이미지에 대응하는 타겟 특징 맵은 시각적 특징 추출 유닛에 입력되어, 얼굴 객체와 미리 설정된 신체 부분 객체에 대응하는 시각적 특징들을 획득할 수 있다.

그 후, 시각적 특징들은 제1 상관성 예측 결과를 계산하기 위해 완전 연결 계층에 입력된다.

일부 예들에서, 상관성을 예측하는 정확도를 향상시키기 위해, 제1 상관성 예측 스코어를 계산할 때, 제2 조합 각각에 대해, 제2 조합에서의 얼굴 객체 및 미리 설정된 신체 부분 객체의 시각적 특징들 및 위치 특징들에 기초하여, 상관성 예측 모델은 제2 조합에서의 미리 설정된 신체 부분 객체에 대한 얼굴 객체의 상관성을 예측하여, 제2 조합 각각에서의 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 제1 상관성 예측 결과를 획득하기 위해 사용될 수 있다. 여기서, 시각적 특징들은 컬러 및/또는 질감과 같은 특징들을 포함하고, 위치 특징들은 좌표 위치들, 다른 객체들과의 상대 위치 관계들 등과 같은 특징들을 포함한다.

도 4를 참조하면, 도 4는 본 개시내용에 따른 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 상관성을 예측하는 방법을 도시하는 흐름도이다.

도 4에 도시된 바와 같이, 얼굴 객체 및 미리 설정된 신체 부분 객체에 각각 대응하는 시각적 특징들이 시각적 특징 추출 유닛에 의해 추출된 후에, 특징 스플라이싱(예를 들어, 단일-코어 콘볼루션 연산, 중첩 등)이 얼굴 객체의 위치 특징들(예를 들어, 좌표들) 및 미리 설정된 신체 부분 객체의 위치 특징들에 대해 수행되어, 스플라이싱된 특징을 획득한다.

스플라이싱된 특징이 획득된 후에, 스플라이싱된 특징은 제1 상관성 예측 결과를 획득하기 위해 특징 매핑(행렬 연산)을 수행하기 위해 완전 연결 계층에 입력될 수 있다.

상관성 예측에서는, 얼굴 객체 및 미리 설정된 신체 부분 객체의 시각적 특징들 이외에, 얼굴 객체 및 미리 설정된 신체 부분 객체의 경계 박스들에 각각 대응하는 위치 특징들이 또한 사용된다. 따라서, 신체 부분들 사이의 잠재적인 위치 관계와 같은 정보가 추출될 수 있고, 신체 부분 객체들 사이의 상관성을 예측하는데 유용한 추출된 정보가 도입될 수 있고, 그로써 상관성 예측 결과의 정확도를 향상시킨다.

그 후, 검출된 미리 설정된 신체 부분 객체 각각을 손 객체 각각과 조합하여 복수의 제3 조합을 형성할 수 있는 S1046이 수행될 수 있다.

S1048에서, 각각의 제3 조합에서의 미리 설정된 신체 부분 객체와 손 객체 사이의 제2 상관성 예측 결과는 각각의 제3 조합에 대해, 제3 조합에서의 미리 설정된 신체 부분 객체와 손 객체의 시각적 특징들 및 위치 특징들에 기초하여 제3 조합들에서의 미리 설정된 신체 부분 객체에 대한 손 객체의 상관성을 예측함으로써 획득된다.

단계 S1046-S1048의 설명은 단계 S1042-S1044의 설명을 참조할 수 있으며, 이는 여기서 상세히 설명되지 않는다는 것을 이해해야 한다.

본 출원은 제1 상관성 예측 결과 및 제2 상관성 예측 결과를 결정하는 시퀀스를 특별히 제한하지 않는다는 점에 유의해야 한다. 예를 들어, S1042-S1044가 먼저 수행될 수 있거나, 또는 S1046-S1048이 먼저 수행될 수 있거나, 또는 제1 상관성 예측 결과 및 제2 상관성 예측 결과를 예측하는 것이 동시에 수행될 수 있다.

복수의 제1 상관성 예측 결과 및 복수의 제2 상관성 예측 결과를 획득한 후에, 프로세스는 S106으로 진행할 수 있고, 여기서 타겟 이미지에 포함된 상관된 객체들은 제1 상관성 예측 결과들 및 제2 상관성 예측 결과들에 기초하여 결정될 수 있다.

일부 예들에서, 제1 상관성 예측 결과들 및 제2 상관성 예측 결과들에 기초하여, 동일한 미리 설정된 신체 부분 객체에 대한 상관성들이 미리 설정된 조건을 충족시키는 얼굴 객체 및 손 객체가 타겟 이미지에 포함된 상관된 객체들로서 결정될 수 있다.

미리 설정된 조건은 실제 비즈니스 요건들에 기초하여 설정될 수 있다. 일부 예들에서, 미리 설정된 조건은 동일한 미리 설정된 신체 부분 객체에 대한 상관성의 신뢰도가 미리 설정된 임계값(경험적 임계값)에 도달하는 것을 특정할 수 있다.

일부 예들에서, 제1 미리 설정된 임계값(경험적 임계값)에 도달하는 제1 상관성 예측 결과들은 복수의 제1 상관성 예측 결과로부터 선택될 수 있고, 제1 상관성 예측 결과에 대응하는 얼굴 객체 및 미리 설정된 신체 부분 객체는 미리 상관된 얼굴 객체와 미리 설정된 신체 부분 객체의 쌍으로서 결정된다.

그 후, 동일한 미리 설정된 신체 부분 객체와 미리 상관된 얼굴 객체들의 수가 결정될 수 있다.

동일한 미리 설정된 신체 부분 객체와 미리 상관된 얼굴 객체들의 수가 1이면, 얼굴 객체가 손 객체와 상관된다고 결정된다.

동일한 미리 설정된 신체 부분 객체와 미리 상관된 얼굴 객체들의 수가 1보다 크면, 미리 설정된 신체 부분 객체와 미리 상관된 복수의 얼굴 객체로부터, 미리 설정된 신체 부분 객체와 가장 큰 상관성을 갖는 얼굴 객체가 결정되고, 얼굴 객체는 미리 설정된 신체 부분 객체와 상관된 얼굴 객체로서 결정된다.

그 후, 유사한 방법에 기초하여, 미리 설정된 신체 부분 객체와 상관된 손 객체가 결정될 수 있다.

동일한 미리 설정된 신체 부분 객체와 상관된 얼굴 객체 및 손 객체가 결정된 후에, 얼굴 객체와 손 객체는 동일한 신체 객체에 속하는 상관된 객체들의 쌍으로서 결정될 수 있다.

상기 해결책들에서, 미리 설정된 신체 부분 객체가 얼굴과 손 사이의 미리 설정된 연결 부분이기 때문에, 미리 설정된 신체 부분 객체는 손 객체 및 얼굴 객체에 밀접하게 관련된다. 얼굴 객체와 손 객체 사이의 상관성을 예측할 때, 실제 상관된 얼굴 객체와 손 객체는 중간 정보를 통해 상관될 수 있으며, 이는 상관된 객체의 검출 결과의 정확도를 향상시킬 수 있다.

일부 예들에서, 상관성을 예측하는 정확도를 향상시키기 위해, S106을 수행할 때, 검출된 얼굴 객체와 검출된 손 객체 사이의 상관성이 먼저 예측되어 제3 상관성 예측 결과를 획득할 수 있다. 그 후, 제1 상관성 예측 결과와 제2 상관성 예측 결과로부터, 얼굴 객체와 손 객체 사이의 상관성을 예측하는데 유용한 보조 정보를 추출할 수 있다. 그 후, 보조 정보에 기초하여, 제3 상관성 예측 결과가 조정될 수 있고, 조정된 제3 상관성 예측 결과에 기초하여, 타겟 이미지에 포함된 상관된 객체들이 결정될 수 있고, 이에 의해 상관성 예측 정확도가 향상될 수 있다.

상기 단계들은 도면들을 참조하여 아래에 설명된다.

도 5를 참조하면, 도 5는 본 개시내용에 따른 상관된 객체들을 검출하는 방법을 도시하는 흐름도이다.

도 5에 도시된 프로세스는 적어도 타겟 객체 검출 네트워크, 제1 미리 설정된 네트워크, 및 제2 미리 설정된 네트워크를 포함한다. 타겟 객체 검출 네트워크는 타겟 이미지에 포함된 얼굴 객체들, 손 객체들, 및 미리 설정된 신체 부분 객체들을 검출하도록 구성된다. 제1 미리 설정된 네트워크는 얼굴 객체와 손 객체 사이의 상관성을 예측하여 제3 상관성 예측 결과를 획득하도록 구성된다. 제2 미리 설정된 네트워크는 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 상관성, 및 미리 설정된 신체 부분 객체와 손 객체 사이의 상관성을 예측하여, 제1 상관성 예측 결과 및 제2 상관성 예측 결과를 각각 획득하도록 구성된다.

도 5에 도시된 바와 같이, 상관성을 예측할 때, 타겟 이미지가 타겟 객체 검출 네트워크에 입력될 수 있고, 타겟 검출이 수행되어 타겟 이미지에 포함된 얼굴 객체들, 손 객체들, 및 미리 설정된 신체 부분 객체들의 경계 박스들을 획득한다.

그 후, 제1 미리 설정된 네트워크는 검출된 얼굴 객체들과 손 객체들 사이의 상관성을 예측하여 제3 상관성 예측 결과들을 획득하기 위해 사용될 수 있다. 제3 상관성 예측 결과를 예측하는 단계의 설명은 S1042-S1044의 단계의 설명을 참조할 수 있으며, 이는 본 명세서에서 상세히 설명되지 않을 것이라는 것을 이해해야 한다.

그 후, 제2 미리 설정된 네트워크는 얼굴 객체들과 미리 설정된 신체 부분 객체들 사이의 상관성들에 관한 제1 상관성 예측 결과들, 및 미리 설정된 신체 부분 객체와 손 객체들 사이의 상관성들에 관한 제2 상관성 예측 결과들을 획득하기 위해, 각각, 미리 설정된 신체 부분 객체와 손 객체들뿐만 아니라, 검출된 얼굴 객체들과 미리 설정된 신체 부분 객체 사이의 상관성을 예측하는데 사용될 수 있다.

그 후, 제3 상관성 예측 결과는 제1 상관성 예측 결과 및 제2 상관성 예측 결과에 기초하여 조정될 수 있다. 일부 선택적 구현들에서, 제1 상관성 예측 결과 및 제2 상관성 예측 결과는 제3 상관성 예측 결과를 검증하기 위해 사용될 수 있다. 제3 상관성 예측 결과의 신뢰성은 검증이 통과되면 증가될 수 있고, 그렇지 않으면 제3 상관성 예측 결과의 신뢰성은 감소되거나 또는 제3 상관성 예측 결과는 "상관성 없음"으로 조정된다.

예로서, 제1 상관성 예측 결과에 기초하여 얼굴 객체 F1이 미리 설정된 신체 부분 객체 E1과 상관된다고 결정되고, 제2 상관성 예측 결과에 기초하여 미리 설정된 신체 부분 객체 E1이 손 객체 H1과 상관되지 않는다고 결정되며, 제3 상관성 예측 결과에 기초하여 얼굴 객체 F1이 손 객체 H1과 상관된다고 결정되면, 얼굴 객체 F1과 손 객체 H1 사이의 제3 상관성 예측 결과는 상관되지 않는다고 결정될 수 있다.

일부 예들에서, 상관성 예측 결과는 상관성 예측 스코어를 포함할 수 있다.

도 6을 참조하면, 도 6은 본 개시내용에 따른 예측 결과를 조정하는 방법을 도시하는 흐름도이다.

도 6에 도시된 바와 같이, 검출된 미리 설정된 신체 부분 객체 각각은 차례로 타겟 신체 부분 객체로서 사용될 수 있고, 다음의 동작들이 수행될 수 있다.

S602에서, 타겟 신체 부분 객체에 대한 제1 상관성 예측 결과에서의 제1 상관성 예측 스코어가 가장 높은 타겟 얼굴 객체를 결정한다.

일부 예들에서, 타겟 신체 부분 객체들에 대응하는 제1 상관성 예측 스코어들은 내림차순으로 정렬될 수 있다. 먼저 랭크된 제1 상관성 예측 스코어에 대응하는 얼굴 객체가 타겟 얼굴 객체로서 결정될 수 있다.

따라서, 타겟 신체 부분 객체와 가장 높은 상관성을 갖는 얼굴 객체가 획득될 수 있다.

일부 예들에서, 후보 얼굴 객체들은 타겟 신체 부분 객체에 대한 각각의 후보 얼굴 객체의 제1 상관성 예측 스코어가 미리 설정된 임계값보다 큰 방식으로 결정될 수 있다. 그 후, 후보 얼굴 객체들로부터, 가장 높은 제1 상관성 예측 스코어를 갖는 것이 타겟 얼굴 객체로서 선택된다.

미리 설정된 임계값은 경험적 임계값이다. 2개의 신체 객체의 상관성 예측 스코어가 미리 설정된 임계값에 도달하면, 이는 2개의 신체 객체가 동일한 사람에 속할 가능성이 더 많다는 것을 나타낸다.

상기 예들에서, 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 제1 상관성 예측 스코어가 미리 설정된 임계값보다 낮으면, 후보 얼굴 객체가 결정될 수 없다. 이 경우, 얼굴 객체와 미리 설정된 신체 부분이 동일한 사람에 속하지 않는다는 것(이는 얼굴 객체와 동일한 사람에 속하는 미리 설정된 신체 부분이 차단되는 것에 의해 야기될 수 있음)을 나타낼 수 있으므로, 제1 상관성 예측 스코어에 기초하여 얼굴 객체에 대응하는 제3 상관성 예측 스코어를 조정할 필요가 없다. 따라서, 한편으로, 모델 계산량이 감소될 수 있고 상관된 객체를 검출하는 효율이 개선될 수 있고; 한편, 쓸모없는 보정이 회피될 수 있으며 상관된 객체를 검출하는 정확도가 향상될 수 있다.

그 후, S604가 수행될 수 있고, 타겟 신체 부분 객체에 대한 제2 상관성 예측 결과에서의 제2 상관성 예측 스코어가 가장 높은 타겟 손 객체를 결정하는 것이다.

일부 예들에서, 타겟 신체 부분 객체들에 대응하는 제2 상관성 예측 스코어들은 내림차순으로 정렬될 수 있다. 먼저 랭크된 제2 상관성 예측 스코어에 대응하는 손 객체가 타겟 손 객체로서 결정될 수 있다.

따라서, 타겟 신체 부분 객체와 가장 높은 상관성을 갖는 손 객체가 획득될 수 있다.

일부 예들에서, 후보 손 객체들은 타겟 신체 부분 객체에 대한 후보 손 객체의 제2 상관성 예측 스코어가 미리 설정된 임계값보다 큰 방식으로 결정될 수 있다. 후보 손 객체들로부터, 가장 높은 제2 상관성 예측 스코어를 갖는 것이 타겟 손 객체로서 결정된다.

상기 예들에서, 손 객체와 미리 설정된 신체 부분 객체 사이의 제2 상관성 예측 스코어가 미리 설정된 임계값보다 낮다면, 후보 손 객체는 결정될 수 없다. 이 경우, 손 객체 및 미리 설정된 신체 부분이 동일한 사람에 속하지 않는다는 것(이는 손 객체와 동일한 사람에 속하는 미리 설정된 신체 부분이 차단되는 것에 의해 야기될 수 있음)을 표시할 수 있으므로, 제2 상관성 예측 스코어에 기초하여 손 객체에 대응하는 제3 상관성 예측 스코어를 조정할 필요가 없다. 따라서, 한편으로, 모델 계산량이 감소될 수 있고 상관된 객체를 검출하는 효율이 개선될 수 있고; 한편, 쓸모없는 보정이 회피될 수 있으며 상관된 객체를 검출하는 정확도가 향상될 수 있다.

마지막으로, 타겟 신체 부분 객체에 대한 타겟 얼굴 객체의 제1 상관성 예측 스코어, 및 타겟 손 객체에 대한 타겟 신체 부분 객체의 제2 상관성 예측 스코어에 기초하여, 타겟 얼굴 객체와 타겟 손 객체 사이의 제3 상관성 예측 결과에서의 제3 상관성 예측 스코어가 조정되는 S606이 수행될 수 있다.

일부 예들에서, 타겟 신체 부분 객체에 대한 타겟 얼굴 객체의 제1 상관성 예측 스코어와, 타겟 신체 부분 객체에 대한 타겟 손 객체의 제2 상관성 예측 스코어의 평균 값이 먼저 결정될 수 있다.

조정된 제3 상관성 예측 스코어는 타겟 얼굴 객체와 타겟 손 객체 사이의 제3 상관성 예측 스코어에 평균 값을 가산함으로써 획득된다.

여기서는, 제3 상관성 예측 스코어를 조정하는 많은 방법들이 있을 수 있다는 점에 유의해야 한다. 예를 들어, 제1 상관성 예측 스코어, 제2 상관성 예측 스코어, 및 제3 상관성 예측 스코어의 합은 조정된 제3 상관성 예측 스코어로서 바로 결정된다. 다른 예로서, 제3 상관성 예측 스코어와 제1 상관성 예측 스코어 또는 제2 상관성 예측 스코어의 합은 조정된 제3 상관성 예측 스코어로서 결정된다. 본 개시내용에서, 제3 상관성 예측 스코어의 조정 방법들은 모두 열거되지 않았다.

제3 상관성 예측 결과의 조정을 완료한 후에, 조정된 제3 상관성 예측 결과에 기초하여 검출된 얼굴 객체와 검출된 손 객체 사이의 상관성이 결정될 수 있다. 이미지 내의 얼굴 객체가 손 객체와 상관되는지는 제3 상관성 예측 결과에 의해 결정될 수 있다. 예를 들어, 얼굴 객체와 손 객체가 상관되는지는 제3 상관성 예측 결과를 나타내는 상관성 예측 스코어가 임계값을 초과하는지에 의해 결정될 수 있다.

이 단계에서, 제3 상관성 예측 스코어가 높은 것으로부터 낮은 것으로의 순서로 복수의 제3 상관성 예측 스코어로부터의 각각을 선택하는 것이 또한 가능하고, 선택된 제3 상관성 예측 스코어에 대응하는 얼굴 객체 및 손 객체의 현재 조합에 대해 다음의 제1 및 제2 단계들을 수행한다.

제1 단계에서, 타겟 이미지에 포함된 결정된 상관된 객체들에 기초하여, 현재 조합에서의 얼굴 객체와 상관된 손 객체들의 수가 제1 미리 설정된 임계값에 도달하는지가 결정되고, 현재 조합에서의 손 객체와 상관된 얼굴 객체들의 수가 제2 미리 설정된 임계값에 도달하는지가 결정된다.

제1 미리 설정된 임계값은 실제 상황들에 따라 설정될 수 있는 경험적 임계값이다. 여기서, 제1 미리 설정된 임계값은 2일 수 있다.

제2 미리 설정된 임계값은 실제 상황들에 따라 설정될 수 있는 경험적 임계값이다. 여기서, 제2 미리 설정된 임계값은 1일 수 있다.

일부 예들에서, 미리 설정된 스코어 임계값에 도달하는 상관성 예측 스코어와의 조합은 높은 것으로부터 낮은 것으로의 제3 상관성 예측 스코어의 순서에 기초하여, 현재 객체들의 쌍으로서 결정될 수 있다.

본 개시내용의 예들에서, 미리 설정된 스코어 임계값에 도달하는 상관성 예측 스코어와의 조합은 현재 객체들의 쌍으로서 결정될 수 있다. 현재 객체들의 쌍에 대해 상관성 결정이 수행됨으로써, 상관성 예측 결과의 정확도가 개선될 수 있다.

일부 예들에서, 각각의 얼굴 객체 및 각각의 손 객체에 대해 카운터가 유지될 수 있다. 임의의 얼굴 객체에 대해, 하나의 손 객체가 얼굴 객체와 상관된 것으로 결정되면, 얼굴 객체에 대응하는 카운터의 값은 1만큼 증가된다. 이 경우, 얼굴 객체와 상관된 손 객체들의 수가 제1 미리 설정된 임계값에 도달하는지를 결정하고, 현재 객체들의 쌍 내의 손 객체와 상관된 얼굴 객체들의 수가 제2 미리 설정된 임계값에 도달하는지를 결정하기 위해 2개의 카운터가 사용될 수 있다.

제2 단계에서, 현재 조합에서의 얼굴 객체와 상관된 손 객체들의 수가 제1 미리 설정된 임계값보다 낮고, 현재 조합에서의 손 객체와 상관된 얼굴 객체들의 수가 제2 미리 설정된 임계값보다 낮은 것에 응답하여, 현재 조합에서의 얼굴 객체 및 손 객체가 타겟 이미지에 포함된 상관된 객체들로서 결정된다.

상기 해결책들에 따르면, 복잡한 시나리오들(예를 들어, 타겟 이미지는 중첩된 얼굴들, 사지들, 및 손들을 갖는 복수의 사람을 포함함)에서, 하나의 얼굴 객체가 2개보다 많은 손 객체들과 상관되는 것으로서 예측되는 것 또는 하나의 손 객체가 하나보다 많은 얼굴 객체와 상관되는 것으로서 예측되는 것과 같은 합리적이지 않은 예측을 회피할 수 있다. 예를 들어, 상이한 사람들의 손들 또는 얼굴들이 서로 중첩하거나 차폐할 수 있는 멀티플레이어 테이블톱 게임 시나리오에서, 해결책들은 손들을 각자의 얼굴들과 더 높은 정확도로 상관시킬 수 있다.

동일한 미리 설정된 신체 부분 객체에 강하게 상관되는 얼굴 객체 및 손 객체가 실제 상황들에서 동일한 사람에 속할 가능성이 매우 크기 때문에, 조정된 제3 상관성 예측 스코어에 기초하여 상관된 객체들을 예측하는 것은 상관성을 예측하는 정확도를 효과적으로 개선할 수 있다.

일부 예들에서, 타겟 이미지에 포함된 상관된 객체들의 검출 결과가 출력될 수 있다.

예를 들어, 테이블톱 게임 시나리오에서, 상관된 객체들에 의해 나타낸 얼굴 객체 및 손 객체에 대응하는 경계 박스가 (디스플레이와 같은) 이미지 출력 디바이스 상에 출력될 수 있다. 상관된 객체들의 검출 결과를 이미지 출력 디바이스 상에 출력함으로써, 관찰자는 이미지 출력 디바이스 상에 표시된 타겟 이미지에 포함된 상관된 객체들을 편리하고 직관적으로 결정할 수 있고, 그에 의해 상관된 객체들의 검출 결과에 대한 추가의 수동 검증을 용이하게 한다.

다음은 테이블톱 게임 시나리오에서의 예를 설명할 것이다. 다른 시나리오들에서의 구현을 위해, 본 개시내용에서의 테이블톱 게임 시나리오 예의 설명이 참조될 수 있으며, 이는 여기서 상세히 설명되지 않는다는 것을 이해해야 한다.

테이블톱 게임 시나리오에서, 게임 테이블이 보통 제공되고, 게임 참가자들은 게임 테이블을 둘러싼다. 테이블톱 게임의 라이브 이미지를 촬영하기 위한 촬상 디바이스가 테이블톱 게임 시나리오에 배치될 수 있다. 라이브 이미지는 게임 참가자들의 얼굴들, 손들, 및 팔꿈치들을 포함할 수 있다. 이 시나리오에서, 라이브 이미지에 포함된 상관된 객체들인 손과 얼굴을 결정할 것으로 예상되어, 손이 속하는 개인 신원 정보가 이미지에 포함된 손과 상관된 얼굴에 기초하여 결정될 수 있다.

여기서, 손과 얼굴은 상관된 객체들이거나, 손과 얼굴은 상관되며, 이는 둘이 동일한 신체에 속한다는 것, 즉 둘이 동일한 사람의 손과 얼굴이라는 것을 의미한다.

이 시나리오에서, 얼굴과 손 사이의 상관성을 검출하기 위한 검출 디바이스가 또한 배치될 수 있다. 디바이스는 촬상 디바이스로부터 라이브 이미지들을 획득하고 라이브 이미지들에 포함된 상관된 객체들을 결정할 수 있다.

검출 디바이스는 트레이닝된 얼굴-팔꿈치-손 객체 검출 네트워크, 얼굴-손 상관성 예측 네트워크, 및 얼굴-팔꿈치-손 상관성 예측 네트워크를 구비할 수 있다. 상관성 예측 네트워크의 입력은 얼굴-팔꿈치-손 객체 검출 네트워크의 출력을 포함할 수 있다.

얼굴-팔꿈치-손 객체 검출 네트워크는 FASTER-RCNN 네트워크에 기초하여 구성된 신경망을 포함할 수 있다. 객체 검출 네트워크는 라이브 이미지들로부터 얼굴 객체들, 손 객체들, 및 팔꿈치 객체들에 각각 대응하는 경계 박스들을 검출할 수 있다.

얼굴-손 상관성 예측 네트워크와 얼굴-팔꿈치-손 상관성 예측 네트워크는 영역 특징 추출 유닛 및 완전 연결 계층에 기초하여 구성된 신경망일 수 있다.

얼굴-팔꿈치-손 상관성 예측 네트워크는 얼굴 및 손에 대응하는 시각적 특징들을 추출하고, 객체 검출 네트워크에 의해 검출되는 얼굴 및 손에 대응하는 경계 박스들의 위치 특징들을 조합하여, 얼굴과 손 사이의 제3 상관성 예측 스코어를 예측할 수 있다.

얼굴-팔꿈치-손 상관성 예측 네트워크는 얼굴-팔꿈치 상관성 예측 네트워크 및 팔꿈치-손 상관성 예측 네트워크를 포함할 수 있다. 얼굴-팔꿈치-손 상관성 예측 네트워크는 검출된 얼굴과 검출된 팔꿈치 사이의 제1 상관성 예측 스코어, 및 검출된 팔꿈치와 검출된 손 사이의 제2 상관성 예측 스코어를 각각 예측할 수 있다.

본 개시내용의 예들에서, 검출 디바이스는 사용자의 동작에 응답하여 또는 주기적으로 촬상 디바이스로부터 라이브 이미지들을 획득할 수 있다.

그 후, 객체 검출 네트워크는 라이브 이미지에 포함된 얼굴 객체들, 손 객체들, 및 팔꿈치 객체들을 검출하기 위해 사용될 수 있다.

그 후, 검출된 얼굴 객체들 중 임의의 것과 검출된 손 객체들 중 임의의 것을 조합하여 복수의 제1 조합을 획득할 수 있다. 그 후, 제1 조합 각각에 대해, 얼굴-손 상관성 예측 네트워크는 제1 조합에서의 얼굴과 손 사이의 상관성을 예측하여, 제1 조합 각각에서의 얼굴과 손 사이의 제3 상관성 예측 스코어를 획득하기 위해 사용된다.

유사하게, 검출된 얼굴들 중 임의의 것과 검출된 팔꿈치들 중 임의의 것을 조합하여 복수의 제2 조합을 획득할 수 있고, 검출된 팔꿈치들 중 임의의 것과 검출된 손들 중 임의의 것을 조합하여 복수의 제3 조합을 획득할 수 있다. 제2 조합들에서의 얼굴들과 팔꿈치들 사이의 제1 상관성 예측 스코어들, 및 제3 조합들에서의 팔꿈치들과 손들 사이의 제2 상관성 예측 스코어들은 얼굴-팔꿈치-손 상관성 예측 네트워크를 사용하여 각각 예측될 수 있다.

동일한 팔꿈치 객체에 강하게 상관되는 얼굴 객체 및 손 객체가 실제 상황들에서 동일한 사람에 속할 가능성이 매우 크기 때문에, 조정된 제3 상관성 예측 스코어들에 기초하여 상관된 객체 예측을 수행하는 것은 상관성을 효과적으로 예측하는 정확도를 향상시킬 수 있다.

그 후, 검출된 팔꿈치 각각이 차례로 타겟 팔꿈치로서 취해져서, 다음의 단계:

타겟 팔꿈치에 대한 제1 상관성 예측 결과에서의 제1 상관성 예측 스코어가 제1 미리 설정된 임계값에 도달하고 가장 큰 값을 갖는 타겟 얼굴 객체를 결정하는 단계; 및 타겟 팔꿈치에 대한 제2 상관성 예측 결과에서의 제2 상관성 예측 스코어가 제2 미리 설정된 임계값에 도달하고 가장 큰 값을 갖는 타겟 손 객체를 결정하는 단계를 수행할 수 있다. 그 후, 결정된 제1 상관성 예측 스코어와 결정된 제2 상관성 예측 스코어의 평균이 계산되고, 이 평균과 타겟 얼굴과 타겟 손 사이의 제3 상관성 예측 스코어의 합이 계산되어, 조정된 제3 상관성 예측 스코어를 획득한다.

검출 디바이스에서, 각각의 얼굴 객체 및 각각의 손 객체에 대해 카운터가 또한 유지될 수 있다. 임의의 얼굴 객체에 대해, 하나의 손 객체가 얼굴 객체와 상관된 것으로 결정되면, 얼굴 객체에 대응하는 카운터의 값은 1만큼 증가된다. 이 경우, 얼굴 객체와 상관된 손 객체들의 수가 제1 미리 설정된 임계값에 도달하는지를 결정하고, 현재 객체들의 쌍 내의 손 객체와 상관된 얼굴 객체들의 수가 제2 미리 설정된 임계값에 도달하는지를 결정하기 위해 2개의 카운터가 사용될 수 있다.

또한, 제3 상관성 예측 스코어가 높은 것으로부터 낮은 것으로의 순서로 조합 각각을 현재 조합으로서 차례로 결정하고, 다음의 단계들:

현재 조합에서의 얼굴 객체에 대응하는 카운터로부터 제1 값을 획득하고, 제1 값이 2에 도달하는지를 결정하는 단계; 및 현재 조합에서의 손 객체에 대응하는 카운터로부터 제2 값을 획득하고, 제2 값이 1에 도달하는지를 결정하는 단계를 수행할 수 있다.

제1 값이 2보다 작고 제2 값이 1보다 작으면, 이는 얼굴 객체와 상관된 손 객체의 수가 2보다 작고, 손 객체와 상관된 얼굴 객체의 수가 1보다 작다는 것을 의미한다. 따라서, 현재 객체 쌍의 얼굴 객체 및 손 객체는 라이브 이미지에 포함된 상관된 객체들로서 결정될 수 있다.

상기 해결책들에 따르면, 복잡한 시나리오들(예를 들어, 타겟 이미지는 중첩된 얼굴들, 사지들, 및 손들을 갖는 복수의 사람을 포함함)에서, 하나의 얼굴 객체가 2개보다 많은 손 객체들과 상관되는 것으로서 예측되는 것 또는 하나의 손 객체가 하나보다 많은 얼굴 객체와 상관되는 것으로서 예측되는 것과 같은 합리적이지 않은 예측을 회피할 수 있다.

검출 디바이스는 또한 디스플레이 유닛을 구비한다.

디스플레이 유닛은 상관된 객체들에 의해 나타난 얼굴 객체 및 손 객체를 포함한 경계 박스를 검출 디바이스 상에 장착된 디스플레이 상에 출력할 수 있다. 디스플레이 상에 상관된 객체들의 검출 결과를 출력함으로써, 관찰자는 이미지 출력 디바이스 상에 표시된 라이브 이미지에 포함된 상관된 객체들을 편리하고 직관적으로 결정할 수 있고, 그에 의해 상관된 객체들의 검출 결과에 대한 추가의 수동 검증을 용이하게 한다.

검출 디바이스는 또한 실시간으로 라이브 이미지들을 획득하고, 라이브 이미지들로부터 상관된 손 객체들 및 얼굴 객체들을 결정할 수 있다. 검출 디바이스는 또한 라이브 이미지에 포함된 손 객체에 의해 수행되는 액션 또는 터치되는 영역을 인식할 수 있다. 검출 디바이스가 손 객체가 게임 소품을 인출/방출하는 것, 또는 미리 설정된 게임 영역을 터치하는 것과 같은 액션들을 수행했다는 것을 인식하면, 관련 사람의 개인 신원은 손 객체와 상관된 얼굴 객체에 기초하여 결정될 수 있다. 그 후, 결정된 사람의 신원은 테이블톱 게임 매니저의 관리를 용이하게 하기 위해 출력될 수 있다.

본 개시내용에 따른 타겟 이미지에 포함된 상관된 객체들을 결정하는 해결책이 위에서 설명되었다. 이하에서는, 해결책에서 사용되는 타겟 객체 검출 모델 및 상관성 예측 네트워크를 트레이닝하는 방법이 설명될 것이다.

본 개시내용에서, 상관된 얼굴 객체 및 손 객체의 결정 결과들의 정확도를 향상시키기 위해, 각각의 모델이 단계적으로 트레이닝될 수 있다. 제1 스테이지는 타겟 객체 검출 네트워크의 트레이닝이고; 제2 스테이지는 타겟 객체 검출 네트워크 및 상관성 예측 모델의 공동 트레이닝이다.

도 5를 참조하면, 도 5에 도시된 바와 같이, 타겟 객체 검출 네트워크, 제1 미리 설정된 네트워크, 및 제2 미리 설정된 네트워크가 포함될 수 있다. 타겟 객체 검출 네트워크는 타겟 이미지에 포함된 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체를 검출하도록 구성된다. 제1 미리 설정된 네트워크는 얼굴 객체와 손 객체 사이의 제3 상관성 예측 결과를 예측하도록 구성된다. 제2 미리 설정된 네트워크는 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 제1 상관성 예측 결과, 및 미리 설정된 신체 부분 객체와 손 객체 사이의 제2 상관성 예측 결과를 예측하기 위해 사용된다.

제1 미리 설정된 네트워크는 얼굴-손 상관성 검출 모델을 포함하고; 제2 미리 설정된 네트워크는 얼굴-미리 설정된-신체-부분 상관성 검출 모델 및 미리 설정된-신체-부분-손 상관성 검출 모델을 포함한다. 타겟 객체 검출 네트워크, 얼굴-손 상관성 검출 모델, 얼굴-미리 설정된-신체-부분 상관성 검출 모델, 및 미리 설정된-신체-부분-손 상관성 검출 모델은 동일한 백본 네트워크를 공유한다.

도 7을 참조하면, 도 7은 본 개시내용에 따른 상관된 객체들을 검출하는 방법에서 신경망을 트레이닝하는 방법을 도시하는 흐름도이다.

도 7에 도시된 바와 같이, 본 방법은 다음의 단계들을 포함한다.

S702에서, 타겟 객체 검출 네트워크는 제1 트레이닝 샘플 세트에 기초하여 트레이닝되고; 제1 트레이닝 샘플 세트는 제1 레이블 정보를 포함하는 복수의 트레이닝 샘플을 포함하고; 제1 레이블 정보는 얼굴 객체들, 손 객체들, 및 미리 설정된 신체 부분 객체들의 위치 레이블 정보를 포함한다. 일부 예들에서, 위치 레이블 정보는 경계 박스들의 위치 레이블 정보를 포함할 수 있다.

이 단계에서, 원본 이미지는 수동 라벨링 또는 기계-지원 라벨링에 의해 참 또는 거짓 값으로 라벨링될 수 있다. 예를 들어, 테이블톱 게임 시나리오에서, 원본 이미지를 획득한 후에, 이미지 주석 툴을 사용하여, 얼굴 객체의 경계 박스들, 손 객체의 경계 박스, 및 원본 이미지에 포함된 미리 설정된 신체 부분 객체의 경계 박스에 각각 대응하는 위치 레이블 정보를 라벨링하여, 몇몇 트레이닝 샘플들을 획득할 수 있다. 트레이닝 샘플들을 인코딩할 때, 원-핫(one-hot) 인코딩 및 다른 방법들이 인코딩에 사용될 수 있고, 본 개시내용에서는 특정 인코딩 방법에 한정되지 않는다는 점에 유의해야 한다.

그 후, 타겟 객체 검출 네트워크는 네트워크가 수렴할 때까지 미리 설정된 손실 함수에 기초하여 트레이닝될 수 있다.

그 후, S704에서, 제2 트레이닝 샘플 세트에 기초하여 타겟 객체 검출 네트워크, 얼굴-손 상관성 검출 모델, 얼굴-미리 설정된-신체-부분 상관성 검출 모델, 및 미리 설정된-신체-부분-손 상관성 검출 모델에 대해 공동 트레이닝이 수행된다. 제2 트레이닝 샘플 세트는 제2 레이블 정보를 포함하는 복수의 트레이닝 샘플을 포함한다. 제2 레이블 정보는 얼굴 객체들, 손 객체들, 및 미리 설정된 신체 부분 객체들의 위치 레이블 정보, 및 얼굴 객체들, 미리 설정된 신체 부분 객체들, 및 손 객체들 사이의 상관성들에 대한 레이블 정보를 포함한다.

이 단계가 수행될 때, 원본 이미지는 수동 라벨링 또는 기계-지원 라벨링에 의해 참 또는 거짓 값으로 라벨링될 수 있다. 예를 들어, 원본 이미지를 획득한 후에, 한편으로는, 이미지 주석 툴이 얼굴 객체들의 경계 박스들과 손 객체들의 경계 박스들, 및 원본 이미지에 포함된 (팔꿈치들과 같은) 미리 설정된 신체 부분 객체들의 경계 박스들에 각각 대응하는 위치 레이블 정보를 라벨링하기 위해 사용될 수 있다; 한편, 이미지 주석 툴은 원본 이미지에 포함된 얼굴 객체들 및 미리 설정된 신체 부분 객체들을 랜덤하게 조합하고, 원본 이미지에 포함된 얼굴 객체들 및 손 객체들을 랜덤하게 조합하고, 원본 이미지에 포함된 미리 설정된 신체 부분 객체들 및 손 객체들을 랜덤하게 조합하여 복수의 조합을 획득하기 위해 사용될 수 있다. 그 후, 각각의 조합 내의 2개의 부분은 상관성 결과로 라벨링된다. 일부 예들에서, 하나의 조합 내의 2개의 부분이 상관성을 갖는 경우(동일한 사람에 속하는 경우), 1이 라벨링되고; 그렇지 않으면, 0이 라벨링된다.

제2 트레이닝 샘플 세트가 결정된 후에, 공동 학습 손실 함수는 모델들에 각각 대응하는 손실 함수들에 기초하여 결정될 수 있다.

일부 예들에서, 모델들에 각각 대응하는 손실 함수들은 공동 학습 손실 함수를 획득하기 위해 추가될 수 있다.

본 개시내용에서, 정규 항목들과 같은 하이퍼 파라미터도 공동 학습 손실 함수에 추가될 수 있다는 점에 유의해야 한다. 추가될 하이퍼 파라미터의 타입은 여기서 특별히 한정되지 않는다.

그 후, 모델들은 모델들이 수렴할 때까지 공동 학습 손실 함수 및 제2 트레이닝 샘플 세트에 기초하여 공동으로 트레이닝될 수 있다.

감독되는 공동 트레이닝 방법이 모델 트레이닝에 사용되기 때문에, 모델들은 동시에 트레이닝될 수 있어, 모델들이 트레이닝 프로세스에서 서로를 제한하고 촉진할 수 있다. 한편으로는 모델의 수렴 효율을 개선할 수 있고; 한편, 모든 모델에 의해 공유되는 백본 네트워크를 촉진하여 상관성을 예측하기 위한 보다 유익한 특징들을 추출함으로써, 상관성을 예측하는 정확도를 향상시킨다.

상기 구현들 중 임의의 것에 대응하여, 본 출원은 또한 이미지에 포함된 상관된 객체들을 검출하기 위한 장치(80)를 제안한다.

도 8을 참조하면, 도 8은 본 개시내용에 따른 이미지에 포함된 상관된 객체들을 검출하기 위한 장치를 도시하는 블록도이다.

도 8에 도시된 바와 같이, 장치(80)는 타겟 이미지에 포함된 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체를 검출하도록 구성된 검출기(81)- 미리 설정된 신체 부분 객체는 얼굴과 손 사이의 미리 설정된 연결 부분을 나타냄 -; 검출된 얼굴 객체와 검출된 미리 설정된 신체 부분 객체 사이의 상관성, 및 검출된 미리 설정된 신체 부분 객체와 검출된 손 객체 사이의 상관성을 각각 예측하여, 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 제1 상관성 예측 결과, 및 미리 설정된 신체 부분 객체와 손 객체 사이의 제2 상관성 예측 결과를 획득하도록 구성된 제1 상관성 예측 유닛(82); 및 제1 상관성 예측 결과 및 제2 상관성 예측 결과에 기초하여, 타겟 이미지에 포함된 상관된 객체들을 결정하도록 구성된 결정 유닛(84)을 포함한다.

일부 예시된 예들에서, 장치(80)는 검출된 얼굴 객체와 검출된 손 객체 사이의 상관성을 예측하여 제3 상관성 예측 결과를 획득하도록 구성된 제2 상관성 예측 유닛(83)을 또한 포함한다. 결정 유닛(84)은 제1 상관성 예측 결과 및 제2 상관성 예측 결과에 기초하여 제3 상관성 예측 결과를 조정하도록 구성된 조정 서브-유닛; 및 조정된 제3 상관성 예측 결과에 기초하여 타겟 이미지에 포함된 상관된 객체들을 결정하도록 구성된 결정 서브-유닛을 포함한다.

일부 예시된 예들에서, 타겟 이미지는 복수의 얼굴 객체 및 복수의 손 객체를 포함한다. 제2 상관성 예측 유닛(83)은 구체적으로: 검출된 얼굴 객체 각각을 검출된 손 객체 각각과 조합하여 복수의 제1 조합을 형성하고; 제1 조합 각각에 대해, 제1 조합에서의 얼굴 객체와 손 객체의 시각적 특징들 및 위치 특징들에 기초하여 제1 조합에서의 얼굴 객체와 손 객체 사이의 상관성을 예측함으로써, 제1 조합 각각에서의 얼굴 객체와 손 객체 사이의 제3 상관성 예측 결과를 획득하여, 제1 조합에서의 얼굴 객체와 손 객체 사이의 상관성을 예측하도록 구성된다.

일부 예시된 예들에서, 타겟 이미지는 또한 복수의 미리 설정된 신체 부분 객체를 포함한다. 제1 상관성 예측 유닛(82)은 구체적으로: 검출된 얼굴 객체 각각을 검출된 미리 설정된 신체 부분 객체 각각과 조합하여 복수의 제2 조합을 형성하고; 제2 조합 각각에 대해, 제2 조합에서의 얼굴 객체와 미리 설정된 신체 부분 객체의 시각적 특징들 및 위치 특징들에 기초하여 제2 조합에서의 얼굴 객체와 미리 설정된 신체 부분 객체에 대한 상관성을 예측함으로써, 제2 조합 각각에서의 얼굴 객체와 미리 설정된 신체 부분 객체 사이의 제1 상관성 예측 결과를 획득하고; 검출된 미리 설정된 신체 부분 객체 각각을 손 객체 각각과 조합하여 복수의 제3 조합을 형성하며; 제3 조합 각각에 대해, 제3 조합에서의 미리 설정된 신체 부분 객체와 손 객체의 시각적 특징들 및 위치 특징들에 기초하여 제3 조합에서의 미리 설정된 신체 부분 객체와 손 객체 사이의 상관성을 예측함으로써, 제3 조합 각각에서의 미리 설정된 신체 부분 객체와 손 객체 사이의 제2 상관성 예측 결과를 획득하도록 구성된다.

일부 예시된 예들에서, 상관성 예측 결과는 상관성 예측 스코어를 포함한다. 결정 서브-유닛은 구체적으로: 검출된 미리 설정된 신체 부분 객체 각각을 타겟 신체 부분 객체로서 취하고, 다음의 동작들: 타겟 신체 부분 객체에 대한 제1 상관성 예측 결과에서의 제1 상관성 예측 스코어가 가장 높은 타겟 얼굴 객체를 결정하는 동작; 타겟 신체 부분 객체에 대한 제2 상관성 예측 결과에서의 제2 상관성 예측 스코어가 가장 높은 타겟 손 객체를 결정하는 동작; 및 타겟 신체 부분 객체에 대한 타겟 얼굴 객체의 제1 상관성 예측 스코어, 및 타겟 손 객체에 대한 타겟 신체 부분 객체의 제2 상관성 예측 스코어에 기초하여, 타겟 얼굴 객체와 타겟 손 객체 사이의 제3 상관성 예측 결과에서의 제3 상관성 예측 스코어를 조정하는 동작을 수행하도록 구성된다.

일부 예시된 예들에서, 결정 서브-유닛은 구체적으로: 후보 얼굴 객체들을 결정하고- 후보 얼굴 객체 각각은 미리 설정된 임계값보다 큰 타겟 신체 부분 객체에 대한 제1 상관성 예측 스코어를 가짐 -; 후보 얼굴 객체들로부터 타겟 신체 부분 객체에 대한 제1 상관성 예측 스코어가 가장 높은 하나의 후보 얼굴 객체를 타겟 얼굴 객체로서 선택하도록 구성되고; 및/또는 타겟 신체 부분 객체에 대한 제2 상관성 예측 결과에서의 제2 상관성 예측 스코어가 가장 높은 타겟 손 객체를 결정하는 것은: 후보 손 객체들을 결정하는 것- 후보 손 객체 각각이 미리 설정된 임계값보다 큰 타겟 신체 부분 객체에 대한 제2 상관성 예측 스코어를 가짐 -; 및 후보 손 객체들로부터 타겟 신체 부분 객체에 대한 제2 상관성 예측 스코어가 가장 높은 하나의 후보 손 객체를 타겟 손 객체로서 선택하는 것을 포함한다.

일부 예시된 예들에서, 결정 서브-유닛은 구체적으로:

타겟 신체 부분 객체에 대한 타겟 얼굴 객체의 제1 상관성 예측 스코어와, 타겟 신체 부분 객체에 대한 타겟 손 객체의 제2 상관성 예측 스코어의 평균 값을 결정하고; 타겟 얼굴 객체와 타겟 손 객체 사이의 제3 상관성 예측 스코어에 평균 값을 가산함으로써 조정된 제3 상관성 예측 스코어를 획득하도록 구성된다.

일부 예시된 예들에서, 결정 서브-유닛은 구체적으로:

제3 상관성 예측 스코어가 높은 것으로부터 낮은 것으로의 순서로 복수의 제3 상관성 예측 스코어로부터의 각각을 선택하고, 얼굴 객체와 선택된 제3 상관성 예측 스코어에 대응하는 손 객체의 현재 조합에 대해, 타겟 이미지에 포함된 결정된 상관된 객체들에 기초하여, 현재 조합에서의 얼굴 객체와 상관되는 손 객체들의 수를 제1 수로서 결정하고, 현재 조합에서의 손 객체와 상관되는 얼굴 객체들의 수를 제2 수로서 결정하고; 제1 수가 제1 미리 설정된 임계값보다 작고, 제2 수가 제2 미리 설정된 임계값보다 작다는 것에 응답하여, 현재 조합에서의 얼굴 객체 및 손 객체를 타겟 이미지에 포함된 상관된 객체들로서 결정하도록 구성된다.

일부 예시된 예들에서, 결정 유닛(84)은 구체적으로: 제1 상관성 예측 결과 및 제2 상관성 예측 결과에 기초하여, 미리 설정된 조건을 충족하는 동일한 미리 설정된 신체 부분 객체에 대해 상관되는 얼굴 객체 및 손 객체를 타겟 이미지에 포함된 상관된 객체들로서 결정하도록 구성된다.

일부 예시된 예들에서, 장치(80)는 또한 타겟 이미지에 포함된 상관된 객체들의 검출 결과를 출력하도록 구성된 출력 유닛을 포함한다.

일부 예시된 예들에서, 미리 설정된 신체 부분 객체는 어깨 객체, 팔꿈치 객체, 및 손목 객체 중 적어도 하나를 포함한다.

일부 예시된 예들에서, 타겟 이미지에 포함된 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체는 타겟 객체 검출 네트워크에 의해 타겟 이미지로부터 검출되고; 제3 상관성 예측 결과는 얼굴-손 상관성 검출 모델을 포함하는 제1 미리 설정된 네트워크에 의해 검출되고; 제1 상관성 예측 결과 및 제2 상관성 예측 결과는 얼굴-미리 설정된-신체-부분 상관성 검출 모델 및 미리 설정된-신체-부분-손 상관성 검출 모델을 포함하는 제2 미리 설정된 네트워크에 의해 검출되고; 타겟 객체 검출 네트워크, 얼굴-손 상관성 검출 모델, 얼굴-미리 설정된-신체-부분 상관성 검출 모델, 및 미리 설정된-신체-부분-손 상관성 모델은 각자의 제1 레이블 정보를 갖는 복수의 트레이닝 샘플을 포함하는 제1 트레이닝 샘플 세트에 기초하여 타겟 객체 검출 네트워크를 트레이닝하는 것- 제1 레이블 정보는 얼굴 객체들, 손 객체들, 및 미리 설정된 신체 부분 객체들의 각자의 위치 레이블 정보를 포함함 -; 각자의 제2 레이블 정보를 갖는 복수의 트레이닝 샘플을 포함하는 제2 트레이닝 샘플 세트에 기초하여 타겟 객체 검출 네트워크, 얼굴-손 상관성 검출 모델, 얼굴-미리 설정된-신체-부분 상관성 검출 모델, 및 미리 설정된-신체-부분-손 상관성 검출 모델을 공동으로 트레이닝하는 것- 제2 레이블 정보는 얼굴 객체들, 손 객체들, 및 미리 설정된 신체 부분 객체들의 각자의 위치 레이블 정보, 및 얼굴 객체들, 미리 설정된 신체 부분 객체들, 및 손 객체들 사이의 상관성들에 대한 각자의 레이블 정보를 포함함 -에 의해 트레이닝된다.

본 개시내용에 따른 이미지에 포함된 상관된 객체들을 검출하기 위한 장치의 예들은 전자 디바이스에서 사용될 수 있다. 대응적으로, 본 개시내용은 프로세서; 및 프로세서의 실행가능 명령어들을 저장하도록 구성된 메모리를 포함할 수 있는 전자 디바이스를 개시한다. 프로세서는 예들 중 임의의 것에 나타낸 바와 같이 이미지 내의 상관된 객체들을 검출하는 방법을 구현하기 위해 메모리에 저장된 실행가능 명령어들을 호출하도록 구성된다.

도 9를 참조하면, 도 9는 본 개시내용에 따른 전자 디바이스의 하드웨어의 블록도이다.

도 9에 도시된 바와 같이, 전자 디바이스는 명령어들을 실행하기 위한 프로세서, 네트워크 연결을 위한 네트워크 인터페이스, 프로세서에 대한 동작 데이터를 저장하기 위한 메모리, 및 이미지에 포함된 상관된 객체들을 검출하기 위한 장치에 대응하는 명령어들을 저장하기 위한 비일시적 메모리를 포함할 수 있다.

이미지에 포함된 상관된 객체들을 검출하기 위한 장치의 예들은 소프트웨어에 의해 구현될 수 있거나, 하드웨어 또는 소프트웨어와 하드웨어의 조합에 의해 구현될 수 있다. 소프트웨어 구현을 예로 들면, 논리 디바이스로서, 비일시적 메모리 내의 대응하는 컴퓨터 프로그램 명령어들을 그것이 위치하는 전자 디바이스의 프로세서를 통해 메모리 내로 판독함으로써 형성된다. 하드웨어 관점에서, 도 9에 도시된 프로세서, 메모리, 네트워크 인터페이스, 및 비일시적 메모리 이외에, 이 예에서 디바이스가 위치하는 전자 디바이스는 일반적으로 전자 디바이스의 실제 기능들에 기초한 다른 하드웨어를 포함하며, 이는 여기서 상세히 설명되지 않을 것이다.

처리 속도를 개선하기 위해, 이미지에 포함된 상관된 객체들을 검출하기 위한 장치의 대응하는 명령어들이 또한 메모리에 직접 저장될 수 있으며, 이는 여기서 한정되지 않는다는 것을 이해해야 한다.

본 개시내용은 비일시적 컴퓨터 판독가능 저장 매체를 제공하고, 이 저장 매체는 컴퓨터 프로그램을 저장하고, 컴퓨터 프로그램은 상기 예들 중 임의의 것에 따른 이미지에 포함된 상관된 객체들을 검출하는 임의의 방법을 수행하도록 구성된다.

본 기술분야의 통상의 기술자는 본 개시내용의 하나 이상의 예가 방법, 시스템, 또는 컴퓨터 프로그램 제품으로서 제공될 수 있다는 것을 이해해야 한다. 따라서, 본 개시내용의 하나 이상의 예는 완전한 하드웨어 예, 완전한 소프트웨어 예, 또는 소프트웨어와 하드웨어를 조합한 예의 형태를 채택할 수 있다. 또한, 본 개시내용의 하나 이상의 예는 컴퓨터 사용가능 프로그램 코드들을 포함하는 하나 이상의 컴퓨터 사용가능 저장 매체(디스크 스토리지, CD-ROM, 광학 스토리지 등을 포함할 수 있지만 이에 한정되지 않음)를 갖는 컴퓨터 프로그램 제품의 형태일 수 있다.

본 개시내용에서, "및/또는"은 둘 중 적어도 하나를 갖는 것을 의미한다. 예를 들어, "A 및/또는 B"는 3가지 방식: A, B, 및 "A와 B"를 포함할 수 있다.

본 개시내용의 다양한 예들은 점진적인 방식으로 설명되고, 다양한 예들 사이의 동일하거나 유사한 부분들은 서로 참조될 수 있고, 각각의 예는 다른 예들과의 차이점들에 초점을 맞춘다. 특히, 데이터 처리 디바이스 예에 대해서는, 기본적으로 본 방법 예와 유사하기 때문에, 설명은 비교적 간단하고, 관련 부분에 대해서는, 본 방법 예의 설명의 일부를 참조할 수 있다.

이상, 본 개시내용의 구체예를 설명하였다. 다른 예들은 첨부된 청구항들의 범위 내에 있다. 일부 경우들에서, 청구항들에 설명된 액션들 또는 단계들은 예들에서와 상이한 순서로 수행될 수 있고, 여전히 원하는 결과들을 달성할 수 있다. 또한, 도면들에 도시된 프로세스들은 원하는 결과를 달성하기 위해 도시된 특정 순서 또는 순차적 순서를 반드시 요구하지 않는다. 일부 예들에서, 멀티태스킹 및 병렬 처리가 또한 가능하거나 유리할 수 있다.

본 개시내용에서 설명된 주제 및 기능적 동작들의 예들은 디지털 전자 회로들, 유형의 컴퓨터 소프트웨어 또는 펌웨어, 본 개시내용에 개시된 구조들 및 그들의 구조적 등가물들을 포함할 수 있는 컴퓨터 하드웨어, 또는 이들 중 하나 이상에서 구현될 수 있다. 본 개시내용에서 설명된 주제의 예들은 하나 이상의 컴퓨터 프로그램, 즉, 데이터 처리 디바이스에 의해 실행되거나 데이터 처리 디바이스의 동작을 제어하기 위해 유형의 비일시적 프로그램 캐리어에서 인코딩되는 컴퓨터 프로그램 명령어들 내의 하나 이상의 유닛으로서 구현될 수 있다. 대안적으로 또는 그에 부가하여, 프로그램 명령어들은 정보를 인코딩하고 이를 데이터 처리 장치에 의해 수행되도록 적당한 수신기 디바이스로 송신하기 위해 생성되는, 기계-발생 전기, 광, 또는 전자기 신호와 같은, 인위적으로 발생된 전파 신호로 인코딩될 수 있다. 컴퓨터 저장 매체는 머신 판독가능 저장 디바이스, 머신 판독가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 또는 이들 중 하나 이상의 조합일 수 있다.

본 개시내용에서 설명되는 처리 및 논리 흐름들은 입력 데이터에 따라 동작하고 출력을 생성함으로써 대응하는 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 실행될 수 있다. 처리 및 논리 흐름은 또한 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 전용 논리 회로에 의해 실행될 수 있고, 디바이스는 또한 전용 논리 회로로서 구현될 수 있다.

컴퓨터 프로그램을 실행하기에 적합한 컴퓨터는, 예를 들어, 범용 및/또는 특수 목적 마이크로프로세서, 또는 임의의 다른 타입의 중앙 처리 유닛을 포함할 수 있다. 일반적으로, 중앙 처리 유닛은 판독 전용 메모리 및/또는 랜덤 액세스 메모리로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 기본 컴포넌트들은 명령어들을 구현하거나 실행하기 위한 중앙 처리 유닛 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스를 포함할 수 있다. 일반적으로, 컴퓨터는 또한 자기 디스크, 광자기 디스크, 또는 광 디스크 등과 같은, 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스를 포함할 것이고, 또는 컴퓨터는 데이터를 수신하거나 데이터를 그것에 전송하거나, 또는 둘 다를 위해 이 대용량 저장 디바이스와 동작적으로 조합될 것이다. 그러나, 컴퓨터는 이러한 장비를 가질 필요는 없다. 또한, 컴퓨터는 몇 가지 예를 들자면, 휴대 전화, PDA(personal digital assistant), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS(global positioning system) 수신기, 또는 USB(universal serial bus) 플래시 드라이브와 같은 다른 디바이스에 내장될 수 있다.

컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 모든 형태의 비일시적 메모리, 매체 및 메모리 디바이스들, 예컨대 반도체 메모리 디바이스들(예컨대, EPROM들, EEPROM들 및 플래시 메모리 디바이스들), 자기 디스크들(예컨대, 내부 하드 디스크들 또는 이동식 디스크들), 광자기 디스크들, CD ROM들 및 DVD-ROM 디스크들을 포함할 수 있다. 프로세서 및 메모리는 전용 논리 회로에 의해 보충되거나 전용 로직 회로에 통합될 수 있다.

본 개시내용이 많은 특정 구현 상세들을 포함하지만, 이들은 임의의 개시된 범위 또는 청구된 범위를 제한하는 것으로 해석되어서는 안 되고, 주로 개시된 특정 예들의 특징들을 설명하기 위해 사용된다. 본 개시내용의 복수의 예에서 설명된 특정 특징들은 또한 단일 예에서 조합하여 구현될 수 있다. 한편, 단일 예에서 설명된 다양한 특징들은 또한 복수의 예에서 개별적으로 또는 임의의 적절한 하위-조합으로 구현될 수 있다. 또한, 특징들이 위에서 설명된 바와 같이 그리고 심지어 원래 청구된 바와 같이 특정 조합들로 기능할 수 있지만, 청구된 조합으로부터의 하나 이상의 특징은 일부 경우들에서 조합으로부터 제거될 수 있고, 청구된 조합은 하위-조합 또는 하위-조합의 변형을 지칭할 수 있다.

유사하게, 동작들이 도면들에서 특정 순서로 도시되지만, 이는 이러한 동작들이 도시된 특정 순서로 또는 순차적으로 수행될 것을 요구하거나, 모든 예시된 동작들이 원하는 결과를 달성하기 위해 수행될 것을 요구하는 것으로 해석되지 않아야 한다. 일부 경우들에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다. 또한, 예들에서의 다양한 시스템 유닛들 및 컴포넌트들의 분리는 모든 예들에서 그러한 분리를 요구하는 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품에 통합되거나, 복수의 소프트웨어 제품들로 패키징될 수 있다는 것을 이해해야 한다.

따라서, 주제의 특정 예들에 대해서 설명했다. 다른 예들은 첨부된 청구항들의 범위 내에 있다. 일부 경우들에서, 청구항들에 언급된 액션들은 상이한 순서로 수행되고 여전히 원하는 결과들을 달성할 수 있다. 또한, 도면들에 도시된 프로세스들은 원하는 결과를 달성하기 위해 도시된 특정 순서 또는 순차적인 순서일 필요는 없다. 일부 구현들에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다.

상기는 본 개시내용의 하나 이상의 예의 바람직한 예일 뿐이고, 본 개시내용의 하나 이상의 예를 한정하는데 사용되지 않는다. 본 개시내용의 하나 이상의 예의 사상 및 원리 내의 임의의 수정, 등가의 대체, 개선은 본 개시내용의 하나 이상의 예의 보호 범위에 포함될 것이다.

Claims

이미지에 포함된 상관된 객체들을 검출하는 방법으로서,
타겟 이미지에 포함된 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체를 검출하는 단계- 상기 미리 설정된 신체 부분 객체는 얼굴과 손 사이의 미리 설정된 연결 부분을 나타냄 -;
상기 검출된 얼굴 객체와 상기 검출된 미리 설정된 신체 부분 객체 사이의 상관성, 및 상기 검출된 미리 설정된 신체 부분 객체와 상기 검출된 손 객체 사이의 상관성을 각각 예측하여, 상기 얼굴 객체와 상기 미리 설정된 신체 부분 객체 사이의 제1 상관성 예측 결과, 및 상기 미리 설정된 신체 부분 객체와 상기 손 객체 사이의 제2 상관성 예측 결과를 획득하는 단계; 및
상기 제1 상관성 예측 결과 및 상기 제2 상관성 예측 결과에 기초하여 상기 타겟 이미지에 포함된 상관된 객체들을 결정하는 단계를 포함하는 방법.
제1항에 있어서,
상기 방법은:
상기 검출된 얼굴 객체와 상기 검출된 손 객체 사이의 상관성을 예측하여 제3 상관성 예측 결과를 획득하는 단계를 추가로 포함하고;
상기 제1 상관성 예측 결과 및 상기 제2 상관성 예측 결과에 기초하여 상기 타겟 이미지에 포함된 상관된 객체들을 결정하는 단계는:
상기 제1 상관성 예측 결과 및 상기 제2 상관성 예측 결과에 기초하여 상기 제3 상관성 예측 결과를 조정하는 단계; 및
상기 조정된 제3 상관성 예측 결과에 기초하여 상기 타겟 이미지에 포함된 상관된 객체들을 결정하는 단계를 포함하는 방법.
제2항에 있어서,
상기 타겟 이미지는 복수의 얼굴 객체 및 복수의 손 객체를 포함하고;
상기 검출된 얼굴 객체와 상기 검출된 손 객체 사이의 상관성을 예측하여 상기 제3 상관성 예측 결과를 획득하는 단계는:
상기 검출된 얼굴 객체 각각을 상기 검출된 손 객체 각각과 조합하여 복수의 제1 조합을 형성하는 단계; 및
상기 제1 조합 각각에 대해, 상기 제1 조합에서의 상기 얼굴 객체 및 상기 손 객체의 시각적 특징들 및 위치 특징들에 기초하여 상기 제1 조합에서의 상기 얼굴 객체와 상기 손 객체 사이의 상관성을 예측함으로써, 상기 제1 조합 각각에서의 상기 얼굴 객체와 상기 손 객체 사이의 제3 상관성 예측 결과를 획득하는 단계를 포함하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 타겟 이미지는 복수의 미리 설정된 신체 부분 객체를 포함하고;
상기 검출된 얼굴 객체와 상기 검출된 미리 설정된 신체 부분 객체 사이의 상관성, 및 상기 검출된 미리 설정된 신체 부분 객체와 상기 검출된 손 객체 사이의 상관성을 각각 예측하여, 상기 얼굴 객체와 상기 미리 설정된 신체 부분 객체 사이의 상기 제1 상관성 예측 결과, 및 상기 미리 설정된 신체 부분 객체와 상기 손 객체 사이의 상기 제2 상관성 예측 결과를 획득하는 단계는:
상기 검출된 얼굴 객체 각각을 상기 미리 설정된 신체 부분 객체 각각과 조합하여 복수의 제2 조합을 형성하는 단계;
상기 제2 조합 각각에 대해, 상기 제2 조합에서의 상기 얼굴 객체 및 상기 미리 설정된 신체 부분 객체의 시각적 특징들 및 위치 특징들에 기초하여 상기 제2 조합에서의 상기 얼굴 객체와 상기 미리 설정된 신체 부분 객체에 대한 상관성을 예측함으로써, 상기 제2 조합 각각에서의 상기 얼굴 객체와 상기 미리 설정된 신체 부분 객체 사이의 제1 상관성 예측 결과를 획득하는 단계;
상기 검출된 미리 설정된 신체 부분 객체 각각을 상기 손 객체 각각과 조합하여 복수의 제3 조합을 형성하는 단계; 및
상기 제3 조합 각각에 대해, 상기 제3 조합에서의 상기 미리 설정된 신체 부분 객체 및 상기 손 객체의 시각적 특징들 및 위치 특징들에 기초하여 상기 제3 조합에서의 상기 미리 설정된 신체 부분 객체와 상기 손 객체 사이의 상관성을 예측함으로써, 상기 제3 조합 각각에서의 상기 미리 설정된 신체 부분 객체와 상기 손 객체 사이의 제2 상관성 예측 결과를 획득하는 단계를 포함하는 방법.
제2항에 있어서,
상기 제1 상관성 예측 결과 및 상기 제2 상관성 예측 결과에 기초하여 상기 제3 상관성 예측 결과를 조정하는 단계는:
상기 미리 설정된 신체 부분 객체에 대한 상기 제1 상관성 예측 결과에서의 제1 상관성 예측 스코어가 가장 높은 타겟 얼굴 객체를 결정하는 단계;
상기 미리 설정된 신체 부분 객체에 대한 상기 제2 상관성 예측 결과에서의 제2 상관성 예측 스코어가 가장 높은 타겟 손 객체를 결정하는 단계; 및
상기 미리 설정된 신체 부분 객체에 대한 상기 타겟 얼굴 객체의 상기 제1 상관성 예측 스코어, 및 상기 미리 설정된 신체 부분 객체에 대한 상기 타겟 손 객체의 상기 제2 상관성 예측 스코어에 기초하여, 상기 타겟 얼굴 객체와 상기 타겟 손 객체 사이의 상기 제3 상관성 예측 결과에서의 제3 상관성 예측 스코어를 조정하는 단계를 포함하는 방법.
제5항에 있어서,
상기 미리 설정된 신체 부분 객체에 대한 상기 제1 상관성 예측 결과에서의 제1 상관성 예측 스코어가 가장 높은 상기 타겟 얼굴 객체를 결정하는 단계는:
후보 얼굴 객체들을 결정하는 단계- 상기 후보 얼굴 객체 각각은 미리 설정된 임계값보다 큰 상기 미리 설정된 신체 부분 객체에 대한 제1 상관성 예측 스코어를 가짐 -; 및
상기 후보 얼굴 객체들로부터 상기 미리 설정된 신체 부분 객체에 대한 상기 제1 상관성 예측 스코어가 가장 높은 하나의 후보 얼굴 객체를 상기 타겟 얼굴 객체로서 선택하는 단계를 포함하고/포함하거나;
상기 미리 설정된 신체 부분 객체에 대한 상기 제2 상관성 예측 결과에서의 제2 상관성 예측 스코어가 가장 높은 상기 타겟 손 객체를 결정하는 단계는:
후보 손 객체들을 결정하는 단계- 상기 후보 손 객체 각각은 미리 설정된 임계값보다 큰 상기 미리 설정된 신체 부분 객체에 대한 제2 상관성 예측 스코어를 가짐 -; 및
상기 후보 손 객체들로부터 상기 미리 설정된 신체 부분 객체에 대한 상기 제2 상관성 예측 스코어가 가장 높은 하나의 후보 손 객체를 상기 타겟 손 객체로서 선택하는 단계를 포함하는 방법.
제5항 또는 제6항에 있어서,
상기 미리 설정된 신체 부분 객체에 대한 상기 타겟 얼굴 객체의 상기 제1 상관성 예측 스코어, 및 상기 미리 설정된 신체 부분 객체에 대한 상기 타겟 손 객체의 상기 제2 상관성 예측 스코어에 기초하여, 상기 타겟 얼굴 객체와 상기 타겟 손 객체 사이의 상기 제3 상관성 예측 결과에서의 제3 상관성 예측 스코어를 조정하는 단계는:
상기 미리 설정된 신체 부분 객체에 대한 상기 타겟 얼굴 객체의 상기 제1 상관성 예측 스코어와, 상기 미리 설정된 신체 부분 객체에 대한 상기 타겟 손 객체의 상기 제2 상관성 예측 스코어의 평균 값을 결정하는 단계; 및
상기 타겟 얼굴 객체와 상기 타겟 손 객체 사이의 상기 제3 상관성 예측 스코어에 상기 평균 값을 가산함으로써 상기 조정된 제3 상관성 예측 스코어를 획득하는 단계를 포함하는 방법.
제7항에 있어서,
상기 조정된 제3 상관성 예측 결과에 기초하여 상기 타겟 이미지에 포함된 상관된 객체들을 결정하는 단계는:
상기 제3 상관성 예측 스코어가 높은 것으로부터 낮은 것으로의 순서로 복수의 상기 제3 상관성 예측 스코어로부터의 각각을 선택하는 단계, 및
상기 선택된 제3 상관성 예측 스코어에 대응하는 상기 얼굴 객체와 상기 손 객체의 현재 조합에 대해서는:
상기 타겟 이미지에 포함된 결정된 상관된 객체들에 기초하여, 상기 현재 조합에서의 상기 얼굴 객체와 상관된 손 객체들의 수를 제1 수로서 결정하고, 상기 현재 조합에서의 상기 손 객체와 상관된 얼굴 객체들의 수를 제2 수로서 결정하는 단계; 및
상기 제1 수가 제1 미리 설정된 임계값보다 작고, 상기 제2 수가 제2 미리 설정된 임계값보다 작은 것에 응답하여, 상기 현재 조합에서의 상기 얼굴 객체 및 상기 손 객체를 상기 타겟 이미지에 포함된 상관된 객체들로서 결정하는 단계를 포함하는 방법,
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 제1 상관성 예측 결과 및 상기 제2 상관성 예측 결과에 기초하여 상기 타겟 이미지에 포함된 상관된 객체들을 결정하는 단계는:
상기 제1 상관성 예측 결과 및 상기 제2 상관성 예측 결과에 기초하여, 미리 설정된 조건을 충족하는 동일한 미리 설정된 신체 부분 객체에 대해 상관되는 얼굴 객체 및 손 객체를 상기 타겟 이미지에 포함된 상관된 객체들로서 결정하는 단계를 포함하는 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 타겟 이미지에 포함된 상기 상관된 객체들의 검출 결과를 출력하는 단계를 추가로 포함하는 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 미리 설정된 신체 부분 객체는 어깨 객체, 팔꿈치 객체, 및 손목 객체 중 적어도 하나를 포함하는 방법.
제2항 내지 제11항 중 어느 한 항에 있어서,
상기 타겟 이미지에 포함된 상기 얼굴 객체, 상기 손 객체, 및 상기 미리 설정된 신체 부분 객체는 타겟 객체 검출 네트워크에 의해 상기 타겟 이미지로부터 검출되고;
상기 제3 상관성 예측 결과는 얼굴-손 상관성 검출 모델을 포함하는 제1 미리 설정된 네트워크에 의해 검출되고;
상기 제1 상관성 예측 결과 및 상기 제2 상관성 예측 결과는 얼굴-미리 설정된-신체-부분 상관성 검출 모델 및 미리 설정된-신체-부분-손 상관성 검출 모델을 포함하는 제2 미리 설정된 네트워크에 의해 검출되고;
상기 타겟 객체 검출 네트워크, 상기 얼굴-손 상관성 검출 모델, 상기 얼굴-미리 설정된-신체-부분 상관성 검출 모델, 및 상기 미리 설정된-신체-부분-손 상관성 검출 모델은:
각자의 제1 레이블 정보를 갖는 복수의 트레이닝 샘플을 포함하는 제1 트레이닝 샘플 세트에 기초하여 상기 타겟 객체 검출 네트워크를 트레이닝하는 것- 상기 제1 레이블 정보는 얼굴 객체들, 손 객체들, 및 미리 설정된 신체 부분 객체들의 각자의 위치 레이블 정보를 포함함 -; 및
각자의 제2 레이블 정보를 갖는 복수의 트레이닝 샘플을 포함하는 제2 트레이닝 샘플 세트에 기초하여 상기 타겟 객체 검출 네트워크, 상기 얼굴-손 상관성 검출 모델, 상기 얼굴-미리 설정된-신체-부분 상관성 검출 모델, 및 상기 미리 설정된-신체-부분-손 상관성 검출 모델을 공동으로 트레이닝하는 것- 상기 제2 레이블 정보는 얼굴 객체들, 손 객체들, 및 미리 설정된 신체 부분 객체들의 각자의 위치 레이블 정보, 및 얼굴 객체들, 미리 설정된 신체 부분 객체들, 및 손 객체들 사이의 상관성들에 대한 각자의 레이블 정보를 포함함 -에 의해 트레이닝되는 방법.
이미지에 포함된 상관된 객체들을 검출하기 위한 장치로서,
타겟 이미지에 포함된 얼굴 객체, 손 객체, 및 미리 설정된 신체 부분 객체를 검출하도록 구성된 검출기- 상기 미리 설정된 신체 부분 객체는 얼굴과 손 사이의 미리 설정된 연결 부분을 나타냄 -;
상기 검출된 얼굴 객체와 상기 검출된 미리 설정된 신체 부분 객체 사이의 상관성, 및 상기 검출된 미리 설정된 신체 부분 객체와 상기 검출된 손 객체 사이의 상관성을 각각 예측하여, 상기 얼굴 객체와 상기 미리 설정된 신체 부분 객체 사이의 제1 상관성 예측 결과, 및 상기 미리 설정된 신체 부분 객체와 상기 손 객체 사이의 제2 상관성 예측 결과를 획득하도록 구성된 제1 상관성 예측 유닛; 및
상기 제1 상관성 예측 결과 및 상기 제2 상관성 예측 결과에 기초하여 상기 타겟 이미지에 포함된 상관된 객체들을 결정하도록 구성된 결정 유닛을 포함하는 장치.
전자 디바이스로서,
프로세서; 및
상기 프로세서의 실행가능 명령어들을 저장하기 위한 메모리를 포함하고;
상기 프로세서는 제1항 내지 제12항 중 어느 한 항에 따른 이미지에 포함된 상관된 객체들을 검출하는 방법을 구현하기 위해 상기 메모리에 저장된 상기 실행가능 명령어들을 호출하도록 구성되는 전자 디바이스.
비일시적 컴퓨터 판독가능 저장 매체로서,
상기 저장 매체는 컴퓨터 프로그램을 저장하고, 상기 컴퓨터 프로그램은 제1항 내지 제12항 중 어느 한 항에 따른 이미지에 포함된 상관된 객체들을 검출하는 방법을 수행하도록 구성되는 비일시적 컴퓨터 판독가능 저장 매체.