KR20210095941A - 관절체 포즈를 검출하기 위한 시스템 및 방법 - Google Patents

관절체 포즈를 검출하기 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20210095941A
KR20210095941A KR1020217020502A KR20217020502A KR20210095941A KR 20210095941 A KR20210095941 A KR 20210095941A KR 1020217020502 A KR1020217020502 A KR 1020217020502A KR 20217020502 A KR20217020502 A KR 20217020502A KR 20210095941 A KR20210095941 A KR 20210095941A
Authority
KR
South Korea
Prior art keywords
map
image content
site
pose
view
Prior art date
Application number
KR1020217020502A
Other languages
English (en)
Other versions
KR102598762B1 (ko
Inventor
댄 페스카루
Original Assignee
에버씬 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에버씬 리미티드 filed Critical 에버씬 리미티드
Publication of KR20210095941A publication Critical patent/KR20210095941A/ko
Application granted granted Critical
Publication of KR102598762B1 publication Critical patent/KR102598762B1/ko

Links

Images

Classifications

    • G06K9/00362
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • G06K9/6201
    • G06K9/6232
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)
  • Manipulator (AREA)

Abstract

이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 시스템은 이미지 콘텐츠를 캡처하기 위한 이미징 모듈, 및 상기 이미지 콘텐츠의 탑-다운 뷰를 획득하고, 기계 학습 알고리즘을 사용하여 상기 관절체 포즈를 검출하기 위해 상기 탑-다운 뷰를 처리하도록 동작 가능한 프로세서를 포함하고, 상기 관절체 포즈는 복수의 관절을 포함한다. 상기 처리는 상기 관절체 포즈의 각 관절에 대응하는 부위 신뢰도 맵을 생성하고, 상기 이미지 콘텐츠의 탑-다운 뷰 상에 상기 부위 신뢰도 맵을 투영하는 것에 의해 히트맵을 생성하고, 각 신체 부위에 대응하는 부위 친화도 맵을 생성하고, 상기 이미지 콘텐츠의 탑-다운 뷰 상에 상기 부위 친화도 맵을 투영하는 것에 의해 벡터 맵을 생성하고, 상기 히트맵 및 상기 벡터 맵을 사용하여, 상기 관절체 포즈에 대응하는 신체-프레임워크를 생성하는 것을 포함한다.

Description

관절체 포즈를 검출하기 위한 시스템 및 방법
본 개시는 일반적으로 관절체(articulate body) 포즈의 검출에 관한 것이고; 더 구체적으로는, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 시스템에 관한 것이다. 더욱이, 본 개시는 또한 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 방법에 관한 것이다.
기술의 발전과 더불어, 포즈 추정이 엄청 중요해지고 있다. 포즈 추정은 인간 활동의 분석, 연구를 위한 동물의 활동의 분석 등과 같은 다양한 응용들에 기여한다. 더욱이, 포즈 추정은 도난과 같은 상점 좀도둑에 의한 불법적인 활동을 검출하고 그에 의해 상점에 고용된 직원에게 도난을 방지하도록 경고하는 것에 의해 비디오 감시에 도움을 제공한다. 게다가, 포즈 추정은 지능형 운전자 보조 시스템, 어려움에 처한 사람을 위한 생활 보조 시스템, 비디오 게임, 물리 치료 등에 이용된다. 더욱이, 포즈 추정은 스포츠, 군사, 의료, 로봇 등의 분야에서 활발히 사용되고 있다.
일반적으로, 포즈 검출은 도전적인 작업인데 그 이유는 각 사람이 상이한 신체 구조, 상이한 체형, 상이한 피부색 등을 가지고 있기 때문이다. 게다가, 인간이 입은 다양한 유형의 옷은 포즈의 추정에서 복잡성을 증가시킨다. 통상적으로, 포즈 추정에는 1인 포즈 추정 방법이 사용된다. 1인 포즈 추정 방법은 이미지 내의 각 사람을 일일이 검출하고, 그에 의해 그것을 시간 소모적인 프로세서로 만드는, 사람 검출기를 포함한다. 더욱이, 이미지 내의 여러 사람들의 검출은 어려운데 그 이유는 이미지의 배경으로부터 사람들을 분할하는 것은 대단히 힘든 작업이기 때문이다. 특히, 사람의 수가 증가함에 따라, 사람의 포즈에 대한 실시간 추정의 복잡성이 증가하고, 그에 의해 포즈 추정의 실시간 수행을 큰 도전 과제로 만든다.
게다가, 현재 사용되는 포즈 추정 기법들은 오탐(false positives)으로 이어질 수 있는데, 즉, 그것들은 인간 동상과 같은 인간이 아닌 것(non-human)을 인간으로 검출할 수 있다. 전형적으로, 사용되는 포즈 추정 기법들은 포즈 추정이 수행될 필요가 있는 영역의 제한된 뷰를 제공하는 수평 시선 카메라 설정을 이용한다.
따라서, 전술한 논의에 비추어, 포즈 검출 기법들과 연관된 위에 언급된 단점들을 극복할 필요성이 존재한다.
본 개시의 제1 양태에 따르면, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 시스템이 제공된다. 이 시스템은 상기 이미지 콘텐츠를 캡처하기 위한 이미징 모듈, 및 상기 이미징 모듈에 통신가능하게 결합된 프로세서를 포함할 수 있다. 상기 프로세서는 상기 이미지 콘텐츠의 탑-다운 뷰(top-down view)를 획득하고 기계 학습 알고리즘을 사용하여 상기 이미지 콘텐츠에 대응하는 관절체 포즈를 검출하기 위해 상기 탑-다운 뷰를 처리하도록 동작 가능하다. 상기 처리는 상기 관절체 포즈의 각 관절에 대응하는 부위 신뢰도 맵(part confidence map)을 생성하고, 상기 이미지 콘텐츠의 탑-다운 뷰 상에 상기 부위 신뢰도 맵을 투영하는 것에 의해 히트맵을 생성하는 것을 포함할 수 있다. 상기 처리는 상기 관절체 포즈의 각 관절과 연관된 각 신체 부위에 대응하는 부위 친화도 맵(part affinity map)을 생성하고, 상기 이미지 콘텐츠의 탑-다운 뷰 상에 상기 부위 친화도 맵을 투영하는 것에 의해 벡터 맵을 생성하는 것을 추가로 포함할 수 있다. 상기 처리는, 상기 히트맵 및 상기 벡터 맵을 사용하여, 상기 관절체 포즈에 대응하는 신체-프레임워크를 생성하여, 상기 관절체 포즈를 검출하는 것을 추가로 포함할 수 있다.
본 개시의 제2 양태에 따르면, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 방법이 제공된다. 이 방법은 상기 이미지 콘텐츠의 탑-다운 뷰를 획득하고 기계 학습 알고리즘을 사용하여 상기 이미지 콘텐츠에 대응하는 관절체 포즈를 검출하기 위해 상기 탑-다운 뷰를 처리하는 단계를 포함할 수 있다. 상기 처리는 상기 관절체 포즈의 각 관절에 대응하는 부위 신뢰도 맵을 생성하고, 상기 이미지 콘텐츠의 탑-다운 뷰 상에 상기 부위 신뢰도 맵을 투영하는 것에 의해 히트맵을 생성하는 것을 포함할 수 있다. 상기 처리는 상기 관절체 포즈의 각 관절과 연관된 각 신체 부위에 대응하는 부위 친화도 맵을 생성하고, 상기 이미지 콘텐츠의 탑-다운 뷰 상에 상기 부위 친화도 맵을 투영하는 것에 의해 벡터 맵을 생성하는 것을 추가로 포함할 수 있다. 상기 처리는, 상기 히트맵 및 상기 벡터 맵을 사용하여, 상기 관절체 포즈에 대응하는 신체-프레임워크를 생성하여, 상기 관절체 포즈를 검출하는 것을 추가로 포함할 수 있다.
본 개시의 제3 양태에 따르면, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 컴퓨터 프로그램 제품이 제공된다. 이 컴퓨터 프로그래밍가능 제품은 명령어들의 세트를 포함하고, 이 명령어들의 세트는 프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 이미지 콘텐츠의 탑-다운 뷰를 획득하고, 기계 학습 알고리즘을 사용하여 상기 이미지 콘텐츠에 대응하는 관절체 포즈를 검출하기 위해 상기 탑-다운 뷰를 처리하게 하고, 상기 관절체 포즈는 복수의 관절을 포함한다. 상기 처리는 상기 관절체 포즈의 각 관절에 대응하는 부위 신뢰도 맵을 생성하고, 상기 이미지 콘텐츠의 탑-다운 뷰 상에 상기 부위 신뢰도 맵을 투영하는 것에 의해 히트맵을 생성하는 것을 포함할 수 있다. 상기 처리는 상기 관절체 포즈의 각 관절과 연관된 각 신체 부위에 대응하는 부위 친화도 맵을 생성하고, 상기 이미지 콘텐츠의 탑-다운 뷰 상에 상기 부위 친화도 맵을 투영하는 것에 의해 벡터 맵을 생성하는 것을 추가로 포함할 수 있다. 상기 처리는, 상기 히트맵 및 상기 벡터 맵을 사용하여, 상기 관절체 포즈에 대응하는 신체-프레임워크를 생성하여, 상기 관절체 포즈를 검출하는 것을 추가로 포함할 수 있다.
본 개시의 특징들은 첨부된 청구항들에 의해 정의된 바와 같은 본 개시의 범위를 벗어나지 않고 다양한 조합으로 조합될 수 있다는 것을 알 것이다.
위의 요약뿐만 아니라, 예시적인 실시예들에 대한 다음의 상세한 설명은 첨부 도면들과 함께 읽을 때 더 잘 이해된다. 본 개시를 예시하기 위해, 본 개시의 예시적인 구성들이 도면들에 도시된다. 그러나, 본 개시는 본 명세서에 개시된 특정 방법들 및 수단들에 제한되지 않는다. 게다가, 당업자들은 도면들이 일정한 비율로 되어 있지 않는다는 것을 이해할 것이다. 가능한 모든 경우에, 유사한 요소들은 동일한 번호들로 지시되었다.
본 개시의 실시예들이 이제 다음의 도면들을 참조하여 단지 예로서 설명될 것이다:
도 1은 본 개시의 일 실시예에 따른, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 시스템의 블록도이다.
도 2는 본 개시의 예시적인 실시예에 따른, 관절체 포즈를 검출하기 위해 시스템에 의해 획득된 이미지 콘텐츠의 예시이다.
도 3은 본 개시의 예시적인 실시예에 따른, 관절체 포즈를 검출하기 위해 생성된 복수의 부위 신뢰도 맵의 예시이다.
도 4a 및 도 4b는 본 개시의 예시적인 실시예에 따른, 관절체 포즈를 검출하기 위해 생성된 복수의 부위 친화도 맵의 예시이다.
도 5는 본 개시의 예시적인 실시예에 따른, 도 2의 이미지 콘텐츠에서 관절체 포즈에 대응하는 신체-프레임워크의 예시이다.
도 6은 본 개시의 일 실시예에 따른, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 방법의 단계들을 예시한다.
첨부 도면들에서는, 밑줄이 있는 숫자를 이용하여 밑줄이 있는 숫자가 위치하는 항목 또는 밑줄이 있는 숫자가 인접한 항목을 나타낸다. 밑줄이 없는 숫자는 밑줄이 없는 숫자를 항목에 연결하는 라인에 의해 식별되는 항목과 관련된다. 숫자에 밑줄이 없고 연관된 화살표가 동반되는 경우, 밑줄이 없는 숫자는 화살표가 가리키는 일반적인 항목을 식별하기 위해 사용된다.
다음의 상세한 설명은 본 개시의 실시예들 및 그것들이 구현될 수 있는 방법들을 예시한다. 본 개시를 수행하는 일부 모드들이 개시되었지만, 당업자들은 본 개시를 수행하거나 실시하기 위한 다른 실시예들도 가능하다는 것을 인식할 것이다.
본 개시는 이미지 콘텐츠의 탑-다운 뷰를 이용하여 탑-다운 뷰 상에 의해 전달되는 확장된 뷰의 도움으로 관절체 포즈를 정확하게 검출하는 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 시스템 및 방법을 제공한다. 게다가, 이 시스템은, 이미지 콘텐츠에서 각 인체 및/또는 동물 신체와 연관된 상이한 신체 구조, 상이한 체형, 상이한 피부색의 영향을 고려하여, 이미지 콘텐츠에서 다수의 인체, 동물 신체, 또는 둘 모두의 관절체 포즈를 검출할 수 있다. 더욱이, 이 시스템은 다수의 관절체 포즈들의 검출이 동시에 발생하기 때문에 시간 효율적인 프로세스를 제공한다. 게다가, 이 시스템은, 실시간으로 신체의 수가 증가하더라도, 각 신체를 정확하게 검출하는 것에 의해 실시간 관절체 포즈 검출이 직면하는 복잡성의 감소를 가능하게 한다.
도 1을 참조하면, 본 개시에 따른 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 시스템(100)의 블록도가 도시되어 있다. 시스템(100)은 이미지 콘텐츠를 캡처하기 위한 이미징 모듈(102)을 포함한다. 이미지 콘텐츠는 이미지, 비디오 및 GIF(graphics interchange format) 기반 콘텐츠 중 적어도 하나를 포함한다. 이미징 모듈(102)은 하나 이상의 이미지의 형태로 이미지 콘텐츠를 캡처하도록 구성되고, 여기서 이미지는 포즈가 검출될 수 있는 적어도 하나의 신체를 포함한다. 게다가, 이미지 콘텐츠는 다양한 포즈의 관절체/신체들을 묘사하는 일련의 프레임들을 포함하는 비디오의 형태일 수 있다. 더욱이, 이미지 콘텐츠는 사실상 반복적인 복수의 프레임을 포함하는 GIF를 포함할 수 있고, 여기서 복수의 프레임은 적어도 하나의 관절체 포즈를 포함한다.
이미징 모듈(102)은 이미징 디바이스, 프로세서 및 메모리를 포함한다. 옵션으로, 이미징 디바이스는 폐쇄 회로 텔레비전(CCTV) 카메라, 고화질(HD) 카메라, 비-HD 카메라, 핸드헬드 카메라, 카메라, 경찰차 카메라, 및 무인 항공기(UAV) 상에서 이용되는 카메라를 포함하지만 이에 제한되지는 않는다. 특히, 이미지 콘텐츠를 캡처 및/또는 기록하기 위해 이미징 모듈(102) 내에서 하나 이상의 이미징 디바이스가 사용될 수 있다. 옵션으로, 이미징 모듈(102)은 이미지 콘텐츠를 캡처 및/또는 기록하도록 구성된 원격 디바이스에 통신가능하게 결합된다. 원격 디바이스는 스마트폰, 디지털 카메라, 랩톱 컴퓨터, 개인용 컴퓨터 및 태블릿 컴퓨터를 포함하지만 이에 제한되지는 않는다. 게다가, 이미징 모듈(102)은 이미징 모듈(102)에 의해 수신 및/또는 캡처된 이미지 콘텐츠를 처리하도록 구성된 프로세서를 포함한다. 본 개시의 전체에 걸쳐, 용어 '프로세서'는 시스템(100)을 구동하는 명령어들에 응답하고 이를 처리하도록 동작 가능한 계산 요소와 관련된다. 옵션으로, 프로세서는 마이크로프로세서, 마이크로컨트롤러, CISC(complex instruction set computing) 마이크로프로세서, RISC(reduced instruction set) 마이크로프로세서, VLIW(very long instruction word) 마이크로프로세서, 또는 임의의 다른 유형의 처리 회로를 포함하지만 이에 제한되지는 않는다. 더욱이, 용어 "프로세서"는 다른 처리 디바이스들에 의해 공유될 수 있는 이미징 모듈(102)과 연관된 하나 이상의 개별 프로세서, 처리 디바이스 및 다양한 요소를 지칭할 수 있다. 처리된 이미지 콘텐츠는 이미징 모듈(102)의 메모리에 추가로 저장된다. 본 명세서에서 사용되는 용어 "메모리"는, 컴퓨터가 임의의 기간 동안 데이터 또는 소프트웨어를 저장할 수 있는, 전기 회로, 자기 디스크, 가상 메모리 또는 광학 디스크와 같은 휘발성 또는 영구적 매체와 관련된다. 옵션으로, 메모리는 물리적 저장 매체와 같은 비휘발성 대용량 저장 장치를 포함한다.
도 2는 이미징 모듈(102)을 설정하는 동안, 수직 시선에 포커싱하는 것에 의해 이미징 모듈(102)에 의해 생성된 예시적인 이미지 콘텐츠(200)를 예시한다. 이미지 콘텐츠(200)는 CCTV들, 탑-다운 뷰를 캡처하기 위해 소정 높이에서 이용되는 카메라들 등과 같은 이미징 디바이스에 의해 직접 획득될 수 있다. 일 예에서, CCTV들은 호텔 로비와 같은 영역에서 감시를 위해 이용된다. 다른 예에서, 카메라들은 야구장에서 각 선수의 탑-다운 뷰를 캡처하기 위해 야구장에서 소정의 높이에서 이용된다. 일 실시예에서, 탑-다운 뷰는 이미지 콘텐츠의 복수의 뷰를 처리하여 그로부터 탑-다운 뷰를 획득하는 것에 의해 획득될 수 있다. 일 실시예에서, 이미지 콘텐츠의 복수의 뷰는 후방 뷰(rear view), 전방 뷰(front view), 탑 뷰(top view), 바텀 뷰(bottom view), 좌측 뷰(eft-hand side view), 우측 뷰(right-hand side view), 및 사시 뷰(perspective view)를 포함한다.
다시 도 1을 참조하면, 시스템(100)은 이미지 콘텐츠(200)와 같은 이미지 콘텐츠에 대한 지상 실측 정보(ground truth, GT)를 생성하는 지상 실측 정보 생성 모듈(104)을 추가로 포함한다. GT 생성 모듈(104)은 정보를 저장, 처리 및/또는 공유하도록 구성된 프로그래밍가능 및/또는 비-프로그래밍가능 컴포넌트들을 포함하는 구조 및/또는 모듈과 관련된다.
GT 레이블의 첫 번째 부분은 부위 신뢰도 맵(Part Confidence Map, PCM)들을 포함하고, 여기서 PCM들은 이미지 콘텐츠(200)의 관절체 포즈에서 관절들이 어디에 위치하는지, 그리고 관절 위치 주위의 영역 중 얼마만큼이 "GT"로 간주될 것인지를 정의한다. 일 예에서, PCM들은 이미지 콘텐츠(200)에서 관절 위치들이 실제로 어디에 위치하는지에 대한 주석들을 포함한다. 각 유형의 관절들(예를 들어, 왼쪽 어깨, 오른쪽 팔꿈치, 머리 등)에 대해, GT 생성 모듈(104)은 레이블 행렬을 생성할 수 있다. 일 예에서, 레이블 행렬은 (46x46) 레이블 행렬일 수 있다.
본 개시의 일 실시예에서, PCM들을 생성하기 위해, GT 생성 모듈(104)은 먼저 관절 주석들 각 (x, y) 위치들을 결정하고, 결정된 위치들을 더 낮은 해상도의 값으로 스케일링한 다음 결정된 위치 주위에 가우스 분포와 같은 정규 분포를 적용하도록 구성된다. 결정된 위치 주위의 분포의 길이는 'GT'로 간주되고, 값 시그마로 표시된다.
도 3은 이미지 콘텐츠(200)에 대해 생성된 예시적인 제1 내지 제14 부위 신뢰도 맵(PCM)(302a 내지 302h)(이하 집합적으로 PCM(302)이라고 지칭됨)의 예시이다. 각 PCM(302)은 이미지 콘텐츠(200)의 관절체 포즈들의 각 관절에 대한 2차원 해부학적 키 포인트의 위치의 그래픽 표현을 언급한다. 관절체를 배경으로부터 분할하여 각 PCM(302)을 계산하고, 관절체의 각 관절을 식별하여 대응하는 PCM(302)을 생성한다. 일 예에서, 이미지 콘텐츠(200)가 축구를 하는 두 명의 선수를 포함하는 경우, 무릎, 팔꿈치, 어깨, 손목 등과 같은 선수들 각각의 각 관절을 식별하고 각 관절에 대해 PCM을 생성할 수 있다. 일단 PCM(302)들이 생성되면, 대응하는 이미지 콘텐츠(200)의 탑-다운 뷰 상에 PCM(302)들을 투영하는 것에 의해 히트맵이 생성될 수 있다. 히트맵에서는, PCM(302)들에서 검출된 관절들이 관절체의 각각의 관절들의 영역 상에 중첩될 수 있다. 이 영역은 각각의 관절들의 정확한 위치들을 포함할 수 있다.
GT 레이블의 두 번째 부분은 부위 친화도 필드(Part Affinity Field, PAF)들을 포함하고, 여기서 각 PAF는 이미지 콘텐츠(200)의 관절체 포즈의 관절 연결부를 정의한다. 관절 연결부의 예들은 머리-목 연결부, 오른쪽 팔꿈치-오른쪽 어깨 연결부, 및 오른쪽 팔꿈치-오른쪽 어깨 연결부를 포함하지만 이에 제한되지는 않는다. 각 관절 연결부에 대해, GT 생성 모듈(104)은 2개의 레이블 행렬, 즉 X 방향에 대한 하나의 레이블 행렬, 및 Y 방향에 대한 다른 레이블 행렬을 생성하도록 구성된다. 일 예에서, 각 레이블 행렬은 (46x46) 레이블 행렬이다.
레이블 행렬들을 생성하기 위해, GT 생성 모듈(104)은 2개의 관절 위치, 예를 들어, 머리와 목의 관절 위치들을 취하고, 이 2개의 관절 위치 사이에 라인을 그려 관절 연결부를 생성한다. 그 후, GT 생성 모듈(104)은 관절 연결부에 대응하는 X 및 Y 방향들 각각에서 포인트들의 세트를 계산한다. 포인트들의 세트는 2개의 관절 사이의 라인 세그먼트의 거리 임계 값 내에 있는 하나 이상의 포인트를 포함한다.
도 4a 및 도 4b는 본 개시의 예시적인 실시예에 따른, 이미지 콘텐츠(200)에 대해 생성된 예시적인 PAF들(400a 및 400b)의 예시이다. 본 명세서에서 사용되는 PAF는 관절체의 각 관절 연결부와 연관된 2차원 벡터 필드를 언급한다. 일 예에서, 인체에서, 팔꿈치와 손목은 팔뚝을 통해 연결된다. 따라서, PAF는 관절체 포즈를 검출하기 위해 생성된 팔뚝에 대응한다. 관절 연결부(예컨대 팔꿈치-손목, 무릎-발목 등)에 대한 PAF를 생성하기 위해, x 및 y 축들에 대응하는 2개의 행렬이 생성될 수 있다. 그 후, 관절 연결부 사이의 라인이 계산되고, 여기서 라인은 관절 연결부를 연결하는 영역(예컨대 팔뚝)에 대응할 수 있다.
일단 이미지 콘텐츠에 대한 PAF들(400a, 400b)이 생성되면, 이미지 콘텐츠(200)의 탑-다운 뷰 상에 PAF들(400a, 400b)을 투영하는 것에 의해 벡터 맵이 생성될 수 있다. 따라서, PAF들(400a 및 400b) 각각에서의 검출된 관절 연결부들이 관절체의 각각의 관절 연결부의 정확한 위치에 중첩된다.
이미지 콘텐츠(200)에 대해, 대응하는 PCM들 및 PAF들을 조합하여 이미지 연관된 레이블을 형성한다. 이 레이블은 이미지 콘텐츠(200)의 지상 실측 정보이다.
본 개시의 일 실시예에서, GT 생성 모듈(104)은 이미지 콘텐츠(200)와 유사한 이미지 콘텐츠를 포함하는 복수의 데이터세트를 사용하여 포즈 추정 신경망(106)에 대한 지상 실측 정보를 생성하도록 구성된다. 다수의 유형의 데이터세트들에 대해, GT 생성 모듈(104)은 공통 골격 구조를 정의하도록 구성될 수 있다. 또한, 데이터세트들은 가능한 최상의 지상 실측 정보를 구축하기 위해 사전에 유효성 검사된다. 더욱이, 대비 및 밝기를 조정하기 위해 데이터세트들의 이미지 콘텐츠가 전처리될 수 있다. 또한, 데이터세트들의 이미지 콘텐츠는 회전, 병진, 스케일링 및 주밍과 같은 증가(augmentations)를 적용하는 것에 의해 곱해질 수 있다.
다시 도 1을 참조하면, 시스템(100)은 이미지 콘텐츠의 탑-다운 뷰들을 처리하기 위한 합성곱 신경망(convolutional neural network)인 포즈 추정 신경망(106)을 추가로 포함한다. 본 명세서에서 사용되는 용어 "신경망"은, 각각 옵션으로 로컬 메모리와 연관되는, 처리 요소들의 고도로 상호 연결된 망을 포함할 수 있다. 일 예에서, 신경망은 코호넨 맵(Kohonen map), 멀티-레이어 퍼셉트론(multi-layer perceptron) 등일 수 있다. 더욱이, 신경망들의 처리 요소들은 "인공 신경 단위", "인공 뉴런", "신경 단위", "뉴런", "노드" 등일 수 있다. 게다가, 뉴런은 입력 또는 하나 이상의 다른 뉴런으로부터 데이터를 수신하고, 데이터를 처리하고, 처리된 데이터를 출력 또는 하나 이상의 다른 뉴런으로 보낼 수 있다. 신경망 또는 그것의 하나 이상의 뉴런은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합으로 생성될 수 있고, 신경망은 그 후 트레이닝될 수 있다. 합성곱 신경망은 입력 레이어(input layer), 복수의 히든 레이어(hidden layer) 및 출력 레이어(output layer)로 구성된다는 것을 알 것이다. 게다가, 합성곱 신경망의 복수의 히든 레이어는 전형적으로 합성곱 레이어(convolutional layer)들, 풀링 레이어(pooling layer)들, 완전 연결 레이어(fully connected layer)들 및 정규화 레이어(normalization layer)들로 구성된다. 옵션으로, 합성곱 신경망 아키텍처로서 VGG 19(Visual Geometry Group 19) 모델이 사용된다. VGG 19 모델은 그것에 입력된 이미지 데이터에서 객체들을 분류하도록 구성된다. 일 예에서, 자동차, 개와 함께 잔디밭에 앉아 있는 사람 및 개를 포함하는 이미지가 VGG 19 합성곱 신경망에 입력된다. VGG 19는 그것에 입력된 이미지로부터 자동차, 사람 및 개를 식별하고 분류한다. 유사하게, VGG 19 모델은 관절체 포즈의 검출을 위해 이미지 콘텐츠에서 관절체를 식별하도록 트레이닝된다. 특히, 다수의 관절체가 식별될 수 있고 각 관절체와 연관된 포즈들이 검출될 수 있다. VGG 19 모델은 입력 레이어들을 통해 이미지 콘텐츠를 수신하도록 구성된다. 더욱이, 이미지 콘텐츠는 그것의 추가 처리를 위해 히든 레이어들로 전달된다. 히든 레이어들은 합성곱 레이어들의 복수의 세트를 포함한다는 것을 알 것이다.
포즈 추정 신경망(106)은 이미지 콘텐츠(200), 및 이미지 콘텐츠(200)의 GT 데이터에 기초하여 이미지 콘텐츠(200)에 대한 예측 레이블들(108)을 생성하도록 구성된다. 이미지 콘텐츠(200)에 대해, 예측 레이블들(108)은 다수의 시그마 값에서의 PCM들, 및 다수의 임계 값에서의 PAF들을 포함한다.
본 개시의 일 실시예에서, 포즈 추정 신경망(106)은 복수의 시그마 값에 대한 이미지 콘텐츠(200)에 대한 PCM을 생성하도록 구성된다. 각 관절(예컨대 왼쪽 어깨, 오른쪽 팔꿈치, 머리 등)에 대한 PCM은 행렬을 생성하는 것에 의해 생성된다. 게다가, 행렬을 생성하기 위해, 각 관절에 대한 x-y 위치가 취해진다. 더욱이, 관절 주위에 정규 분포(예컨대 가우스 분포)가 적용된다. 게다가, 관절 주위의 정규 분포의 양에 따라 PCM에 '시그마' 값이 할당된다. 특히 관절 주위의 정규 분포가 클수록, 시그마의 값이 커진다.
본 개시의 다른 실시예에서, 포즈 추정 신경망(106)은 복수의 임계 값에 대한 PAF들을 생성하도록 구성된다. 각 관절 연결부에 대한 PAF는 2개의 행렬을 생성하는 것에 의해 생성된다. 게다가, 2개의 행렬, 즉 X 방향에 대한 하나의 행렬, 및 Y 방향에 대한 다른 하나의 행렬을 생성하기 위해, 2개의 스케일링된 관절 연결부(예컨대 머리-목)가 고려된다. 더욱이, 관절 연결부들 사이의 라인이 계산되고 관절 연결부에 대응하는 포인트들의 세트가 계산된다. 게다가, PAF 내의 라인(즉, 2개의 관절을 연결하는 라인)으로부터의 포인트들의 세트의 각 포인트의 거리에 따라 '임계' 값이 PAF에 할당된다.
시스템(100)은 예측 레이블들(108)로부터, 이미지 콘텐츠(200)의 각 관절에 대한 복수의 관절 위치(x, y)를 추출하도록 구성된 관절 추출 모듈(110)을 추가로 포함한다. 복수의 관절 위치는 PCM 및 PAF의 복수의 시그마 및 임계 값에 각각 대응한다.
시스템은 이미지 콘텐츠(200)의 대응하는 복수의 관절 위치에 기초하여 복수의 골격 구조(이하 추론된 골격들이라고도 지칭됨)를 구축하도록 구성된 골격 구조 구축 모듈(112)을 추가로 포함한다. 복수의 골격 구조는 PCM 및 PAF의 복수의 시그마 및 임계 값에 각각 대응한다.
도 5를 참조하면, 본 개시의 예시적인 실시예에 따른, 이미지 콘텐츠(200)에 대한 골격 구조 구축 모듈(112)에 의해 생성된 신체-프레임워크(500)의 예시가 도시되어 있다. 신체-프레임워크(500)는 검출된 관절들 및 검출된 관절 연결부들로부터 구축된 골격 구조에 대응한다. 검출된 관절체 포즈들은 관절체들 상에 중첩된 신체-프레임워크(500)로서 디스플레이될 수 있다.
다시 도 1을 참조하면, 시스템(100)은 뷰어가 검출된 관절체 포즈를 실시간으로 보는 것을 가능하게 하기 위한 디스플레이 디바이스(114)를 추가로 포함할 수 있다. 디스플레이 디바이스(114)의 예들은 액정 디스플레이(LCD) 디바이스들, 발광 다이오드(LED) 기반 디스플레이들, 유기 LED(OLED) 기반 디스플레이 디바이스들, 및 마이크로 OLED 기반 디스플레이 디바이스들을 포함하지만 이에 제한되지는 않는다.
본 개시의 일 실시예에서, 골격 구조 구축 모듈(112)에 의해 생성된 골격 구조들은 포즈 추정 신경망(106)의 트레이닝을 위해 트레이닝 모듈(116)에 의해 추가로 사용된다. 트레이닝 모듈(116)은 추론된 골격들을 GT 골격들과 비교하고, 매칭되는 관절 포인트의 수와 매칭되는 골격의 수를 결정한다. 포즈 추정 신경망(106)의 트레이닝 프로세스는 미리 정의된 횟수 동안 정확하게 이미지 콘텐츠(200)에 대한 골격 구조(들)를 생성할 수 있을 때까지 수행된다는 것을 알 것이다.
본 개시의 일 실시예에서, 이미지 콘텐츠(200)에 대해, 트레이닝 모듈(116)은 정의된 PCM(즉, 지상 실측 정보의 PCM)을 포즈 추정 신경망(106)에 의해 생성된 복수의 예측 PCM 각각과 비교하도록 구성된다. 게다가, 지상 실측 정보 PCM과 최상으로 매칭되는 예측 PCM이 선택된다. 더욱이, 선택된 PCM 부위 신뢰도 맵에 대응하는 시그마 값(즉, 참 시그마 값)이 이미지 콘텐츠(200)에 할당된다. 본 개시의 다른 실시예에서, 이미지 콘텐츠(200)에 대해, 시스템(100)은 정의된 PAF(즉, GT의 PAF)를 예측된 PAF들 각각과 비교하여 복수의 임계 값으로부터 참 임계 값을 선택하도록 동작 가능하다. 게다가, 지상 실측 정보와 최상으로 매칭되는 부위 친화도 필드가 선택된다. 더욱이, 선택된 부위 친화도 필드(즉, 참 임계 값)에 대응하는 임계 값이 이미지 콘텐츠(200)에 할당된다.
일 예에서, 관절 추출 모듈(110)에 의해 출력된 히트맵들은, 포인트들(히트맵들 상의 각 원의 중심)을 비교하고 그것들을 매칭시키는 것에 의해, 지상 실측 정보 히트맵들과 비교된다. 2개의 포인트는, 그것들이 동일한 위치에 있다면 또는 x 축 상에서 또는 y 축 상에서(양 축이 아니라) 많아야 1개의 픽셀의 차이가 있다면 매칭되는 것으로 간주된다. 그 후, 추론의 출력, 즉 골격 구조 구축 모듈(112)에 의해 생성된 골격들이 지상 실측 정보 골격들과 비교된다. 2개의 골격은 그들 사이에 매칭되는 포인트의 수를 최대화하고 나머지 포인트들 사이의 거리를 최소화하는 것에 의해 매칭된다. 포인트들은 위에서 특정된 바와 같이 매칭된다. 이 비교에 기초하여, 매칭되는 골격의 수 및 나머지 골격(매칭되지 않는)의 수와 같은 메트릭들이 결정된다.
도 6을 참조하면, 본 개시의 일 실시예에 따른, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 방법의 단계들이 예시되어 있다. 단계 602에서, 이미지 콘텐츠의 탑-다운 뷰가 획득된다. 단계 604에서, 기계 학습 알고리즘을 사용하여 이미지 콘텐츠에 대응하는 관절체 포즈를 검출하기 위해 탑-다운 뷰가 처리된다. 단계 604는 관절체 포즈의 각 관절에 대응하는 부위 신뢰도 맵을 생성하고, 이미지 콘텐츠의 탑-다운 뷰 상에 부위 신뢰도 맵을 투영하는 것에 의해 히트맵을 생성하고, 관절체 포즈의 각 관절과 연관된 각 신체 부위에 대응하는 부위 친화도 필드를 생성하고, 이미지 콘텐츠의 탑-다운 뷰 상에 부위 친화도 필드를 투영하는 것에 의해 벡터 맵을 생성하고, 히트맵 및 벡터 맵을 사용하여, 관절체 포즈에 대응하는 신체-프레임워크를 생성하여, 관절체 포즈를 검출하는 것을 추가로 포함한다.
첨부된 청구항들에 의해 정의된 본 개시의 범위를 벗어나지 않고 전술한 내용에서 설명된 본 개시의 실시예들에 대한 수정들이 가능하다. 본 개시를 설명하고 청구하기 위해 사용되는 "포함하는(including)", "포함하는(comprising)", "통합하는(incorporating)", "구성되는(consisting of)", "갖는다(have)", "~이다(is)"와 같은 표현들은 비-배타적인 방식으로 해석되도록, 즉 명시적으로 설명되지 않은 항목들, 컴포넌트들 또는 요소들도 존재하는 것을 허용하도록 의도된다. 단수에 대한 언급은 복수와도 관련되도록 해석되어야 한다.

Claims (19)

  1. 이미지 콘텐츠로부터 관절체(articulate body) 포즈를 검출하기 위한 시스템으로서,
    상기 이미지 콘텐츠를 캡처하기 위한 이미징 모듈; 및
    상기 이미징 모듈에 통신가능하게 결합된 프로세서
    를 포함하고,
    상기 프로세서는:
    상기 이미지 콘텐츠의 탑-다운 뷰를 획득하고;
    기계 학습 알고리즘을 사용하여 상기 이미지 콘텐츠에 대응하는 상기 관절체 포즈를 검출하기 위해 상기 탑-다운 뷰를 처리하도록 동작 가능하고,
    상기 관절체 포즈는 복수의 관절을 포함하고,
    상기 처리는:
    상기 관절체 포즈의 각 관절에 대응하는 부위 신뢰도 맵(part confidence map)을 생성하는 것;
    상기 이미지 콘텐츠의 탑-다운(top-down) 뷰 상에 상기 부위 신뢰도 맵을 투영하는 것에 의해 히트맵을 생성하는 것;
    상기 관절체 포즈의 각 관절과 연관된 각 신체 부위에 대응하는 부위 친화도 맵(part affinity map)을 생성하는 것;
    상기 이미지 콘텐츠의 탑-다운 뷰 상에 상기 부위 친화도 맵을 투영하는 것에 의해 벡터 맵을 생성하는 것; 및
    상기 히트맵 및 상기 벡터 맵을 사용하여, 상기 관절체 포즈에 대응하는 신체-프레임워크를 생성함으로써, 상기 관절체 포즈를 검출하는 것
    을 포함한 것인, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 시스템.
  2. 제1항에 있어서,
    상기 이미징 모듈은 이미징 디바이스, 프로세서 및 메모리를 포함한 것인, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 시스템.
  3. 제1항에 있어서,
    상기 이미지 콘텐츠는 이미지, 비디오 및 GIF(graphics interchange format) 기반 콘텐츠 중 적어도 하나를 포함한 것인, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 시스템.
  4. 제1항에 있어서,
    상기 시스템은 상기 기계 학습 알고리즘의 트레이닝을 추가로 포함하고,
    상기 시스템은:
    상기 이미징 모듈로부터 정의된 부위 신뢰도 맵 및 정의된 부위 친화도 맵을 수신하고;
    복수의 시그마 값에 대한 부위 신뢰도 맵을 생성하고;
    복수의 임계 값에 대한 부위 친화도 맵을 생성하고;
    상기 복수의 시그마 값에 대한 부위 신뢰도 맵을 상기 정의된 부위 신뢰도 맵과 비교하여 상기 복수의 시그마 값으로부터 참(true) 시그마 값을 선택하고;
    상기 복수의 임계 값에 대한 부위 친화도 맵을 상기 정의된 부위 친화도 맵과 비교하여 상기 복수의 임계 값으로부터 참 임계 값을 선택하고;
    상기 참 시그마 값의 부위 신뢰도 맵을 사용하여 상기 히트맵을 그리고 상기 참 임계 값의 부위 친화도 맵을 사용하여 상기 벡터 맵을 생성하고;
    상기 히트맵 및 상기 벡터 맵을 사용하여, 상기 관절체 포즈에 대응하는 신체-프레임워크를 생성함으로써, 상기 관절체 포즈를 검출하도록 동작 가능한 것인, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 시스템.
  5. 제1항에 있어서,
    상기 시스템은 상기 이미지 콘텐츠의 탑-다운 뷰의 처리 전에 상기 탑-다운 뷰의 해상도를 낮추는 것을 포함한 것인, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 시스템.
  6. 제1항에 있어서,
    상기 탑-다운 뷰를 획득하는 것은:
    상기 탑-다운 뷰의 형태로 상기 이미지 콘텐츠를 수신하는 것; 또는
    상기 이미지 콘텐츠의 복수의 뷰를 처리하여 이로부터 상기 탑-다운 뷰를 획득하는 것
    중 하나를 포함한 것인, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 시스템.
  7. 제6항에 있어서,
    상기 이미지 콘텐츠의 복수의 뷰는, 후방 뷰(rear view), 전방 뷰(front view), 탑 뷰(top view), 바텀 뷰(bottom view), 좌측 뷰(eft-hand side view), 우측 뷰(right-hand side view), 및 사시 뷰(perspective view)를 포함한 것인, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 시스템.
  8. 제1항에 있어서,
    상기 시스템은 상기 검출된 관절체 포즈를 보기 위한 디스플레이 디바이스를 추가로 포함한 것인, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 시스템.
  9. 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 방법으로서,
    상기 이미지 콘텐츠의 탑-다운 뷰를 획득하는 단계; 및
    기계 학습 알고리즘을 사용하여 상기 이미지 콘텐츠에 대응하는 상기 관절체 포즈를 검출하기 위해 상기 탑-다운 뷰를 처리하는 단계
    를 포함하고,
    상기 관절체 포즈는 복수의 관절을 포함하고,
    상기 처리는:
    상기 관절체 포즈의 각 관절에 대응하는 부위 신뢰도 맵(part confidence map)을 생성하는 것;
    상기 이미지 콘텐츠의 탑-다운 뷰 상에 상기 부위 신뢰도 맵을 투영하는 것에 의해 히트맵을 생성하는 것;
    상기 관절체 포즈의 각 관절과 연관된 각 신체 부위에 대응하는 부위 친화도 맵(part affinity map)을 생성하는 것;
    상기 이미지 콘텐츠의 탑-다운 뷰 상에 상기 부위 친화도 맵을 투영하는 것에 의해 벡터 맵을 생성하는 것; 및
    상기 히트맵 및 상기 벡터 맵을 사용하여, 상기 관절체 포즈에 대응하는 신체-프레임워크를 생성함으로써, 상기 관절체 포즈를 검출하는 것
    을 포함한 것인, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 방법.
  10. 제9항에 있어서,
    상기 방법은 상기 부위 신뢰도 맵 및 상기 부위 친화도 맵을 생성하기 위해 합성곱 신경망(convolutional neural network)을 이용하는 단계를 포함한 것인, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 방법.
  11. 제9항에 있어서,
    상기 방법은 상기 기계 학습 알고리즘의 트레이닝을 추가로 포함하고,
    상기 방법은:
    정의된 부위 신뢰도 맵 및 정의된 부위 친화도 맵을 수신하는 단계;
    복수의 시그마 값에 대한 부위 신뢰도 맵을 생성하는 단계;
    복수의 임계 값에 대한 부위 친화도 맵을 생성하는 단계;
    상기 복수의 시그마 값에 대한 부위 신뢰도 맵을 상기 정의된 부위 신뢰도 맵과 비교하여 상기 복수의 시그마 값으로부터 참 시그마 값을 선택하는 단계;
    상기 복수의 임계 값에 대한 부위 친화도 맵을 상기 정의된 부위 친화도 맵과 비교하여 상기 복수의 임계 값으로부터 참 임계 값을 선택하는 단계;
    상기 참 시그마 값의 부위 신뢰도 맵을 사용하여 상기 히트맵을 그리고 상기 참 임계 값의 부위 친화도 맵을 사용하여 상기 벡터 맵을 생성하는 단계; 및
    상기 히트맵 및 상기 벡터 맵을 사용하여, 상기 관절체 포즈에 대응하는 신체-프레임워크를 생성함으로써, 상기 관절체 포즈를 검출하는 단계
    를 포함한 것인, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 방법.
  12. 제9항에 있어서,
    상기 방법은 상기 이미지 콘텐츠의 탑-다운 뷰의 처리 전에 상기 탑-다운 뷰의 해상도를 낮추는 단계를 포함한 것인, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 방법.
  13. 제9항에 있어서,
    상기 탑-다운 뷰를 획득하는 단계는:
    상기 탑-다운 뷰의 형태로 상기 이미지 콘텐츠를 수신하는 단계; 또는
    상기 이미지 콘텐츠의 복수의 뷰를 처리하여 이로부터 상기 탑-다운 뷰를 획득하는 단계
    중 하나를 포함한 것인, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 방법.
  14. 제13항에 있어서,
    상기 이미지 콘텐츠의 복수의 뷰는, 후방 뷰, 전방 뷰, 탑 뷰, 바텀 뷰, 좌측 뷰, 우측 뷰, 및 사시 뷰를 포함한 것인, 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 방법.
  15. 이미지 콘텐츠로부터 관절체 포즈를 검출하기 위한 컴퓨터 프로그래밍가능 제품으로서, 상기 컴퓨터 프로그래밍가능 제품은 명령어들의 세트를 포함하고, 상기 명령어들의 세트는 프로세서에 의해 실행될 때 상기 프로세서로 하여금:
    상기 이미지 콘텐츠의 탑-다운 뷰를 획득하고;
    기계 학습 알고리즘을 사용하여 상기 이미지 콘텐츠에 대응하는 상기 관절체 포즈를 검출하기 위해 상기 탑-다운 뷰를 처리하게 하고,
    상기 관절체 포즈는 복수의 관절을 포함하고,
    상기 처리는:
    상기 관절체 포즈의 각 관절에 대응하는 부위 신뢰도 맵(part confidence map)을 생성하는 것;
    상기 이미지 콘텐츠의 탑-다운 뷰 상에 상기 부위 신뢰도 맵을 투영하는 것에 의해 히트맵을 생성하는 것;
    상기 관절체 포즈의 각 관절과 연관된 각 신체 부위에 대응하는 부위 친화도 맵(part affinity map)을 생성하는 것;
    상기 이미지 콘텐츠의 탑-다운 뷰 상에 상기 부위 친화도 맵을 투영하는 것에 의해 벡터 맵을 생성하는 것; 및
    상기 히트맵 및 상기 벡터 맵을 사용하여, 상기 관절체 포즈에 대응하는 신체-프레임워크를 생성함으로써, 상기 관절체 포즈를 검출하는 것
    을 포함한 것인, 컴퓨터 프로그래밍가능 제품.
  16. 제15항에 있어서,
    상기 명령어들의 세트는 프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 부위 신뢰도 맵 및 상기 부위 친화도 맵을 생성하기 위해 합성곱 신경망을 이용하게 하는 것인, 컴퓨터 프로그래밍가능 제품.
  17. 제15항에 있어서,
    상기 명령어들의 세트는 프로세서에 의해 실행될 때 상기 프로세서로 하여금:
    정의된 부위 신뢰도 맵 및 정의된 부위 친화도 맵을 수신하고;
    복수의 시그마 값에 대한 부위 신뢰도 맵을 생성하고;
    복수의 임계 값에 대한 부위 친화도 맵을 생성하고;
    상기 복수의 시그마 값에 대한 부위 신뢰도 맵을 상기 정의된 부위 신뢰도 맵과 비교하여 상기 복수의 시그마 값으로부터 참 시그마 값을 선택하고;
    상기 복수의 임계 값에 대한 부위 친화도 맵을 상기 정의된 부위 친화도 맵과 비교하여 상기 복수의 임계 값으로부터 참 임계 값을 선택하고;
    상기 참 시그마 값의 부위 신뢰도 맵을 사용하여 상기 히트맵을 그리고 상기 참 임계 값의 부위 친화도 맵을 사용하여 상기 벡터 맵을 생성하고;
    상기 히트맵 및 상기 벡터 맵을 사용하여, 상기 관절체 포즈에 대응하는 신체-프레임워크를 생성함으로써, 상기 관절체 포즈를 검출하게 하는 것인, 컴퓨터 프로그래밍가능 제품.
  18. 제15항에 있어서,
    상기 탑-다운 뷰를 획득하는 것은:
    상기 탑-다운 뷰의 형태로 상기 이미지 콘텐츠를 수신하는 것; 또는
    상기 이미지 콘텐츠의 복수의 뷰를 처리하여 이로부터 상기 탑-다운 뷰를 획득하는 것
    중 하나를 포함한 것인, 컴퓨터 프로그래밍가능 제품.
  19. 제18항에 있어서,
    상기 이미지 콘텐츠의 복수의 뷰는, 후방 뷰, 전방 뷰, 탑 뷰, 바텀 뷰, 좌측 뷰, 우측 뷰, 및 사시 뷰를 포함한 것인, 컴퓨터 프로그래밍가능 제품.
KR1020217020502A 2018-12-03 2019-10-18 관절체 포즈를 검출하기 위한 시스템 및 방법 KR102598762B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/207,296 2018-12-03
US16/207,296 US10937185B2 (en) 2018-12-03 2018-12-03 System and method to detect articulate body pose
PCT/IB2019/058911 WO2020115579A1 (en) 2018-12-03 2019-10-18 System and method to detect articulate body pose

Publications (2)

Publication Number Publication Date
KR20210095941A true KR20210095941A (ko) 2021-08-03
KR102598762B1 KR102598762B1 (ko) 2023-11-03

Family

ID=68343184

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217020502A KR102598762B1 (ko) 2018-12-03 2019-10-18 관절체 포즈를 검출하기 위한 시스템 및 방법

Country Status (12)

Country Link
US (1) US10937185B2 (ko)
EP (1) EP3891651A1 (ko)
JP (1) JP7241876B2 (ko)
KR (1) KR102598762B1 (ko)
CN (1) CN113168521A (ko)
AU (1) AU2019394188B2 (ko)
BR (1) BR112021008816A2 (ko)
CA (1) CA3121119C (ko)
CL (1) CL2021001455A1 (ko)
CO (1) CO2021008155A2 (ko)
MX (1) MX2021006521A (ko)
WO (1) WO2020115579A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6965803B2 (ja) * 2018-03-20 2021-11-10 株式会社Jvcケンウッド 認識装置、認識方法及び認識プログラム
JP7201946B2 (ja) * 2019-05-16 2023-01-11 日本電信電話株式会社 骨格情報判定装置、骨格情報判定方法及びコンピュータプログラム
US20200394384A1 (en) * 2019-06-14 2020-12-17 Amarjot Singh Real-time Aerial Suspicious Analysis (ASANA) System and Method for Identification of Suspicious individuals in public areas
CN111489379B (zh) * 2020-06-28 2020-10-02 中国科学院自动化研究所南京人工智能芯片创新研究院 一种引入运动学约束的3d网络进行手部姿态估计的方法及系统
WO2022003854A1 (ja) * 2020-07-01 2022-01-06 日本電気株式会社 画像処理装置、画像処理方法、及びプログラム
US20220122360A1 (en) * 2020-10-21 2022-04-21 Amarjot Singh Identification of suspicious individuals during night in public areas using a video brightening network system
CN112418120B (zh) * 2020-11-27 2021-09-28 湖南师范大学 基于峰值置信图的人群检测方法
CN112183506A (zh) * 2020-11-30 2021-01-05 成都市谛视科技有限公司 一种人体姿态生成方法及其系统
CN113343762B (zh) * 2021-05-07 2022-03-29 北京邮电大学 人体姿态估计分组模型训练方法、姿态估计方法及装置
CN113658235B (zh) * 2021-08-06 2022-08-09 北京理工大学 基于vgg网络与高斯差分网络的光学遥感影像精确配准方法
CN117529716A (zh) 2022-05-04 2024-02-06 埃尔森有限公司 用于自适应编排进程并行化的系统和方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018150933A1 (ja) * 2017-02-20 2018-08-23 ソニー株式会社 画像処理装置および画像処理方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4332649B2 (ja) * 1999-06-08 2009-09-16 独立行政法人情報通信研究機構 手の形状と姿勢の認識装置および手の形状と姿勢の認識方法並びに当該方法を実施するプログラムを記録した記録媒体
PT1864505T (pt) * 2005-03-29 2020-05-18 Sportvu Ltd Rastreamento de objetos e captura de movimento em tempo real em eventos desportivos
US8131011B2 (en) * 2006-09-25 2012-03-06 University Of Southern California Human detection and tracking system
WO2012046392A1 (ja) 2010-10-08 2012-04-12 パナソニック株式会社 姿勢推定装置及び姿勢推定方法
JP5801237B2 (ja) * 2012-03-29 2015-10-28 パナソニック株式会社 部位推定装置、部位推定方法、および部位推定プログラム
US9477908B2 (en) * 2014-04-10 2016-10-25 Disney Enterprises, Inc. Multi-level framework for object detection
US9582718B1 (en) * 2015-06-30 2017-02-28 Disney Enterprises, Inc. Method and device for multi-target tracking by coupling multiple detection sources
GB201613138D0 (en) * 2016-07-29 2016-09-14 Unifai Holdings Ltd Computer vision systems
US10902243B2 (en) * 2016-10-25 2021-01-26 Deep North, Inc. Vision based target tracking that distinguishes facial feature targets
CN110084089A (zh) * 2016-10-26 2019-08-02 奥康科技有限公司 用于分析图像和提供反馈的可佩戴设备和方法
US10430966B2 (en) * 2017-04-05 2019-10-01 Intel Corporation Estimating multi-person poses using greedy part assignment
CN109918975B (zh) * 2017-12-13 2022-10-21 腾讯科技(深圳)有限公司 一种增强现实的处理方法、对象识别的方法及终端
CN108038465A (zh) * 2017-12-25 2018-05-15 深圳市唯特视科技有限公司 一种基于合成数据集的三维多人物姿态估计
US20200145623A1 (en) * 2018-11-07 2020-05-07 Avigilon Corporation Method and System for Initiating a Video Stream

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018150933A1 (ja) * 2017-02-20 2018-08-23 ソニー株式会社 画像処理装置および画像処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Weipeng Xu 외 6인,"Mo2Cap2: Real-time Mobile 3D Motion Capture with a Cap-mounted Fisheye Camera, Computer Vision and Pattern Recognition, 2018, pp.1-18(2018.03.15.) 1부.* *
Zhe Cao외 2명, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", Computer Vision and Pattern Recognition 2017 , pp.7291-7299(2017.07.21.) 1부.* *

Also Published As

Publication number Publication date
AU2019394188A1 (en) 2021-06-03
BR112021008816A2 (pt) 2021-08-10
MX2021006521A (es) 2021-07-07
CA3121119A1 (en) 2020-06-11
US20200175713A1 (en) 2020-06-04
AU2019394188B2 (en) 2022-06-02
WO2020115579A1 (en) 2020-06-11
US10937185B2 (en) 2021-03-02
CN113168521A (zh) 2021-07-23
EP3891651A1 (en) 2021-10-13
KR102598762B1 (ko) 2023-11-03
CA3121119C (en) 2023-08-29
JP7241876B2 (ja) 2023-03-17
CL2021001455A1 (es) 2021-11-26
CO2021008155A2 (es) 2021-06-30
JP2022510417A (ja) 2022-01-26

Similar Documents

Publication Publication Date Title
KR102598762B1 (ko) 관절체 포즈를 검출하기 위한 시스템 및 방법
Ramesh et al. Dart: distribution aware retinal transform for event-based cameras
Sarikaya et al. Detection and localization of robotic tools in robot-assisted surgery videos using deep neural networks for region proposal and detection
Wang et al. Lying pose recognition for elderly fall detection
Xiong et al. S3D-CNN: skeleton-based 3D consecutive-low-pooling neural network for fall detection
US11221671B2 (en) Opengaze: gaze-tracking in the wild
Sarkar et al. 3D Human Action Recognition: Through the eyes of researchers
MohaimenianPour et al. Hands and faces, fast: Mono-camera user detection robust enough to directly control a uav in flight
Pang et al. Efficient hybrid-supervised deep reinforcement learning for person following robot
Monteiro et al. Virtual guide dog: An application to support visually-impaired people through deep convolutional neural networks
Weber et al. High-level geometry-based features of video modality for emotion prediction
Cai et al. Deep Learning-Based Recognition and Visualization of Human Motion Behavior
Finžgar et al. Machine-vision-based human-oriented mobile robots: A review.
Park et al. Understanding human interactions with track and body synergies (TBS) captured from multiple views
US20220148296A1 (en) Method and system for symmetric recognition of handed activities
Yu et al. Applications of deep learning for top-view omnidirectional imaging: A survey
JP2021034015A (ja) ターゲット検索装置及び方法、電子機器
Mohamed A novice guide towards human motion analysis and understanding
Dornaika et al. Inferring facial expressions from videos: Tool and application
Chong et al. Visual 3d tracking of child-adult social interactions
Cai Feature learning for RGB-D data
Al Mudawi et al. Machine learning Based on Body Points Estimation for Sports Event Recognition
Bamani et al. Recognition and estimation of human finger pointing with an RGB camera for robot directive
Xiong et al. Eye control system based on convolutional neural network: a review
Subramanian Human Activity Recognition Leveraging Deep Learning And Fog Computing Frameworks

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant