KR102250756B1

KR102250756B1 - 양방향 메시지 패싱 구조를 활용한 핵심 포인트 추출 방법 및 장치

Info

Publication number: KR102250756B1
Application number: KR1020190157189A
Authority: KR
Inventors: 최윤식; 홍은기
Original assignee: 연세대학교 산학협력단
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2021-05-10

Abstract

본 실시예들은 고해상도에서 저해상도로 저해상도에서 고해상도로 연결된 양방향 메시지 패싱 네트워크 구조를 통해 특징을 추출하고 학습하여, 문맥적 정보뿐만 아니라 지역적 정보가 고려된 특징을 추출하고 포인트를 정확하게 인식 가능한 장치 및 방법을 제공한다.

Description

양방향 메시지 패싱 구조를 활용한 핵심 포인트 추출 방법 및 장치 {Method and Apparatus for Extracting Key Point Using Bidirectional Message Passing Structure}

본 발명이 속하는 기술 분야는 양방향 메시지 패싱 구조를 활용한 핵심 포인트 추출 방법 및 장치에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

행동 인식은 사람 등의 객체의 키포인트들을 인식하고 인식된 키포인트들의 관계를 통해 행동을 인식하는 기술이다. 딥러닝을 이용한 행동 인식 알고리즘 중에서 CPN(Cascaded Pyramid Network)은 전역 네트워크(Global Network), 정제 네트워크(Refine Network) 두 가지 단계로 포인트에 관한 히트맵을 추출한다. 다양한 스케일에 해당하는 특징들을 전부 활용하기 위하여 각 스케일의 특징마다 학습을 진행하고 각 특징들을 병렬 연결하여 최종 특징으로 활용한다.

한국공개특허공보 제10-2018-0065866호 (2018.06.18)

본 발명의 실시예들은 고해상도에서 저해상도로 저해상도에서 고해상도로 연결된 양방향 메시지 패싱 네트워크 구조를 통해 특징을 추출하고 학습하여, 문맥적 정보뿐만 아니라 지역적 정보가 고려된 특징을 추출할 수 있고 포인트를 정확하게 인식하는 데 주된 목적이 있다.

본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.

본 실시예의 일 측면에 의하면, 컴퓨팅 디바이스에 의한 포인트 추출 방법에 있어서, 이미지로부터 복수의 스케일을 갖는 레이어들을 포함하는 특징 추출 모델을 통해 복수의 해상도를 갖는 특징을 추출하는 단계, 상기 특징 추출 모델에서 저해상도의 특징을 고해상도의 특징으로 전달하는 단계, 및 상기 특징 추출 모델에서 상기 고해상도의 특징을 상기 저해상도의 특징으로 전달하는 단계를 포함하는 포인트 추출 방법을 제공한다.

본 실시예의 다른 측면에 의하면, 하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 포인트 추출 장치에 있어서, 상기 프로세서는 이미지로부터 복수의 스케일을 갖는 레이어들을 포함하는 특징 추출 모델을 통해 복수의 해상도를 갖는 특징을 추출하고, 상기 프로세서는 상기 특징 추출 모델에서 저해상도의 특징을 고해상도의 특징으로 전달하고, 상기 프로세서는 상기 특징 추출 모델에서 상기 고해상도의 특징을 상기 저해상도의 특징으로 전달하는 것을 특징으로 하는 포인트 추출 장치를 제공할 수 있다.

이상에서 설명한 바와 같이 본 발명의 실시예들에 의하면, 고해상도에서 저해상도로 저해상도에서 고해상도로 연결된 양방향 메시지 패싱 네트워크 구조를 통해 특징을 추출하고 학습하여, 문맥적 정보뿐만 아니라 지역적 정보가 고려된 특징을 추출할 수 있고 포인트를 정확하게 인식할 수 있는 효과가 있다.

여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급된다.

도 1은 본 발명의 일 실시예에 따른 포인트 추출 장치를 예시한 블록도이다.
도 2는 본 발명의 다른 실시예에 따른 포인트 추출 방법을 예시한 흐름도이다.
도 3 및 도 4는 본 발명의 실시예들에 따른 포인트 추출 장치의 특징 추출 모델을 예시한 도면이다.
도 5는 본 발명의 실시예들에 따라 수행된 모의실험 결과를 도시한 것이다.

이하, 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하고, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다.

계단형 피라미드 네트워크(Cascaded Pyramid Network, CPN)는 전역 네트워크(Global Network) 및 정제 네트워크(Refine Network)을 포함한다.

전역 네트워크는 잔차 네트워크(Residual Network)를 기본으로 하는 모델이다. 잔차 네트워크는 네트워크가 깊어질 때 파라미터의 수가 비례적으로 증가하여 학습 오차가 커지는 문제와 기울기가 너무 크거나 작은 값으로 포화하는 문제를 해결하기 위해서, 가중치 레이어를 거치지 않고 입력에서 출력으로 직접 연결된 추가적인 잔차 블록을 갖는다.

전역 네트워크는 잔차 블록에 해당하는 컨볼루션 레이어의 마지막 특징을 해상도에 따라 계단형으로 연결한다. 컨볼루션 레이어는 3 x 3 컨볼루션 필터를 적용하여 키포인트의 히트맵을 생성한다. 고해상도에 해당하는 특징 레이어는 위치 정보를 갖고, 저해상도에 해당하는 특징 레이어는 문맥적(Semantic) 정보를 갖는다. 업샘플링 과정에서 요소별 합을 수행하기 전에 1 x 1 컨볼루션 필터를 적용할 수 있다.

전역 네트워크는 신체 부위에서 눈과 같은 키포인트는 잘 추출하지만 엉덩이와 같은 부분은 추출하지 못한다. 이러한 부분은 모양 정보보다는 맥락적인 정보가 더 필요하다.

정제 네트워크는 전역 네트워크가 생성한 특징 피라미드에 연결되며, 전역 네트워크가 생성한 여러 수준의 정보를 모두 활용하기 위하여 특징을 업샘플링하고 결합니다. 단순히 업샘플링된 특징 자체를 사용하는 것이 아니라 모든 피라미드 특징을 결합하여 사용한다. 깊은 수준의 레이어로 갈수록 추가적인 보틀넥 블록을 통과시킨다.

계단형 피라미드 네트워크에서 저해상도의 특징을 업샘플링하여 고해상도의 특징에 더하더라도 비디오의 역동적 동작에 따라 신체 부위에서 관절에 해당하는 키포인트를 매 프레임마다 정확하게 추출하는 것은 쉽지 않다. 네트워크를 학습하는 과정에서 어려운 키포인트보다는 간단한 키포인트에 더 많이 집중하기 때문이다.

본 실시예에 따른 포인트 추출 장치는 고해상도에서 저해상도로 저해상도에서 고해상도로 연결된 양방향 메시지 패싱 네트워크 구조를 통해 특징을 추출하고 학습하여, 문맥적 정보뿐만 아니라 지역적 정보가 고려된 특징을 추출하고 매 프레임마다 포인트를 정확하게 인식한다.

도 1은 본 발명의 일 실시예에 따른 포인트 추출 장치를 예시한 블록도이다.

포인트 추출 장치(110)는 적어도 하나의 프로세서(120), 컴퓨터 판독 가능한 저장매체(130) 및 통신 버스(170)를 포함한다.

프로세서(120)는 포인트 추출 장치(110)로 동작하도록 제어할 수 있다. 예컨대, 프로세서(120)는 컴퓨터 판독 가능한 저장 매체(130)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 컴퓨터 실행 가능 명령어는 프로세서(120)에 의해 실행되는 경우 포인트 추출 장치(110)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능한 저장 매체(130)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능한 저장 매체(130)에 저장된 프로그램(140)은 프로세서(120)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독한 가능 저장 매체(130)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 포인트 추출 장치(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(170)는 프로세서(120), 컴퓨터 판독 가능한 저장 매체(140)를 포함하여 포인트 추출 장치(110)의 다른 다양한 컴포넌트들을 상호 연결한다.

포인트 추출 장치(110)는 또한 하나 이상의 입출력 장치를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(150) 및 하나 이상의 통신 인터페이스(160)를 포함할 수 있다. 입출력 인터페이스(150) 및 통신 인터페이스(160)는 통신 버스(170)에 연결된다. 입출력 장치는 입출력 인터페이스(150)를 통해 포인트 추출 장치(110)의 다른 컴포넌트들에 연결될 수 있다.

포인트 추출 장치(110)의 프로세서(120)는 이미지로부터 복수의 스케일을 갖는 레이어들을 포함하는 특징 추출 모델을 통해 복수의 해상도를 갖는 특징을 추출하고, 특징 추출 모델에서 저해상도의 특징을 고해상도의 특징으로 전달하고, 특징 추출 모델에서 고해상도의 특징을 상기 저해상도의 특징으로 전달한다.

특징 추출 모델은 피라미드 구조의 레이어들로 구성된 네트워크이며, 스케일에 따라 레이어가 깊어질수록 일부 필터의 사이즈를 줄인 보틀넥의 개수를 점진적으로 증가시켜 연결한다. 프로세서(120)는 보틀넥을 통과한 특징에 대해서 해상도의 크기에 따라 양방향으로 특징을 전달하고 전달된 특징을 다시 결합한다.

도 2는 본 발명의 다른 실시예에 따른 포인트 추출 방법을 예시한 흐름도이다. 포인트 추출 방법은 포인트 추출 장치 또는 컴퓨팅 디바이스 등에 의해 수행될 수 있다.

포인트 추출 방법은 이미지로부터 복수의 스케일을 갖는 레이어들을 포함하는 특징 추출 모델을 통해 복수의 해상도를 갖는 특징을 추출하는 단계(S210), 특징 추출 모델에서 저해상도의 특징을 고해상도의 특징으로 전달하는 단계(S220), 및 특징 추출 모델에서 상기 고해상도의 특징을 상기 저해상도의 특징으로 전달하는 단계(S230)를 포함한다.

저해상도의 특징을 고해상도의 특징으로 전달하는 단계(S220)는 저해상도의 특징을 업샘플링하고 고해상도의 특징에 추가한다. 특징을 추출하는 단계(S210)는 저해상도의 특징이 가진 문맥적 정보를 반영한 특징을 추출한다.

고해상도의 특징을 저해상도의 특징으로 전달하는 단계(S230)는 고해상도의 특징을 다운샘플링하고 저해상도의 특징에 추가한다. 특징을 추출하는 단계(S210)는 고해상도의 특징이 가진 위치적 정보를 반영한 특징을 추출한다.

도 3 및 도 4는 본 발명의 실시예들에 따른 포인트 추출 장치의 특징 추출 모델을 예시한 도면이다.

특징 추출 모델은 피라미드 구조의 레이어들로 구성된 네트워크이며, 스케일에 따라 레이어가 깊어질수록 필터의 사이즈를 줄인 보틀넥의 개수를 점진적으로 증가시켜 연결한다. 보틀넥은 일부 필터의 사이즈를 줄인 잔차 블록이다. 보틀넥을 통과한 특징에 대해서 해상도의 크기에 따라 양방향으로 특징을 전달하고 전달된 특징을 다시 결합한다. 보틀넥을 통과한 후에 양방향으로 특징을 전달하지 않고 반대로 네트워크를 설계하면 양방향 특징 전달을 통한 학습이 되지 않는다.

도 3 및 도 4에 도시된 양방향 메시지 패싱 네트워크에서 각 단계별 특징은 수학식 1과 같이 표현된다.

σ는 활성화 함수이고, w는 가중치이고, b는 바이어스이고,

는 요소별 곱이다. cat는 결합 함수이다.

양방향 메시지 패싱 기반 컨볼루션 네트워크는 특징을 학습하고 추출할 때 저해상도 특징의 문맥적 정보는 물론 고해상도 특징의 지역적인 정보까지도 함께 고려되도록 설계된 네트워크로, 저해상도 특징에서 고해상도 특징으로 연결되는 네트워크와 반대로 고해상도 특징에서 저해상도 특징으로 연결되는 두 개의 네트워크를 구성하고, 양 방향의 네트워크를 모두 활용하여 새로운 특징이 추출되고 학습된다.

문맥적 정보와 지역적 정보를 함께 고려하도록 설계된 네트워크를 학습하는 과정에서 손실 함수를 최적화하여 네트워크의 파라미터를 설정한다.

도 5는 본 발명의 실시예들에 따라 수행된 모의실험 결과를 도시한 것이다. 도 5의 (a)의 투수의 동작에 관한 비디오의 한 프레임이고, 도 5의 (b)는 기존 모델이 매 프레임마다 추출한 키포인트이고, 도 5의 (c)는 본 실시예에 따른 특징 추출 모델이 매 프레임마다 추출한 키포인트이다. 본 실시예에 따른 특징 추출 모델은 무릎과 팔꿈치를 정확하게 인식한다.

제안하는 피라미드 네트워크는 양방향 메시지 패싱 구조를 통해 지역적 정보 및 문맥적 정보를 모두 고려한 특징을 추출하고 학습함으로써 네트워크의 키포인트 로컬리제이션 성능 향상을 통해 행동 인식 성능의 향상됨을 확인할 수 있다.

포인트 추출 장치는 하드웨어, 펌웨어, 소프트웨어 또는 이들의 조합에 의해 로직회로 내에서 구현될 수 있고, 범용 또는 특정 목적 컴퓨터를 이용하여 구현될 수도 있다. 장치는 고정배선형(Hardwired) 기기, 필드 프로그램 가능한 게이트 어레이(Field Programmable Gate Array, FPGA), 주문형 반도체(Application Specific Integrated Circuit, ASIC) 등을 이용하여 구현될 수 있다. 또한, 장치는 하나 이상의 프로세서 및 컨트롤러를 포함한 시스템온칩(System on Chip, SoC)으로 구현될 수 있다.

포인트 추출 장치는 하드웨어적 요소가 마련된 컴퓨팅 디바이스 또는 서버에 소프트웨어, 하드웨어, 또는 이들의 조합하는 형태로 탑재될 수 있다. 컴퓨팅 디바이스 또는 서버는 각종 기기 또는 유무선 통신망과 통신을 수행하기 위한 통신 모뎀 등의 통신장치, 프로그램을 실행하기 위한 데이터를 저장하는 메모리, 프로그램을 실행하여 연산 및 명령하기 위한 마이크로프로세서 등을 전부 또는 일부 포함한 다양한 장치를 의미할 수 있다.

도 2에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나 이는 예시적으로 설명한 것에 불과하고, 이 분야의 기술자라면 본 발명의 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 2에 기재된 순서를 변경하여 실행하거나 또는 하나 이상의 과정을 병렬적으로 실행하거나 다른 과정을 추가하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이다.

본 실시예들에 따른 동작은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능한 매체에 기록될 수 있다. 컴퓨터 판독 가능한 매체는 실행을 위해 프로세서에 명령어를 제공하는 데 참여한 임의의 매체를 나타낸다. 컴퓨터 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 또는 이들의 조합을 포함할 수 있다. 예를 들면, 자기 매체, 광기록 매체, 메모리 등이 있을 수 있다. 컴퓨터 프로그램은 네트워크로 연결된 컴퓨터 시스템 상에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드, 및 코드 세그먼트들은 본 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.

본 실시예들은 본 실시예의 기술 사상을 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컴퓨팅 디바이스에 의한 포인트 추출 방법에 있어서,
신체 동작에 관한 비디오의 프레임로부터 복수의 스케일을 갖는 레이어들을 포함하는 특징 추출 모델을 통해 복수의 해상도를 갖는 특징을 추출하는 단계; 및
상기 특징을 양방향으로 전달하여 상기 프레임으로부터 신체 관절에 해당하는 키포인트를 추출하는 단계를 포함하며,
상기 키포인트를 추출하는 단계는, 상기 특징 추출 모델에서 저해상도의 특징을 고해상도의 특징으로 전달하는 단계; 및 상기 특징 추출 모델에서 상기 고해상도의 특징을 상기 저해상도의 특징으로 전달하는 단계를 포함하며,
상기 특징 추출 모델은 피라미드 구조의 레이어들로 구성된 네트워크이며, 최상위 레이어에서는 보틀렉을 통과시키지 않고, 스케일에 따라 레이어가 깊어질수록 필터의 사이즈를 줄인 보틀넥의 개수를 점진적으로 증가시켜 연결하고,
상기 최상위 레이어를 통과한 특징 및 상기 보틀넥을 통과한 특징에 대해서 해상도의 크기에 따라 양방향으로 특징을 전달하고 전달된 특징을 다시 결합하며,
상기 보틀넥은 필터의 사이즈를 줄인 잔차 블록이고, 상기 잔차 블록은 가중치 레이어를 거치지 않고 입력에서 출력으로 직접 연결된 구조를 갖는 것을 특징으로 하는 포인트 추출 방법.
삭제
제1항에 있어서,
상기 저해상도의 특징을 상기 고해상도의 특징으로 전달하는 단계는 상기 저해상도의 특징을 업샘플링하고 상기 고해상도의 특징에 추가하고,
상기 특징을 추출하는 단계는 상기 저해상도의 특징이 가진 문맥적 정보를 반영한 특징을 추출하는 것을 특징으로 하는 포인트 추출 방법.
제1항에 있어서,
상기 고해상도의 특징을 상기 저해상도의 특징으로 전달하는 단계는 상기 고해상도의 특징을 다운샘플링하고 상기 저해상도의 특징에 추가하고,
상기 특징을 추출하는 단계는 상기 고해상도의 특징이 가진 위치적 정보를 반영한 특징을 추출하는 것을 특징으로 하는 포인트 추출 방법.
하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 포인트 추출 장치에 있어서,
상기 프로세서는 신체 동작에 관한 비디오의 프레임로부터 복수의 스케일을 갖는 레이어들을 포함하는 특징 추출 모델을 통해 복수의 해상도를 갖는 특징을 추출하고,
상기 특징을 양방향으로 전달하여 상기 프레임으로부터 신체 관절에 해당하는 키포인트를 추출하며,
상기 키포인트를 추출하는 것은 상기 특징 추출 모델에서 저해상도의 특징을 고해상도의 특징으로 전달하고, 상기 특징 추출 모델에서 상기 고해상도의 특징을 상기 저해상도의 특징으로 전달하며,
상기 특징 추출 모델은 피라미드 구조의 레이어들로 구성된 네트워크이며, 최상위 레이어에서는 보틀렉을 통과시키지 않고, 스케일에 따라 레이어가 깊어질수록 필터의 사이즈를 줄인 보틀넥의 개수를 점진적으로 증가시켜 연결하고,
상기 최상위 레이어를 통과한 특징 및 상기 보틀넥을 통과한 특징에 대해서 해상도의 크기에 따라 양방향으로 특징을 전달하고 전달된 특징을 다시 결합하며,
상기 보틀넥은 필터의 사이즈를 줄인 잔차 블록이고, 상기 잔차 블록은 가중치 레이어를 거치지 않고 입력에서 출력으로 직접 연결된 구조를 갖는 것을 특징으로 하는 포인트 추출 장치.