KR20220165092A - 제스처 분류기 학습방법 및 이를 이용한 제스처 추론 방법 - Google Patents

제스처 분류기 학습방법 및 이를 이용한 제스처 추론 방법 Download PDF

Info

Publication number
KR20220165092A
KR20220165092A KR1020210073632A KR20210073632A KR20220165092A KR 20220165092 A KR20220165092 A KR 20220165092A KR 1020210073632 A KR1020210073632 A KR 1020210073632A KR 20210073632 A KR20210073632 A KR 20210073632A KR 20220165092 A KR20220165092 A KR 20220165092A
Authority
KR
South Korea
Prior art keywords
foreground
image
gesture
processors
learning
Prior art date
Application number
KR1020210073632A
Other languages
English (en)
Inventor
주진선
전병기
조현철
Original Assignee
주식회사 엘지유플러스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지유플러스 filed Critical 주식회사 엘지유플러스
Priority to KR1020210073632A priority Critical patent/KR20220165092A/ko
Publication of KR20220165092A publication Critical patent/KR20220165092A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

제스쳐 분류기 학습방법 및 이를 이용한 제스쳐 추론 방법이 개시된다. 본 발명의 일 실시예에 따른 제스쳐 분류기 학습 방법은, 제1, 제2 배경을 생성하는 단계, 입력 영상과 제1 배경과의 차이에 기반하여 제1 전경을 얻고, 상기 입력 영상과 제2 배경과의 차이에 기반하여 제2 전경을 얻는 단계, 제1, 제2 전경을 통해 공통으로 검출된 부분을 최종 전경으로 추출하고, 제2 전경을 통해서만 검출된 부분을 정지 전경으로 추출하는 단계, 최종 전경과 정지 전경을 이용하여 실루엣 히스토리 이미지(silhouette history image)들을 생성하는 단계, 다양한 제스쳐가 어노테이션된 실루엣 히스토리 이미지들을 이용하여 신경망 모델(Neural Network, NN)을 학습시키는 단계를 포함한다.

Description

제스처 분류기 학습방법 및 이를 이용한 제스처 추론 방법{GESTURE CLASSIFIER LEARNING METHOD AND GESTURE INFERENCE METHOD USING THE SAME}
본 발명은 제스처 분류기 학습방법 및 이를 이용한 제스처 추론 방법에 관한 것이다.
본 발명은 영상정보를 이용한 쓰러짐 감지 기술에 관한 것으로서, 상세하게는 카메라에서 촬영된 실시간 영상으로부터 CV (Computer Vision), ML (Machine Learning) 기술을 이용하여 영상 내의 변화와 사람을 검출하고, 검출된 사람의 행동을 분석하여 쓰러짐을 인식하는 기술에 관한 것이다.
종래에는 센서 기반 낙상 감지와 영상 분석 기반의 낙상 감지 기법들이 제안된 바 있다. 그런데, 센서 기반 낙상 감지의 경우, 종래 기술은 사람의 쓰러짐/낙상을 감지하기 위하여 다양한 센서를 사람의 신체에 부착하여 움직임 속도, 기울기 등을 측정하여 낙상을 감지하였다. 이러한 방법은 사용자의 신체에 센서를 부착하거나 센서를 부착한 특정 디바이스를 사람의 몸에 지니고 있을 때에만 낙상 감지가 가능하다는 한계가 있다. 또한, 영상분석 기반 낙상감지의 경우 종래 기술은 영상을 일정시간동안 누적하여 배경을 생성하고 입력 영상과 배경의 차 연산을 통해 전경을 검출한다. 이 때 배경을 누적하는 시간이 짧으면 영상에 등장한 객체의 움직임이 적거나 영상에 등장 후 객체가 일시적으로 움직임을 멈추게 되면 멈춘 영역이 배경에 흡수되어 전경이 검출되지 않으며, 다시 움직임이 발생했을 때 고스트가 발생하게 되고, 이러한 전경 오검출을 줄이기 위해 배경을 누적하는 시간을 길게 하면 시간에 따른 조명의 변화 등에 의해 노이즈가 빈번하게 발생하여 오보를 야기한다는 불가피한 문제가 있었다.
본 발명은 전술한 필요성 및/또는 문제점을 해결하는 것을 목적으로 한다.
또한, 본 발명은 환경의 변화를 감지하고 사람을 검출한 뒤 사람의 행동을 분석하여 쓰러짐/낙상을 감지할 수 하는 제스처 분류기 학습방법 및 이를 이용한 제스처 추론 방법을 구현하는 것을 목적으로 한다.
본 발명의 일 실시예에 따른 제스처 분류기 학습 방법은, 제1, 제2 배경을 생성하는 단계; 입력 영상과 제1 배경과의 차이에 기반하여 제1 전경을 얻고, 상기 입력 영상과 제2 배경과의 차이에 기반하여 제2 전경을 얻는 단계; 제1, 제2 전경을 통해 공통으로 검출된 부분을 최종 전경으로 추출하고, 제2 전경을 통해서만 검출된 부분을 정지 전경으로 추출하는 단계; 최종 전경과 정지 전경을 이용하여 실루엣 히스토리 이미지(silhouette history image)들을 생성하는 단계; 다양한 제스쳐가 어노테이션된 실루엣 히스토리 이미지들을 이용하여 신경망 모델(Neural Network, NN)을 학습시키는 단계를 포함한다.
일 실시예에 있어서, 제1 배경은 고정 시간동안 획득된 영상에 기반하여 형성되고, 제2 배경은 가변 시간동안 획득된 영상에 기반하여 형성될 수 있다.
일 실시예에 있어서, 가변 시간은 획득된 영상에서 검출된 객체의 수에 기반하여 조절될 수 있다.
일 실시예에 있어서, 검출된 객체의 수가 1 개 이상이면 가변 시간은 고정 시간보다 긴 시간으로 결정될 수 있다.
일 실시예에 있어서, 검출된 객체의 수가 0 개 이면 제2 배경은 입력 영상의 직전 프레임으로 설정될 수 있다.
일 실시예에 있어서, 제1, 제2 전경은 입력 영상과 제1 배경의 픽셀 값의 차이, 입력 영상과 제2 배경의 픽셀 값의 차이에 각각 기반하여 차이가 임계 값 이상인 픽셀들로 형성될 수 있다.
일 실시예에 있어서, 상기 임계 값은 픽셀 별로 다르게 적용될 수 있다.
일 실시예에 있어서, 상기 임계 값을 픽셀 별로 다르게 적용하기 위해 적응적 임계 마스크를 이용하며, 상기 적응적 임계 마스크는 입력 영상의 픽셀 값을 0 내지 25 사이의 값으로 정규화되어 생성될 수 있다.
일 실시예에 있어서, 상기 적응적 임계 마스크에서, 임계 값은 입력 영상의 밝기 값이 클수록 작게 설정되고, 입력 영상의 밝기 값이 작을수록 크게 설정될 수 있다.
일 실시예에 있어서, 실루엣 히스토리 이미지는 모션 히스토리 이미지에 전경 정보를 추가로 포함할 수 있다.
본 발명의 다른 실시예에 따른 제스쳐 추론 방법에 있어서, 심층 신경망 기반의 제스쳐 분류기를 이용한 제스쳐 추론 방법에 있어서, 이미지 센서를 통해 획득된 영상을 얻는 단계; 상기 획득된 영상을 상술한 제스쳐 분류기 학습 방법에 따라 생성된 신경망 모델로 제공하는 단계; 상기 신경망 모델의 출력에 기반하여, 영상에 포함된 객체의 제스쳐를 학습 데이터로 제공된 복수의 분류 레이블들 중 어느 하나에 상응하는 것으로 결정하는 단계를 포함한다.
본 발명의 또 다른 실시예에 따른 장치는, 상술한 제스쳐 분류기 학습 방법 및 제스쳐 분류 방법을 지원하기 위한 메모리, 트랜시버 및 프로세서를 포함한다.
본 발명의 일 실시예에 따른 제스쳐 분류기 학습방법 및 이를 이용한 제스쳐 추론 방법의 효과에 대해 설명하면 다음과 같다.
본 발명은 환경의 변화를 감지하고 사람을 검출한 뒤 사람의 행동을 분석하여 쓰러짐/낙상을 감지할 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 본 발명의 일 실시예에 따른 제스쳐 분류기의 학습 과정을 설명하기 위한 순서도이다.
도 2는 본 발명의 일 실시예에 따른 제스쳐 분류기의 추론 과정을 상세히 설명하기 위한 순서도이다.
도 3 내지 도 8은 도 2의 각 단계를 설명하기 위한 예시시도이다.
도 9은 본 발명에 적용되는 통신 시스템을 예시한다.
도 10은 본 발명에 적용될 수 있는 무선 기기를 예시한다.
도 11은 본 발명에 적용되는 무선 기기의 다른 예를 나타낸다.
이하, 첨부된 도면을 참조하여 본 발명에 개시된 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 발명에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 제스쳐 분류기의 학습 과정을 설명하기 위한 순서도이다.
도 1의 제스쳐 분류기 학습 과정은 제스쳐 분류기 학습 장치에 의해 수행될 수 있다. 제스쳐 분류기 학습 장치는 단말기, PC, 바람직하게는 서버, 에지 컴퓨팅 디바이스 등으로 구현될 수 있다. 이하의 단계들은 제스쳐 분류기 학습 장치에 구비된 하나 이상의 프로세서에 의해 지원된다.
프로세서는 제1, 제2 배경을 생성할 수 있다(S110).
여기서, 제1 배경은 고정 시간동안 획득된 영상에 기반하여 형성된다. 제2 배경은 가변 시간동안에 획득된 영상에 기반하여 형성된다. 제1 배경은 소위 단기 관찰 배경(Short Observation Background)로 호칭되고, 제2 배경은 소위 선택 배경(Selective Background)로 호칭될 수 있다.
가변 시간은 획득된 영상에서 검출된 객체의 수에 기반하여 조절될 수 있다. 검출된 객체의 수가 1개 이상이면 가변 시간은 고정시간보다 더 긴 시간으로 결정되며, 검출된 객체의 수가 0개 이면 제2 배경은 입력 영상의 직접 프레임과 동일하게 설정될 수 있다.
프로세서는 입력 영상과 제1 배경과의 차이에 기반하여 제1 전경을 얻고, 입력 영상과 제2 배경과의 차이에 기반하여 제2 전경을 얻을 수 있다(S120).
여기서, 제1, 제2 전경은 입력 영상과 제1 배경의 픽셀 값의 차이, 입력 영상과 제2 배경의 픽셀 값의 차이를 산출하고, 산출된 차이가 임계 값 이상인 픽셀들로 형성된다. 보다 상세하게는, 제1 전경은 입력 영상과 제1 배경의 픽셀 값의 차이에 기반하여 산출된 차이가 임계 값 이상인 픽셀들로 형성되고, 제2 전경은 입력 영상과 제2 배경의 픽셀 값의 차이에 기반하여 산출된 차이가 임계 값 이상인 픽셀들로 형성된다. 이때, 임계 값은 픽셀 별로 다르게 적용되는 것들로서, 상기의 임계 값이 픽셀 별로 달리 적용되도록 하기 위해서 적응적 임계 마스크가 사용된다.
상기 적응적 임계 마스크는 입력 영상의 픽셀 값을 0 내지 25 사이의 값으로 정규화함으로써 만들어 진다. 적응적 임계 마스크에서 임계 값은 영상, 바람직하게는 픽셀의 밝기 값이 클수록 작게 설정되고, 밝기 값이 작을수록 작게 설정된다.
프로세서는 최종 전경, 정지 전경을 추출할 수 있다(S130).
최종 전경은 제1, 제2 전경에서 공통으로 검출된 부분으로 결정된 부분이며, 정지 전경은 제2 전경을 통해서만 검출된 부분이다. 최종 전경은 정지 전경과 달리 시간에 따라 변화하는 모션 히스토리 이미지 형태로 제공될 수도 있다. 최종 전경을 달리 호칭할 때 움직임 전경으로 호칭될 수도 있다.
프로세서는 실루엣 히스토리를 생성할 수 있다(S140).
실루엣 히스토리 이미지는 모션 히스토리 이미지에 전경 정보가 추가된 것을 말한다. 즉, 실루엣 히스토리 이미지는 모션 히스토리에 이미지에 전경 정보를 추가로 포함하는 것을 말한다.
프로세서는 실루엣 히스토리 이미지를 이용하여 신경망 모델을 학습시킬 수 있다(S150).
프로세서는 다양한 제스쳐가 어노테이션된 실루엣 히스토리 이미지들을 학습 데이터로 삼아 신경망 모델을 학습시킬 수 있다. 신경망 모델을 학습시키는 것이라 함은 입력층에 학습용으로 마련된 데이터를 입력시키고, 그 출력을 상기 학습용으로 마련된 데이터에 어노테이션된 레이블링을 비교한 후, 비교 결과에 따라 신경망 모델의 각 노드들 간에 연관된 파라미터(예를 들어, 가중치)를 조절하는 것을 말한다. 이러한 신경망 모델의 파라미터 갱신방법은 지도학습 방법으로서 이미 알려져 있는 바 구체적인 설명은 도 2의 S270에서 함께 설명된다.
도 2는 본 발명의 일 실시예에 따른 제스쳐 분류기에 의한 추론 과정을 설명하기 위한 순서도이다.
프로세서는 이미지 센서 등을 통해 획득되거나, 타 장치로부터 수신된 영상을 메모리에 저장할 수 있다(S210).
프로세서는 입력된 영상을 대상으로 상기 영상에 포함된 객체를 검출할 수 있다(S215). 여기서, 객체의 검출은 딥러닝에 기반한 객체 검출 알고리즘을 이용하여 수행된다. 예를 들어, 일 실험예에서는, Yolo V3 이 사람과 사물의 검출을 위해 사용되었다.
프로세서는 S215에서 검출된 객체들 중 적어도 일부를 블롭 필터링을 통해 얻을 수 있다(S220). 블롭 필터링은 검출된 객체의 클래스 별 컨피던스 값을 산출하고, 산출된 컨피던스 값과 미리 설정된 임계 값을 비교하여, 상기 컨피던스 값이 임계치 이상인 객체에 상응하는 블롭을 필터링하는 과정을 말한다. 즉, 블롭 필터링을 통해 유의미한 객체에 상응하는 블롭들이 추출될 수 있다. 블롭 필터링을 위한 임계치는 0.23으로 설정될 수 있다.
프로세서는 S220 에서 필터링된 블롭들 중 사람으로 식별되는 블롭이 존재하는 지 여부를 결정할 수 있다(S225). 만약 블롭들 중 적어도 하나가 사람으로 식별된다면, 프로세서는 사람에 해당하는 블롭에 대한 궤적, 즉 사람 궤적을 생성할 수 있다. 사람 궤적에 대한 상세한 설명은 S265에서 후술한다.
프로세서는 제1 배경을 생성할 수 있다(S230). 제1 배경은 제1 배경 모델이라고 호칭될 수도 있다. 제1 배경은 도 1에서 상술한 바와 같이 고정 시간 동안에 획득된 영상에 기반하여 헝성되는 영상을 말하며, 제2 배경과는 서로 구분된다.
프로세서는 제2 배경도 생성할 수 있다(S235). 제2 배경은 제2 배경 모델이라고 호칭될 수도 있다. 제2 배경은 도 1에서 상술한 바와 같이 가변 시간 동안에 획득된 영상에 기반하여 형성되는 영상을 말한다.
제1 배경과 제2 배경은 서로 다른 누적시간에 따라 생성된 배경으로서, 본 발명의 일 실시예는 두 개의 배경을 사용함으로써 노이즈 및 고스트에 강한 전경 검출을 수행할 수 있다.
참고로, 고스트란 영상에 등장한 사람 또는 물체가 일정시간 동안 움직이지 않음으로써 배경으로 취급되고, 상기의 사람 또는 물체가 다시 움직이는 순간 원 위치에 전경이 검출되는 현상을 말한다. 단일 배경만을 사용하는 경우에는 배경을 형성하기 위한 누적시간을 길게 적용하는 경우 객체가 잠시 멈췄다가 떠나더라도 배경에 흡수되지 않아 고스트로 인한 문제는 해소되나, 실시간으로 변화하는 조명의 변화에 대응하기 어려워 노이즈가 발생하는 문제가 있었다. 반대로, 누적시간을 짧게 적용하면 실시간으로 변화하는 조명의 변화에는 대응이 가능해지기 때문에 노이즈 문제는 해소되나 고스트로 인한 문제가 발생하는 문제점이 있었다. 본 발명에서는 그러한 단일 배경을 사용하는 경우에 불가피하게 발생하는 노이즈와 고스트 문제를 해소하기 위해 두 개의 배경을 사용하는 것이다.
다시 S230, S235를 참조하면, 제1, 제2 배경은 배경 모델로서, 지정된 시간만큼 프레임을 누적한 뒤 평균 값을 계산하거나 가우시안 믹스쳐 모델을 이용함으로써 생성될 수 있다. 이때, 제1 배경은 미리 설정된 시간만큼의 영상을 이용하여 만들어진 배경이고, 제2 배경은 일정한 조건 하 가변적으로 설정되는 시간만큼의 영상을 이용하여 만들어진 배경이다. 제1 배경은 소위 Short Observation Background 라고 지칭될 수 있으며, 제2 배경은 소위 Slecetive Background 로 지칭될 수 있다. 제2 배경은 영상에 포함된 객체들에 대한 객체 검출 결과에 따라 프레임의 누적시간이 조절된다.
제2 배경을 형성하기 위한 프레임 누적시간의 조절에 대해 상세히 설명한다. 우선, 입력된 영상에 대한 객체검출 결과에 따라 검출된 객체가 없다면 제2 배경은 이전의 프레임으로 정의되고, 검출된 객체가 하나 이상인 경우에는 제1 배경의 형성을 위한 프레임 누적시간 보다 긴 시간동안 프레임을 누적하여 배경이 모델링된다.
한편, 프로세서는 배경이 생성되면 입력 영상과의 차이 값을 산출하고, 산출된 차이 값이 미리 설정된 임계 값 이상인 픽셀들을 선별하여, 선별된 픽셀들로 전경을 검출한다. 전경을 판단하기 위한 임계 값은 각 픽셀마다 다르게 설정될 수 있는데, 이를 위해 입력 영상의 0 내지 255 사이의 픽셀 값을 0 내지 25 사이로 정규화하여 적응적 임계 마스크를 마련한다. 도 3은 적응적 임계 마스크의 스케일 변화를 예시적으로 보여준다. 도 3을 참조하면, 적응적 임계 마스크에서 붉은 색에 가까울수록 적은 값의 임계 값을 나타내며, 보라 색에 가까울수록 높은 값의 임계 값을 나타낸다. 이와 같이 마련된 적응적 임계 마스크를 사용하면, 배경과 입력 영상의 색상 차가 적어도 전경을 검출할 수 있고, 갑작스럽게 변화하는 조명에 의한 노이즈도 최소화시킬 수 있다. 또한, 조명 환경이 다른 곳에서 입력 영상을 얻더라도 현장에 대한 최적화를 위한 별도의 파라미터를 설정할 필요가 없다는 우수한 효과도 있다.
프로세서는 제1, 제2 배경에 의해 각각 전경을 검출할 수 있다(S240, S245). 그 후, 프로세서는 검출된 두 개의 전경 (제1, 제2 전경)에서 공통적으로 검출된 부분을 최종 전경으로 정의하고(S250), 두 개의 전경 중 제1 배경(Short Observation Background)에서는 전경 (제1 전경)으로 검출되지 않았으나, 제2 배경(Selective Background)에서는 전경 (제2 전경)으로 검출된 부분은 움직임이 없는 정지 전경으로 정의된다(S255).
최종 전경은 움직임 전경으로 호칭될 수도 있다. 정지 전경은 이후 실루엣 히스토리 이미지를 생성할 때 검출된 사람의 동작이 정지된 이후에 멈춰있는 실루엣을 판단하기 위한 용도로서 사용된다.
프로세서는 S240, S245, S250, S255 를 통해 검출된 움직임 전경과 정지 전경을 이용하여 실루엣 히스토리 이미지를 생성할 수 있다(S260).
실루엣 히스토리 이미지는 모션 히스토리 이미지에 정지상태의 형상을 파악하기 위한 정지 전경을 추가함으로써 생성된다. 모션 히스토리 이미지는 상기의 움직임 전경을 통해 만들어 지며, 시간에 따라 변화하는 객체, 바람직하게는 사람의 동작 변화를 나타낸다. 실루엣 히스토리 이미지는 1채널로 0 내지 255 의 픽셀 값을 가지며, 과거의 모션일수록 0에 가까운 픽셀 값을 가지고, 최근의 모션일수록 255에 가까운 픽셀 값을 갖는다. 즉, 과거의 모션일수록 어두운 색상을 나타내고, 최근의 모션일수록 밝은 색상을 나타낸다. 도 4를 참조하면, 도 4의 (a)는 모션 히스토리 이미지를 예시적으로 보여주고, 도 4의 (b)는 정지 전경을 예시적으로 보여주고, 도 4의 (c)는 모션 히스토리 이미지와 정지 전경을 결합하여 생성된 실루엣 히스토리 이미지를 예시적으로 보여준다. 도 4의 (c)를 참조하면, 과거의 모션일수록 검정에 가까운 색을 나타내고, 최근의 모션일수록 하양에 가까운 색을 나타내어, 시간에 따른 모션의 변화를 한 장의 이미지를 통해 확인할 수 있다. 도 5는 실루엣 히스토리 이미지가 생성되는 과정을 다수의 예시를 통해 예시하는 도면이다.
한편, 실루엣 히스토리 이미지는 하기의 수학식과 같이 정의될 수 있다.
[수학식 1]
Figure pat00001
여기에서
Figure pat00002
는 실루엣 히스토리 이미지,
Figure pat00003
는 전경 이미지,
Figure pat00004
는 영상의 가로, 세로 좌표,
Figure pat00005
는 시간을 나타낸다.
프로세서는 사람 궤적(Person Trajectory)을 생성할 수 있다(S250).
여기서 사람 궤적은 딥러닝 기반의 객체 검출 모듈에 의해 사람으로 검출된 블롭이 일정 시간 동안 이동한 영역을 누적함으로써 생성된다. 전형적으로는, 지능형 영상 분석 분야에서는 영상 내에 사람의 쓰러짐과 같은 이벤트가 발생가능한 영역을 사람이 수동으로 지정하고, 지정된 영역에서의 이상 상황 내지 이벤트를 검출하는 방식이었다. 그러한 종래의 지능형 영상 분석 방식에 의하면, 카메라마다 다른 ROI(Region of Interest)들을 수동으로 지정해야 하며, 이미지 센서의 상태야 사소한 변경이 있을 때마다 ROI를 재차 지정해야 한다는 문제가 있다. 또한, 수동으로 ROI를 지정하는 경우에는 감지 가능한 모든 부분을 대상 영역으로 지정하여야 하기 때문에 조명의 변화나, 그림자, 노이즈와 같은 환경의 영햐엥 의해 오보가 발생하기도 한다. 이러한 문제점을 해결하기 위해, 본 발명의 일 실시예에서는, 사람 궤적을 이용하는 것이다. 일 실시예에 따른 방법에서, 프로세서는 사람 궤적을 ROI로 사용하여 자동으로 ROI를 생성할 수 있다. 이처럼, 사람 궤적에 기반하여 자동으로 생성된 ROI를 이용한다면, 종래와 같이 ROI를 수동으로 지정하는 노동이 불필요해지며, 사람에 해당하는 블롭이 이동했던 영역에서만 쓰러짐과 같은 이벤트의 발생이 가능하도록 감지 영역이 한정되므로 그림자, 조명변화, 노이즈 등과 같은 환경 변화에 의한 오보가 최소화될 수 있다.
한편, 사람 궤적을 생성하기 위해서, 사람으로 검출된 블롭은 흰색의 픽셀(즉, 픽셀 값이 255인 픽셀)들로 채워지고, 소정의 시간동안 상기의 사람으로 검출된 블롭은 실루엣 히스토리 이미지로 만들어 진다. 실루엣 히스토리 이미지를 만들기 위한 소정의 시간은 예를 들어, 20 초 일 수 있다. 도 6은 상술한 사람 궤적의 생성 과정을 예시적으로 설명하기 위한 도면이다. 도 6을 참조하면, 입력된 영상에 포함된 사람은 딥러닝 기반의 객체 검출 알고리즘을 통해 검출될 수 있다. 이때, 검출된 사람의 블롭은 약 20 초의 시간 동안 측정된 실루엣 히스토리 이미지로 만들어 질 수 있다. 그 후, 프로세서는 실루엣 히스토리 이미지에 상응하는 블롭이 이동한 반경에 기반하여 자동 ROI 를 정의할 수 있다. 이처럼 생성된 자동 ROI을 사람 궤정이라 말하며, 사람 궤적에 해당하는 영역을 제외한 나머지 영역은 노이즈로 간주되어 삭제된다. 이후, 사람 궤적에 해당하는 영역의 실루엣 히스토리 이미지만이 신경망 모델을 학습시키기 위한 학습 데이터로 사용될 수 있다.
프로세서는 미리 학습된 제스쳐 분류기에 입력 영상을 입력하여, 영상에 포함된 사람의 제스쳐를 미리 마련된 복수의 제스쳐들 중 어느 하나로 분류할 수 있다(S270). 즉, 제스쳐 분류기는 인공지능 분야에서 전형적으로 말하는 분류기(Classifier)에 해당한다. 그러한 분류기는 NN(Neural Network), AdaBoost, SVM(support vector machine), CNN(Convolutional Nerual Network) 등의 기계학습 기반의 분류기로 구현될 수 있다. 본 발명은, 일 실시예에서, NN을 이용하여 만들어진 분류기를 이용한다.
한편, 학습 과정은 추론 과정과 별개의 오프라인 스테이지에서 수행되며, 추론 과정의 수행 이전에 제스쳐 분류기는 미리 학습된다. 프로세서는 S210 내지 S265 중 적어도 하나의 단계에 의해 생성된 실루엣 히스토리 이미지, 바람직하게는 사람 궤적에 해당하는 영역의 실루엣 히스토리 이미지를 포함하는 학습 데이터를 이용하여 제스쳐 분류기를 학습시킬 수 있다. 일 실시예에서, 분류기를 이루는 NN은 하나의 입력층, 3개의 은닉층, 그리고 출력층으로 구성되며, 각 층을 구성하는 노드의 수는 실험을 통해 아래 표 1과 같이 결정되었다.
[표 1]
Figure pat00006
도 7을 참조하면, 입력층은 실루엣 히스토리 이미지의 픽셀 값과 클래스 레이블을 벡터로 입력받아 은닉층으로 전달한다. 은닉층은 출력 값을 출력층으로 전달한다. 입력층의 입력으로 사용되는 실루엣 히스토리 이미지는 레이블링 후에 가로 50 픽셀, 세로 50 픽셀의 사이즈로 정규화되어 입력으로 사용된다. 출력층의 노드는 수직방향 쓰러짐, 수평방향 쓰러짐, 좌대각선 방향 쓰러짐, 우대각선 방향 쓰러짐, 서있는 상태, 이동 상태, 기타 상태로 구성하여, 입력 영상에 포함된 사람의 제스쳐가 6개의 자세 중 어느 하나로 분류될 수 있도록 마련되었다.
도 8을 참조하면, NN의 입력층으로 인가되는 하나의 학습용 임베딩 벡터는 실루엣 히스토리 이미지의 픽셀 값과 목표 값으로 구성된다. 출력층의 출력 값과 입력층에 인가된 임베딩 벡터의 목표 값을 비교하여 출력 갑소가 목표 값의 차이가 허용 오차보다 크면, 가중치를 규칙에 따라 조정하며 학습이 진행된다. 이러한, 학습 방법을 지도 학습이라고 말한다. 학습을 위한 규칙의 상세한 내용은 아래의 7가지 과정으로 설명될 수 있다.
- 가중치 및 바이어스를 -1 내지 1 사이의 임의의 값으로 초기화하는 단계
- 하나의 학습용 임베딩 벡터에 대한 은닉층의 뉴런에 대한 넷 값(net value)를 산출하고, 시그모이드 함수를 통해 실제 출력 값을 연산하는 단계,
- 은닉층의 출력 벡터에 대한 출력층 뉴런에 대한 넷 값을 산출하고, 시그모이드 함수를 통해 실제 출력 값을 연산하는 단계,
- 입력층과 은닉층, 은닉층과 다른 은닉층, 은닉층과 출력층 간의 가중치를 갱신하는 단계,
- 현재 입력된 학습용 임베딩 벡터가 마지막 학습용 임베딩 벡터가 아니면, 다음 순서의 학습용 임베딩 벡터를 통해 상술한 과정을 반복하는 단계,
- 현재 입력된 학습용 임베딩 벡터가 마지막 학습용 임베딩 벡터이고, 산출된 오차의 총합이 허용 오차보다 작으면 학습을 종료하고, 오차의 총합이 허용 오차보다 크면 학습을 다시 반복하는 단계.
이때, 각 뉴런에 대한 넷 값은 아래의 수학식 2를 통해 계산된다.
[수학식 2]
Figure pat00007
여기서,
Figure pat00008
은 입력 벡터의 크기,
Figure pat00009
는 입력 벡터의 입력 값 (실루엣 히스토리 이미지의 픽셀 값),
Figure pat00010
는 weight를 나타낸다.
활성화 함수는 넷 값이 임계 값보다 크면 뉴런의 출력 값을 활성화시키고, 그렇지 않으면 뉴런의 출력 값을 비활성화 시키는 함수를 말하며, 본 발명에서는 상술한 시그모이드 함수를 이용한다. 시그모이드 함수는 아래의 수학식 3과 같다.
[수학식 3]
Figure pat00011
수학식 4는 n 번째 학습용 임베딩 벡터에 대한 K번째 출력층 뉴런의 j번째 웨이트에 대한 학습 규칙을 나타낸다.
[수학식 4]
Figure pat00012
여기서,
Figure pat00013
Figure pat00014
번째 output layer의
Figure pat00015
번째 weight를 나타내며,
Figure pat00016
는 learning rate를 나타낸다.
Figure pat00017
는 번째 학습 벡터에 대한
Figure pat00018
번째 은닉 뉴런의 출력 값이며,
Figure pat00019
Figure pat00020
번째 학습 벡터의
Figure pat00021
번째 목표값을 나타낸다.
Figure pat00022
Figure pat00023
번째 학습 벡터에 대한
Figure pat00024
번째 출력층 뉴런의 넷 값을 나타낸다.
수학식 5는
Figure pat00025
번째 학습 벡터에 대한
Figure pat00026
번째 은닉층 뉴런의
Figure pat00027
번째 가중치 학습 규칙이며,
Figure pat00028
는 출력층의 크기를 나타낸다.
[수학식 5]
Figure pat00029
여기서,
Figure pat00030
Figure pat00031
번째 은닉층 뉴런의
Figure pat00032
번째 가중치를 나타내며,
Figure pat00033
는 learning rate,
Figure pat00034
는 번째 학습 벡터의
Figure pat00035
번째 입력 값,
Figure pat00036
Figure pat00037
번째 학습 벡터의
Figure pat00038
번째 목표 값,
Figure pat00039
Figure pat00040
번째 학습 벡터에 대한
Figure pat00041
번째 출력층 뉴런의 출력 값을 나타낸다.
본 발명에서는 학습을 위해 800개의 데이터베이스에서 120,000장의 실루엣 히스토리 이미지를 수집하였고, 최종적으로 98,233장의 실루엣 히스토리 이미지를 6개의 클래스로 나누어 학습 데이터로 사용하였다. NN 학습은 은닉층, 은닉 노드의 개수 등의 학습 파라미터를 조절하며 진행하였고, 학습이 완료된 여러 개의 모델 중 학습에 사용하지 않은 실루엣 히스토리 이미지의 분류 성능을 측정하여 가장 좋은 모델을 선정하였다.
프로세서는 쓰러짐으로 발생가능한 후보 영역을 검출할 수 있다(S275).
S240 내지 S260 에서 상술한 바와 같이, 프로세서는 검출된 움직임 전경과 정지 전경을 이용하여 실루엣 히스토리 이미지가 생성하고, 상기 실루엣 히스토리 이미지를 가로세로 픽셀 기준 50 x 50 로 정규화할 수 있다. 정규화된 실루엣 히스토리 이미지는 미리 학습된 NN 기반의 제스쳐 분류기를 통해 입력 영상을 통해 검출된 사람의 상태를 추론하며, 동시에 쓰러짐이 발생가능한 영역을 소정의 조건 하 검출할 수 있다.
상기 쓰러짐이 발생가능한 영역을 검출하기 위한 소정의 조건은 아래의 조건들 중 적어도 하나를 포함한다.
- 조건 1: 실루엣 히스토리 이미지의 블랍의 가로세로 픽셀의 사이즈가 임계치 이상일 것,
- 조건 2: 실루엣 히스토리 이미지의 블롭 내의 픽셀 수가 임계치 이상일 것,
- 조건 3: NN 기반 학습된 분류기가 실루엣 히스토리 이미지를 클래스 1 내지 4 중 어느 하나로 판단할 것,
- 조건 4: 조건 3을 만족하며, 판단의 기초가 된 출력 값의 크기가 0.85 이상일 것,
- 조건 5: NN 기반 학습된 분류기가 정지 전경을 클래스 1 내지 4 중 어느 하나로 판단할 것,
- 조건 6: 조건 5를 만족하며, 판단의 기초가 된 출력 값이 0.6 이상일 것,
- 조건 7: 이전 프레임의 실루엣 히스토리 이미지와 현재 프레임의 실루엣 히스토리 이미지가 모두 쓰러짐으로 판별될 것,
- 조건 8: 이전 프레임의 실루엣 히스토리 이미지와 현재 프레임의 실루엣 히스토리 이미지의 높이 차이가 임계치 이상일 것,
- 조건 9 : 조건 1 내지 8이 조건을 연속하여 5 프레임이 만족할 것.
프로세서는 쓰러짐이 발생한 이후 시점의 입력 영상을 이용하여 기준 템플릿을 생성하고, 그 후 실시간으로 일벽되는 영상과 기준 템플릿을 매칭하여 최종 쓰러짐 상태를 판별할 수 있다(S280).
사람이 쓰러짐 상태로 판단되고, 소정의 시간이 경과되면 제1 배경(Short Observation Background )에 사람은 흡수되고, 그 결과 전경 기반의 실루엣 히스토리 이미지에서 상기의 사람은 사라지게 된다. 따라서, 프로세서는 쓰러짐 상태가 지속되는 상황을 파악하기 위해 실루엣 히스토리 이미지를 입력으로 사용하는 NN 에서 1차적으로 쓰러짐을 판단하고, 쓰러짐이 발생한 이후 시점의 입력 영상을 기준 템플릿으로 생성할 수 있다. 그리고, 프로세서는 실시간으로 입력되는 영상과 기준 템플릿을 매칭하여 최종 쓰러짐을 판단할 수 있다. 이때, 정지 전경의 픽셀이 일정 개수 이상인지 판단하여, 정지 전경의 픽셀의 개수가 일정 개수 이상일 때 기준 템플릿을 생성한다. 템플릿 매칭은 기준 템플릿과 기준 템프릿에 대비되는 입력 영상 간의 매칭 스코어를 산출하고, 산출된 매칭 스코어에 기반하여 이루어 진다. 매칭 스코어는 아래 수학식 6에 의해 산출될 수 있다.
[수학식 6]
Figure pat00042
수학식 6은 상관계수 방법으로 기준 템플릿과 입력 영상 각각의 평균을 고려한 매칭을 수행하기 위한 것이다. 따라서 출력 값으로 템플릿과 입력 영상이 일치하면 1을 반환하고 불일치 하면 -1을 반환한다. 매칭 스코어가 계산되면 설정된 쓰러짐 시간 동안 매칭 스코어가 임계치 이상인지 확인 후 최종적으로 쓰러짐으로 판단한다.
도 9은 본 발명에 적용되는 통신 시스템을 예시한다.
도 9을 참조하면, 본 발명에 적용되는 통신 시스템(1)은 무선 기기, 기지국 및 네트워크를 포함한다. 여기서, 무선 기기는 무선 접속 기술(예, 5G NR(New RAT), LTE(Long Term Evolution))을 이용하여 통신을 수행하는 기기를 의미하며, 통신/무선/5G 기기로 지칭될 수 있다. 이로 제한되는 것은 아니지만, 무선 기기는 로봇(100a), 차량(100b-1, 100b-2), XR(eXtended Reality) 기기(100c), 휴대 기기(Hand-held device)(100d), 가전(100e), IoT(Internet of Thing) 기기(100f), AI기기/서버(400)를 포함할 수 있다. 예를 들어, 차량은 무선 통신 기능이 구비된 차량, 자율 주행 차량, 차량간 통신을 수행할 수 있는 차량 등을 포함할 수 있다. 여기서, 차량은 UAV(Unmanned Aerial Vehicle)(예, 드론)를 포함할 수 있다. XR 기기는 AR(Augmented Reality)/VR(Virtual Reality)/MR(Mixed Reality) 기기를 포함하며, HMD(Head-Mounted Device), 차량에 구비된 HUD(Head-Up Display), 텔레비전, 스마트폰, 컴퓨터, 웨어러블 디바이스, 가전 기기, 디지털 사이니지(signage), 차량, 로봇 등의 형태로 구현될 수 있다. 휴대 기기는 스마트폰, 스마트패드, 웨어러블 기기(예, 스마트워치, 스마트글래스), 컴퓨터(예, 노트북 등) 등을 포함할 수 있다. 가전은 TV, 냉장고, 세탁기 등을 포함할 수 있다. IoT 기기는 센서, 스마트미터 등을 포함할 수 있다. 예를 들어, 기지국, 네트워크는 무선 기기로도 구현될 수 있으며, 특정 무선 기기(200a)는 다른 무선 기기에게 기지국/네트워크 노드로 동작할 수도 있다.
무선 기기(100a~100f)는 기지국(200)을 통해 네트워크(300)와 연결될 수 있다. 무선 기기(100a~100f)에는 AI(Artificial Intelligence) 기술이 적용될 수 있으며, 무선 기기(100a~100f)는 네트워크(300)를 통해 AI 서버(400)와 연결될 수 있다. 네트워크(300)는 3G 네트워크, 4G(예, LTE) 네트워크 또는 5G(예, NR) 네트워크 등을 이용하여 구성될 수 있다. 무선 기기(100a~100f)는 기지국(200)/네트워크(300)를 통해 서로 통신할 수도 있지만, 기지국/네트워크를 통하지 않고 직접 통신(e.g. 사이드링크 통신(sidelink communication))할 수도 있다. 예를 들어, 차량들(100b-1, 100b-2)은 직접 통신(e.g. V2V(Vehicle to Vehicle)/V2X(Vehicle to everything) communication)을 할 수 있다. 또한, IoT 기기(예, 센서)는 다른 IoT 기기(예, 센서) 또는 다른 무선 기기(100a~100f)와 직접 통신을 할 수 있다.
무선 기기(100a~100f)/기지국(200)-기지국(200)/무선 기기(100a~100f) 간에는 무선 통신/연결(150a, 150b)이 이뤄질 수 있다. 여기서, 무선 통신/연결은 상향/하향링크 통신(150a)과 사이드링크 통신(150b)(또는, D2D 통신)은 다양한 무선 접속 기술(예, 5G NR)을 통해 이뤄질 수 있다. 무선 통신/연결(150a, 150b)을 통해 무선 기기와 기지국/무선 기기는 서로 무선 신호를 송신/수신할 수 있다. 예를 들어, 무선 통신/연결(150a, 150b)은 도 A1의 전체/일부 과정에 기반하여 다양한 물리 채널을 통해 신호를 송신/수신할 수 있다. 이를 위해, 본 발명의 다양한 제안들에 기반하여, 무선 신호의 송신/수신을 위한 다양한 구성정보 설정 과정, 다양한 신호 처리 과정(예, 채널 인코딩/디코딩, 변조/복조, 자원 매핑/디매핑 등), 자원 할당 과정 등 중 적어도 일부가 수행될 수 있다.
도 10은 본 발명에 적용될 수 있는 무선 기기를 예시한다.
도 10을 참조하면, 제1 무선 기기(100)와 제2 무선 기기(200)는 다양한 무선 접속 기술(예, LTE, NR)을 통해 무선 신호를 송수신할 수 있다. 여기서, {제1 무선 기기(100), 제2 무선 기기(200)}은 도 9의 {무선 기기(100x), 기지국(200)} 및/또는 {무선 기기(100x), 무선 기기(100x)}에 대응할 수 있다.
제1 무선 기기(100)는 하나 이상의 프로세서(102) 및 하나 이상의 메모리(104)를 포함하며, 추가적으로 하나 이상의 송수신기(106) 및/또는 하나 이상의 안테나(108)을 더 포함할 수 있다. 프로세서(102)는 메모리(104) 및/또는 송수신기(106)를 제어하며, 앞에서 설명/제안한 기능, 절차 및/또는 방법들을 구현하도록 구성될 수 있다. 예를 들어, 프로세서(102)는 메모리(104) 내의 정보를 처리하여 제1 정보/신호를 생성한 뒤, 송수신기(106)을 통해 제1 정보/신호를 포함하는 무선 신호를 전송할 수 있다. 또한, 프로세서(102)는 송수신기(106)를 통해 제2 정보/신호를 포함하는 무선 신호를 수신한 뒤, 제2 정보/신호의 신호 처리로부터 얻은 정보를 메모리(104)에 저장할 수 있다. 메모리(104)는 프로세서(102)와 연결될 수 있고, 프로세서(102)의 동작과 관련한 다양한 정보를 저장할 수 있다. 예를 들어, 메모리(104)는 프로세서(102)에 의해 제어되는 프로세스들 중 일부 또는 전부를 수행하거나, 앞에서 설명/제안한 절차 및/또는 방법들을 수행하기 위한 명령들을 포함하는 소프트웨어 코드를 저장할 수 있다. 여기서, 프로세서(102)와 메모리(104)는 무선 통신 기술(예, LTE, NR)을 구현하도록 설계된 통신 모뎀/회로/칩의 일부일 수 있다. 송수신기(106)는 프로세서(102)와 연결될 수 있고, 하나 이상의 안테나(108)를 통해 무선 신호를 송신 및/또는 수신할 수 있다. 송수신기(106)는 송신기 및/또는 수신기를 포함할 수 있다. 송수신기(106)는 RF(Radio Frequency) 유닛과 혼용될 수 있다. 본 발명에서 무선 기기는 통신 모뎀/회로/칩을 의미할 수도 있다.
제2 무선 기기(200)는 하나 이상의 프로세서(202), 하나 이상의 메모리(204)를 포함하며, 추가적으로 하나 이상의 송수신기(206) 및/또는 하나 이상의 안테나(208)를 더 포함할 수 있다. 프로세서(202)는 메모리(204) 및/또는 송수신기(206)를 제어하며, 앞에서 설명/제안한 기능, 절차 및/또는 방법들을 구현하도록 구성될 수 있다. 예를 들어, 프로세서(202)는 메모리(204) 내의 정보를 처리하여 제3 정보/신호를 생성한 뒤, 송수신기(206)를 통해 제3 정보/신호를 포함하는 무선 신호를 전송할 수 있다. 또한, 프로세서(202)는 송수신기(206)를 통해 제4 정보/신호를 포함하는 무선 신호를 수신한 뒤, 제4 정보/신호의 신호 처리로부터 얻은 정보를 메모리(204)에 저장할 수 있다. 메모리(204)는 프로세서(202)와 연결될 수 있고, 프로세서(202)의 동작과 관련한 다양한 정보를 저장할 수 있다. 예를 들어, 메모리(204)는 프로세서(202)에 의해 제어되는 프로세스들 중 일부 또는 전부를 수행하거나, 앞에서 설명/제안한 절차 및/또는 방법들을 수행하기 위한 명령들을 포함하는 소프트웨어 코드를 저장할 수 있다. 여기서, 프로세서(202)와 메모리(204)는 무선 통신 기술(예, LTE, NR)을 구현하도록 설계된 통신 모뎀/회로/칩의 일부일 수 있다. 송수신기(206)는 프로세서(202)와 연결될 수 있고, 하나 이상의 안테나(208)를 통해 무선 신호를 송신 및/또는 수신할 수 있다. 송수신기(206)는 송신기 및/또는 수신기를 포함할 수 있다 송수신기(206)는 RF 유닛과 혼용될 수 있다. 본 발명에서 무선 기기는 통신 모뎀/회로/칩을 의미할 수도 있다.
이하, 무선 기기(100, 200)의 하드웨어 요소에 대해 보다 구체적으로 설명한다. 이로 제한되는 것은 아니지만, 하나 이상의 프로토콜 계층이 하나 이상의 프로세서(102, 202)에 의해 구현될 수 있다. 예를 들어, 하나 이상의 프로세서(102, 202)는 하나 이상의 계층(예, PHY, MAC, RLC, PDCP, RRC, SDAP와 같은 기능적 계층)을 구현할 수 있다. 하나 이상의 프로세서(102, 202)는 본 문서에 개시된 기능, 절차, 제안 및/또는 방법에 따라 하나 이상의 PDU(Protocol Data Unit) 및/또는 하나 이상의 SDU(Service Data Unit)를 생성할 수 있다. 하나 이상의 프로세서(102, 202)는 본 문서에 개시된 기능, 절차, 제안 및/또는 방법에 따라 메시지, 제어정보, 데이터 또는 정보를 생성할 수 있다. 하나 이상의 프로세서(102, 202)는 본 문서에 개시된 기능, 절차, 제안 및/또는 방법에 따라 PDU, SDU, 메시지, 제어정보, 데이터 또는 정보를 포함하는 신호(예, 베이스밴드 신호)를 생성하여, 하나 이상의 송수신기(106, 206)에게 제공할 수 있다. 하나 이상의 프로세서(102, 202)는 하나 이상의 송수신기(106, 206)로부터 신호(예, 베이스밴드 신호)를 수신할 수 있고, 본 문서에 개시된 기능, 절차, 제안 및/또는 방법에 따라 PDU, SDU, 메시지, 제어정보, 데이터 또는 정보를 획득할 수 있다.
하나 이상의 프로세서(102, 202)는 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 마이크로 컴퓨터로 지칭될 수 있다. 하나 이상의 프로세서(102, 202)는 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합에 의해 구현될 수 있다. 일 예로, 하나 이상의 ASIC(Application Specific Integrated Circuit), 하나 이상의 DSP(Digital Signal Processor), 하나 이상의 DSPD(Digital Signal Processing Device), 하나 이상의 PLD(Programmable Logic Device) 또는 하나 이상의 FPGA(Field Programmable Gate Arrays)가 하나 이상의 프로세서(102, 202)에 포함될 수 있다. 본 문서에 개시된 기능, 절차, 제안 및/또는 방법들은 펌웨어 또는 소프트웨어를 사용하여 구현될 수 있고, 펌웨어 또는 소프트웨어는 모듈, 절차, 기능 등을 포함하도록 구현될 수 있다. 본 문서에 개시된 기능, 절차, 제안 및/또는 방법을 수행하도록 설정된 펌웨어 또는 소프트웨어는 하나 이상의 프로세서(102, 202)에 포함되거나, 하나 이상의 메모리(104, 204)에 저장되어 하나 이상의 프로세서(102, 202)에 의해 구동될 수 있다. 본 문서에 개시된 기능, 절차, 제안 및 또는 방법들은 코드, 명령어 및/또는 명령어의 집합 형태로 펌웨어 또는 소프트웨어를 사용하여 구현될 수 있다.
하나 이상의 메모리(104, 204)는 하나 이상의 프로세서(102, 202)와 연결될 수 있고, 다양한 형태의 데이터, 신호, 메시지, 정보, 프로그램, 코드, 지시 및/또는 명령을 저장할 수 있다. 하나 이상의 메모리(104, 204)는 ROM, RAM, EPROM, 플래시 메모리, 하드 드라이브, 레지스터, 캐쉬 메모리, 컴퓨터 판독 저장 매체 및/또는 이들의 조합으로 구성될 수 있다. 하나 이상의 메모리(104, 204)는 하나 이상의 프로세서(102, 202)의 내부 및/또는 외부에 위치할 수 있다. 또한, 하나 이상의 메모리(104, 204)는 유선 또는 무선 연결과 같은 다양한 기술을 통해 하나 이상의 프로세서(102, 202)와 연결될 수 있다.
하나 이상의 송수신기(106, 206)는 하나 이상의 다른 장치에게 본 문서의 방법들 및/또는 동작 순서도 등에서 언급되는 사용자 데이터, 제어 정보, 무선 신호/채널 등을 전송할 수 있다. 하나 이상의 송수신기(106, 206)는 하나 이상의 다른 장치로부터 본 문서에 개시된 기능, 절차, 제안, 방법 및/또는 동작 순서도 등에서 언급되는 사용자 데이터, 제어 정보, 무선 신호/채널 등을 수신할 수 있다. 예를 들어, 하나 이상의 송수신기(106, 206)는 하나 이상의 프로세서(102, 202)와 연결될 수 있고, 무선 신호를 송수신할 수 있다. 예를 들어, 하나 이상의 프로세서(102, 202)는 하나 이상의 송수신기(106, 206)가 하나 이상의 다른 장치에게 사용자 데이터, 제어 정보 또는 무선 신호를 전송하도록 제어할 수 있다. 또한, 하나 이상의 프로세서(102, 202)는 하나 이상의 송수신기(106, 206)가 하나 이상의 다른 장치로부터 사용자 데이터, 제어 정보 또는 무선 신호를 수신하도록 제어할 수 있다. 또한, 하나 이상의 송수신기(106, 206)는 하나 이상의 안테나(108, 208)와 연결될 수 있고, 하나 이상의 송수신기(106, 206)는 하나 이상의 안테나(108, 208)를 통해 본 문서에 개시된 기능, 절차, 제안, 방법 및/또는 동작 순서도 등에서 언급되는 사용자 데이터, 제어 정보, 무선 신호/채널 등을 송수신하도록 설정될 수 있다. 본 문서에서, 하나 이상의 안테나는 복수의 물리 안테나이거나, 복수의 논리 안테나(예, 안테나 포트)일 수 있다. 하나 이상의 송수신기(106, 206)는 수신된 사용자 데이터, 제어 정보, 무선 신호/채널 등을 하나 이상의 프로세서(102, 202)를 이용하여 처리하기 위해, 수신된 무선 신호/채널 등을 RF 밴드 신호에서 베이스밴드 신호로 변환(Convert)할 수 있다. 하나 이상의 송수신기(106, 206)는 하나 이상의 프로세서(102, 202)를 이용하여 처리된 사용자 데이터, 제어 정보, 무선 신호/채널 등을 베이스밴드 신호에서 RF 밴드 신호로 변환할 수 있다. 이를 위하여, 하나 이상의 송수신기(106, 206)는 (아날로그) 오실레이터 및/또는 필터를 포함할 수 있다.
도 11은 본 발명에 적용되는 무선 기기의 다른 예를 나타낸다. 무선 기기는 사용-예/서비스에 따라 다양한 형태로 구현될 수 있다.
도 11을 참조하면, 무선 기기(100, 200)는 도 10의 무선 기기(100,200)에 대응하며, 다양한 요소(element), 성분(component), 유닛/부(unit), 및/또는 모듈(module)로 구성될 수 있다. 예를 들어, 무선 기기(100, 200)는 통신부(110), 제어부(120), 메모리부(130) 및 추가 요소(140)를 포함할 수 있다. 통신부는 통신 회로(112) 및 송수신기(들)(114)을 포함할 수 있다. 예를 들어, 통신 회로(112)는 도 10의 하나 이상의 프로세서(102,202) 및/또는 하나 이상의 메모리(104,204) 를 포함할 수 있다. 예를 들어, 송수신기(들)(114)는 도 10의 하나 이상의 송수신기(106,206) 및/또는 하나 이상의 안테나(108,208)을 포함할 수 있다. 제어부(120)는 통신부(110), 메모리부(130) 및 추가 요소(140)와 전기적으로 연결되며 무선 기기의 제반 동작을 제어한다. 예를 들어, 제어부(120)는 메모리부(130)에 저장된 프로그램/코드/명령/정보에 기반하여 무선 기기의 전기적/기계적 동작을 제어할 수 있다. 또한, 제어부(120)는 메모리부(130)에 저장된 정보를 통신부(110)을 통해 외부(예, 다른 통신 기기)로 무선/유선 인터페이스를 통해 전송하거나, 통신부(110)를 통해 외부(예, 다른 통신 기기)로부터 무선/유선 인터페이스를 통해 수신된 정보를 메모리부(130)에 저장할 수 있다.
추가 요소(140)는 무선 기기의 종류에 따라 다양하게 구성될 수 있다. 예를 들어, 추가 요소(140)는 파워 유닛/배터리, 입출력부(I/O unit), 구동부 및 컴퓨팅부 중 적어도 하나를 포함할 수 있다. 이로 제한되는 것은 아니지만, 무선 기기는 로봇(도 9, 100a), 차량(도 9, 100b-1, 100b-2), XR 기기(도 9, 100c), 휴대 기기(도 9, 100d), 가전(도 9, 100e), IoT 기기(도 9, 100f), 디지털 방송용 단말, 홀로그램 장치, 공공 안전 장치, MTC 장치, 의료 장치, 핀테크 장치(또는 금융 장치), 보안 장치, 기후/환경 장치, AI 서버/기기(도 9, 400), 기지국(도 9, 200), 네트워크 노드 등의 형태로 구현될 수 있다. 무선 기기는 사용-예/서비스에 따라 이동 가능하거나 고정된 장소에서 사용될 수 있다.
도 11에서 무선 기기(100, 200) 내의 다양한 요소, 성분, 유닛/부, 및/또는 모듈은 전체가 유선 인터페이스를 통해 상호 연결되거나, 적어도 일부가 통신부(110)를 통해 무선으로 연결될 수 있다. 예를 들어, 무선 기기(100, 200) 내에서 제어부(120)와 통신부(110)는 유선으로 연결되며, 제어부(120)와 제1 유닛(예, 130, 140)은 통신부(110)를 통해 무선으로 연결될 수 있다. 또한, 무선 기기(100, 200) 내의 각 요소, 성분, 유닛/부, 및/또는 모듈은 하나 이상의 요소를 더 포함할 수 있다. 예를 들어, 제어부(120)는 하나 이상의 프로세서 집합으로 구성될 수 있다. 예를 들어, 제어부(120)는 통신 제어 프로세서, 어플리케이션 프로세서(Application processor), ECU(Electronic Control Unit), 그래픽 처리 프로세서, 메모리 제어 프로세서 등의 집합으로 구성될 수 있다. 다른 예로, 메모리부(130)는 RAM(Random Access Memory), DRAM(Dynamic RAM), ROM(Read Only Memory), 플래시 메모리(flash memory), 휘발성 메모리(volatile memory), 비-휘발성 메모리(non-volatile memory) 및/또는 이들의 조합으로 구성될 수 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (16)

  1. 제1, 제2 배경을 생성하는 단계;
    입력 영상과 제1 배경과의 차이에 기반하여 제1 전경을 얻고, 상기 입력 영상과 제2 배경과의 차이에 기반하여 제2 전경을 얻는 단계;
    제1, 제2 전경을 통해 공통으로 검출된 부분을 최종 전경으로 추출하고, 제2 전경을 통해서만 검출된 부분을 정지 전경으로 추출하는 단계;
    최종 전경과 정지 전경을 이용하여 실루엣 히스토리 이미지(silhouette history image)들을 생성하는 단계;
    다양한 제스쳐가 어노테이션된 실루엣 히스토리 이미지들을 이용하여 신경망 모델(Neural Network, NN)을 학습시키는 단계;
    를 포함하는, 제스쳐 분류기 학습 방법.
  2. 제1항에 있어서,
    제1 배경은 고정 시간동안 획득된 영상에 기반하여 형성되고, 제2 배경은 가변 시간동안 획득된 영상에 기반하여 형성되는 것을 특징으로 하는, 제스쳐 분류기 학습 방법.
  3. 제2항에 있어서,
    가변 시간은 획득된 영상에서 검출된 객체의 수에 기반하여 조절되는 것을 특징으로 하는, 제스쳐 분류기 학습 방법.
  4. 제3항에 있어서,
    검출된 객체의 수가 1 개 이상이면 가변 시간은 고정 시간보다 긴 시간으로 결정되는 것을 특징으로 하는, 제스쳐 분류기 학습 방법.
  5. 제4항에 있어서,
    검출된 객체의 수가 0 개 이면 제2 배경은 입력 영상의 직전 프레임으로 설정되는 것을 특징으로 하는, 제스쳐 분류기 학습 방법.
  6. 제1항에 있어서,
    제1, 제2 전경은 입력 영상과 제1 배경의 픽셀 값의 차이, 입력 영상과 제2 배경의 픽셀 값의 차이에 각각 기반하여 차이가 임계 값 이상인 픽셀들로 형성되는 것을 특징으로 하는, 제스쳐 분류기 학습 방법.
  7. 제6항에 있어서,
    상기 임계 값은 픽셀 별로 다르게 적용되는 것을 특징으로 하는, 제스쳐 분류기 학습 방법.
  8. 제7항에 있어서,
    상기 임계 값을 픽셀 별로 다르게 적용하기 위해 적응적 임계 마스크를 이용하며, 상기 적응적 임계 마스크는 입력 영상의 픽셀 값을 0 내지 25 사이의 값으로 정규화되어 생성되는 것을 특징으로 하는, 제스쳐 분류기 학습 방법.
  9. 제8항에 있어서,
    상기 적응적 임계 마스크에서, 임계 값은 입력 영상의 밝기 값이 클수록 작게 설정되고, 입력 영상의 밝기 값이 작을수록 크게 설정되는 것을 특징으로 하는, 제스쳐 분류기 학습 방법.
  10. 제1항에 있어서,
    실루엣 히스토리 이미지는 모션 히스토리 이미지에 전경 정보를 추가로 포함하는 것을 특징으로 하는, 제스쳐 분류기 학습 방법.
  11. 심층 신경망 기반의 제스쳐 분류기를 이용한 제스쳐 추론 방법에 있어서,
    이미지 센서를 통해 획득된 영상을 얻는 단계;
    상기 획득된 영상을 제1항 내지 제10항 중 어느 한 항에 따라 생성된 신경망 모델로 제공하는 단계;
    상기 신경망 모델의 출력에 기반하여, 영상에 포함된 객체의 제스쳐를 학습 데이터로 제공된 복수의 분류 레이블들 중 어느 하나에 상응하는 것으로 결정하는 단계;
    를 포함하는 제스쳐 추론 방법.
  12. 제1항 내지 제10항 중 어느 한 항에 따른 방법을 컴퓨터 시스템에서 실행하기 위한 프로그램이 기록된 컴퓨터 시스템이 판독 가능한 기록매체.
  13. 제11항에 따른 방법을 컴퓨터 시스템에서 실행하기 위한 프로그램이 기록된 컴퓨터 시스템이 판독가능한 기록매체.
  14. 하나 이상의 트랜시버; 하나 이상의 프로세서; 및 하나 이상의 프로세서와 연결되고 복수의 인스트럭션을 저장하는 하나 이상의 메모리를 포함하고,
    상기 인스터력선은 상기 하나 이상의 프로세서에 의해 실행되어, 하나 이상의 프로세서로 하여금 제1항 내지 제10항 중 어느 한 항에 따른 방법을 지원하는 것을 특징으로 하는, 제스쳐 분류기 학습 장치.
  15. 하나 이상의 트랜시버; 하나 이상의 프로세서; 및 하나 이상의 프로세서와 연결되고 복수의 인스트럭션을 저장하는 하나 이상의 메모리를 포함하고,
    상기 인스터력선은 상기 하나 이상의 프로세서에 의해 실행되어, 하나 이상의 프로세서로 하여금 제11항에 따른 방법을 지원하는 것을 특징으로 하는, 제스쳐 추론 장치.
  16. 하나 이상의 트랜시버; 하나 이상의 프로세서; 및 하나 이상의 프로세서와 연결되고 복수의 인스트럭션을 저장하는 하나 이상의 메모리를 포함하고,
    상기 인스터력선은 상기 하나 이상의 프로세서에 의해 실행되어, 하나 이상의 프로세서로 하여금 제1항 내지 제10항 중 어느 한 항에 따른 제스쳐 분류기 학습 방법에 따라 신경망 모델을 학습시키고, 제11항에 따른 방법을 통해 입력 영상에 포함된 객체의 제스쳐를 결정하는 것을 지원하는 것을 특징으로 하는, 제스쳐 추론 장치.
KR1020210073632A 2021-06-07 2021-06-07 제스처 분류기 학습방법 및 이를 이용한 제스처 추론 방법 KR20220165092A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210073632A KR20220165092A (ko) 2021-06-07 2021-06-07 제스처 분류기 학습방법 및 이를 이용한 제스처 추론 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210073632A KR20220165092A (ko) 2021-06-07 2021-06-07 제스처 분류기 학습방법 및 이를 이용한 제스처 추론 방법

Publications (1)

Publication Number Publication Date
KR20220165092A true KR20220165092A (ko) 2022-12-14

Family

ID=84438272

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210073632A KR20220165092A (ko) 2021-06-07 2021-06-07 제스처 분류기 학습방법 및 이를 이용한 제스처 추론 방법

Country Status (1)

Country Link
KR (1) KR20220165092A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230107097A1 (en) * 2021-10-06 2023-04-06 Fotonation Limited Method for identifying a gesture

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230107097A1 (en) * 2021-10-06 2023-04-06 Fotonation Limited Method for identifying a gesture
US11983327B2 (en) * 2021-10-06 2024-05-14 Fotonation Limited Method for identifying a gesture

Similar Documents

Publication Publication Date Title
US11113532B2 (en) Artificial intelligence apparatus for recognizing object and method therefor
US11216694B2 (en) Method and apparatus for recognizing object
US11699213B2 (en) Image-capturing device and method for controlling same
US10776926B2 (en) System and method for training object classifier by machine learning
CN111260665B (zh) 图像分割模型训练方法和装置
US20210104021A1 (en) Method and apparatus for processing image noise
KR102298541B1 (ko) 이미지 데이터에서 사용자를 인식하는 인공 지능 장치 및 그 방법
US11430124B2 (en) Visual object instance segmentation using foreground-specialized model imitation
US11776092B2 (en) Color restoration method and apparatus
US10706267B2 (en) Compact models for object recognition
US10671058B2 (en) Monitoring server, distributed-processing determination method, and non-transitory computer-readable medium storing program
CN106874906B (zh) 一种图片的二值化方法、装置及终端
CN108121350B (zh) 一种控制飞行器降落的方法以及相关装置
CN116363738A (zh) 一种基于多移动目标的人脸识别方法、系统及存储介质
CN111767831A (zh) 用于处理图像的方法、装置、设备及存储介质
CN116645917A (zh) Led显示屏亮度调节系统及其方法
KR20220165092A (ko) 제스처 분류기 학습방법 및 이를 이용한 제스처 추론 방법
EP3738305B1 (en) Electronic device and control method thereof
US20210110158A1 (en) Method and apparatus for estimating location in a store based on recognition of product in image
CN117237867A (zh) 基于特征融合的自适应场面监视视频目标检测方法和系统
KR20210048271A (ko) 복수 객체에 대한 자동 오디오 포커싱 방법 및 장치
CN107749942A (zh) 悬浮拍摄方法、移动终端及计算机可读存储介质
WO2023137923A1 (zh) 基于姿态指导的行人重识别方法、装置、设备及存储介质
CN116259083A (zh) 一种图像质量识别模型的确定方法和相关装置
KR20190106930A (ko) 지능형 디바이스 및 이를 이용한 프로젝션 타입의 정보 표시방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal