KR20210066774A - 멀티모달 기반 사용자 구별 방법 및 장치 - Google Patents

멀티모달 기반 사용자 구별 방법 및 장치 Download PDF

Info

Publication number
KR20210066774A
KR20210066774A KR1020210068386A KR20210068386A KR20210066774A KR 20210066774 A KR20210066774 A KR 20210066774A KR 1020210068386 A KR1020210068386 A KR 1020210068386A KR 20210068386 A KR20210068386 A KR 20210068386A KR 20210066774 A KR20210066774 A KR 20210066774A
Authority
KR
South Korea
Prior art keywords
user
modal
discrimination
region
uttering
Prior art date
Application number
KR1020210068386A
Other languages
English (en)
Inventor
사수다카르
김성원
김유리
김형준
오진환
이우승
이정화
이현철
임헌정
황재연
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020210068386A priority Critical patent/KR20210066774A/ko
Publication of KR20210066774A publication Critical patent/KR20210066774A/ko

Links

Images

Classifications

    • G06K9/00281
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • G06K9/00248
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 실시예는 다수의 사용자가 공존하는 환경에서 멀티모달 입력을 활용하여 현재 발화 중인 사용자를 감지하고, 이를 기반으로 맥락에 맞는 정보가 제공될 수 있도록 함으로써 사용자로 하여금 보다 유연하고 매끄러운 인공지능 서비스를 제공받을 수 있도록 하는 멀티모달 기반 사용자 구별 방법 및 장치에 관한 것이다.

Description

멀티모달 기반 사용자 구별 방법 및 장치{Method and Apparatus for Distinguishing User based on Multimodal}
본 실시예는 멀티모달 기반 사용자 구별 방법 및 장치에 관한 것이다. 더욱 상세하게는, 다수의 사용자가 공존하는 환경에서 멀티모달 입력을 활용하여 발화 중인 사용자를 구별할 수 있도록 하는 방법 및 장치에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
최근 디스플레이 및 카메라를 탑재한 인공지능 기기들이 다양한 회사(SKT NUGU Nemo, Amazon Echo Show/Look, Google Home Hub, Facebook Portal 등)에서 출시되고 있다. 음성 입출력을 기반으로 하는 기존의 인공지능 기기로부터 다양한 입출력이 가능한 멀티모달(Multimodal) 기기로 진화함에 따라 향상된 사용자 경험 및 새로운 사용자 경험을 제공하는 서비스의 출현이 예고되고 있다.
기존의 음성 기반 인공지능 스피커(SKT NUGU, Amazon Echo, Google Home 등)은 음성으로만 사용자로부터 정보를 받기에 음성 인식의 한계에 따라 제한된 사용자 경험을 제공하였다. 예를 들면 다수의 사용자가 있는 환경에서 현재 인공지능 스피커와 소통 중인 사용자를 실시간으로 구분하여 그 맥락에 맞는 정보를 제공하거나, 웨이크 업 워드(Wake up word) 없이 사용자의 시선만으로 휴면 상태에서 깨어나는 등의 동작은 음성 인식의 기술적, 본질적 한계에 따라 제한된다.
카메라 및 다양한 센서를 통한 멀티모달 인터페이스는 이러한 한계를 극복하여 보다 유연하고 능동적인 서비스를 제공할 것으로 기대되고 있다. 하지만 카메라로부터 입력되는 영상은 음성에 비해 정보의 양이 매우 방대하기 때문에 제공하고자하는 서비스에 따라 영상 정보를 효과적으로 처리하고 음성 정보와 유기적으로 결합하여 시너지를 낼 수 있는 기술의 개발이 필요하다.
본 실시예는 다수의 사용자가 공존하는 환경에서 멀티모달 입력을 활용하여 현재 발화 중인 사용자를 감지하고, 이를 기반으로 맥락에 맞는 정보가 제공될 수 있도록 함으로써 사용자로 하여금 보다 유연하고 매끄러운 인공지능 서비스를 제공받을 수 있도록 하는 데 그 목적이 있다.
본 실시예는, 적어도 하나의 사용자와 관련한 음성 신호 및 영상 프레임을 수집하는 수집부; 상기 영상 프레임 내 상기 각 사용자의 얼굴 영역을 추출하는 사용자 인식부; 상기 음성 신호를 분석하여 상기 음성 신호 내 사용자 발화 구간을 검출하는 발화 검출부; 상기 각 사용자의 얼굴 영역 내 입술 영역을 구분하고 상기 사용자별 입술 영역의 특징값 및 상기 사용자 발화 구간에 대한 특징값을 활용하여 상기 사용자 중 현재 처리해야하는 음성 명령의 대상인 발화 사용자를 구별하고, 상기 각 사용자의 얼굴 영역 내 눈 영역을 구분하고 상기 사용자별 눈 영역의 특징값을 활용하여 상기 사용자 중 응시 사용자를 구별하는 사용자 구별부; 및 상기 발화 사용자에 대한 구별 결과 및 상기 응시 사용자에 대한 구별 결과에 근거하여 상기 발화 사용자의 발화의도를 구분하는 수행부를 포함하는 것을 특징으로 하는 멀티모달 사용자 구별장치를 제공한다.
또한, 본 실시예의 다른 측면에 의하면, 적어도 하나의 사용자와 관련한 음성 신호 및 영상 프레임을 수집하는 과정; 상기 영상 프레임 내 상기 각 사용자의 얼굴 영역을 추출하는 과정; 상기 음성 신호를 분석하여 상기 음성 신호 내 사용자 발화 구간을 검출하는 과정; 상기 각 사용자의 얼굴 영역 내 입술 영역을 구분하고, 상기 사용자별 입술 영역의 특징값 및 상기 사용자 발화 구간에 대한 특징값을 활용하여 상기 사용자 중 현재 처리해야하는 음성 명령의 대상인 발화 사용자를 구별하는 과정; 상기 각 사용자의 얼굴 영역 내 눈 영역을 구분하고, 상기 사용자별 눈 영역의 특징값을 활용하여 상기 사용자 중 응시 사용자를 구별하는 과정; 및 상기 발화 사용자에 대한 구별 결과 및 상기 응시 사용자에 대한 구별 결과에 근거하여 상기 발화 사용자의 발화의도를 구분하는 과정을 포함하는 것을 특징으로 하는 멀티모달 사용자 구별방법을 제공한다.
또한, 본 실시예의 다른 측면에 의하면, 멀티모달 사용자 구별방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.
본 실시예에 따르면, 다수의 사용자가 공존하는 환경에서 멀티모달 입력을 활용하여 현재 발화 중인 사용자를 감지하고, 이를 기반으로 맥락에 맞는 정보가 제공될 수 있도록 함으로써 사용자로 하여금 보다 유연하고 매끄러운 인공지능 서비스를 제공받을 수 있도록 하는 효과가 있다.
또한, 본 실시예에 따르면, 웨이크 업 워드없이 사용자의 시선만으로 휴면 상태에서 깨어나는 등의 종래의 음성 인식의 기술적, 본질적 한계를 극복 가능한 보다 새로운 인공지능 서비스를 사용자로 하여금 경험할 수 있도록 하는 효과가 있다.
도 1은 본 실시예에 따른 멀티모달 사용자 구별 방법에 따른 서비스 시나리오를 설명하기 위한 예시도이다.
도 2는 본 실시예에 따른 멀티모달 사용자 구별장치를 개략적으로 나타낸 블록 구성도이다.
도 3은 본 실시예에 따른 얼굴 랜드마크 포인트를 예시한 예시도이다.
도 4는 본 실시예에 따른 사용자 발화 구간을 설명하기 위한 예시도이다.
도 5는 본 실시예에 따른 응시 사용자 구별방법을 설명하기 위한 도면이다.
도 6은 본 실시예에 따른 멀티모달 사용자 구별 방법에 대한 개요도이다.
도 7은 본 실시예에 따른 멀티모달 사용자 구별 방법을 설명하기 위한 순서도이다.
이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
최근 디스플레이 및 카메라를 탑재한 인공지능 기기들이 다양한 회사에서 출시되고 있다. 음성 입출력을 기반으로 하는 기존의 인공지능 기기로부터 다양한 입출력이 가능한 멀티모달(Multimodal) 기기로 진화함에 따라 향상된 사용자 경험 및 새로운 사용자 경험을 제공하는 서비스의 출현이 예고되고 있다.
본 실시예의 경우 이러한, 멀티모달 입력을 활용하여, 음성 인식의 한계에 따라 제한된 사용자 경험만을 제공하는 기존의 음성 기반 인공지능 서비스의 문제점을 극복 가능한 Multi-Modal, Multi-Domain, Multi-Party Speaker Recognition 시스템을 구축하고, 이를 통해 보다 유연하고 매끄러운 인공지능 서비스 사용자 경험을 제공하고자 한다.
보다 자세하게는, 다수의 사용자가 공존하는 환경에서 단일 인공지능 기기가 발화 중인 사용자를 구분하여 맥락에 맞는 서비스를 제공할 수 있도록 하는 데 그 목적이 있다.
도 1은 본 실시예에 따른 멀티모달 사용자 구별 방법에 따른 서비스 시나리오를 설명하기 위한 예시도이다.
도 1은 두 사용자(사용자 A와 사용자 B)가 인공지능 기기에게 각자에 대한 질문을 하고 인공지능 기기는 멀티모달 입력 정보를 활용하여 각 사용자에게 알맞게 응답하는 예시 시나리오를 나타낸다
각 사용자의 발화시 인공지능 기기는 발화 사용자를 구분하고 해당 사용자의 발화 대상이 스스로인지를 판단한다.
사용자 A의 경우 최초 “안녕”이라는 말을 할 때 그 대상이 인공지능 기기라고 판단하여 기기가 응답하였으며, 사용자 B의 경우에는 응시(Gaze)에 반응하여 응답 대기 모드로 전환한다.
이러한 시나리오 수행에는 다음의 두 가지 기능이 요구된다.
1) 발화 사용자 인식(Speaker Recognition)
2) 응시 사용자 인식(Gaze Detection)
본 실시예에 따른 멀티모달 사용자 구별 방법에 의하는 경우 멀티모달 입력 정보를 활용하여 상기의 두 가지 동작을 동시에 수행할 수 있다.
도 2는 본 실시예에 따른 멀티모달 사용자 구별장치를 개략적으로 나타낸 블록 구성도이다.
본 실시예에 따른 멀티모달 사용자 구별장치(200)는 영상 프레임 및 음성 신호와 같은 멀티모달 입력 정보의 분석을 통해 사용자의 발화 상태를 인식하고, 복수의 사용자를 구분하여 입력된 명령을 병렬로 처리하는 장치를 의미한다.
이러한, 멀티모달 사용자 구별장치(200)는 바람직하게는 인공지능(AI) 서비스 분야에 적용될 수 있으며, 이 경우 멀티모달 사용자 구별장치(200)는 인공지능 기기 자체이거나, 인공지능 기기 자체와 연동되는 외부 기기의 형태로 구현될 수 있다.
이하에서는 본 실시예에 따른 멀티모달 사용자 구별장치(200)가 인공지능 서비스 분야에서 적용된 것으로 예시하여 설명하나 반드시 이에 한정되는 것은 아니다.
본 실시예에 따른 멀티모달 사용자 구별장치(200)는 수집부(210), 사용자 인식부(220), 발화 검출부(230), 사용자 구별부(240), 모드 전환부(250) 및 수행부(260)를 구비한다. 한편, 도 2의 경우, 본 실시예에 따른 멀티모달 사용자 구별방법에 따른 인공지능 서비스를 제공함에 있어서, 기본이 되는 구성요소를 예시적으로 도시한 것으로서, 이러한, 멀티모달 사용자 구별장치(200)는 도시한 것보다 많거나 적은 구성요소 또는 상이한 구성요소의 구성(Configuration)을 가질 수 있음을 인식하여야 한다.
수집부(210)는 영상 촬영장치 및 마이크와 통신을 수행하며, 이를 통해, 영상 촬영장치 및 마이크 각각으로부터 취득된 영상 프레임 및 음성 신호를 수집하는 장치를 의미한다.
본 실시예에 있어서, 수집부(210)는 다수의 사용자가 공존하는 환경에서 현재 음성 명령의 대상이 되는 발화 사용자를 포함한 적어도 하나의 사용자와 관련한 음성 신호 및 영상 프레임을 수집한다. 즉, 수집부(210)는 발화 사용자로부터의 음성 명령에 대응되는 음성 신호 및 발화 사용자 및 주변의 다른 사용자를 포함한 영상 프레임을 수집할 수 있다. 여기서, 영상 프레임 내에는 영상 프레임, 해당 영상 프레임에 대한 타임 스탬프 등의 정보가 포함될 수 있다. 한편, 본 실시예에서는 영상 프레임 내에 포함되는 정보들에 대해서 특정 데이터로 한정하지는 않는다.
수집부(210)는 영상 촬영장치 및 마이크로부터 영상 프레임 및 음성 신호를 실시간으로 수신할 수 있다. 예컨대, 입력부(500)는 일정 크기의 영상을 초당 기 설정된 프레임 단위로 수신할 수 있다. 다른 실시예에서, 입력부(500)는 영상 촬영장치(400)에서 기 촬영되어 저장된 영상에 대한 영상 프레임을 획득할 수도 있다.
또한, 본 실시예에서는 수집부(210)가 영상 촬영장치 및 마이크로부터 영상 프레임 및 음성 신호를 획득한다고 명시하였지만 반드시 이에 한정되지 않고, 수집부(210) 자체에 영상을 촬영하기 위한 모듈 및 음성 신호를 수집하기 위한 모듈이 구비될 수도 있다.
사용자 인식부(220)는 영상 프레임 내 각 사용자를 인식하고, 각 사용자의 얼굴 영역을 추출하는 기능을 수행한다.
본 실시예에 있어서, 사용자 인식부(220)는 영상 촬영장치를 통해 입력된 영상 프레임에서 다수의 사용자를 새로 감지하거나, 이전 프레임에서의 정보를 바탕으로 추적하여 각 사용자를 인식할 수 있다.
사용자 인식부(220)는 인식된 각 사용자의 얼굴 영역을 잘라(Crop)내어 출력한다. 여기서, 사용자 인식부(220)가 영상 프레임 내 각 사용자를 인식하는 방법 및 인식된 각 사용자의 얼굴 영역을 추출하는 방법은 종래의 영상 인식 분야에서 일반적인 바 자세한 설명은 생략하도록 한다. 본 실시예에서는 이에 대해 특정 방식으로 한정하지 않는다.
발화 검출부(230)는 음성 신호를 분석하여 음성 신호 내 사용자 발화 구간을 검출하는 기능을 수행한다.
본 실시예에 있어서, 발화 검출부(230)는 음성 신호 내 음성과 비음성 구간을 검출하고, 이를 기반으로 자연어 발화 여부를 확인하는 음성 검출모듈(VAD: Voice Activity Detector)로 구현되는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
도 4를 참조하면, 본 실시예에 따른 발화 검출부(230)가 음성 신호 내 음성 명령에 상응하는 문장의 발화 시작 시각부터 발화종료 시각까지의 구간을 사용자 발화 구간으로서 검출하는 것을 확인할 수 있다.
사용자 구별부(240)는 멀티 모달 입력을 활용하여 사용자 인식 기능을 수행하는 장치를 의미한다. 즉, 사용자 구별부(240)는 다수의 사용자가 공존하는 환경에서 음성 및 영상 정보를 동시 활용하여 발화 중인 사용자를 실시간으로 감지하거나, 사용자의 시선을 감지하여 휴면 상태에서 깨어나는 등의 사용자 인식 기능을 수행한다.
이하, 본 실시예에 따른 사용자 구별부(240)가 멀티 모달 입력을 활용하여 발화 사용자를 구별하는 방법에 대해 설명하도록 한다.
사용자 구별부(240)는 사용자 인식부(220)를 통해 추출된 각 사용자의 얼굴 영역 내 입술 영역을 구분하고, 사용자별 입술 영역의 특징값 및 발화 검출부(230)에서 검출된 사용자 발화 구간에 대한 특징값을 활용하여 복수의 사용자 중 현재 처리해야하는 음성 명령의 대상인 발화 사용자를 구별한다.
본 실시예에 있어서, 사용자 구별부(240)는 각 사용자별 얼굴 영역에 상응하는 얼굴 랜드마크 포인트를 추출하고, 얼굴 랜드마크 포인트 중 입술 영역에 상응하는 입술 랜드마크 포인트를 기반으로 입술 사이의 거리정보를 산출하여 입술 영역에 대한 특징값으로서 활용할 수 있다.
이를 위해, 사용자 구별부(240)는 사용자별 얼굴 랜드마크를 추출하는 복수의 얼굴 랜드마크 추출 모듈을 포함하여 구현될 수 있다. 또한, 사용자 구별부(240)는 발화 검출부(230)의 결과가 병렬 전달되도록 구현되며, 발화 검출부(230)의 결과 및 얼굴 랜트마크 포인트를 전달받아 사용자 인식을 수행하는 수행 모듈이 포함될 수 있다.
사용자 구별부(240)는 입술 랜드마크 포인트를 위치에 따라 복수의 내측(Inner) 랜드마크 포인트 쌍(Pair) 및 복수의 외측(Outer) 랜드마크 포인트 쌍으로 분류하여 정의한다. 여기서, 내측은 입술 사이 영역으로서, 윗 입술의 아랫쪽과 아랫 입술의 위쪽 사이의 영역을 의미한다. 외측은 윗 입술의 위쪽과 아랫 윕술의 아랫쪽 사이의 영역을 의미한다.
예컨대, 도 3을 참조하면, 사용자 구별부(240)는 사용자별로 매 영상 프레임마다 얼굴 랜드마크 포인트로부터 안쪽 입 영역(49 ~ 68 Point)을 구분한다. 이를 바탕으로 입술 사이의 거리를 구하기 위한 내측 랜드마크 포인트 쌍 (62, 68), (63, 67), (64, 66), (61, 65)과 외측 랜드마크 포인트 쌍 (51, 59), (52, 58), (53, 57), (49, 55)을 정의한다. 이때, 매 영상 프레임은 카메라로부터 캡쳐된 타임 스템프 정보를 갖는다.
사용자 구별부(240)는 내측 랜드마크 포인트 쌍 및 외측 랜드마크 포인트 쌍을 기반으로 입술 사이의 거리정보를 산출한다. 즉, 사용자 구별부(240)는 내측 랜드마크 포인트 쌍별 두 랜드마크 포인트 사이의 거리정보 및 외측 랜드마크 포인트 쌍별 랜드마크 포인트 사이의 거리정보를 기반으로 입술 사이의 거리정보를 산출할 수 있다.
예컨대, 사용자 u의 k번째 랜드마크 포인트의 위치를
Figure pat00001
, 두 랜드마크 포인트 사이의 거리를
Figure pat00002
라 할때 수학식 1과 같이 사용자 u의 입술 사이의 거리를 구한다.
Figure pat00003
수학식 1에서 α와 β는 내측 랜드마크 포인트 쌍간의 거리와 외측 랜드마크 포인트 쌍간의 거리에 따른 가중치를 적용하기 위한 파라미터로 0과 1사이의 값을 가진다.
이때, M이 전체 쌍의 개수일 때 α와 β에 대하여 각각 수학식 2와 3과 같이 설정하여 내측 랜드마크 포인트 쌍에 더 높은 가중치를 줄 수 있다.
Figure pat00004
Figure pat00005
사용자 구별부(240)는 발화 검출부(230)에서 검출된 사용자 발화 구간에 상응하는 타임 스템프 정보를 가진 매칭 영상 프레임을 추출한다.
사용자 구별부(240)는 매칭 영상 프레임에 대해 산출된 사용자별 입술 영역에 대한 특징값을 기반으로 매칭 영상 프레임별 각 사용자의 입술 사이의 거리정보에 대한 상관도를 계산하고, 상관도에 기반하여 발화 사용자를 구별한다.
예컨대, 본 실시예에 있어서, 사용자 구별부(240)는 매 매칭 영상 프레임별로 매칭 영상 프레임 내 복수의 사용자 중 어떤 사용자가 발화하고 있는지를 판단하고, 이를 기반으로 발화 사용자를 구별할 수 있다.
즉, 사용자 구별부(240)는 사용자별로 매칭 영상 프레임에 대하여 입술 사이의 거리정보에 대한 표준편차가 기 설정된 임계치 이상인 경우에 해당하는 발화 프레임을 선별하고, 발화 프레임의 갯수가 가장 많은 사용자를 발화 사용자로서 판단할 수 있다.
보다 자세하게는, 사용자 구별부(240)는 사용자별로 n번째 영상 프레임(=매칭 영상 프레임)으로부터 최근 W(ex: 10)개의 영상 프레임의 입술 거리의 표준편차가 기 설정된 제1 임계치 이상일 때 해당 사용자의 n번째 영상 프레임을 발화 프레임으로 판단하고, 사용자 발화 구간 내에서 가장 많은 발화 프레임을 가진 사용자를 해당 사용자 발화 구간의 발화자로 판단한다. 이때, 가장 많은 발화 프레임을 가진 사용자의 발화 프레임 수가 기 설정된 제2 임계치 이하일때에는 아무도 발화하지 않는다고 판단한다.
i번째 프레임에서 사용자 u의 입술 거리를 du,i라 할 때 이를 수식으로 표현하면 수학식 4와 같다.
Figure pat00006
사용자 u의 n번째 프레임에서의 발화 여부는 수학식 5와 같이 나타낼 수 있다.
Figure pat00007
수학식 5에서는 사용자 u의 n번째 프레임이 발화 프레임으로서 판단될 시 나머지 사용자들에 대해서는 발화 사용자로서 판단하지 않는 것으로 도시하였으나, 이는 일 실시예에 불과하며, 입술 거리의 표준편차가 제1 임계치 이상인 다른 사용자 또한 발화 사용자로서 추가 판단될 수 있다.
n번째 프레임의 발화 사용자는 수학식 6과 같이 나타낼 수 있다.
Figure pat00008
다른 실시예에 있어서, 사용자 구별부(240)는 사용자 발화 구간 내에서 가장 큰 입술 거리의 표준편차를 가지는 사용자를 발화 사용자로 판단할 수 있다. 이때, 사용자 구별부(240)는 가장 큰 표준편차가 기 설정된 제3 임계치 이하이면 아무도 발화하지 않는다고 판단한다.
발화구간 stdu 및 n번째 프레임의 발화 사용자를 각각 수학식으로 나타내면 수학식 7,8과 같다.
Figure pat00009
Figure pat00010
이하, 본 실시예에 따른 사용자 구별부(240)가 응시 사용자를 구별하는 방법에 대해 설명하도록 한다.
사용자 구별부(240)는 각 사용자별 얼굴 랜드마크 포인트 중 눈 영역에 상응하는 랜드마크 포인트를 산출하고, 이를 기반으로 산출되는 각 사용자의 홍채(Iris) 영역과 공막(Sclera) 영역 사이의 거리정보에 대한 상관도를 활용하여 복수의 사용자 중 응시 사용자를 구별한다.
보다 자세하게는, 사용자 구별부(240)는 사용자별로 매 영상 프레임마다 얼굴 랜드마크 포인트로부터 왼쪽 눈 영역(ex: 도 3의 37 ~ 42번 포인트)와 오른쪽 눈 영역(ex: 도 3의 43 ~ 48번 포인트)을 구분한다.
사용자 구별부(240)는 각 눈 영역의 랜드마크 포인트를 연결한 윤곽선 내부를 공막 영역으로 잘라내어 정의하고, 공막영역 내 픽셀을 그레이 스케일로 변환한다.
사용자 구별부(240)는 각 눈별로 공막영역 내의 홍채 영역을 구분하기 위해 그레이 스케일 픽셀을 이진화한다. 이때, 이진화의 기준이 되는 이진화 임계치가 필요하며, 이 임계치는 최초 사용자 얼굴 등록 시 얻은 공막 대 홍채 비율(ISR: Iris-to-Sclera Ratio)을 바탕으로 가장 비슷한 ISR을 가지는 값으로 설정한다. 이진화 임계치를 결정하는 알고리즘에 대한 소스 코드는 도 5와 같다. 이 알고리즘은 왼쪽 눈과 오른쪽 눈에 대하여 별도로 수행된다.
사용자 구별부(240)는 양쪽 눈 모두 홍채영역의 무게 중심과 공막영역의 무게 중심의 거리가 기 설정된 제4 임계치 이하이면 해당 사용자를 응시 사용자로서 판단한다.
본 실시예에 있어서, 사용자 구별부(240)는 응시 사용자에 대한 구별결과에 근거하여 기기의 동작 모드가 전환되도록 제어한다. 예컨대, 사용자 구별부(240)는 응시 사용자의 존재가 확인되는 경우, 기기의 동작모드가 비활성화 상태에서 활성화 상태로의 전환되도록 하는 모드 동작명령을 모드 전환부(250)로 제공할 수 있다.
또한, 사용자 구별부(240)는 인식된 발화 사용자가 인공지능 기기를 응시할 때에만 발화 문장에 대한 처리가 이루어질 수 있도록 제어한다. 예컨대, 사용자 구별부(240)는 발화 사용자가 응시 사용자가 동일한 경우에 한해 발화 사용자에 대한 정보를 수행부(260)로 제공함으로써 수행부(260)로 하여금 발화 문장에 대한 선택적 처리가 이루어질 수 있도록 한다.
모드 전환부(250)는 기기의 동작모드를 기 설정된 조건에 따라 비활성화 상태에서 활성화 상태로 혹은 활성화 상태에서 비활성화 상태로 전환하는 기능을 수행한다.
본 실시예에 있어서, 모드 전환부(250)는 사용자의 응시 여부가 확인되는 경우 기기의 상태를 비활성화 상태에서 활성화 상태로 전환할 수 있다.
수행부(260)는 다수의 사용자가 있는 환경에서 사용자 구별부(240)를 통해 발화 사용자가 특정되면 음성 신호 내 해당 발화 사용자의 발화의도를 구분하고, 이를 기반으로 맥락에 맞는 정보를 제공하는 기능을 수행한다. 이러한, 수행부(260)는 바람직하게는 자연어 처리/이해 및 응답을 담당하는 Dialog Manager일 수 있다.
수행부(260)는 복수의 다이얼로그 인스턴스(Dialog Instance)를 관리하며 각 대화는 발화자의 ID로 구분된다. 따라서, 상기의 발화 사용자 인식 방법을 통해 발화 사용자가 특정되면 다이얼로그 인스턴스를 특정할 수 있으며, 만일 해당 사용자의 ID에 매칭되는 다이얼로그 인스턴스가 없는 경우 새로운 다이얼로그 인스턴스를 생성한다.
이러한, 기본 동작에서 확장하여, 인식된 발화 사용자가 인공지능 기기를 응시할 때에만 발화된 문장을 전달받어 사용자의 발화 의도를 구분할 수 있고, 다수의 사용자가 같은 도메인에서 대화를 진행하는 다이얼로그 인스턴스도 생성/관리하여 해당 대화 참여자가 발화할때 그 인스턴스에 발화 문장을 전달할 수 있다.
도 6은 본 실시예에 따른 멀티모달 사용자 구별 방법에 대한 개요도이다.
종래의 기술과 차별되는 본 발명의 특징을 멀티모달 입력을 활용하여 발화 사용자 인식 기능 및 응시 사용자 인식 기능을 동시에 수행하는 동작에 있다.
도 6을 참조하면, 본 실시예에 따른 멀티모달 사용자 구별 방법에 의하는 경우 먼저 카메라를 통해 입력된 영상 프레임에서 다수의 사용자의 얼굴을 새로 감지하거나 이전 프레임에서의 정보를 바탕으로 추적하여 각 사용자를 인식한다.
이후, 각 사용자 얼굴 영역을 잘라내어 얼굴 랜드마크 포인트를 추출하는 모듈로 전달한다.
동시에 마이크를 통해 입력된 음성 신호는 Speech-to-Text(STT)를 거쳐 자연어 처리/이해 및 응답을 담당하는 Dialog Manager로 전달되는 과정 외에 자연어 발화 여부를 확인하는 Voice Activity Detector(VAD)로 병렬 전달된다.
이렇게 추출된 VAD 결과 및 얼굴 랜드마크 포인트는 통합되어 발화 사용자 인식과 응시 사용자 인식을 동시 수행하는 모듈로 전달되고, 해당 인식 정보는 Dialog Manager로 전달되어 대화의 도메인을 구분하여 알맞은 응답을 도출한다.
도 7은 본 실시예에 따른 멀티모달 사용자 구별 방법을 설명하기 위한 순서도이다.
멀티모달 사용자 구별장치(200)는 영상 촬영장치 및 마이크 각각으로부터 취득된 영상 프레임 및 음성 신호를 수집한다(S702).
멀티모달 사용자 구별장치(200)는 단계 S702의 영상 프레임 내 각 사용자를 인식하고, 각 사용자의 얼굴 영역을 추출한다(S704).
멀티모달 사용자 구별장치(200)는 단계 S702의 음성 신호를 분석하여 음성 신호 내 사용자 발화 구간을 검출한다(S706). 단계 S706에서 멀티모달 사용자 구별장치(200)는 음성 신호 내 음성 명령에 상응하는 문장의 발화 시작 시각부터 발화종료 시각까지의 구간을 사용자 발화 구간으로서 검출한다.
멀티모달 사용자 구별장치(200)는 단계 S704에서 추출된 각 사용자의 얼굴 영역 내 입술 영역을 구분한다(S708). 단계 S708에서 멀티모달 사용자 구별장치(200)는 각 사용자별 얼굴 영역에 상응하는 얼굴 랜드마크 포인트를 추출하고, 얼굴 랜드마크 포인트 중 입술 영역에 상응하는 입술 랜드마크 포인트를 추출한다.
멀티모달 사용자 구별장치(200)는 단계 S708의 사용자별 입술 영역의 특징값 및 단계 S706의 사용자 발화 구간에 대한 특징값을 활용하여 발화 사용자를 구별한다(S710). 단계 S710에서 멀티모달 사용자 구별장치(200)는 사용자 발화 구간에 상응하는 타임 스템프 정보를 가진 매칭 영상 프레임에 대해 산출된 사용자별 입술 영역에 대한 특징값을 기반으로 매칭 영상 프레임별 각 사용자의 입술 사이의 거리정보에 대한 상관도를 계산하고, 상관도에 기반하여 발화 사용자를 구별한다.
단계 S710에서 멀티모달 사용자 구별장치(200)는 각 사용자별 얼굴 랜드마크 포인트 중 눈 영역에 상응하는 랜드마크 포인트를 산출하고, 이를 기반으로 산출되는 각 사용자의 홍채(Iris) 영역과 공막(Sclera) 영역 사이의 거리정보에 대한 상관도를 활용하여 복수의 사용자 중 응시 사용자를 구별한다.
멀티모달 사용자 구별장치(200)는 응시 사용자에 대한 구별결과에 근거하여 기기의 동작 모드가 전환되도록 제어할 수 있다.
또한, 멀티모달 사용자 구별장치(200)는 인식된 발화 사용자가 인공지능 기기를 응시하고 있는 것으로 판단된 경우에 한해 발화 문장에 대한 처리가 이루어질 수 있도록 제어할 수 있다.
여기서, 단계 S702 내지 S710은 앞서 설명된 멀티모달 사용자 구별장치(200)의 각 구성요소의 동작에 대응되므로 더 이상의 상세한 설명은 생략한다.
도 7에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 7에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 7은 시계열적인 순서로 한정되는 것은 아니다.
전술한 바와 같이 도 7에 기재된 멀티모달 사용자 구별 방법은 프로그램으로 구현되고 컴퓨터의 소프트웨어를 이용하여 읽을 수 있는 기록매체(CD-ROM, RAM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등)에 기록될 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
200: 멀티모달 사용자 구별장치 210: 수집부
220: 사용자 인식부 230: 발화 검출부
240: 사용자 구별부 250: 모드 전환부
260: 수행부

Claims (13)

  1. 적어도 하나의 사용자와 관련한 음성 신호 및 영상 프레임을 수집하는 수집부;
    상기 영상 프레임 내 상기 각 사용자의 얼굴 영역을 추출하는 사용자 인식부;
    상기 음성 신호를 분석하여 상기 음성 신호 내 사용자 발화 구간을 검출하는 발화 검출부;
    상기 각 사용자의 얼굴 영역 내 입술 영역을 구분하고 상기 사용자별 입술 영역의 특징값 및 상기 사용자 발화 구간에 대한 특징값을 활용하여 상기 사용자 중 현재 처리해야하는 음성 명령의 대상인 발화 사용자를 구별하고, 상기 각 사용자의 얼굴 영역 내 눈 영역을 구분하고 상기 사용자별 눈 영역의 특징값을 활용하여 상기 사용자 중 응시 사용자를 구별하는 사용자 구별부; 및
    상기 발화 사용자에 대한 구별 결과 및 상기 응시 사용자에 대한 구별 결과에 근거하여 상기 발화 사용자의 발화의도를 구분하는 수행부
    를 포함하는 것을 특징으로 하는 멀티모달 사용자 구별장치.
  2. 제 1항에 있어서,
    상기 발화 검출부는,
    상기 음성 신호 내 상기 음성 명령에 상응하는 문장의 발화 시작 시각부터 발화 종료 시각까지의 구간을 상기 사용자 발화 구간으로서 검출하는 것을 특징으로 하는 멀티모달 사용자 구별장치.
  3. 제 1항에 있어서,
    상기 사용자 구별부는,
    상기 각 사용자별 상기 얼굴 영역에 상응하는 얼굴 랜드마크 포인트를 추출하고, 상기 얼굴 랜드마크 포인트 중 상기 입술 영역에 상응하는 입술 랜드마크 포인트를 기반으로 입술 사이의 거리정보를 산출하여 상기 입술 영역에 대한 특징값으로서 활용하는 것을 특징으로 하는 멀티모달 사용자 구별장치.
  4. 제 3항에 있어서,
    상기 사용자 구별부는,
    상기 입술 랜드마크 포인트를 위치에 따라 복수의 내측(Inner) 랜드마크 포인트 쌍(Pair) 및 복수의 외측(Outer) 랜드마크 포인트 쌍으로 분류하여 정의하고, 상기 내측 랜드마크 포인트 쌍 및 상기 외측 랜드마크 포인트 쌍을 기반으로 상기 입술 사이의 거리정보를 산출하는 것을 특징으로 하는 멀티모달 사용자 구별장치.
  5. 제 4항에 있어서,
    상기 사용자 구별부는,
    상기 내측 랜드마크 포인트 쌍별 랜드마크 포인트 사이의 거리정보 및 상기 외측 랜드마크 포인트 쌍별 랜드마크 포인트 사이의 거리정보를 기반으로 상기 입술 사이의 거리정보를 산출하는 것을 특징으로 하는 멀티모달 사용자 구별장치.
  6. 제 1항에 있어서,
    상기 사용자 구별부는,
    상기 사용자 발화 구간에 상응하는 매칭 영상 프레임 및 상기 매칭 영상 프레임에 대해 산출된 상기 사용자별 입술 영역에 대한 특징값을 기반으로 상기 매칭 영상 프레임별 상기 각 사용자의 입술 사이의 거리정보에 대한 상관도를 계산하고, 상기 상관도에 기반하여 상기 발화 사용자를 구별하는 것을 특징으로 하는 멀티모달 사용자 구별장치.
  7. 제 6항에 있어서,
    상기 사용자 구별부는,
    상기 사용자별로 상기 매칭 영상 프레임에 대하여 상기 입술 사이의 거리정보에 대한 표준편차가 기 설정된 임계치 이상인 경우에 해당하는 발화 프레임을 선별하고, 상기 발화 프레임의 갯수가 가장 많은 사용자를 상기 발화 사용자로서 판단하는 것을 특징으로 하는 멀티모달 사용자 구별장치.
  8. 제 6항에 있어서,
    상기 사용자 구별부는,
    상기 사용자별로 상기 매칭 영상 프레임에 대하여 상기 입술 사이의 거리정보에 대한 표준편차를 산출하고, 상기 표준편차가 최대인 사용자를 상기 발화 사용자로서 판단하는 것을 특징으로 하는 멀티모달 사용자 구별장치.
  9. 제 1항에 있어서,
    상기 사용자 구별부는,
    상기 각 사용자별 상기 얼굴 영역에 상응하는 얼굴 랜드마크 포인트를 추출하고, 상기 얼굴 랜드마크 포인트 중 눈 영역에 상응하는 랜드마크 포인트를 기반으로 산출된 상기 각 사용자의 홍채(Iris) 영역과 공막(Sclera) 영역 사이의 거리정보에 대한 상관도를 활용하여 상기 사용자 중 응시 사용자를 구별하는 것을 특징으로 하는 멀티모달 사용자 구별장치.
  10. 제 1항에 있어서,
    상기 사용자 구별부는,
    상기 응시 사용자에 대한 구별결과에 근거하여 기기 동작 모드가 비활성화 상태에서 활성화 상태로 전환되도록 제어하는 것을 특징으로 하는 멀티모달 사용자 구별장치.
  11. 제 1항에 있어서,
    상기 사용자 구별부는,
    상기 발화 사용자와 상기 응시 사용자가 동일한 경우 상기 발화 사용자에 대한 정보를 선택적으로 상기 수행부로 출력하는 것을 특징으로 하는 특징으로 하는 멀티모달 사용자 구별장치.
  12. 적어도 하나의 사용자와 관련한 음성 신호 및 영상 프레임을 수집하는 과정;
    상기 영상 프레임 내 상기 각 사용자의 얼굴 영역을 추출하는 과정;
    상기 음성 신호를 분석하여 상기 음성 신호 내 사용자 발화 구간을 검출하는 과정;
    상기 각 사용자의 얼굴 영역 내 입술 영역을 구분하고, 상기 사용자별 입술 영역의 특징값 및 상기 사용자 발화 구간에 대한 특징값을 활용하여 상기 사용자 중 현재 처리해야하는 음성 명령의 대상인 발화 사용자를 구별하는 과정;
    상기 각 사용자의 얼굴 영역 내 눈 영역을 구분하고, 상기 사용자별 눈 영역의 특징값을 활용하여 상기 사용자 중 응시 사용자를 구별하는 과정; 및
    상기 발화 사용자에 대한 구별 결과 및 상기 응시 사용자에 대한 구별 결과에 근거하여 상기 발화 사용자의 발화의도를 구분하는 과정
    을 포함하는 것을 특징으로 하는 멀티모달 사용자 구별방법.
  13. 제 12항에 의한 멀티모달 사용자 구별방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.
KR1020210068386A 2019-10-02 2021-05-27 멀티모달 기반 사용자 구별 방법 및 장치 KR20210066774A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210068386A KR20210066774A (ko) 2019-10-02 2021-05-27 멀티모달 기반 사용자 구별 방법 및 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190121989A KR102265874B1 (ko) 2019-10-02 2019-10-02 멀티모달 기반 사용자 구별 방법 및 장치
KR1020210068386A KR20210066774A (ko) 2019-10-02 2021-05-27 멀티모달 기반 사용자 구별 방법 및 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020190121989A Division KR102265874B1 (ko) 2019-10-02 2019-10-02 멀티모달 기반 사용자 구별 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20210066774A true KR20210066774A (ko) 2021-06-07

Family

ID=75439987

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020190121989A KR102265874B1 (ko) 2019-10-02 2019-10-02 멀티모달 기반 사용자 구별 방법 및 장치
KR1020210068386A KR20210066774A (ko) 2019-10-02 2021-05-27 멀티모달 기반 사용자 구별 방법 및 장치

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020190121989A KR102265874B1 (ko) 2019-10-02 2019-10-02 멀티모달 기반 사용자 구별 방법 및 장치

Country Status (1)

Country Link
KR (2) KR102265874B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024085290A1 (ko) * 2022-10-21 2024-04-25 엘지전자 주식회사 인공지능 기기 및 그 동작 방법
CN117519488B (zh) * 2024-01-05 2024-03-29 四川中电启明星信息技术有限公司 一种对话机器人的对话方法及其对话系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140035109A (ko) * 2012-09-13 2014-03-21 한국생산기술연구원 음성 인식 시스템 및 방법
KR102495234B1 (ko) * 2017-09-06 2023-03-07 삼성전자주식회사 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
KR20190059046A (ko) * 2017-11-22 2019-05-30 (주)알앤디테크 음성 인식 시스템

Also Published As

Publication number Publication date
KR20210039583A (ko) 2021-04-12
KR102265874B1 (ko) 2021-06-15

Similar Documents

Publication Publication Date Title
JP4557919B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US10013977B2 (en) Smart home control method based on emotion recognition and the system thereof
EP3614377A1 (en) Object identifying method, computer device and computer readable storage medium
US8416998B2 (en) Information processing device, information processing method, and program
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
US11854550B2 (en) Determining input for speech processing engine
US10800043B2 (en) Interaction apparatus and method for determining a turn-taking behavior using multimodel information
CN109558788B (zh) 静默语音输入辨识方法、计算装置和计算机可读介质
KR20210066774A (ko) 멀티모달 기반 사용자 구별 방법 및 장치
EP3772016B1 (en) Method and apparatus for entering human face information into database
CN111048113A (zh) 声音方向定位处理方法、装置、系统、计算机设备及存储介质
CN111326152A (zh) 语音控制方法及装置
JP2012242609A (ja) 音声認識装置、ロボット、及び音声認識方法
CN111341350A (zh) 人机交互控制方法、系统、智能机器人及存储介质
US20230073265A1 (en) Information processing device and action mode setting method
Navarathna et al. Visual voice activity detection using frontal versus profile views
KR101933822B1 (ko) 얼굴인식 기반 지능형 스피커, 이를 이용한 능동적인 대화 제공 방법 및 이를 수행하기 위한 기록매체
CN116312512A (zh) 面向多人场景的视听融合唤醒词识别方法及装置
CN114282621B (zh) 一种多模态融合的话者角色区分方法与系统
KR101171047B1 (ko) 음성 및 영상 인식 기능을 갖는 로봇 시스템 및 그의 인식 방법
KR101430342B1 (ko) 발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치
Iyengar et al. A vision-based microphone switch for speech intent detection
KR102535244B1 (ko) 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법
KR102661005B1 (ko) 다채널 다화자 환경에서 화자별 음원분리장치 및 방법
KR20140072727A (ko) 음성 인식 장치 및 방법

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X601 Decision of rejection after re-examination