KR20230090932A

KR20230090932A - 전자 장치 및 그 제어 방법

Info

Publication number: KR20230090932A
Application number: KR1020210180137A
Authority: KR
Inventors: 김동우; 김기범; 정현식; 황인우
Original assignee: 삼성전자주식회사
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2023-06-22

Abstract

전자 장치가 개시된다. 본 전자 장치는 디스플레이 및 영상을 표시하도록 디스플레이를 제어하는 프로세서를 포함하며, 프로세서는, 영상에 포함된 제1 프레임에서 오브젝트의 얼굴 영역 및 얼굴 영역 내의 입술 영역을 식별하고, 제1 프레임에서 식별된 얼굴 영역 중 상부 영역에 포함된 픽셀들의 RGB 값과, 제1 프레임 이전 프레임인 제2 프레임에서 상부 영역에 포함된 픽셀들의 RGB 값의 차이인 제1 변화량을 식별하고, 제1 프레임에서 식별된 입술 영역을 포함하는 하부 영역에 포함된 픽셀들의 RGB 값과, 제2 프레임에서 하부 영역에 포함된 픽셀들의 RGB 값의 차이인 제2 변화량을 식별하고, 제1 프레임에서 식별된 입술 영역에 포함된 픽셀들의 RGB 값과, 제2 프레임에서 입술 영역에 포함된 픽셀들의 RGB 값의 차이인 제3 변화량을 식별하고, 제1 내지 제3 변화량에 기초하여 오브젝트의 발화 여부를 식별한다.

Description

전자 장치 및 그 제어 방법{ELECTRONIC APPARATUS AND CONTROLLING METHOD THEREOF}

본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 실시간으로 영상에서 발화자를 식별하는 전자 장치 및 그 제어 방법에 대한 것이다.

최근 디스플레이 기술의 발달과 함께, 디스플레이 장치에 표시되는 영상에서 발화자를 식별하는 기술이 광범위하게 활용되고 있다. 즉, 영상에 표시되는 여러 사람들 중, 발언하는 사람이 누구인지를 식별하는 기술이 늘어나고 있다.

이러한 화자 식별 기술을 통해, 복수의 인물이 포함된 영상에서 현재 발화하고 있는 자를 클로즈업(Close-up) 하거나, 발화자의 정보를 표시하는 등, 시청자에게 편의를 제공할 수 있다.

그러나 종래 화자 식별 기술은, 화자의 얼굴과 목소리의 상관성을 학습하여 화자를 인식하는 딥러닝 기술을 활용하는데, 이는 오디오 데이터와 비디오 데이터의 복잡한 전처리 과정을 요구하므로 실시간 구현이 어려우며, 딥러닝 기술에 사용되는 네트워크는 보편적으로 활용되는 칩에서 구현하기 어렵다는 점에서 설계상의 한계가 존재한다는 문제가 있었다.

이에 따라, 오디오 데이터 및 비디오 데이터를 독립적으로 활용하여 계산량을 줄임으로써 영상 내 화자의 위치를 실시간으로 찾아낼 수 있는 방안의 모색이 요청된다.

본 개시는 상술한 문제를 개선하기 위한 것으로, 본 개시의 목적은 오디오 데이터 및 비디오 데이터를 독립적으로 활용하여 실시간으로 영상에서 발화자를 식별하는 전자 장치 및 그 제어 방법을 제공함에 있다.

상술한 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는 디스플레이 및 영상을 표시하도록 상기 디스플레이를 제어하는 프로세서를 포함하며, 상기 프로세서는, 상기 영상에 포함된 제1 프레임에서 오브젝트의 얼굴 영역 및 상기 얼굴 영역 내의 입술 영역을 식별하고, 상기 제1 프레임에서 식별된 상기 얼굴 영역 중 상부 영역에 포함된 픽셀들의 RGB 값과, 상기 제1 프레임 이전 프레임인 제2 프레임에서 상기 상부 영역에 포함된 픽셀들의 RGB 값의 차이인 제1 변화량을 식별하고, 상기 제1 프레임에서 식별된 상기 입술 영역을 포함하는 하부 영역에 포함된 픽셀들의 RGB 값과, 상기 제2 프레임에서 상기 하부 영역에 포함된 픽셀들의 RGB 값의 차이인 제2 변화량을 식별하고, 상기 제1 프레임에서 식별된 입술 영역에 포함된 픽셀들의 RGB 값과, 상기 제2 프레임에서 상기 입술 영역에 포함된 픽셀들의 RGB 값의 차이인 제3 변화량을 식별하고, 상기 제1 내지 제3 변화량에 기초하여 상기 오브젝트의 발화 여부를 식별한다.

여기에서, 상기 상부 영역은, 상기 얼굴 영역의 전체 영역에 대해, 상기 얼굴 영역의 상부에서 기설정된 비율을 차지하는 영역이고, 상기 하부 영역은, 상기 얼굴 영역의 전체 영역에 대해, 상기 얼굴 영역의 하부에서 기설정된 비율을 차지하는 영역일 수 있다.

또한, 상기 프로세서는, 상기 상부 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 상기 산출된 평균 값에 기초하여 상기 제1 변화량을 식별하고, 상기 하부 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 상기 산출된 평균 값에 기초하여 상기 제2 변화량을 식별하고, 상기 입술 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 상기 산출된 평균 값에 기초하여 상기 제3 변화량을 식별할 수 있다.

그리고, 상기 프로세서는, 상기 제1 내지 제3 변화량을 시그모이드(Sigmoid) 함수에 입력하여 상기 오브젝트의 발화 확률을 식별하고, 상기 식별된 발화 확률이 기설정된 임계 값 보다 큰 경우, 상기 오브젝트가 발화하는 것으로 식별하고, 상기 식별된 발화 확률이 기설정된 임계 값 이하인 경우, 상기 오브젝트가 발화하지 않는 것으로 식별할 수 있다.

여기에서, 상기 프로세서는, 상기 제3 변화량을 상기 제1 변화량으로 나눈 비율 및 상기 제2 변화량을 합산한 값을 시그모이드 함수에 입력하여 상기 오브젝트의 발화 확률을 식별할 수 있다.

또한, 상기 프로세서는, 상기 제3 변화량에 상기 제1 변화량을 차감한 값을 시그모이드 함수에 입력하여 상기 오브젝트의 발화 확률을 식별할 수 있다.

그리고, 상기 프로세서는, 상기 영상에 대응되는 오디오로부터 상기 오브젝트의 음성을 획득하고, 상기 획득된 음성의 진폭 값을 상기 오디오의 진폭 값으로 나눈 비율이 기설정된 값 보다 큰 경우, 상기 제1 내지 제3 변화량을 식별하고, 상기 제1 내지 제3 변화량에 기초하여 상기 오브젝트의 발화 여부를 식별할 수 있다.

여기에서, 상기 진폭 값은, 주파수 별 진폭의 RMS(Root Mean Square) 값일 수 있다.

본 개시의 일 실시 예에 따른 전자 장치의 제어 방법에 있어서, 영상에 포함된 제1 및 제2 프레임 각각에서 오브젝트의 얼굴 영역 및 상기 얼굴 영역 내의 입술 영역을 식별하는 단계, 상기 제1 및 제2 프레임 각각에서 식별된 상기 얼굴 영역 중 상부 영역의 픽셀 값의 제1 변화량을 식별하는 단계, 상기 제1 및 제2 프레임 각각에서 식별된 상기 입술 영역을 포함하는 하부 영역의 픽셀 값의 제2 변화량을 식별하는 단계, 상기 제1 및 제2 프레임 각각에서 식별된 상기 입술 영역의 픽셀 값의 제3 변화량을 식별하는 단계 및 상기 제1 내지 제3 변화량에 기초하여 상기 오브젝트의 발화 여부를 식별하는 단계를 포함한다.

그리고, 제1 변화량을 식별하는 단계는, 상기 상부 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 상기 산출된 평균 값에 기초하여 상기 제1 변화량을 식별하고, 제2 변화량을 식별하는 단계는, 상기 하부 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 상기 산출된 평균 값에 기초하여 상기 제2 변화량을 식별하고, 제3 변화량을 식별하는 단계는, 상기 입술 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 상기 산출된 평균 값에 기초하여 상기 제3 변화량을 식별할 수 있다.

또한, 상기 오브젝트의 발화 여부를 식별하는 단계는, 상기 제1 내지 제3 변화량을 시그모이드 함수에 입력하여 상기 오브젝트의 발화 확률을 식별하고, 상기 식별된 발화 확률이 기설정된 임계 값 보다 큰 경우, 상기 오브젝트가 발화하는 것으로 식별하고, 상기 식별된 발화 확률이 기설정된 임계 값 이하인 경우, 상기 오브젝트가 발화하지 않는 것으로 식별할 수 있다.

여기에서, 상기 오브젝트의 발화 여부를 식별하는 단계는, 상기 제3 변화량을 상기 제1 변화량으로 나눈 비율 및 상기 제2 변화량을 합산한 값을 시그모이드 함수에 입력하여 상기 오브젝트의 발화 확률을 식별할 수 있다.

그리고, 상기 오브젝트의 발화 여부를 식별하는 단계는, 상기 제3 변화량에 상기 제1 변화량을 차감한 값을 시그모이드 함수에 입력하여 상기 오브젝트의 발화 확률을 식별할 수 있다.

또한, 상기 오브젝트의 발화 여부를 식별하는 단계는, 상기 영상에 대응되는 오디오로부터 상기 오브젝트의 음성을 획득하고, 상기 획득된 음성의 진폭 값을 상기 오디오의 진폭 값으로 나눈 비율이 기설정된 값 보다 큰 경우, 상기 제1 내지 제3 변화량을 식별하고, 상기 제1 내지 제3 변화량에 기초하여 상기 오브젝트의 발화 여부를 식별할 수 있다.

여기에서, 상기 진폭 값은, 주파수 별 진폭의 RMS(Root Mean Square) 값인 것을 특징으로 하는, 제어 방법.

본 개시의 다양한 실시 예에 따르면, 오디오 데이터와 비디오 데이터의 상관성을 분석할 필요 없이, 각 데이터를 독립적으로 활용하여 실시간으로 영상에서 발화자를 식별할 수 있다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 도면,
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도,
도 3은 본 개시의 일 실시 예에 따른 오브젝트의 얼굴 영역을 식별하기 위해 얼굴의 특징이 되는 지점의 좌표를 식별하는 방법을 설명하기 위한 도면,
도 4은 본 개시의 일 실시 예에 따른 오브젝트의 입술 영역을 식별하기 위해 입술의 특징이 되는 지점의 좌표를 식별하는 방법을 설명하기 위한 도면,
도 5는 본 개시의 일 실시 예에 따른 오브젝트의 얼굴 영역을 세부적으로 구분하는 방법을 설명하기 위한 도면,
도 6은 본 개시의 일 실시 예에 따른 현재 프레임과 이전 프레임의 픽셀 값의 변화량을 식별하는 방법을 설명하기 위한 도면,
도 7은 본 개시의 일 실시 예에 따른 발화 확률 식별에 이용되는 시그모이드 함수의 그래프 개형을 도시한 도면,
도 8은 본 개시의 일 실시 예에 따른 프로세서의 세부 모듈을 설명하기 위한 도면,
도 9는 본 개시의 일 실시 예에 따른 전자 장치의 세부적인 구성을 나타내는 블록도,
도 10은 본 개시의 일 실시 예에 따른 오브젝트의 발화 여부 식별 방법을 설명하기 위한 흐름도이다.

이하에서는 첨부 도면을 참조하여 본 개시를 상세히 설명한다.

본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.

본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하 첨부된 도면들을 참조하여 본 개시의 일 실시 예를 보다 상세하게 설명한다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 도면이다.

전자 장치(100)는 컨텐트를 표시할 수 있다. 가령, 전자 장치(100)는 이미지를 표시하거나, 영화, 드라마 등의 영상을 재생할 수 있고, 게임 등의 화면을 제공할 수도 있다.

이 경우, 전자 장치(100)는 도 1에 도시된 바와 같이 TV로 구현될 수 있다. 다만, 이는 일 예이고, 전자 장치(100)는 PC, 태블릿 PC 등으로 구현될 수 있다.

특히, 전자 장치(100)는 영상에 포함된 오브젝트의 발화 여부를 식별할 수 있다. 즉, 전자 장치(100)는 적어도 하나의 오브젝트를 포함하는 영상에서, 각 오브젝트가 말을 하고 있는지 여부를 식별할 수 있다.

예를 들어, 도 1을 참조하면, 전자 장치(100)에 표시된 영상에서, 왼쪽 인물(11)은 말을 하고 있고, 오른쪽 인물(12)은 말을 하지 않고 있다. 이 때, 전자 장치(100)는 왼쪽 인물(11)이 발화자이고, 오른쪽 인물(12)은 발화자가 아닌 것으로 식별할 수 있다.

이 경우, 본 개시의 일 실시 예에 따르면, 전자 장치(100)는 영상에서 발화자를 식별할 때, 오디오 데이터 및 비디오 데이터를 독립적으로 활용하여 실시간으로 발화자를 식별할 수 있는데, 이하에서 보다 구체적으로 설명하도록 한다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.

도 2를 참조하면, 전자 장치(100)는 디스플레이(110) 및 프로세서(120)를 포함할 수 있다.

디스플레이(110)는 영상을 표시할 수 있다. 이를 위해, 디스플레이(110)는 LCD(Liquid Crystal Display), LED(Light Emitting Diode) 및 OLED(Organic Light Emitting Diode) 등과 같은 다양한 유형의 디스플레이로 구현될 수 있다.

한편, 디스플레이(110)는 그 구현 방식에 따라 부가적인 구성을 추가적으로 포함할 수 있다. 예를 들면, 디스플레이(110)가 액정 방식인 경우, 디스플레이(110)는 LCD 디스플레이 패널(미도시), 이에 광을 공급하는 백라이트 유닛(미도시), 패널(미도시)을 구동시키는 패널 구동 기판(미도시) 등을 포함할 수 있다.

프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(120)는 전자 장치(100)에 마련된 메모리에 저장된 O/S(Operating System)나 각종 애플리케이션을 실행시켜, 전자 장치(100)에 구비된 각 하드웨어들의 동작을 제어하고, 각종 기능을 지원할 수 있다.

구체적으로, 프로세서(120)는 전자 장치(100)에 영상을 표시하도록 디스플레이(110)를 제어할 수 있다. 여기서 전자 장치(100)에 표시되는 영상은 외부 서버로부터 수신한 영상이거나, 전자 장치(100)에 저장된 영상일 수 있다.

또한, 프로세서(120)는 디스플레이(110)에 표시되는 영상에서, 오디오 데이터 및 비디오 데이터를 독립적으로 활용하여 실시간으로 발화자를 식별할 수 있다.

이하에서는, 본 개시의 일 실시 예에 따라 발화자를 식별 방법에 대한 구체적인 내용을 설명하도록 한다.

프로세서(120)는 영상에 포함된 제1 프레임에서, 오브젝트의 얼굴 영역 및 얼굴 영역 내의 입술 영역을 식별할 수 있다. 여기에서, 오브젝트는 사람을 포함할 수 있다.

이를 위해, 프로세서(120)는 '마우스 맵'과 같은 알고리즘을 이용하여 오브젝트의 얼굴 및 입술의 랜드마크를 식별할 수 있다. 여기에서, 랜드마크는 사람의 얼굴에서 얼굴 영역, 입술 영역, 눈 영역 등을 식별하기 위한 지점을 의미할 수 있다. 이에 따라, 얼굴 영역에 대응되는 랜드마크를 모두 포함하는 직사각형을 형성하는 경우, 해당 직사각형 내에는 사람의 얼굴 영역이 포함될 수 있다.

또한, 입술 영역에 대응되는 랜드마크를 모두 포함하는 직사각형을 형성하는 경우, 해당 직사각형 내에는 사람의 입술 영역이 포함될 수 있다.

가령, 도 3을 참조하면, 프로세서(120)는 오브젝트(30)의 얼굴의 좌측 이마 끝 부분(31), 우측 이마 끝 부분(32) 및 턱 및 부분(33) 등을 얼굴의 랜드마크로 식별하고, 해당 지점을 모두 포함하는 직사각형의 영역을 설정함으로써, 오브젝트(30)의 얼굴 영역(34)을 식별할 수 있다.

또한, 도 4를 참조하면, 프로세서(120)는 오브젝트(30)의 입술의 좌측 끝 부분(41), 윗 입술 좌측 부분(42), 윗 입술 우측 부분(43), 우측 끝 부분(44), 아랫 입술 우측 부분(45) 및 아랫 입술 좌측 부분(46) 등을 입술의 랜드마크로 식별하고, 해당 지점을 모두 포함하는 직사각형의 영역을 설정함으로써, 오브젝트(30)의 입술 영역(47)을 식별할 수 있다.

다만, 얼굴 및 입술의 랜드마크는 전술한 예시에 한정되지 않고, 실제 오브젝트의 얼굴 및 입술을 각각 포함하도록 얼굴 영역 및 입술 영역을 설정할 수 있는 얼굴 및 입술 상의 모든 지점을 의미할 수 있다.

그리고, 프로세서(120)는 얼굴 영역과 입술 영역의 픽셀의 RGB 값을 이용하여 오브젝트의 발화 여부를 식별할 수 있다.

구체적으로, 프로세서(120)는 얼굴 영역 중 일부 영역 및 입술 영역의 픽셀의 RGB 값의 변화량을 식별하고 이에 기초하여 오브젝트의 발화 여부를 식별할 수 있다.

이를 위해, 프로세서(120)는 식별된 오브젝트의 얼굴 영역 중 기설정된 크기를 가지는 상부 영역 및 하부 영역을 식별할 수 있다.

즉, 프로세서(120)는 얼굴 영역의 전체 영역에 대해, 얼굴 영역의 전체 영역 중 상부에서 기설정된 비율을 차지하는 영역을 상부 영역으로 식별하고, 얼굴 영역의 전체 영역에 대해, 얼굴 영역의 전체 영역 중 하부에서 기설정된 비율을 차지하는 영역을 하부 영역으로 식별할 수 있다.

구체적으로, 도 5를 참조하면, 프로세서(120)는 얼굴 영역(34)의 전체 영역 중 상부에서 1/a 만큼의 비율을 차지하는 영역을 상부 영역(51)으로 식별하고, 얼굴 영역(34)의 전체 영역 중 하부에서 1/b 만큼의 비율을 차지하는 영역을 하부 영역(52)으로 식별할 수 있다. 이때, 하부 영역의 비율은, 입술 영역(47)을 포함할 수 있는 크기로 기설정될 수 있다.

한편, 오브젝트가 발화를 하는 경우, 입술 및 볼 근육 등이 움직이면서, 해당 영역의 경우 전후 프레임에서 RGB 값의 차이가 발생하게 된다. 이에 따라, 본 개시의 일 실시 예에 따르면, 프로세서(120)는 해당 RGB 값의 차이를 비교하여 오브젝트의 발화 여부를 식별할 수 있다.

이를 위해, 프로세서(120)는 제1 프레임에서 식별된 얼굴 영역 중 상부 영역에 포함된 픽셀들의 RGB 값과, 제1 프레임 이전 프레임인 제2 프레임에서 상부 영역에 포함된 픽셀들의 RGB 값의 차이인 제1 변화량을 식별할 수 있다.

구체적으로, 도 6a 및 도 6b를 참조하면, 프로세서(120)는 t 프레임에서 오브젝트(30)의 얼굴 영역(34) 중 상부 영역(51)에 포함된 픽셀들의 RGB 값과, t 프레임 이전 프레임인 t-1 프레임에서 상부 영역(51)에 포함된 픽셀들의 RGB 값의 차이를 식별한다.

이때, 프로세서(120)는 상부 영역(51)에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 산출된 평균 값에 기초하여 제1 변화량을 식별할 수 있다.

즉, 프로세서(120)는 상부 영역(51)에 포함된 각 픽셀들의 RGB 값이 이전 프레임에 비해 얼마나 변했는지를 나타내는 RGB 값의 차이의 절대값을 전부 합산하고, 합산된 값을 상부 영역(51)에 포함된 픽셀들의 총 개수로 나눠, 상부 영역(51)의 변화량을 식별할 수 있다.

또한, 프로세서(120)는 제1 프레임에서 식별된 입술을 포함하는 하부 영역에 포함된 픽셀들의 RGB 값과, 제2 프레임에서 하부 영역에 포함된 픽셀들의 RGB 값의 차이인 제2 변화량을 식별하고, 제1 프레임에서 식별된 입술 영역에 포함된 픽셀들의 RGB 값과, 제2 프레임에서 입술 영역에 포함된 픽셀들의 RGB 값의 차이인 제3 변화량을 식별할 수 있다.

구체적으로, 도 6a 및 도 6b를 참조하면, 프로세서(120)는 t 프레임에서 오브젝트(30)의 입술 영역(47)을 포함하는 하부 영역(52)에 포함된 픽셀들의 RGB 값과, t-1 프레임에서 하부 영역(52)에 포함된 픽셀들의 RGB 값의 차이를 식별할 수 있다.

이때, 프로세서(120)는 하부 영역(52)에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 산출된 평균 값에 기초하여 제2 변화량을 식별할 수 있다.

즉, 프로세서(120)는 하부 영역(52)에 포함된 각 픽셀들의 RGB 값이 이전 프레임에 비해 얼마나 변했는지를 나타내는 RGB 값의 차이의 절대값을 전부 합산하고, 합산된 값을 하부 영역(52)에 포함된 픽셀들의 총 개수로 나눠, 하부 영역(52)의 변화량을 식별할 수 있다.

또한, 프로세서(120)는 입술 영역(47)에 포함된 픽셀들의 RGB 값과, t-1 프레임 프레임에서 입술 영역(47)에 포함된 픽셀들의 RGB 값의 차이를 식별할 수 있다.

이때, 프로세서(120)는 입술 영역(47)에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 산출된 평균 값에 기초하여 제3 변화량을 식별할 수 있다.

즉, 프로세서(120)는 입술 영역(47)에 포함된 각 픽셀들의 RGB 값이 이전 프레임에 비해 얼마나 변했는지를 나타내는 RGB 값의 차이의 절대값을 전부 합산하고, 합산된 값을 입술 영역(47)에 포함된 픽셀들의 총 개수로 나눠, 입술 영역(47)의 변화량을 식별할 수 있다.

그리고, 프로세서(120)는 제1 내지 제3 변화량에 기초하여, 오브젝트의 발화 여부를 식별할 수 있다.

구체적으로, 프로세서(120)는 제1 내지 제3 변화량에 기초하여, 오브젝트의 발화 확률을 식별할 수 있다.

여기서 발화 확률이란, 오브젝트가 발화자일 확률을 나타내는 것으로, 오브젝트의 얼굴 영역 및 입술 영역에 해당하는 픽셀의 RGB 값의 변화량을 시그모이드(Sigmoid) 함수 등의 확률 함수에 적용하여 얻어질 수 있다.

시그모이드 함수란,

형태의 함수로서, 여기에서, a, k는 상수이다. 이때, 도 7에 도시된 바와 같이 시그모이드 함수의 함수 값은 0에서 1 사이의 값만을 가지므로, 시그모이드 함수는 확률을 나타내는 함수로 사용될 수 있다. 따라서, 본 개시의 일 실시 예에 따르면, 오브젝트의 발화 확률은 제1 내지 제3 변화량을 시그모이드 함수에 입력하여, 시그모이드 함수로부터 출력되는 함수 값으로 계산될 수 있다.

따라서, 프로세서(120)는 제1 내지 제3 변화량을 시그모이드 함수에 입력하여 오브젝트의 발화 확률을 식별할 수 있다.

그리고, 프로세서(120)는 식별된 발화 확률이 기설정된 임계 값 보다 큰 경우, 오브젝트가 발화하는 것으로 식별하고, 식별된 발화 확률이 기설정된 임계 값 이하인 경우, 오브젝트가 발화하지 않는 것으로 식별할 수 있다.

가령, 기설정된 임계 값이 0.5인 경우, 프로세서(120)는 시그모이드 함수의 출력 값이 0.5보다 큰 경우에는 해당 오브젝트가 발화하는 것으로 식별하고, 출력 값이 0.5 이하인 경우에는 해당 오브젝트가 발화하지 않는 것으로 식별할 수 있다.

따라서, 도 7을 참조하면, 기설정된 임계 값이 0.5인 경우, 시그모이드 함수에 입력되는 x의 값이 k보다 큰 경우에만 오브젝트가 발화하는 것으로 식별될 수 있다. 즉, k는 시그모이드 함수에 입력되는 값에 따라 기설정되어 발화자 식별 확률을 조절할 수 있는 값이다.

이하에서는, 오브젝트의 발화 확률을 식별하기 위해 시그모이드 함수에 입력되는 제1 내지 제3 변화량에 대해 설명하도록 한다.

오브젝트가 발화하면 보통의 경우 입술의 움직임이 가장 크기 때문에, 상부 영역, 하부 영역 및 입술 영역 중 입술 영역의 픽셀의 RGB 값의 변화량이 가장 큰 경우가 많다.

다만, 얼굴 영역 및 입술 영역에 해당하는 픽셀의 RGB 값을 이전 프레임과 비교하여 변화량을 계산하기 때문에, 가령 오브젝트가 이동하는 경우와 같이 오브젝트가 발화하지 않음에도 이전 프레임에 비해 입술 영역의 픽셀의 RGB 값의 변화량이 큰 경우가 발생할 수 있다.

즉, 오브젝트가 제자리에서 발화하지 않는 경우와 같이 제1 내지 제3 변화량이 모두 적거나, 오브젝트가 이동하는 경우와 같이 제1 내지 제3 변화량이 모두 큰 경우, 프로세서(120)는 해당 오브젝트의 발화 확률이 낮은 것으로 식별하고, 제1 변화량이 적은 상태에서 제3 변화량이 큰 경우에만 오브젝트의 발화 확률이 높은 것으로 식별할 수 있다.

이를 위해, 프로세서(120)는 제3 변화량을 제1 변화량으로 나눈 비율 및 제2 변화량을 합산한 값을 시그모이드 함수에 입력하여 오브젝트의 발화 확률을 식별할 수 있다.

즉, 제1 내지 제3 변화량을 각각 A, B, C라고 했을 때, 시그모이드 함수에 입력되는 x의 값은

일 수 있다. 여기서 m, n은 A/C 및 B가 오브젝트의 발화 확률 계산에 기여하는 가중치를 나타내는 숫자로, 가령 함수에 입력되는 x의 값은

일 수 있다.

따라서, 프로세서(120)는 제3 변화량을 제1 변화량으로 나눈 값에 기초하여 오브젝트의 발화 확률을 식별하고, 여기에 하부 영역의 RGB 변화량인 제2 변화량에 관한 항을 추가하여, 입술뿐만이 아닌 얼굴 하관의 전체적인 변화를 감지하여 오브젝트의 발화 여부를 식별할 수 있다.

다른 예로, 프로세서(120)는 제3 변화량에서 제1 변화량을 차감한 값을 시그모이드 함수에 입력하여 오브젝트의 발화 확률을 식별할 수 있다.

즉, 시그모이드 함수에 입력되는 x의 값은

형태로, 가령 함수에 입력되는 x의 값은

일 수 있다.

전술한 바와 마찬가지로, 오브젝트의 상부 영역에 해당하는 픽셀의 RGB 값의 변화량이 적은 상태에서 입술 영역에 해당하는 픽셀의 RGB 값의 변화량이 큰 경우에 오브젝트의 발화 확률이 높은 것으로 볼 수 있다. 따라서, 프로세서(120)는 입술 영역의 변화량인 C가 크고 상부 영역의 변화량인 A가 작을수록, 오브젝트의 발화 확률이 높은 것으로 식별할 수 있다.

다만 이는 일 예일 뿐, 확률 함수에 입력될 수 있는 얼굴 영역 및 입술 영역의 픽셀 값의 변화량은 오브젝트의 발화 여부를 식별할 수 있는 다양한 형태의 조합을 포함할 수 있음은 물론이다.

전술한 과정을 통해, 프로세서(120)는 영상의 비디오 데이터만을 활용하여 영상에 포함된 오브젝트의 발화 여부를 식별할 수 있다.

한편, 프로세서(120)는 영상의 오디오 데이터를 활용하여 오브젝트의 발화가 없는 경우, 전술한 발화자 식별 과정을 수행하지 않으며, 오브젝트의 발화가 있는 경우에만, 전술한 발화자 식별 과정을 수행할 수 있다.

이를 위해, 프로세서(120)는 영상에 대응되는 오디오로부터 오브젝트의 음성을 획득할 수 있다. 즉, 프로세서(120)는 음원 분리 기술을 이용하여 오디오에 포함된 다양한 음원(가령, 배경음, 잡음 등)으로부터 객체의 음성을 분리하여 획득할 수 있다. 여기서 음원 분리 기술이란, 객체의 오디오 신호(s)가 혼합 환경(A)에 의해 혼합된 신호(x=As)로부터 객체의 오디오 신호(s)를 분리하기 위해

형태의 분리회로를 예측하여 혼합된 신호에 적용하는 기술을 의미할 수 있다.

그리고, 프로세서(120)는 획득된 음성의 진폭 값을 오디오의 진폭 값으로 나눈 비율이 기설정된 값 보다 큰 경우, 제1 내지 제3 변화량을 식별하고, 제1 내지 제3 변화량에 기초하여 오브젝트의 발화 여부를 식별할 수 있다.

여기서 진폭 값은, 주파수 별 진폭의 RMS(Root Mean Square) 값을 의미할 수 있다.

프로세서(120)는 영상을 구성하는 복수의 프레임에 대응되는 오디오에서, 오브젝트의 음성만을 별도로 획득할 수 있다. 이후, 프로세서(120)는 현재 프레임에서 획득된 음성의 RMS 값을 현재 프레임의 오디오의 RMS 값으로 나눈 값이 기설정된 값보다 작은 경우에는, 영상에 발화하는 오브젝트가 없는 것으로 판단할 수 있다. 따라서, 이 경우, 프로세서(120)는 전술한 화자 식별 과정을 수행하지 않으며, 영상에 포함된 모든 오브젝트가 발화하지 않는 것으로 식별할 수 있다. 반면, 현재 프레임에서 획득된 음성의 RMS 값을 현재 프레임의 오디오의 RMS 값으로 나눈 값이 기설정된 값보다 큰 경우에는, 영상에 발화하는 오브젝트가 있는 것이므로, 프로세서(120)는 전술한 과정에 따라 오브젝트의 발화 여부를 식별할 수 있다.

전술한 과정을 통해, 본 개시의 일 실시 예에 따른 전자 장치(100)는 오디오 데이터 및 비디오 데이터를 독립적으로 활용하여 계산량을 줄임으로써 영상 내 화자의 위치를 실시간으로 찾아낼 수 있다.

도 8은 본 개시의 일 실시 예에 따른 프로세서의 세부 모듈을 설명하기 위한 도면이다.

프로세서(120)는 전술한 오브젝트의 발화 여부 식별을 위해, 다양한 세부 모듈을 이용할 수 있다. 이때, 각 모듈은 전자 장치(100)의 메모리에 저장될 수 있다.

랜드 마크 검출부(810)는 영상에 포함된 오브젝트의 얼굴 영역 및 입술 영역을 식별하기 위해, 얼굴 영역 및 입술 영역의 특징이 되는 지점을 식별하는 모듈이다.

얼굴 및 입술 영역 픽셀 값 변화량 검출부(820)는 현재 프레임과 이전 프레임을 비교하여, 얼굴 및 입술 영역에 포함되는 픽셀들의 RGB 값의 차이를 식별하는 모듈이다.

음성 객체 분리부(830)는 오디오에서 오브젝트의 음성만을 별도로 분리하는 모듈이다.

화자 위치 인식 알고리즘부(840)는 음성 객체 분리부(830)로부터 수신한 오브젝트의 음성의 진폭과 오디오의 진폭을 비교하여, 오브젝트의 음성이 존재하는 경우, 얼굴 및 입술 영역 픽셀 값 변화량 검출부(820)로부터 수신된 각 영역의 픽셀들의 RGB 값의 변화량에 따라, 오브젝트의 발화 확률을 식별하고, 각 오브젝트의 발화 여부를 식별하는 모듈이다.

도 9은 본 개시의 일 실시 예에 따른 전자 장치의 세부적인 구성을 나타내는 블록도이다.

도 9을 참조하면, 전자 장치(100)는 디스플레이(110) 및 프로세서(120) 이외에도 통신 인터페이스(130), 메모리(140), 사용자 입력부(150) 및 스피커(160)를 더 포함할 수 있다. 그러나, 이와 같은 구성은 예시적인 것으로서, 본 개시를 실시함에 있어 이와 같은 구성에 더하여 새로운 구성이 추가되거나 일부 구성이 생략될 수 있음은 물론이다.

한편, 도 9를 설명함에 있어, 도 1 내지 도 8과 중복되는 설명은 생략하도록 한다.

통신 인터페이스(130)는 외부 장치와 통신을 수행하기 위한 구성이다. 프로세서(120)는 통신 인터페이스(130)를 통해 데이터를 외부 장치로 전송하고, 외부 장치로부터 데이터를 수신할 수 있다.

이를 위해, 통신 인터페이스(130)는 다양한 통신 방식을 이용하여 외부 장치와 통신을 수행할 수 있다. 예를 들어, 통신 인터페이스(130)는 블루투스, 와이파이, 이동통신 등과 같은 통신 방식을 이용하여 외부 장치와 통신을 수행할 수 있으며, 이러한 통신 방식에 따른 통신을 수행하기 위한 통신 모듈을 포함할 수 있다.

메모리(140)는 전자 장치(100)와 관련된 적어도 하나의 인스트럭션(instruction)이 저장될 수 있다. 그리고, 메모리(140)에는 전자 장치(100)를 구동시키기 위한 O/S(Operating System)가 저장될 수 있다. 또한, 메모리(140)에는 본 개시의 다양한 실시 예들에 따라 전자 장치(100)가 동작하기 위한 각종 세부 모듈이 저장될 수도 있다. 이 경우, 메모리(140)는 프레임 버퍼와 같은 휘발성 메모리, 플래시 메모리 등과 같은 반도체 메모리나 하드디스크(Hard Disk) 등과 같은 자기 저장 매체 등을 포함할 수 있다.

사용자 입력부(150)는 사용자 입력을 수신하기 위한 구성이다. 이 경우, 사용자 입력부(150)는 전자 장치(100)에 마련된 버튼 또는 디스플레이 장치(100)를 제어하기 위한 리모컨으로부터 사용자 입력에 따른 제어 명령을 수신하기 위한 리모컨 신호 수신부 등으로 구현될 수 있다.

이 경우, 프로세서(120)는 사용자 입력부(150)를 통해 수신된 사용자 입력에 대응되는 동작을 수행할 수 있다. 예를 들어, 프로세서(120)는 오브젝트의 발화 여부 식별을 위한 사용자 명령이 사용자 입력부(150)를 통해 수신되면, 해당 영상에 포함된 각 오브젝트의 발화 여부를 디스플레이(110)에 표시할 수 있다.

스피커(160)는 오디오를 출력할 수 있다. 구체적으로, 프로세서(120)는 전자 장치(100)의 동작과 관련된 다양한 알림음 또는 음성 안내 메시지를 스피커(160)를 통해 출력할 수 있다. 예를 들어, 프로세서(120)는 디스플레이(110)에 표시된 영상에 대응되는 오디오를 스피커(160)를 통해 출력할 수 있다. 또한, 프로세서(120)는 디스플레이(110)에 표시된 영상에 발화자가 존재하지 않는 경우, 발화자가 없음을 나타내는 오디오를 스피커(160)를 통해 출력할 수 있다.

도 10는 본 개시의 일 실시 예에 따른 오브젝트의 발화 여부 식별 방법을 설명하기 위한 흐름도이다.

먼저, 영상에 포함된 제1 및 제2 프레임 각각에서 오브젝트의 얼굴 영역 및 상기 얼굴 영역 내의 입술 영역을 식별한다(S1010).

이후, 제1 및 제2 프레임 각각에서 식별된 얼굴 영역 중 상부 영역의 픽셀 값의 제1 변화량을 식별한다(S1020).

그리고, 제1 및 제2 프레임 각각에서 식별된 입술 영역을 포함하는 하부 영역의 픽셀 값의 제2 변화량을 식별한다(S1030).

그리고, 제1 및 제2 프레임 각각에서 식별된 입술 영역의 픽셀 값의 제3 변화량을 식별한다(S1040).

이후, 제1 내지 제3 변화량에 기초하여 오브젝트의 발화 여부를 식별한다(S1050).

여기에서, 상부 영역은, 얼굴 영역의 전체 영역에 대해, 얼굴 영역의 상부에서 기설정된 비율을 차지하는 영역이고, 하부 영역은, 얼굴 영역의 전체 영역에 대해, 얼굴 영역의 하부에서 기설정된 비율을 차지하는 영역일 수 있다.

또한, 제1 변화량을 식별하는 단계는, 상부 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 산출된 평균 값에 기초하여 제1 변화량을 식별하고, 제2 변화량을 식별하는 단계는, 하부 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 산출된 평균 값에 기초하여 제2 변화량을 식별하고, 제3 변화량을 식별하는 단계는, 입술 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 산출된 평균 값에 기초하여 제3 변화량을 식별할 수 있다.

그리고, 오브젝트의 발화 여부를 식별하는 단계는, 제1 내지 제3 변화량을 시그모이드 함수에 입력하여 오브젝트의 발화 확률을 식별하고, 식별된 발화 확률이 기설정된 임계 값 보다 큰 경우, 오브젝트가 발화하는 것으로 식별하고, 식별된 발화 확률이 기설정된 임계 값 이하인 경우, 오브젝트가 발화하지 않는 것으로 식별할 수 있다.

여기에서, 오브젝트의 발화 여부를 식별하는 단계는, 제3 변화량을 상기 제1 변화량으로 나눈 비율 및 상기 제2 변화량을 합산한 값을 시그모이드 함수에 입력하여 오브젝트의 발화 확률을 식별할 수 있다.

또한, 오브젝트의 발화 여부를 식별하는 단계는, 제3 변화량에 제1 변화량을 차감한 값을 시그모이드 함수에 입력하여 오브젝트의 발화 확률을 식별할 수 있다.

그리고, 오브젝트의 발화 여부를 식별하는 단계는, 영상에 대응되는 오디오로부터 오브젝트의 음성을 획득하고, 획득된 음성의 진폭 값을 오디오의 진폭 값으로 나눈 비율이 기설정된 값 보다 큰 경우, 제1 내지 제3 변화량을 식별하고, 제1 내지 제3 변화량에 기초하여 오브젝트의 발화 여부를 식별할 수 있다.

여기서, 진폭 값은, 주파수 별 진폭의 RMS(Root Mean Square) 값일 수 있다.

한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 기기를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

100 : 전자 장치 110 : 디스플레이
120 : 프로세서

Claims

전자 장치에 있어서,
디스플레이; 및
영상을 표시하도록 상기 디스플레이를 제어하는 프로세서;를 포함하며,
상기 프로세서는,
상기 영상에 포함된 제1 프레임에서 오브젝트의 얼굴 영역 및 상기 얼굴 영역 내의 입술 영역을 식별하고,
상기 제1 프레임에서 식별된 상기 얼굴 영역 중 상부 영역에 포함된 픽셀들의 RGB 값과, 상기 제1 프레임의 이전 프레임인 제2 프레임에서 상기 상부 영역에 포함된 픽셀들의 RGB 값의 차이인 제1 변화량을 식별하고,
상기 제1 프레임에서 식별된 상기 입술 영역을 포함하는 하부 영역에 포함된 픽셀들의 RGB 값과, 상기 제2 프레임에서 상기 하부 영역에 포함된 픽셀들의 RGB 값의 차이인 제2 변화량을 식별하고,
상기 제1 프레임에서 식별된 입술 영역에 포함된 픽셀들의 RGB 값과, 상기 제2 프레임에서 상기 입술 영역에 포함된 픽셀들의 RGB 값의 차이인 제3 변화량을 식별하고,
상기 제1 내지 제3 변화량에 기초하여 상기 오브젝트의 발화 여부를 식별하는, 전자 장치.
제1항에 있어서,
상기 상부 영역은, 상기 얼굴 영역의 전체 영역에 대해, 상기 얼굴 영역의 상부에서 기설정된 비율을 차지하는 영역이고,
상기 하부 영역은, 상기 얼굴 영역의 전체 영역에 대해, 상기 얼굴 영역의 하부에서 기설정된 비율을 차지하는 영역인, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 상부 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 상기 산출된 평균 값에 기초하여 상기 제1 변화량을 식별하고,
상기 하부 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 상기 산출된 평균 값에 기초하여 상기 제2 변화량을 식별하고,
상기 입술 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 상기 산출된 평균 값에 기초하여 상기 제3 변화량을 식별하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 제1 내지 제3 변화량을 시그모이드(Sigmoid) 함수에 입력하여 상기 오브젝트의 발화 확률을 식별하고, 상기 식별된 발화 확률이 기설정된 임계 값 보다 큰 경우, 상기 오브젝트가 발화하는 것으로 식별하고, 상기 식별된 발화 확률이 기설정된 임계 값 이하인 경우, 상기 오브젝트가 발화하지 않는 것으로 식별하는, 전자 장치.
제4항에 있어서,
상기 프로세서는,
상기 제3 변화량을 상기 제1 변화량으로 나눈 비율 및 상기 제2 변화량을 합산한 값을 시그모이드 함수에 입력하여 상기 오브젝트의 발화 확률을 식별하는, 전자 장치.
제4항에 있어서,
상기 프로세서는,
상기 제3 변화량에 상기 제1 변화량을 차감한 값을 시그모이드 함수에 입력하여 상기 오브젝트의 발화 확률을 식별하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 영상에 대응되는 오디오로부터 상기 오브젝트의 음성을 획득하고, 상기 획득된 음성의 진폭 값을 상기 오디오의 진폭 값으로 나눈 비율이 기설정된 값 보다 큰 경우, 상기 제1 내지 제3 변화량을 식별하고, 상기 제1 내지 제3 변화량에 기초하여 상기 오브젝트의 발화 여부를 식별하는, 전자 장치.
제7항에 있어서,
상기 진폭 값은,
주파수 별 진폭의 RMS(Root Mean Square) 값인 것을 특징으로 하는, 전자 장치.
전자 장치의 제어 방법에 있어서,
영상에 포함된 제1 및 제2 프레임 각각에서 오브젝트의 얼굴 영역 및 상기 얼굴 영역 내의 입술 영역을 식별하는 단계;
상기 제1 및 제2 프레임 각각에서 식별된 상기 얼굴 영역 중 상부 영역의 픽셀 값의 제1 변화량을 식별하는 단계;
상기 제1 및 제2 프레임 각각에서 식별된 상기 입술 영역을 포함하는 하부 영역의 픽셀 값의 제2 변화량을 식별하는 단계;
상기 제1 및 제2 프레임 각각에서 식별된 상기 입술 영역의 픽셀 값의 제3 변화량을 식별하는 단계; 및
상기 제1 내지 제3 변화량에 기초하여 상기 오브젝트의 발화 여부를 식별하는 단계;를 포함하는, 제어 방법.
제9항에 있어서,
상기 상부 영역은, 상기 얼굴 영역의 전체 영역에 대해, 상기 얼굴 영역의 상부에서 기설정된 비율을 차지하는 영역이고,
상기 하부 영역은, 상기 얼굴 영역의 전체 영역에 대해, 상기 얼굴 영역의 하부에서 기설정된 비율을 차지하는 영역인, 제어 방법.
제9항에 있어서,
제1 변화량을 식별하는 단계는,
상기 상부 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 상기 산출된 평균 값에 기초하여 상기 제1 변화량을 식별하고,
제2 변화량을 식별하는 단계는,
상기 하부 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 상기 산출된 평균 값에 기초하여 상기 제2 변화량을 식별하고,
제3 변화량을 식별하는 단계는,
상기 입술 영역에 포함된 픽셀들의 RGB 값의 차이의 평균 값을 산출하고, 상기 산출된 평균 값에 기초하여 상기 제3 변화량을 식별하는, 제어 방법.
제9항에 있어서,
상기 오브젝트의 발화 여부를 식별하는 단계는,
상기 제1 내지 제3 변화량을 시그모이드 함수에 입력하여 상기 오브젝트의 발화 확률을 식별하고, 상기 식별된 발화 확률이 기설정된 임계 값 보다 큰 경우, 상기 오브젝트가 발화하는 것으로 식별하고, 상기 식별된 발화 확률이 기설정된 임계 값 이하인 경우, 상기 오브젝트가 발화하지 않는 것으로 식별하는, 제어 방법.
제12항에 있어서,
상기 오브젝트의 발화 여부를 식별하는 단계는,
상기 제3 변화량을 상기 제1 변화량으로 나눈 비율 및 상기 제2 변화량을 합산한 값을 시그모이드 함수에 입력하여 상기 오브젝트의 발화 확률을 식별하는, 제어 방법.
제12항에 있어서,
상기 오브젝트의 발화 여부를 식별하는 단계는,
상기 제3 변화량에 상기 제1 변화량을 차감한 값을 시그모이드 함수에 입력하여 상기 오브젝트의 발화 확률을 식별하는, 제어 방법.
제9항에 있어서,
상기 오브젝트의 발화 여부를 식별하는 단계는,
상기 영상에 대응되는 오디오로부터 상기 오브젝트의 음성을 획득하고, 상기 획득된 음성의 진폭 값을 상기 오디오의 진폭 값으로 나눈 비율이 기설정된 값 보다 큰 경우, 상기 제1 내지 제3 변화량을 식별하고, 상기 제1 내지 제3 변화량에 기초하여 상기 오브젝트의 발화 여부를 식별하는, 제어 방법.
제15항에 있어서,
상기 진폭 값은,
주파수 별 진폭의 RMS(Root Mean Square) 값인 것을 특징으로 하는, 제어 방법.