KR20190138188A

KR20190138188A - 음성 수집 장치 및 방법

Info

Publication number: KR20190138188A
Application number: KR1020180064456A
Authority: KR
Inventors: 이혜정; 이종민
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2019-12-12
Also published as: KR102111762B1

Abstract

일 실시예에 따른 음성 수집 장치는 영상에 포함된 인물의 얼굴을 분석하는 분석부와, 상기 분석부에 의해 분석된 결과를 기초로 상기 영상에 포함된 음성 중 추출의 대상이 되는 음성의 구간을 선정하는 선정부와, 상기 선정부에 의해 추출의 대상으로 선정된 구간에 상응하는 음성을 상기 영상에 포함된 음성으로부터 추출하는 추출부와, 상기 추출부에 의해 추출된 음성을, 상기 분석된 결과로부터 도출된 상기 인물에 대한 정보와 대응시켜서 저장하는 저장부를 포함한다.

Description

음성 수집 장치 및 방법 {APPARATUS AND METHOD FOR COLLECTING VOICE}

본 발명은 음성 수집 장치 및 방법에 관한 것이다.

최근 미디어 컨텐츠에 대한 다양한 미디어 서비스가 소개되고 있다. 시청자는 미디어 서비스를 통해 미디어 컨텐츠와 관련된 다양한 정보를 제공받을 수 있다. 예컨대, 시청자는 미디어 컨텐츠에 등장하는 인물, 장소, 배경 음악 또는 상품과 같은 다양한 객체에 대해 정보를 제공받을 수 있다.

이 중, 미디어 컨텐츠에 등장하는 인물에 대한 정보에 대해 살펴보기로 한다. 인물에 대한 정보에는 예컨대 해당 인물의 프로필 정보나 해당 인물이 등장하는 미디어 컨텐츠 자체에 대한 정보 등이 포함될 수 있다.

뿐만 아니라 해당 인물이 해당 미디어 컨텐츠에서 등장하는 시점에 대한 정보도 인물에 대한 정보에 포함될 수 있다. 이러한 시점에 대한 정보를 이용하면, 해당 미디어 컨텐츠의 재생 지점을 해당 인물이 등장하는 시점으로 이동시키는 서비스의 제공이 가능하다.

한편, 미디어 컨텐츠와 관련된 전술한 인물에 대한 정보가 시청자에게 제공되기 위해서는 미디어 컨텐츠에 등장하는 인물은 누구인지, 미디어 컨텐츠의 어느 부분에서 인물이 등장하는지, 등장하는 인물의 프로필은 어떠한지 등과 같은 정보가 획득되어서 해당 미디어 컨텐츠에 삽입되어야 한다. 여기서, 이러한 정보의 획득 방법에는 예컨대 미디어 컨텐츠의 제작자 내지 편집자가 직접 해당 미디어 컨텐츠를 분석하여서 정보를 획득하는 방법 또는 해당 미디어 컨텐츠에 딥러닝과 같은 영상 분석 기법 등을 적용하여서 그에 포함된 인물이 누구인지를 식별한 뒤, 식별된 인물에 보다 구체적인 정보를 웹(web) 등에서 획득하는 방법 등과 같은 다양한 방법들이 있다.

한국특허등록공보, 제 10-1855241 호 (2018.04.30. 등록)

미디어 컨텐츠에 등장하는 인물에 대한 정보를 추출하는 방법에는 미디어 컨텐츠를 구성하는 영상을 분석하는 방법, 해당 미디어 컨텐츠를 구성하는 음성을 분석하는 방법 또는 해당 미디어 컨텐츠를 구성하는 영상과 음성을 모두 분석하는 방법 등이 있다.

여기서, 미디어 컨텐츠를 구성하는 음성을 분석하거나 음성과 영상을 모두 분석하는 방법의 경우, 사전에 마련된 각 인물에 대한 음성 데이터베이스를 활용할 수 있다.

이에, 본 발명의 해결하고자 하는 과제는 다양한 미디어 컨텐츠로부터, 이들 미디어 컨텐츠 각각에 등장하는 인물의 음성을 수집하는 기술을 제공하는 것이다.

또한, 이와 같이 수집된 음성을 활용하여서, 소정의 미디어 컨텐츠에 등장하는 인물에 대한 정보를 제공하는 것이다.

다만, 본 발명의 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

일 실시예에 따른 음성 수집 방법은 음성 수집 장치에 의해 수행되며, 영상에 포함된 인물의 얼굴을 분석하는 단계와, 상기 분석하는 단계에서 분석된 결과를 상기 영상에 포함된 음성 중 추출의 대상이 되는 음성의 구간을 선정하는 단계와, 상기 선정하는 단계에서 선정된 구간에 상응하는 음성을, 상기 영상에 포함된 음성으로부터 추출하는 단계와, 상기 추출하는 단계에서 추출된 음성을, 상기 분석된 결과로부터 도출된 상기 인물에 대한 정보와 대응시켜서 저장하는 단계를 포함한다.

일 실시예에 따른 컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램은 영상에 포함된 인물의 얼굴을 분석하는 단계와, 상기 분석하는 단계에서 분석된 결과를 상기 영상에 포함된 음성 중 추출의 대상이 되는 음성의 구간을 선정하는 단계와, 상기 선정하는 단계에서 선정된 구간에 상응하는 음성을, 상기 영상에 포함된 음성으로부터 추출하는 단계와, 상기 추출하는 단계에서 추출된 음성을, 상기 분석된 결과로부터 도출된 상기 인물에 대한 정보와 대응시켜서 저장하는 단계를 수행하도록 프로그램된다.

일 실시예에 따르면, 인물 별 음성이 해당 인물에 대한 정보와 함께 데이터베이스의 형태로 획득될 수 있다. 기존에는 각 인물의 음성을 별도로 수집하기가 용이하지 않았으나, 일 실시예에 따르면 영상이 주어지기만 하면 해당 영상으로부터 각 인물의 음성이 음성 수집 장치에 의해 자동으로 또는 기계적으로 수집되어서 데이터베이스화될 수 있다. 아울러, 각 인물의 음성 그 자체 뿐만 아니라, 각 인물의 음성을 특징짓는 고유 정보까지도 해당 인물에 대한 정보와 함께 데이터베이스의 형태로 획득될 수 있다.

이와 같이 데이터베이스화된 인물의 음성은 추후 음성만을 이용해서 인물을 식별하는 프로세스 내지 음성과 영상을 결합하여서 인물을 식별하는 프로세스 등에서 활용될 수 있으며, 이 경우 인물 식별의 정확성 내지 속도가 향상될 수 있다. 예컨대, 영상 속의 인물이 성형을 하거나 분장을 하였다고 하더라도 또는 얼굴 인식만으로는 인물을 특정할 수 없는 경우라도(인물이 뒤를 돌아보거나 빠르게 달려가는 경우 또는 영상 속의 인물의 얼굴의 크기가 식별하기에 적합하지 않을 만큼 작은 경우 등), 일 실시예에 따른 인물의 음성에 대한 데이터베이스를 활용할 경우, 해당 영상에서 어떤 인물이 등장하는지 내지 해당 영상의 어느 부분에서 어떤 인물이 등장하는지에 대한 정보가 정확하면서도 빠르게 획득될 수 있다.

도 1은 영상 재생 장치에서 영상이 재생되고 있는 화면을 도시하고 있다.
도 2는 일 실시예에 따른 음성 수집 장치가 적용된 시스템을 도시하고 있다.
도 3은 도 2에 도시된 음성 수집 장치의 구성을 도시하고 있다.
도 4는 영상, 이러한 영상을 구성하는 복수 개의 장면 및 이러한 영상에 포함된 음성 중 수집된 음성의 구간에 대해 예시적으로 도시하고 있다.
도 5는 일 실시예에 따른 음성 수집 방법의 절차를 예시적으로 도시하고 있다.
도 6은 도 5에 도시된 음성 수집 방법의 절차를 보다 세분화하여서 도시하고 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 영상 재생 장치(10)에서 영상이 재생되고 있는 화면을 도시하고 있다. 먼저, 이하에서 영상이란 '미디어 컨텐츠'중 하나를 지칭하며, 소리(음성)가 정지 화상이나 동화상과 결합된 형태일 수 있다.

도 1을 참조하면, 영상 재생 장치(10)에서 재생되는 영상에는 적어도 하나의 객체(20,30)가 포함된다. 객체(20,30) 각각에는 메타 데이터(meta-data)가 부여된다. 메타 데이터에 대해 예를 들어 살펴보면, 인물인 객체(20)에 대해서는 인물의 이름, 성별, 생년월일, 해당 영상에서 인물이 언제 등장하는지 또는 해당 영상 이외에 해당 인물이 등장하는 다른 영상에 대한 정보 등이 있을 수 있다. 이와 달리 사물인 객체(30)에 대해서는 사물의 명칭, 가격 또는 판매하는 장소 등이 있을 수 있다. 다만, 메타 데이터의 종류 내지 메타 데이터가 부여되는 객체의 종류가 전술한 것들에 한정되는 것은 아니다.

도 2는 일 실시예에 따른 음성 수집 장치(100)가 적용된 시스템을 도시하고 있다. 다만, 도 2는 예시적인 것에 불과하므로, 음성 수집 장치(100)가 도 2에 도시된 시스템에만 한정 적용되는 것으로 해석되지는 않는다.

도 2를 참조하면, 영상 제공 서버(50)는 영상을 저장한다. 이러한 영상의 예로는 드라마, 뉴스, 쇼 프로그램이나 영화 같은 것이 있을 수 있으며, 다만 이에 한정되는 것은 아니다. 이러한 영상 제공 서버(50)는 방송국 등에 마련 내지 설치되어 있는 방송 장비 등일 수 있다.

영상 제공 서버(50)는 음성 수집 장치(100)에게 영상을 제공한다. 음성 수집 장치(100)에게 제공되는 이러한 영상은 음성 수집 장치(100)에서 인물에 대한 음성 데이터베이스 구축에 사용된다.

인물에 대한 음성 데이터베이스가 음성 수집 장치(100)에 구축 완료된 후에도, 영상 제공 서버(50)는 음성 수집 장치(100)에게 영상을 제공한다. 이 경우에 영상 제공 서버(50)로부터 음성 수집 장치(100)에게 영상이 제공되는 목적은, 해당 영상에 등장하는 인물에 대한 정보 등을 음성 수집 장치(100)로부터 획득하기 위해서일 수 있으나 이에 한정되는 것은 아니다.

영상 재생 장치(10)는 인물에 대한 메타 데이터가 부여된 영상을 재생하는 장치이다. 영상 재생 장치(10)는 예컨대 TV, 컴퓨터 또는 스마트 기기 등일 수 있으나 이에 한정되는 것은 아니다.

영상 재생 장치(10)가 재생하는 이러한 영상은, 영상 재생 장치(10)가 영상 제공 서버(50)로부터 제공받은 것이거나 또는 영상 재생 장치(10)가 음성 수집 장치(100)로부터 직접 제공받은 것일 수 있다.

음성 수집 장치(100)에 대해 살펴보기로 한다. 음성 수집 장치(100)는 영상 제공 서버(50)로부터 다양한 영상을 제공받아서 해당 영상에 등장하는 인물이 누구인지를 식별하고, 식별된 인물의 음성을 추출하며, 추출된 음성을 해당 인물에 대한 정보와 함께 데이터베이스의 형태로 저장한다. 즉, 음성 수집 장치(100)는 인물의 음성을 수집하여서 데이터베이스 형태로 가공한다.

아울러, 동일 인물에 대한 음성이 복수 개가 모일 경우, 음성 수집 장치(100)는 이와 같은 복수 개의 음성에 음성 핑거프린트와 같은 다양한 기법을 적용하여서 음성을 식별하는 고유 정보를 추출한 뒤, 이러한 고유 정보를 전술한 데이터베이스에 저장할 수 있다.

뿐만 아니라 음성 수집 장치(100)는 영상이 주어지면, 해당 영상에 등장하는 인물이 누구인지 등과 같은 메타 데이터를 추출한 뒤, 이러한 메타 데이터를 영상 제공 서버(50)에게 제공하거나 또는 해당 영상에 메타 데이터를 부여한 뒤 이러한 이러한 영상 자체를 영상 제공 서버(50)에게 되돌려줄 수도 있다. 이하에서는 이러한 음성 수집 장치(100)에 대해 보다 자세하게 살펴보기로 한다.

도 3는 일 실시예에 따른 음성 수집 장치(100)의 구성을 도시하고 있으며, 다만 도 3에 도시된 것은 예시적인 것에 불과하다. 이러한 음성 수집 장치(100)는 PC나 서버 등에서 구현될 수 있다.

도 3을 도 2와 함께 참조하면, 음성 수집 장치(100)는 저장부(120), 분석부(130), 선정부(140) 및 추출부(150)를 포함하며, 실시예에 따라 통신부(110), 고유 정보 추출부(160) 및 인물 판별부(170) 중 적어도 하나를 포함할 수 있다. 아울러, 도 3에 도시되지 않았지만 음성 수집 장치(100)의 구현에 필요한 기타 다양한 구성들이 음성 수집 장치(100)에 포함될 수 있다.

먼저, 통신부(110)는 데이터를 송수신하는 유/무선 통신 모듈로서 구현 가능하다. 음성 수집 장치(100)는 이러한 통신부(110)를 통해 영상 제공 서버(50) 또는 영상 재생 장치(10)와 데이터를 송수신할 수 있다.

저장부(120)는 데이터를 저장하는 메모리 등으로 구현 가능하다. 이러한 저장부(120)에는 복수의 인물 각각에 대한 음성이 해당하는 인물에 대한 정보와 함께 데이터베이스의 형태로 저장되며, 더 나아가서는 각각의 인물의 음성으로부터 추출된 고유 정보가 저장될 수도 있되, 다만 저장되는 정보가 이에 한정되는 것은 아니다.

한편, 도 3에 도시된 분석부(130), 선정부(140), 추출부(150), 고유 정보 추출부(160) 및 인물 판별부(170) 각각은 이하에서 설명할 기능을 수행하도록 프로그램된 명령어를 저장하는 메모리 및 이러한 명령어를 실행하는 마이크로프로세서에 의해 구현 가능하다.

먼저 분석부(130)에 대해 살펴보기로 한다. 분석부(130)는 영상을 분석한다. 여기서, 분석부(130)의 분석 대상인 영상은 음성 수집 장치(100)가 통신부(110)를 통해 영상 제공 서버(50)로부터 제공받은 것일 수 있으며 다만 이에 한정되는 것은 아니다.

분석부(130)는 분석 대상인 영상을 복수 개의 정지 화상, 즉 복수 개의 장면으로 분할할 수 있다.

또한, 분석부(130)는 이와 같이 분할된 각각의 장면에서 특징 벡터(feature vector)를 추출할 수 있다. 추출된 특징 벡터를 이용하여서, 분석부(130)는 각각의 장면에 얼굴이 포함되어 있는지를 분석할 수 있고, 얼굴이 포함되어 있다면 얼굴이 몇 개 포함되어 있는지 여부를 분석할 수 있다. 아울러, 분석부(130)는 각각의 얼굴에 대응되는 인물이 누구인지에 대한 정보를 합성곱 신경망 등과 같은 영상 식별 알고리즘 등을 이용하여서 획득할 수 있으며, 인물 식별이 된 경우 해당 얼굴이 그 다음 장면에서도 연속적으로 나타나는지를 추적(tracing)할 수 있다.

뿐만 아니라, 분석부(130)는 전술한 특징 벡터를 이용하여서 각각의 영상에 포함된 얼굴의 입술에서 움직임이 있는지를 분석할 수 있고, 입술 움직임이 있다면 이러한 움직임의 정도가 소정의 기준을 넘어서는지를 분석할 수 있다. 여기서 입술 움직임은 해당 장면을 기준으로 하였을 때 앞뒤로 각각 배치된 소정 개수의 장면 각각의 특징 벡터를 고려하여서 판별 가능하다. 뿐만 아니라, 분석부(130)는 전술한 특징 벡터를 이용하여서, 각각의 영상에 포함된 얼굴이 이러한 영상이 표시되는 화면 상에서 어디를 향하는지 그 방향(예컨대, 정면을 향하는지 여부 등)을 분석할 수 있다.

여기서, 영상을 복수 개의 장면으로 분할하는 과정 자체, 각각의 장면으로부터 특징 벡터를 추출하는 과정 자체 및 특징 벡터를 이용하여서 얼굴에 대응되는 인물을 식별 내지 분석하는 과정 그 자체는 공지된 기술이므로 이에 대한 설명은 생략하기로 한다.

아울러, 분석부(130)가 영상을 복수 개의 장면으로 분할하거나 분할된 장면 각각으로부터 특징 벡터를 추출하는 과정은 영상 분석을 수행하기 위한 하나의 예시적인 과정에 불과하다. 즉, 실시예에 따라서 영상을 복수 개의 장면으로 분할하지 않고도 전술한 분석 과정은 수행될 수 있으며, 또는 영상을 복수 개의 장면으로 분할하긴 하였지만 이러한 각각의 장면으로부터 특징 벡터를 추출하지 않고도 전술한 분석 과정은 수행될 수 있다.

선정부(140)는 분석부(130)에 의해 분석된 결과를 기초로, 이러한 영상에 포함된 음성 중 추출의 대상이 되는 음성의 구간을 적어도 한 개 선정한다. 여기서 '음성의 구간'이란 추출의 시작 지점과 끝 지점으로 정의되는, 시작 지점과 끝 지점 사이의 구간을 지칭한다. 음성의 구간의 길이는 다양한 값을 가질 수 있다. 예컨대, 선정부(140)는 런닝 타임이 2시간인 영상에서 1분 10초부터 1분 15초까지의 장면에 해당하는 제1 음성 구간, 1분 30초부터 1분 40초까지의 장면에 해당하는 제2 음성 구간, 3분 30초부터 3분 45초까지의 장면에 해당하는 제3 음성 구간과 같이 복수 개의 음성 구간을 선정할 수 있다. 다만, 음성 구간의 개수가 3개인 것, 각각의 음성 구간의 시작 지점과 끝 지점 그리고 음성 구간의 길이가 5초, 10초, 15초 등인 것은 예시적인 것에 불과하다. 아울러, 실시예에 따라서 음성 구간의 길이는 0.1초 또는 0.01초 단위이거나 또는 1분이나 10분 단위일 수도 있다.

선정부(140)가 추출의 대상이 되는 음성의 구간을 선정할 때에는 아래와 같은 기준을 활용할 수 있되, 이러한 기준은 예시적인 것에 불과하다.

먼저, 선정부(140)는, 분석부(130)에 의해 분석된, 각각의 장면마다 몇 개의 얼굴이 포함되어 있는지에 대한 결과를 고려할 수 있다.

분석 결과, 1개의 얼굴이 포함되어 있는 장면에 대해서 먼저 살펴보기로 한다. 이 경우 선정부(140)는 해당 장면이 다음 중 어느 하나의 예에 해당한다면, 해당 장면에 상응하는 음성의 구간을 추출의 대상으로 선정할 수 있으나, 어느 하나의 예에도 해당하지 않는다면 해당 장면을 선정 대상에서 제외시킬 수 있다.

제1 예 : 해당 장면에 나타난 얼굴의 입술에 소정 기준 이상의 움직임이 있는 장면

제2 예 : 해당 장면에 나타난 얼굴의 입술에 소정 기준 이상의 움직임이 있으면서 이와 함께 해당 장면이 표시되는 화면에 대해 해당 얼굴이 정면을 향하는 장면

제3 예 : 위의 제2 예에 해당하는 장면에 나타난 얼굴이 그 이후의 장면에서도 연속하여서 나타나면서 입술에 소정 기준 이상의 움직임이 있는 장면 (제3 예에서는 얼굴이 화면에 대해 정면을 향하지 않는 장면이라도 대상으로 선정될 수 있음)

이와 달리, 여러 개의 얼굴이 등장하는 장면에 대해 살펴보기로 한다. 이 경우 선정부(140)는 해당 장면에 나타난 복수 개의 얼굴 각각에 포함된 입술 중 1개의 입술에서만 소정 기준 이상의 움직임이 있는지를 살펴본다. 만약 2개 이상의 입술에서 소정 기준 이상의 움직임이 있다면 선정부(140)는 해당 장면을 선정의 대상에서 제외시킨다. 그러나 만약 1개의 입술에서만 소정 기준 이상의 움직임이 있다면, 선정부(140)는 1개의 얼굴이 등장하는 장면에 대해 언급한, 전술한 3가지 예에 기초하여서 추출의 대상이 되는 장면을 선정할 수 있다.

추출부(150)는 선정부(140)에 의해 추출의 대상으로 선정된 음성의 구간을 고려하여서, 이와 같이 선정된 음성의 구간에 상응하는 음성을 영상에 포함된 음성으로부터 추출한다. 여기서, 추출부(150)가 영상에 포함된 음성으로부터 소정 구간에 상응하는 음성을 추출하는 기술 그 자체는 공지된 기술이므로 이에 대한 설명은 생략하기로 한다.

저장부(120)는 추출부(150)에 의해 추출된 음성을, 추출된 음성을 발한 인물에 대한 정보와 대응시켜서 데이터베이스의 형태로 저장한다. 여기서, 추출된 음성을 발한 인물에 대한 정보는 분석부(130)로부터 제공받은 것일 수 있다.

즉, 일 실시예에 따르면, 인물 별 음성이 해당 인물에 대한 정보와 함께 데이터베이스의 형태로 획득될 수 있다. 기존에는 각 인물의 음성을 별도로 수집하기가 용이하지 않았으나, 일 실시예에 따르면 영상이 주어지기만 하면 해당 영상으로부터 각 인물의 음성이 음성 수집 장치에 의해 자동으로 또는 기계적으로 수집되어서 데이터베이스화될 수 있다.

한편, 도 4는 일 실시예에 따른 기술이 적용된 결과인, 분석의 대상이 되는 영상, 이러한 영상으로부터 분할된 복수 개의 장면 및 복수 개의 장면 각각에 대응되는 음성 중에서 추출의 대상으로 선정된 음성의 구간을 개념적으로 도시하고 있다.

분석부(130)는 전술한 바와 같이 영상(131)을 복수 개의 장면으로 분할하는데, 도 4에는 이러한 복수 개의 장면 중에 시간적으로 인접해있는 일부(a1 내지 a8)의 장면이 도시되어 있다. 선정부(140)는 이러한 장면(a1 내지 a8) 각각에 대한 분석 결과를 기초로, 영상(131)에 포함된 음성 중에서 추출의 대상이 되는 음성의 구간을 선정하는데, 이에 따라 선정된 구간은 장면 a1에 상응하는 음성의 구간 b1, 장면 a3에 상응하는 음성의 구간 b2, 장면 a4 내지 a6에 상응하는 음성의 구간 b3, 그리고 장면 a8에 상응하는 음성의 구간 b4이다.

여기서, 구간 b2와 b3는 서로 간에 인접해있는 장면(a3, a4 내지 a6)에 대한 구간임에도 서로 분리되어 있다. 이는 예컨대 구간 b2에 대응되는 장면 a3에 등장하는 인물이, 구간 b3에 대응되는 장면 a4부터 a6까지 등장하는 인물과 서로 상이하여서, 구간 b2에 대한 음성과 구간 b3에 대한 음성이 서로 구분되어야 함을 의미하는 것일 수 있다.

다시 도 3을 참조하면, 고유 정보 추출부(160)는 저장부(120)에 저장된 각 인물의 음성 복수 개를 이용하여서, 각 인물의 음성에 대한 고유 정보를 추출한다. 이 때 음성 핑거프린트와 같이 공지된 기술이 이용될 수 있으나 이에 한정되는 것은 아니다. 추출된 고유 정보는 각 인물에 매칭되어서 저장부(120)에 저장된다.

즉, 일 실시예에 따르면, 각 인물의 음성 그 자체 뿐만 아니라, 각 인물의 음성을 특징짓는 고유 정보까지도 해당 인물에 대한 정보와 함께 데이터베이스의 형태로 획득될 수 있다.

한편, 일 실시예에 따른 음성 수집 장치(100)는 인물의 음성 또는 이러한 음성으로부터 추출된 고유 정보를 수집하여서 데이터베이스 형태로 제공할 수 있지만, 이에 더하여서, 다음과 같은 기능을 제공할 수도 있다. 예컨대, 임의의 영상이 영상 제공 서버(50)로부터 주어지면, 해당 영상에 등장하는 인물에 대한 정보 등과 같은 메타 데이터를 추출한 뒤, 이러한 메타 데이터 자체를 영상 제공 서버(50)에게 제공하거나 또는 해당 영상에 메타 데이터를 부여하여서 영상 제공 서버(50)에게 되돌려줄 수도 있다. 이에 대해서는 도 3에 도시된 인물 판별부(170)를 참조하여서 살펴보기로 한다.

인물 판별부(170)는 머신 러닝 또는 딥러닝에 의해 학습된 것일 수 있다. 학습 시의 입력 데이터는 저장부(120)에 음성이며, 정답 데이터는 입력 데이터인 음성에 대응되도록 저장부(120)에 저장된 인물에 대한 정보일 수 있다. 학습이 완료된 후, 인물 판별부(170)에 소정의 영상이 입력되면, 인물 판별부(170)는 해당 영상에 등장하는 인물이 누구인지를 출력할 수 있다.

여기서, 인물 판별부(170)가 학습하는 과정 그 자체 내지 학습이 완료된 후에 동작하는 과정 그 자체는 머신 러닝 내지 딥러닝 분야에서 이미 공지된 기술이므로 이에 대한 설명은 생략하기로 한다.

도 5는 일 실시예에 따른 음성 수집 방법의 절차를 도시하고 있다. 도 5에 도시된 이러한 음성 수집 방법은 전술한 음성 수집 장치(100)에 의해 수행될 수 있다.

한편, 도 5에 도시된 절차는 예시적인 것에 불과하므로 본 발명의 사상이 도 5에 도시된 것으로 한정 해석되지는 않으며, 실시예에 따라서 도 5에 도시된 것과는 다른 순서로 절차가 수행될 수 있으며, 도 5에 도시된 절차 중 적어도 하나의 절차가 수행되지 않을 수도 있고, 도 5에 도시되지 않은 절차가 추가적으로 수행될 수도 있다.

먼저, 영상에 포함된 인물의 얼굴을 분석하는 단계(S100)가 수행된다.

이 후, 단계 S100에서 분석된 결과를 기초로, 상기 영상에 포함된 음성 중 추출의 대상이 되는 음성의 구간을 선정하는 단계(S200)가 수행된다.

이 후, 단계 S200에서 선정된 구간에 상응하는 음성을, 상기 영상에 포함된 음성으로부터 추출하는 단계(S300)가 수행된다.

이 후, 단계 S300에서 추출된 음성을, 단계 S100에서 분석된 결과로부터 도출된 상기 인물에 대한 정보와 대응시켜서 저장하는 단계(S400)가 수행된다.

이하에서는 도 5에 도시된 음성 수집 방법을 보다 세분화하고 있는, 하나의 실시예에 대해 도시하고 있는 도 6에 대해 살펴보기로 한다.

도 6을 도 1 내지 도 5와 함께 참조하면, 음성 수집 장치(100)는 통신부(110)를 통해 영상 제공 서버(50)로부터 분석 대상인 영상을 제공받는다(S1000).

분석부(130)는 단계 S1000에서 제공받은 영상을 복수 개의 정지 화상, 즉 복수 개의 장면으로 분할한다(S1050).

아울러, 도 6에는 도시되지 않았지만 분석부(130)는 단계 S1050에서 분할된 각각의 장면으로부터 특징 벡터(feature vector)를 추출한다.

분석부(130)는 각 장면에 대해 추출된 특징 벡터를 기초로, 각 장면에 얼굴이 포함되어 있는지 여부, 얼굴이 포함되어 있다면 몇 개의 얼굴이 포함되어 있는지 여부를 분석할 수 있다(S1100). 또한, 이러한 단계 S1100에서는 다음과 같은 정보가 추가적으로 분석될 수 있다. 예컨대, 각 장면에 포함된 얼굴이 어떤 인물의 얼굴인지에 대한 정보, 각 장면에 포함된 얼굴의 입술에서 움직임이 있는지 여부, 입술 움직임이 있다면 이러한 움직임의 정도가 소정의 기준을 넘어서는지 여부, 각 영상에 포함된 얼굴이 이러한 영상이 표시되는 화면 상에서 어떤 방향을 향하는지(예컨대 정면을 향하는지)에 대한 정보가 분석될 수 있다.

단계 S1150에서 선정부(140)는, 단계 S1050에서 분할된 복수 개의 장면 중 이전에 선택되지 않은 어느 하나의 장면을 선택한다.

이하에서는, 단계 S1150에서 선택된 장면에 1개의 얼굴이 포함되어 있는 경우에 대해 살펴본다(S1200). 선정부(140)는 단계 S1150에서 선택된 장면이 다음 중 어느 하나의 예에 해당한다면, 해당 장면에 상응하는 음성의 구간을 추출의 대상으로 선정할 수 있다. 그러나, 단계 S1150에서 선택된 장면이 어느 하나의 예에도 해당하지 않는다면 해당 장면을 선정의 대상에서 제외시킬 수 있으며, 이 후 단계 S1400으로 이동한다.

제2 예 (단계 S1210) : 해당 장면에 나타난 얼굴의 입술에 소정 기준 이상의 움직임이 있으면서 이와 함께 해당 장면이 표시되는 화면에 대해 해당 얼굴이 정면을 향하는 장면

여기서 도 6에 도시된 단계 S1210는 제2 예에만 대응되고 제1 예 및 제3 에에는 대응되지 않는 것으로 도시되어 있지만, 본 발명의 사상이 도 6에 도시된 것으로 한정해석되는 것은 아니다. 예컨대, 실시예에 따라서 단계 S1210에서는 도 6에 도시된 것과는 달리 제1 예 또는 제3 예에 대한 장면이 선정될 수 있다.

이와 달리, 여러 개의 얼굴이 등장하는 장면에 대해 살펴보기로 한다(S1300). 선정부(140)는 해당 장면에 나타난 복수 개의 얼굴 각각에 포함된 입술 중 1개의 입술에서만 소정 기준 이상의 움직임이 있는지를 살펴본다. 만약 2개 이상의 입술에서 소정 기준 이상의 움직임이 있다면 선정부(140)는 해당 장면을 선정의 대상에서 제외시킨다. 그러나 만약 1개의 입술에서만 소정 기준 이상의 움직임이 있다면, 선정부(140)는 1개의 얼굴이 등장하는 장면에 대해 언급한, 전술한 3가지 예에 기초하여서 추출의 대상이 되는 장면을 선정하며(S1310), 추출부(150)는 이와 같이 선정된 해당 장면에 상응하는 음성의 구간을 영상에 포함된 음성으로부터 추출한다(S1320).

추출부(150)에 의해 단계 S1220 또는 단계 S1320에서 추출된 음성은 그에 매칭되는 인물의 정보와 함께 저장부(120)에 저장된다 (S1230 또는 S1330).

단계 S1230 또는 S1330 이후에, 선정부(140)는 단계 S1150에서 선택되지 않은 장면이 단계 S1050에서 분할된 복수 개의 장면 중에 있는지를 살펴본다. 만약 있다면 단계 S1150으로 이동한다. 그러나 없다면 고유 정보 추출부(160)는 저장부(120)에 저장된 각 인물의 음성을 기초로 각 인물을 식별하는 고유 정보를 추출한다(S1500).

한편, 도 5 및 도 6에 도시된 음성 수집 방법의 경우 도 3에 도시된 음성 수집 장치(100)와 실질적으로 동일한 기술적 사상을 기초로 실시될 수 있는 바, 도 5 및 도 6에서 설명이 생략된 부분은 도 2 내지 도 4와 관련하여 설명된 음성 수집 장치(100)에 대한 설명 부분을 원용하기로 한다.

한편, 전술한 일 실시예에 따른 음성 수집 방법에 포함된 각각의 단계는, 이러한 단계를 수행하도록 프로그램된 컴퓨터 프로그램을 기록하는 컴퓨터 판독가능한 기록매체에서 구현될 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

일 실시예에 따르면, 각 인물의 음성이 해당 인물에 대한 정보와 함께 데이터베이스의 형태로 획득될 수 있다. 기존에는 각 인물의 음성을 별도로 수집하기가 용이하지 않았으나, 일 실시예에 따르면 영상이 주어지기만 하면 해당 영상으로부터 각 인물의 음성이 음성 수집 장치에 의해 자동으로 또는 기계적으로 수집되어서 데이터베이스화될 수 있다.

100: 음성 수집 장치

Claims

영상에 포함된 인물의 얼굴을 분석하는 분석부와,
상기 분석부에 의해 분석된 결과를 기초로 상기 영상에 포함된 음성 중 추출의 대상이 되는 음성의 구간을 선정하는 선정부와,
상기 선정부에 의해 추출의 대상으로 선정된 구간에 상응하는 음성을 상기 영상에 포함된 음성으로부터 추출하는 추출부와,
상기 추출부에 의해 추출된 음성을, 상기 분석된 결과로부터 도출된 상기 인물에 대한 정보와 대응시켜서 저장하는 저장부를 포함하는
음성 수집 장치.
제 1 항에 있어서,
상기 분석부는,
상기 얼굴에 포함된 입술의 움직임을 분석하는
음성 수집 장치.
제 2 항에 있어서,
상기 분석부는,
상기 영상이 표시되는 화면 상에서 상기 얼굴이 향하는 방향을 추가적으로 분석하는
음성 수집 장치.
제 3 항에 있어서,
상기 선정부는,
상기 분석부의 분석에 따라 상기 얼굴이 향하는 방향이 상기 화면에 대해 정면인 것으로 분석된 구간을, 상기 추출의 대상이 되는 음성의 구간으로 선정하는
음성 수집 장치.
제 1 항에 있어서,
상기 선정부는,
상기 영상에 포함된 장면에 나타난 얼굴의 개수가 1개인 장면에 대해 상기 선정 과정을 수행하는
음성 수집 장치.
제 1 항에 있어서,
상기 선정부는,
상기 영상에 등장하는 장면에 나타난 얼굴의 개수가 복수 개인 장면에 대해, 상기 복수 개의 얼굴 각각에 포함된 입술 중 1개의 입술에서 움직임이 있는 장면에 대해 상기 선정 과정을 수행하는
음성 수집 장치.
제 1 항에 있어서,
상기 저장부에 저장된 음성을 입력 데이터로 하고 상기 입력 데이터인 음성에 대응되도록 상기 저장부에 저장된 인물에 대한 정보를 정답 데이터로 하여 학습되어서, 소정의 음성이 입력되면 상기 소정의 입력에 대응되는 인물에 대한 정보를 출력하는 인물 판별부를 더 포함하는
음성 수집 장치.
제 1 항에 있어서,
상기 저장부에 저장된 음성으로부터 고유 정보를 추출하고, 상기 추출된 고유 정보를 상기 고유 정보가 추출된 음성에 대응되는 인물에 대한 정보와 매칭시키는 고유 정보 추출부를 더 포함하는
음성 수집 장치.
음성 수집 장치에 의해 수행되는 음성 수집 방법으로서,
영상에 포함된 인물의 얼굴을 분석하는 단계와,
상기 분석하는 단계에서 분석된 결과를 상기 영상에 포함된 음성 중 추출의 대상이 되는 음성의 구간을 선정하는 단계와,
상기 선정하는 단계에서 선정된 구간에 상응하는 음성을, 상기 영상에 포함된 음성으로부터 추출하는 단계와,
상기 추출하는 단계에서 추출된 음성을, 상기 분석된 결과로부터 도출된 상기 인물에 대한 정보와 대응시켜서 저장하는 단계를 포함하는
음성 수집 방법.
영상에 포함된 인물의 얼굴을 분석하는 단계와,
상기 분석하는 단계에서 분석된 결과를 상기 영상에 포함된 음성 중 추출의 대상이 되는 음성의 구간을 선정하는 단계와,
상기 선정하는 단계에서 선정된 구간에 상응하는 음성을, 상기 영상에 포함된 음성으로부터 추출하는 단계와,
상기 추출하는 단계에서 추출된 음성을, 상기 분석된 결과로부터 도출된 상기 인물에 대한 정보와 대응시켜서 저장하는 단계를 수행하도록 프로그램된
컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램.