KR20050051857A

KR20050051857A - 오디오 정보를 이용한 영상 검색 장치 및 방법

Info

Publication number: KR20050051857A
Application number: KR1020030085521A
Authority: KR
Inventors: 최준환
Original assignee: 삼성전자주식회사
Priority date: 2003-11-28
Filing date: 2003-11-28
Publication date: 2005-06-02

Abstract

본 발명은 오디오 정보를 이용한 영상 검색 장치 및 방법에 관한 것이다.

종래에는 동영상 내의 특정 인물 등장구간을 검색하고자 할 경우 변속/재생 모드등의 수동조작에 의존하는 방법으로 많은 시간과 노력을 들이거나, 영상 특징을 이용한 검색방법이 사용되어 부정확한 검색이 이루어지는 경우가 많았다. 본 발명에 따르면 동영상 내의 특정 인물 등장구간을 검색하는데 있어서 종래의 화자인식 기법을 도입하여, 사전에 추출된 특정 인물의 음성 파형 특징 샘플과 동영상의 오디오 신호중 음성 파형의 특징을 비교하여 유사도가 일정 임계값 이내인 동영상 구간을 검색한다. 상기 검색된 동영상 구간을 상기 특정인물이 등장하는 구간으로 판단하고 인덱싱함으로써, 검색 시간을 단축하고, 화자인식 기법이 지닌 높은 인식율을 통해 사용자가 원하는 특정 인물의 등장구간을 효과적으로 검색할 수 있다.

Description

오디오 정보를 이용한 영상 검색 장치 및 방법{Device and method for searching for image by using audio data}

본 발명은 동영상에서 특정인물이 등장하는 영상구간을 검색하는 장치 및 방법에 관한 것으로, 보다 상세하게는 특정 인물의 음성 파형 특징을 이용하여 동영상 내에서 특정한 인물이 등장하는 동영상 구간을 검색하는 영상 검색 장치 및 방법에 관한 것이다.

동영상 기록매체로서, 예를 들면 드라마가 기록된 매체의 경우 사용자에 따라 그 드라마 중에서 특정한 인물이 등장하는 장면이나 구간을 발췌하여 시청을 원하는 경우가 있다. 예를 들면 방송국에서 시나리오, 편집, 연기평가 등을 위해 녹화된 드라마에서 출연자별 등장구간을 검색하는 경우나, 가정에서 일반 시청자가 특정 인물의 등장구간만을 선별하여 시청하고자 하는 경우 등이다. 이는 드라마 뿐만이 아니라 영화등 다른 동영상에 대해서도 마찬가지로 나타난다.

이처럼 동영상에서 특정 인물이 등장하는 구간을 검색할 필요가 있는 경우, 종래에는 동영상 기록매체를 재생하면서 변속모드/재생모드 등의 수동 조작에 의존하여 해당 인물이 등장하는 구간을 일일이 직접 확인하면서 검색해야 했다.

이러한 방법은 기록매체를 처음부터 끝까지 재생하여 시청하기 전에는 어느정도의 진행장면에서 해당 인물이 등장하고 있는지의 여부를 인지하기 어렵다. 특히, 검색하고자 하는 인물의 수가 많은 경우 각 인물별로 등장구간을 검색하려면 하나의 동영상을 놓고 같은 작업을 수차례 반복해야 하는등 수작업에 의해서 검색하는데 적지 않은 노력과 시간이 소요된다.

영상 검색을 위한 다른 방법으로는 동영상의 장면 분할을 통한 구조화된 브라우징 검색 방식이나 영상의 정보들, 예를 들면 움직임, 색, 모양 등의 특징을 사용해 일정한 영역의 움직임을 찾아내는 방식이 사용되기도 한다.

특히, 전자 앨범에서 이미지를 검색해내는 방법이 동영상 검색에 유사하게 적용되기도 하는데, 이 방법에 의하면 사용자는 샘플 이미지를 등록하고 해당 이미지의 특징을 기술하는 이미지 기술자(image descriptor)를 추출한다. 사용자가 입력한 샘플 이미지의 이미지 기술자와 기록매체에 저장되어 있는 영상 프레임의 컬러패턴 및 레이아웃등을 비교하여 샘플 이미지와의 유사도가 특정 임계값 내의 프레임을 추출여 원하는 영상구간을 검색하게 된다.

이러한 방법을 사용하면 변속모드/재생모드 등의 수동 조작에 의존하는 검색방법보다 검색 시간을 단축할 수 있는 장점이 있다. 그러나 상기와 같은 종래의 영상 검색 방법에서는 영상내에 다수의 객체가 존재할 경우나 영상이 매우 많은 색 또는 질감의 특징을 포함하고 있는 경우에는 검색이 적절히 수행되지 않는 경우가 많았다.

또한 동일한 사람의 영상이라 할지라도 영상의 배경장소, 촬영장치, 날씨 또는 분장등의 다양한 변수가 있는경우, 취득한 영상에서 영상특징을 분석하면 각 영상마다 색상 특징등이 매우 다양하게 나타나게 되어 샘플과 동일한 인물이 등장하는 영상구간을 정확하게 검색하기가 어렵다는 단점이 있었다.

전술한 바와 같이, 종래의 방식으로 동영상 내에서 사용자가 원하는 특정 인물이 등장하는 구간을 검색하는 경우 많은 노력과 시간이 소요되거나 적절한 검색이 수행되지 않아 불편함이 제기 되었다.

본 발명은 상기의 문제점을 보완하기 위해 안출 것으로, 본 발명의 목적은 동영상 내의 특정 인물 등장구간을 검색하는데 있어서 종래의 화자인식(speaker recognition) 기법을 도입하여, 사전에 추출된 특정 인물의 음성 파형 특징 샘플과 동영상의 오디오 신호중 음성 파형의 특징을 비교하여 유사도가 일정 임계값 이내인 동영상 구간을 상기 특정인물이 등장하는 구간으로 판단하고 인덱싱함으로써, 검색 시간을 단축하고, 화자인식 기법이 지닌 높은 인식율을 통해 사용자가 원하는 특정 인물의 등장구간을 효과적으로 검색하도록 하는데 있다.

상기한 본 발명의 목적을 달성하기 위한 기술적 수단으로써, 본 발명의 일 실시예에 따른 오디오 정보를 이용한 영상 검색 장치는 기록매체에 기록된 동영상 데이터 중의 오디오 신호와 샘플 오디오 신호의 특징을 비교하여 유사도를 측정하는 분석부, 상기의 유사도가 임계값 이상인 부분에 해당하는 동영상 구간을 검색하고 인덱싱하는 제어부, 및 상기 인덱싱된 동영상 구간을 재생하는 재생부를 포함하여 이루어 진다.

또한, 본 발명의 일 실시예에 따른 오디오 정보를 이용한 영상 검색 방법은 기록매체에 기록된 동영상 데이터 중의 오디오 신호와 샘플 오디오 신호의 특징을 비교하여 유사도를 측정하는 단계, 상기의 유사도가 임계값 이상인 부분에 해당하는 동영상 구간을 검색하고 인덱싱하는 단계, 및 상기 인덱싱된 동영상 구간을 재생하는 단계를 포함하여 이루어 진다.

사람은 낯선 사람과의 대화에서도 상대방의 성별, 연령, 출신지방 등을 짐작할 수 있다. 이는 음성신호가 전달하고자 하는 언어적 내용 이외에도 화자(speaker)간의 차이에 의한 음향적 특징을 포함하고 있기 때문이다. 음성이 개인성 정보를 지니게 되는 요인은 화자의 발성기관의 해부학적 구조차이에 기인하는 선천적인 측면과 개인의 발성 습관으로 대표되는 후천적 측면으로 나누어 볼 수 있으며, 각 요인은 음향 파라미터의 정적 및 동적 특성의 차이로 관찰할 수 있다.

사람은 연령, 성별 등에 따라 성도(vocal tract), 성대(vocal cord), 비강(nasal tract)등의 발성 기관에 차이가 있고, 이는 음성의 음색, 발음 등 음향 특성에 영향을 미친다. 예를 들어, 발성 기관의 차이가 큰 남성과 여성은 동일한 단어를 발성하더라도 음향적으로 매우 큰 차이를 보인다. 남성이 여성보다 낮은 기본 주파수를 가지며, 포먼트(formant)의 주파수 대역이 변화하는 모양으로 차이가 있음을 알 수 있다.

이렇게 각 개인마다 발성기관의 차이로 발생되는 음향 정보를 이용하여 본인여부를 확인하는 기술을 화자인식 기술이라 한다. 이러한 화자인식 기술을 이용한 검색기의 인식율은 그 정확도가 지문검색의 수준에 이를 만큼 높으며 이미 생체인식 분야에서 널리 활용되고 있다.

동영상에서 특정 인물의 등장 구간을 검색하는 경우 상기와 같은 화자 인식 기술을 바탕으로 하여, 검색하고자 하는 인물의 음성특징을 검색장치에 샘플로 기억시켜 두었다가 상기 샘플과 일치하는 음성 특징을 갖는 동영상 구간을 추출하여 재생시키면 상기 특정 인물이 등장하는 구간의 검색을 적절히 수행 할수 있다.

이하, 본 발명의 실시예에 따른 오디오 정보를 이용한 영상 검색 장치 및 방법에 대해서 첨부한 도면을 참조하여 상세하게 설명한다

도 1은 본 발명의 일 실시예에 따른 오디오 정보를 이용한 영상 검색 장치의 개략적인 블럭도이다. 본 장치는 제어부(110), 재생부(120), 분석부(130), 디스플레이부(140)로 구성된다.

제어부(110)는 분석부(130)로부터 추출된 오디오 구간에 해당하는 동영상 구간을 인덱싱한다. 또는 상기 인덱싱된 동영상구간의 첫 영상 프레임을 각 동영상 구간의 대표장면으로 지정하고 상기 지정된 대표 장면들을 도표화한다.

재생부(120)는 상기 인덱싱된 동영상 구간들을 순차적으로 재생하거나, 상기 대표장면중 사용자에의해 선택된 대표장면이 포함되어 있는 동영상 구간을 재생시킨다. 또는, 상기 각 대표장면이 포함된 동영상 구간 전, 후로 사용자에 의해 재설정된 동영상 구간을 재생시킨다.

분석부(130)는 입력되는 동영상 데이터 중의 오디오 신호와 샘플 오디오 신호의 특징을 비교하여 유사도를 측정하고 유사도가 임의의 임계값 이상인 오디오 신호 구간을 추출한다. 디스플레이부(140)는 상기 재생되는 동영상을 디스플레이 한다.

도 2는 도 1의 분석부(130)를 보다 상세하게 나타낸 블럭도이다. 도시된 바와 같이 분석부(130)는 구간 검색부(132), 특징 추출부(134), 대조부(136)로 구성된다.

구간 검색부(132)는 오디오 신호중 음성이나 음향이 연속적으로 나타나는 부분을 각각 구간화 한다. 특징 추출부(134)는 입력되는 음성 또는 음향 신호 구간의 파형 특징을 구간 별로 추출한다. 대조부(136)는 특징 추출부(134)로부터 추출된 각 구간의 파형 특징과 사전에 추출된 특정 인물의 음성 파형 특징 샘플을 비교하여 유사도를 구하고 상기 유사도가 일정 임계값 이상인 구간을 검색 하게 된다.

도 3은 본 발명의 일 실시예에 따른 오디오 정보를 이용한 영상 검색 방법을 개략적으로 나타낸 플로우차트이다.

기록 매체에 저장된 동영상에서 특정 인물의 등장구간을 검색하고자 하는 경우 사용자는 검색하고자 하는 인물의 음성 파형 특징을 사전에 추출하여 샘플로 지정한다(S110). 상기 샘플로 지정할 특정 인물의 음성 파형은 인터넷등의 네트워크망을 통해 검색하여 추출하거나, 검색 대상 동영상을 변속/재생 모드로 수동 조작하여 특정인물이 최초로 등장하는 구간에서 추출할 수 있다. 또는, 기억부(도시하지 않음)를 추가하여 다양한 인물의 음성을 기억부에 저장하여 데이터 베이스로 만들어 두었다가 원하는 인물의 음성 파형을 상기 데이터 베이스에서 선택하여 샘플로 지정할 수도 있다.

검색 대상이 되는 동영상 데이터가 입력되면(S120), 제어부(110)는 입력된 동영상 데이터중 오디오 신호만 분리하여 구간 검색부(132)로 보낸다(S130). 분리된 오디오 신호는 구간 검색부(132)에서 음성 또는 음향이 연속적으로 나타나는 부분별로 구간화되고(S140), 특징 추출부(134)는 상기 구간화된 각 구간의 파형 특징을 추출한다(S150).

이렇게 추출된 각 구간의 파형 특징은 대조부(136)에 입력되고, 사전에 지정된 샘플의 파형 특징과 입력된 순서대로 비교되어 두 파형 특징의 유사도가 임의의 임계값 이상인 구간이 검색된다(S160). 제어부(110)는 상기 유사도가 임계값 이상인 음성 구간에 해당하는 동영상 구간을 샘플로 제시된 인물과 동일인이 등장하는 구간으로 판단하여 해당 동영상 구간을 인덱싱한다(S170). 인덱싱된 동영상 구간들은 디스플레이부(140)를 통해 순차적으로 재생된다.(S190)

동영상의 전 프레임을 검색하였으나 샘플과의 유사도가 임의의 임계값 이상인 구간이 없으면, 제어부(110)는 검색 대상 동영상에 사용자가 원하는 인물이 등장하지 않는 것으로 판단하여 디스플레이부(140)를 통해 검색된 구간 없음을 표시한다.(S185)

상술한 바와 같이 인덱싱된 동영상 구간들은 순차적으로 재생될 수도 있지만, 사용자에 따라 인덱싱된 구간중 사용자가 선택하는 동영상 구간만 재생하기를 원할 수도 있다.

도 4는 상기 인덱싱된 동영상 구간들을 재생시키는 단계(S190)를 더욱 세분화하여 사용자가 원하는 구간만 선택적으로 재생시키는 단계를 포함한 플로우차트이다. 제어부(110)는 인덱싱된 각 동영상 구간의 영상 프레임중 첫번째 프레임을 해당 동영상 구간의 대표 장면으로 지정하고(S192), 상기 지정된 대표장면을 도표화하여 디스플레이부(140)를 통해 표시한다(S194). 사용자는 각 대표장면중 원하는 장면을 선택할 수 있고, 제어부(110)는 상기 선택된 대표 장면이 포함된 동영상 구간을 재생부(120)를 통해서 재생시키게 된다(S196).

전술한 바와 같이 본발명에 따르면 동영상내에서 음성 파형 특징을 이용하여 특정 인물의 등장구간을 검색할 수 있다. 이와는 달리 특정 인물이 영상으로는 등장하지만 음성은 나타나지 않는 동영상 구간이 있을 수 있다. 예컨데 드라마상에서 특정인물이 잠시 침묵하고 있다가 말을 하는 경우에는 상기 특정 인물이 침묵하는 부분은 검색대상에서 제외된다. 검색된 동영상 구간내에 포함되지 않은 상기의 침묵부분까지 재생되기를 원하는 경우 사용자는 검색된 동영상의 각 대표장면을 선택하고 선택된 대표장면이 포함된 동영상 구간의 전, 후 프레임을 변속/재생 모드 등을 통하여 재검색할 수 있다. 검색 과정에서 상기 특정인물의 침묵 부분이 나타난다면 그 부분도 포함하되도록 재생구간을 재설정하고 재설정된 동영상 구간을 재생 시킬수 있다.

도 5는 본 발명의 일 실시예에 따른 도 1의 장치에 샘플 기억부를 부가하였을 경우 상기 도 3의 샘플 지정 단계(S110)의 과정을 보다 상세하게 나타낸 플로우차트이다. 최초, 사용자는 특정 인물의 음성 샘플이 기억부에 저장되어 있는지 확인한다(S112). 기억부에 특정 인물의 음성 샘플이 저장되어 있는 경우 이를 지정하여 검색을 수행할 수 있다. 그러나 기억부에 특정 인물의 음성 샘플이 저장되어 있지 않은 경우에는 인터넷등을 통하여 해당 인물의 음성 데이터를 다운로드 하거나 기록매체에 저장된 동영상을 변속/재생 모드를 통해 검색하여 상기 특정 인물의 음성이 나타나는 일정 부분을 구간화하여 입력한다(S114). 사용자는 특징 추출부(134)를 통해서 상기 입력된 음성의 파형 특징을 추출할 수 있으며(S116), 추출된 상기 음성 파형 특징을 샘플 기억부에 저장시키고(S118) 이를 샘플로 지정하여(S119) 검색을 수행할 수 있다.

전술한 본 발명의 일 실시예에서는 검색 대상을 특정 인물인 사람에 국한하였으나, 본발명에 의한 또다른 실시예로는 특정악기의 음향특징 또는 특정 동물의 음향특징등을 이용하여 상기 특정 악기나 특정 동물의 효과음이 나타나는 영상 구간 또한 본 발명을 사용하여 검색해 낼 수 있다.

이상, 본 발명을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되지 않으며, 본 발명의 기술적 사상의 범위 내에서 당해 분야에서 통상의 지식을 가지는 자에 의하여 여러 가지 변형이 가능하다. 따라서 본 발명에 따른 단순한 변경은 본 발명의 기술적 사상의 범위를 벗어날 수 없을 것이다.

상술한 바와 같이 본 발명에 따르면 동영상 내의 특정 인물 등장구간을 검색하는데 있어서 종래의 화자인식 기법을 도입하여, 사전에 추출된 특정 인물의 음성 파형 특징 샘플과 동영상의 오디오 신호중 음성 파형의 특징을 비교하여 유사도가 일정 임계값 이내인 동영상 구간을 상기 특정인물이 등장하는 구간으로 판단하고 인덱싱함으로써, 검색 시간을 단축하고, 화자인식 기법이 지닌 높은 인식율을 통해 사용자가 원하는 특정 인물의 등장구간을 효과적으로 검색할 수 있다.

도 1은 본 발명의 일 실시예에 따른 오디오 정보를 이용한 영상 검색 장치의 개략적인 블럭도.

도 2는 도 1의 분석부(130)를 보다 상세하게 나타낸 블럭도.

도 3은 본 발명의 일 실시예에 따른 오디오 정보를 이용한 영상 검색 방법을 나타낸 플로우차트.

도 4는 도 3의 인덱싱된 동영상 구간들을 재생시키는 단계(S190)를 구체화한 플로우차트.

도 5는 도 3의 샘플 지정 과정(S110)을 구체화한 플로우차트.

<도면의 주요 부분에 관한 부호의 설명>

110 : 제어부 120 : 재생부

130 : 분석부 132 : 구간 검색부

134 : 특징 추출부 136 : 대조부

Claims

기록매체에 기록된 동영상 데이터에 포함된 오디오 신호와 샘플 오디오 신호의 특징을 비교하여 유사도를 측정하는 분석부;

상기의 유사도가 소정의 임계값 이상인 부분에 해당하는 동영상 구간을 검색하고 인덱싱하는 제어부; 및

상기 인덱싱된 동영상 구간을 재생하는 재생부를 포함하여 구성되는 오디오 정보를 이용한 영상 검색 장치.
제 1항에 있어서, 상기 분석부는 상기 오디오 신호를 음성 또는 음향이 연속적으로 나타나는 부분별로 구간화하는 구간 검색부;

상기 검색된 각 구간의 음성 또는 음향의 파형 특징을 추출하는 특징 추출부; 및

상기 추출된 각 구간의 음성 또는 음향의 파형 특징과 상기 샘플 오디오 신호의 파형 특징을 비교하여 유사도가 소정의 임계값 이상인 구간을 추출하는 대조부를 포함하여 구성되는 것을 특징으로 하는 오디오 정보를 이용한 영상 검색 장치.
제 1항에 있어서, 상기 재생부는, 상기 인덱싱된 동영상 구간들을 검색된 순서대로 순차적으로 재생하는 것을 특징으로 하는 오디오 정보를 이용한 영상 검색 장치.
제 1항에 있어서, 상기 인덱싱된 동영상 구간들의 첫 영상 프레임은, 각 동영상 구간의 대표장면으로 선택되고, 상기 선택된 대표장면은 도표화하여 디스플레이되는 것을 특징으로 하는 오디오 정보를 이용한 영상 검색 장치.
제 4항에 있어서, 상기 재생부는, 상기 대표장면중 선택된 대표장면이 포함된 동영상 구간을 재생하는 것을 특징으로 하는 오디오 정보를 이용한 영상 검색 장치.
제 4항에 있어서, 상기 재생부는, 상기 각 대표장면이 포함된 동영상구간 전, 후로 재생구간을 재설정하고 상기 재설정된 동영상 구간을 재생하는 것을 특징으로 하는 오디오 정보를 이용한 영상 검색 장치.
기록매체에 기록된 동영상 데이터 중의 오디오 신호와 샘플 오디오 신호의 특징을 비교하여 유사도를 측정하는 단계;

상기의 유사도가 소정의 임계값 이상인 부분에 해당하는 동영상 구간을 검색하고 인덱싱하는 단계; 및

상기 인덱싱된 동영상 구간을 재생하는 단계를 포함하여 구성되는 오디오 정보를 이용한 영상 검색 방법.
제 7항에 있어서, 상기 유사도 측정 단계는, 상기 오디오 신호를 음성 또는 음향이 연속적으로 나타나는 부분별로 구간화하는 단계;

상기 구간화된 각 구간의 음성 파형 특징을 추출하는 단계; 및

상기 추출된 각 구간의 음성 파형 특징과 상기 샘플의 파형 특징을 비교하여 유사도가 소정의 임계값 이상인 구간을 검색하는 단계를 포함하여 구성되는 것을 특징으로 하는 오디오 정보를 이용한 영상 검색 방법.
제 7항에 있어서, 상기 인덱싱된 동영상 구간들의 재생은 검색된 순서대로 순차적으로 이루어 지는 것을 특징으로 하는 오디오 정보를 이용한 영상 검색 방법.
제 7항에 있어서, 상기 인덱싱된 동영상 구간들의 첫 영상 프레임을 각 동영상 구간의 대표장면으로 지정하고 상기 지정된 대표장면을 도표화하여 표시하는 단계를 더 포함하는 것을 특징으로 하는 오디오 정보를 이용한 영상 검색 방법.
제 10항에 있어서, 상기 재생되는 동영상 구간은, 상기 대표장면중 선택된 대표장면이 포함된 동영상 구간인 것을 특징으로 하는 오디오 정보를 이용한 영상 검색 방법.
제 10항에 있어서, 상기 재생되는 동영상 구간은, 상기 각 대표장면이 포함된 동영상구간 전, 후로 재설정된 재생구간인 것을 특징으로 하는 오디오 정보를 이용한 영상 검색 방법.