KR100348901B1

KR100348901B1 - 오디오/영상물의 음향적 장면분할방법

Info

Publication number: KR100348901B1
Application number: KR1019990025031A
Authority: KR
Inventors: 최환진; 박동인; 박전규; 이원일
Original assignee: 한국전자통신연구원
Priority date: 1999-06-28
Filing date: 1999-06-28
Publication date: 2002-08-14
Also published as: KR20010004400A

Abstract

본 발명은 오디오자료나 영상물을 구성하는 주요 대상물의 소리를 이용하여 장면을 분할하는 오디오/영상물의 음향적 장면분할방법에 관한 것이다. 이러한 음향적 장면분할방법은, 음향적 장면으로 분할하고자 하는 오디오자료 혹은 영상물에 등장하는 대상물(사람, 동물, 악기, 음향기기 등을 모두 지칭)이 내는 소리(대상물이 내는 모든 소리를 지칭)별로 소리모델을 생성하여 저장하는 제1단계와, 상기 오디오자료 혹은 영상물로부터 제공되는 임의의 소리의 시작부터 종료까지의 분할구간에서 상기 임의의 소리와 유사도가 가장 높은 소리모델을 해당 분할구간의 소리모델로 설정하는 제2단계, 및 상기 오디오자료 혹은 영상물을 상기 소리모델별로 음향적 장면분할하는 제3단계를 포함한다.

Description

오디오/영상물의 음향적 장면분할방법 { Segmentation of acoustic scences in audio/video materials }

본 발명은 오디오자료나 영상물과 같은 멀티미디어 자료들의 색인과 검색을 위한 장면분할방법에 관한 것으로서, 보다 자세하게 말하면 영상물을 구성하는 주요 대상물의 소리를 이용하여 장면을 분할하는 오디오/영상물의 음향적 장면분할방법에 관한 것이다.

오디오나 영상물과 같은 멀티미디어 자료들의 디지털화가 가속화됨에 따라, 디지털 정보로 변환된 오디오나 영상물을 손쉽게 색인하고 검색하는 방법에 대한개발이 요구되고 있다. 기존의 자료 색인검색방법은, 주로 영상물을 대상으로 하고 있으며 영상 내에서 장면이 변화된 부분을 추출하여, 추출된 부분을 장면이 전환되는 부분으로 인식한다. 이렇게 분할된 장면전환부분들은 장면들의 관련성을 고려하여 하나의 스토리(story) 혹은 에피소드(episode) 형태로 재구성된다.

하나의 영상물을 분할하기 위한 기존의 연구 중 첫 번째는, 뉴스의 경우 아나운서의 옆에 나오는 그래픽 뉴스박스 안의 문자들을 인식하고 그 문자를 토대로 장면을 분할하여, 그 장면의 분할영역에 대해서 인식된 문자로 표시하는 방법이다. 이때, 인식된 문자들은 검색을 위한 검색 키워드로 활용된다. 두 번째는, 얼굴인식을 통해서 장면에 등장하는 등장인물을 인식하고, 인식된 결과를 이용하여 장면을 분할하는 방법이다. 세 번째는, 장면을 구성하는 화면의 픽셀값들의 차이를 이용해서 분할하는 방법이다. 이 방법은 장면을 이해하기 보다는 장면의 변화를 기계적으로 탐지하여 이를 이용하여 분할을 수행한다. 분할에 대한 내용의 주석은 사람이 분할된 장면에 부여해야 한다.

상기한 장면분할방법은 자동적 분할이 용이하다는 장점이 있으나, 분할된 장면들을 조합하여 하나의 의미있는 스토리로 재구성하기에는 문제점이 있었다.

특히, 세 번째 방법의 경우, 장면인식(scene understanding)에 기본하지 않고 단순히 장면을 구성하는 픽셀값의 변화만을 가지고 장면을 분할하기 때문에, 적절한 분할이 이루어지지 못할뿐만 아니라, "주인공 A와 여주인공 B가 대화를 나누는 장면"과 같은 장면의 분할은 거의 불가능하다.

상기한 종래기술의 문제점을 해결하기 위하여 안출된 본 발명의 목적은, 영상물에 등장하는 주요 대상물(이하 인간, 동물, 악기 등을 모두 지칭)을 대상으로, 이들의 소리(이하, 음성(speech, voice), 사운드를 모두 지칭)에 기반하여 오디오자료 또는 영상물에서의 장면을 분할하는 방법을 제공하기 위한 것이다.

도 1은 본 발명의 한 실시예에 따른 화자인식에 의한 음향적 장면분할의 개요도,

도 2는 본 발명의 한 실시예에 따른 오디오/영상물의 음향적 장면분할방법의 수행 흐름도이다.

위와 같은 기술적 과제를 해결하기 위한 이 발명에 따르면, 영상물에 등장하는 주요 대상물들의 소리에 기반하여 오디오/영상물의 장면을 효과적으로 분할하는 방법이 제안된다. 이러한 오디오/영상물의 음향적 장면분할방법은, 음향적 장면으로 분할하고자 하는 오디오자료 혹은 영상물에 등장하는 대상물(사람, 동물, 악기, 음향기기 등을 모두 지칭)이 내는 소리(대상물이 내는 모든 소리를 지칭)별로 소리모델을 생성하여 저장하는 제1단계와, 상기 오디오자료 혹은 영상물로부터 제공되는 임의의 소리의 시작부터 종료까지의 분할구간에서 상기 임의의 소리와 유사도가 가장 높은 소리모델을 해당 분할구간의 소리모델로 설정하는 제2단계, 및 상기 오디오자료 혹은 영상물을 상기 소리모델별로 음향적 장면분할하는 제3단계를 포함한다.

상기 제1단계는, 상기 대상물이 내는 소리들을 디지털 형태로 변환하는 제1소단계와, 각각의 소리에서 특징 파라미터를 추출하는 제2소단계, 상기 소리의 특징 파라미터를 음성인식에 사용되는 인식모델을 사용하여 모델링하는 제3소단계,및 상기 각각의 소리에 대한 소리모델을 데이터베이스에 저장하는 제4소단계를 포함하는 것이 양호하다.

상기 인식모델은 은닉 마르코프모델, 동적정합모델, 신경회로망, 벡터양자화모델, 음향-지식기반모델을 이용하는 것이 보다 양호하다.

상기 소리모델은, 소리모델명, 성별, 대상물, 연령, 직업 등 소리모델이 가지는 여러 가지 속성들과 함께 저장되는 것이 보다 양호하다.

상기 제2단계는, 상기 분할구간에서의 소리를 디지털 형태로 변환하는 제1소단계와, 상기 소리에서 특징 파라미터를 추출하는 제2소단계, 상기 분할구간의 소리 특징 파라미터와 소리모델을 정합하는 제3소단계, 및 정합도가 가장 큰 소리모델을 상기 분할구간의 소리모델로 설정하는 제4소단계를 포함하는 것이 양호하다.

상기 제2단계의 제1소단계에서 상기 분할구간은 오디오자료의 분석 단위인 프레임단위로 이루어지는 것이 보다 양호하다.

또한, 본 발명에 따른 오디오/영상물 음향적 장면분할방법은, 상기 연결이 단절된 소리모델 구간(disconnected region)을 하나의 구간으로 연결하고, 지나치게 짧은 소리모델 구간은 삭제하며, 중첩된 소리모델 구간(overlapped region)은 소리모델별로 분리하는 등의 처리를 수행하는 후처리단계를 더 포함하는 것이 양호하다.

한편, 본 발명에 따르면, 컴퓨터에 위에서 설명한 오디오/영상물의 음향적 장면분할방법을 실행시키기 위한 프로그램이 저장된 기록매체가 제공된다.

본 발명의 상기 및 기타의 특성과 장점은 아래의 양호한 실시예에 대한 설명에 의해 좀 더 명료해질 것이다.

아래에서는 첨부된 도면을 참조하여 본 발명에 따른 오디오/영상물의 음향적 장면분할방법의 양호한 실시예에 대해 상세하게 설명하겠다.

본 발명에서 사용되는 용어 "음향적 장면(acoustic scene)"은 영상물의 오디오자료에서 대상물이 소리를 내는 부분을 말한다. 이러한 단위를 비디오자료에 대응되는 오디오자료의 "장면"으로 정의한다. 이러한 "음향적 장면"은 영상물에 존재하는 오디오자료에서 분할이나 검색을 위한 기본 단위로 사용되며, 오디오자료에 대한 검색단위로써의 활용이 가능하다.

보다 정확하게 기술하면, "음향적 장면"은 비디오자료나 오디오자료에서 하나의 대상물이 낸 소리의 시작부터 종료까지의 구간을 정의한 것으로, 소리의 시작과 종료사이 휴지(pause)가 나타나면 휴지의 시작부분을 소리의 시작부분에 대응되는 소리의 종료부분으로 간주하고, 휴지의 종료부분을 새로운 "음향적 장면"의 시작으로 간주한다. 이때, 동일한 대상자가 소리를 내면 휴지부분을 사이에 둔 두 개의 "음향적 장면"은 동일한 대상물을 소리모델로 가지게 된다.

장면분할방법 중 비디오자료를 이용하는 방법은, 장면인식 및 이해기술이 완전한 때에만 장면을 정확하게 분할할 수 있다. 그러나, 본 발명에 따른 음향적 장면분할방법은 비디오자체를 인식하기 보다는 영상의 구성을 위해서 전개되는 등장 대상물들의 소리를 중심으로 장면을 분할하기 때문에 보다 정확한 장면분할을 수행할 수 있다.

이러한 음향적 장면분할방법은 다음과 같은 경우에 좀더 유용하게 사용될 수있다. 첫째, "음식점에서 A와 B가 만나는 장면"의 경우, "A와 B"의 목소리가 등장하는 구간을 검출함으로써 그러한 장면을 검색할 수 있다. 물론, 음식점이라는 장소를 좀 더 중요시한다면 비디오자료를 이용하는 것이 유용할 수도 있다.

둘째, 오디오 자료는 언어적인 정보를 포함한다. 또한, 언어적인 정보는 대화를 통해서 교환된다. 비디오자료를 이용한 영상분할의 경우에는 분할된 장면을 규정하기가 쉽지 않지만, 오디오자료를 이용한 영상분할의 경우에는 분할된 장면을 규정하기가 비교적 쉽다. 왜냐하면, 오디오자료에 등장하는 화자들의 집합을 규정하는 것으로 장면을 규정할 수 있기 때문이다. 즉, 비디오자료만을 이용한 영상분할에 비해서 훨씬 명확한 장면의 정의가 가능해진다.

세째, 키워드 인식을 이용하여 장면을 설명하는 키워드 부분을 탐지할 수 있다. 이때 장면과 문장을 일치시키는 것은 매우 중요하다. 이를 위해서 키워드 인식기술을 사용할 수 있다. 이러한 점을 고려한다면 오디오자료뿐만 아니라 영상물에 있어서 "음향적 장면"은 영상물에 대한 오디오 분할 및 검색에 있어서 효과적으로 사용될 수 있다.

위에서 언급한 바와 같이 여러 면에서 유용한 음향적 장면분할방법은, 도 1에 도시된 바와 같이 오디오자료가 포함된 영상물과 등장인물의 화자모델들이 제공되면, 화자모델에 의한 영상물의 장면분할이 이루어진다. 이때, 각 화자별로 색인되고 각 화자모델의 소리에 의한 음향적 장면이 얻어진다.

도 2는 본 발명의 한 실시예에 따른 음향적 장면분할방법을 도시한 전체적인 흐름도이다.

도 2를 참조하면, 음향적 장면분할방법은 크게 세 부분으로 나누어진다. 즉, 영상물에 등장하는 대상물의 소리모델링을 위해 음성자료를 수집하는 과정과, 수집된 음성자료에 대해 소리모델을 생성하는 과정과, 영상물에서 소리모델을 인식하여 음향적 장면을 분할하는 과정으로 나누어진다.

이를 상세하게 설명하면, 먼저 영상물에 등장하는 소리를 수집하여야 한다. 여기서, 소리란 영상물이나 오디오자료에 등장하는 대상물이 발성하는 소리를 지칭한다. 소리자료의 수집은 비디오 녹화나 라디오의 녹음등을 통해서 이루어지며, 소리별로 충분한 자료를 수집해야 한다.

즉, 영상물의 오디오신호가 입력되면 아날로그 형태에서 디지털 형태로 변환하고(S21), 특징 파라미터를 추출한(S22) 후 소리모델 생성단계로 제공된다.

소리모델 생성단계에서는, 소리인식을 위해서 소리모델을 생성한다(S23). 소리모델을 위해서 음성 인식에 사용되는 인식모델을 사용하는데, 이러한 인식모델로는 은닉 마르코프모델, 동적정합모델, 신경회로망, 벡터양자화모델, 음향-지식기반모델 등이 있다. 각 소리별로 소리모델을 작성하여 데이터베이스에 저장한다(S24).

다음, 음향적 장면분할하고자 하는 영상물의 오디오신호가 입력되면, 이 아날로그 형태의 오디오신호는 디지털 형태로 변환되고(S21), 특징 파라미터가 추출된(S22) 후, 음향적 장면분리단계로 제공된다.

이 음향적 장면분리단계는, 영상물의 오디오신호에 해당되는 소리모델을 식별하는 단계와 후처리단계를 거쳐 처리결과를 저장한다.

소리모델을 식별하는 단계를 살펴보면 다음과 같다. 입력된 영상물의 오디오신호가 디지털 형태로 변환되고 특징 파라미터가 추출된 후 입력되면, 소리모델 데이터베이스(S24)에 저장된 소리모델을 불러와서(S25) 상기 오디오신호와 정합시킨다. 이때 상기 오디오신호와 가장 유사한 소리모델을 해당 분할구간의 소리모델로 설정하고, 음향적 장면분리를 수행한다(S26). 여기서, 분할구간은 오디오자료의 분석단위인 프레임(frame) 단위로 설정되며, 이 분할구간에서의 신호들 중 일정한 임계값(threshold) 이상의 출력값을 갖는 소리만을 추출하여 소리모델과 정합시킴으로써, 음향적 장면분리를 수행한다. 여기서, 하나의 분할구간에는 복수의 소리모델들이 존재할 수 있으며, 하나 이상이 존재하는 경우에는 두가지 소리모델이 동시에 존재하는 것을 의미한다.

후처리단계(S27)에서는, 연결이 단절된 부분(disconnected region)을 하나의 구간으로 연결하고, 지나치게 짧은 소리모델 구간은 삭제하며, 중첩된 구간(overlapped region)은 소리모델별로 분리하는 등의 처리를 수행한다. 이러한 과정을 통해서 최종적으로 소리모델별 "음향적 장면"들을 식별하게 된다. 최종적으로 식별된 음향적 장면들은 다음과 같은 형태로 파일에 저장된다(S28).

<소리모델명><시작시간(msec)><종료시간(msec)>[<지속시간>]

여기서, <>은 변수로써, 해당값이 위치한다는 것을 의미하며, []는 옵션으로써 값이 해당위치에 존재할 수도 있고, 존재하지 않을 수도 있다는 것을 의미한다. 이렇게 만들어진 음향적 장면들은 "시간"이나 "소리모델"의 값을 사용하여 검색을 수행할 수 있게 된다. 상기한 소리모델명은 소리모델 속성의 하나로 모델의 이름을 표시하는 것으로서, 문자와 숫자, 일부 특수문자가 혼합된 형태의 문자열을 갖는다. 소리모델은 소리모델명, 성별, 대상물(동물의 종류, 사람, 의성어 등), 연령, 직업, 기타 소리모델을 규정할 수 있는 속성들을 갖는다. 또한, 소리모델의 지속시간, 소리모델이 등장하는 시작시간과 끝시간은 msec나 분(sec)단위로 표시가능하다.

이렇게 저장된 오디오자료/영상물의 검색 형태로는 지속시간에 의한 검색, 소리모델명에 의한 검색, 소리모델명의 조합에 의한 검색, 및 소리모델명들과 시간의 조합에 의한 검색이 가능하다. 지속시간에 의한 검색을 예로 들면, 지속시간=">10", 지속시간="=10", 지속시간="<10"으로 입력할 수 있으며, 이는 각각 10분 이상, 10과 같음, 10분 이하임을 의미한다. 소리모델명에 의한 검색을 예로 들면, 모델명="박수준", 소리모델명으로 "박수준"을 갖는 장면들을 추출한다. 모델명의 조합에 의한 검색을 예로 들면, "모델 A와 모델 B가 동시에 출현", "모델 A와 모델 B가 연속적으로 출현", "모델 A 다음에 모델 B가 출현" 등을 검색명으로 하여 원하는 오디오자료나 영상물을 검색할 수 있다.

위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호범위는 첨부된 청구범위에 의해서만 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.

이상과 같이 본 발명에 따르면, 영상물의 변화에 의존하여 장면을 분할하지 않고 영상을 구성하는 다른 매체인 오디오정보 즉, 사람의 목소리나 기타 가축의 목소리 등을 이용하여 장면을 분할하는 방법이 제공된다. 이러한 장면분할방법은 디지털 자료 구축을 위한 도구로 활용될 수 있으며, 멀티미디어 자료에서 자료의 주석을 자동적으로 부여할 수 있기 때문에 업무의 효율이 극대화되는 효과가 있다. 또한, 주석이 부여된 멀티미디어 자료는, 단일 화자 또는 여러 화자들이 동시에 나오는 장면들을 정확하고 용이하게 찾을 수 있기 때문에, 고가에 판매가 가능해지며 이로 인해 경제성이 향상되는 효과가 있다.

Claims

음향적 장면으로 분할하고자 하는 오디오자료 혹은 영상물에 등장하는 대상물(사람, 동물, 악기, 음향기기 등을 모두 지칭)이 내는 소리(대상물이 내는 모든 소리를 지칭)별로 소리모델을 생성하여 저장하는 제1단계와,

상기 오디오자료 혹은 영상물로부터 제공되는 임의의 소리의 시작부터 종료까지의 분할구간에서 상기 임의의 소리와 유사도가 가장 높은 소리모델을 해당 분할구간의 소리모델로 설정하는 제2단계, 및

상기 오디오자료 혹은 영상물을 상기 소리모델별로 음향적 장면분할하는 제3단계를 포함한 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법.
제1항에 있어서, 상기 제1단계는,

상기 대상물이 내는 소리들을 디지털 형태로 변환하는 제1소단계와,

각각의 소리에서 특징 파라미터를 추출하는 제2소단계,

상기 소리의 특징 파라미터를 음성인식에 사용되는 인식모델을 사용하여 모델링하는 제3소단계, 및

상기 각각의 소리에 대한 소리모델을 데이터베이스에 저장하는 제4소단계를 포함하는 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법.
제2항에 있어서, 상기 인식모델은 은닉 마르코프모델인 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법.
제2항에 있어서, 상기 인식모델은 동적정합모델인 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법.
제2항에 있어서, 상기 인식모델은 신경회로망인 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법.
제2항에 있어서, 상기 인식모델은 벡터양자화모델인 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법.
제2항에 있어서, 상기 인식모델은 음향-지식기반모델인 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법.
제2항에 있어서, 상기 소리모델은, 소리모델명, 성별, 대상물, 연령, 직업 등 소리모델이 가지는 여러 가지 속성들과 함께 저장되는 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법.
제1항에 있어서, 상기 제2단계는,

상기 분할구간에서의 소리를 디지털 형태로 변환하는 제1소단계와,

상기 소리에서 특징 파라미터를 추출하는 제2소단계,

상기 분할구간의 소리 특징 파라미터와 소리모델을 정합하는 제3소단계, 및

정합도가 가장 큰 소리모델을 상기 분할구간의 소리모델로 설정하는 제4소단계를 포함하는 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법.
제9항에 있어서, 상기 제1소단계에서 상기 분할구간은 오디오자료의 분석 단위인 프레임단위로 이루어지는 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법.
제1항에 있어서, 상기 연결이 단절된 소리모델 구간(disconnected region)을하나의 구간으로 연결하고, 지나치게 짧은 소리모델 구간은 삭제하며, 중첩된 소리모델 구간(overlapped region)은 소리모델별로 분리하는 등의 처리를 수행하는 후처리단계를 더 포함한 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법.
컴퓨터에,

음향적 장면으로 분할하고자 하는 오디오자료 혹은 영상물에 등장하는 대상물(사람, 동물, 악기, 음향기기 등을 모두 지칭)이 내는 소리(대상물이 내는 모든 소리를 지칭)별로 소리모델을 생성하여 저장하는 제1단계와;

상기 오디오자료 혹은 영상물로부터 제공되는 임의의 소리의 시작부터 종료까지의 분할구간에서 상기 임의의 소리와 유사도가 가장 높은 소리모델을 해당 분할구간의 소리모델로 설정하는 제2단계;

상기 오디오자료 혹은 영상물을 상기 소리모델별로 음향적 장면분할하는 제3단계; 및

상기 음향적 장면분할단계 후, 연결이 단절된 소리모델 구간(disconnected region)을 하나의 구간으로 연결하고, 지나치게 짧은 소리모델 구간은 삭제하며, 중첩된 소리모델 구간(overlapped region)은 소리모델별로 분리하는 등의 처리를 수행하는 제4단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.