KR20030070179A

KR20030070179A - 오디오 스트림 구분화 방법

Info

Publication number: KR20030070179A
Application number: KR1020020009209A
Authority: KR
Inventors: 빅토로프안드레이비; 레드코프빅토르브이; 마이보로다알렉산드르엘; 티코츠키아나톨리아이; 살미카엘에이; 그람니츠키세르게이엔
Original assignee: 엘지전자 주식회사
Priority date: 2002-02-21
Filing date: 2002-02-21
Publication date: 2003-08-29
Also published as: US7346516B2; US20030171936A1

Abstract

본 발명에 따른 오디오 스트림 구분화 방법은, 오디오 스트림 구분화 방법에 있어서, 구분화는 별개의 동종 신호들을 포함하는 세그먼트들의 형태로 오디오 스트림을 분할한다. 여기서, 오디오 스트림은 소정의 미디어를 이용하여 방송되거나 혹은 기록되는 일련의 디지털 표본들로 구성된다.

또한, 오디오 스트림 구분화는 제 1급 특성을 계산하는 단계와, 제 2급 특성을 계산하는 단계 및 판정 메이킹 분석 단계를 구비한다.

또한, 제 1급 특성을 계산하는 단계는, 오디오 스트림을 오디오 특징 벡터가 계산되는 프레임의 형태로 분할하여 수행된다. 여기서 오디오 특징 벡터는, 5개의 포르만트 주파수와, 제 1 및 제 2 반사 계수와, 예측 에러 계수의 에너지와, 프리엠퍼사이즈된 에너지비 계수로 이루어진다.

또한, 제 2급 특성을 계산하는 단계는, 미리 정해진 비중첩 윈도우의 시퀀스로 수행되고, 이들 각각의 윈도우는 제한된 개수의 프레임으로 이루어지며, 제 1급 특성 계산 단계에서 계산된 오디오 특징 벡터들을 갖는다. 또한, 제 2급 특성을 계산하는 단계는, 각각의 윈도우에 대한 통계적 특징 벡터의 계산으로 이루어진다.

또한, 판정 메이킹 분석 단계는, 초기 구분화 서브 단계, 정확 구분화 서브 단계, 및 내부 마커 정의 단계를 구비한다.

Description

오디오 스트림 구분화 방법{Method of the audio stream segmantation}

본 발명은 소정의 미디어를 이용하여 방송되거나 혹은 기록되는 오디오 데이터 스트림의 구분화(segmentation)에 관한 것으로, 이 오디오 데이터 스트림은 일련의 디지털 표본(samples)들이거나 혹은 일련의 디지털 표본들로 변형될 수도 있다. 이러한 구분화의 목적은 오디오 신호의 여러 상이한 물리적 신호원들에 대응하는 세그먼트들의 형태로 오디오 데이터 스트림을 분할하는 데 있다. 일부 신호원(들)과 일부 배경 신호원(들)이 오디오 신호를 발사하는 경우에 있어, 배경 신호원(들)의 파라미터들은 한 세그먼트의 프레임워크에서는 본질적으로는 변화하지 않는다.

기록 기기(recording equipment)에 대한 고객의 수준 향상과 더불어 오디오 및 비디오 기록은 일반적인 것이 되고 있다. 불행히도, 오디오 및 비디오 스트림 모두 원하는 기록부를 액세스하는데 도움이 될만한 실마리는 거의 제공하고 있지 못하다. 서적의 경우에는, 독자들이 작자별로 내용을 띄엄띄엄 읽을 수 있고, 작자를 참조할 수 있도록 앞부분에 내용에 대한 목록을 두고 뒷부분에 색인을 둠으로써 색인화가 제공된다. 유사한 색인화 방식이 오디오 스트림에 유용할 수 있으며, 예를 들어 특정 연설가가 이야기하고 있는 부분들(sections)의 위치(location)를 찾는데에 도움이 될 수 있다. 대부분의 오디오 레코드들과 연관된 제한적인 데이터량은 원하는 주요 포인트로의 확실하면서도 용이한 액세스에 요구되는 정보를 충분히 제공하지 못하고 있다. 따라서, 사용자는 원하는 정보의 검색을 위해서는 순서대로 레코드의 내용을 읽어야만 한다.

이러한 문제의 해결책으로서, 오디오 데이터 스트림 내의 오디오 이벤트들에 대한 자동 색인화 시스템을 이용하는 것이 가능하다. 색인화 처리(indexation process)는 2개의 순차적 부분 즉, 구분화 및 등급화 처리(segmentation and classification)로 이루어진다. 구분화 처리는 오디오 스트림을 (어떤 의미에서의) 동종의 세그먼트들로 분할하는 것을 포함하고 있다. 등급화 처리는 적절한 주석 (notes)을 이용하여 이들 세그먼트들에 속성을 부여하는 것을 포함하고 있다. 따라서, 구분화 처리는 색인화 처리에 있어 가장 중요한 단계이다. 이러한 문제에 대해, 공지 발명에서의 기본적인 통지(notice)가 제공된다.

오디오 스트림내의 기본적 오디오 이벤트들로는 음성, 음악, 잡음(즉, 비음성 및 비음악)을 고려하는 것이 수용된다. 세상에서의 기본적인 통지는 방송 뉴스 등과 같은 오디오 스트림의 분류화, 및 색인화 처리와 음성의 검출로 주어지고 있다.

방송 뉴스 데이터는 결국 우리에게는 여러 스피커를 통한 음성과, 배경 및 채널을 포함하고 있지만, 많은 비음성 정보도 포함하고 있는 길고 세그먼트화되지 않은 음성 스트림의 형태로 다가오고 있는 것이다. 따라서, 긴 스트림을 보다 작은 세그먼트들로 자를 필요가 있다. 비음성 정보는 무시될 수 있고, 동일하거나 유사한 신호원으로부터의 세그먼트들은 스피커의 정상화 혹은 조정을 위해 클러스터화 될 수 있으므로, 이들 세그먼트들을 동종의 것끼리 보다 작게 자르는 것또한 중요하다(각각의 세그먼트는 하나의 신호원으로부터의 데이터만 포함함).

1998년 버지니아, 랜즈다운에서 개최된 Proceedings of the Broadcast Newstranscription and Understanding Workshop 에서 발표된 Zhan 등의 논문 "Dragon Systems' 1997 Mandarin Broadcast News Systems"에는 거친 인식 통과(coarse recognition pass)시에 충분히 긴 묵음 영역을 찾기 위한 세그먼트 생성에 관한 기술이 개시되고 있다. 이 방법은 현저한 멀티스피커 세그먼트들을 발생시키고 있지만, 스피커의 어떠한 변화 정보도 구분화에 사용되지는 않고 있다.

1999년 3월 아리조나주, 포닉스에서 개최된 Proceedings of ICASSP'99에서 발표된 Wegmann 등의 연속적인 연구 논문 "Progress in Broadcast News Transcription at Dragon System"은 구분화 통과시에 스피커의 변화를 탐지하는 것을 이용하는 기술을 개시되고 있다. 다음은 자동 구분화 절차이다.

·진폭 기반 검출기는 입력이 20 내지 30초 길이의 덩어리로되는 것을 탐지하는데 사용된다.

·이들 덩어리는 2 내지 30초 길이로 잘라지며 고속의 워드 인식기로부터 발생된 장면들에 기초하고 있다.

·이들 세그먼트들은 스피커 변화 검출기를 이용하여 더 변경된다(refine).

Balasubramanian 등의 미국특허 제05606643호에는 대화자(speaker)에 따라 레코딩에 대한 오디오 스트림의 색인화를 토대로 검색을 가능하도록 하는 것이 개시되어 있다. 특히, 오디오 스트림은 대화자의 이벤트들로 세그먼트화될 수도 있고, 각각의 세그먼트는 이벤트의 유형 혹은 대화자의 동일 여부에 따라 분류될 수도 있다. 예를 들어 대화중인 여러 개인으로부터의 음성이 섞이는 경우, 오디어 스트림은 대화자의 차이에 따른 이벤트들로 분리될 수도 있으며, 확인된 혹은 마크된동일한 대화자에 의해 생성되는 세그먼트들을 갖는다.

실시간으로 혹은 후처리에서 오디오 스트림의 색인을 생성하는 것은 사용자로 하여금 오디오 데이터의 특정 세그먼트들의 위치를 알아낼 수 있도록 해준다. 예를 들어, 색인의 생성은 특정 대화자에 대응하는 오디오 세그먼트들을 선택하기 위한 레코딩을 사용자가 검색할 수 있도록 하거나 혹은 다음 대화자로의 레코딩을 통한 "고속 전송"을 가능하게 해준다. 더욱이, 여러 대화자에 대한 순서를 알면 대화에 대해 혹은 그 대화의 내용에 대한 실마리를 제공할 수도 있다.

구분화의 최종 목표는 구체적인 특성을 갖는 일련의 이산 세그먼트들인 잉여 상수(remaining constant)를 각각의 세그먼트내에서 발생시키는 것이다. 선택의 특성은 색인화 시스템의 전체적인 구조에 좌우된다.

1996년 Proc. ICASSP에서 발표된 Saunders의 논문 "Real-Time Discrimination of Broadcast Speech/Music" 993-996쪽에는 제로 크로싱(zero-crossing)에 기초한 음성/음악 식별기가 개시되고 있다. 그 응용은 라디오 방송에서의 광고와 프로그램간의 식별을 위한 것이다. 식별기는 고객의 라디오에 내장하기 위한 것이기 때문에 저렴하면서도 간단하다. 식별기는 제한된 대역폭, 교호적인 유성화부 및 무성화부, 제한된 피치 범위, 모음들로된 음절 구간, 고저 레벨간의 에너지 변화량 등으로 기술되고 있는 음성의 특성을 주로 검출하도록 설계된 것이다. 제로 크로싱은 파형의 주요 주파수에 대한 추정치를 제공하므로, 검출 처리를 수행하기 위해서 식별기는 파형의 진폭과, 피치 그리고 주기성에 대한 추정치를 간접적으로 이용하고 있는 것이다.

1996년 Proc. ICSP에서 발표된 Zue와 Spina의 논문 "Automatic Transription of General Audio Data: Preliminary Analyses" 594-597쪽에는 일련의 프레임에 걸쳐 켑스트럴 계수(cepstral coefficients)들의 평균을 이용하는 것이 개시되어 있다. 여기에는 음성이 4kHz로 대역이 제한되고 음악이 16kHz로 대역이 제한되는 경우에는 음성과 음악을 식별하는 작업이 용이하지만 이들 2 신호들이 16kHz 대역폭을 차지하게 되면 식별이 그다지 용이하지 않음을 보여주고 있다.

1997년 Proc. ICASSP에서 발표된 Scheier와 Slaney의 논문 "Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator" 1331-1334쪽에는 다양한 특징을 이용하는 것이 개시되어 있다. 이들 특징은 4개의 헤르츠 변조 에너지, 저에너지, 스펙트럼의 롤오프, 스펙트럼의 롤오프에 대한 변화, 스펙트럼의 중심, 이 스펙트럼 중심의 변화, 스펙트럴 플럭스(spectral flux), 스펙트럴 플럭스의 변화, 제로-크로싱률, 이 제로-크로싱률의 변화, 잔여 켑스트럴 계수, 이 잔여 켑스트럴 계수의 변화, 미터법에 따른 펄스(pulse metric) 등이다. 처음 2개의 특징은 진폭과 관련되어 있다. 다음 6개의 특징은 입력 신호의 미세한 스펙트럼으로부터 유도되므로 상기 참조 문헌에서 설명되고 있는 기술들과 관련되어 있다.

1999년 Proc. IEEE에서 발표된 Carey 등의 논문 "A Comparison of Features for Speech Music Discrimination" 149-152쪽에는 다양한 특징을 이용하는 것이 개시되어 있다. 여기에는 켑스트럴 계수, 델타 켑스트럴 계수, 진폭, 델타 진폭, 피치, 델타 피치, 제로-크로싱율, 델타 제로-크로싱율 등이 있다. 피치와 켑스트럴 계수는 미세하면서도 광범위한 스펙트럴 특징을 각각 망라하고 있다. 제로-크로싱파라미터들과 진폭은 다른 특징들에 대해 계산적으로는 비용이 많이 들지 않는 대안으로서 조사할만한 가치가 있는 것으로 믿어지고 있다.

본 발명은 상기와 같은 여건을 감안하여 창출된 것으로서, 입력 오디오 스트림을 동질의 음향적 특성을 갖는 세그먼트들의 형태가 될 수 있도록 하는 구분화 처리를 할 수 있는 오디오 스트림 구분화 방법을 제공함에 그 목적이 있다. 이러한 오디오 스트림은 어떤 미디어를 이용하여 방송되거나 혹은 녹음되는 일련의 디지털 표본(samples)들이다.

또한, 본 발명은 비교적 수적인 복잡성이 낮으면서도 고속인 구분화 처리를 제공할 수 있는 오디오 스트림 구분화 방법을 제공함에 다른 목적이 있다.

또한, 본 발명은 다양한 응용 분야에 적용될 수 있고, 비교적 간단한 집적 회로의 개발에 기초하여 구분화 처리가 산업적 규모로 행해질 수 있는 오디오 스트림 구분화 방법을 제공함에 또 다른 목적이 있다.

도 1은 본 발명에 따른 오디오 스트림 구분화 방법의 구현을 위한 시스템의 구성을 개략적으로 나타낸 도면.

도 2는 본 발명에 따른 오디오 스트림 구분화 방법에 있어서, 오디오 스트림 구분화 처리에 대한 전체적인 흐름도를 나타낸 도면.

도 3은 본 발명에 따른 오디오 스트림 구분화 방법에 있어서, 오디오 스트림 구분화 처리에 대한 상세 흐름도를 나타낸 도면.

도 4는 본 발명에 따른 오디오 스트림 구분화 방법에 있어서, 초기 구분화에 대한 서브 단계의 흐름을 예시하는 도면.

도 5는 본 발명에 따른 오디오 스트림 구분화 방법에 있어서, 정확한 구분화에 대한 서브 단계의 흐름을 예시하는 도면.

도 6은 본 발명에 따른 오디오 스트림 구분화 방법에 있어서, 분할 마커의 위치 개선을 나타내는 도면.

도 7은 본 발명에 따른 오디오 스트림 구분화 방법에 있어서, 세그먼트내를 동일한 간격으로 한정하고 있는 것을 나타내는 도면.

상기의 목적을 달성하기 위하여 본 발명에 따른 오디오 스트림 구분화 방법은, 오디오 스트림 구분화 방법에 있어서, 상기 구분화는 별개의 동종 신호 (homogeneous signals)들을 포함하는 세그먼트들의 형태로 상기 오디오 스트림을 분할하는 점에 그 특징이 있다.

여기서, 상기 오디오 스트림은 소정의 미디어를 이용하여 방송되거나 혹은 기록되는 일련의 디지털 표본들인 점에 그 특징이 있다.

또한, 상기 오디오 스트림 구분화는 제 1급 특성을 계산하는 단계와, 제 2급 특성을 계산하는 단계 및 판정 메이킹 분석 단계를 구비하는 점에 그 특징이 있다.

또한, 상기 제 1급 특성을 계산하는 단계는, 상기 오디오 스트림을 오디오 특징 벡터(audio feature vector)가 계산되는 프레임의 형태로 분할하여 수행되는 점에 그 특징이 있다.

또한 상기 오디오 특징 벡터는, 5개의 포르만트 주파수(formant frequency)와, 제 1 및 제 2 반사 계수와, 예측 에러 계수의 에너지와, 프리엠퍼사이즈된 (preemphasized) 에너지비 계수로 이루어지는 점에 그 특징이 있다.

또한, 상기 제 2급 특성을 계산하는 단계는, 미리 정해진 비중첩 윈도우의 시퀀스로 수행되고, 이들 각각의 윈도우는 제한된 개수의 프레임으로 이루어지며, 상기 제 1급 특성 계산 단계에서 계산된 상기 오디오 특징 벡터들을 갖는 점에 그 특징이 있다.

또한, 상기 제 2급 특성을 계산하는 단계는, 상기 각각의 윈도우에 대한 통계적 특징 벡터(statistical feature vector)의 계산으로 이루어지는 점에 그 특징이 있다.

또한, 상기 통계적 특징 벡터는, 상기 포르만트 주파수의 평균값과, 상기 포르만트 주파수의 분산으로 이루어지는 제 1 서브 벡터; 및 상기 제 2 반사 계수의 평균값으로 승산된 상기 제 2 반사 계수의 최대 및 최소값 간의 차이와, 상기 예측 에러 계수의 분산과 평균값의 곱, 상기 예측 에러 계수의 에너지의 모듈의 합으로 나눈 상기 이웃하는 프레임들에 대한 예측 에러 계수의 에너지들 간의 차이에 대한모듈의 합, 상기 프리엠퍼사이즈된 에너지비 계수의 최대값 및 최소값 간의 차이, 및 상기 제 1 반사 계수가 소정의 임계값보다 수적으로 우세한 상기 윈도우내 프레임들의 수로 이루어지는 제 2 서브 벡터; 를 구비하는 점에 그 특징이 있다.

또한, 상기 판정 메이킹 분석 단계는, 초기 구분화 서브 단계, 정확 구분화 서브 단계, 및 내부 마커 정의 단계를 구비하는 점에 그 특징이 있다.

또한, 상기 초기 구분화 서브 단계는, 4개의 순차적 통계 특징 벡터의 분석에 기초하여 수행되어 분할 마커가 배치될 곳을 규정하는 점에 그 특징이 있다.

또한, 상기 4개의 순차적 통계 특징 벡터의 분석은, 상기 분할 마커의 설치에 대해 신호할 수도 있는 제 1 단계 - 이 경우 다른 단계는 수행되지 않음 -와, 상기 분할 마커의 부재에 대해 신호할 수도 있는 제 2 단계 - 이 경우 제 3 단계는 수행되지 않음 - 와, 상기 분할 마커의 부재 혹은 설치에 대해 신호하는 제 3 단계로 수행되는 점에 그 특징이 있다.

또한, 상기 제 1 단계는, 상기 통계 특징 벡터들 중 제 1 서브 벡터의 2개의 순차 좌표간의 차이에 대한 모듈의 계산 단계, 소정의 임계값과 계산된 값의 비교 단계, 및 적어도 하나의 상기 모듈이 대응하는 임계값보다 크면 상기 분할 마커를 설치하는 단계를 구비하는 점에 그 특징이 있다.

또한, 상기 제 2 단계는, 상기 통계적 특징 벡터 중 제 2 서브 벡터의 2개의 순차적 좌표들의 합과 상기 통계적 특징 벡터 중 제 2 서브 벡터의 다음 2개의 순차적 좌표들의 합간의 차이에 대한 모듈의 계산 단계, 소정의 임계값과 계산된 값의 비교 단계, 및 상기 모듈들 전체가 대응하는 임계값보다 작은 경우에는 분할 마커의 부재에 대해 신호하는 단계를 구비하는 점에 그 특징이 있다.

또한, 상기 제 3 단계는, 상기 통계적 특징 벡터 중 제 2 서브 벡터의 2개의 순차적 좌표들간의 차이에 대한 모듈의 계산 단계, 소정의 임계값과 계산된 값의 비교 단계, 상기 적어도 하나의 모듈이 대응하는 임계값보다 큰 경우 상기 분할 마커를 설치하는 단계 및 상반되는 경우에는 분할 마커의 부재를 신호하는 단계를 포함하는 점에 그 특징이 있다.

또한, 상기 정확 구분화 서브 단계는, 상기 초기 구분화에 대한 결과 및 상기 분할 마커에 인접한 프레임에 대해 계산된 상기 포르만트 주파수의 순차적 분석에 기초하여 수행되는 점에 그 특징이 있다.

또한, 상기 포르만트 주파수의 순차적 분석은, 상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈 값세트의 계산에 기초하여 행해지며, 각각의 모듈은 상기 분할 마커에 근접한 2개의 구간(인터벌) 동안 계산되는 점에 그 특징이 있다.

또한, 상기 인터벌들은 순차적 비중첩 인터벌이며, 이들 각각은 하나의 고정된 경계를 가지며, 상기 인터벌간의 경계는 상기 모듈 값세트의 계산이 수행될 때 변화되는 점에 그 특징이 있다.

또한, 상기 정확한 구분화에 대한 결과가 상기 분할 마커의 새로운 위치이고, 이 위치가 상기 포르만트 주파수 값의 평균치의 합간의 차이에 대한 모듈값의 최대값에 상당하는 점에 그 특징이 있다.

또한, 상기 내부 마커들의 정의에 대한 서브단은 2개의 내부 마커를 정의하며, 이들 내부 마커는 정확한 구분화에 대한 상기 서브단에서 수신된 각각의 세그먼트내의 가장 유사한 구간(인터벌)을 결정하는 점에 그 특징이 있다.

또한, 상기 2개의 내부 마커는, 상기 세그먼트의 좌측 및 우측 절반에 대응하며, 상기 세그먼트의 각각의 절반에 대한 상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈값 세트의 계산을 이용하여 별도로 계산되는 점에 그 특징이 있다.

또한, 상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈값은, 2개의 비중첩 인터벌 동안 계산되고, 이들 각각은 상기 세그먼트의 절반에 해당하며, 이들 2개의 인터벌간의 경계는 상기 모듈값 세트의 계산이 수행되는 경우 변화되는 점에 그 특징이 있다.

또한, 상기 내부 마커 각각은, 상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈값의 최대값에 대응하는 점에 그 특징이 있다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세히 설명한다.

도 1은 본 발명이 구현될 수 있는 오디오 처리 시스템의 전체적인 블록도이다. 일반적으로, 오디오 스트림은 오디오 트랙이 수반되는 녹화 방송에 의해 제공될 수도 있는 오디오 데이터의 신호원(2)인 녹화 비디오 혹은 다른 오디오 신호원으로부터 제공된다. 오디오 데이터는 범용의 컴퓨터 등과 같이 이미 알려져 있는 장치일 수도 있으며, 본 발명에 따라 구성되는 오디오 프로세서(3)로 전송된다. 이 오디오 프로세서는 오디오 데이터의 세그먼트들(4)을 출력한다.

도 2는 오디오 구분화 처리에 대한 전체적인 흐름도이다. 단계 10은 오디오 스트림 입력 예컨대, 입력된 방송 뉴스를 나타낸다. 그리고 단계 20은 오디오 스트림으로부터 오디오 특징 벡터들을 계산하기 위한 것이다. 이들 특징 벡터들은 오디오 스트림의 특성에 대한 특징(characteristic features)을 정의하고 있다. 다음 단계 30에서는 오디오 특징 벡터들로부터 일련의 통계적 특징 벡터들을 형성한다. 통계적 특징 벡터들은 오디오 특징 벡터들의 통계적 특성을 정의한다. 단계 40에서는 통계적 특징 벡터들의 변화가 분석되며, 이러한 분석에 기초하여 세그먼트 경계들에 대한 정의가 수행된다. 따라서, 제안되고 있는 구분화 처리는 오디오 신호의 통계적 특징 변화의 분석에 기초한 것이다. 오디오 스트림의 결과적인 색인 구분화에 대한 출력은 단계 50에서 수행된다.

도 3은 오디오 구분화 처리에 대한 상세한 흐름도이다. 오디오 스트림 데이터(10)의 입력 후, 디지털 표본들의 입력 시퀀스는 짧은(예를 들어, 10-20ms) 비중첩 프레임 형태로 분할된다(단계 21). 단계 25에서 특징 벡터들은 각각의 프레임에 대해 계산된다. 이러한 계산은 상기 프레임들을 포함하고 있으며 가능하게 중첩되는 윈도우들 내의 표본들에 대한 10차 LPC(Linear Predictive Coding)를 이용하여 수행된다.

LPC 분석의 토대가 되는 선형 자동 회귀 모델(autoregressive linear model)의 파라미터들은 신뢰성이 있으며 비교적 복잡하지 않은 계산을 이용하여 정의될 수도 있다. 다음의 파라미터들은 오디오 특징 벡터의 좌표를 형성한다.

A_i,i = 1.5 - 포르만트 주파수;

K¹, K²- 제1 및 제2 반사 계수;

E⁰- 예측 에러 계수의 에너지;

E¹- 프리엠퍼시스된 에너지비 계수.

파라미터 K¹, K², E⁰는 뉴저지주, Englewood Cliffs에 소재하는 Prentice-Hall, Inc사의 Marple, Jr의 1987년 논문 "Digital Spectral Analysis"에 따른 LPC 분석에 따라 동시에 계산된다. LPC 분석 이후, 10개의 계수인 LSP(Line Spectral Pairs)가 미국특허 제04393272호 혹은 1995년 6월 8일 발표된 ITU-T, Study Group 15 Contribution-Q. 12/15, Draft Recommendation G.729, 버전 5.0에 따라 계산된다. A_i,i = 1.5인 포르만트 주파수는 대응하는 LSP 계수들합의 반 정도로 계산된다. E¹은 일본의 동경에서 개최된 86 Proceeding ICASSP에서 발표된 Campbel 등의 논문 "Voiced/Unvoiced Classification of Speech with Applications to the U.S. Government LPC-10E Algotothm" 의 473-476쪽에 따라 규칙적 오디오 신호에 대해 6-dB 프리엠퍼시스된 제1차 차이 오디오 신호에서의 에너지의 비이다.

그 결과, 여기에는 오디오 특징 벡터(전부 9개의 특성)가 존재한다. 이들 벡터들은 한정된 물리적 의미와 오디오 스트림을 정확히 구분하기에 충분한 동적 범위를 갖고 있다. 구분화 처리의 추가 작업은 얻어진 데이터에 대한 통계적 분석이다. 통계적 특성에 대한 계산은 중첩되지 않은 제 2급 윈도우들 안에서 수행되며, 이들 각각의 윈도우는 몇몇 소정의 프레임으로 이루어진다(예를 들어, 하나의 윈도우내에 20-100개의 프레임). 따라서, 제 1차 특성에 대한 몇 개의 벡터들로 이러한하나의 윈도우를 설명한다. 오디오 특징 벡터들의 입력 시퀀스의 분할은 단계 31에서 수행된다. 단계 35에서는 특징 벡터들의 시퀀스가 통계적 특징 벡터들로 변환된다.

통계적 특징 벡터는 2개의 서브 벡터들로 이루어지며, 서브 벡터 중 첫 번째는

으로 이루어지고,

서브 벡터 중 두 번째는

으로 이루어지며, M은 한 윈도우 내의 프레임의 수이다.

그 결과, 통계적 특징 벡터들(전부해서 15개의 특성)이 존재한다.

이하 판정 메이킹(40)의 서브 단계들을 상세히 설명한다. 도 3은 본 발명에의해 개시되는 방법에 대한 개요를 보여주고 있다.

초기 구분화(100)의 서브 단계는 세그먼트들의 경계에 대응하는 분할 마커들이 하나의 제 2급 윈도우에 상응하는 정확도로 판정되는 방식으로 수행된다. 이전의 단계에 의해 수행되는 구분화 정밀도의 개선(단계 200)에 대한 서브 단계는 하나의 프레임에 상응하면서도 허위 세그먼트들을 배제하는 정확도로 각각의 분할 마커의 위치를 보정하는 것을 포함하고 있다. 내부 마커 정의(300)의 서브 단계는 각각의 세그먼트내 정지 구간(stationary interval)을 판정하는 것을 포함하고 있다. 시간적 경계를 갖는 비교차(not intersected) 오디오 세그먼트의 결과적 시퀀스가 단계 50에서 출력된다.

<초기 구분화의 서브단>

도 4는 도 3의 초기 구분화에 대한 서브단의 흐름을 예시하고 있다. 이 서브단에서 통계적 특징 벡터들, k=1...,k가 분석된다. 각각의 단계에서 이 서브단의 알고리즘은 4개의 순차적 입력 벡터로 분해된다. 분석 결과는 정보이며, 이 경우 분할 마커가 배치된다.

순차적 통계 특징 벡터들의 세트로부터 취해진 4개의 순차적 통계 특징 벡터을 살펴 본다(단계 136).

차이 Aⁱ _j= ｜Vi[k+j]-Vi[k+j+1]｜, j=0,1,2, i=1,...,10이 통계적 특징 벡터의 제1 서브 벡터를 위해 계산된다(단계 137). 이들 값 중 적어도 하나가 대응하는 소정의 임계값보다 크면(단계 138), 분할 마커가 제 2 범위의 윈도우들 사이에 설치된다(단계 139). 이러한 경우에는 서브 단의 또 다른 단계는 수행되지 않으며, 그 첫번째 벡터가 설치된 분할 마커 이후의 제 1 벡터가 되는 다음 4개의 벡터 가 순차적 통계 특징 벡터들의 세트로부터 해석을 위해 취해진다(단계 148). 이와 달리 차이들 Ai = ｜(Vi[k]+Vi[k+1]) - (Vi[k+2]+Vi[k+3])｜, i=11...15가 통계적 특징 벡터들의 제 2 서브 벡터들을 위해 계산된다(단계 140). 이들 값은 소정의 임계값과 매칭된다(단계 141).

이들 값 전부가 대응하는 임계값보다 작은 경우는 분할 마커의 부재에 해당한다(단계 142). 이 경우, 이 서브단의 최종 단계들은 수행되지 않으며, 그 첫 번째가 벡터 V[k+1]이 되는 다음 4개의 벡터가 해석을 위해 순차적 통계 특징 벡터들의 세트로부터 취해지게 된다(단계 143). 이와 달리 차이들 Aⁱ _j= ｜(Vi[k+j]-Vi[k+j+1]), i=11...15, j=0,1,2가 통계적 특징 벡터들의 제2 서브 벡터들을 위해 계산된다(단계 143). 이들 값 중 적어도 하나가 대응하는 소정의 임계값 보다 크면(단계 144), 제 2 범위의 윈도우들 사이에는 분할 마커가 설치된다(단계 145). 이러한 경우 이 서브단의 또다른 단계는 수행되지 않으며, 그 첫번째 벡터가 설치된 분할 마커 이후의 제 1 벡터가 되는 다음 4개의 벡터들은 순차적 통계 특징 벡터의 세트로부터 취해지게 된다(단계 148). 이와 달리 그 첫 번째 벡터가 벡터 V[k+1]이 되는 다음 4개의 벡터들은 해석을 위해 순차적 통계 특징 벡터들의 세트로부터 취해지게 된다(단계 148). 만일 분할 마커가 판단 단계 147에서 취해지게 된다면, 초기 구분화의 서브단은 종료되며 초기 구분화 마커는 정확한 구분화의 서브단으로 진행하게 된다.

<정확한 구분화의 서브단>

도 5는 도 3의 정확한 구분화의 서브단에 대한 흐름도(200)를 예시하고 있다. 이 제공된 단의 동작의 의미는 분할 마커 위치의 개선으로 이루어진다. 이는 각각의 분할 마커에 가까운 LSP 계수 A_i, i=1,...,5(도 5 참조)의 시퀀스에 대한 정확한 통계적 분석의 결과로 달성된다. n개의 프레임으로 이루어지며, 포르만트 주파수 계수에 가까운 약간의 이웃하는 것들이 있는 임의의 분할 마커 μ를 고려해보기로 한다. 단계 210에서 그 차이가 평가된다:

최대값 Sj에 대응하는 인수(argument)는 단계 220에서 계산된다.

단계 230에서 새로운 분할 마커는 도 6에 음영으로 표시된 사각형들 사이의 J에 대응하는 위치내에 배치된다. 도 4의 단계 148에서, 벡터의 시프트는 새로운 마커의 위치로부터 수행된다.

<내부 마커들의 정의에 대한 서브단>

최종 구분화의 내부 마커들의 정의에 대한 서브단은 세그먼트내 가장 유사한 구간을 정의하는 2개의 내부 마커들(μ^int, η^int)의 정의를 위한 목적으로 각각의 세그먼트를 해석한다. 이러한 해석은 다음의 목적으로 행해진다: 놓여진 분할 마커들은 상이한 성질의 2개의 오디오 이벤트들을 분리함. 이들 이벤트들은 규칙적으로 서로 원할하게 통과하게 되며 거친 경계(drastic border)를 갖지는 않는다. 따라서, 2개의 이벤트들에 대한 정보를 포함하는 시간적 구간(interval)이 존재한다. 이는 이벤트들의 정확한 분류를 방해할 수도 있다.

이전의 서브단에서처럼 이러한 태스크는 각각의 분할 마커에 가까운 포르만트 주파수 계수 Ai, i=1,...,5의 시퀀스에 대한 정확한 통계적 분석을 이용하여 해결된다. 마커 μ와 η로 국한되며(따라서, η- μ= n+1 프레임), 포르만트 주파수 계수로 구성되는 임의의 세그먼트를 고려해보기로 한다(도 7 참조).

먼저 2개의 차이가 평가된다:

2번째로 최대값 S_1j와 S_2j에 해당하는 인수가 계산된다:

다음에 도 7에 음영으로 표시된 사각형들 사이의 J₁, J₂에 대응하는 위치에 새로운 마커 μ^int와 η^int가 배치된다.

이에 따라 구분화 처리가 종료된다. 그 결과, 시간적 경계를 갖는 비교차 오디오 간격의 시퀀스가 얻어진다.

이상에서 살펴본 바와 같이, 본 발명에 따른 구분화 처리는 3단계로 이루어지며, 이들 단계는 제 1급 특성 계산, 제 2급 특성 계산, 및 메이킹 결정(decision making) 단계이다. 제 1급 특성 계산 단계는 입력 오디오 스트림으로부터의 오디오 특징 벡터들을 계산하기 위한 것이다. 이들 특징 벡터들은 오디오 신호들의 특성을 정의하고 있다. 제 2급 특성 계산 단계에서는 오디오 특징 벡터들의 시퀀스로부터 통계적 특징 벡터들에 대한 시퀀스를 형성하게 된다. 이 통계적 특징 벡터들은 제 1급 특징 중의 통계적 특징들을 정의한다. 메이킹 결정 단계에서는 제 2급 특징의 변화를 분석하고 이 분석에 기초하여 세그먼트들의 경계를 한정하는 과정을 수행한다.

이상의 설명에서와 같이 본 발명에 따른 오디오 스트림 구분화 방법에 의하면, 구체적인 특성을 갖는 일련의 이산 세그먼트들인 잉여 상수를 각각의 세그먼트에서 발생시킴으로써 동질의 음향 특성을 검출할 수 있는 장점이 있다.

Claims

오디오 스트림 구분화 방법에 있어서,

상기 구분화는 별개의 동종 신호(homogeneous signals)들을 포함하는 세그먼트들의 형태로 상기 오디오 스트림을 분할하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 1항에 있어서,

상기 오디오 스트림은 소정의 미디어를 이용하여 방송되거나 혹은 기록되는 일련의 디지털 표본들인 것을 특징으로 오디오 스트림 구분화 방법.
제 1항에 있어서,

상기 오디오 스트림 구분화는 제 1급 특성을 계산하는 단계와, 제 2급 특성을 계산하는 단계 및 판정 메이킹 분석 단계를 구비하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 3항에 있어서,

상기 제 1급 특성을 계산하는 단계는, 상기 오디오 스트림을 오디오 특징 벡터(audio feature vector)가 계산되는 프레임의 형태로 분할하여 수행되는 것을 특징으로 오디오 스트림 구분화 방법.
제 4항에 있어서,

상기 오디오 특징 벡터는, 5개의 포르만트 주파수(formant frequency)와, 제 1 및 제 2 반사 계수와, 예측 에러 계수의 에너지와, 프리엠퍼사이즈된 (preemphasized) 에너지비 계수로 이루어지는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 3항에 있어서,

상기 제 2급 특성을 계산하는 단계는, 미리 정해진 비중첩 윈도우의 시퀀스로 수행되고, 이들 각각의 윈도우는 제한된 개수의 프레임으로 이루어지며, 상기 제 1급 특성 계산 단계에서 계산된 상기 오디오 특징 벡터들을 갖는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 3항 또는 제 6항에 있어서,

상기 제 2급 특성을 계산하는 단계는 상기 각각의 윈도우에 대한 통계적 특징 벡터(statistical feature vector)의 계산으로 이루어지는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 7항에 있어서, 상기 통계적 특징 벡터는,

상기 포르만트 주파수의 평균값과, 상기 포르만트 주파수의 분산으로 이루어지는 제 1 서브 벡터; 및

상기 제 2 반사 계수의 평균값으로 승산된 상기 제 2 반사 계수의 최대 및 최소값 간의 차이와, 상기 예측 에러 계수의 분산과 평균값의 곱, 상기 예측 에러 계수의 에너지의 모듈의 합으로 나눈 상기 이웃하는 프레임들에 대한 예측 에러 계수의 에너지들 간의 차이에 대한 모듈의 합, 상기 프리엠퍼사이즈된 에너지비 계수의 최대값 및 최소값 간의 차이, 및 상기 제 1 반사 계수가 소정의 임계값보다 수적으로 우세한 상기 윈도우내 프레임들의 수로 이루어지는 제 2 서브 벡터; 를 구비하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 3항에 있어서, 상기 판정 메이킹 분석 단계는,

초기 구분화 서브 단계, 정확 구분화 서브 단계, 및 내부 마커 정의 단계를 구비하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 9항에 있어서,

상기 초기 구분화 서브 단계는, 4개의 순차적 통계 특징 벡터의 분석에 기초하여 수행되어 분할 마커가 배치될 곳을 규정하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 10항에 있어서,

상기 4개의 순차적 통계 특징 벡터의 분석은, 상기 분할 마커의 설치에 대해신호할 수도 있는 제 1 단계 - 이 경우 다른 단계는 수행되지 않음 -와, 상기 분할 마커의 부재에 대해 신호할 수도 있는 제 2 단계 - 이 경우 제 3 단계는 수행되지 않음 - 와, 상기 분할 마커의 부재 혹은 설치에 대해 신호하는 제 3 단계로 수행되는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 11항에 있어서, 상기 제 1 단계는,

상기 통계 특징 벡터들 중 제 1 서브 벡터의 2개의 순차 좌표간의 차이에 대한 모듈의 계산 단계, 소정의 임계값과 계산된 값의 비교 단계, 및 적어도 하나의 상기 모듈이 대응하는 임계값보다 크면 상기 분할 마커를 설치하는 단계를 구비하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 11항에 있어서, 상기 제 2 단계는,

상기 통계적 특징 벡터 중 제 2 서브 벡터의 2개의 순차적 좌표들의 합과 상기 통계적 특징 벡터 중 제 2 서브 벡터의 다음 2개의 순차적 좌표들의 합간의 차이에 대한 모듈의 계산 단계, 소정의 임계값과 계산된 값의 비교 단계, 및 상기 모듈들 전체가 대응하는 임계값보다 작은 경우에는 분할 마커의 부재에 대해 신호하는 단계를 구비하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 11항에 있어서, 상기 제 3 단계는,

상기 통계적 특징 벡터 중 제 2 서브 벡터의 2개의 순차적 좌표들간의 차이에 대한 모듈의 계산 단계, 소정의 임계값과 계산된 값의 비교 단계, 상기 적어도 하나의 모듈이 대응하는 임계값보다 큰 경우 상기 분할 마커를 설치하는 단계 및 상반되는 경우에는 분할 마커의 부재를 신호하는 단계를 포함하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 9항에 있어서, 상기 정확 구분화 서브 단계는,

상기 초기 구분화에 대한 결과 및 상기 분할 마커에 인접한 프레임에 대해 계산된 상기 포르만트 주파수의 순차적 분석에 기초하여 수행되는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 15항에 있어서,

상기 포르만트 주파수의 순차적 분석은, 상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈 값세트의 계산에 기초하여 행해지며, 각각의 모듈은 상기 분할 마커에 근접한 2개의 구간(인터벌) 동안 계산되는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 16항에 있어서,

상기 인터벌들은 순차적 비중첩 인터벌이며, 이들 각각은 하나의 고정된 경계를 가지며, 상기 인터벌간의 경계는 상기 모듈 값세트의 계산이 수행될 때 변화되는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 15항 또는 제 16항에 있어서,

상기 정확한 구분화에 대한 결과가 상기 분할 마커의 새로운 위치이고, 이 위치가 상기 포르만트 주파수 값의 평균치의 합간의 차이에 대한 모듈값의 최대값에 상당하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 9항에 있어서,

상기 내부 마커들의 정의에 대한 서브단은 2개의 내부 마커를 정의하며, 이들 내부 마커는 정확한 구분화에 대한 상기 서브단에서 수신된 각각의 세그먼트내의 가장 유사한 구간(인터벌)을 결정하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 19항에 있어서,

상기 2개의 내부 마커는, 상기 세그먼트의 좌측 및 우측 절반에 대응하며, 상기 세그먼트의 각각의 절반에 대한 상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈값 세트의 계산을 이용하여 별도로 계산되는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 20항에 있어서,

상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈값은, 2개의 비중첩 인터벌 동안 계산되고, 이들 각각은 상기 세그먼트의 절반에 해당하며, 이들 2개의 인터벌간의 경계는 상기 모듈값 세트의 계산이 수행되는 경우 변화되는 것을 특징으로 하는 오디오 스트림 구분화 방법.
제 19항 내지 제 21항 중 어느 한 항에 있어서,

상기 내부 마커 각각은, 상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈값의 최대값에 대응하는 것을 특징으로 하는 오디오 스트림 구분화 방법.