KR20010006942A

KR20010006942A - 컨텐츠 및 화자 정보를 이용한 오디오 정보 검색 방법 및장치

Info

Publication number: KR20010006942A
Application number: KR1020000016932A
Authority: KR
Inventors: 베이기호마윤사드르모하메드; 트릿쉴러알레인챨스루이스; 비스바나탄마헤쉬
Original assignee: 포만 제프리 엘; 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1999-04-09
Filing date: 2000-03-31
Publication date: 2001-01-26
Also published as: US6345252B1; JP3488174B2; JP2000348064A; TW469385B; KR100388344B1; CN1270361A; EP1043665A3; EP1043665A2

Abstract

본 발명은 화자의 신원뿐만 아니라 오디오 컨텐츠에 기초하여 오디오 정보를 검색하는 방법 및 장치에 관한 것이다. 컨텐츠 및 화자에 기초한 오디오 정보 검색 방법의 결과를 결합하여, 오디오 정보에 레퍼런스를 부여한다(비디오 정보에는 간접적으로 부여한다). 조회 서치 시스템은 텍스트 문자열(하나 이상의 키워드) 및 소정의 화자의 신원을 포함하는 텍스트 조회에 응답하여 정보를 검색한다. 인덱싱 시스템은 그 오디오 정보를 전기(轉記)하고 인덱싱하여, 시간 인덱싱하여 컨텐츠 인덱스 파일 및 화자 인덱스 파일을 생성한다. 오디오 검색 시스템은 발생된 컨텐츠 및 화자 인덱스를 사용하여 오디오 컨텐츠 및 화자 신원에 기초한 조회 문서 매칭을 행한다. 사용자 지정된 컨텐츠 및 화자 제약 조건을 만족시키는 문서는 컨텐츠 및 화자 도메인 모두에서 문서 세그먼트의 개시 시간과 종료 시간을 비교함으로써 식별된다. 사용자 지정 컨텐츠 및 화자 제약 조건을 만족시키는 문서에는 본 발명에 따라 사용될 수 있는 결합된 스코어가 할당되어, 리스트 상부에서 최적 매칭된 세그먼트를 가지며 사용자에게 리턴되는 식별된 문서에 순위를 부여한다.

Description

컨텐츠 및 화자 정보를 이용한 오디오 정보 검색 방법 및 장치{METHOD AND APPARATUS FOR RETRIEVING AUDIO INFORMATION USING CONTENT AND SPEAKER INFORMATION}

본 발명은 정보 검색 시스템에 관한 것으로, 더 구체적으로는 멀티미디어 파일 데이터베이스에서 사용자 지정 기준을 만족시키는 멀티미디어 정보, 예를 들면 오디오 및 비디오 정보를 검색하는 방법 및 장치에 관한 것이다.

정보 검색 시스템은 대량의 텍스트 컬렉션으로부터 텍스트 문서를 검색하는 것에 주로 초점을 두고 있다. 텍스트 검색의 기본 원리는 잘 제정되어 문서화되어 왔다. 예를 들면, 지. 샐튼(G. Salton)의 문헌(Automatic Text Processing, Addison-Wesley, 1989)을 참조할 것. 인덱스는 조회 기술(記述)과 문서 기술(記述) 메커니즘이다. 인덱싱 단계에서는 워드(word) 또는 구(phrases)의 리스트로서 문서를 기술하고, 검색 단계에서는 워드 또는 구의 리스트로서 조회를 기술한다. 문서 기술이 조회 기술과 일치할 때 문서(또는 그 일부)가 검색된다.

멀티미디어 객체, 예를 들면 오디오 및 비디오 파일에 요구되는 데이터 검색 모델은 텍스트 문서에 요구되는 것과는 매우 상이하며, 이러한 멀티미디어 정보를 인덱싱하기 위한 표준 특징들에 거의 일치하지 않는다. 오디오 데이터베이스를 인덱싱하는 방법으로는 일정한 오디오 신호, 예를 들면 박수 갈채, 음악 또는 음성을 이용하는 것이 있다. 유사하게는, 비디오 정보를 인덱싱하는 방법으로는 키 프레임, 또는 화면 변경(shot change)을 사용하는 것이 있다. 주로 음성인 오디오 및 비디오 정보, 예를 들면 방송 소스로부터 도출되는 오디오 및 비디오 정보에 대하여, 음성 인식 시스템을 사용하여 대응하는 텍스트를 발생할 수 있으며, 그 전기 (轉記)된 텍스트는 관련 오디오(및 비디오)를 인덱싱하는 데 사용될 수 있다.

현재, 오디오 정보 검색 시스템은 2개의 구성 소자, 즉 인덱싱을 위해 오디오 정보를 텍스트로 전기하는 음성 인식 시스템과, 텍스트에 기초한 정보 검색 시스템으로 구성된다. 음성 인식 시스템은 통상적으로 3개의 구성 소자, 즉 어휘, 랭귀지 모델 및 어휘에서의 각 워드에 대한 발음 집합에 의해 가이드된다. 어휘는 음성을 텍스트로 변환하는 음성 인식기에 의해 사용되는 워드 집합이다. 디코딩 처리의 일부로서, 인식기는 입력되는 음성으로부터의 음향을 어휘에서의 워드와 대조한다. 따라서, 어휘는 전기될 수 있는 워드를 형성한다. 어휘에 있지 않은 워드가 인식되어야 하는 경우 인식되지 않는 워드는 우선 어휘에 부가되어야 한다.

랭귀지 모델은 어휘에서 워드 시퀀스의 특정 도메인 데이터베이스이다. 또, 워드는 특정 순서로 발생할 가능성을 필요로 한다. 음성 인식기의 출력은 랭귀지 모델이 동작할 때 높은 가능성의 워드 시퀀스 쪽으로 바이어싱되게 된다. 따라서, 올바른 디코딩은 사용자가 랭귀지 모델 내에서 높은 가능성의 워드 시퀀스로 말하는지에 관한 함수이다. 따라서, 사용자는 비상(非常)의 워드 시퀀스로 말하면, 디코더 성능은 저하될 것이다. 워드 인식은 전적으로 그 워드에 대한 발음, 즉 워드의 음성 표현에 기초한 것이다. 가장 정확하게 하기 위해서는, 특정 도메인 랭귀지 모델이 사용되어야 한다. 이러한 랭귀지 모델을 생성하려면 오디오에 따라 텍스트가 명백하게 전기되어야 한다.

텍스트에 기초한 정보 검색 시스템은 통상적으로 2 단계로 동작하는데, 첫 번째 단계는 오프라인 인덱싱 단계이며, 텍스트 문서에 관한 관련 통계를 수집하여 인덱스를 작성한다. 두 번째 단계는 온라인 서치 및 검색 단계인데, 여기서 인덱스는 문서 조회 매칭을 실행하는 데 사용되며, 그 후 관련 문서(및 추가 정보)는 사용자에게 리턴된다. 인덱싱 단계 도중에, 음성 인식 시스템으로부터 출력되는 텍스트를 처리하여, 고속 서치용으로 검색 단계에 사용되는 문서 기술을 도출한다.

인덱싱 처리 도중에, 일반적으로 다음의 동작, 즉 (ⅰ) 토큰화 처리(tokenization), (ⅱ) 일부 음성 태그 처리, (ⅲ) 형태 분석 및 (ⅳ) 표준 스톱 워드 리스트를 사용하는 스톱 워드 제거의 순으로 실행된다. 토큰화 처리는 문장 경계를 검출한다. 형태 분석은 복수 형태를 나타내도록 태그에 따라 명사를 그들의 어근으로 분해시키는 언어 신호 처리의 한 가지 형태이다. 마찬가지로, 동사는 동사의 어근에 따라 인칭, 시제 및 법(法)을 나타내는 단위로 분해된다. 인덱싱 처리의 통상적인 논의을 위해, 본원 명세서에서 참조로 기재하고 있는, 예를 들면 에스. 다라니프라가더(S. Dharanipragada) 등의 논문("Audio-Indexing for Broadcast News" in Proc. SDR1997)을 참조할 것.

컨텐츠에 기초한 오디오 정보 검색 시스템은 사용자로 하여금 사용자 정의 조회에서 지정되는 하나 이상의 키워드를 포함한 오디오 파일을 검색할 수 있게 하는 반면에, 현재의 오디오 정보 검색 시스템은 사용자로 하여금 화자(話者)의 신원에 기초하여 관련된 오디오 파일을 선택적으로 검색할 수 없게 한다. 따라서, 화자의 신원뿐만 아니라, 오디오 컨텐츠에 기초하여 오디오 정보를 검색하는 방법 및 장치가 요구되고 있다.

도 1은 본 발명에 따른 오디오 검색 시스템의 블록도.

도 2a는 도 1의 컨텐츠 인덱스 파일의 문서 데이터베이스로부터의 테이블.

도 2b는 도 1의 컨텐츠 인덱스 파일의 문서 청크 인덱스로부터의 테이블.

도 2c는 도 1의 컨텐츠 인덱스 파일의 단일 문서 파일(항 주파수)로부터의 테이블.

도 2d는 도 1의 컨텐츠 파일의 인버스 문서 인덱스(IDF)로부터의 테이블.

도 3은 도 1의 화자 인덱스 파일로부터의 테이블.

도 4는 본 발명에 따라 대표 화자 등록 처리를 도시하는 도면.

도 5는 도 1의 오디오 검색 시스템에 의해 실행되는 예시적인 인덱싱 시스템 처리를 나타내는 흐름도.

도 6은 도 1의 오디오 검색 시스템에 의해 실행되는 예시적인 컨텐츠 및 화자 오디오 검색 시스템 처리를 나타내는 흐름도.

＜도면의 주요 부분에 대한 부호의 설명＞

100 : 오디오 검색 시스템

110 : 프로세서

120 : 데이터 저장 장치

150 : 오디오 집성 데이터베이스

200 : 컨텐츠 인덱스 파일

300 : 화자 인덱스 파일

500 : 인덱싱 시스템

600 : 컨텐츠 및 화자 오디오 검색 시스템

본 명세서에서는 화자의 신원 뿐만 아니라, 오디오 컨텐츠에 기초하여 오디오 정보를 검색하는 방법 및 장치가 기재되어 있다. 본 명세서에 기재된 오디오 검색 시스템은 컨텐츠 및 화자에 기초한 오디오 정보 검색 방법의 결과들을 결합하여 오디오 정보에 레퍼런스(비디오 정보에는 간접적으로)를 부여한다.

본 발명의 한 가지 특징에 따르면, 조회 서치 시스템은 텍스트 문자열(하나 이상의 키워드)을 포함하는 텍스트 조회에 응답하여 정보를 검색한다. 사용자 정의 조회의 제약 조건은 인덱스 오디오 또는 비디오 데이터베이스(또는 둘다)와 비교되고, 소정의 화자에 의해 화술되는 지정 워드를 포함하는 관련된 오디오/비디오 세그먼트는 검색되어 사용자에게 표시된다.

본 발명의 오디오 검색 시스템은 2개의 주요 구성 소자로 구성된다. 인덱싱 시스템은 오디오 정보를 전기하고 인덱싱하여, 시간 스탬핑된(time-stamped) 컨텐츠 인덱스 파일 및 화자 인덱스 파일을 생성한다. 오디오 검색 시스템은 생성된 컨텐츠 및 화자 인덱스를 이용하여 오디오 컨텐츠 및 화자 정보에 기초한 문서 조회 매칭을 행한다. 관련 문서(및 가능한 추가 정보)들은 사용자에게 리턴된다.

사용자 지정 컨텐츠 및 화자 제약 조건을 만족시키는 문서는 컨텐츠 및 화자 도메인 모두에서 문서 세그먼트의 개시 시간과 종료 시간을 비교함으로써 식별된다. 본 발명의 또 한 가지 특징에 따르면, 컨텐츠 및 화자 도메인간의 오버랩 범위가 고려된다. 그 이상을 오버랩하는 문서 세그먼트는 더 무겁게 가중된다. 통상적으로, 사용자 지정 컨텐츠 및 화자 제약 조건을 만족시키는 문서는 이하의 수학식 1을 사용하여 계산되는 결합된 스코어로 할당된다.

결합 스코어=(순위 부여된 문서 스코어+(람다*화자 세그먼트 스코어))*오버랩 인자

순위 부여된 문서 스코어는, 예를 들면 오카피 방정식(okapi equation)을 사용하는 컨텐츠에 기초한 정보 검색에 순위를 부여한다. 화자 세그먼트 스코어는 화자 세그먼트와 등록된 화자 정보간의 근접 정도를 나타내는 거리 측정치이고 인덱싱 단계 동안에 계산될 수 있다. 람다는 가변적이며 화자 신원 처리에서 신뢰성의 정도를 기록하고 제로(0)와 1 사이의 실수이다.

통상적으로, 오버랩 인자는 완전히 오버랩하지 않는 세그먼트에 패널티를 부여하며, 제로와 1 사이의 실수이다. 본 발명에 따르면, 결합 스코어를 사용하여, 사용자에게 리턴되고, 리스트의 상부에서 최적 매칭된 세그먼트를 갖는 식별 문서에 순위를 부여한다.

이하의 상세한 설명 및 도면을 참조하면, 본 발명의 특징 및 이점들 뿐만 아니라 본 발명을 더 완전하게 이해할 수 있을 것이다.

본 발명에 따른 오디오 검색 시스템(100)은 도 1에 도시되어 있다. 또한, 이하에서 설명되는 바와 같이, 오디오 검색 시스템(100)은 오디오 재료를 서치하는 2 가지의 별개의 방법의 결과를 결합하여, 화자의 신원 뿐만 아니라 오디오 컨텐츠에 기초한 오디오 정보에 레퍼런스(비디오 정보에는 간접적으로)를 부여한다. 구체적으로는, 사용자 지정 컨텐츠에 기초한 검색의 결과, 예를 들면 웹 서치 엔진의 결과는 본 발명에 따르면 화자에 기초한 검색의 결과와 결합된다.

본 발명에 의하면, 조회 서치 시스템은 추가 제약 조건, 즉 소정의 화자의 신원을 포함하는 텍스트 조회에 응답하여 정보를 검색한다. 따라서, 사용자 조회시는 하나 이상의 키워드 및 소정의 화자의 신원을 포함하는 텍스트 문자열을 포함한다. 본 발명에서는 사용자 정의된 조회의 제약 조건을 인덱싱된 오디오 및/또는 비디오 데이터베이스와 비교하고, 소정의 화자가 말하는 특정 워드를 포함하는 관련된 오디오/비디오 세그먼트를 검색한다.

도 1에 도시된 바와 같이, 본 발명의 오디오 검색 시스템(100)은 2개의 주요 구성 소자, 즉 오디오 정보를 전기하여 인덱싱하는 인덱싱 시스템(500)과, 컨텐츠 및 화자 오디오 검색 시스템(600)으로 구성된다. 또한, 이하에서 논의되는 바와 같이, 인덱싱 시스템(500)은 인덱싱 단계 중에 음성 인식 시스템으로부터 출력되는 텍스트를 처리하여, 컨텐츠 및 화자를 인덱싱한다. 검색 단계 중에, 컨텐츠 및 화자 오디오 검색 시스템(600)은 인덱싱 단계 중에 발생되는 컨텐츠 및 화자 인덱스를 사용하여, 오디오 컨텐츠 및 화자 신원에 기초한 문서 조회 매칭을 행하고 사용자에게 관련 문서(가능한 추가 정보)를 리턴한다.

이하에서 논의되는 바와 같이, 음성 인식 시스템은 전기(轉記)를 생성하며, 그 전기에서의 각 워드마다 시간 할당을 행한다. 종래의 정보 검색 시나리오와는 달리, 전기에 별도의 문서가 전혀 없기 때문에 인위적으로 발생시켜야 한다. 예시적인 실시예에 있어서, 컨텐츠에 기초한 인덱스에 대하여 각각의 오디오 또는 비디오 파일에 대응하는 전기된 텍스트는 고정 개수의 워드, 예를 들면 100 워드의 오버랩핑 세그먼트로 자동 분할되며, 각 세그먼트는 별도의 문서로서 처리된다. 선택적인 실시예에서, 토픽 식별 구성은 파일을 토픽으로 분할하는 데 사용된다. 마찬가지로, 화자에 기초한 인덱스에 대하여, 오디오 또는 비디오 파일은 소정의 화자와 관련된 각각의 세그먼트로 자동 분할된다. 따라서, 새로운 세그먼트는 새로운 화자가 말할 때마다 생성된다.

본 발명에서는 컨텐츠에 기초한 검색 및 화자에 기초한 검색에 의해 결정되는 오디오의 가장 적절한 부분이 설정된다. 컨텐츠에 기초한 인덱스에서 세그먼트의 크기는 대략 100 워드를 말할 때 걸리는 시간은 거의 30초이다. 그러나, 화자에 기초한 인덱스에서 세그먼트의 길이는 가변적이며, 화자 변경 검출기에 관한 함수이다. 따라서, 세그먼트 길이를 예측할 수 없다. 그러므로, 본 발명의 특징에 따라, 양 도메인에서 세그먼트의 개시와 종료 시간을 비교한다.

본 발명의 또 다른 특징에 따르면, 컨텐츠 및 화자 도메인 사이를 오버랩하는 범위가 고려된다. 그 이상을 오버랩하는 문서는 크게 가중된다. 통상적으로, 도 6과 관련하여 이하에서 더 논의되는 바와 같이, 이하의 수학식 1을 사용하여 결합된 스코어를 계산한다.

수학식 1

결합된 스코어=(순위 부여된 문서 스코어+(람다*화자 세그먼트 스코어))*오버랩 인자

순위 부여된 스코어는 예를 들면 이하에서 논의되는 오카피 방정식을 사용하여 컨텐츠에 기초한 정보 검색에 순위를 부여한다. 순위 부여된 문서 스코어는 조회 기간에 관한 함수이므로 검색 시간 중에 계산된다. 화자 세그먼트 스코어는 화자 세그먼트와 등록된 화자 정보 사이의 근접 정도를 나타내는 거리 측정치이며 인덱싱 단계 중에 계산될 수 있다. 람다는 가변적이며 화자 신원 처리에서 신뢰성의 정도를 기록하고 제로와 1 사이의 실수이다. 오버랩 인자는 완전하게 오버랩하지 않은 세그먼트에 패널티를 부여하며, 제로와 1 사이의 실수이다. 결합된 스코어는 사용자에게 리턴되고 리스트의 상부에서 최적 매칭되는 세그먼트를 갖는 식별된 문서에 순위를 부여하는 데 사용된다.

도 1은 본 발명에 따른 실례의 오디오 검색 시스템(100)의 구성을 도시한 블록도이다. 오디오 검색 시스템(100)은 범용 계산 시스템, 예를 들면 도 1에 도시된 범용 계산 시스템으로서 구체화될 수 있다. 오디오 검색 시스템(100)은 프로세서(110), 데이터 저장 장치(120)와 같은 관련 메모리를 포함하며, 이 메모리는 분산형 또는 국부형일 수 있다. 프로세서(110)는 단일 프로세서, 또는 병렬 처리 동작하는 다수의 국부형 또는 분산형 프로세서로서 구체화될 수 있다. 데이터 저장 장치(120) 및/또는 ROM은 하나 이상의 인스트럭션을 저장하도록 동작 가능하며, 프로세서(11)는 검색, 인터프리터 및 실행하도록 동작 가능하다.

바람직하게는, 데이터 저장 장치(120)는 본 발명에 따르면 인덱싱되고 검색될 수 있는 하나 이상의 오디오 또는 비디오 파일(또는 둘 다)을 저장하는 오디오 집성 데이터베이스(150)를 포함하는 것이 좋다. 데이터 저장 장치(120)는 도 2a 내지 도 2d 및 도 3과 관련하여 이하에서 논의되는, 하나 이상의 컨텐츠 인덱스 파일(200) 및 하나 이상의 화자 인덱스 파일(300)을 포함한다. 통상적으로, 도 2a 내지 도 2d와 결합하여 이하에서 논의되는 바와 같이, 컨텐츠 인덱스 파일(200)은 문서 데이터베이스(210)(도 2a), 문서 청크 인덱스(240)(도 2b), 단일 문서(unigram) 파일(항 주파수; term frequency)(260)(도 2c) 및 인버스 문서 인덱스(IDF)(275)(도 2d)를 포함한다. 컨텐츠 인덱스 파일(200)은 인덱싱 단계 도중에 음성 인식 시스템과 결합하여 발생되고, 추가 인덱싱 부여 정보와 함께 워드 또는 구의 리스트로서 오디오(또는 비디오) 문서를 기술한다. 화자 인덱스 파일(300)은 인덱싱 단계 중에 화자 식별 시스템과 결합하여 발생되고, 오디오 파일의 각 세그먼트에 대하여 화자 라벨을 부여한다. 그 다음, 검색 단계 중에, 컨텐츠 인덱스 파일(200) 및 화자 인덱스 파일(300)은 액세스되고, 컨텐츠 인덱스 파일(200)에서의 문서 기술은 사용자 지정 조회의 기술과 매칭하고, 화자 인덱스 파일(300)에서 화자 라벨로 나타나는 화자 신원은 지명된 화자 신원과 매칭된다.

또한, 데이터 저장 장치(120)는 프로세서(110)를 구성하는 데에 필요한 프로그램 코드를 포함하며, 도 5와 관련하여 이하에서 논의되는 인덱싱 시스템(500)과, 도 6과 관련하여 이하에서 논의되는 컨텐츠 및 화자 오디오 검색 시스템(600)을 포함한다. 전술한 바와 같이, 인덱싱 시스템(500)은 오디오 집성 데이터베이스(150)에서 하나 이상의 오디오 파일을 분석하여 대응하는 컨텐츠 인덱스 파일(200) 및 화자 인덱스 파일(300)을 생성한다. 컨텐츠 및 화자 오디오 검색 시스템(600)은 사용자 지정 조회에 응답하여 컨텐츠 인덱스 파일(200) 및 화자 인덱스 파일(300)을 액세스하고, 오디오 컨텐츠 및 화자 신원에 기초한 문서 조회 매칭을 행하고 사용자에게 관련 문서를 리턴한다.

인덱스 파일

전술한 바와 같이, 오디오 샘플은 예를 들면 음성 인식 시스템을 사용하여 초기에 전기되어 텍스트 형태의 오디오 정보를 생성한다. 그 후, 인덱싱 시스템(500)은 텍스트 형태의 오디오 파일을 분석하여 대응하는 컨텐츠 인덱스 파일(200) 및 화자 인덱스 파일(300)을 생성한다.

전술한 바와 같이, 컨텐츠 인덱스 파일(200)은 문서 데이터베이스(210)(도 2a), 문서 청크 인덱스(240)(도 2b), 단일 문서 파일(항 주파수)(260)(도 2c) 및 인버스 문서 인덱스(IDF)(275)(도 2d)를 포함한다. 통상적으로, 컨텐츠 인덱스 파일(200)은 오디오(또는 비디오) 문서를 기술한 정보를 추가 인덱싱 정보와 함께 워드 또는 구의 리스트로서 저장한다. 예시적인 실시예에 있어서, 컨텐츠 인덱스 파일(200)은 무엇보다도 오카피 방정식에 의해 요구되는 통계치를 기록한다.

문서 데이터베이스(210)(도 2a)는 예시적인 실시예에서 다른 100 워드 문서 청크(document chunk)와 각각 관련된, 예를 들면 레코드 211 내지 레코드 214와 같은 다수의 레코드를 유지한다. 하나의 실시예에 있어서, 문서 사이에서 50 워드 오버랩이 발생한다. 필드 220에서 식별되는 각 문서 청크에 대하여, 문서 데이터베이스(210)는 필드 226에 문서 길이를 나타내고, 필드 222, 224에 청크의 개시 및 종료 시간을 각각 나타낸다. 결국, 각 문서 청크에 대하여, 문서 데이터베이스(210)는 문서 청크를 인덱싱하는 대응 문서 청크 인덱스(240)에 포인터를 제공한다. 실례의 실시예에서는 문서의 길이가 고정 길이 100 워드이지만, 바이트 길이는 변경될 수 있다. 이하에서 논의되는 바와 같이, 문서 길이(바이트)는 정보 검색의 스코어링(scoring)을 정규화하는 데 사용된다.

문서 청크 인덱스(240)(도 2b)는 다수의 레코드, 예를 들면 레코드 241 내지 레코드 244를 유지하며, 이 레코드는 대응하는 문서 청크에서 상이한 워드와 각각 관련된다. 따라서, 예시적인 실시예에서, 각 문서 청크 인덱스(240)에는 100개의 엔트리가 있다. 필드 250에서 식별되는 각 워드 문자열에 대하여(문서 청크로부터), 문서 청크 인덱스(240)는 필드 255에서 워드의 개시 시간을 나타낸다.

단일 문서 파일(항 주파수)(260)(도 2c)은 각 문서와 관련되며, 그 문서에서 각 워드가 발생하는 다수의 시간을 나타낸다. 단일 문서 파일(260)은 다수의 레코드, 예를 들면 레코드 261 내지 레코드 264를 유지하며, 그들 각각은 문서에서 나타나는 상이한 워드와 관련된다. 필드 265에서 식별되는 각 워드 문자열에 대하여, 단일 문서 파일(260)은 필드 270에서 워드가 문서에 나타나는 횟수를 나타낸다.

인버스 문서 인덱스(275)(도 2d)는 문서 컬렉션에서 각 워드가 나타나는 다수의 시간들을 나타내며, 그 워드가 발생하는 모든 문서들 중에서 관련된 현재의 문서에 순위를 부여하는 데 사용된다. 인버스 문서 인덱스(275)는 다수의 레코드, 예를 들면 레코드 276 내지 279를 유지하며, 각각은 어휘에서 상이한 워드와 관련된다. 필드 280에서 어휘 식별자에 의해 식별되는 각 워드에 대하여, 인버스 문서 인덱스(275)는 필드 285에서 워드 문자열을, 필드 290에서 인버스 문서 주파수(IDF)를, 필드 295에서 워드가 나타나는 문서 리스트를 나타낸다. 필드 295에서 문서 리스트에 의해 실제 조사하지 않고도 워드가 어떤 문서에 있는지를 판정할 수 있다.

전술한 바와 같이, 도 3에 도시된 화자 인덱스 파일(300)은 오디오 파일의 각 세그먼트에 대해 화자 라벨을 부여한다. 화자 인덱스 파일(300)은 다수의 레코드, 예를 들면 레코드 305 내지 312를 유지하며, 각각은 오디오 파일의 상이한 세그먼트와 관련된다. 음성의 각 세그먼트는 상이한 화자와 관련된다. 필드 325에서 식별되는 각 세그먼트에 대하여, 화자 인덱스 파일(300)은 필드 330에서 대응 화자를, 필드 335에서 세그먼트를 포함하는 대응 오디오 또는 비디오 파일을 식별한다. 또한, 화자 인덱스 파일(300)은 각 필드 340 및 필드345에 (파일의 개시부로부터 오프셋되는) 세그먼트의 개시 및 종료 시간을 각각 나타낸다. 화자 인덱스 파일(300)은 도 5와 관련하여 이하에서 논의되는 바와 같이 화자 세그먼트와 등록된 화자 정보간의 근접 정도를 나타내는 스코어(거리 측정치)를 필드 350에 나타낸다.

화자 등록 처리

도 4는 화자를 기록, 즉 등록하는 데 사용되는 공지된 처리를 도시하고 있다. 도 4에 도시된 바와 같이, 각각의 기록된 화자에 대하여, 화자명은 화자 트레이닝 파일(speaker training file)과 함께 화자 등록 처리부(410)에 제공된다. 화자 등록 처리부(410)에서는 화자 트레이닝 파일을 분석하여, 화자 데이터베이스(420)에서 각 화자에 대한 엔트리를 생성한다. 화자 데이터베이스(420)에 화자 음성 샘플을 추가하는 처리는 등록이라 칭해진다. 등록 처리는 오프라인 처리되고, 오디오 인덱싱 시스템은 관련된 모든 화자에 대해 데이터베이스가 있다라고 가정한다. 약 몇 분의 오디오는 통상적으로 다수의 음향 조건을 포함하는 마이크로폰 및 다수의 채널에서 각 화자로부터 요구된다. 등록된 화자의 트레이닝 데이터 또는 데이터베이스는 계층 구조로 저장되어, 인식 및 검색을 효율적으로 하기 위해 액세스 모델을 최적화한다.

인덱싱 처리

전술한 바와 같이, 인덱싱 단계 동안에 도 5에 도시된 인덱싱 시스템(500)은 음성 인식 시스템으로부터 출력되는 텍스트를 처리하여 컨텐츠 및 화자를 인덱싱한다. 도 5에 도시된 바와 같이, 컨텐츠 인덱싱 및 화자 인덱싱은 2개의 병렬 처리 분기를 따라 실행되며, 컨텐츠 인덱싱은 단계 510 내지 535 동안에 실행되고, 화자 인덱싱은 단계 510 내지 575 동안에 실행된다. 그러나, 컨텐츠 인덱싱 및 화자 인덱싱이 연속적으로 실행될 수 있다라는 것을 당업자라면 이해할 수 있을 것이다.

컨텐츠 인덱싱 및 화자 인덱싱의 초기 단계로서, 공지된 방법에서 단계 510동안에 캡스트럼(cepstral) 특징을 오디오 파일로부터 추출한다. 통상적으로, 단계 510에서는 오디오 파일의 도메인을 주파수 도메인으로 변환하여 동적 범위를 감소시키고, 그것을 역변환하여 그 역변환된 신호를 다시 시간 도메인으로 복귀한다.

컨텐츠 인덱싱

그 다음, 단계 515 동안에, 오디오 정보를 전기 엔진, 예를 들면 뉴저지주 아몽크의 IBM 코오포레이션으로부터 입수 가능한 비아보이스(viavoice) 음성 인식 시스템에 인가하여, 시간 스탬핑된 워드의 전기 파일을 생성한다. 그 후, 단계 520 동안에 시간 스탬핑된 워드는 고정 길이, 예를 들면 예시적인 실시예에 있어서 100 워드인 문서 청크로 수집된다.

컨텐츠 인덱스 파일(200)에 요구되는 통계는 단계 530 동안에 오디오 파일로부터 추출된다. 전술한 바와 같이, 인덱싱 동작은, (ⅰ) 토큰화 처리, (ⅱ) 음성 일부 태그 처리, (ⅲ) 형태 분석 및 (ⅳ) 표준 스톱 워드 리스트를 사용한 스톱 워드 제거를 행한다. 토큰화 처리에서는 문장 경계가 검출된다. 형태 분석은 다수 형태를 나타내는 태그에 따라 명사를 그들의 어근으로 분해하는 언어학적 신호 처리 형태이다. 마찬가지로, 동사는 그 동사의 어근에 따라 인칭, 시제 및 법(法)을 나타내는 단위로 분해된다.

단계 530에서, 인덱싱 시스템(500)은 오카피 방정식에 의해 요구되는 통계를 수득한다. 오디오 필드에서 식별되는 각 워드에 대하여, 이하의 정보, 즉 항 주파수(소정의 문서에서 워드가 나타나는 시간), (워드가 발생하는 문서의 개수를 나타내는) 인버스 문서 주파수(IDF), (정규용) 문서 길이 및 워드(반전된 인덱스)를 포함하는 각 문서에 연쇄 연결된 포인터 집합을 얻는다.

단계 530 동안에 얻어진 정보는 단계 535 동안에 컨텐츠 인덱스 파일(200)에 저장되거나, 또는 컨텐츠 인덱스 파일(200)이 이미 존재하는 경우에는 그 정보는 업데이트된다.

화자 인덱싱

이하에서 더 논의되는 바와 같이, 화자에 기초한 정보 검색 시스템은 2개의 구성 소자, 즉 (1) 음향 변화 검출 시스템(종종 화자 세그먼테이션으로 칭해짐) 및 (2) 화자 독립형, 랭귀지 독립형, 텍스트 독립형 화자 인식 시스템으로 구성된다. 화자 식별 처리를 자동화하기 위해, 비등질의 음성 부분들간의 경계(변화)는 단계 550 동안에 검출되어야 한다. 각각의 비등질 세그먼트는 단독 화자의 음성에 대응해야 한다. 일단 서술되면, 각 세그먼트는 특정의 화자가 말하는 것에 따라 분류된다. (세그먼트가 화자 인식 시스템에서 요구되는 최소 세그먼트 길이 요구조건을 만족시킨다라고 가정한다.)

예시적인 실시예의 단계 550 동안에 음성을 분할할 때 사용되는 음성 모델 선택 기준은 공지된 베이스 정보 기준(Bayesian Information Criterion:BIC)이다. 입력되는 오디오열은 캡스트럼 공간에서 가우스 처리로서 모델링될 수 있다. BIC는 가우스 처리의 (화자) 횟수를 검출하기 위한 최소 가능 방법이다. 모델 식별의 문제점은 소정의 데이터 집합을 기술하는 데에 후보 모델 집합 중에서 하나를 선택하는 것이다. 입력된 오디오 신호로부터 도출되는 프레임이 독립적이고 단일 가우스 처리로부터 초래된다고 가정한다. 프레임 i(1≤i＜N) 이후에 N 특징 벡터의 윈도우에서 음성 변화가 있는 경우를 검출하기 위해, 2개의 모델이 제작된다. 첫번째 모델은 한 가우스 분포에 의해 전체 윈도우를 나타내며, 그것의 평균 및 전공분산(全共分散)){μ, Σ}에 의해 특징지어진다. 두번째 모델은 최대 프레임 i까지 제1 가우스{μ₁, Σ₁}를 갖는 윈도우의 제1 부분과, 또 다른 가우스{μ₂, Σ₂}를 갖는 윈도우의 제2 부분을 나타낸다. 기준은 수학식 2로 표현된다.

상기 수학식 2에서,이고,은 윈도우에 관련된 패널티이며, N₁ =i는 윈도우의 제1 부분의 프레임 수이고, N₂=(N-i)는 제2 부분의 프레임 개수이며, d는 프레임의 크기이다. 그러므로,가 가우스를 나타내는 데 사용되는 파라미터의 수일 때, P는 모델의 복잡도를 반영한다.

ΔBIC＜0는 페널티를 고려했을 때 윈도우를 2개의 가우스 분포로 분할하는 모델이 단일 가우스 분포만을 갖는 전체 윈도우를 나타내는 모델 보다 더 클것이라는 것을 의미한다. 따라서, BIC는 임계 가능도(threshold-likelihood ratio) 기준처럼 작용하며, 임계치는 경험에 입각하여 조정되지 않고 이론에 기초하여 조정된다. 이 기준은 확고하며 트레이닝 이전에는 어떠한 것도 필요로 하지 않는다.

상기 예시적인 실시예에 있어서, BIC 알고리즘은 정확도를 손상시키지 않고도 고속으로 실행되어 왔다. 사용되는 특징 벡터는 24 크기를 사용하는 단순한 멜켑스트럼 프레임이다. 다른 어떠한 처리도 이 벡터로 행해지지 않는다. 알고리즘은 윈도우 처리 단위로 동작하며, 각 윈도우에서 몇 개의 프레임은 그들이 BIC-규정 세그먼트 경계인지를 점검하도록 테스트된다. 세그먼트 경계가 전혀 발견되지 않는 경우(포지티브 ΔBIC), 윈도우 크기가 증가된다. 그렇지 않으면, 이전 윈도우 위치가 기록되며, 또한 (본래 크기를 갖는) 새로운 윈도우의 개시부에 대응한다.

이하에서 BIC 실행을 위한 여러 단계가 상세하게 설명된다. BIC 계산은 명백한 실질적인 이유로 윈도우의 각 프레임에 대하여 실행되지 않는다. 대신에, 프레임 솔루션 r이 사용되며, 윈도우를 M=N/r 서브세그먼트로 분할한다. 그 결과 생성되는 (M-1) BIC 테스트 이외에, 가장 네거티브한 ΔBIC를 초래하는 것이 선택된다. 이러한 네거티브 값이 존재하는 경우, 검출 윈도우는 최소 크기로 리셋되며, 검출된 포인터는 더 좋은 리솔루션으로 개선된다. 이 개선 단계는 총계산 횟수를 증가하고 이 알고리즘의 속도 성능에 충돌하기 때문에, 특정 사용자 환경, 실시간 또는 오프라인에 맞추어 만들어진다.

어떠한 네거티브 값도 발견되지 않는 경우, 윈도우 크기는 "N_i=N_i-1+ΔN_i" 규칙을 이용함으로써 N_i-1에서 N_i프레임으로 증가되며, 또한 N_i는 어떤한 변화도 발견되지 않는 경우, 즉 N_i-N_i-1=2(N_i-1-N_i-2)인 경우 증가하게 된다. 이것은 음성 신호의 동질 세그먼트에서 알고리즘의 속도를 증가시킨다. 그래도 에러율이 증가되지 않도록 하기 위해, ΔNi는 상부의 경계를 갖는다. 검출 윈도우가 너무 큰 경우, BIC 계산의 횟수도 감소된다. M_max이상의 세그먼트가 존재하는 경우, M_max-1BIC 계산은 첫번째 계산을 건너뛰어 계산되게 된다.

단계 555 동안에는, 단계 550의 결과를 사용하여 단계 510 동안에 생성되는 특징을 분석하여 단독 화자에 의한 음성 청크로 구성되는 세그먼트 발성을 생성한다. 단계 560 동안에는 그 세그먼트 발성이 화자 식별 시스템에 인가된다. 화자 식별 시스템에 관하여 설명하기 위해, 예를 들면, 에이치. 에스. 엠. 베이지(H. S. M. Beigi) 등의 논문("IBM Model-Based and Frame-by-Frame Speaker-Recognition", in Proc. of speaker Recognition and its Commercial and Forensic Applications, Avignon, France(1998))을 참조할 것. 통상적으로, 화자 식별 시스템은 세그먼트 발성과 화자 데이터베이스(420)(도 4)를 비교하여 "가장 근접한" 화자를 찾는다.

화자 식별 시스템은 2 가지로 상이하게 실행된다. 즉, 모델에 기초한 방법 및 수반되는 단점 및 장점을 갖는 프레임에 기초한 방법으로 실행된다. 엔진은 방송 뉴스와 같은 재료의 라이브 오디오 인덱싱을 용이하게 하기 위해 텍스트 독립형 및 랭귀지 독립형 모두를 다 취한다.

화자 식별-모델에 기초한 방법

데이터베이스에서 화자의 모집단에 대한 트레이닝 모델 집합을 생성하기 위해, d-차원 특징 벡터을 갖는 음성의 M 프레임의 시퀀스에 기초한 i 번째 화자에 대한 모델 M_i가 계산된다. 이 모델들은 가우스 분포가 선택되는 경우에 대하여 평균 벡터, 공분산 매트릭스 및 계수로 구성된과 같은 통계학적 파라미터에 의하여 저장된다. 각 화자(i)는 n_i분포로 구성되는 모델로 종료한다.

2개의 모델을 비교하기 위하여, 에이치, 에스. 엠. 베이지 등이 1998년 워싱톤주, 시에틀에서 행한 발표(A Distance Measure Between Collections of Distributions and Its Application to Speaker Recognition, Proc. ICASSP98)에서 제안된 거리 측정을 이용함으로써, 계층적 구조는 화자 식별(클레임 증명), 화자 분류(화자 할당), 화자 검증(라벨과 그 라벨이 부여된 화자의 특성과 매칭되는 일단의 화자"를 비교함으로써 분류를 확립하는 두번째 통과) 및 화자 클러스터링을 포함하는 많은 다른 기능을 갖는 화자 인식 시스템을 고안하도록 생성된다.

화자 인식에 대해 고안된 거리 측정은 상이한 수의 분포 n_i를 갖는 2개의 모델간의 용인 가능한 거리에 관한 계산을 가능케 한다. 그들 모델의 파라미터에 의한 표현에만 기초하는 2 화자를 비교함으로써, 계산학적으로 훨씬 덜 강한 2 화자를 비교하는 일을 행하는 주변의 특징을 실행할 필요가 없어진다. 그러나, 이 인식 단계 중에 상기 거리 측정의 단점은, 비교 계산을 시작하기 전에 테스트 개인 (요구자)의 모델을 작성하는 데 전체 음성 세그먼트가 사용되어야 한다는 것이다. 프레임 처리 단위의 방법은 상기 문제점을 경감한다.

화자 식별-프레임 처리 단위의 방법

M_i를 i 번째 등록된 화자에 대응하는 모델이라고 하자. M_i는 평균 벡터, 공분산 매트릭스 및 화자 i의 가우스 혼합 모델(GMM: Gaussian Mixture Media)의 n_i구성 성분 각각에 대한 혼합 가중치로 구성되는 파라미터 집합,에 의해 전체적으로 정의된다. 이 모델은 전술한 바와 같이 d-차원 특징 벡터를 갖는 음성 M 프레임의 시퀀스로 구성되는 트레이닝 데이터를 사용하여 생성된다. 음성 모집단의 크기가 N_p인 경우, 모델 모집단 집합은이다. 기본 목적은 M_i가 N 프레임의 시퀀스,로 나타나는 테스트 데이터를 가장 잘 설명하는 i를 찾거나, 또는 어떠한 모델도 적절하게 그 데이터를 기술하지 못한다는 것을 결정하는 것이다. 이하의 프레임에 기초한 가중 가능 거리 측정치 d_i,_n는을 결정할 때 사용된다. 여기서, 정규 표현을 사용하면와 같다. 테스트 데이터로부터 모델 M_i의 총거리 D_i는 총테스트 프레임 수에 관한 모든 거리의 합계가 되도록 구해진다.

분류 단계 동안에, 음성 세그먼트에 대해 최소 거리를 갖는 모델이 선택된다. 최소 거리를 참고 모델의 거리와 비교함으로써, 원래 모델이 전혀 매칭되지 않는다는 것을 나타내는 방법을 제공한다. 다르게는, 보우팅(voting) 기술 방법이 총거리를 계산하는 데 사용될 수도 있다.

검증 단계 동안에, 라벨이 부여된 일대의 화자를 형성하는 소정의 부재 집합은 다양한 참고 모델로 증가된다. 모델 모집단으로서 설정되는 이것을 이용함으로써, 테스트 데이터는 요구자의 모델이 최소 거리를 가지는 지를 테스트함으로써 검증된다. 그렇지 않은 경우에는 거절된다.

이 거리 측정은 음성 프레임이 화자간의 거리를 계산하기 위해 유지되어야 하기 때문에 트레이닝시에 사용되지 않는다. 그러므로, 전술한 모델에 기초한 기술에 관한 방법을 사용하여 트레이닝이 행해진다.

화자에 기초한 검색용 인덱스 파일은 단계 565 동안에 화자 분류 및 검증 결과에 관하여 제2 통과를 취함으로써 작성된다. 화자 식별이 단계 565 동안에 검증되는 경우, 화자 라벨은 단계 570 동안에 세그먼트에 할당된다.

전술한 바와 같이, 각각의 분류 결과는 원래 등록된 화자 모델에서 오디오 테스트 세그먼트까지의 거리를 나타내는 스코어, 관련된 오디오 클립의 개시에 관련되는 세그먼트의 개시 및 종료 시간 및 라벨(등록 도중에 공급되는 화자의 이름)에 의해 이루어진다. 또한, 소정의 오디오 클립에 대하여, 동일 화자 라벨에 할당되는 모든 세그먼트가 수집된다. 그것들은 그들의 스코어에 의해 소트되고 최대의 스코어를 갖는 세그먼트에 의해 정규화된다. 시스템에 의해 처리되고 인덱싱되는 새로운 오디오 클립마다, 라벨이 부여된 모든 세그먼트는 다시 소트되어 다시 정규화된다.

이 정보는 단계 575 동안에 화자 인덱스 파일(300)에 저장되거나, 화자 인덱스 파일(300)이 이미 존재하는 경우에는 업데이트된다.

검색 처리

전술한 바와 같이, 검색 단계 도중에, 도 6에 도시된 컨텐츠 및 화자 오디오 검색 시스템(600)은 인덱싱 단계 동안에 발생되는 인덱스 및 컨텐츠를 사용하여 오디오 컨텐츠 및 화자 신원에 기초한 문서 조회 매칭을 실행하고 사용자에게 관련 문서(가능한 추가 정보)를 리턴한다. 통상적으로, 검색은 2개의 별개의 비오버랩핑 모듈을 사용하여 실행될 수 있는데, 하나는 컨텐츠에 기초한 것이고 나머지는 화자에 기초한 것이다. 2개의 모듈은 완전하게 독립적이기 때문에 스레드(thread) 또는 프로세스를 사용하여 동시에 동작하도록 프로그래밍될 수 있다. 예시적인 실행에 있어서 양 모듈은 연속적으로 동작한다.

검색 시간에서, 컨텐츠 및 화자 오디오 검색 시스템(600)은 단계 610 및 620에서 인덱싱시에 사용되는, 동일한 어휘, 태그집, 형태학적 테이블 및 토큰 테이블을 로딩한다. 적절한 컨텐츠 인덱스 파일(200) 및 화자 인덱스 파일(300)은 단계 620에서 메모리로 로딩된다. 테스트는 조회가 수신될 때까지 단계 625 동안에 실행된다.

단계 630 중에 조회 문자열이 수신 및 처리된다. 수신된 텍스트 조회에 응답하여, 조회 단계 635 중에 컨텐츠 인덱스 파일(200)에 대하여 문자열을 비교하여 목적 순위 부여 함수(순위 부여된 문서 스코어)를 사용하여 가장 관련된 문서를 계산한다. 또한, 이 문서들의 순위 부여시에 사용되는 순위 부여된 문서 스코어는 본 발명에 따라 결합된 스코어의 차후 계산을 위해 기록된다(단계 645).

문서와 조회 사이에서 순위 부여된 문서 스코어를 계산하는 데에는 다음 수학식 3의 오카피 공식이 사용된다.

상기 식에서, q_K는 조회에서 k번째 항이고, Q는 조회에서 항의 개수이며, c_q(q_k) 및 c_d(q_k)는 각각 조회에서 k번째 항의 카운트 및 문서이고, l_d는 문서의 길이이며, l은 컬렉션에서 문서의 평균 길이이고, idf(q_k)는 이하와 같이 제공되는 항 q_k에 관한 인버스 문서 주파수이며,에 의해 제공된다. 여기서, N은 문서의 총 수이고 n(q_k)은 항 q_k를 포함하는 문서의 개수이다. 따라서, 인버스 문서 주파수 항은 문서 중에서 드문 항을 지지한다. (단일 문서에 대하여, α₁=0.5, α₂=1.5) 명백하게는, 조회와 관련된 항들을 제외하고는 대부분 상기 스코어링 함수의 엘리먼트일 때 idf는 미리 계산되어 저장될 수 있다.

조회때마다, 컬렉션에서 모든 문서에 대하여 매칭되고 문서는 전술된 오카피 공식으로부터 계산된 스코어에 따라 순위가 부여된다. 순위가 부여된 문서 스코어는 문서 길이에 관하여 정규화된 문서에서 각 조회 항이 발생하는 횟수를 참작한다. 정규화는 많은 경우에 보다 긴 문서가 임의의 소정의 워드를 가질 것이기 때문에 통상적으로 보다 긴 문서를 지지하는 편견을 제거한다. 또한, 이 함수는 문서에 지정되고 다른 문서에 걸쳐서 드문 항을 지지한다. (제2 통과가 사용되는 경우, 문서는 트레이닝 데이터로서 제1 통과로부터 최고 순위가 부여된 문서를 사용하여 문서의 또다른 모델을 트레이닝함으로써 다시 순위가 부여된다.)

그 후, 식별된 문서(또는 그 문서의 서브세트)는 단계 640 동안에 분석되어, 화자 인덱스 파일(300)에서 식별되는 화자가 조회시 사용자에 의해 지정되는 화자와 매칭하는 지를 결정한다. 구체적으로는, 컨텐츠에 기초한 조회를 만족시키는 순위 부여된 문서의 시간 경계는 오버랩핑 개시 및 종료 시간을 갖는 문서를 식별하기 위해 화자에 기초한 조회를 만족시키는 문서들과 비교된다. 화자 검색으로부터의 단일 세그먼트는 텍스트 검색으로부터의 다수 세그먼트로 오버랩핑할 수 있다.

약간 오버랩핑한 문서에 대한 결합 스코어는 단계 645 동안에 전술된 방법으로 수학식 1과 같이 계산된다. 스코어링된 문서 모두에 순위가 부여되고 매칭 스코어가 100이 되는 가장 관련된 문서로 정규화된다.

수학식 1

통상적으로, 최고 N 문서는 사용자에게 단독으로 리턴된다. 따라서, 최적 매칭되는 N 세그먼트의 개시 및 종료 시간 리스트는 매칭 스코어, 관련 스코어에 기여되는 매칭 워드와 함께 단계 650 동안에 리턴된다. 각각의 결합된 결과의 디폴트 개시 시간은 컨텐츠에 기초한 서치로부터의 대응 문서의 개시 시간과 동일하다. (다른 선택은 화자 세그먼트의 개시 시간을 사용하는 것이다.) 종료 시간은 (단순히 화자가 그의 말을 종료하는) 화자 세그먼트의 종료 시간으로 설정된다. 그러나, 유용성 때문에, 세그먼트는 고정 주기, 예를 들면 60초로 절단될 수 있다. 즉, 평균 문서 길이 동안 2번 절단될 수 있다.

사용자 인터페이스

예시적인 사용자 인터페이스는 검색 엔진에 의해 리턴되는 N 선택 각각에 대한 모든 관련 정보를 나타낼 수 있으며, 또 다른 선택시에, VCR형 인터페이스를 통해 MPEG-1을 디스플레이하는데에 자바 매체 필터를 사용하여 실행되는 매체 핸들러 구성 요소를 사용한다. 자바 어플리케이션은 (PC가 네트워크에 연결된 경우 서버에 있을 수 있는) 비디오 파일을 배치하고, 검색 단계 동안에 수집된 정보를 사용하여, 예를 들면 검색된 문서, 관련 정보-매체 파일명, 개시 시간, 종료 시간, 순위, 정규화된 스코어, 매체 파일에서 검색된 세그먼트가 있는 곳의 그래픽, 강조 표시한 조회 워드 (및 그 문서의 순위 부여에 기여한 다른 형태)를 디스플레이하는 것처럼 결과를 꾸민다- 이것은 컨텐츠에 기초한 서치에만 관련되거나, 또는 재생용으로 디스플레이되는 검색된 문서 일부를 강조 표시하는 것이 가능하다.

최고 N 검색 항은 컴팩트 형태로 사용자에게 표시된다. 이것에 의해 사용자는 다른 액션용 검색 항을 가시적으로 다시 볼 수 있게 된다. 통상적으로, 문서의 텍스트 일부를 포함하는 검색된 문서에 관하여 수집된 정보 모두를 포함한다. 검색항 중 하나가 오디오 또는 비디오 정독용으로 선택되는 경우, 매체 핸들러 구성 요소는 특정 개시 시간에 앞서 매체 파일을 배치하고 (요구되는 경우) 스트림을 압축 해제하고, 그런 다음 오디오 또는 비디오의 제1 프레임을 갖는 매체 플레이어를 초기화하는데 요구된다. VCR형 인터페이스는 사용자로 하여금 개시 시간으로부터 종료 시간, 즉 스톱 시간까지 검색된 비디오를 "플레이"하고 임의 시점에서 전진시키는 것을 가능하게 한다.

오디오로부터의 컨텐츠에 기초한 정보 검색을 위한 본 발명자들의 접근 방식의 텍스트 내에서 다른 개선이 행해질 수 있다. 음성 인식 출력으로부터 도출되는 현재의 문서 집합은 인식기로부터의 각 워드 또는 구에 대한 차후의 가장 좋은 추측을 포함함으로써 증가될 수 있다. 이 정보는 인덱스 항, 조회 확장 및 검색을 가중시키는 데 사용될 수 있다. 또한, 순수 음성만이 검색용으로 인덱싱되도록 음악 또는 대개 잡음을 갖는 세그먼트를 검출함으로써 인식 정확도를 더 낫게 할 수 있다. 오디오 인덱싱에 관한 현재의 방법에 있어서의 한계는 음성 인식기에서 한정된 범위의 어휘를 사용한다는 것이다. 정보 검색 관점에서 중요한 적절한 명사 및 약어와 같은 워드는 종종 어휘에서 빠져서 인식된 전기(轉記)에서 빠진 것이 발견된다. 이러한 한계점을 극복하기 위한 방법은, 어휘 워드의 출력용 워드스포터로 음성 인식기를 실행하는 것이다. 그러나, 이 방법이 실용적이기 때문에, 실시간 보다 빠른 속도로 다량 음성으로 화술된 워드를 검출하는 기능을 가져야 한다.

도시되고 설명된 실시예 및 변경이 단순히 본 발명의 원리를 나타내고 있을 뿐이며, 본 발명의 범위 및 사상으로부터 벗어나지 않는 범위 내에서 다양한 수정이 당업자에 의해 실행될 수 있다는 것을 이해하여야 한다.

이상과 같이, 본원 발명은 화자의 신원뿐만 아니라 오디오 컨텐츠에 기초하여 오디오 정보를 검색할 수 있게 된다.

Claims

하나 이상의 오디오 소스로부터 오디오 정보를 검색하는 방법에 있어서,

적어도 하나의 컨텐츠 제약 조건 및 하나의 화자 제약 조건을 지정하는 사용자 조회를 수신하는 단계와;

상기 사용자 조회를 상기 오디오 소스의 화자 인덱스 및 컨텐츠 인덱스와 비교하여 상기 사용자 조회를 만족시키는 오디오 정보를 식별하는 단계;

를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제1항에 있어서, 상기 컨텐츠 인덱스 및 상기 화자 인덱스는 시간 스탬핑되고, 상기 비교 단계는 상기 컨텐츠 및 화자 도메인 모두에서 문서 세그먼트의 개시 시간과 종료 시간을 비교하는 단계를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제1항에 있어서, 상기 컨텐츠 인덱스는 상기 오디오 소스에서 각 워드의 주파수를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제1항에 있어서, 상기 컨텐츠 인덱스는 상기 오디오 소스에서 각 워드의 인버스 문서 주파수(IDF)를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제1항에 있어서, 상기 컨텐츠 인덱스는 상기 오디오 소스의 길이를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제1항에 있어서, 상기 컨텐츠 인덱스는 소정의 워드를 포함하는 각 문서에 체인 연결된 포인터 집합을 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제1항에 있어서, 상기 화자 인덱스는 등록된 화자에서 오디오 테스트 세그먼트까지의 거리를 나타내는 스코어를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제1항에 있어서, 상기 화자 인덱스는 각 오디오 세그먼트의 개시 시간 및 종료 시간을 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제1항에 있어서, 상기 화자 인덱스는 상기 세그먼트와 관련된 화자를 식별하는 라벨을 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제1항에 있어서, 상기 비교 단계는 상기 컨텐츠에 기초한 조회를 만족시키는 문서와 화자에 기초한 조회를 만족시키는 문서를 비교하여, 관련 문서를 식별하는 단계를 더 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제1항에 있어서, 상기 오디오 소스를 전기하고 인덱싱하여, 상기 컨텐츠 인덱스 및 상기 화자 인덱스를 생성하는 단계를 더 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제11항에 있어서, 상기 화자 인덱스를 생성하는 상기 단계는 상기 오디오 소스에서 횟수를 자동 검출하여 상기 횟수마다 화자 라벨을 할당하는 단계를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제1항에 있어서, 적어도 상기 식별된 오디오 정보의 일부를 사용자에게 리턴하는 단계를 더 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제1항에 있어서, 상기 식별된 오디오 정보의 각 세그먼트에 결합된 스코어를 할당하여 순위 부여된 리스트에서 적어도 상기 식별된 오디오 정보의 일부를 리턴하는 단계를 더 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제14항에 있어서, 상기 결합된 스코어는 컨텐츠와 화자 도메인 사이를 오버랩하는 범위를 평가하는 것을 특징으로 하는 오디오 정보 검색 방법.
제14항에 있어서, 상기 결합된 스코어는 컨텐츠에 기초한 정보 검색에 순위를 부여하는 순위 부여된 문서 스코어를 평가하는 것을 특징으로 하는 오디오 정보 검색 방법.
제14항에 있어서, 상기 결합된 스코어는 화자 세그먼트와 등록된 화자 정보 사이의 근접 정도를 측정하는 화자 세그먼트 스코어를 평가하는 것을 특징으로 하는 오디오 정보 검색 방법.
제1항에 있어서, 상기 화자 제약 조건은 화자의 신원을 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
제1항에 있어서, 상기 컨텐츠 제약 조건은 하나 이상의 키워드를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
하나 이상의 오디오 소스로부터 오디오 정보를 검색하는 오디오 검색 시스템에 있어서,

상기 오디오 소스의 컨텐츠 인덱스 및 화자 인덱스와 컴퓨터 판독 가능 코드를 저장하는 메모리와;

상기 메모리에 동작 가능하게 결합되고, 상기 컴퓨터 판독 가능 코드를 실행하는 프로세서를 포함하며,

상기 컴퓨터 판독 가능 코드는,

화자의 신원 및 하나 이상의 워드를 지정한 사용자 조회를 수신하고;

컨텐츠에 기초한 정보 검색 및 화자에 기초한 오디오 정보 검색의 결과를 결합하여 상기 오디오 컨텐츠 및 화자 신원에 기초하여 상기 오디오 소스에 레퍼런스를 제공하는 것을 특징으로 하는 오디오 검색 시스템.
하나 이상의 오디오 소스로부터의 오디오 정보를 검색하기 위한 제조물에 있어서,

내장된 컴퓨터 판독 가능 프로그램 코드 수단을 갖는 컴퓨터 판독 가능 매체를 포함하며,

상기 컴퓨터 판독 가능 프로그램 코드 수단은,

하나 이상의 워드 및 화자의 신원을 지정하는 사용자 조회를 수신하는 단계와;

컨텐츠에 기초한 정보 검색 및 화자에 기초한 정보 검색의 결과를 결합하여, 상기 오디오 컨텐츠 및 화자 신원에 기초한 상기 오디오 소스에 레퍼런스를 부여하는 단계를 통해 실행되는 것을 특징으로 하는 오디오 정보 검색용 제조물.
하나 이상의 오디오 소스로부터 오디오 정보를 검색하기 위한 제조물에 있어서,

내장된 컴퓨터 판독 가능 코드 수단을 갖는 컴퓨터 판독 가능 매체를 포함하며,

상기 컴퓨터 판독 가능 코드 수단은,

적어도 하나의 컨텐츠 및 하나의 화자 제약 조건을 지정하는 사용자 조회를 수신하는 단계와;

상기 오디오 소스의 컨텐츠 인덱스 및 화자 인덱스와 상기 사용자 조회를 비교하여, 상기 사용자 조회를 만족시키는 오디오 정보를 식별하는 단계;

를 통해 실행되는 것을 특징으로 하는 오디오 정보 검색용 제조물.