KR20010006942A - 컨텐츠 및 화자 정보를 이용한 오디오 정보 검색 방법 및장치 - Google Patents

컨텐츠 및 화자 정보를 이용한 오디오 정보 검색 방법 및장치 Download PDF

Info

Publication number
KR20010006942A
KR20010006942A KR1020000016932A KR20000016932A KR20010006942A KR 20010006942 A KR20010006942 A KR 20010006942A KR 1020000016932 A KR1020000016932 A KR 1020000016932A KR 20000016932 A KR20000016932 A KR 20000016932A KR 20010006942 A KR20010006942 A KR 20010006942A
Authority
KR
South Korea
Prior art keywords
speaker
audio
content
index
document
Prior art date
Application number
KR1020000016932A
Other languages
English (en)
Other versions
KR100388344B1 (ko
Inventor
베이기호마윤사드르모하메드
트릿쉴러알레인챨스루이스
비스바나탄마헤쉬
Original Assignee
포만 제프리 엘
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포만 제프리 엘, 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 포만 제프리 엘
Publication of KR20010006942A publication Critical patent/KR20010006942A/ko
Application granted granted Critical
Publication of KR100388344B1 publication Critical patent/KR100388344B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 화자의 신원뿐만 아니라 오디오 컨텐츠에 기초하여 오디오 정보를 검색하는 방법 및 장치에 관한 것이다. 컨텐츠 및 화자에 기초한 오디오 정보 검색 방법의 결과를 결합하여, 오디오 정보에 레퍼런스를 부여한다(비디오 정보에는 간접적으로 부여한다). 조회 서치 시스템은 텍스트 문자열(하나 이상의 키워드) 및 소정의 화자의 신원을 포함하는 텍스트 조회에 응답하여 정보를 검색한다. 인덱싱 시스템은 그 오디오 정보를 전기(轉記)하고 인덱싱하여, 시간 인덱싱하여 컨텐츠 인덱스 파일 및 화자 인덱스 파일을 생성한다. 오디오 검색 시스템은 발생된 컨텐츠 및 화자 인덱스를 사용하여 오디오 컨텐츠 및 화자 신원에 기초한 조회 문서 매칭을 행한다. 사용자 지정된 컨텐츠 및 화자 제약 조건을 만족시키는 문서는 컨텐츠 및 화자 도메인 모두에서 문서 세그먼트의 개시 시간과 종료 시간을 비교함으로써 식별된다. 사용자 지정 컨텐츠 및 화자 제약 조건을 만족시키는 문서에는 본 발명에 따라 사용될 수 있는 결합된 스코어가 할당되어, 리스트 상부에서 최적 매칭된 세그먼트를 가지며 사용자에게 리턴되는 식별된 문서에 순위를 부여한다.

Description

컨텐츠 및 화자 정보를 이용한 오디오 정보 검색 방법 및 장치{METHOD AND APPARATUS FOR RETRIEVING AUDIO INFORMATION USING CONTENT AND SPEAKER INFORMATION}
본 발명은 정보 검색 시스템에 관한 것으로, 더 구체적으로는 멀티미디어 파일 데이터베이스에서 사용자 지정 기준을 만족시키는 멀티미디어 정보, 예를 들면 오디오 및 비디오 정보를 검색하는 방법 및 장치에 관한 것이다.
정보 검색 시스템은 대량의 텍스트 컬렉션으로부터 텍스트 문서를 검색하는 것에 주로 초점을 두고 있다. 텍스트 검색의 기본 원리는 잘 제정되어 문서화되어 왔다. 예를 들면, 지. 샐튼(G. Salton)의 문헌(Automatic Text Processing, Addison-Wesley, 1989)을 참조할 것. 인덱스는 조회 기술(記述)과 문서 기술(記述) 메커니즘이다. 인덱싱 단계에서는 워드(word) 또는 구(phrases)의 리스트로서 문서를 기술하고, 검색 단계에서는 워드 또는 구의 리스트로서 조회를 기술한다. 문서 기술이 조회 기술과 일치할 때 문서(또는 그 일부)가 검색된다.
멀티미디어 객체, 예를 들면 오디오 및 비디오 파일에 요구되는 데이터 검색 모델은 텍스트 문서에 요구되는 것과는 매우 상이하며, 이러한 멀티미디어 정보를 인덱싱하기 위한 표준 특징들에 거의 일치하지 않는다. 오디오 데이터베이스를 인덱싱하는 방법으로는 일정한 오디오 신호, 예를 들면 박수 갈채, 음악 또는 음성을 이용하는 것이 있다. 유사하게는, 비디오 정보를 인덱싱하는 방법으로는 키 프레임, 또는 화면 변경(shot change)을 사용하는 것이 있다. 주로 음성인 오디오 및 비디오 정보, 예를 들면 방송 소스로부터 도출되는 오디오 및 비디오 정보에 대하여, 음성 인식 시스템을 사용하여 대응하는 텍스트를 발생할 수 있으며, 그 전기 (轉記)된 텍스트는 관련 오디오(및 비디오)를 인덱싱하는 데 사용될 수 있다.
현재, 오디오 정보 검색 시스템은 2개의 구성 소자, 즉 인덱싱을 위해 오디오 정보를 텍스트로 전기하는 음성 인식 시스템과, 텍스트에 기초한 정보 검색 시스템으로 구성된다. 음성 인식 시스템은 통상적으로 3개의 구성 소자, 즉 어휘, 랭귀지 모델 및 어휘에서의 각 워드에 대한 발음 집합에 의해 가이드된다. 어휘는 음성을 텍스트로 변환하는 음성 인식기에 의해 사용되는 워드 집합이다. 디코딩 처리의 일부로서, 인식기는 입력되는 음성으로부터의 음향을 어휘에서의 워드와 대조한다. 따라서, 어휘는 전기될 수 있는 워드를 형성한다. 어휘에 있지 않은 워드가 인식되어야 하는 경우 인식되지 않는 워드는 우선 어휘에 부가되어야 한다.
랭귀지 모델은 어휘에서 워드 시퀀스의 특정 도메인 데이터베이스이다. 또, 워드는 특정 순서로 발생할 가능성을 필요로 한다. 음성 인식기의 출력은 랭귀지 모델이 동작할 때 높은 가능성의 워드 시퀀스 쪽으로 바이어싱되게 된다. 따라서, 올바른 디코딩은 사용자가 랭귀지 모델 내에서 높은 가능성의 워드 시퀀스로 말하는지에 관한 함수이다. 따라서, 사용자는 비상(非常)의 워드 시퀀스로 말하면, 디코더 성능은 저하될 것이다. 워드 인식은 전적으로 그 워드에 대한 발음, 즉 워드의 음성 표현에 기초한 것이다. 가장 정확하게 하기 위해서는, 특정 도메인 랭귀지 모델이 사용되어야 한다. 이러한 랭귀지 모델을 생성하려면 오디오에 따라 텍스트가 명백하게 전기되어야 한다.
텍스트에 기초한 정보 검색 시스템은 통상적으로 2 단계로 동작하는데, 첫 번째 단계는 오프라인 인덱싱 단계이며, 텍스트 문서에 관한 관련 통계를 수집하여 인덱스를 작성한다. 두 번째 단계는 온라인 서치 및 검색 단계인데, 여기서 인덱스는 문서 조회 매칭을 실행하는 데 사용되며, 그 후 관련 문서(및 추가 정보)는 사용자에게 리턴된다. 인덱싱 단계 도중에, 음성 인식 시스템으로부터 출력되는 텍스트를 처리하여, 고속 서치용으로 검색 단계에 사용되는 문서 기술을 도출한다.
인덱싱 처리 도중에, 일반적으로 다음의 동작, 즉 (ⅰ) 토큰화 처리(tokenization), (ⅱ) 일부 음성 태그 처리, (ⅲ) 형태 분석 및 (ⅳ) 표준 스톱 워드 리스트를 사용하는 스톱 워드 제거의 순으로 실행된다. 토큰화 처리는 문장 경계를 검출한다. 형태 분석은 복수 형태를 나타내도록 태그에 따라 명사를 그들의 어근으로 분해시키는 언어 신호 처리의 한 가지 형태이다. 마찬가지로, 동사는 동사의 어근에 따라 인칭, 시제 및 법(法)을 나타내는 단위로 분해된다. 인덱싱 처리의 통상적인 논의을 위해, 본원 명세서에서 참조로 기재하고 있는, 예를 들면 에스. 다라니프라가더(S. Dharanipragada) 등의 논문("Audio-Indexing for Broadcast News" in Proc. SDR1997)을 참조할 것.
컨텐츠에 기초한 오디오 정보 검색 시스템은 사용자로 하여금 사용자 정의 조회에서 지정되는 하나 이상의 키워드를 포함한 오디오 파일을 검색할 수 있게 하는 반면에, 현재의 오디오 정보 검색 시스템은 사용자로 하여금 화자(話者)의 신원에 기초하여 관련된 오디오 파일을 선택적으로 검색할 수 없게 한다. 따라서, 화자의 신원뿐만 아니라, 오디오 컨텐츠에 기초하여 오디오 정보를 검색하는 방법 및 장치가 요구되고 있다.
도 1은 본 발명에 따른 오디오 검색 시스템의 블록도.
도 2a는 도 1의 컨텐츠 인덱스 파일의 문서 데이터베이스로부터의 테이블.
도 2b는 도 1의 컨텐츠 인덱스 파일의 문서 청크 인덱스로부터의 테이블.
도 2c는 도 1의 컨텐츠 인덱스 파일의 단일 문서 파일(항 주파수)로부터의 테이블.
도 2d는 도 1의 컨텐츠 파일의 인버스 문서 인덱스(IDF)로부터의 테이블.
도 3은 도 1의 화자 인덱스 파일로부터의 테이블.
도 4는 본 발명에 따라 대표 화자 등록 처리를 도시하는 도면.
도 5는 도 1의 오디오 검색 시스템에 의해 실행되는 예시적인 인덱싱 시스템 처리를 나타내는 흐름도.
도 6은 도 1의 오디오 검색 시스템에 의해 실행되는 예시적인 컨텐츠 및 화자 오디오 검색 시스템 처리를 나타내는 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
100 : 오디오 검색 시스템
110 : 프로세서
120 : 데이터 저장 장치
150 : 오디오 집성 데이터베이스
200 : 컨텐츠 인덱스 파일
300 : 화자 인덱스 파일
500 : 인덱싱 시스템
600 : 컨텐츠 및 화자 오디오 검색 시스템
본 명세서에서는 화자의 신원 뿐만 아니라, 오디오 컨텐츠에 기초하여 오디오 정보를 검색하는 방법 및 장치가 기재되어 있다. 본 명세서에 기재된 오디오 검색 시스템은 컨텐츠 및 화자에 기초한 오디오 정보 검색 방법의 결과들을 결합하여 오디오 정보에 레퍼런스(비디오 정보에는 간접적으로)를 부여한다.
본 발명의 한 가지 특징에 따르면, 조회 서치 시스템은 텍스트 문자열(하나 이상의 키워드)을 포함하는 텍스트 조회에 응답하여 정보를 검색한다. 사용자 정의 조회의 제약 조건은 인덱스 오디오 또는 비디오 데이터베이스(또는 둘다)와 비교되고, 소정의 화자에 의해 화술되는 지정 워드를 포함하는 관련된 오디오/비디오 세그먼트는 검색되어 사용자에게 표시된다.
본 발명의 오디오 검색 시스템은 2개의 주요 구성 소자로 구성된다. 인덱싱 시스템은 오디오 정보를 전기하고 인덱싱하여, 시간 스탬핑된(time-stamped) 컨텐츠 인덱스 파일 및 화자 인덱스 파일을 생성한다. 오디오 검색 시스템은 생성된 컨텐츠 및 화자 인덱스를 이용하여 오디오 컨텐츠 및 화자 정보에 기초한 문서 조회 매칭을 행한다. 관련 문서(및 가능한 추가 정보)들은 사용자에게 리턴된다.
사용자 지정 컨텐츠 및 화자 제약 조건을 만족시키는 문서는 컨텐츠 및 화자 도메인 모두에서 문서 세그먼트의 개시 시간과 종료 시간을 비교함으로써 식별된다. 본 발명의 또 한 가지 특징에 따르면, 컨텐츠 및 화자 도메인간의 오버랩 범위가 고려된다. 그 이상을 오버랩하는 문서 세그먼트는 더 무겁게 가중된다. 통상적으로, 사용자 지정 컨텐츠 및 화자 제약 조건을 만족시키는 문서는 이하의 수학식 1을 사용하여 계산되는 결합된 스코어로 할당된다.
결합 스코어=(순위 부여된 문서 스코어+(람다*화자 세그먼트 스코어))*오버랩 인자
순위 부여된 문서 스코어는, 예를 들면 오카피 방정식(okapi equation)을 사용하는 컨텐츠에 기초한 정보 검색에 순위를 부여한다. 화자 세그먼트 스코어는 화자 세그먼트와 등록된 화자 정보간의 근접 정도를 나타내는 거리 측정치이고 인덱싱 단계 동안에 계산될 수 있다. 람다는 가변적이며 화자 신원 처리에서 신뢰성의 정도를 기록하고 제로(0)와 1 사이의 실수이다.
통상적으로, 오버랩 인자는 완전히 오버랩하지 않는 세그먼트에 패널티를 부여하며, 제로와 1 사이의 실수이다. 본 발명에 따르면, 결합 스코어를 사용하여, 사용자에게 리턴되고, 리스트의 상부에서 최적 매칭된 세그먼트를 갖는 식별 문서에 순위를 부여한다.
이하의 상세한 설명 및 도면을 참조하면, 본 발명의 특징 및 이점들 뿐만 아니라 본 발명을 더 완전하게 이해할 수 있을 것이다.
본 발명에 따른 오디오 검색 시스템(100)은 도 1에 도시되어 있다. 또한, 이하에서 설명되는 바와 같이, 오디오 검색 시스템(100)은 오디오 재료를 서치하는 2 가지의 별개의 방법의 결과를 결합하여, 화자의 신원 뿐만 아니라 오디오 컨텐츠에 기초한 오디오 정보에 레퍼런스(비디오 정보에는 간접적으로)를 부여한다. 구체적으로는, 사용자 지정 컨텐츠에 기초한 검색의 결과, 예를 들면 웹 서치 엔진의 결과는 본 발명에 따르면 화자에 기초한 검색의 결과와 결합된다.
본 발명에 의하면, 조회 서치 시스템은 추가 제약 조건, 즉 소정의 화자의 신원을 포함하는 텍스트 조회에 응답하여 정보를 검색한다. 따라서, 사용자 조회시는 하나 이상의 키워드 및 소정의 화자의 신원을 포함하는 텍스트 문자열을 포함한다. 본 발명에서는 사용자 정의된 조회의 제약 조건을 인덱싱된 오디오 및/또는 비디오 데이터베이스와 비교하고, 소정의 화자가 말하는 특정 워드를 포함하는 관련된 오디오/비디오 세그먼트를 검색한다.
도 1에 도시된 바와 같이, 본 발명의 오디오 검색 시스템(100)은 2개의 주요 구성 소자, 즉 오디오 정보를 전기하여 인덱싱하는 인덱싱 시스템(500)과, 컨텐츠 및 화자 오디오 검색 시스템(600)으로 구성된다. 또한, 이하에서 논의되는 바와 같이, 인덱싱 시스템(500)은 인덱싱 단계 중에 음성 인식 시스템으로부터 출력되는 텍스트를 처리하여, 컨텐츠 및 화자를 인덱싱한다. 검색 단계 중에, 컨텐츠 및 화자 오디오 검색 시스템(600)은 인덱싱 단계 중에 발생되는 컨텐츠 및 화자 인덱스를 사용하여, 오디오 컨텐츠 및 화자 신원에 기초한 문서 조회 매칭을 행하고 사용자에게 관련 문서(가능한 추가 정보)를 리턴한다.
이하에서 논의되는 바와 같이, 음성 인식 시스템은 전기(轉記)를 생성하며, 그 전기에서의 각 워드마다 시간 할당을 행한다. 종래의 정보 검색 시나리오와는 달리, 전기에 별도의 문서가 전혀 없기 때문에 인위적으로 발생시켜야 한다. 예시적인 실시예에 있어서, 컨텐츠에 기초한 인덱스에 대하여 각각의 오디오 또는 비디오 파일에 대응하는 전기된 텍스트는 고정 개수의 워드, 예를 들면 100 워드의 오버랩핑 세그먼트로 자동 분할되며, 각 세그먼트는 별도의 문서로서 처리된다. 선택적인 실시예에서, 토픽 식별 구성은 파일을 토픽으로 분할하는 데 사용된다. 마찬가지로, 화자에 기초한 인덱스에 대하여, 오디오 또는 비디오 파일은 소정의 화자와 관련된 각각의 세그먼트로 자동 분할된다. 따라서, 새로운 세그먼트는 새로운 화자가 말할 때마다 생성된다.
본 발명에서는 컨텐츠에 기초한 검색 및 화자에 기초한 검색에 의해 결정되는 오디오의 가장 적절한 부분이 설정된다. 컨텐츠에 기초한 인덱스에서 세그먼트의 크기는 대략 100 워드를 말할 때 걸리는 시간은 거의 30초이다. 그러나, 화자에 기초한 인덱스에서 세그먼트의 길이는 가변적이며, 화자 변경 검출기에 관한 함수이다. 따라서, 세그먼트 길이를 예측할 수 없다. 그러므로, 본 발명의 특징에 따라, 양 도메인에서 세그먼트의 개시와 종료 시간을 비교한다.
본 발명의 또 다른 특징에 따르면, 컨텐츠 및 화자 도메인 사이를 오버랩하는 범위가 고려된다. 그 이상을 오버랩하는 문서는 크게 가중된다. 통상적으로, 도 6과 관련하여 이하에서 더 논의되는 바와 같이, 이하의 수학식 1을 사용하여 결합된 스코어를 계산한다.
수학식 1
결합된 스코어=(순위 부여된 문서 스코어+(람다*화자 세그먼트 스코어))*오버랩 인자
순위 부여된 스코어는 예를 들면 이하에서 논의되는 오카피 방정식을 사용하여 컨텐츠에 기초한 정보 검색에 순위를 부여한다. 순위 부여된 문서 스코어는 조회 기간에 관한 함수이므로 검색 시간 중에 계산된다. 화자 세그먼트 스코어는 화자 세그먼트와 등록된 화자 정보 사이의 근접 정도를 나타내는 거리 측정치이며 인덱싱 단계 중에 계산될 수 있다. 람다는 가변적이며 화자 신원 처리에서 신뢰성의 정도를 기록하고 제로와 1 사이의 실수이다. 오버랩 인자는 완전하게 오버랩하지 않은 세그먼트에 패널티를 부여하며, 제로와 1 사이의 실수이다. 결합된 스코어는 사용자에게 리턴되고 리스트의 상부에서 최적 매칭되는 세그먼트를 갖는 식별된 문서에 순위를 부여하는 데 사용된다.
도 1은 본 발명에 따른 실례의 오디오 검색 시스템(100)의 구성을 도시한 블록도이다. 오디오 검색 시스템(100)은 범용 계산 시스템, 예를 들면 도 1에 도시된 범용 계산 시스템으로서 구체화될 수 있다. 오디오 검색 시스템(100)은 프로세서(110), 데이터 저장 장치(120)와 같은 관련 메모리를 포함하며, 이 메모리는 분산형 또는 국부형일 수 있다. 프로세서(110)는 단일 프로세서, 또는 병렬 처리 동작하는 다수의 국부형 또는 분산형 프로세서로서 구체화될 수 있다. 데이터 저장 장치(120) 및/또는 ROM은 하나 이상의 인스트럭션을 저장하도록 동작 가능하며, 프로세서(11)는 검색, 인터프리터 및 실행하도록 동작 가능하다.
바람직하게는, 데이터 저장 장치(120)는 본 발명에 따르면 인덱싱되고 검색될 수 있는 하나 이상의 오디오 또는 비디오 파일(또는 둘 다)을 저장하는 오디오 집성 데이터베이스(150)를 포함하는 것이 좋다. 데이터 저장 장치(120)는 도 2a 내지 도 2d 및 도 3과 관련하여 이하에서 논의되는, 하나 이상의 컨텐츠 인덱스 파일(200) 및 하나 이상의 화자 인덱스 파일(300)을 포함한다. 통상적으로, 도 2a 내지 도 2d와 결합하여 이하에서 논의되는 바와 같이, 컨텐츠 인덱스 파일(200)은 문서 데이터베이스(210)(도 2a), 문서 청크 인덱스(240)(도 2b), 단일 문서(unigram) 파일(항 주파수; term frequency)(260)(도 2c) 및 인버스 문서 인덱스(IDF)(275)(도 2d)를 포함한다. 컨텐츠 인덱스 파일(200)은 인덱싱 단계 도중에 음성 인식 시스템과 결합하여 발생되고, 추가 인덱싱 부여 정보와 함께 워드 또는 구의 리스트로서 오디오(또는 비디오) 문서를 기술한다. 화자 인덱스 파일(300)은 인덱싱 단계 중에 화자 식별 시스템과 결합하여 발생되고, 오디오 파일의 각 세그먼트에 대하여 화자 라벨을 부여한다. 그 다음, 검색 단계 중에, 컨텐츠 인덱스 파일(200) 및 화자 인덱스 파일(300)은 액세스되고, 컨텐츠 인덱스 파일(200)에서의 문서 기술은 사용자 지정 조회의 기술과 매칭하고, 화자 인덱스 파일(300)에서 화자 라벨로 나타나는 화자 신원은 지명된 화자 신원과 매칭된다.
또한, 데이터 저장 장치(120)는 프로세서(110)를 구성하는 데에 필요한 프로그램 코드를 포함하며, 도 5와 관련하여 이하에서 논의되는 인덱싱 시스템(500)과, 도 6과 관련하여 이하에서 논의되는 컨텐츠 및 화자 오디오 검색 시스템(600)을 포함한다. 전술한 바와 같이, 인덱싱 시스템(500)은 오디오 집성 데이터베이스(150)에서 하나 이상의 오디오 파일을 분석하여 대응하는 컨텐츠 인덱스 파일(200) 및 화자 인덱스 파일(300)을 생성한다. 컨텐츠 및 화자 오디오 검색 시스템(600)은 사용자 지정 조회에 응답하여 컨텐츠 인덱스 파일(200) 및 화자 인덱스 파일(300)을 액세스하고, 오디오 컨텐츠 및 화자 신원에 기초한 문서 조회 매칭을 행하고 사용자에게 관련 문서를 리턴한다.
인덱스 파일
전술한 바와 같이, 오디오 샘플은 예를 들면 음성 인식 시스템을 사용하여 초기에 전기되어 텍스트 형태의 오디오 정보를 생성한다. 그 후, 인덱싱 시스템(500)은 텍스트 형태의 오디오 파일을 분석하여 대응하는 컨텐츠 인덱스 파일(200) 및 화자 인덱스 파일(300)을 생성한다.
전술한 바와 같이, 컨텐츠 인덱스 파일(200)은 문서 데이터베이스(210)(도 2a), 문서 청크 인덱스(240)(도 2b), 단일 문서 파일(항 주파수)(260)(도 2c) 및 인버스 문서 인덱스(IDF)(275)(도 2d)를 포함한다. 통상적으로, 컨텐츠 인덱스 파일(200)은 오디오(또는 비디오) 문서를 기술한 정보를 추가 인덱싱 정보와 함께 워드 또는 구의 리스트로서 저장한다. 예시적인 실시예에 있어서, 컨텐츠 인덱스 파일(200)은 무엇보다도 오카피 방정식에 의해 요구되는 통계치를 기록한다.
문서 데이터베이스(210)(도 2a)는 예시적인 실시예에서 다른 100 워드 문서 청크(document chunk)와 각각 관련된, 예를 들면 레코드 211 내지 레코드 214와 같은 다수의 레코드를 유지한다. 하나의 실시예에 있어서, 문서 사이에서 50 워드 오버랩이 발생한다. 필드 220에서 식별되는 각 문서 청크에 대하여, 문서 데이터베이스(210)는 필드 226에 문서 길이를 나타내고, 필드 222, 224에 청크의 개시 및 종료 시간을 각각 나타낸다. 결국, 각 문서 청크에 대하여, 문서 데이터베이스(210)는 문서 청크를 인덱싱하는 대응 문서 청크 인덱스(240)에 포인터를 제공한다. 실례의 실시예에서는 문서의 길이가 고정 길이 100 워드이지만, 바이트 길이는 변경될 수 있다. 이하에서 논의되는 바와 같이, 문서 길이(바이트)는 정보 검색의 스코어링(scoring)을 정규화하는 데 사용된다.
문서 청크 인덱스(240)(도 2b)는 다수의 레코드, 예를 들면 레코드 241 내지 레코드 244를 유지하며, 이 레코드는 대응하는 문서 청크에서 상이한 워드와 각각 관련된다. 따라서, 예시적인 실시예에서, 각 문서 청크 인덱스(240)에는 100개의 엔트리가 있다. 필드 250에서 식별되는 각 워드 문자열에 대하여(문서 청크로부터), 문서 청크 인덱스(240)는 필드 255에서 워드의 개시 시간을 나타낸다.
단일 문서 파일(항 주파수)(260)(도 2c)은 각 문서와 관련되며, 그 문서에서 각 워드가 발생하는 다수의 시간을 나타낸다. 단일 문서 파일(260)은 다수의 레코드, 예를 들면 레코드 261 내지 레코드 264를 유지하며, 그들 각각은 문서에서 나타나는 상이한 워드와 관련된다. 필드 265에서 식별되는 각 워드 문자열에 대하여, 단일 문서 파일(260)은 필드 270에서 워드가 문서에 나타나는 횟수를 나타낸다.
인버스 문서 인덱스(275)(도 2d)는 문서 컬렉션에서 각 워드가 나타나는 다수의 시간들을 나타내며, 그 워드가 발생하는 모든 문서들 중에서 관련된 현재의 문서에 순위를 부여하는 데 사용된다. 인버스 문서 인덱스(275)는 다수의 레코드, 예를 들면 레코드 276 내지 279를 유지하며, 각각은 어휘에서 상이한 워드와 관련된다. 필드 280에서 어휘 식별자에 의해 식별되는 각 워드에 대하여, 인버스 문서 인덱스(275)는 필드 285에서 워드 문자열을, 필드 290에서 인버스 문서 주파수(IDF)를, 필드 295에서 워드가 나타나는 문서 리스트를 나타낸다. 필드 295에서 문서 리스트에 의해 실제 조사하지 않고도 워드가 어떤 문서에 있는지를 판정할 수 있다.
전술한 바와 같이, 도 3에 도시된 화자 인덱스 파일(300)은 오디오 파일의 각 세그먼트에 대해 화자 라벨을 부여한다. 화자 인덱스 파일(300)은 다수의 레코드, 예를 들면 레코드 305 내지 312를 유지하며, 각각은 오디오 파일의 상이한 세그먼트와 관련된다. 음성의 각 세그먼트는 상이한 화자와 관련된다. 필드 325에서 식별되는 각 세그먼트에 대하여, 화자 인덱스 파일(300)은 필드 330에서 대응 화자를, 필드 335에서 세그먼트를 포함하는 대응 오디오 또는 비디오 파일을 식별한다. 또한, 화자 인덱스 파일(300)은 각 필드 340 및 필드345에 (파일의 개시부로부터 오프셋되는) 세그먼트의 개시 및 종료 시간을 각각 나타낸다. 화자 인덱스 파일(300)은 도 5와 관련하여 이하에서 논의되는 바와 같이 화자 세그먼트와 등록된 화자 정보간의 근접 정도를 나타내는 스코어(거리 측정치)를 필드 350에 나타낸다.
화자 등록 처리
도 4는 화자를 기록, 즉 등록하는 데 사용되는 공지된 처리를 도시하고 있다. 도 4에 도시된 바와 같이, 각각의 기록된 화자에 대하여, 화자명은 화자 트레이닝 파일(speaker training file)과 함께 화자 등록 처리부(410)에 제공된다. 화자 등록 처리부(410)에서는 화자 트레이닝 파일을 분석하여, 화자 데이터베이스(420)에서 각 화자에 대한 엔트리를 생성한다. 화자 데이터베이스(420)에 화자 음성 샘플을 추가하는 처리는 등록이라 칭해진다. 등록 처리는 오프라인 처리되고, 오디오 인덱싱 시스템은 관련된 모든 화자에 대해 데이터베이스가 있다라고 가정한다. 약 몇 분의 오디오는 통상적으로 다수의 음향 조건을 포함하는 마이크로폰 및 다수의 채널에서 각 화자로부터 요구된다. 등록된 화자의 트레이닝 데이터 또는 데이터베이스는 계층 구조로 저장되어, 인식 및 검색을 효율적으로 하기 위해 액세스 모델을 최적화한다.
인덱싱 처리
전술한 바와 같이, 인덱싱 단계 동안에 도 5에 도시된 인덱싱 시스템(500)은 음성 인식 시스템으로부터 출력되는 텍스트를 처리하여 컨텐츠 및 화자를 인덱싱한다. 도 5에 도시된 바와 같이, 컨텐츠 인덱싱 및 화자 인덱싱은 2개의 병렬 처리 분기를 따라 실행되며, 컨텐츠 인덱싱은 단계 510 내지 535 동안에 실행되고, 화자 인덱싱은 단계 510 내지 575 동안에 실행된다. 그러나, 컨텐츠 인덱싱 및 화자 인덱싱이 연속적으로 실행될 수 있다라는 것을 당업자라면 이해할 수 있을 것이다.
컨텐츠 인덱싱 및 화자 인덱싱의 초기 단계로서, 공지된 방법에서 단계 510동안에 캡스트럼(cepstral) 특징을 오디오 파일로부터 추출한다. 통상적으로, 단계 510에서는 오디오 파일의 도메인을 주파수 도메인으로 변환하여 동적 범위를 감소시키고, 그것을 역변환하여 그 역변환된 신호를 다시 시간 도메인으로 복귀한다.
컨텐츠 인덱싱
그 다음, 단계 515 동안에, 오디오 정보를 전기 엔진, 예를 들면 뉴저지주 아몽크의 IBM 코오포레이션으로부터 입수 가능한 비아보이스(viavoice) 음성 인식 시스템에 인가하여, 시간 스탬핑된 워드의 전기 파일을 생성한다. 그 후, 단계 520 동안에 시간 스탬핑된 워드는 고정 길이, 예를 들면 예시적인 실시예에 있어서 100 워드인 문서 청크로 수집된다.
컨텐츠 인덱스 파일(200)에 요구되는 통계는 단계 530 동안에 오디오 파일로부터 추출된다. 전술한 바와 같이, 인덱싱 동작은, (ⅰ) 토큰화 처리, (ⅱ) 음성 일부 태그 처리, (ⅲ) 형태 분석 및 (ⅳ) 표준 스톱 워드 리스트를 사용한 스톱 워드 제거를 행한다. 토큰화 처리에서는 문장 경계가 검출된다. 형태 분석은 다수 형태를 나타내는 태그에 따라 명사를 그들의 어근으로 분해하는 언어학적 신호 처리 형태이다. 마찬가지로, 동사는 그 동사의 어근에 따라 인칭, 시제 및 법(法)을 나타내는 단위로 분해된다.
단계 530에서, 인덱싱 시스템(500)은 오카피 방정식에 의해 요구되는 통계를 수득한다. 오디오 필드에서 식별되는 각 워드에 대하여, 이하의 정보, 즉 항 주파수(소정의 문서에서 워드가 나타나는 시간), (워드가 발생하는 문서의 개수를 나타내는) 인버스 문서 주파수(IDF), (정규용) 문서 길이 및 워드(반전된 인덱스)를 포함하는 각 문서에 연쇄 연결된 포인터 집합을 얻는다.
단계 530 동안에 얻어진 정보는 단계 535 동안에 컨텐츠 인덱스 파일(200)에 저장되거나, 또는 컨텐츠 인덱스 파일(200)이 이미 존재하는 경우에는 그 정보는 업데이트된다.
화자 인덱싱
이하에서 더 논의되는 바와 같이, 화자에 기초한 정보 검색 시스템은 2개의 구성 소자, 즉 (1) 음향 변화 검출 시스템(종종 화자 세그먼테이션으로 칭해짐) 및 (2) 화자 독립형, 랭귀지 독립형, 텍스트 독립형 화자 인식 시스템으로 구성된다. 화자 식별 처리를 자동화하기 위해, 비등질의 음성 부분들간의 경계(변화)는 단계 550 동안에 검출되어야 한다. 각각의 비등질 세그먼트는 단독 화자의 음성에 대응해야 한다. 일단 서술되면, 각 세그먼트는 특정의 화자가 말하는 것에 따라 분류된다. (세그먼트가 화자 인식 시스템에서 요구되는 최소 세그먼트 길이 요구조건을 만족시킨다라고 가정한다.)
예시적인 실시예의 단계 550 동안에 음성을 분할할 때 사용되는 음성 모델 선택 기준은 공지된 베이스 정보 기준(Bayesian Information Criterion:BIC)이다. 입력되는 오디오열은 캡스트럼 공간에서 가우스 처리로서 모델링될 수 있다. BIC는 가우스 처리의 (화자) 횟수를 검출하기 위한 최소 가능 방법이다. 모델 식별의 문제점은 소정의 데이터 집합을 기술하는 데에 후보 모델 집합 중에서 하나를 선택하는 것이다. 입력된 오디오 신호로부터 도출되는 프레임이 독립적이고 단일 가우스 처리로부터 초래된다고 가정한다. 프레임 i(1≤i<N) 이후에 N 특징 벡터의 윈도우에서 음성 변화가 있는 경우를 검출하기 위해, 2개의 모델이 제작된다. 첫번째 모델은 한 가우스 분포에 의해 전체 윈도우를 나타내며, 그것의 평균 및 전공분산(全共分散)){μ, Σ}에 의해 특징지어진다. 두번째 모델은 최대 프레임 i까지 제1 가우스{μ1, Σ1}를 갖는 윈도우의 제1 부분과, 또 다른 가우스{μ2, Σ2}를 갖는 윈도우의 제2 부분을 나타낸다. 기준은 수학식 2로 표현된다.
상기 수학식 2에서,이고,은 윈도우에 관련된 패널티이며, N1 =i는 윈도우의 제1 부분의 프레임 수이고, N2=(N-i)는 제2 부분의 프레임 개수이며, d는 프레임의 크기이다. 그러므로,가 가우스를 나타내는 데 사용되는 파라미터의 수일 때, P는 모델의 복잡도를 반영한다.
ΔBIC<0는 페널티를 고려했을 때 윈도우를 2개의 가우스 분포로 분할하는 모델이 단일 가우스 분포만을 갖는 전체 윈도우를 나타내는 모델 보다 더 클것이라는 것을 의미한다. 따라서, BIC는 임계 가능도(threshold-likelihood ratio) 기준처럼 작용하며, 임계치는 경험에 입각하여 조정되지 않고 이론에 기초하여 조정된다. 이 기준은 확고하며 트레이닝 이전에는 어떠한 것도 필요로 하지 않는다.
상기 예시적인 실시예에 있어서, BIC 알고리즘은 정확도를 손상시키지 않고도 고속으로 실행되어 왔다. 사용되는 특징 벡터는 24 크기를 사용하는 단순한 멜켑스트럼 프레임이다. 다른 어떠한 처리도 이 벡터로 행해지지 않는다. 알고리즘은 윈도우 처리 단위로 동작하며, 각 윈도우에서 몇 개의 프레임은 그들이 BIC-규정 세그먼트 경계인지를 점검하도록 테스트된다. 세그먼트 경계가 전혀 발견되지 않는 경우(포지티브 ΔBIC), 윈도우 크기가 증가된다. 그렇지 않으면, 이전 윈도우 위치가 기록되며, 또한 (본래 크기를 갖는) 새로운 윈도우의 개시부에 대응한다.
이하에서 BIC 실행을 위한 여러 단계가 상세하게 설명된다. BIC 계산은 명백한 실질적인 이유로 윈도우의 각 프레임에 대하여 실행되지 않는다. 대신에, 프레임 솔루션 r이 사용되며, 윈도우를 M=N/r 서브세그먼트로 분할한다. 그 결과 생성되는 (M-1) BIC 테스트 이외에, 가장 네거티브한 ΔBIC를 초래하는 것이 선택된다. 이러한 네거티브 값이 존재하는 경우, 검출 윈도우는 최소 크기로 리셋되며, 검출된 포인터는 더 좋은 리솔루션으로 개선된다. 이 개선 단계는 총계산 횟수를 증가하고 이 알고리즘의 속도 성능에 충돌하기 때문에, 특정 사용자 환경, 실시간 또는 오프라인에 맞추어 만들어진다.
어떠한 네거티브 값도 발견되지 않는 경우, 윈도우 크기는 "Ni=Ni-1+ΔNi" 규칙을 이용함으로써 Ni-1에서 Ni프레임으로 증가되며, 또한 Ni는 어떤한 변화도 발견되지 않는 경우, 즉 Ni-Ni-1=2(Ni-1-Ni-2)인 경우 증가하게 된다. 이것은 음성 신호의 동질 세그먼트에서 알고리즘의 속도를 증가시킨다. 그래도 에러율이 증가되지 않도록 하기 위해, ΔNi는 상부의 경계를 갖는다. 검출 윈도우가 너무 큰 경우, BIC 계산의 횟수도 감소된다. Mmax이상의 세그먼트가 존재하는 경우, Mmax-1BIC 계산은 첫번째 계산을 건너뛰어 계산되게 된다.
단계 555 동안에는, 단계 550의 결과를 사용하여 단계 510 동안에 생성되는 특징을 분석하여 단독 화자에 의한 음성 청크로 구성되는 세그먼트 발성을 생성한다. 단계 560 동안에는 그 세그먼트 발성이 화자 식별 시스템에 인가된다. 화자 식별 시스템에 관하여 설명하기 위해, 예를 들면, 에이치. 에스. 엠. 베이지(H. S. M. Beigi) 등의 논문("IBM Model-Based and Frame-by-Frame Speaker-Recognition", in Proc. of speaker Recognition and its Commercial and Forensic Applications, Avignon, France(1998))을 참조할 것. 통상적으로, 화자 식별 시스템은 세그먼트 발성과 화자 데이터베이스(420)(도 4)를 비교하여 "가장 근접한" 화자를 찾는다.
화자 식별 시스템은 2 가지로 상이하게 실행된다. 즉, 모델에 기초한 방법 및 수반되는 단점 및 장점을 갖는 프레임에 기초한 방법으로 실행된다. 엔진은 방송 뉴스와 같은 재료의 라이브 오디오 인덱싱을 용이하게 하기 위해 텍스트 독립형 및 랭귀지 독립형 모두를 다 취한다.
화자 식별-모델에 기초한 방법
데이터베이스에서 화자의 모집단에 대한 트레이닝 모델 집합을 생성하기 위해, d-차원 특징 벡터을 갖는 음성의 M 프레임의 시퀀스에 기초한 i 번째 화자에 대한 모델 Mi가 계산된다. 이 모델들은 가우스 분포가 선택되는 경우에 대하여 평균 벡터, 공분산 매트릭스 및 계수로 구성된과 같은 통계학적 파라미터에 의하여 저장된다. 각 화자(i)는 ni분포로 구성되는 모델로 종료한다.
2개의 모델을 비교하기 위하여, 에이치, 에스. 엠. 베이지 등이 1998년 워싱톤주, 시에틀에서 행한 발표(A Distance Measure Between Collections of Distributions and Its Application to Speaker Recognition, Proc. ICASSP98)에서 제안된 거리 측정을 이용함으로써, 계층적 구조는 화자 식별(클레임 증명), 화자 분류(화자 할당), 화자 검증(라벨과 그 라벨이 부여된 화자의 특성과 매칭되는 일단의 화자"를 비교함으로써 분류를 확립하는 두번째 통과) 및 화자 클러스터링을 포함하는 많은 다른 기능을 갖는 화자 인식 시스템을 고안하도록 생성된다.
화자 인식에 대해 고안된 거리 측정은 상이한 수의 분포 ni를 갖는 2개의 모델간의 용인 가능한 거리에 관한 계산을 가능케 한다. 그들 모델의 파라미터에 의한 표현에만 기초하는 2 화자를 비교함으로써, 계산학적으로 훨씬 덜 강한 2 화자를 비교하는 일을 행하는 주변의 특징을 실행할 필요가 없어진다. 그러나, 이 인식 단계 중에 상기 거리 측정의 단점은, 비교 계산을 시작하기 전에 테스트 개인 (요구자)의 모델을 작성하는 데 전체 음성 세그먼트가 사용되어야 한다는 것이다. 프레임 처리 단위의 방법은 상기 문제점을 경감한다.
화자 식별-프레임 처리 단위의 방법
Mi를 i 번째 등록된 화자에 대응하는 모델이라고 하자. Mi는 평균 벡터, 공분산 매트릭스 및 화자 i의 가우스 혼합 모델(GMM: Gaussian Mixture Media)의 ni구성 성분 각각에 대한 혼합 가중치로 구성되는 파라미터 집합,에 의해 전체적으로 정의된다. 이 모델은 전술한 바와 같이 d-차원 특징 벡터를 갖는 음성 M 프레임의 시퀀스로 구성되는 트레이닝 데이터를 사용하여 생성된다. 음성 모집단의 크기가 Np인 경우, 모델 모집단 집합은이다. 기본 목적은 Mi가 N 프레임의 시퀀스,로 나타나는 테스트 데이터를 가장 잘 설명하는 i를 찾거나, 또는 어떠한 모델도 적절하게 그 데이터를 기술하지 못한다는 것을 결정하는 것이다. 이하의 프레임에 기초한 가중 가능 거리 측정치 di,n을 결정할 때 사용된다. 여기서, 정규 표현을 사용하면와 같다. 테스트 데이터로부터 모델 Mi의 총거리 Di는 총테스트 프레임 수에 관한 모든 거리의 합계가 되도록 구해진다.
분류 단계 동안에, 음성 세그먼트에 대해 최소 거리를 갖는 모델이 선택된다. 최소 거리를 참고 모델의 거리와 비교함으로써, 원래 모델이 전혀 매칭되지 않는다는 것을 나타내는 방법을 제공한다. 다르게는, 보우팅(voting) 기술 방법이 총거리를 계산하는 데 사용될 수도 있다.
검증 단계 동안에, 라벨이 부여된 일대의 화자를 형성하는 소정의 부재 집합은 다양한 참고 모델로 증가된다. 모델 모집단으로서 설정되는 이것을 이용함으로써, 테스트 데이터는 요구자의 모델이 최소 거리를 가지는 지를 테스트함으로써 검증된다. 그렇지 않은 경우에는 거절된다.
이 거리 측정은 음성 프레임이 화자간의 거리를 계산하기 위해 유지되어야 하기 때문에 트레이닝시에 사용되지 않는다. 그러므로, 전술한 모델에 기초한 기술에 관한 방법을 사용하여 트레이닝이 행해진다.
화자에 기초한 검색용 인덱스 파일은 단계 565 동안에 화자 분류 및 검증 결과에 관하여 제2 통과를 취함으로써 작성된다. 화자 식별이 단계 565 동안에 검증되는 경우, 화자 라벨은 단계 570 동안에 세그먼트에 할당된다.
전술한 바와 같이, 각각의 분류 결과는 원래 등록된 화자 모델에서 오디오 테스트 세그먼트까지의 거리를 나타내는 스코어, 관련된 오디오 클립의 개시에 관련되는 세그먼트의 개시 및 종료 시간 및 라벨(등록 도중에 공급되는 화자의 이름)에 의해 이루어진다. 또한, 소정의 오디오 클립에 대하여, 동일 화자 라벨에 할당되는 모든 세그먼트가 수집된다. 그것들은 그들의 스코어에 의해 소트되고 최대의 스코어를 갖는 세그먼트에 의해 정규화된다. 시스템에 의해 처리되고 인덱싱되는 새로운 오디오 클립마다, 라벨이 부여된 모든 세그먼트는 다시 소트되어 다시 정규화된다.
이 정보는 단계 575 동안에 화자 인덱스 파일(300)에 저장되거나, 화자 인덱스 파일(300)이 이미 존재하는 경우에는 업데이트된다.
검색 처리
전술한 바와 같이, 검색 단계 도중에, 도 6에 도시된 컨텐츠 및 화자 오디오 검색 시스템(600)은 인덱싱 단계 동안에 발생되는 인덱스 및 컨텐츠를 사용하여 오디오 컨텐츠 및 화자 신원에 기초한 문서 조회 매칭을 실행하고 사용자에게 관련 문서(가능한 추가 정보)를 리턴한다. 통상적으로, 검색은 2개의 별개의 비오버랩핑 모듈을 사용하여 실행될 수 있는데, 하나는 컨텐츠에 기초한 것이고 나머지는 화자에 기초한 것이다. 2개의 모듈은 완전하게 독립적이기 때문에 스레드(thread) 또는 프로세스를 사용하여 동시에 동작하도록 프로그래밍될 수 있다. 예시적인 실행에 있어서 양 모듈은 연속적으로 동작한다.
검색 시간에서, 컨텐츠 및 화자 오디오 검색 시스템(600)은 단계 610 및 620에서 인덱싱시에 사용되는, 동일한 어휘, 태그집, 형태학적 테이블 및 토큰 테이블을 로딩한다. 적절한 컨텐츠 인덱스 파일(200) 및 화자 인덱스 파일(300)은 단계 620에서 메모리로 로딩된다. 테스트는 조회가 수신될 때까지 단계 625 동안에 실행된다.
단계 630 중에 조회 문자열이 수신 및 처리된다. 수신된 텍스트 조회에 응답하여, 조회 단계 635 중에 컨텐츠 인덱스 파일(200)에 대하여 문자열을 비교하여 목적 순위 부여 함수(순위 부여된 문서 스코어)를 사용하여 가장 관련된 문서를 계산한다. 또한, 이 문서들의 순위 부여시에 사용되는 순위 부여된 문서 스코어는 본 발명에 따라 결합된 스코어의 차후 계산을 위해 기록된다(단계 645).
문서와 조회 사이에서 순위 부여된 문서 스코어를 계산하는 데에는 다음 수학식 3의 오카피 공식이 사용된다.
상기 식에서, qK는 조회에서 k번째 항이고, Q는 조회에서 항의 개수이며, cq(qk) 및 cd(qk)는 각각 조회에서 k번째 항의 카운트 및 문서이고, ld는 문서의 길이이며, l은 컬렉션에서 문서의 평균 길이이고, idf(qk)는 이하와 같이 제공되는 항 qk에 관한 인버스 문서 주파수이며,에 의해 제공된다. 여기서, N은 문서의 총 수이고 n(qk)은 항 qk를 포함하는 문서의 개수이다. 따라서, 인버스 문서 주파수 항은 문서 중에서 드문 항을 지지한다. (단일 문서에 대하여, α1=0.5, α2=1.5) 명백하게는, 조회와 관련된 항들을 제외하고는 대부분 상기 스코어링 함수의 엘리먼트일 때 idf는 미리 계산되어 저장될 수 있다.
조회때마다, 컬렉션에서 모든 문서에 대하여 매칭되고 문서는 전술된 오카피 공식으로부터 계산된 스코어에 따라 순위가 부여된다. 순위가 부여된 문서 스코어는 문서 길이에 관하여 정규화된 문서에서 각 조회 항이 발생하는 횟수를 참작한다. 정규화는 많은 경우에 보다 긴 문서가 임의의 소정의 워드를 가질 것이기 때문에 통상적으로 보다 긴 문서를 지지하는 편견을 제거한다. 또한, 이 함수는 문서에 지정되고 다른 문서에 걸쳐서 드문 항을 지지한다. (제2 통과가 사용되는 경우, 문서는 트레이닝 데이터로서 제1 통과로부터 최고 순위가 부여된 문서를 사용하여 문서의 또다른 모델을 트레이닝함으로써 다시 순위가 부여된다.)
그 후, 식별된 문서(또는 그 문서의 서브세트)는 단계 640 동안에 분석되어, 화자 인덱스 파일(300)에서 식별되는 화자가 조회시 사용자에 의해 지정되는 화자와 매칭하는 지를 결정한다. 구체적으로는, 컨텐츠에 기초한 조회를 만족시키는 순위 부여된 문서의 시간 경계는 오버랩핑 개시 및 종료 시간을 갖는 문서를 식별하기 위해 화자에 기초한 조회를 만족시키는 문서들과 비교된다. 화자 검색으로부터의 단일 세그먼트는 텍스트 검색으로부터의 다수 세그먼트로 오버랩핑할 수 있다.
약간 오버랩핑한 문서에 대한 결합 스코어는 단계 645 동안에 전술된 방법으로 수학식 1과 같이 계산된다. 스코어링된 문서 모두에 순위가 부여되고 매칭 스코어가 100이 되는 가장 관련된 문서로 정규화된다.
수학식 1
결합 스코어=(순위 부여된 문서 스코어+(람다*화자 세그먼트 스코어))*오버랩 인자
통상적으로, 최고 N 문서는 사용자에게 단독으로 리턴된다. 따라서, 최적 매칭되는 N 세그먼트의 개시 및 종료 시간 리스트는 매칭 스코어, 관련 스코어에 기여되는 매칭 워드와 함께 단계 650 동안에 리턴된다. 각각의 결합된 결과의 디폴트 개시 시간은 컨텐츠에 기초한 서치로부터의 대응 문서의 개시 시간과 동일하다. (다른 선택은 화자 세그먼트의 개시 시간을 사용하는 것이다.) 종료 시간은 (단순히 화자가 그의 말을 종료하는) 화자 세그먼트의 종료 시간으로 설정된다. 그러나, 유용성 때문에, 세그먼트는 고정 주기, 예를 들면 60초로 절단될 수 있다. 즉, 평균 문서 길이 동안 2번 절단될 수 있다.
사용자 인터페이스
예시적인 사용자 인터페이스는 검색 엔진에 의해 리턴되는 N 선택 각각에 대한 모든 관련 정보를 나타낼 수 있으며, 또 다른 선택시에, VCR형 인터페이스를 통해 MPEG-1을 디스플레이하는데에 자바 매체 필터를 사용하여 실행되는 매체 핸들러 구성 요소를 사용한다. 자바 어플리케이션은 (PC가 네트워크에 연결된 경우 서버에 있을 수 있는) 비디오 파일을 배치하고, 검색 단계 동안에 수집된 정보를 사용하여, 예를 들면 검색된 문서, 관련 정보-매체 파일명, 개시 시간, 종료 시간, 순위, 정규화된 스코어, 매체 파일에서 검색된 세그먼트가 있는 곳의 그래픽, 강조 표시한 조회 워드 (및 그 문서의 순위 부여에 기여한 다른 형태)를 디스플레이하는 것처럼 결과를 꾸민다- 이것은 컨텐츠에 기초한 서치에만 관련되거나, 또는 재생용으로 디스플레이되는 검색된 문서 일부를 강조 표시하는 것이 가능하다.
최고 N 검색 항은 컴팩트 형태로 사용자에게 표시된다. 이것에 의해 사용자는 다른 액션용 검색 항을 가시적으로 다시 볼 수 있게 된다. 통상적으로, 문서의 텍스트 일부를 포함하는 검색된 문서에 관하여 수집된 정보 모두를 포함한다. 검색항 중 하나가 오디오 또는 비디오 정독용으로 선택되는 경우, 매체 핸들러 구성 요소는 특정 개시 시간에 앞서 매체 파일을 배치하고 (요구되는 경우) 스트림을 압축 해제하고, 그런 다음 오디오 또는 비디오의 제1 프레임을 갖는 매체 플레이어를 초기화하는데 요구된다. VCR형 인터페이스는 사용자로 하여금 개시 시간으로부터 종료 시간, 즉 스톱 시간까지 검색된 비디오를 "플레이"하고 임의 시점에서 전진시키는 것을 가능하게 한다.
오디오로부터의 컨텐츠에 기초한 정보 검색을 위한 본 발명자들의 접근 방식의 텍스트 내에서 다른 개선이 행해질 수 있다. 음성 인식 출력으로부터 도출되는 현재의 문서 집합은 인식기로부터의 각 워드 또는 구에 대한 차후의 가장 좋은 추측을 포함함으로써 증가될 수 있다. 이 정보는 인덱스 항, 조회 확장 및 검색을 가중시키는 데 사용될 수 있다. 또한, 순수 음성만이 검색용으로 인덱싱되도록 음악 또는 대개 잡음을 갖는 세그먼트를 검출함으로써 인식 정확도를 더 낫게 할 수 있다. 오디오 인덱싱에 관한 현재의 방법에 있어서의 한계는 음성 인식기에서 한정된 범위의 어휘를 사용한다는 것이다. 정보 검색 관점에서 중요한 적절한 명사 및 약어와 같은 워드는 종종 어휘에서 빠져서 인식된 전기(轉記)에서 빠진 것이 발견된다. 이러한 한계점을 극복하기 위한 방법은, 어휘 워드의 출력용 워드스포터로 음성 인식기를 실행하는 것이다. 그러나, 이 방법이 실용적이기 때문에, 실시간 보다 빠른 속도로 다량 음성으로 화술된 워드를 검출하는 기능을 가져야 한다.
도시되고 설명된 실시예 및 변경이 단순히 본 발명의 원리를 나타내고 있을 뿐이며, 본 발명의 범위 및 사상으로부터 벗어나지 않는 범위 내에서 다양한 수정이 당업자에 의해 실행될 수 있다는 것을 이해하여야 한다.
이상과 같이, 본원 발명은 화자의 신원뿐만 아니라 오디오 컨텐츠에 기초하여 오디오 정보를 검색할 수 있게 된다.

Claims (22)

  1. 하나 이상의 오디오 소스로부터 오디오 정보를 검색하는 방법에 있어서,
    적어도 하나의 컨텐츠 제약 조건 및 하나의 화자 제약 조건을 지정하는 사용자 조회를 수신하는 단계와;
    상기 사용자 조회를 상기 오디오 소스의 화자 인덱스 및 컨텐츠 인덱스와 비교하여 상기 사용자 조회를 만족시키는 오디오 정보를 식별하는 단계;
    를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  2. 제1항에 있어서, 상기 컨텐츠 인덱스 및 상기 화자 인덱스는 시간 스탬핑되고, 상기 비교 단계는 상기 컨텐츠 및 화자 도메인 모두에서 문서 세그먼트의 개시 시간과 종료 시간을 비교하는 단계를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  3. 제1항에 있어서, 상기 컨텐츠 인덱스는 상기 오디오 소스에서 각 워드의 주파수를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  4. 제1항에 있어서, 상기 컨텐츠 인덱스는 상기 오디오 소스에서 각 워드의 인버스 문서 주파수(IDF)를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  5. 제1항에 있어서, 상기 컨텐츠 인덱스는 상기 오디오 소스의 길이를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  6. 제1항에 있어서, 상기 컨텐츠 인덱스는 소정의 워드를 포함하는 각 문서에 체인 연결된 포인터 집합을 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  7. 제1항에 있어서, 상기 화자 인덱스는 등록된 화자에서 오디오 테스트 세그먼트까지의 거리를 나타내는 스코어를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  8. 제1항에 있어서, 상기 화자 인덱스는 각 오디오 세그먼트의 개시 시간 및 종료 시간을 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  9. 제1항에 있어서, 상기 화자 인덱스는 상기 세그먼트와 관련된 화자를 식별하는 라벨을 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  10. 제1항에 있어서, 상기 비교 단계는 상기 컨텐츠에 기초한 조회를 만족시키는 문서와 화자에 기초한 조회를 만족시키는 문서를 비교하여, 관련 문서를 식별하는 단계를 더 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  11. 제1항에 있어서, 상기 오디오 소스를 전기하고 인덱싱하여, 상기 컨텐츠 인덱스 및 상기 화자 인덱스를 생성하는 단계를 더 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  12. 제11항에 있어서, 상기 화자 인덱스를 생성하는 상기 단계는 상기 오디오 소스에서 횟수를 자동 검출하여 상기 횟수마다 화자 라벨을 할당하는 단계를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  13. 제1항에 있어서, 적어도 상기 식별된 오디오 정보의 일부를 사용자에게 리턴하는 단계를 더 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  14. 제1항에 있어서, 상기 식별된 오디오 정보의 각 세그먼트에 결합된 스코어를 할당하여 순위 부여된 리스트에서 적어도 상기 식별된 오디오 정보의 일부를 리턴하는 단계를 더 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  15. 제14항에 있어서, 상기 결합된 스코어는 컨텐츠와 화자 도메인 사이를 오버랩하는 범위를 평가하는 것을 특징으로 하는 오디오 정보 검색 방법.
  16. 제14항에 있어서, 상기 결합된 스코어는 컨텐츠에 기초한 정보 검색에 순위를 부여하는 순위 부여된 문서 스코어를 평가하는 것을 특징으로 하는 오디오 정보 검색 방법.
  17. 제14항에 있어서, 상기 결합된 스코어는 화자 세그먼트와 등록된 화자 정보 사이의 근접 정도를 측정하는 화자 세그먼트 스코어를 평가하는 것을 특징으로 하는 오디오 정보 검색 방법.
  18. 제1항에 있어서, 상기 화자 제약 조건은 화자의 신원을 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  19. 제1항에 있어서, 상기 컨텐츠 제약 조건은 하나 이상의 키워드를 포함하는 것을 특징으로 하는 오디오 정보 검색 방법.
  20. 하나 이상의 오디오 소스로부터 오디오 정보를 검색하는 오디오 검색 시스템에 있어서,
    상기 오디오 소스의 컨텐츠 인덱스 및 화자 인덱스와 컴퓨터 판독 가능 코드를 저장하는 메모리와;
    상기 메모리에 동작 가능하게 결합되고, 상기 컴퓨터 판독 가능 코드를 실행하는 프로세서를 포함하며,
    상기 컴퓨터 판독 가능 코드는,
    화자의 신원 및 하나 이상의 워드를 지정한 사용자 조회를 수신하고;
    컨텐츠에 기초한 정보 검색 및 화자에 기초한 오디오 정보 검색의 결과를 결합하여 상기 오디오 컨텐츠 및 화자 신원에 기초하여 상기 오디오 소스에 레퍼런스를 제공하는 것을 특징으로 하는 오디오 검색 시스템.
  21. 하나 이상의 오디오 소스로부터의 오디오 정보를 검색하기 위한 제조물에 있어서,
    내장된 컴퓨터 판독 가능 프로그램 코드 수단을 갖는 컴퓨터 판독 가능 매체를 포함하며,
    상기 컴퓨터 판독 가능 프로그램 코드 수단은,
    하나 이상의 워드 및 화자의 신원을 지정하는 사용자 조회를 수신하는 단계와;
    컨텐츠에 기초한 정보 검색 및 화자에 기초한 정보 검색의 결과를 결합하여, 상기 오디오 컨텐츠 및 화자 신원에 기초한 상기 오디오 소스에 레퍼런스를 부여하는 단계를 통해 실행되는 것을 특징으로 하는 오디오 정보 검색용 제조물.
  22. 하나 이상의 오디오 소스로부터 오디오 정보를 검색하기 위한 제조물에 있어서,
    내장된 컴퓨터 판독 가능 코드 수단을 갖는 컴퓨터 판독 가능 매체를 포함하며,
    상기 컴퓨터 판독 가능 코드 수단은,
    적어도 하나의 컨텐츠 및 하나의 화자 제약 조건을 지정하는 사용자 조회를 수신하는 단계와;
    상기 오디오 소스의 컨텐츠 인덱스 및 화자 인덱스와 상기 사용자 조회를 비교하여, 상기 사용자 조회를 만족시키는 오디오 정보를 식별하는 단계;
    를 통해 실행되는 것을 특징으로 하는 오디오 정보 검색용 제조물.
KR1020000016932A 1999-04-09 2000-03-31 컨텐츠 및 화자 정보를 이용한 오디오 정보 검색 방법 및장치 KR100388344B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/288,724 1999-04-09
US09/288,724 US6345252B1 (en) 1999-04-09 1999-04-09 Methods and apparatus for retrieving audio information using content and speaker information

Publications (2)

Publication Number Publication Date
KR20010006942A true KR20010006942A (ko) 2001-01-26
KR100388344B1 KR100388344B1 (ko) 2003-06-25

Family

ID=23108363

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000016932A KR100388344B1 (ko) 1999-04-09 2000-03-31 컨텐츠 및 화자 정보를 이용한 오디오 정보 검색 방법 및장치

Country Status (6)

Country Link
US (1) US6345252B1 (ko)
EP (1) EP1043665A3 (ko)
JP (1) JP3488174B2 (ko)
KR (1) KR100388344B1 (ko)
CN (1) CN1270361A (ko)
TW (1) TW469385B (ko)

Families Citing this family (138)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336116B1 (en) * 1998-08-06 2002-01-01 Ryan Brown Search and index hosting system
US7739114B1 (en) * 1999-06-30 2010-06-15 International Business Machines Corporation Methods and apparatus for tracking speakers in an audio stream
US6862713B1 (en) * 1999-08-31 2005-03-01 International Business Machines Corporation Interactive process for recognition and evaluation of a partial search query and display of interactive results
US6651057B1 (en) * 1999-09-03 2003-11-18 Bbnt Solutions Llc Method and apparatus for score normalization for information retrieval applications
JP2001093226A (ja) * 1999-09-21 2001-04-06 Sony Corp 情報通信システムおよび方法、ならびに、情報通信装置および方法
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
US6697796B2 (en) * 2000-01-13 2004-02-24 Agere Systems Inc. Voice clip search
US7010485B1 (en) * 2000-02-03 2006-03-07 International Business Machines Corporation Method and system of audio file searching
US6513003B1 (en) * 2000-02-03 2003-01-28 Fair Disclosure Financial Network, Inc. System and method for integrated delivery of media and synchronized transcription
US7263484B1 (en) 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US6782380B1 (en) * 2000-04-14 2004-08-24 David Victor Thede Method and system for indexing and searching contents of extensible mark-up language (XML) documents
US6748356B1 (en) * 2000-06-07 2004-06-08 International Business Machines Corporation Methods and apparatus for identifying unknown speakers using a hierarchical tree structure
US7318032B1 (en) * 2000-06-13 2008-01-08 International Business Machines Corporation Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique
US7162450B2 (en) * 2000-06-30 2007-01-09 Ponzio Jr Frank J Business method for determining quality and integrity of data content
US7062485B1 (en) * 2000-09-01 2006-06-13 Huaichuan Hubert Jin Method and apparatus for score normalization for information retrieval applications
US6895378B1 (en) * 2000-09-22 2005-05-17 Meyer Sound Laboratories, Incorporated System and method for producing acoustic response predictions via a communications network
US7277765B1 (en) 2000-10-12 2007-10-02 Bose Corporation Interactive sound reproducing
CN100421112C (zh) * 2000-12-07 2008-09-24 索尼公司 用于内容检索的通信装置和通信方法
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7039585B2 (en) 2001-04-10 2006-05-02 International Business Machines Corporation Method and system for searching recorded speech and retrieving relevant segments
US7200565B2 (en) * 2001-04-17 2007-04-03 International Business Machines Corporation System and method for promoting the use of a selected software product having an adaptation module
US6662176B2 (en) * 2001-05-07 2003-12-09 Hewlett-Packard Development Company, L.P. Database indexing and rolling storage method for time-stamped normalized event data
WO2003038665A1 (en) * 2001-10-31 2003-05-08 Net-Release Pty Ltd A system and method of disseminating recorded audio information
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
CA2473446A1 (en) 2002-01-14 2003-07-24 Jerzy Lewak Identifier vocabulary data access method and system
JP4017887B2 (ja) * 2002-02-28 2007-12-05 富士通株式会社 音声認識システムおよび音声ファイル記録システム
US7590534B2 (en) 2002-05-09 2009-09-15 Healthsense, Inc. Method and apparatus for processing voice data
US6957226B2 (en) * 2002-06-27 2005-10-18 Microsoft Corporation Searching multi-media databases using multi-media queries
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US20040024582A1 (en) * 2002-07-03 2004-02-05 Scott Shepard Systems and methods for aiding human translation
US20040024599A1 (en) * 2002-07-31 2004-02-05 Intel Corporation Audio search conducted through statistical pattern matching
US7333798B2 (en) 2002-08-08 2008-02-19 Value Added Communications, Inc. Telecommunication call management and monitoring system
US8509736B2 (en) 2002-08-08 2013-08-13 Global Tel*Link Corp. Telecommunication call management and monitoring system with voiceprint verification
JP4369708B2 (ja) * 2002-09-27 2009-11-25 パナソニック株式会社 データ処理装置
US20040204939A1 (en) * 2002-10-17 2004-10-14 Daben Liu Systems and methods for speaker change detection
US8055503B2 (en) 2002-10-18 2011-11-08 Siemens Enterprise Communications, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
US20080082581A1 (en) * 2002-12-31 2008-04-03 Momindum Process and system for the production of a multimedia edition on the basis of oral presentations
EP1463258A1 (en) * 2003-03-28 2004-09-29 Mobile Integrated Solutions Limited A system and method for transferring data over a wireless communications network
JP3892410B2 (ja) * 2003-04-21 2007-03-14 パイオニア株式会社 音楽データ選曲装置、音楽データ選曲方法、並びに、音楽データの選曲プログラムおよびそれを記録した情報記録媒体
CA2536522C (en) * 2003-08-22 2013-10-29 Ser Solutions, Inc. System for and method of automated quality monitoring
US8103873B2 (en) * 2003-09-05 2012-01-24 Emc Corporation Method and system for processing auditory communications
US7499531B2 (en) * 2003-09-05 2009-03-03 Emc Corporation Method and system for information lifecycle management
US8209185B2 (en) * 2003-09-05 2012-06-26 Emc Corporation Interface for management of auditory communications
US7421391B1 (en) 2003-09-08 2008-09-02 Zamtech Llc System and method for voice-over asset management, search and presentation
EP1531456B1 (en) * 2003-11-12 2008-03-12 Sony Deutschland GmbH Apparatus and method for automatic dissection of segmented audio signals
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
US20050209849A1 (en) * 2004-03-22 2005-09-22 Sony Corporation And Sony Electronics Inc. System and method for automatically cataloguing data by utilizing speech recognition procedures
US9268780B2 (en) 2004-07-01 2016-02-23 Emc Corporation Content-driven information lifecycle management
US20060004818A1 (en) * 2004-07-01 2006-01-05 Claudatos Christopher H Efficient information management
US8180742B2 (en) * 2004-07-01 2012-05-15 Emc Corporation Policy-based information management
US8180743B2 (en) * 2004-07-01 2012-05-15 Emc Corporation Information management
US8244542B2 (en) 2004-07-01 2012-08-14 Emc Corporation Video surveillance
US8229904B2 (en) * 2004-07-01 2012-07-24 Emc Corporation Storage pools for information management
US20060004579A1 (en) * 2004-07-01 2006-01-05 Claudatos Christopher H Flexible video surveillance
US7707037B2 (en) * 2004-07-01 2010-04-27 Emc Corporation Archiving of surveillance data
CN100538695C (zh) * 2004-07-22 2009-09-09 国际商业机器公司 构造、维护个性化分类树的方法及系统
US7487072B2 (en) 2004-08-04 2009-02-03 International Business Machines Corporation Method and system for querying multimedia data where adjusting the conversion of the current portion of the multimedia data signal based on the comparing at least one set of confidence values to the threshold
US8626514B2 (en) * 2004-08-31 2014-01-07 Emc Corporation Interface for management of multiple auditory communications
US7783021B2 (en) 2005-01-28 2010-08-24 Value-Added Communications, Inc. Digital telecommunications call management and monitoring system
US7984057B2 (en) * 2005-05-10 2011-07-19 Microsoft Corporation Query composition incorporating by reference a query definition
US7634407B2 (en) 2005-05-20 2009-12-15 Microsoft Corporation Method and apparatus for indexing speech
US8156114B2 (en) * 2005-08-26 2012-04-10 At&T Intellectual Property Ii, L.P. System and method for searching and analyzing media content
US8005821B2 (en) * 2005-10-06 2011-08-23 Microsoft Corporation Noise in secure function evaluation
KR100819756B1 (ko) * 2005-11-07 2008-04-07 (주)큐박스닷컴 온라인 멀티미디어 콘텐츠 제공 시스템
US7809568B2 (en) 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US7769707B2 (en) * 2005-11-30 2010-08-03 Microsoft Corporation Data diameter privacy policies
US7831425B2 (en) 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
US7818335B2 (en) * 2005-12-22 2010-10-19 Microsoft Corporation Selective privacy guarantees
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
KR101071043B1 (ko) * 2006-07-03 2011-10-06 인텔 코오퍼레이션 고속 오디오 검색을 위한 방법 및 장치
DE602007006491D1 (de) 2006-07-07 2010-06-24 Borgwarner Inc Steuerverfahren für ein antriebssystem mit variabler verdichtung
US7620551B2 (en) * 2006-07-20 2009-11-17 Mspot, Inc. Method and apparatus for providing search capability and targeted advertising for audio, image, and video content over the internet
US8275613B2 (en) * 2006-08-21 2012-09-25 Unifiedvoice Corporation All voice transaction data capture—dictation system
US20080059522A1 (en) * 2006-08-29 2008-03-06 International Business Machines Corporation System and method for automatically creating personal profiles for video characters
JP2008097232A (ja) * 2006-10-10 2008-04-24 Toshibumi Okuhara 音声情報検索プログラムとその記録媒体、音声情報検索システム、並びに音声情報検索方法
CN100461179C (zh) * 2006-10-11 2009-02-11 北京新岸线网络技术有限公司 基于内容的音频分析系统
US20080147692A1 (en) * 2006-12-14 2008-06-19 General Motors Corporation Method for manipulating the contents of an xml-based message
US8542802B2 (en) 2007-02-15 2013-09-24 Global Tel*Link Corporation System and method for three-way call detection
US20080201158A1 (en) 2007-02-15 2008-08-21 Johnson Mark D System and method for visitation management in a controlled-access environment
JP2008217254A (ja) * 2007-03-01 2008-09-18 Fujifilm Corp プレイリスト作成装置、およびプレイリスト作成方法
US8781996B2 (en) 2007-07-12 2014-07-15 At&T Intellectual Property Ii, L.P. Systems, methods and computer program products for searching within movies (SWiM)
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US9087331B2 (en) * 2007-08-29 2015-07-21 Tveyes Inc. Contextual advertising for video and audio media
WO2009089621A1 (en) * 2008-01-14 2009-07-23 Algo Communication Products Ltd. Methods and systems for searching audio records
US8949122B2 (en) * 2008-02-25 2015-02-03 Nuance Communications, Inc. Stored phrase reutilization when testing speech recognition
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム
CN101314081B (zh) * 2008-07-11 2010-06-30 华为终端有限公司 一种演讲背景匹配方法和装置
US9225838B2 (en) 2009-02-12 2015-12-29 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
JP5296598B2 (ja) * 2009-04-30 2013-09-25 日本放送協会 音声情報抽出装置
US9105300B2 (en) 2009-10-19 2015-08-11 Dolby International Ab Metadata time marking information for indicating a section of an audio object
US8903812B1 (en) 2010-01-07 2014-12-02 Google Inc. Query independent quality signals
JP5610197B2 (ja) 2010-05-25 2014-10-22 ソニー株式会社 検索装置、検索方法、及び、プログラム
US9311395B2 (en) 2010-06-10 2016-04-12 Aol Inc. Systems and methods for manipulating electronic content based on speech recognition
US8601076B2 (en) 2010-06-10 2013-12-03 Aol Inc. Systems and methods for identifying and notifying users of electronic content based on biometric recognition
JP2012043000A (ja) 2010-08-12 2012-03-01 Sony Corp 検索装置、検索方法、及び、プログラム
US8589171B2 (en) 2011-03-17 2013-11-19 Remote Media, Llc System and method for custom marking a media file for file matching
US8688631B2 (en) 2011-03-17 2014-04-01 Alexander Savenok System and method for media file synchronization
US8478719B2 (en) 2011-03-17 2013-07-02 Remote Media LLC System and method for media file synchronization
EP2518722A3 (en) * 2011-04-28 2013-08-28 Samsung Electronics Co., Ltd. Method for providing link list and display apparatus applying the same
CN102253993B (zh) * 2011-07-08 2013-08-21 北京航空航天大学 一种基于词汇树的音频片段检索算法
CN102314875B (zh) * 2011-08-01 2016-04-27 北京音之邦文化科技有限公司 一种音频文件的识别方法和装置
US8819012B2 (en) * 2011-08-30 2014-08-26 International Business Machines Corporation Accessing anchors in voice site content
FR2985047A1 (fr) * 2011-12-22 2013-06-28 France Telecom Procede de navigation dans un contenu vocal
JP5731998B2 (ja) * 2012-03-21 2015-06-10 株式会社東芝 対話支援装置、対話支援方法および対話支援プログラム
US11023520B1 (en) 2012-06-01 2021-06-01 Google Llc Background audio identification for query disambiguation
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
US8880495B2 (en) * 2012-10-16 2014-11-04 Michael J. Andri Search query expansion and group search
US10438591B1 (en) * 2012-10-30 2019-10-08 Google Llc Hotword-based speaker recognition
CN103035247B (zh) * 2012-12-05 2017-07-07 北京三星通信技术研究有限公司 基于声纹信息对音频/视频文件进行操作的方法及装置
US8918406B2 (en) * 2012-12-14 2014-12-23 Second Wind Consulting Llc Intelligent analysis queue construction
US9741339B2 (en) * 2013-06-28 2017-08-22 Google Inc. Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores
US9542488B2 (en) * 2013-08-02 2017-01-10 Google Inc. Associating audio tracks with video content
EP2887233A1 (en) * 2013-12-20 2015-06-24 Thomson Licensing Method and system of audio retrieval and source separation
WO2015138392A2 (en) * 2014-03-10 2015-09-17 Veritone, Inc. Engine, system and method of providing audio transcriptions for use in content resources
US10776419B2 (en) 2014-05-16 2020-09-15 Gracenote Digital Ventures, Llc Audio file quality and accuracy assessment
US9728190B2 (en) 2014-07-25 2017-08-08 International Business Machines Corporation Summarization of audio data
US10019514B2 (en) * 2015-03-19 2018-07-10 Nice Ltd. System and method for phonetic search over speech recordings
US20160335493A1 (en) * 2015-05-15 2016-11-17 Jichuan Zheng Method, apparatus, and non-transitory computer-readable storage medium for matching text to images
US11335080B2 (en) * 2015-09-21 2022-05-17 International Business Machines Corporation System for suggesting search terms
US20170092277A1 (en) * 2015-09-30 2017-03-30 Seagate Technology Llc Search and Access System for Media Content Files
JP6680008B2 (ja) * 2016-03-15 2020-04-15 カシオ計算機株式会社 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム
US10572961B2 (en) 2016-03-15 2020-02-25 Global Tel*Link Corporation Detection and prevention of inmate to inmate message relay
GB2549117B (en) * 2016-04-05 2021-01-06 Intelligent Voice Ltd A searchable media player
US9609121B1 (en) 2016-04-07 2017-03-28 Global Tel*Link Corporation System and method for third party monitoring of voice and video calls
US10116981B2 (en) * 2016-08-01 2018-10-30 Microsoft Technology Licensing, Llc Video management system for generating video segment playlist using enhanced segmented videos
CN108228658B (zh) * 2016-12-22 2022-06-03 阿里巴巴集团控股有限公司 一种自动生成配音文字的方法、装置以及电子设备
US10027797B1 (en) 2017-05-10 2018-07-17 Global Tel*Link Corporation Alarm control for inmate call monitoring
US10225396B2 (en) 2017-05-18 2019-03-05 Global Tel*Link Corporation Third party monitoring of a activity within a monitoring platform
US10860786B2 (en) 2017-06-01 2020-12-08 Global Tel*Link Corporation System and method for analyzing and investigating communication data from a controlled environment
US9930088B1 (en) 2017-06-22 2018-03-27 Global Tel*Link Corporation Utilizing VoIP codec negotiation during a controlled environment call
US10734024B1 (en) * 2018-09-04 2020-08-04 Adobe, Inc. Systems and methods of appending metadata to a media file for playing time-lapsed audio
CN109473128A (zh) * 2018-09-29 2019-03-15 南昌与德软件技术有限公司 乐曲播放方法、电子设备及计算机可读存储介质
CN109635151A (zh) * 2018-12-18 2019-04-16 深圳市沃特沃德股份有限公司 建立音频检索索引的方法、装置及计算机设备
EP3906552A4 (en) * 2018-12-31 2022-03-16 4S Medical Research Private Limited METHOD AND APPARATUS FOR PROVIDING A PERFORMANCE INDICATION TO A HEARING AND SPEECH IMPAIRED PERSON LEARNING SPEECH SKILLS
US11934439B1 (en) * 2023-02-27 2024-03-19 Intuit Inc. Similar cases retrieval in real time for call center agents

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5550965A (en) * 1993-12-27 1996-08-27 Lucent Technologies Inc. Method and system for operating a data processor to index primary data in real time with iconic table of contents
JP3745403B2 (ja) * 1994-04-12 2006-02-15 ゼロックス コーポレイション オーディオデータセグメントのクラスタリング方法
US5655058A (en) * 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
US5606643A (en) * 1994-04-12 1997-02-25 Xerox Corporation Real-time audio recording system for automatic speaker indexing
KR970049417A (ko) * 1995-12-30 1997-07-29 김광호 오디오 파일 데이터 베이스 구축 방법, 검색 방법 및 이에 적합한 장치
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval

Also Published As

Publication number Publication date
US6345252B1 (en) 2002-02-05
JP3488174B2 (ja) 2004-01-19
JP2000348064A (ja) 2000-12-15
TW469385B (en) 2001-12-21
KR100388344B1 (ko) 2003-06-25
CN1270361A (zh) 2000-10-18
EP1043665A3 (en) 2003-02-12
EP1043665A2 (en) 2000-10-11

Similar Documents

Publication Publication Date Title
KR100388344B1 (ko) 컨텐츠 및 화자 정보를 이용한 오디오 정보 검색 방법 및장치
US6345253B1 (en) Method and apparatus for retrieving audio information using primary and supplemental indexes
Makhoul et al. Speech and language technologies for audio indexing and retrieval
Foote An overview of audio information retrieval
US7983915B2 (en) Audio content search engine
US6434520B1 (en) System and method for indexing and querying audio archives
Chelba et al. Retrieval and browsing of spoken content
US7725318B2 (en) System and method for improving the accuracy of audio searching
US7617188B2 (en) System and method for audio hot spotting
KR100446627B1 (ko) 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
US9361879B2 (en) Word spotting false alarm phrases
US20080270344A1 (en) Rich media content search engine
US20080270110A1 (en) Automatic speech recognition with textual content input
James The application of classical information retrieval techniques to spoken documents
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
EP1462950A1 (en) Method of analysis of a text corpus
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
WO2003010754A1 (fr) Systeme de recherche a entree vocale
Kubala et al. Integrated technologies for indexing spoken language
Kaushik et al. Automatic audio sentiment extraction using keyword spotting.
Moyal et al. Phonetic search methods for large speech databases
Viswanathan et al. Retrieval from spoken documents using content and speaker information
Ramabhadran et al. Fast decoding for open vocabulary spoken term detection
Wang Mandarin spoken document retrieval based on syllable lattice matching
Ariki et al. Live speech recognition in sports games by adaptation of acoustic model and language model.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130520

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20140521

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20150518

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20160517

Year of fee payment: 14

LAPS Lapse due to unpaid annual fee