KR20050014866A - 메가 화자 식별 (id) 시스템 및 이에 대응하는 방법 - Google Patents

메가 화자 식별 (id) 시스템 및 이에 대응하는 방법

Info

Publication number
KR20050014866A
KR20050014866A KR10-2004-7020601A KR20047020601A KR20050014866A KR 20050014866 A KR20050014866 A KR 20050014866A KR 20047020601 A KR20047020601 A KR 20047020601A KR 20050014866 A KR20050014866 A KR 20050014866A
Authority
KR
South Korea
Prior art keywords
speaker
segment
mega
audio
voice
Prior art date
Application number
KR10-2004-7020601A
Other languages
English (en)
Inventor
네벤카 디미트로바
동게 리
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20050014866A publication Critical patent/KR20050014866A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

메모리는, 메가 화자 식별(ID) 시스템과 연관된 프로세서로 하여금 기능들을 실증하도록 하기 위한 컴퓨터 판독가능 지령을 저장하는데, 상기 기능들은, 일반적인 오디오 데이터(GAD)를 수신하고 세그먼트를 생성하는 오디오 세그먼트 및 분류 기능(F10)과, 세그먼트를 수신하고 그로부터 멜-주파수 셉스트럴 계수(MFCC)에 기초하여 특징을 추출하는 특징 추출 기능(F12)과, 추출된 특징에 기초하여 필요한 때, 추출된 특징을 수신하고 세그먼트를 재분류하는 학습 및 클러스터링 기능(F14)과, 화자 ID를 GAD 내의 음성 신호에 할당하는 매칭 및 라벨링 기능(F16)과, 할당된 화자 ID를 GAD 내의 각 음성 신호에 상관하는 데이터베이스 기능을 포함한다. 오디오 분할 및 분류 기능은, 침묵, 단일 화자 음성, 음악, 배경 잡음, 다수의 화자의 음성, 동시적인 음성과 음악, 및 음성과 잡음을 포함하는 N개의 오디오 신호 클래스 중 하나에 각 세그먼트를 할당할 수 있다.

Description

메가 화자 식별 (ID) 시스템 및 이에 대응하는 방법{A MEGA SPEAKER IDENTIFICATION (ID) SYSTEM AND CORRESPONDING METHODS THEREFOR}
현재 화자 ID 시스템이 존재하고 있다. 더 구체적으로, 낮은 레벨 오디오 특성에 기초한 화자 ID 시스템이 존재하며, 상기 시스템은 일반적으로 화자 세트가 선험적으로 알려져 있는 것을 필요로 한다. 그러한 화자 ID 시스템에서, 새로운 오디오 자료가 분석될 때, 이것은 알려진 화자 카테고리들 중 하나로 항상 카테고리화된다.
콘텐트 기반의 인덱싱(indexing) 및 후속적인 검색을 위해 이미지 및 비디오의 자동 주석(annotation)을 위한 방법에 관한 연구 및 개발에 종사하는 여러 그룹이 있다는 것이 주의되어야 한다. 그러한 방법에 대한 필요성은, 데스크탑 PC 및 편재(ubiquitous) TV가 인터넷을 통해 비디오 데이터의 테라바이트로 전례가 없는액세스를 야기할 수 있는 단일 정보 오락(infotainment) 기기로 집중되기 때문에 점점 더 중요하게 된다. 이러한 영역에서 기존의 대부분의 연구가 이미지 기반이지만, 비디오의 콘텐트 기반의 인덱싱 및 검색을 위한 이미지 기반의 방법이 오디오 기반의 분석으로 증가하거나 보충될 필요가 있다는 것이 증가하는 현싱이다. 이것은, 특히 비디오 콘텐트를 나타내기 위해 오디오 세그먼트를 상이한 클래스로 분류하는 쪽으로, 비디오 프로그램에서의 오디오 트랙의 분석에 관련된 몇몇 노력을 초래하였다. 이러한 몇몇 노력은, 엔. 브이. 페털(N.V.Patel) 및 아이. 케이. 세씨(I.K.Sethi)가 저술한, "비디오 인덱싱을 위한 오디오 특징(Audio characterization for video indexing)"(1996년 2월, CA, 산 호세, IS&T/SPIE 회보, 이미지 및 비디오 데이터베이스를 위한 저장 및 검색 Ⅳ, pp.373-384), 및 "화자 식별을 이용한 비디오 분류(Video Classification using Speaker Identification)"(1997년 2월, CA, 산 호세, IS&T/SPIE 회보, 이미지 및 비디오 데이터베이스를 위한 저장 및 검색 Ⅴ, pp.218-225)의 논문에 기재되어 있다. 추가 노력은, 시. 사라시노(C.Saraceno) 및 알.레오나디(R.Leonardi)가 저술한, "오디오 및 비디오 정보를 이용한 연속적으로 상관된 카메라 샷의 식별(Identification of successive correlated camera shots using audio and video information)"(1997년, ICIP97 회보, 제 3권, pp.166-169), 및 지. 리우. 와이. 왕(Z.Liu, Y.Wang) 및 티. 첸(T.Chen)이 저술한 "장면 분류를 위한 오디오 특징 추출 및 분석(Audio Feature Extraction and Analysis for Scene Classification)"(1998년 10월, VLSI 신호 처리 저널, Special issue on multimedia signal processing, pp.61-79)의 논문에 기재되어 있다.
자동 음성 인식(ASR)에서의 개선은 또한 일반적인 오디오 데이터(GAD: General Audio Data), 즉 뉴스 및 라디오 방성, 및 달성된 오디오 영상 문서와 같은 소스로부터의 오디오 데이터의 분류에 있어서 관심을 초래한다. ASR 처리 GAD에 대한 자극은, 전처리(preprocessing) 단계로서 오디오 분류를 수행함으로써, ASR 시스템이 단일 클래스를 나타내는 오디오 데이터의 각 균일한 세그먼트에 대한 적절한 음향 모델을 개발하고 후속하여 이용할 수 있다는 실현이다. 이러한 유형의 전처리 결과에 종속하는 GAD가 개선된 인식 성능을 초래한다는 것을 주의할 것이다. 추가 세부사항은, 엠.스피나(M.Spina) 및 브이.더블류.쥬(V.W.Zue)가 저술한, "일반적인 오디오 데이터의 자동 복사: 예비 분석(Automatic Transcription of General Audio Data: Preliminary Analysis)"(1996년 10월, Pa, 필라델피아, 구두 언어 처리에 대한 국제 회의 회보, pp.594-597), 및 피.에스.고팔라크리스난(P.S.Gopalakrishnan) 등의, "IBM의 큰 단어 음성 인식 시스템을 이용한 라디오 방송 뉴스의 복사(Transcription Of Radio Broadcast News With The IBM Large Vocabulary Speech Recognition System)"(1996년 2월, DARPA 음성 인식 워크샵 회보)의 논문에 제공된다.
더욱이, 많은 오디오 분류 구성은 최근에 연구되어 왔다. 이러한 구성은 주로 2가지 방식, 즉 (1) 분류기의 선택, 및 (2) 분류기에 의해 사용된 음향 특성의 세트로 서로 차이가 난다. 현재 시스템에 사용된 분류기는,
1)가우스 모델 기반의 분류기,이것은 엠. 스피나 및 브이.더블류. 쥬(방금전술함)에 의해 논문에 논의되어 있음;
2)신경 네트워크 기반의 분류기,이것은 지.류, 와이.왕, 및 티.첸이 저술한 논문(전술함), 및 제이.에이치.엘 한센 및 브라이언 디. 워맥이 저술한, 강세 하에 음성의 특징 분석 및 신경 네트워크 기반의 분류(Feature analysis and neural network-based classification of speech under stress)"(1996년 7월, 음성 및 오디오 처리에 대한 IEEE 회보, 제 4권, 4호, pp.307-313)의 논문에 논의되어 있음;
3)결정 트리 분류기,이것은 티.장(T.Zhang) 및 시.-시.제이. 쿠오(C.-C.J.Kuo)가 저술한, "오디오-안내된 오디오 영상 데이터 분할, 인덱싱, 및 검색(Audio-guided audiovisual data segmentation, indexing, and retrieval)"(1999년 1월, CA, 산 호세, 전자 이미징 사이언스 & 테크날러지에 대한 IS&T/SPIE의 심포지엄- 이미지 및 비디오 데이터베이스를 위한 저장 및 검색에 대한 회의 Ⅶ, SPIE 제 3656권, pp.316-327)의 논문에 논의되어 있음;
4)숨겨진 마코브 모델 기반(HMM-기반) 분류기,이것은, 티.장 및 시.-시.제이.쿠오(방금 전술함)가 저술한 논문, 및 디.킴버(D.Kimber) 및 엘.윌콕스(L.Wilcox)가 저술한 "오디오 브라우저를 위한 음향 분할(Acoustic segmentation for audio browsers)"(1996년 7월, 호주, 시드니, 인터페이스 회의의 회보)의 논문에 더 구체적으로 논의되어 있음.
오디오 분류기에서 시간적 및 스펙트럼 영역 특징 모두의 사용이 연구되었음을 또한 주지하자. 사용된 특징의 예는 다음을 포함한다:
1)단기간 에너지,이것은 티.장 및 시.-시. 제이.쿠오(전술함)가 저술한 논문, 및 디.리 및 엔.디미트로바(N.Dimitrova)가 저술한, "오디오 분석 및 분류를 위한 툴(Tools for audio analysis and classification)"(1997년 8월 필립스 기술 보고서)의 논문, 및 이.월드(E.wold), 티.블럼(T.Blum) 등이 저술한 "콘텐트 기반의 분류, 서치, 및 오디오 검색(Content-based classification, search, and retrieval of audio)"(1996년 가을, IEEE 멀티미디어, pp.27-36)의 논문에 더 구체적으로 논의되어 있음;
2)펄스 계측,이것은 에스.파이퍼(S.Pfeiffer), 에스.피셔(S.Fischer) 및 더블류.에펠스베르그(W.Effelsberg)가 저술한, "자동 오디오 컨텐트 분석(Automatic audio content analysis)"(1996년, MA, 보스톤, ACM 멀티미디어 96의 회보, pp.21-30)의 논문, 및 에스.피셔, 알.라인하르트(R.Lienhart) 및 더블류 에펠스베리그가 저술한, "영화 장르의 자동 인식(Automatic recognition of film genres)"(1995년, CA, 샌프란시스코, ACM 멀티미디어 '95의 회보, pp.295-304)의 논문에 더 구체적으로 논의되어 있음;
3)일시 정지 속도,이것은 엔.브이. 파텔 등에 의한 오디오 분류에 관한 논문(전술함)에 논의되어 있음,
4)제로-크로싱 비율,이것은 시.스라시노(C.Craaceno) 등 및 티.장 등의 전술한 논문, 및 이.샤이러(E.Scheirer) 및 엠.슬라니(M.Slaney)가 저술한, "강력한 다중 특성의 음성/음악 판별 장치의 구성 및 평가(Construction and evaluation of a robust multifeature speech/music discriminator)"(1997년 4월, 독일, abslgl,ICASSP 97 회보, pp.1331-1334)의 논문에 더 구체적으로 논의되어 있음;
5)표준화된 화음,이것은 이.월드 등이 저술한 논문(단기간 에너지에 관해 전술함)에 더 구체적으로 논의되어 있음;
6)기본 주파수,이것은 지.류 등, 티.장 등, 이.월드 등, 및 에스.파이퍼 등에 의해 전술한 논문을 포함하는 여러 논문들에 논의되어 있음;
7)주파수 스펙트럼,이것은 에스.피셔 등에 의해 전술한 논문에 논의되어 있음;
8)대역폭,이것은 지.루 등, 및 이.월드 등에 의해 전술한 논문에 논의되어 있음;
9)스펙트럼 중심,이것은 지.루 등, 이.월드 등, 및 이.샤이러 등이 전술한 논문에 논의되어 있음,
10)스펙트럼 롤-오프 주파수(SRF),이것은 디.리 등, 이.샤이러가 저술한 논문에 더 구체적으로 논의되어 있음,
11)대역 에너지 비율,이것은 엔.브이.파텔 등(오디오 처리에 관련된), 지.루 등, 및 디.리 등이 저술한 논문에 논의되어 있음.
전술한 모든 논문들이 참고용으로 본 명세서에 병합되어 있음이 언급되어야 한다. 더욱이, 전술한 각 특징의 추가적인 주로 수학적 논의는 여기에 첨부된 부록 A에 제공되어 있다.
샤이러 및 슬라니의 논문이 수개의 분류 전략을 이용하여 13개의 시간 및 스펙트럼 특징의 다양한 조합의 평가를 설명한다는 것이 주지될 것이다. 논문은, 양방향 음성/음악 판별 장치에 대해 90%를 초과하지만, 음성, 음악, 및 동시에 음성과 음악을 판별하기 위해 동일한 세트의 특징을 이용하는 3방향 분류기에 대해 약 65%만의 분류 정밀도를 보고한다. 한센 및 워맥, 및 스피나 및 쥬가 저술한 논문은, 음성 인식 영역에서 광범위하게 사용되는 셉스트럴 기반의 특징에 기초한 연구 및 분류를 보고한다. 사실상, 스피나 등의 논문은 음성에서 강세의 분류를 위한 적합한 특징으로서 멜-셉스트럴(AC-Mel) 파라미터의 자동 상관을 제안한다. 이와 대조적으로, 스피나 및 쥬는, 오디오 데이터를 7개의 카테고리, 즉 스튜디오 음성, 필드 음성, 배경 음악을 갖는 음성, 잡음 섞인 음성, 음악, 침묵, 및 가버지(garbage)(오디오 패턴들 중 나머지 패턴을 커버)로 분류하기 위해 14개의 멜-주파수 셉스트럴 계수(MFCC)를 사용했다. 스피나 등은 NPR 라디오 뉴스 중 1시간 동안 그 알고리즘을 시험하고, 80.9%의 분류 정밀도를 달성했다.
이 분야에서 많은 연구원들이 다양한 분류 전략의 개발에 상당히 중점을 두지만, 샤이러 및 슬라니는 특징 공간의 토폴로지가 다소 간단하다고 결론을 내렸다. 따라서, 상이한 분류기의 성능 사이의 차이는 매우 적다. 많은 경우에, 특징의 선택은 실제로 분류 성능에 더 중요하다. 따라서, 샤이러 및 슬라니가, 분류기 개발이 다른 사람이 제안한 다수의 분류기보다는 한정된 수의 분류 계측에 초점을 두어야 한다고 정확히 추론했지만, 이들은 오디오 프레임을 카테고리화하기 위해 최적의 카테고리화 구성 또는 최적의 화자 식별 구성을 개발하는데 실패했다.
예를 들어, 컴퓨터, 셋톱 박스, 전화 시스템 등과 같은 다양한 디바이스에 병합될 수 있는 메가 화자 식별(ID) 시스템이 필요하다. 더욱이, 적어도 마이크로프로세서 및 디지털 신호 프로세서(DSP)를 포함하는 다양한 시스템 상에서 실증될 수 있는 소프트웨어 기능으로서 구현된 메가 화자 식별(ID) 방법이 필요하다. 바람직하게, 다수의 오디오 소스로부터 유도된 일반적인 오디오 데이터(GAD)를 처리하도록 쉽게 크기 조정될 수 있는 메가 화자 식별(ID) 시스템 및 해당 방법은 매우 바람직하다.
본 발명은 일반적으로 화자 식별(ID) 시스템에 관한 것이다. 더 구체적으로, 본 발명은 오디오 신호로부터 추출된 멜-주파수 셉스트럴 계수(MFCC: mel-frequency cepstral coefficients)에 기초한 자동 오디오 신호 분할(segmentation)을 이용한 화자(speaker) ID 시스템에 관한 것이다. 다중 오디오 신호 소스로부터의 신호를 처리하는데 적합한 해당 방법이 또한 개시된다.
도 1은 본 발명에 따른 화자 식별(ID) 시스템 및 대응하는 방법에 이용된 7개의 카테고리 중 6개(7번째는 침묵이다)를 차지하는 6개의 짧은 세그먼트에 대한특성 세그먼트 패턴를 도시하는 도면.
도 2는, 본 발명에 따라 화자 ID 시스템에 전체적으로 또는 부분적으로 유리하게 이용될 수 있는 특징 추출 툴박스, 및 대응하는 방법을 도시한 높은 레벨의 블록도.
도 3은 본 발명에 따라 화자 식별(ID) 시스템에 이용된 오디오 분류 구성 및 대응하는 방법을 도시한 높은 레벨의 블록도.
도 4a 및 도 4b는 각각 본 발명의 특정 양상을 이해하는데 유용한, 2차원(2D) 분할된 공간 및 대응하는 결정 트리를 도시한 도면.
도 5a 내지 도 5d는 본 발명의 예시적인 실시예 중 하나에 이용된 일시 정지 검출 방법의 동작을 도시한 일련의 그래프.
도 5e는 도 5a 내지 도 5d에 도시된 방법의 흐름도.
도 6a 내지 도 6c는 모두 본 발명에 따른 예시적인 실시예 중 적어도 하나에 이용된 분할 방법을 도시한 도면.
도 7은 이용된 특성 메트릭 대 상이한 프레임 분류기의 성능을 도시한 그래프.
도 8은 분류 결과의 스크린 캡쳐를 도시한 도면으로서, 상부 윈도우는 오디오 데이터를 프레임마다 간략화함으로써 얻어진 결과를 도시하고, 하부 윈도우는 본 발명에 따른 적어도 하나의 예시적인 실시예에 이용된 분할 풀링(pooling) 구성에 따라 얻어진 결과를 도시한 도면.
도 9a 및 도 9b는 본 발명의 2개의 예시적인 실시예에 따라 메가 화자 ID 시스템의 높은-레벨의 블록도.
도 10은 도 9a 및 도 9b에 도시된 메가 화자 ID 시스템에 이용된 프로세서에 의해 실증된 다양한 기능 블록을 도시한 높은-레벨의 블록도.
도 11은 본 발명의 다른 예시적인 실시예에 따른 메가 화자 ID 방법을 도시한 높은-레벨의 흐름도.
전술한 설명에 기초하여, 전술한 결함을 극복하는 메가 화자 식별(ID) 시스템 및 해당 방법이 현재 종래 기술에 필요하다고 인식될 수 있다. 본 발명은 현재 이용가능한 기술의 단점 및 결점을 극복하여, 종래 기술에서의 이러한 필요를 충족시키고자 하는 희망에 의해 태동되었다.
하나의 양상에 따라, 본 발명은 일반적인 오디오 데이터(GAD)로부터 화자에 기원하는 오디오 신호를 식별하는 메가 화자 식별(ID) 시스템을 제공하는데, 상기 메가 화자 식별(ID) 시스템은 GAD를 세그먼트로 분할하는 회로와, N개의 오디오 신호 클래스들 중 하나로서 각 세그먼트를 분류하는 회로와, 상기 세그먼트로부터 특징을 추출하는 회로와, 추출된 특징에 응답하여 필요할 때 N개의 오디오 신호 클래스 중 하나로부터 다른 것으로 세그먼트를 재분류하는 회로와, 세그먼트 중 근접한 것을 클러스터링(clustering)하여, 클러스터링된 세그먼트를 생성하는 회로와, 각 클러스터링된 세그먼트를 화자 ID로 라벨링하는 회로를 포함한다. 원하는 경우, 라벨링 회로는 사용자 입력 및 추가 소스 데이터 중 하나에 응답하여 화자 ID로 복수의 클러스터링된 세그먼트를 라벨링한다. 메가 화자 ID 시스템은 컴퓨터, 셋톱 박스, 또는 전화 시스템에 유리하게 포함될 수 있다. 예시적인 경우에, 메가 화자 ID 시스템은, 화자의 ID에 관련된 데이터베이스를 GAD의 부분에 저장하는 메모리 회로와, 데이터베이스를 갱신하기 위해 라벨링 회로의 출력을 수신하는 회로를 더 포함한다. 상기 수신 회로의 경우에, 메가 화자 ID 시스템은 데이터베이스에 질의하는 회로와, 질의 결과를 제공하는 회로를 또한 포함한다. 바람직하게, N개의 오디오 신호 클래스는 침묵, 단일 화자 음성, 음악, 배경 잡음, 다수의 화자의 음성, 동시적인 음성과 음악, 및 음성과 잡음을 포함하며, 더 바람직하게는, 추출된 특징 중 적어도 하나는 멜-주파수 셉스트럴 계수(MFCC)에 기초한다.
다른 양상에 따라, 본 발명은 일반적인 오디오 데이터(GAD)에 포함된 화자 식별을 허용하는 메가 화자 식별(ID) 방법을 제공하는데, 상기 방법은, GAD를 세그먼트로 분할하는 단계와, N개의 오디오 신호 클래스 중 하나에 대응하는 라벨을 각 세그먼트에 할당하는 단계와, 세그먼트로부터 특징을 추출하는 단계와, 추출된 특징에 기초하여 필요할 때 N개의 오디오 신호 클래스 중 하나로부터 다른 것에 세그먼트를 재할당 하여, 분류된 세그먼트를 생성하는 단계와, 분류된 세그먼트 중 인접한 것들을 클러스터링하여, 클러스터링된 세그먼트를 생성하는 단계와, 화자 ID로 각 클러스터링된 세그먼트를 라벨링하는 단계를 포함한다. 원하는 경우, 라벨링 단계는 사용자 입력 및 추가 소스 데이터에 응답하여 화자 ID로 복수의 클러스터링된 세그먼트를 라벨링한다. 예시적인 경우에, 상기 방법은, 화자 ID에 관련된 데이터베이스를 GAD의 부분에 저장하는 단계와, 새로운 클러스터링된 세그먼트가 화자 ID로 라벨링될 때마다 데이터베이스를 갱신하는 단계를 포함한다. 상기 방법이 또한 데이터베이스에 질의하는 단계와, 질의 결과를 사용자에게 제공하는 단계를 포함할 수 있다는 것이 인식될 것이다. 바람직하게, N개의 오디오 신호 클래스는 침묵, 단일 화자 음성, 음악, 배경 잡음, 다수의 화자의 음성, 동시적인 음성과 음악, 및 음성과 잡음을 포함한다. 더 바람직하게, 추출된 특징 중 적어도 하나는 멜-주파수 셉스트럴 계수(MFCC)에 기초한다.
다른 양상에 따라, 본 발명은, M개의 튜너, 분석기, 저장 디바이스, 입력 디바이스, 및 출력 디바이스를 포함하는 메가 화자 ID 시스템을 위한 동작 방법을 제공하는데, 상기 방법은, R개의 오디오 소스로부터 R개의 오디오 신호를 얻기 위해 M개의 튜너를 동작시키는 단계와, 분석기를 동작하는 단계로서, N개의 오디오 신호를 세그먼트로 분할하고, N개의 오디오 신호 클래스 중 하나에 대응하는 라벨을 각 세그먼트에 할당하고, 세그먼트로부터 특징을 추출하고, 추출된 특징에 기초하여 필요할 때 N개의 오디오 신호 클래스의 하나로부터 다른 것에 세그먼트를 재할당하여, 분류된 세그먼트를 생성하고, 분류된 세그먼트 중 인접한 것들을 클러스터링하여, 클러스터링된 세그먼트를 생성하고, 화자 ID로 각 클러스터링된 세그먼트를 라벨링하도록 하는, 분석기 동작 단계와, R개의 오디오 신호에 포함된 클러스터링된 세그먼트 및 대응하는 라벨을 저장 디바이스에 저장하는 단계와, 입력 디바이스를 통해 질의 입력에 응답하여 출력 디바이스를 동작시킬 수 있는 질의 결과를 생성하는 단계를 포함하며, 여기서 M, N 및 R은 양의 정수이다. 예시적인 한정되지 않은 경우에, N개의 오디오 신호 클래스는 침묵, 단일 화자 음성, 음악, 배경 잡음, 다수의 화자의 음성, 동시적인 음성과 음악, 및 음성과 잡음을 포함한다. 더욱이, 복수의 추출된 특징은 멜-주파수 셉스트럴 계수(MFCC)에 기초한다.
또 다른 양상에 따라, 본 발명은, 메가 화자 식별(ID) 시스템과 연관된 프로세서로 하여금 기능들을 실증하도록 하기 위한 컴퓨터 판독가능 지령을 저장하는 메모리를 제공하는데, 상기 기능들은, 일반적인 오디오 데이터(GAD)를 수신하고 세그먼트를 생성하는 오디오 분할 및 분류 기능과, 세그먼트를 수신하고, 상기 세그먼트로부터 특징을 추출하는 특징 추출 기능과, 필료할 때 추출된 특징에 기초하여 추출된 특징을 수신하고 세그먼트를 재분류하는 학습(learning) 및 클러스터링 기능과, 화자 ID를 GAD 내의 음성 신호에 할당하는 매칭 및 라벨링 기능과, 할당된 화자 ID를 GAD 내의 각 음성 신호에 상관하는 데이터베이스 기능을 포함한다. 원하는 경우, 오디오 분할 및 분류 기능은 각 세그먼트를 N개의 오디오 신호 클래스 중 하나에 할당하며, 상기 N개의 오디오 신호 클래스는 침묵, 단일 화자 음성, 음악, 배경 잡음, 다수의 화자의 음성, 동시적인 음성과 음악, 및 음성과 잡음을 포함한다. 예시적인 경우에, 추출된 특징 중 적어도 하나는 멜-주파수 셉스트럴 계수(MFCC)에 기초한다.
본 발명의 이러한 및 다양한 다른 특징 및 양상은 첨부 도면과 연계하여 취해진 다음 상세한 설명을 참조하여 쉽게 이해될 것이며, 유사하거나 동일한 참조번호는 첨부 도면 전체에 사용된다.
본 발명은, 샤이러 및 슬라니에 의한 관찰시, 분류기에 의해 이용된 특징의 선택이 분류기 유형 자체보다 분류 성능에 실제로 더 중요하다는 것에 부분적으로 기초한다. 본 발명자는, 연속적인 일반적인 오디오 데이터(GAD)를 7개의 카테고리로 분류하는 문제를 다루는데 있어서 잠재적으로 유용한 총 143개의 분류 특징을 연구했다. 본 발명에 따른 메가 화자 식별(ID) 시스템에 이용된 7개의 오디오 카테고리는 침묵, 단일 화자 음성, 음악, 배경 잡음, 다수의 화자의 음성, 동시적인 음성과 음악, 및 음성과 잡음으로 구성된다. 배경 잡음 카테고리가 전경 음향(foreground sound) 없는 잡음을 언급하는 반면, 동시적인 음성과 음악 카테고리는 배경 음악을 갖는 노래와 음성 모두를 포함한다는 것이 주지되어야 한다. 7개의 카테고리 중 6개에 대한 예시적인 파형은 도 1에 도시되고; 침묵 카테고리에 대한 파형은 자가-설명(self-explanatory) 이유로 인해 생략된다.
본 발명에 따른 분류기 및 분류 방법은, 각 세그먼트가 클래스에 관해 균일하도록, 오디오 데이터의 연속적인 비트스트림을 상이한 겹치지 않은(non-overlapping) 세그먼트로 분석한다. 오디오 신호를 하나의 카테고리로부터 다른 카테고리로 전이하는 것이 분류 에러를 야기할 수 있기 때문에, 본 발명의 예시적인 실시예는 그러한 에러를 감소시키는 효과적인 방식으로서 분할-풀링 구성을 이용한다.
개발 작업을 쉽게 재사용하고 확장할 수 있게 하고, 이러한 사건(ongoing) 리서치 영역에서 상이한 특징 추출 설계에 대한 실험을 용이하게 하기 위해, 청각 툴박스가 개발되었다. 현재 구현에서, 툴박스는 24개를 초과하는 툴을 포함한다. 각 툴은 오디오 데이터의 분석에 종종 필요한 단일 기본 동작을 담당한다. 툴박스를 이용함으로써, 상이한 처리 절차와 예외적인 운영(handling) 사이의 버퍼 관리 및 최적화, 동기화와 같이, 스트리밍 오디오 데이터의 처리에 관련된 성가신 많은 작업은 사용자에게 투명하게 된다. 오디오 툴박스에 현재 구현되는 동작은 주파수-영역 동작, 시간-영역 동작, 및 단기간 평균화와, 로그 연산과, 윈도우윙(windowing)과, 클리핑 등과 같은 기본 수리 연산을 포함한다. 공통 통신 규약이 툴박스에 있는 모든 툴 중에 한정되기 때문에, 하나의 툴로부터의 결과는 어떠한 한계 없이 다른 유형의 툴과 공유될 수 있다. 따라서, 툴박스 내의 툴은 다양한 애플리케이션 및 요구조건을 수용하는 매우 융통성있는 방식으로 구성될 수 있다.
방금 위에서 설명한 오디오 툴박스의 하나의 가능한 구성은 도 2에 도시된 오디오 툴박스(10)이며, 도 2는, MFCC, LPC, 델타 MFCC, 델타 LPC, 자동 상관 MFCC을 포함하는 음향 특징의 6개의 세트와, 수 개의 시간 및 스펙트럼 특징의 추출시 이용된 툴의 배치를 도시한다. 툴박스(10)는 도 9a 및 도 9b에 대해 아래에 논의되는 바와 같이 프로세서에 의해 실증된 다수의 소프트웨어 모듈을 유리하게 포함할수 있다. 이러한 모듈은 평균 에너지 분석기(소프트웨어) 모듈(12)과, 고속의 푸리에 변환(FFT) 분석기 모듈(14)과, 제로(0)의 크로싱 분석기 모듈(16)과, 피치 분석기 모듈(18)과, MFCC 분석기 모듈(20)과, 선형 예측 계수(LPC) 분석기 모듈(22)을 포함한다. FFT 분석기 모듈의 출력이 추가 특징을 추출하기 위해 중심 분석기 모듈(24)과, 대역폭 분석기 모듈(26)과, 롤오프 분석기 모듈(28)과, 대역 비율 분석기 모듈(30)과, 차분(델타) 크기 분석기 모듈(32)에 유리하게 인가될 수 있다는 것이 인식될 것이다. 마찬가지로, MFCC 분석기 모듈(20)의 출력은 각 오디오 프레임을 위한 MFCC 데이터에 기초한 추가 특징을 추출하기 위해 자동 상관 분석기 모듈(34)과 델타 MFCC 분석기 모듈(36)에 제공될 수 있다. LPC 분석기 모듈(22)의 출력이 델타 LPC 분석기 모듈(38)에 의해 추가로 처리될 수 있는 것이 이해될 것이다. 또한, 전용 하드웨어 구성요소, 예를 들어 모드 디지털 신호 프로세서들 중 하나가, 처리되는 GAD의 크기가 그것을 보장할 때, 또는 비용에 이익이 있는 분석이 이렇게 하는 것에 유리하다는 것을 나타낼 때, 이용될 수 있다는 것이 이해될 것이다. 전술한 바와 같이, 이러한 소프트웨어 모듈에 의해 구현된, 즉 이러한 특징에 대해 채택된 정의 또는 알고리즘은 첨부 A에 제공된다.
오디오 툴박스(10)에 의해 GAD로부터 추출된 음향 특징에 기초하여, 오디오 세그먼트의 분류에 유리하게 사용될 수 있는 많은 추가 오디오 특징은 인접한 프레임으로부터 추출된 음향 특징을 분석함으로써 추가로 추출될 수 있다. 본 발명자에 의해 실행된 광범위한 시험 및 모델링에 기초하여, 10 내지 20ms의 프레임 기간 대신에 오랜 기간 동안, 예를 들어 600ms 기간 동안 오디오 데이터의 특성에 대응하는 이러한 추가 특징은 오디오 세그먼트의 분류에 더 적합하다. 오디오 세그먼트 분류에 사용된 특징은,
1) 해당 프레임에 중심을 둔 특정한 수의 연속적인 프레임에 걸쳐 음향 특징의평균 및 분산과,
2)일시 정지 율:임계치보다 낮은 에너지를 갖는 프레임의 수와 고려되는 프레임의 총 수 사이의 비율과,
3)화음:유효한 피치 값을 갖는 프레임의 수와 고려되는 프레임의 총 수 사이의 비율과,
4) MFCC, 델타 MFCC, 자동 MFCC, LPC 및 델타 LPC 추출 특성의에너지의 합을
포함한다.
도 3에 도시된 오디오 분류 방법은 4개의 처리 단계, 즉 특징 추출 단계(S10)와, 일시 정지 검출 단계(S12)와, 자동 오디오 분류 단계(S14)와, 오디오 세그먼트 분류 단계(S16)로 구성된다. 대략적인 분류 단계가, 침묵을 포함하는 오디오 프레임을 분류(예를 들어 식별)하여, 이러한 오디오 프레임의 추가 처리를 제거하도록 단계(S12)에서 수행되는 것이 도 3에서 알 수 있다.
도 3에서, 특징 추출은 도 2에 도시된 툴박스(10)에 포함된 툴 중 선택된 툴들을 이용하여 단계(S10)에서 유리하게 구현될 수 있다. 즉, 단계(S10)와 연관된 실행 시간(run time) 동안, 연속해서 3개의 절차 단계에서 구현될 음향 특징은 입력 오디오 로우(raw) 데이터(예시적인 경우에, 44.1kHz에서 샘플링된 PCM WAV-포맷데이터), 즉 GAD로부터 시간축을 따라 프레임마다 추출되며, 그 다음에 일시 정지 검출은 단계(S12) 동안 수행된다.
단계(S12)에서 수행된 일시 정지 검출이 입력 오디오 클립을 침묵 세그먼트 및 신호 세그먼트로 분리하는 일은 한다는 것이 이해될 것이다. 여기서, "일시 정지"라는 용어는 자음 중단 또는 약간의 말더듬(hesitation)에 의해 야기된 것이 아니라, 청취자에 의해 판단되는 시간 기간을 음향이 없는 기간인 것으로 나타내는데 사용된다. 본 명세서에 참고용으로 병합되는, 피.티. 브래디(P.T.Brady)가 저술한 "음성의 온-오프 패턴을 연구하기 위한 기술(A Technique For Investigating On-Off Patterns Of Speech)"(1965년 1월, 벨 시스템 기술 저널, 제 44권, 1호, pp.1-22)의 논문을 참조하자. 일시 정지 검출기가 사람의 인식과 일관되는 결과를 생성하는 것이 매우 중요하다는 것이 주지될 것이다.
전술한 바와 같이, 오디오 분류에 대한 많은 이전의 연구는 단일 오디오 카테고리로부터만 데이터를 포함하는 오디오 클립으로 수행된다. 그러나, "실제(true)" 연속적인 GAD는 많은 오디오 클래스로부터 세그먼트를 포함한다. 따라서, 분류 성능은, 언더라잉(underlying) 오디오 스트림이 하나의 오디오 클래스로부터 다른 오디오 클래스로 전이되는 곳에 악영향을 끼칠 수 있다. 이러한 정밀도에서의 손실은 경계 효과(border effect)라 불린다. 경계 효과로 인한 정밀도에서의 손실이 엠. 스피나 및 브이.더블류.쥬가 저술한 논문, 및 이.샤이러 및 엠.슬라니가 저술한 논문에 또한 보고되어 있으며, 각 논문들이 위에 기재되어 있다는 것이 주지될 것이다.
경계 효과로 인한 성능 손실을 최소화시키기 위해, 본 발명에 따른 화자 ID 시스템은 단계(S14)에서 구현된 분할-풀링 구성을 이용한다. 분할-풀링 구성의 분할 부분은, 하나의 유형의 오디오 카테고리로부터 다른 유형의 오디오 카테고리로의 전이가 발생되는 것으로 결정되는 신호 세그먼트에 경계를 위치시키는데 사용된다. 이러한 부분은 신호가 얼마나 빠르게 변하는지를 나타내는, 소위 온셋(onset) 및 오프셋 측정을 이용하여, 입력의 신호 세그먼트에 경계를 위치시킨다. 분할 처리의 결과는 더 작은 균일한 신호 세그먼트를 산출하는 것이다. 분할-풀링 구성의 풀링 구성요소는 이후에 분류할 때 사용된다. 상기 풀링 구성요소는 분할된 신호 세그먼트를 분류하기 위해 프레임간 분류 결과의 풀링을 수반한다.
이하 설명에서, 일시 정지 검출, 오디오 분할 및 오디오 세그먼트 분류에 채택된 알고리즘은 더 구체적으로 설명될 것이다.
3개의 단계 절차가 GAD로부터 일시 정지 기간의 검출을 위해 구현된다는 것이 주지되어야 한다. 즉, 단계(S12)는 하위 단계(S121, S122, S123)를 유리하게 포함할 수 있다. 도 5e를 참조하자. 오디오 툴박스(10)에서 선택된 툴에 의해 추출된 특징에 기초하여, 입력 오디오 데이터는 먼저 하위 단계(S121) 동안 로우 경계(raw boundary)를 얻기 위해 신호 또는 일시 정지 프레임으로서 프레임간에 마킹된다. 이러한 프레임간의 분류는 결정 트리 알고리즘을 이용하여 수행된다. 결정 트리는, "상호 정보를 이용하는 계층적인 분류기 설계(Hierarchical Classifier Design Using Mutual Information)"(1982년 7월, 패턴 인식 및 기계 지능에 대한 IEEE 회보, 제 4권 4호, pp.441-445)의 논문에 기재된 세씨 및 사바라야두 작의 계층적 특징 공간 분할 방법과 유사한 방법으로 얻어진다. 도 4a는 2차원 특징 공간에 대한 분할 결과를 도시한 반면, 도 4b는 본 발명에 따른 일시 정지 검출에 이용된 대응하는 결정 트리를 도시한다.
제 1 하위 단계에서 얻어진 결과가 일반적으로 무성 음성과 약간의 말더듬에 민감하기 때문에, 기입(fill-in) 프로세스{하위 단계(S122)} 및 버림(throwaway) 프로세스{하위 단계(S123)}가 일시 정지의 인간 인식과 더 일관되는 결과를 생성하기 위해 연속적인 2 단계에 적용된다는 것이 또한 주지되어야 한다.
하위 단계(S122)의 기입 프로세스 동안, 기입 임계치보다 적은 길이를 갖는, 일시 정지 세그먼트, 즉 일시 정지 프레임의 연속적인 시퀀스가 단일 세그먼트로서 재라벨링되고, 이웃한 신호 세그먼트와 병합된다는 것이 언급되어야 한다. 하위 단계(S123)의 버림 프로세스 동안, 미리 결정된 임계치보다 더 작은 신호 세기 값을 갖는 세그먼트 라벨링된 신호는 침묵 세그먼트로서 재라벨링된다. 신호 세그먼트의 세기는 수학식 1로서 정의된다:
여기서, L은 신호 세그먼트의 길이이고, Tl은 도 4a에 도시된 가장 낮은 신호 레벨에 해당한다. 세그먼트의 길이를 직접 사용하는 것 대신에, 세그먼트 길이를 정의하는 이면의 기본 개념이 신호 에너지를 고려하여, 전이 음성 파열(burst)의 세그먼트가 쓰로우어웨이 프로세스 동안 침묵으로 표시되지 않게 된다는 것을 주지되어야 한다. 피.티.브래디가 저술한, "음성의 온-오프 패턴을 연구하기 위한 기술"(1965년 1월, 벨 시스템 기술 저널, 제 44권, 1호, pp.1-22)의 논문을 참조하자. 도 5a 내지 도 5d는 예시적인 일시 정지 검출 알고리즘의 3 단계를 도시한다. 더 구체적으로, 본 발명의 예시적인 실시예 중 적어도 하나에 이용된 일시 정지 검출 알고리즘은, 입력 신호의 단기간 에너지를 결정하고(도 5a), 하위 단계(S121)에서 후보 신호 세그먼트를 결정하고(도 5b), 전술한 기입 하위 단계(S122)를 수행하고(도 5c), 전술한 버림 하위 단계(S123)를 수행하는(도 5d) 단계(S120)를 포함한다.
본 발명에 따른 메가 화자 ID 시스템에 이용된 일시 정치 검출 모듈은 2 종류의 세그먼트, 즉 침묵 세그먼트 및 신호 세그먼트를 산출한다. 침묵 세그먼트가 이미 완전히 분류되기 때문에 침묵 세그먼트는 어떠한 추가 처리도 필요로 하지 않는다는 것이 이해될 것이다. 그러나, 신호 세그먼트는 전이 지점, 즉 분류 이전에 언더라잉 신호의 카테고리가 변하는 위치를 표시하기 위해 추가 처리를 필요로 한다. 전이 지점을 찾기 위해, 예시적인 분할 구성은 단계(S14)를 수행하는데 있어서 2개의 하위 단계 프로세스, 즉 브레이크(break) 검출 하위 단계(S141) 및 브레이크-병합 하위 단계(S142)를 이용한다. 브레이크 검출 하위 단계(S141) 동안, 신호 세그먼트 위에 위치한 큰 검출 윈도우는 이동하고, 각 슬라이딩(sliding) 위치에서 윈도우의 상이한 절반부의 평균 에너지가 비교된다. 이것은 2가지 별개 유형의 브레이크의 검출을 허용한다:
온셋 브레이크:인 경우,
오프셋 브레이크:인 경우,
여기서는 각각 검출 윈도우의 제 1 및 제 2 절반부의 평균 에너지이다. 온셋 브레이크는 신호 에너지에서의 증가로 인해 오디오 카테고리에서의 잠재적인 변화를 나타낸다. 유사하게, 오프셋 브레이크는 신호 에너지의 저하로 인해 언더라잉 신호의 카테고리에서의 변화를 수반한다. 브레이크 검출 윈도우가 신호를 따라 슬라이딩되기 때문에, 언더라잉 신호의 오디오 카테고리에서의 단일 전이가 수 개의 연속적인 브레이크를 생성할 수 있다는 것이 인식될 것이다. 이러한 일련의 브레이크의 병합이 S14로 표시된 새로운 분할 프로세스의 제 2 하위 단계 동안 달성된다.
이러한 하위 단계, 즉 S142 동암, 동일한 유형의 인접한 브레이크는 단일 브레이크에 병합된다. 오프셋 브레이크는, 2개가 시간에 따라 서로 가까워진 경우, 온셋 브레이크에 바로 후속하는 상태로 또한 병합된다. 이것은, 하나의 신호의 마지막과 다른 신호의 시작 사이에 임의의 작은 갭을 브리징(bridge)하기 위해 이루어진다. 도 6a 내지 도 6c는 신호 브레이크의 검출 및 병합을 통한 분할 프로세스를 도시한다.
오디오 세그먼트를 분류하기 위해, 본 발명에 따른 메가 화자 ID 시스템 및 해당 방법은 먼저 세그먼트의 각각의 모든 프레임을 분류한다. 다음으로, 프레임분류 결과는 전체 세그먼트에 대한 분류 라벨에 도달하도록 통합된다. 바람직하게, 이러한 통합은 풀링 프로세스에 의해 수행되는데, 상기 풀링 프로세스는 각 오디오 카테고리에 할당된 프레임의 수를 카운트하고; 카운팅에 가장 심하게 나타난 카테고리는 세그먼트에 대한 오디오 분류 라벨로서 취해진다.
전술한 바와 같이, 프레임을 분류하는데 사용된 특징은 상기 프레임 뿐 아니라 다른 프레임으로부터 나온다. 예시적인 경우에, 분류는, 각 카테고리가 다차원 가우스 분배를 갖는다는 가정 하에 동작하는 베이스(Bayesian) 분류기를 이용하여 수행된다. 프레임 분류를 위한 분류 규칙은 다음 수학식 2로 표현될 수 있다:
c*=arg minc=1,2,...,C{D2(x,mc,Sc)+ln(detSc)-2ln(pc)}
여기서 C는 후보 카테고리의 총 수(이 경우에, C는 6이다)이고, c*는 분류 결과이고, x는 분석되는 프레임의 특징 벡터이다. 양(mc, Sc, pc)은 각각 평균 벡터, 공분산 매트릭스, 및 클래스(c)의 확률을 나타내고, D2(x,mc,Sc)는 x와 mc사이의 마할라노비스(Mahalanobis) 거리를 나타낸다. mc,Sc, 및 pc가 일반적으로 알려지지 않았기 때문에, 이러한 값은, 알.오.듀다(R.O.Duda) 및 피.이.하트(P.E.Hart)가 저술한 "패턴 분류 및 장면 분석(Pattern Classification and Scene Analysis)"(1973년, 뉴욕, John Wiley & Sons)이라는 제목의 책에 기재된 것과 같이 최대 후천성(posteriori)(MAP) 추정기를 이용하여 유리하게 결정될 수 있다.
메가 화자 ID 시스템 및 해당 방법에 구현된 오디오 특징 세트를 세밀히 구별하는데 이용된 GAD가, 먼저 토크 쇼, 뉴스 프로그램, 축구 경기, 날씨 보도, 광고, 주간 드라마, 영화, 심야 쇼 등과 같은 다양한 유형의 TV 프로그램으로부터 다수의 오디오 클립을 수집함으로써 준비된다는 것이 언급되어야 한다. 이러한 오디오 클립은 4개의 상이한 방송국, 즉 ABC, NBC, PBS, CBS로부터 리코딩되고, 8비트의 44.1kHz WAV-포맷 파일로서 저장된다. 각 카테고리에서 폭넓은 변화를 얻도록 주의하였다. 예를 들어, 상이한 유형의 음악의 뮤지컬 세그먼트가 리코딩된다. 전체 GAD로부터, 30분은 트레이닝 데이터로서 지정되고, 다른 시간은 시험 데이터로서 지정된다. 그 때, 트레이닝 및 시험 데이터 모두 일단 10ms마다 7개의 카테고리 중 하나로 수동으로 라벨링된다. 피.티.브래디 및 제이.지.아그넬로가 저술한 논문{어구 내 및 어구간의 일시 정지 및 음성 속도에 대한 관계의 연구("A Study of Intra-and Inter-Phrasal Pauses and Their Relationship to the Rate of Speech), 1963년, 오하이오 주립 대학 Ph.D 졸업 논문}에 나타난 제안에 따라, 200ms의 최소 지속기간이 침묵 세그먼트에 부과되어, 청취자에 정상적으로 인식할 수 없는 어구 내(intraphase) 일시 정지를 배제하게 된다. 더욱이, 트레이닝 데이터는 분류기의 파라미터를 추정하는데 사용된다.
본 발명에 따른 메가 화자 ID 시스템 및 해당 방법에 사용하기 위해 상이한 특징 세트의 적합성을 연구하기 위해, 8개의 시간 및 스펙트럼 특징을 포함하는 68개의 음향 특징, 및 MFCC, LPC, 델타 MFCC, 델타 LPC, 및 자동 상관 MFCC 특징 중 12개 각각은 도 2의 전체 오디오 툴박스(10)를 이용하여 입력 데이터로부터 20ms마다, 즉 20ms 프레임마다 추출된다. 이러한 68개의 특징 각각에 대해, 평균 및 분산은 해당 프레임 주위에 중심을 둔 인접한 프레임에 걸쳐 계산된다. 따라서, 143개의 분류 특징, 68개의 평균값, 68 개의 분산, 일시 정지 율, 화음, 및 5개의 합 특징의 총수는 20ms마다 계산된다.
도 7은 트레이닝 데이터 상의 상이한 특징 세트의 상대적인 성능을 도시한다. 이러한 결과는 특징의 수백만의 유망한(promising) 서브셋에 대해 광범위한 트레이닝 및 시험에 기초하여 얻어진다. 도 7에서의 정밀도는 프레임 레벨에서 분류 정밀도이다. 더욱이, 세그먼트 프레임 근처 경계는 정밀도 계산에 포함되지 않는다. 도 7의 프레임 분류 정밀도는 이에 따라 분류 성능을 나타내는데, 상기 분류 성능은 시스템이 개별적으로 각 오디오 유형의 세그먼트를 나타낸 경우 얻어진다. 또 7로부터, 상이한 특징 세트가 균일하지 않게 수행한다는 것이 주지될 것이다. 또한, 시간 및 스펙트럼 특징이 그리 잘 수행하지 않는다는 것이 주의되어야 한다. 이러한 실험에서, MFCC 및 LPC는 시간 및 스펙트럼 특징보다 전체 분류 정밀도를 훨씬 더 우수하게 달성한다. 8개의 MFCC 특징만을 통해, 85.1%의 분류 정밀도는 간단한 MAP 가우스 분류기를 이용하여 얻어질 수 있고; MFCC 특징의 수가 20까지 증가할 때 95.3%로 상승한다. 이러한 높은 분류 정밀도는 특징 공간의 매우 간단한 토폴로지를 나타내고, 7개의 오디오 카테고리의 경우에 샤이러 및 슬라니의 결론에 더 따른다. 상이한 분류기를 이용하는 효과는 이에 따라 매우 한정된 것으로 예측된다.
표 1은 최상의 16개의 특징을 이용할 때 3개의 가장 중요한 특징 세트에 대해 얻어진 결과의 개요를 제공한다. 이러한 결과는, MFCC가 전부 최상으로 수행할 뿐 아니라 상이한 카테고리에 걸쳐 심지어 최상의 성능을 갖는다는 것을 보여준다. 이것은, 오디오 카테고리의 서브셋만이 인식되는 애플리케이션에서 MFCC의 이용을 추가로 제안한다. 다른 방식을 언급한 바와 같이, 메가 화자 ID 시스템이 가정용 전화 시스템과 같은 디바이스에 병합되거나, 또는 상기 방법을 구현하는 소프트웨어가 개인용 컴퓨터 상의 음성 오버 인터넷(VOI: Voice Over Internet) 소프트웨어에 후킹(hooked)될 때, 7개의 오디오 카테고리 중 몇몇만이 구현될 필요가 있다.
특징 세트 분류 정밀도
잡음 음성 음악 음성+잡음 음성+음성 음성+음악
시간&스펙트럼 93.2 83 75.1 66.4 88.3 79.5
MFCC 98.7 93.7 94.8 75.3 96.3 94.3
LPC 96.9 83 88.7 66.1 91.7 82.7
일련의 추가 실험이 파라미터 설정의 효과를 검사하도록 실행된다는 것이 이러한 관점에서 언급되어야 한다. 성능에서의 사소한 변화만이 상이한 파라미터 설정, 예를 들어 상이한 윈도우윙 기능, 또는 윈도우 길이 및 윈도우 중첩의 변화를 이용하여 검출된다. 분류 정밀도에서의 어떠한 명백한 개선도, MFCC 특징의 수를 증가시키거나 상이한 특징 세트로부터 특징의 혼합물을 이용할 때 달성되지 않는다.
분류기가 시험 데이터 상에서 어떻게 잘 수행하는지를 결정하기 위해, 데이터의 나머지 1시간은 시험 데이터로서 이용된다. 20 MFCC 특징의 세트를 이용하여, 85.3%의 프레임 분류 정밀도가 달성된다. 이러한 정밀도는 오디오 세그먼트 경계근처의 프레임을 포함하는 모든 프레임에 기초한다. 트레이닝 데이터에 대한 정밀도와 비교하여, 분류기가 다중 클래스로부터 세그먼트를 처리할 때 정밀도에서 약 10% 하락이 있다는 것이 이해될 것이다.
전술한 실험이 266MHz CPU와 64M의 메모리를 갖는 펜티엄 Ⅱ PC 상에서 수행된다는 것이 주지되어야 한다. 44.1kHz에서 샘플링된 1시간 분량의 오디오 데이터에 대해, 168초의 처리 시간이 걸리며, 이것은 재생 속도보다 약 21배 더 빠르다. 이것이 사용자의 텔레비전 또는 통합형 오락 시스템에서 실시간 화자 ID 시스템을 포함할 가능성의 긍정적인 예측자(positive predictor)라는 것이 이해될 것이다.
다음 처리 단계 동안, 풀링 프로세스는 전체적으로 각 세그먼트에 대한 분류 라벨을 결정하도록 적용된다. 풀링 프로세스의 결과로서, 몇몇 프레임, 주로 경계 근처의 프레임은 분류 라벨이 변화하도록 한다. 알려진 프레임 라벨과 비교하여, 풀링 프로세스 이후의 정밀도가 90.1%인 것으로 발견되는데, 이것은 풀링 없이 시스템 정밀도의 약 5%의 증가를 나타낸다.
분할-풀링 구성이 있는 경우와 없는 경우의 분류에서의 차이에 대한 일례는 도 8에 도시되어 있고, 여기서 수평축은 시간을 나타낸다. 상이한 오디오 카테고리는 수직 축 상의 상이한 레벨에 대응한다. 레벨 변화는 하나의 카테고리로부터 다른 카테고리로의 전이를 나타낸다. 도 8은, 분할-풀링 구성이 산란된 분류 에러를 정정하고 사소한 세그먼트를 제거하는데 효과적이라는 것을 도시한다. 따라서, 분할-풀링 구성은 경계 효과로 인한 저하를 감소시킴으로써 인간의 인식에 더 일관되는 결과를 실제로 생성할 수 있다.
연속적인 GAD의 분류 문제는 위에서 다루어졌고, 오디오 세그먼트를 7개의 카테고리로 분류할 수 있는 오디오 분류 시스템에 대한 요구조건은 일반적으로 표현되었다. 예를 들어, 청각 툴박스(10)의 도움으로, 이용된 특징 세트를 최적화하기 위해 시험 및 비교가 총 143개 분류 특징상에서 수행되었다. 이러한 결과는, 특징 선택이 주로 오디오 분류에서 중요하다는 쉬어러 및 슬라니의 의견을 확인한다. 이러한 실험 결과는, MFCC, LPC 등과 같은 셉스트럴 기반의 특징이 훨씬 더 우수한 정밀도를 제공하고, 원하는 오디오 카테고리의 수에 상관없이 오디오 분류 작업에 사용되어야 한다는 것을 또한 확인하였다.
분할-풀링 구성은 또한 평가되었고, 경계 효과를 감소시키고 인간의 인식에 일관되는 분류 결과를 생성하는 효과적인 방식인 것으로 설명되었다. 실험 결과는, 본 발명의 예시적인 실시예에서 구현된 분류 시스템이 재생 속도보다 12배 더 빠른 처리 속도로 약 90%의 정밀한 성능을 제공한다는 것을 보여준다. 이러한 높은 분류 정밀도 및 처리 속도는, 전술한 오디오 분류 기술이 바로 아래에 더 구체적으로 논의된 바와 같이 비디오 인덱싱 및 분석, 자동 음성 인식, 오디오 시각화, 비디오/오디오 정보 검색, 및 큰 오디오 분석 시스템을 위한 전처리와 같은 광범위한 추가 자동 애플리케이션으로 확장할 수 있게 한다.
본 발명에 따른 메가 ID 화자 시스템의 예시적인 실시예는 도 9a에 도시되어 있고, 도 9a는 메가 화자 ID 시스템을 유리하게 포함하는 오디오 리코더-플레이어(100)의 높은 레벨의 블록도이다. 오디오 리코더-플레이어(100)에 이용된 수 개의 구성요소가 이후에 더 구체적으로 설명되는 바와 같이 소프트웨어 디바이스라는 것이 이해될 것이다. 또한, 오디오 리코더-플레이어(100)가 다양한 스트리밍 오디오 소스에 유리하게 연결될 수 있고; 하나의 지점에서, 미국에서만 동작시 2500개 정도의 그러한 소스가 있다는 것이 이해될 것이다. 바람직하게, 프로세서(130)는 인터넷을 통해 I/O 포트(132)를 통해 이러한 스트리밍 오디오 소스를 수신한다. 이러한 관점에서, 프로세서(130)가 마이크로프로세서 또는 디지털 신호 프로세서(DSP) 중 하나일 수 있고; 예시적인 경우에, 프로세서(130)가 양쪽 유형의 프로세서를 포함할 수 있다는 것이 언급되어야 한다. 다른 예시적인 경우에, 프로세서는 다양한 분석 및 분류 기능을 실증하는 DSP이며, 상기 기능은 이전과 이후에 더 구체적으로 설명된다. 프로세서(130)가, 프로세서 리소스가 허용하는 만큼의 가상 튜너, 예를 들어 TCP/IP 튜너(120a 내지 120n)를 실증한다는 것을 도 9a에서 알 수 있다.
인터넷에 연결하는데 필요한 실제 하드웨어가 모뎀, 예를 들어 아날로그, 케이블, 또는 DSL 모뎀 등을 포함하고, 몇몇 경우에, 네트워크 인터페이스 카드(NIC)를 포함한다는 것이 주지될 것이다. 본 발명의 어떠한 부분도 형성하지 않는 그러한 종래의 디바이스는 추가로 설명되지 않을 것이다.
여전히 도 9a를 참조하면, 프로세서(130)는 RAM(142)과, NVRAM(144)과, ROM(146)에 연결되는 것이 바람직하며, 이들은 모두 메모리(140)를 형성한다. RAM(142)은 프로세서(130)에 의해 실증된 프로그램 및 루틴에 의해 생성된 데이터를 위한 임시 저장 장치를 제공하는 한편, NVRAM(144)은 메가 화자 ID 시스템에 의해 얻어진 결과, 즉 오디오 세그먼트 분류 및 화자 정보를 나타내는 데이터를 저장한다. ROM(146)은 프로그램 및 이러한 프로그램에 의해 저장된 영구 데이터를 저장한다. NVRAM(144)이 유리하게 정적 RAM(SRAM) 또는 강자성 RAM(FERAM) 등일 수 있는 한편, ROM(146)이 SRAM 또는 전기적으로 프로그래밍가능한 ROM(EPROM 또는 EEPROM)일 수 있는데, 이것은 새로운 프로그램 버전이 이용가능함에 따라 프로그램 및 "영구" 데이터가 갱신되도록 한다는 것이 언급되어야 한다. 대안적으로, RAM(142), NVRAM(144), 및 ROM(146)의 기능은 단일 하드 드라이브, 즉 단일 메모리 디바이스(140)로서 본 발명에 유리하게 구현될 수 있다. 프로세서(130)가 다수의 프로세서를 포함할 때, 각 프로세서는 공유 메모리 디바이스(140) 또는 각 메모리 디바이스를 유리하게 가질 수 있다는 것이 인식될 것이다. 다른 장치, 예를 들어 모든 DSP는 메모리 디바이스(140)를 이용하고, 모든 마이크로프로세서는 메모리 디바이스(140A)(미도시)를 이용하고, 또한 가능하다는 것이 인식될 것이다.
프로세서(130) 또는 사용자로부터의 지시에 의해 이용될 데이터의 추가 소스가 입력 디바이스(150)를 통해 유리하게 제공될 수 있다는 것이 인식될 것이다. 도 10에 대해 아래에 더 구체적으로 설명되는 바와 같이, 본 발명의 이러한 예시적인 실시예에 따른 메가 화자 ID 시스템 및 해당 방법은 알려진 화자 ID 모델, 예를 들어 뉴스 앵커, 리포터, 단골 해설자, 및 유명 게스트를 위해 CNN이 준비한 모델과 같은 추가 데이터를 유리하게 수신할 수 있다. 대안적으로 또는 추가적으로, 프로세서(130)는 명찰(nameplate) 데이터, 얼굴 특징 데이터베이스로부터의 데이터, 복사본 등과 같은 추가 정보를 수신할 수 있어서, 화자 ID 프로세스에 도움을 준다. 전술한 바와 같이, 프로세서는 또한 사용자로부터 입력을 직접 유리하게 수신할 수 있다. 이러한 마지막 입력은, 특히 오디오 소스가 도 9b에 도시된 시스템으로부터도출될 때 유용하다.
도 9b는 본 발명에 따른 다른 예시적인 실시예에 따라 메가 화자 ID 시스템을 포함하는 오디오 리코더(100')의 높은 레벨의 블록도이다. 오디오 리코더(100')는 예를 들어 전화 시스템(150')과 같은 단일 오디오 소스에 결합되는 것이 바람직하고, 상기 단일 오디오 시스템의 키패드는 대화의 마지막에 화자에 관한 식별 데이터를 제공하도록 유리하게 이용될 수 있다는 것이 인식될 것이다. I/O 디바이스(132'), 프로세서(130') 및 메모리(140')는 도 9a에 대해 설명된 것과 실질적으로 유사하지만, 다양한 구성요소의 크기 및 전력은 애플리케이션 유리하게 확대 또는 축소될 수 있다. 예를 들어, 기존의 전화 시스템의 오디오 특성이 주어지면, 프로세서(130')는 도 9a에 도시된 오디오 리코더(100)에 이용된 프로세서(130)보다 훨씬 더 느리고 저렴할 수 있다. 더욱이, 전화가 도 1에 도시된 오디오 소스의 전체 범위를 경험하도록 예측되지 않기 때문에, 유리하게 이용된 특징 세트는 예측된 오디오 소스 데이터로 타겟팅(targeted)될 수 있다.
본 발명에 따른 화자 ID를 유리하게 포함하는 오디오 리코더(100 및 100')가 전화와 함께 사용하는 것에 한정되지 않는 것이 언급되어야 한다. 입력 디바이스(150, 150')는 또한 비디오 카메라, SONY 메모리 스틱 판독기, 디지털 비디오 리코더(DVR) 등일 수 있다. 사실상 GAD를 유리하게 제공할 수 있는 임의의 디바이스는 메가 화자 ID 시스템에 인터페이싱될 수 있거나, 본 발명에 따른 메가 화자 ID 방법을 실행하기 위한 소프트웨어를 포함할 수 있다.
본 발명에 따른 메가 화자 ID 시스템 및 해당 방법은 프로세서(130, 130')에의해 실증되는 기능 블록에 관해 시스템을 한정함으로써 더 잘 이해될 것이다. 도 10에 도시된 바와 같이, 프로세서는 오디오 분할 및 분류 기능(F10), 특징 추출 기능(F12), 학습 및 클러스터링 기능(F14), 매칭 및 라벨링 기능(F16), 통계 간섭 기능(F18), 및 데이터베이스 기능(F20)을 실증한다. 이러한 "기능" 각각이 메가 화자 ID 시스템과 연관된 프로세서에 의해 수행될 수 있는 하나 이상의 소프트웨어 모듈을 나타낸다는 것이 인식될 것이다.
다양한 기능이 하나 이상의 미리 결정된 입력을 수신한다는 것이 또한 도 10으로부터 인식될 것이다. 예를 들어, GAD와 같은 새로운 입력(I10)은 오디오 분할 및 분류 기능(F10)에 인가되는 한편, 알려진 화자 ID 모델 정보(I12)는 제 2 입력{기능(F10)의 출력이 제 1 입력이다}으로서 특징 추출 기능(F12)에 유리하게 인가될 수 있다. 더욱이, 매칭 및 라벨링 기능(F16)은 사용자 입력(I14) 또는 추가 소스 정보(I16) 중 어느 하나, 또는 양쪽 모두를 유리하게 수신할 수 있다. 마지막으로, 데이터베이스 기능(F20)은 사용자 질의(I18)를 수신하는 것이 바람직하다.
오디오 리코더-플레이어(100 및 100')의 전체 동작은 이제 도 11을 참조하여 설명될 것이며, 도 11은 본 발명에 따른 메가 화자 ID 시스템을 포함하는 오디오 리코더-플레이어의 동작 방법의 높은 레벨의 흐름도를 도시한다. 단계(S1000) 동안, 오디오 리코더-플레이어 및 메가 화자 ID 시스템은 에너지 공급(energized)되고 개시된다. 도 9a 및 도 9b에 도시된 오디오 리코더-플레이어 중 어느 하나에 대해, 개시 루틴은 GAD를 허용하기 위해 RAM(142)(142')을 개시하는 것을 유리하게 포함할 수 있다. 더욱이, 프로세서(130)(130')는 ROM(146)(146')으로부터 소프트웨어 양쪽 모두를 검색할 수 있고, 어느 쪽의 정보 유형이 NVRAM(144)(144')에 사전 저장된 경우 알려진 화자 ID 모델 정보(I12) 및 추가 소스 정보(I16)를 판독할 수 있다.
다음으로, 예를 들어 GAD, 라디오 또는 텔레비전 채널, 전화 대화 등과 같은 새로운 오디오 소스 정보(I10)는 단계(S1002) 동안 얻어지고, 그 다음에 단계(S1004) 동안 오디오 분할 및 분류 기능(F10)에 의해 카테고리, 즉 음성; 음악; 침묵 등으로 분할된다. 기능(F10)의 출력은 화자 ID 특징 추출 기능(F12)에 유리하게 인가된다. 단계(S1006) 동안, 기능 블록(F10)에 의해 출력된 각 음성 세그먼트에 대해, 특징 추출 기능(F12)은 MFCC 계수를 추출하고, 이를 개별 클래스(필요한 경우 상이한 레벨을 갖는)로서 분류한다. 특징 추출 기능(F12)이 알려진 화자 ID 모델 정보(I12), 즉 그러한 정보가 이용가능할 때 MFCC 계수 패턴을 알려진 화자 또는 알려진 분류에 매핑하는 정보를 유리하게 이용할 수 있다는 것이 언급되어야 한다. 이용가능한 경우, 모델 정보(I12)가 본 발명에 따라 메가 화자 ID의 전체 정밀도를 증가시킨다는 것이 인식될 것이다.
단계(S1008) 동안, 통제되지 않은 학습 및 클러스터링 기능(F14)은 유사한 클래스를 하나의 클래스에 합병하도록 유리하게 이용될 수 있다. 기능(F14)이 알려진 화자 ID 모델(I12)에 따라 자유롭게 선택가능하거나 선택되는 임계치 값을 이용한다는 것을 도 4a 내지 도 6c에 관해 상기 설명에서 이해될 것이다.
단계(S1010) 동안, 매칭 및 라벨링 기능 블록(F16)은 클래스를 시각화하도록 수행된다. 매칭 및 라벨링 기능(F16)이 추가 정보 입력 없이 수행될 수 있지만, 매칭 및 라벨링 기능의 동작은, 상기 기능 블록(F16)이 텍스트 정보(I16)의 추가 소스로부터 입력을 수신할 때, 즉 텍스트 검출로부터의 라벨(명찰이 나타날 때) 또는 복사본과 같은 다른 소스, 및/또는 사용자 입력 정보(I14)를 얻을 때 유리하게 개선될 수 있다는 것이 인식될 것이다. 본 발명의 방법이 대안적인 단계(S1012)를 포함할 수 있으며, 여기서 메가 화자 ID 방법은 화자 ID가 정확하다는 것을 확인하기 위해 사용자에게 질의한다는 것이 인식될 것이다.
단계(S1014) 동안, 단계(S1010) 동안 얻어진 결과가 사용자의 판단으로 정확한지를 결정하도록 체크가 이루어진다. 그 대답이 부정적이면, 단계(S1016) 동안, 사용자는 화자 클래스를 유리하게 개입하고 정정할 수 있거나, 임계치를 변화시킬 수 있다. 그 다음에, 프로그램은 단계(S1000)의 시작으로 도약한다. 단계(S1014) 및 단계(S1016)가 특정 화자로부터의 특징에 따른 라벨을 취하기 위해 조정(reconciling) 단계를 제공하는 것이 인식될 것이다. 대답이 긍정적이면, 각각 도 9a 및 도 9b에 도시된 메가 화자 ID 시스템(100 및 100')의 바람직한 실시예와 연관된 데이터베이스 기능(F20)은 단계(S1018) 동안 갱신되고, 그 다음에 상기 방법은 단계(S1002)의 시작으로 다시 되돌아가고, 추가 GAD를 얻는데, 예를 들어 시스템은 TV 프로그래밍의 날로부터 입력을 얻고, 단계(S1002 내지 S1018)가 반복된다.
일단 데이터베이스 기능(F20)이 개시되었으면, 사용자는 단계(S1020) 동안 데이터베이스에 질의하도록 하고, 단계(S1022) 동안 질의 결과를 얻도록 허용된다는 것이 주지되어야 한다. 도 9a에 도시된 예시적인 실시예에서, 질의는 I/O 디바이스(150)를 통해 입력될 수 있다. 도 9b에 도시된 예시적인 경우에, 사용자는 질의를 구축할 수 있고, 전화 핸드셋, 즉 구두(spoken) 질의, 또는 예를 들어 소위 호출자 ID 디스플레이 디바이스와 같은 LCD 디바이스와 전화 키패드의 결합 중 어느 하나를 통해 결과를 얻을 수 있으며, 이들 중 임의 또는 모두가 전화(150')와 연관된다.
오디오 분류 및 화자 ID 시스템으로부터 추출된 정보를 나타내는 다수의 방식이 존재한다는 것이 인식될 것이다. 한가지 방식은, 간단한 관련 데이터베이스 모델을 이용하여 이 정보를 모델링하는 것이다. 예시적인 경우에, 복수의 표를 이용하는 데이터베이스 이용 다중 테이블이 이후에 설명되는 바와 같이 유리하게 사용될 수 있다.
가장 중요한 표는 카테고리 및 날짜에 관한 정보를 포함한다. 표 2를 참조하자. 표 2의 속성은 오디오 (비디오) 세그먼트 ID, 예를 들어 CRID의 TV 애니타임의 개념(TVAnytime's notion), 카테고리 및 날짜를 포함한다. 예를 들어 하나의 전화 대화 또는 리코딩된 미팅과 같은 각 오디오 세그먼트, 또는 예를 들어 각 TV 프로그램과 같은 비디오 세그먼트는 표 2에서 행으로 표시될 수 있다. 열은 카테고리를 나타내는데, 즉 N개의 카테고리에 대해 N개의 열이 있다는 것이 주지될 것이다. 각 열은 특정 카테고리에 대한 지속기간을 나타내는 정보를 포함한다. 엔트리(행)에서의 각 요소는 오디오 세그먼트당 특정한 카테고리에 대한 총 지속기간을 나타낸다. 마지막 열은 예를 들어 20020124와 같이, 상기 세그먼트의 리코딩의 날짜를 나타낸다.
CRID Duration_Of_Silence Duration_Of_Music Duration_Of_Speech 날짜
034567 207 5050 2010 20020531
034568 100 301 440 20020531
034569 200 450 340 20020530
이러한 관련 표에 대한 키는 CRID이다. 추가 열이 추가될 수 있으며, 상기 열은 각 세그먼트에 대해 표 2에 열을 추가할 수 있고, 예를 들어 비즈니스 또는 개인과 같은 전화 대호, 또는 예를 들어 뉴스, 스포츠, 영화, 시트콤 등과 같은 TV 프로그램 장르의 "유형"과 같은 정보를 유지할 수 있다는 것을 알 수 있다. 더욱이, 추가 표는 특정 세그먼트의 각 카테고리에 대한 상세한 정보, 예를 들어 CRID에 대해 시작, 종료 시간, 카테고리를 저장하도록 유리하게 이용될 수 있다. 표 3을 참조하자. "서브세그먼트(subsegment)"가 오디오 세그먼트에서 동일한 카테고리의 데이터의 일정한 작은 청크(chunk)로서 정의된다는 것이 주지되어야 한다. 예를 들어, 전화 대화는 4개의 서브세그먼트를 포함한다: 화자 A에서 시작, 그 다음에 침묵에서 시작, 그 다음에 화자 B에서 시작, 화자 A에서 시작.
CRID 카테고리 Begin_Time End_Time
034567 침묵 00:00:00 00:00:10
034567 음악 00:00:11 00:00:19
034567 침묵 00:00:20 00:00:25
034567 음성 00:00:26 00:00:45
....
전술한 바와 같이, 표 2가 Duration_Of_Silence, Duration_Of_Music, 및 Duration_Of_Speech와 같은 카테고리에 대한 열을 포함하지만, 많은 상이한 카테고리가 나타날 수 있다. 예를 들어, Duration_Of_FathersVoice, Duration_Of_PresidentsVoice, Duration_Of_Rock, Duration_Of_Jazz, 등에 대한 열은 유리하게 표 2에 포함될 수 있다.
이러한 종류의 데이터베이스를 이용함으로써, 사용자는 각 카테고리에 대한 평균, 각 카테고리 및 그 위치에 대한 min, 및 max; 각 프로그램 및 각 카테고리에 대한 표준 편차와 같은 정보를 검색할 수 있다. 최대치에 대해, 사용자는 날짜를 위치시킬 수 있고,
어느 날짜에 고용인 "A"가 원격 회의 호출을 지정하였는지,
동일한 원격 회의 호출 동안 피용인 "B"가 말하였는지?
와 같은 질의에 대답할 수 있다.
이러한 정보를 이용함으로써, 사용자는 추가 데이터 마이닝(mining) 접근법을 이용할 수 있고, 상이한 카테고리, 날짜 등 사이의 상관을 찾을 수 있다. 예를 들어, 사용자는 사람 A가 사람 B을 가장 많이 호출하는 날짜와 같은 패턴을 발견할 수 있다. 더욱이, 사람 A를 호출하고, 뒤이어 사람 B를 호출하는 것 사이의 상관 관계는 또한 발견될 수 있다.
본 발명에 따른 메가 화자 ID 시스템 및 해당 방법은, 예를 들어 전화와 같은 하나만큼 적은 오디오 소스와, 수 백개 만큼의 TV 또는 오디오 채널로부터 입력을 얻고, 그 다음에 얻어진 오디오(즉, GAD)를 음성, 음악, 침묵, 잡음 및 이러한 카테고리의 조합으로 자동으로 분할하고 카테고리화할 수 있다는 것이 인식될 것이다. 그 다음에, 메가 화자 ID 시스템 및 해당 방법은 분할된 음성 세그먼트로부터 자동으로 학습할 수 있다. 음성 세그먼트는 특징 추출 시스템에 공급되는데, 상기 특징 추출 시스템은 알려지지 않은 화자를 라벨링하고, 몇몇 지점에서, TV 방송국,프로그램 이름, 얼굴 특징, 복사부, 텍스트 라벨 등과 같은 정보의 추가 소스 또는 사용자 입력에 기초하여 사람의 신원에 대한 의미적으로 명확함을 수행한다.
메가 화자 ID 시스템 및 해당 방법은, 미국 대통령 조지 W. 부시가 2002년 동안 NBC에서 얼마나 많은 시간동안 연설했는지, 부시의 출현의 전체 분배가 어떻게 되는지?와 같은 통계치를 제공하는데 유리하게 사용될 수 있다. 이러한 질의에 대한 대답이 대통령의 연설 시간을 시간 라인(time line)으로서 사용자에게 제공될 수 있다는 것이 주지될 것이다. 대안적으로, 시스템이 사용자의 가정용 전화 디바이스에 내장되면, 사용자는, 내가 아버지와 마지막으로 통화한 때가 언제인가, 또는 2000년도에 내가 가장 많이 통화한 사람은 누구인가, 또는 지난 달에 피터와 몇 번 통화했는가?를 질문할 수 있다.
도 9b가 단일 전화(150')를 도시하지만, 메가 화자 ID 시스템을 포함하고 본 발명에 따라 동작하는 전화 시스템이 단일 전화 또는 가입자 라인에 한정될 필요가 없다는 것이 인식될 것이다. 전화 시스템, 예를 들어 업무상 동작된 구내 교환(PBX: Private Branch Exchange) 시스템은 메가 화자 ID 시스템 및 해당 방법을 유리하게 포함할 수 있다. 예를 들어, 메가 화자 ID 소프트웨어는 전문직 사무실, 예를 들어 의사 사무실 또는 회계사 사무실에 있는 전화 시스템에 링크될 수 있고, 전문 청구 시스템(professional's billing system)과 인터페이스되어, 클라이언트 또는 환자에 대한 호출이 자동으로 추적될 수 있다(적절한 때 청구됨). 더욱이, 이 시스템은, PBX 시스템의 부적절한 이용, 예를 들어 종업원이 많은 횟수로 개인적으로 전화하는 경우 등을 감시하도록 구성될 수 있다. 전술한 설명으로부터, 본 발명에 따라 각각 메가 화자 식별(ID) 시스템 및 해당 방법을 포함하거나 구현하는 전화 시스템은 실시간으로, 즉 전화 대화가 발생하는 동안 동작할 수 있다는 것이 인식될 것이다. 이러한 후자의 특징은, 유리하게 대화 참여자 중 한 명으로 하여금 시스템에 사용자 입력을 제공하도록 하거나, 예를 들어 사용자의 호출자 ID 시스템에 대한 다른 일행의 이름이 호출하는 실제 일행에 대응한다는 것을 확인하도록 하는 것이 인식될 것이다.
본 발명의 현재 바람직한 실시예가 본 명세서에 구체적으로 설명되었지만, 당업자에게 나타날 수 있는, 본 명세서에서 교시한 기본적인 본 발명의 개념의 많은 변경 및/또는 변형이 첨부된 청구항에 한정된 바와 같이 본 발명의 사상 및 범주 내에 여전히 포함된다는 것이 명백히 이해되어야 한다.
첨부 A
단기간평균 에너지 단기간 평균 에너지를 계산하는 툴은 도 2에 도시된 바와 같이 AvgEnergy로 지칭된다. 이 계산은,W는 처리 윈도우의 크기이고, s(t)는 이산 시간 오디오 신호이다.
스펙트럼중심 도 2에 도시된 바와 같이, 다음의 몇몇 스펙트럼 특징과 같은 스펙트럼 중심은, 시간축을 따라 프레임 단위로 수행되는 단기간 푸리에 변환에 기초하여 계산된다.를 i번째 프레임의 단기간 푸리에 변환을 나타낸다고 하면, M은 가장 높은 주파수 대역에 대한 지수이다. 프레임(i)의 스펙트럼 중심은 다음과 같이 계산된다:
대역폭 A2에 주어진 스펙트럼 중심의 정의에 따라, 프레임(i)의 FFT의 대역폭은 다음과 같이 주어진다:
스펙트럼롤오프주파수(SRF) 디. 리 및 엔. 디미트로바가 저술한, "오디오 분석 및 분류를 위한 툴"(1997년 8월, 필립스 기술 보고서)에 따라, SRF는 일반적으로 낮은 에너지의 무음의 음성 세그먼트에 대해 매우 높고, 상대적으로 더 높은 에너지를 갖는 음성 세그먼트에 대해 훨씬 더 낮다. 그러나, 음악 및 잡음은 유사한 특성을 갖지 않는데, 이 특성은 이 특징을 음성과 다른 유형의 오디오 신호 사이의 판별에 잠재적으로 이용할 수 있게 한다. SRF의 정의는 다음과 같이 주어진다.여기서, TH는 0과 1 사이의 임계치이다. 실험에서 TH에 대해 0.92를 선택한다.
대역에너지비율 대역 에너지 비율이 상이한 방식으로 정의될 수 있지만, 본질적으로, 다양한 정의 사이에 차이는 그리 크지 않다. 이러한 작업에서, 대역 에너지 비율(BER)은 다음과 같이 계산된다:여기서, 전술한 실험에 대해 h=M/4가 된다.
델타스펙트럼크기 이. 샤이러 및 엠. 슬라니가 저술한, "강력한 다중특징의 음성/음악 판별기의 구성 및 평가"(1997년 4월, 독일, 뮤니히, ICASSP 97 회보, pp.1331-1334)의 논문에 기재되어 있는 바와 가이, 델타 스펙트럼 크기는 음성/음악 판별기에 매우 적합한 특징이다. 이것은 다음이 주어진다.
0-교차 비율(ZCR) 이러한 특징은 스펙트럼 중심의 상관 관계이다. 이것은 처리 윈도우 내에서 시간-영역 0-교차의 수로서 한정된다.
피치 피치 윤곽(contour)의 지식은 화자 식별, 음성 분석 및 오디오 정보 검색과 같은 많은 애플리케이션에 이용된다. 많은 이용가능한 피치 검출 알고리즘 중에서, 고전적인 자동 상관-기반의 피치 추적기는, 에이.기아스, 등이 저술한, "Query by humming"(1995년, CA, 샌프란시스코, ACM 멀티미디어 '95의 회보, pp.231-236)의 논문에 보고된 바와 같이 강력함으로 인해 선택된다. 불필요한 시간-소비 자동 상관 계산 대부분을 피하고, 검출 정밀도를 최적화하기 위해, 일련의 변형 전략은 본 발명에 따라 이용된 피치 검출 접근법에 채택된다. 이것은 디.리가 저술한 논문(전술함)에 더 구체적으로 설명된다.
멜-주파수셉스트럴계수(MFCC) 본 발명에 따른 예시적인 실시예에서, MFCC는, 에이.엠. 놀에 의해 설명된 필터-뱅킹 FFT 스펙트럼의 DCT를 이용하여 추출된다. 그 논문은, "Cepstrum pitch determination"(1967년, 미국 음향 협회 저널, 제 41권, 2호)이다. 계산은 시간축을 따라 윈도우윙된 입력 데이터 상에서 프레임간에 수행된다. 이용가능한 윈도우의 유형은 정사각형, 및 해밍 윈도우를 포함한다.
선형 예측계수(LPC) LPC의 추출은 자동 상관 방법을 이용하여 구현되며, 이것은, 알.피.라마찬드란, 엠.에스.질로비치, 및 알.제이.맘몬이 저술한, "화자 식별에 대한 응용을 갖는 강력한 선형 예측 분석 방법의 비교 연구"(1995년 3월, 음성 및 오디오 처리에 대한 IEEE 회보, 제 3권, 2호, pp.117-115)의 논문에서 발견될 수 있다. 각 처리 단계에서, 12개의 계수는 예시적인 실시예에서 추출된다.
델타 MFCC,델터 LPC,및 자동 상관MFCC 이러한 특징은 MFCC 또는 LPC의 이동에 대한 양적인 측정을 제공한다. 이들은 음성 영역에서 몇몇 응용에 채택된다. 이러한 특징에 대한 정의는 다음과 같이 주어진다: 여기서 MFCCi(v) 및 LPCi(v)는 각각 프레임(i)의 v번째 MFCC 및 LPC를 나타낸다. L은 상관 윈도우 길이이다. 첨자 ℓ은 상관 래그의 값이다.
상술한 바와 같이, 본 발명은 일반적으로 화자 식별(ID) 시스템에 관한 것이다. 더 구체적으로, 본 발명은 오디오 신호로부터 추출된 멜-주파수 셉스트럴 계수(MFCC: mel-frequency cepstral coefficients)에 기초한 자동 오디오 신호 분할(segmentation)을 이용한 화자 ID 시스템 등에 이용된다.

Claims (26)

  1. 일반적인 오디오 데이터(GAD: General Audio Data)로부터 화자에 기원하는 오디오 신호를 식별하는 메가 화자 식별(ID) 시스템(100, 100')으로서,
    상기 GAD를 세그먼트로 분할하는 수단(130, 130')과,
    상기 세그먼트 각각을 N개의 오디오 신호 클래스 중 하나로서 분류하는 수단(130, 130')과,
    상기 세그먼트로부터 특징을 추출하는 수단과,
    필요한 때 상기 추출된 특징에 응답하여 상기 N개의 오디오 신호 클래스 중 하나로부터 다른 것으로 세그먼트를 재분류하는 수단(130, 130')과,
    상기 세그먼트 중 근접한 하나를 클러스터링하여, 클러스터링된 세그먼트를 생성하는, 클러스터링 수단(130, 130')과,
    각 클러스터링된 세그먼트를 화자 ID로 라벨링(labeling)하는 수단(130, 130')을
    포함하는, 메가 화자 식별(ID) 시스템.
  2. 제 1항에 있어서, 상기 라벨링 수단은 사용자 입력 및 추가 소스 데이터 중 어느 하나에 응답하여 복수의 상기 클러스터링된 세그먼트를 상기 화자 ID로 라벨링하는, 메가 화자 식별(ID) 시스템.
  3. 제 1항에 있어서, 상기 메가 화자 ID 시스템은 컴퓨터에 포함되는, 메가 화자 식별(ID) 시스템.
  4. 제 1항에 있어서, 상기 메가 화자 ID 시스템은 셋톱 박스에 포함되는, 메가 화자 식별(ID) 시스템.
  5. 제 1항에 있어서, 상기 메가 화자 ID 시스템은,
    상기 화자 ID에 관련된 데이터베이스를 상기 GAD의 부분에 저장하는 메모리 수단(140, 140')과,
    상기 데이터베이스를 갱신하기 위한 라벨링 수단의 출력을 수신하는 수단(130, 140/130', 140')을
    더 포함하는, 메가 화자 식별(ID) 시스템.
  6. 제 5항에 있어서, 상기 메가 화자 ID 시스템은,
    상기 데이터베이스에 질의하는 수단(132, 132')과,
    질의 결과를 제공하는 수단(150, 150')을
    더 포함하는, 메가 화자 식별(ID) 시스템.
  7. 제 1항에 있어서, 상기 N개의 오디오 신호 클래스는 침묵, 단일 화자 음성, 음악, 배경 잡음, 다수의 화자의 음성, 동시적인 음성과 음악, 및 음성과 잡음을포함하는, 메가 화자 식별(ID) 시스템.
  8. 제 1항에 있어서, 복수의 추출된 특징은 멜-주파수 셉스트럴 계수(MFCC: Mel-Frequency Cepstral Coefficients)에 근거한, 메가 화자 식별(ID) 시스템.
  9. 제 1항에 있어서, 상기 메가 화자 ID 시스템은 전화 시스템(150')에 포함되는, 메가 화자 식별(ID) 시스템.
  10. 제 9항에 있어서, 상기 메가 화자 ID 시스템은 실시간으로 동작하는, 메가 화자 식별(ID) 시스템.
  11. 일반적인 오디오 데이터(GAD)로부터 화자를 식별하는 메가 화자 식별(ID) 방법으로서,
    상기 GAD를 세그먼트로 분할하는 단계와,
    N개의 오디오 신호 클래스 중 하나에 대응하는 라벨을 상기 각 세그먼트에 할당하는 단계와,
    상기 세그먼트로부터 특징을 추출하는 단계와,
    필요한 때 상기 추출된 특징에 기초하여 상기 N개의 오디오 신호 클래스 중 하나로부터 다른 것으로 상기 세그먼트를 재할당하여, 분류된 세그먼트를 생성하는, 재할당 단계와,
    상기 분류된 세그먼트 중 인접한 세그먼트를 클러스터링하여, 클러스터링된 세그먼트를 생성하는, 클러스터링 단계와,
    각 클러스터링된 세그먼트를 화자 ID로 라벨링하는 단계를
    포함하는, 메가 화자 식별(ID) 방법.
  12. 제 11항에 있어서, 상기 라벨링 단계는 사용자 입력 및 추가 소스 데이터 중 하나에 응답하여 복수의 클러스터링된 세그먼트를 상기 화자 ID로 라벨링하는, 메가 화자 식별(ID) 방법.
  13. 제 1항에 있어서, 상기 방법은,
    상기 화자 ID에 관련된 데이터베이스를 상기 GAD의 부분에 저장하는 단계와,
    새로운 클러스터링된 세그먼트가 화자 ID로 라벨링될 때마다 상기 데이터베이스를 갱신하는 단계를
    더 포함하는, 메가 화자 식별(ID) 방법.
  14. 제 13항에 있어서, 상기 방법은,
    상기 데이터베이스에 질의하는 단계와,
    질의 결과를 사용자에게 제공하는 단계를
    더 포함하는, 메가 화자 식별(ID) 방법.
  15. 제 11항에 있어서, 상기 N개의 오디오 신호 클래스는 침묵, 단일 화자 음성, 음악, 배경 잡음, 다수의 화자의 음성, 동시적인 음성과 음악, 및 음성과 잡음을 포함하는, 메가 화자 식별(ID) 방법.
  16. 제 11항에 있어서, 복수의 추출된 특징은 멜-주파수 셉스트럴 계수(MFCC)에 근거한, 메가 화자 식별(ID) 방법.
  17. M개의 튜너(120a 내지 120n)와, 분석기(130)와, 저장 디바이스(140)와, 입력 디바이스(150)와, 출력 디바이스(150)를 포함하는 메가 화자 ID 시스템(100)을 위한 동작 방법으로서,
    R개의 오디오 소스로부터 R개의 오디오 신호를 얻기 위해 상기 M개의 튜너를 동작시키는 단계와,
    상기 분석기를 동작시키는 단계로서, 상기 N개의 오디오 신호를 세그먼트로 분할하고, N개의 오디오 신호 클래스 중 하나에 대응하는 라벨을 각 세그먼트에 할당하고, 상기 세그먼트로부터 특징을 추출하고, 필요한 때 상기 추출된 특징에 기초하여 상기 N개의 오디오 신호 클래스의 하나로부터 다른 것으로 상기 세그먼트를 재할당하여, 분류된 세그먼트를 생성하고, 상기 분류된 세그먼트 중 인접한 세그먼트를 클러스터링하여, 클러스터링된 세그먼트를 생성하고, 각 클러스터링된 세그먼트를 화자 ID로 라벨링하기 위한, 분석기를 동작시키는 단계와,
    상기 R개의 오디오 신호에 포함된 상기 클러스터링된 세그먼트 및 대응하는라벨 모두를 상기 저장 디바이스에 저장하는 단계와,
    상기 입력 디바이스를 통해 질의 입력에 응답하여 상기 출력 디바이스를 동작시킬 수 있는 질의 결과를 생성하는 단계를
    포함하며, 여기서 M, N, 및 R은 양의 정수인, 메가 화자 ID 시스템의 동작 방법.
  18. 제 17항에 있어서, 상기 N개의 오디오 신호 클래스는 침묵, 단일 화자 음성, 음악, 배경 잡음, 다수의 화자의 음성, 동시적인 음성과 음악, 음성과 잡음을 포함하는, 메가 화자 ID 시스템의 동작 방법.
  19. 제 17항에 있어서, 복수의 추출된 특징은 멜-주파수 셉스트럴 계수(MFCC)에 근거한, 메가 화자 ID 시스템의 동작 방법.
  20. 메모리(140, 140')로서,
    메가 화자 식별(ID) 시스템(100, 100')과 연관된 프로세서(130, 130')로 하여금,
    일반적인 오디오 데이터(GAD)를 수신하고 세그먼트를 생성하는 오디오 분할 및 분류 기능과,
    상기 세그먼트를 수신하고 그로부터 특징을 추출하는 특징 추출 기능과,
    상기 추출된 특징을 수신하고 필요한 때 상기 추출된 특징에 기초하여 세그먼트를 재분류하는 학습 및 클러스터링 기능과,
    화자 ID를 상기 GAD 내의 음성 신호에 할당하는 매칭 및 라벨링 기능과,
    상기 할당된 화자 ID를 상기 GAD 내의 각 음성 신호에 상호 관련시키는 데이터베이스 기능을
    포함하는 기능들을 실증하도록 하기 위한 컴퓨터 판독가능 명령을 저장하는, 메모리.
  21. 제 20항에 있어서, 상기 오디오 분할 및 분류 기능은 침묵, 단일 화자 음성, 음악, 배경 잡음, 다수의 화자의 음성, 동시적인 음성과 음악, 및 음성과 잡음을 포함하는 N개의 오디오 신호 클래스 중 하나에 각 세그먼트를 할당하는, 메모리.
  22. 제 20항에 있어서, 복수의 추출된 특징은 멜-주파수 셉스트럴 계수(MFCC)에 근거한, 메모리.
  23. M개의 오디오 신호를 수신하고, 입력 디바이스(150, 150') 및 출력 디바이스(150, 150')에 동작가능하게 결합되는 메가 화자 ID 시스템(100, 100')의 동작 방법으로서, 상기 메가 화자 ID 시스템은 분석기(130, 130') 및 저장 디바이스(140, 140')를 포함하는, 메가 화자 ID 시스템의 동작 방법에 있어서,
    상기 분석기를 동작하는 단계로서, M번째 오디오 신호를 세그먼트로 분할하고, N개의 오디오 신호 클래스 중 하나에 대응하는 라벨을 각 세그먼트에 할당하고, 상기 세그먼트로부터 특징을 추출하고, 필요한 때 상기 추출된 특징에 기초하여 상기 N개의 오디오 신호 클래스의 하나로부터 다른 것으로 상기 세그먼트를 재할당하여, 분류된 세그먼트를 생성하고, 상기 분류된 세그먼트 중 인접한 세그먼트를 클러스터링하여, 클러스터링된 세그먼트를 생성하고, 각 클러스터링된 세그먼트를 화자 ID로 라벨링하기 위한, 분석기 동작 단계와,
    상기 오디오 신호에 포함된 상기 클러스터링된 세그먼트 및 대응하는 라벨을 상기 저장 디바이스에 저장하는 단계와,
    분석된 상기 M개의 오디오 신호에 대해 상기 추출된 특징 및 화자 ID 중 적어도 하나로부터 도출된 통계 정보로 상기 M번째 오디오 신호에 관련된 데이터베이스를 생성하는 단계와,
    상기 입력 디바이스를 통해 상기 데이터베이스에 입력된 질의에 응답하여 상기 출력 디바이스를 동작시킬 수 있는 질의 결과를 생성하는 단계를
    포함하며, 여기서 M, N 및 R은 양의 정수인, 메가 화자 ID 시스템의 동작 방법.
  24. 제 23항에 있어서, 상기 N개의 오디오 신호 클래스는 침묵, 단일 화자 음성, 음악, 배경 잡음, 다수의 화자의 음성, 동시적인 음성과 음악, 및 음성과 잡음을 포함하는, 메가 화자 ID 시스템의 동작 방법.
  25. 제 23항에 있어서, 상기 생성 단계는, 상기 입력 디바이스를 통해 상기 데이터베이스에 입력된 질의에 응답하여 상기 출력 디바이스를 동작시킬 수 있는 데이터베이스에 저장된 선택된 데이터 상에서 수행된 계산에 대응하는 질의 결과를 생성하는 단계를 더 포함하는, 메가 화자 ID 시스템의 동작 방법.
  26. 제 23항에 있어서, 상기 생성 단계는, M개의 오디오 신호의 유형에 대한 통계치, 각 클래스의 지속기간, 각 클래스 내의 평균 지속기간, 각 화자 ID와 연관된 지속기간, 데이터베이스에 반영된 모든 화자 ID에 대해 선택된 화자 ID의 지속기간 중 하나에 대응하는 질의 결과를 생성하는 단계를 더 포함하며, 상기 질의 결과는 상기 입력 디바이스를 통해 상기 데이터베이스에 입력된 질의에 응답하여 상기 출력 디바이스를 동작시킬 수 있는, 메가 화자 ID 시스템의 동작 방법.
KR10-2004-7020601A 2002-06-19 2003-06-04 메가 화자 식별 (id) 시스템 및 이에 대응하는 방법 KR20050014866A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/175,391 2002-06-19
US10/175,391 US20030236663A1 (en) 2002-06-19 2002-06-19 Mega speaker identification (ID) system and corresponding methods therefor
PCT/IB2003/002429 WO2004001720A1 (en) 2002-06-19 2003-06-04 A mega speaker identification (id) system and corresponding methods therefor

Publications (1)

Publication Number Publication Date
KR20050014866A true KR20050014866A (ko) 2005-02-07

Family

ID=29733855

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7020601A KR20050014866A (ko) 2002-06-19 2003-06-04 메가 화자 식별 (id) 시스템 및 이에 대응하는 방법

Country Status (7)

Country Link
US (1) US20030236663A1 (ko)
EP (1) EP1518222A1 (ko)
JP (1) JP2005530214A (ko)
KR (1) KR20050014866A (ko)
CN (1) CN1662956A (ko)
AU (1) AU2003241098A1 (ko)
WO (1) WO2004001720A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200087889A (ko) * 2018-12-28 2020-07-22 강원대학교산학협력단 음성 인식 장치 및 방법

Families Citing this family (191)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore
US20050091066A1 (en) * 2003-10-28 2005-04-28 Manoj Singhal Classification of speech and music using zero crossing
EP1569200A1 (en) * 2004-02-26 2005-08-31 Sony International (Europe) GmbH Identification of the presence of speech in digital audio data
US20070299671A1 (en) * 2004-03-31 2007-12-27 Ruchika Kapur Method and apparatus for analysing sound- converting sound into information
US8326126B2 (en) * 2004-04-14 2012-12-04 Eric J. Godtland et al. Automatic selection, recording and meaningful labeling of clipped tracks from media without an advance schedule
EP1894187B1 (en) * 2005-06-20 2008-10-01 Telecom Italia S.p.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
US7937269B2 (en) * 2005-08-22 2011-05-03 International Business Machines Corporation Systems and methods for providing real-time classification of continuous data streams
GB2430073A (en) * 2005-09-08 2007-03-14 Univ East Anglia Analysis and transcription of music
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
EP1955139A4 (en) * 2005-11-10 2009-11-11 Melodis Corp SYSTEM AND METHOD FOR STORING AND RETRIEVING INFORMATION NOT BASED ON TEXT
US7813823B2 (en) * 2006-01-17 2010-10-12 Sigmatel, Inc. Computer audio system and method
JP4745094B2 (ja) * 2006-03-20 2011-08-10 富士通株式会社 クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP5151102B2 (ja) * 2006-09-14 2013-02-27 ヤマハ株式会社 音声認証装置、音声認証方法およびプログラム
US20080140421A1 (en) * 2006-12-07 2008-06-12 Motorola, Inc. Speaker Tracking-Based Automated Action Method and Apparatus
US7613579B2 (en) * 2006-12-15 2009-11-03 The United States Of America As Represented By The Secretary Of The Air Force Generalized harmonicity indicator
CN101636783B (zh) * 2007-03-16 2011-12-14 松下电器产业株式会社 声音分析装置、声音分析方法及系统集成电路
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP5083951B2 (ja) * 2007-07-13 2012-11-28 学校法人早稲田大学 音声処理装置およびプログラム
CN101452704B (zh) * 2007-11-29 2011-05-11 中国科学院声学研究所 一种基于信息传递的说话人聚类方法
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010027847A1 (en) 2008-08-26 2010-03-11 Dolby Laboratories Licensing Corporation Robust media fingerprints
US8805686B2 (en) * 2008-10-31 2014-08-12 Soundbound, Inc. Melodis crystal decoder method and device for searching an utterance by accessing a dictionary divided among multiple parallel processors
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
TWI396184B (zh) * 2009-09-17 2013-05-11 Tze Fen Li 一種語音辨認所有語言及用語音輸入單字的方法
ES2334429B2 (es) * 2009-09-24 2011-07-15 Universidad Politécnica de Madrid Sistema y procedimiento de deteccion e identificacion de sonidos en tiempo real producidos por fuentes sonoras especificas.
EP2490214A4 (en) * 2009-10-15 2012-10-24 Huawei Tech Co Ltd METHOD, DEVICE AND SYSTEM FOR SIGNAL PROCESSING
US8645134B1 (en) * 2009-11-18 2014-02-04 Google Inc. Generation of timed text using speech-to-text technology and applications thereof
US8560309B2 (en) * 2009-12-29 2013-10-15 Apple Inc. Remote conferencing center
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
JP5578453B2 (ja) * 2010-05-17 2014-08-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声分類装置、方法、プログラム及び集積回路
US9311395B2 (en) 2010-06-10 2016-04-12 Aol Inc. Systems and methods for manipulating electronic content based on speech recognition
CN102347060A (zh) * 2010-08-04 2012-02-08 鸿富锦精密工业(深圳)有限公司 电子记录装置及方法
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
WO2012068705A1 (en) * 2010-11-25 2012-05-31 Telefonaktiebolaget L M Ericsson (Publ) Analysis system and method for audio data
CN102479507B (zh) * 2010-11-29 2014-07-02 黎自奋 可辨认任何语言句子的方法
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9160837B2 (en) 2011-06-29 2015-10-13 Gracenote, Inc. Interactive streaming content apparatus, systems and methods
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8768707B2 (en) 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US8879761B2 (en) 2011-11-22 2014-11-04 Apple Inc. Orientation-based audio
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
US9263060B2 (en) 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9123340B2 (en) 2013-03-01 2015-09-01 Google Inc. Detecting the end of a user question
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US9123330B1 (en) * 2013-05-01 2015-09-01 Google Inc. Large-scale speaker identification
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
CN104282303B (zh) * 2013-07-09 2019-03-29 威盛电子股份有限公司 利用声纹识别进行语音辨识的方法及其电子装置
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
CN103559882B (zh) * 2013-10-14 2016-08-10 华南理工大学 一种基于说话人分割的会议主持人语音提取方法
CN103594086B (zh) * 2013-10-25 2016-08-17 海菲曼(天津)科技有限公司 语音处理系统、装置及方法
CN104851423B (zh) * 2014-02-19 2021-04-13 联想(北京)有限公司 一种声音信息处理方法及装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
JP6413653B2 (ja) * 2014-11-04 2018-10-31 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
CN106548793A (zh) * 2015-09-16 2017-03-29 中兴通讯股份有限公司 存储和播放音频文件的方法和装置
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105679324B (zh) * 2015-12-29 2019-03-22 福建星网视易信息系统有限公司 一种声纹识别相似度评分的方法和装置
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
CN106297805B (zh) * 2016-08-02 2019-07-05 电子科技大学 一种基于呼吸特征的说话人识别方法
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
CA3179080A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
JP6250852B1 (ja) * 2017-03-16 2017-12-20 ヤフー株式会社 判定プログラム、判定装置及び判定方法
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP6677796B2 (ja) * 2017-06-13 2020-04-08 ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド 話者照合の方法、装置、及びシステム
CN107452403B (zh) * 2017-09-12 2020-07-07 清华大学 一种说话人标记方法
JP7000757B2 (ja) * 2017-09-13 2022-01-19 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
JP6560321B2 (ja) * 2017-11-15 2019-08-14 ヤフー株式会社 判定プログラム、判定装置及び判定方法
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
CN108154588B (zh) * 2017-12-29 2020-11-27 深圳市艾特智能科技有限公司 解锁方法、系统、可读存储介质及智能设备
JP7287442B2 (ja) * 2018-06-27 2023-06-06 日本電気株式会社 情報処理装置、制御方法、及びプログラム
CN108877783B (zh) * 2018-07-05 2021-08-31 腾讯音乐娱乐科技(深圳)有限公司 确定音频数据的音频类型的方法和装置
KR102179220B1 (ko) * 2018-07-17 2020-11-16 김홍성 음성인식을 이용한 전자성경 시스템
CN110867191A (zh) * 2018-08-28 2020-03-06 洞见未来科技股份有限公司 语音处理方法、信息装置与计算机程序产品
CN110930981A (zh) * 2018-09-20 2020-03-27 深圳市声希科技有限公司 多对一语音转换系统
JP6683231B2 (ja) * 2018-10-04 2020-04-15 ソニー株式会社 情報処理装置および情報処理方法
CN111383659B (zh) * 2018-12-28 2021-03-23 广州市百果园网络科技有限公司 分布式语音监控方法、装置、系统、存储介质和设备
CN109960743A (zh) * 2019-01-16 2019-07-02 平安科技(深圳)有限公司 会议内容区分方法、装置、计算机设备及存储介质
US11355103B2 (en) 2019-01-28 2022-06-07 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
CN109697982A (zh) * 2019-02-01 2019-04-30 北京清帆科技有限公司 一种讲授场景中的说话人语音识别系统
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) * 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
CN110473552A (zh) * 2019-09-04 2019-11-19 平安科技(深圳)有限公司 语音识别认证方法及系统
JP7304627B2 (ja) * 2019-11-08 2023-07-07 株式会社ハロー 留守番電話判定装置、方法及びプログラム
CN110910891B (zh) * 2019-11-15 2022-02-22 复旦大学 基于长短时记忆深度神经网络的说话人分段标注方法
CN113129901A (zh) * 2020-01-10 2021-07-16 华为技术有限公司 一种语音处理方法、介质及系统
WO2021226507A1 (en) 2020-05-08 2021-11-11 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
CN111986655B (zh) 2020-08-18 2022-04-01 北京字节跳动网络技术有限公司 音频内容识别方法、装置、设备和计算机可读介质
US20230419961A1 (en) * 2022-06-27 2023-12-28 The University Of Chicago Analysis of conversational attributes with real time feedback

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3745403B2 (ja) * 1994-04-12 2006-02-15 ゼロックス コーポレイション オーディオデータセグメントのクラスタリング方法
US5606643A (en) * 1994-04-12 1997-02-25 Xerox Corporation Real-time audio recording system for automatic speaker indexing
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US6748356B1 (en) * 2000-06-07 2004-06-08 International Business Machines Corporation Methods and apparatus for identifying unknown speakers using a hierarchical tree structure

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200087889A (ko) * 2018-12-28 2020-07-22 강원대학교산학협력단 음성 인식 장치 및 방법

Also Published As

Publication number Publication date
US20030236663A1 (en) 2003-12-25
EP1518222A1 (en) 2005-03-30
WO2004001720A1 (en) 2003-12-31
CN1662956A (zh) 2005-08-31
AU2003241098A1 (en) 2004-01-06
JP2005530214A (ja) 2005-10-06

Similar Documents

Publication Publication Date Title
KR20050014866A (ko) 메가 화자 식별 (id) 시스템 및 이에 대응하는 방법
Li et al. Classification of general audio data for content-based retrieval
US8635065B2 (en) Apparatus and method for automatic extraction of important events in audio signals
US20210183395A1 (en) Method and system for automatically diarising a sound recording
Harb et al. Gender identification using a general audio classifier
Li et al. Content-based movie analysis and indexing based on audiovisual cues
Chaudhuri et al. Ava-speech: A densely labeled dataset of speech activity in movies
US5606643A (en) Real-time audio recording system for automatic speaker indexing
US7337115B2 (en) Systems and methods for providing acoustic classification
US20050131688A1 (en) Apparatus and method for classifying an audio signal
US6697564B1 (en) Method and system for video browsing and editing by employing audio
CN111279414B (zh) 用于声音场景分类的基于分段的特征提取
Ajmera et al. Robust HMM-based speech/music segmentation
JP2005532582A (ja) 音響信号に音響クラスを割り当てる方法及び装置
Seyerlehner et al. Automatic music detection in television productions
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
Liu et al. MSDWild: Multi-modal Speaker Diarization Dataset in the Wild.
JPH10187182A (ja) 映像分類方法および装置
Foote et al. Finding presentations in recorded meetings using audio and video features
Jeyalakshmi et al. HMM and K-NN based automatic musical instrument recognition
US20130297311A1 (en) Information processing apparatus, information processing method and information processing program
CN114155845A (zh) 服务确定方法、装置、电子设备及存储介质
US7454337B1 (en) Method of modeling single data class from multi-class data
Harb et al. A general audio classifier based on human perception motivated model
Ogura et al. X-vector based voice activity detection for multi-genre broadcast speech-to-text

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid