KR20080020624A - 오디오 신호 분석 및 변경을 위한 시스템 및 방법 - Google Patents

오디오 신호 분석 및 변경을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20080020624A
KR20080020624A KR1020077029312A KR20077029312A KR20080020624A KR 20080020624 A KR20080020624 A KR 20080020624A KR 1020077029312 A KR1020077029312 A KR 1020077029312A KR 20077029312 A KR20077029312 A KR 20077029312A KR 20080020624 A KR20080020624 A KR 20080020624A
Authority
KR
South Korea
Prior art keywords
model
segment
source model
source
feature
Prior art date
Application number
KR1020077029312A
Other languages
English (en)
Other versions
KR101244232B1 (ko
Inventor
데이비드 클레인
스테펜 말리노프스키
로이드 와츠
베르나르드 몬트-레이노드
Original Assignee
오디언스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오디언스 인코포레이티드 filed Critical 오디언스 인코포레이티드
Publication of KR20080020624A publication Critical patent/KR20080020624A/ko
Application granted granted Critical
Publication of KR101244232B1 publication Critical patent/KR101244232B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 입력 신호의 변경을 위한 시스템 및 방법을 개시한다. 바람직한 실시예에서는, 어댑티브 다중-모델 옵티마이저가 분석된 신호의 변경을 촉진시키기 위해서 적어도 하나의 소스 모델 파라미터를 생성하도록 구성되어 있다. 상기 어댑티브 다중-모델 옵티마이저는 세그먼트 그루핑 엔진 및 소스 그루핑 엔진을 포함하고 있다. 상기 세그먼트 그루핑 엔진은 적어도 하나의 세그먼트 모델를 생성하기 위해서 동시에 복수의 특징 세그먼트를 그루핑하도록 구성되어 있다. 상기 적어도 하나의 세그먼트 모델은 적어도 하나의 소스 모델 파라미터를 포함하고 있는 적어도 하나의 소스 모델을 생성하기 위해서 소스 그루핑 엔진에 의해 사용된다. 분석된 신호의 변경을 위한 제어 신호는 적어도 하나의 소스 모델 파라미터에 기초하여 생성될 수 있다.
Figure 112007090028112-PCT00001
오디오 입력 신호, 어댑티브 다중-모델 옵티마이저, 소스 모델 파라미터, 세그먼트 그루핑 엔진, 소스 그루핑 엔진, 분석된 신호, 제어 신호

Description

오디오 신호 분석 및 변경을 위한 시스템 및 방법{SYSTEMS AND METHODS FOR AUDIO SIGNAL ANALYSIS AND MODIFICATION}
본 발명의 실시예들은 오디오 프로세싱에 관한 것으로서, 보다 상세하게는 오디오 신호의 분석 및 변경에 관한 것이다.
대체로, 하나의 마이크로폰 또는 한 세트의 마이크로폰이 혼합된 음향을 검출한다. 적절한 재생, 전송, 편집, 분석, 또는 음성 인식을 위해서, 음향의 구성성분을 서로 분리시키는 것이 바람직하다. 오디오 소스에 기초하여 오디오 신호들을 분리시킴으로써, 예를 들면, 노이즈가 감소될 수 있고, 여러사람이 대화하는 상황(multiple-talker environment)에서 여러 음성을 분리시킬 수 있고, 음성 인식에 있어서 단어의 정확성이 향상될 수 있다.
불행하게도, 음향을 분리시키는 기존의 기술은 복수의 오디오 소스가 오디오 신호를 발생시키는 경우나 노이즈 또는 간섭이 있는 경우와 같은 복잡한 상황을 처리하는데는 부적절하다. 이러한 기존의 기술로는 단어 에러율(word error rate)이 높아지거나 현재의 기술로 얻을 수 있는 스피치 인핸스먼트(speech enhancement)의 정도를 제한할 수 있다.
따라서, 오디오 분석 및 변경을 위한 시스템 및 방법에 대한 필요성이 제기 되고 있다. 또한 복수의 오디오 소스에 의한 여러 오디오 신호를 처리하기 위한 시스템 및 방법에 대한 필요성이 제기되고 있다.
본 발명의 실시예들은 오디오 입력 신호의 변경을 위한 시스템 및 방법을 제공한다. 바람직한 실시예에서는, 어댑티브 다중-모델 옵티마이저(adaptive multiple-model optimizer)가 분석된 신호의 변경을 촉진시키기 위해서 적어도 하나의 소스 모델 파라미터를 생성하도록 구성되어 있다. 상기 어댑티브 다중-모델 옵티마이저는 세그먼트 그루핑 엔진(segment grouping engine) 및 소스 그루핑 엔진(source grouping engine)을 포함하고 있다.
상기 세그먼트 그루핑 엔진은 적어도 하나의 세그먼트 모델을 생성하기 위해서 동시에 복수의 특징 세그먼트를 그루핑하도록 구성되어 있다. 한 실시예에서는, 세그먼트 그루핑 엔진이 특징 추출기(feature extractor)로부터 특징 세그먼트를 수신한다. 이러한 특징 세그먼트는 음조(tone) 특징 세그먼트, 경과음(경과음) 특징 세그먼트, 노이즈 특징 세그먼트를 나타낼 수 있다. 상기 특징 세그먼트는 각 특징에 대해 적어도 하나의 세그먼트 모델을 생성시키기 위해서 각각의 특징에 기초하여 그루핑되어 있다.
상기 적어도 하나의 세그먼트 모델은 적어도 하나의 소스 모델을 생성하기 위해서 소스 그루핑 엔진에 의해 사용된다. 상기 적어도 하나의 소스 모델은 적어도 하나의 소스 모델 파라미터를 포함하고 있다. 분석된 신호의 변경을 위한 제어 신호는 적어도 하나의 소스 모델 파라미터에 기초하여 생성될 수 있다.
도 1은 본 발명의 실시예를 이용하는 오디오 프로세싱 엔진의 예시적인 블록도;
도 2는 세그먼트 분리기의 예시적인 블록도;
도 3은 어댑티브 다중-모듈 옵티마이저의 예시적인 블록도;
도 4는 오디오 분석 및 변경을 위한 예시적인 방법의 플로우차트;
도 5는 모델 조정을 위한 예시적인 방법의 플로우차트; 그리고
도 6은 최적합 상태를 결정하는 예시적인 방법의 플로우차트이다.
본 발명의 실시예는 오디오 신호 분석 및 변경을 위한 시스템 및 방법을 제공한다. 바람직한 실시예에서는, 오디오 신호가 분석되고 원하는 음향의 강화 및/또는 노이즈의 억제 또는 제거를 위해 별개의 오디오 소스로부터 분리된 음향이 함께 그루핑된다. 몇 가지 실시예에서는, 이러한 청각적인 분석이 단어 정확성을 향상시키기 위해서 음성 인식용 프런트 엔드(front end)로서 사용될 수 있거나, 개인적인 특성(subjective quality)을 강화하기 위해서 스피치 인핸스먼트용 프런트 엔드로서 사용될 수 있거나 또는 음악 복사(music transcription)용 프런트 엔드로서 사용될 수 있다.
도 1을 참고하면, 본 발명의 실시예가 실행될 수 있는 예시적인 시스템(100)이 도시되어 있다. 상기 시스템(100)은 휴대폰, 보청기, 스피커폰, 전화기, 컴퓨터 또는 오디오 신호를 처리할 수 있는 다른 임의의 장치로 될 수 있다. 상기 시 스템(100)은 상기와 같은 장치의 오디오 경로(path)를 나타낸다.
상기 시스템(100)은 오디오 입력(104)에 대해 오디오 입력 신호를 수신하고 처리하는 오디오 프로세싱 엔진(102)을 포함하고 있다. 오디오 입력 신호는 하나 이상의 오디오 입력 장치(도시되지 않음)로부터 수신될 수 있다. 한 실시예에서, 상기 오디오 입력 장치는 A/D변환기(analog-to-digital converter)에 결합된 하나 이상의 마이크로폰이 될 수 있다. 이 마이크로폰은 A/D 변환기가 아날로그 오디오 입력 신호를 추가적인 프로세싱에 적합한 디지털 오디오 입력 신호로 변환시키기 위해서 아날로그 오디오 입력 신호를 샘플링하는 동안 아날로그 오디오 입력 신호를 수신하도록 구성되어 있다. 대체 실시예에서는, 오디오 입력 장치가 디지털 오디오 입력 신호를 수신하도록 구성되어 있다. 예를 들면, 상기 오디오 입력 장치가 하드 디스크 또는 다른 형태의 매체에 저장된 오디오 입력 신호 데이타를 판독할 수 있는 디스크 장치로 될 수 있다. 다른 실시예는 다른 형태의 오디오 입력 신호 감지/저장 장치를 이용할 수 있다.
예시적인 오디오 프로세싱 엔진(102)은 분석 모듈(106), 특징 추출기(108), 어댑티브 다중-모델 옵티마이저(adaptive multiple-model optimizer:AMMO)(110), 어텐션 선택기(attention selector)(112), 조정기(114) 및 시간 영역 변환 모듈(116)을 포함하고 있다. 본 발명의 실시예에 따른 오디오 입력 신호의 분석 및 변경과 관계없는 추가적인 구성요소가 상기 오디오 프로세싱 엔진(102)에 설치될 수 있다. 부가적으로, 오디오 프로세싱 엔진(102)은 오디오 프로세싱 엔진(102)의 각 구성요소로부터 그 다음 구성요소로의 데이타의 논리적인 진행을 표시하고, 대 체 실시예는 하나 이상의 버스 또는 다른 구성요소를 통하여 결합된 오디오 프로세싱 엔진(102)의 다양한 구성요소를 포함할 수 있다. 한 실시예에서, 오디오 프로세싱 엔진(102)은 일반적인 프로세서에 의해 작동되는 장치에 저장된 소프트웨어를 포함한다.
분석 모듈(106)은 수신된 오디오 입력 신호를 주파수 영역에서의 복수의 부대역(sub-band) 신호(즉, 시간 주파수 데이타 또는 스펙트럴-템포럴(스펙트럴-temporal) 분석 데이타)로 분해한다. 바람직한 실시예에서는, 각각의 부대역 신호 또는 분석된 신호는 주파수 구성성분을 나타낸다. 몇 가지 실시예에서, 분석 모듈(106)은 필터 뱅크(filter bank) 또는 코클리어 모델(cochlear model)이다. 필터 뱅크는 임의의 수의 필터를 포함할 수 있고 상기 필터는 임의의 등급(order)(예를 들면, 1등급, 2등급, 등)으로 될 수 있다. 또한, 상기 필터는 캐스캐이드(cascade) 형태로 배치될 수 있다. 대체 실시형태로서, 상기 분석이 단기 푸리에 변환(short-term Fourier transform), 고속 푸리에 변환(fast Fourier transform), 웨이브렛 변환(Wavelets transform), 감마톤 필터 뱅크(Gammatone filter bank), 가보 필터(Gabor filter) 및 변조 콤플렉스 랩트 변환(modulated complex lapped transform)을 포함하는 다른 분석 방법을 이용하여 실행될 수 있다.
예시적인 특징 추출기(108)는 특징 세그먼트를 만들기 위해서 특징에 따라 분석된 신호를 추출하거나 분리한다. 이러한 특징은 음조 특성, 경과음 특성 및 노이즈(패치(patch)) 특성을 포함할 수 있다. 분석된 신호의 일부분의 음조는 특 정의 대체로 안정된 피치(pitch)를 나타낸다. 경과음은 분석된 신호의 비주기적이거나 비반복적인 부분이다. 노이즈 또는 플럭스(flux)는 음조의 일종도 아니고 경과음의 일종도 아닌 비간섭성(incoherent) 신호 에너지이다. 몇 가지 실시예에서는, 노이즈 또는 플럭스가 분석된 신호의 원하는 부분과 관련된 불필요한 부분인 왜곡특성(distortion)을 나타내기도 한다. 예를 들면, 음성에서 "s" 음향은 노이즈의 일종(즉, 음조나 경과음이 아닌)이지만, 원하는 소리(voice)의 일부분이다. 또 다른 예로서, 몇 가지 음조(예를 들면, 뚜렷하지 않은 잡음이 있는 휴대폰 호출음)는 노이즈의 일종은 아니지만, 이러한 플럭스를 제거하는 것이 바람직하다.
분리된 특징 세그먼트는 AMMO(110)로 향한다. 이러한 특징 세그먼트는 모델이 시간 주파수 데이타를 가장 잘 나타낼 수 있도록 하는 파라미터를 포함하고 있다. 특징 추출기(108)는 아래에서 도 2와 관련하여 보다 상세하게 설명한다.
AMMO(110)는 소스 모델(source model)의 예(instance)를 만들도록 구성되어 있다. 소스 모델은 오디오 입력 신호의 적어도 일부분을 생성하는 오디오 소스와 결합된 모델이다. 바람직한 실시예에서, AMMO(110)는 계층적인(hierarchical) 어댑티브 다중-모델 옵티마이저를 포함하고 있다. AMMO(110)는 도 3과 관련하여 보다 상세하게 설명한다.
일단 최적합성을 가지는 소스 모델이 AMMO(110)에 의해 결정되면, 이 소스 모델은 어텐션 선택기(attention selector)(112)에 제공된다. 이 어텐션 선택기(112)는 1차 오디오 스트림(stream)을 선택한다. 이러한 1차 오디오 스트림은 원하는 오디오 소스에 대응하는 시간-변화 영역의 일부분이다.
어텐션 선택기(112)는 1차 오디오 스트림을 강화하기 위해 분석된 신호를 변경하는 조정기(114)를 제어한다. 바람직한 실시예에서는, 어텐션 선택기(112)가 분석 모듈(106)로부터 출력된 분석된 신호를 변경하기 위해 제어 신호를 조정기(114)에 발송한다. 상기 변경은 분석된 신호의 말소(cancellation), 제거(suppression) 및 보충(filling-in)을 포함한다.
시간 영역 변환 모듈(116)은 오디오 출력 신호(118)로서 출력하기 위해 변경된 오디오 신호를 주파수 영역으로부터 시간 영역으로 변환하는 임의의 구성요소를 포함할 수 있다. 한 실시예에서, 시간 영역 변환 모듈(116)은 처리된 신호를 재생된 오디오 신호로 재생하는 재생 모듈을 포함하고 있다. 재생된 오디오 신호는 전송되고, 저장되고, 편집되고, 복사되거나, 청취될 수 있다. 다른 실시예에서는, 시간 영역 변환 모듈(116)이 자동적으로 음성을 인식하고 음성체계(phonetics)를 분석하여 단어를 결정할 수 있는 음성 인식 모듈을 포함할 수 있다. 임의의 갯수의 임의의 타입의 시간 영역 변환 모듈(116)이 오디오 프로세싱 엔진(102) 내에 포함될 수 있다.
도 2를 참고하면, 특징 추출기(108)가 보다 상세하게 도시되어 있다. 특징 추출기(108)는 분석된 신호에서의 에너지를 특정한 스펙트럴 형태(스펙트럴 형태)(예를 들면, 음조, 경과음 및 노이즈)의 서브유닛(subunit)으로 분리시킨다. 이러한 서브유닛을 특징 세그먼트라 한다.
바람직한 실시예에서는, 특징 추출기(108)가 시간 주파수 영역에 있는 분석된 신호를 선택하여, 분석된 신호의 상이한 부분을 스텍트럴 형태 모델 또는 트랙 커(tracker)에 적합하게 함으로써 분석된 신호의 상이한 부분을 상이한 세그먼트에 할당한다. 한 실시예에서는, 스펙트럴 피크(spectral peak) 트랙커(202)가 시간 주파수 데이타(즉, 분석된 신호)의 스펙트럴 피크(에너지 피크)를 배치시킨다. 대체 실시예에서는, 스펙트럴 트랙커(202)가 시간 주파수 데이타의 정점(crest) 및 정점 피크(crest peak)를 결정한다. 이 피크 데이타는 스펙트럴 형태 트랙커에 입력된다.
다른 실시예에서는, 2006년 5월 25일자로 미국특허청에 출원된 "오디오 신호를 프로세싱하기 위한 시스템 및 방법(System and Method for 프로세스ing an Audio Signal)"에 개시된 것과 같은 분석 필터 뱅크 모듈이 시간 주파수 데이타의 에너지 피크 또는 스펙트럴 피크를 결정하기 위해 사용될 수 있다. 이러한 예시적인 분석 필터 뱅크 모듈은 복소값 필터(complex-valued filter)의 필터 캐스캐이드를 포함한다. 다른 실시예에서는, 이러한 분석 필터 뱅크 모듈이 분석 모듈(106)에 통합되거나 분석 모듈(106)을 포함할 수 있다. 다른 대체 실시예에서는, 에너지 또는 스펙트럴 피크 데이타를 결정하기 위해 다른 모듈 및 시스템이 이용될 수 있다.
한 실시예에 따르면, 스펙트럴 형태 트랙커는 음조 트랙커(204), 경과음 트랙커(206) 및 노이즈 트랙커(208)를 포함하고 있다. 대체 실시예는 다양한 조합의 다른 스펙트럴 형태 트랙커를 포함할 수 있다. 스펙트럴 형태 트랙커의 출력은 모델이 시간 주파수 데이타를 가장 잘 나타낼 수 있도록 하는 특징 세그먼트이다.
음조 트랙커(204)는 음조를 맞추는 시간 주파수 또는 스펙트로-템포 럴(spectro-temporal) 영역에서의 진폭 및 주파수의 면에서 몇 가지 연속성을 가지고 있는 스펙트럴 피크를 추종한다. 음조는, 예를 들면, 일정한 진폭과 일정하거나 스무스하게 변화하는 주파수 신호에 의해 식별될 수 있다. 바람직한 실시예에서는, 음조 트랙커(204)가 진폭, 진폭 기울기(amplitude slope), 진폭 피크, 주파수, 주파수 기울기, 음조의 개시 시간 및 종료 시간, 그리고 음조 특징(salience)과 같은 복수의 출력 신호를 만든다.
경과음 트랙커(206)는 경과음의 진폭 및 주파수의 면에서 몇 가지 연속성을 가지는 스펙트럴 피크를 추종한다. 경과음 신호는, 예를 들면, 짧은 시간 간격 동안 여기된 모든 주파수와 일정한 진폭에 의해 식별될 수 있다. 바람직한 실시예에서는, 경과음 트랙커(206)가 진폭, 진폭 피크, 주파수, 경과음의 개시 시간 및 종료 시간, 그리고 전체 경과음 에너지를 포함하는 복수의 출력 신호를 만든다.
노이즈 트랙커(208)는 시간에 걸쳐서 나타나는 모델 광대역 신호를 추종한다. 노이즈는 긴 시간 간격에 걸쳐서 여기된 모든 주파수와 일정한 진폭에 의해 식별될 수 있다. 바람직한 실시예에서는, 노이즈 트랙커(208)가 스펙트로-템포럴 위치의 함수로서의 진폭, 템포럴 범위, 주파수 범위, 그리고 전체 노이즈 에너지와 같은 복수의 출력 신호를 만든다.
일단 음향 에너지가 다수의 특징 세그먼트(예를 들면, 음조, 경과음 및 노이즈)로 분리되면, AMMO(110)가 음향 에너지를 구성성분 스트림으로 그루핑하고 소스 모델을 생성한다. 도 3을 참고하면, 예시적인 AMMO(110)가 2-층의 계층 구조를 가지고 있는 것으로 보다 상세하게 도시되어 있다. AMMO(110)는 세그먼트 그루핑 엔 진(302) 및 순차적인 그루핑 엔진(304)을 포함하고 있다. 제 1 층은 세그먼트 그루핑 엔진(302)에 의해 실행되고, 제 2 층은 순차적인 그루핑 엔진(304)에 의해 실행된다.
세그먼트 그루핑 엔진(302)은 신규성 검출 모듈(310), 모델 생성 모듈(312), 캡처(capture) 결정 모듈(314), 모델 변경 모듈(316), 손실 검출 모듈(318) 및 모델 파기 모듈(320)을 포함하고 있다. 모델 변경 모듈(316), 모델 생성 모듈(312) 및 모델 파기 모듈(320)은 하나 이상의 세그먼트 모델(306)에 각각 결합되어 있다. 순차적인 그루핑 엔진(304)은 신규성 검출 모듈(322), 모델 생성 모듈(324), 캡처 결정 모듈(326), 모델 변경 모듈(328), 손실 검출 모듈(330) 및 모델 파기 모듈(332)을 포함하고 있다. 모델 변경 모듈(328), 모델 생성 모듈(324) 및 모델 파기 모듈(332)은 하나 이상의 세그먼트 모델(306)에 각각 결합되어 있다.
세그먼트 그루핑 엔진(302)은 복수의 특징을 동시에 일시적으로 로컬(local) 세그먼트로 그루핑한다. 그루핑 프로세스는 새로 생기는 특징 세트(incoming feature set)에 대한 증거를 가지고 있는 다양한 특징 세그먼트에 대한 추측(즉, 추정 모델)을 생성하고, 트래킹(tracking)하고 파기하는 것를 포함한다. 이러한 특징 세그먼트는 시간에 따라 변하고 현출되고 사라질 수 있다. 한 실시예에서는, 복수의 모델이 주어진 데이타 세트를 설명하기 위해 경합하는 상황에서 모델 트래킹은 칼만류(Kalman-like)의 비용 최소화 전략을 이용하여 수행된다.
바람직한 실시예에서는, 세그먼트 모델(306)의 예(instance)로 청각적인 세그먼트를 만들기 위해서 세그먼트 그루핑 엔진(302)이 복수의 특징 세그먼트의 동 시적인 그루핑을 실행한다. 이러한 청각적인 세그먼트는 유사한 특징 세그먼트의 그루핑을 포함한다. 한 예로서, 청각적인 세그먼트는 특정 음조에 의해 관련된 특징 세그먼트의 동시적인 그루핑을 포함한다. 다른 예로서, 청각적인 세그먼트는 경과음에 의해 관련된 특징 세그먼트의 동시적인 그루핑을 포함한다.
바람직한 실시예에 있어서, 세그먼트 그루핑 엔진(302)은 특징 세그먼트를 수신한다. 신규성 검출 모듈(310)이 특징 세그먼트가 미리 수신되지 않았거나 세그먼트 모델(306)에 적합하지 않은 것으로 판정하면, 신규성 검출 모듈(310)은 모델 생성 모듈(312)로 하여 새로운 세그먼트 모델(306)을 생성하도록 할 수 있다. 몇 가지 실시예에서는, 새로운 세그먼트 모델(306)이 모델을 (예를 들면, 캡처 결정 모듈(314) 내에서)미세 조정하거나 (예를 들면, 손실 검출 모듈(318) 내에서)파기하도록 변경될 필요가 있는지 여부를 결정하기 위해서 새로운 세그먼트 모델(306)이 특징 세그먼트 또는 새로운 특징 세그먼트와 비교될 수 있다.
캡처 결정 모듈(314)이 특징 세그먼트가 기존의 세그먼트 모델(316)에 불완전하게 적합한 것으로 판정하면, 캡처 결정 모듈(314)은 모델 변경 모듈(316)로 하여 기존의 세그먼트 모델(306)을 변경시킨다. 몇 가지 실시예에서, 변경된 세그먼트 모델(306)이 더 변경될 필요가 있는지 여부를 결정하기 위해서 변경된 세그먼트 모델(306)이 특징 세그먼트 또는 새로운 특징 세그먼트와 비교된다. 일단 변경된 세그먼트 모델(306)의 최적합 상태가 확인되면, 변경된 세그먼트 모델(306)의 파라미터는 순차적인 그루핑 엔진(304)으로 전송될 수 있다.
손실 검출 모듈(318)이 세그먼트 모델(306)이 특징 세그먼트에 불충분하게 적합한 것으로 판정하면, 손실 검출 모듈(318)은 모델 파기 모듈(320)로 하여 세그먼트 모델(306)을 파기하게 한다. 한 가지 실시예에서, 특징 세그먼트가 세그먼트 모델(306)에 비교된다. 잔차(residual)가 크면, 손실 검출 모듈(318)이 세그먼트 모델(306)을 파기할 것을 결정할 수 있다. 잔차는 세그먼트 모델(306)과 무관하게 관찰되는 신호 에너지이다. 다음에, 특징 세그먼트를 보다 적합하게 하기 위해서 신규성 검출 모듈(310)이 모델 생성 모듈(312)로 하여 새로운 세그먼트 모델(306)을 생성하게 할 수 있다.
그 다음에 세그먼트 모델(306)의 예가 순차적인 그루핑 엔진(304)에 제공된다. 몇 가지 실시예에서, 세그먼트 모델(306)의 예는 세그먼트 모델(306)의 파라미터 또는 청각적인 세그먼트를 포함한다. 청각적인 대상은 특징 세그먼트로부터 순차적으로 축적된다. 순차적인 그루핑 엔진(304)은 소스 모델(308)을 생성하기 위해서 추정 모델을 생성하고 트래킹하고 파기한다. 한 가지 실시예에서, 순차적인 그루핑 엔진(304)의 출력(즉, 소스 모델(308)의 예)이 세그먼트 그루핑 엔진(302)으로 피드백될 수 있다.
오디오 소스는 음향을 만들어내는 실체 또는 프로세스를 나타낸다. 예를 들면, 오디오 소스는 전화 회의(conference call)의 참여자나 오케스트라에서의 악기가 될 수 있다. 이러한 오디오 소스는 소스 모델(308)의 복수의 예로 표시된다. 본 발명의 실시예에서, 소스 모델(308)의 예는 세그먼트 그루핑 엔진(302)으로부터의 특징 세그먼트 (세그먼트 모델(306))를 순차적으로 축적함으로써 생성된다. 예를 들면, 다른 오디오 소스로부터 분리되는 소리(오디오 소스)를 생성하기 위해서 하나의 스피커로부터로의 연속적인 음소(phoneme)(특징 세그먼트)가 그루핑될 수 있다.
하나의 예로서, 순차적인 그루핑 엔진(304)은 세그먼트 모델(306)의 파라미터를 수신한다. 신규성 검출 모듈(322)이 세그먼트 모델(306)의 파라미터가 미리 수신되지 않았거나 소스 모델(308)에 적합하지 않은 것으로 판정하면, 신규성 검출 모듈(322)은 모델 생성 모듈(324)로 하여 새로운 소스 모델(308)을 생성하게 할 수 있다. 몇 가지 실시예에서, 새로운 소스 모델(308)이 모델을 (예를 들면, 캡처 결정 모듈(326) 내에서)미세 조정하거나 (예를 들면, 손실 검출 모듈(330) 내에서)파기하도록 변경될 필요가 있는지 여부를 결정하기 위해서 새로운 소스 모델(308)이 세그먼트 모델(306)의 파라미터 또는 세그먼트 모델(306)의 새로운 파라미터와 비교될 수 있다.
캡처 결정 모듈(326)이 세그먼트 모델(306)의 파라미터가 기존의 소스 모델(308)에 불완전하게 적합한 것으로 판정하면, 캡처 결정 모듈(326)은 모델 변경 모듈(328)로 하여 기존의 소스 모델(308)을 변경시킨다. 몇 가지 실시예에서, 변경된 소스 모델(308)이 더 변경될 필요가 있는지 여부를 결정하기 위해서 변경된 소스 모델(308)이 세그먼트 모델(306)의 파라미터 또는 세그먼트 모델(306)의 새로운 파라미터와 비교된다. 일단 변경된 소스 모델(308)의 최적합 상태가 확인되면, 변경된 소스 모델(308)의 파라미터는 어텐션 선택기(112)로 전송될 수 있다(도 1 참고).
한 실시예에서는, 소스 모델(308)이 세그먼트 모델(306)의 예측 파라미터를 발생시키기 위해서 사용된다. 세그먼트 모델(306)의 예측 파라미터와 세그먼트 모델(306)의 수신된 파라미터의 차이가 판정된다. 보다 작은 차이로 보다 정확한 예측 파라미터를 발생시킬 수 있는 개선된 소스 모델(308)을 형성하기 위해서 상기 차이에 기초하여 소스 모델(308)이 형성(변경)될 수 있다.
손실 검출 모듈(330)이 소스 모델(308)이 세그먼트 모델(306)의 파라미터에 불충분하게 적합한 것으로 판정하면, 손실 검출 모듈(330)은 모델 파기 모듈(332)로 하여 소스 모델(308)을 파기하게 한다. 한 가지 실시예에서, 세그먼트 모델(306)의 파라미터가 소스 모델(308)에 비교된다. 잔차(residual)가 크면, 손실 검출 모듈(330)이 소스 모델(308)을 파기할 것을 결정할 수 있다. 잔차는 소스 모델(308)과 무관하게 관찰되는 신호 에너지이다. 다음에, 세그먼트 모델(306)의 파라미터를 보다 적합하게 하기 위해서 신규성 검출 모듈(322)이 모델 생성 모듈(324)로 하여 새로운 소스 모델(308)을 생성하게 할 수 있다.
한 실시예에서는, 소스 모델(308)이 세그먼트 모델(306)의 예측 파라미터를 발생시키기 위해서 사용된다. 세그먼트 모델(306)의 예측 파라미터와 세그먼트 모델(306)의 수신된 파라미터의 차이가 판정된다. 몇 가지 실시예에서는, 상기 차이가 잔차이다. 상기 차이에 기초하여 소스 모델(308)이 파기될 수 있다.
바람직한 실시예에 있어서, 세그먼트 모델(306)에 대한 파라미터 적합성은 확률적 방법을 이용하여 이루어질 수 있다. 한 실시예에서, 상기 확률적 방법은 베이즈 방법(Baysesian method)이다. 한 실시예에서, AMMO(110)는 사후확률(posterior probability)을 산출하고 최대화함으로써 음조 관찰정보(결과)를 주 기적인 세그먼트 파라미터(원인)로 변환시킨다. 이것은 많은 대기시간을 거치지 않고 실시간으로 이루어질 수 있다. AMMO(110)는 한 세트의 세그먼트 모델의 결합사후확률(joint posterior probability)에 적용된 MAP(Maximum A Posteriori) 기준을 이용하여 평균과 분산(variance)으로 모델 파라미터를 추정하는 것에 의존할 수 있다.
관찰정보 Oi가 주어진 모델 Mi의 확률은 베이즈 정리(Bayes theorem)에 의해 다음과 같이 주어진다:
P(Mi│Oi) = P(Oi│Mi) * P(Mi)/ P(Oi)
상기 관계식에서, N개의 전체 모델에 대해서, i번에 걸쳐 합산이 이루어지고, i는 1부터 N까지이다.
목적은 모델의 확률을 최대화하는 것이다. 이러한 확률의 최대화는 비용을 최소화함으로써 이루어질 수 있는데, 비용은 -log(P)로 정의되고, P는 확률이다. 따라서, P(Mi│Oi)의 최대화는
c(Mi│Oi) = c(Oi│Mi) + c(Mi) - c(Oi)
로 표현되는 비용 c(Mi│Oi)을 최소화함으로써 달성될 수 있다.
사후 비용(posterior cost)은 관찰 비용(observation cost)과 사전 비용(prior cost)의 합이다. c(Oi)는 최소화 프로세스에 관여하지 않기 때문에, c(Oi)는 무시될 수 있다. c(Oi│Mi)는 관찰 비용(예를 들면, 모델과 관찰된 스펙트 럴 피크와의 차이)을 나타내며 c(Mi)는 모델과 관련된 사전 비용을 나타낸다. 관찰 비용, c(Oi│Mi)는 주어진 모델과 스펙트로-템포럴 영역에서의 피크의 관찰된 신호 사이의 차이를 이용하여 산출된다. 한 실시예에서는, 분류기(classifier)가 단일 모델의 파라미터를 평가한다. 상기 분류기는 한 세트의 모델 예(예를 들면, 한 세트의 관찰정보에 적합한 모델 예)의 파라미터를 맞추기 위해서 사용될 수 있다. 이를 위해서, 모델 중에서 관찰정보의 할당이 회계상의 제한(예를 들면, 비용의 최소화)를 통해서 형성될 수 있다.
예를 들면, 주어진 한 세트의 파라미터에 대한 모델이 스펙트로-템포럴 영역에서의 피크를 예측한다. 이 예측된 피크는 관찰된 피크와 비교될 수 있다. 관찰된 피크와 예측된 피크의 차이는 하나 이상의 변수로 측정될 수 있다. 상기 하나 이상의 변수에 기초하여 모델의 조정이 이루어질 수 있다. 음조 모델에 대한 비용 산출에 사용될 수 있는 변수는 진폭, 진폭 기울기, 진폭 피크, 주파수, 주파수 기울기, 음조의 개시 시간 및 종료 시간, 그리고 전체 음조 에너지로부터의 음조 특징을 포함한다. 경과음 모델에 대해서 비용 산출을 위해 사용될 수 있는 변수는 진폭, 진폭 피크, 경과음의 개시 시간 및 종료 시간, 그리고 전체 경과음 에너지를 포함한다. 노이즈 모델은 스펙트로-템포럴 위치의 함수로서 진폭, 템포럴 범위, 주파수 범위, 그리고 전체 노이즈 에너지와 같은 변수를 비용 산출을 위해 사용할 수 있다.
복수의 입력 장치(예를 들면, 복수의 마이크로폰)를 포함하는 실시예에서는, 마이크로폰간의 유사점과 차이점이 계산될 수 있다. 그 다음에 이러한 유사점과 차이점은 상기의 비용 산출에 사용될 수 있다. 한 실시예에서, 두 귀 사이의 시간차(inter-aural time differences: ITDs) 및 두 귀 사이의 레벨차(inter-aural level differences: ILDs)는 "멀티-센서의 시간 지연 계산(Computation of Multi-Sensor Time Delays)"이라는 미국 특허 제6,792,118호에 개시된 기술을 이용하여 계산될 수 있다. 대체 실시형태로서, 스펙트럴 영역에 있어서의 상호 상관 함수(cross-correlation function)가 이용될 수 있다.
도 4를 참고하면, 오디오 분석 및 변경에 대한 예시적인 방법의 플로우차트(400)가 도시되어 있다. 스텝 402에서, 오디오 입력(104)(도 1 참고)이 분석을 위해 주파수 영역으로 변환된다. 이러한 변환은 분석 모듈(106)(도 1 참고)에 의해 실행된다. 한 실시예에 있어서, 분석 모듈(106)은 필터 뱅크 또는 코클리어 모델(cochlear model)을 포함한다. 대체 실시형태로서, 상기 분석이 단기 푸리에 변환(short-term Fourier transform), 고속 푸리에 변환(fast Fourier transform), 웨이브렛 변환(Wavelets transform), 감마톤 필터 뱅크(Gammatone filter bank), 가보 필터(Gabor filter) 및 변조 콤플렉스 랩트 변환(modulated complex lapped transform)과 같은 다른 분석 방법을 이용하여 실행될 수 있다.
특징은 스텝 404에서 특징 추출기에 의해 추출된다. 상기 특징은 음조, 경과음 및 노이즈를 포함할 수 있다. 다른 특징이 이러한 특징을 대신하거나 이러한 특징에 부가하여 측정될 수 있다. 바람직한 실시예에서는, 상기 특징이 분석된 신호의 스펙트럴 피크를 분석함으로써 측정될 수 있다. 그 다음에 다양한 특징이 트 랙커(예를 들면, 음조 트랙커, 경과음 트랙커, 또는 노이즈 트랙커)에 의해 트랭킹되고 추출될 수 있다.
일단 특징이 추출되면, 이 특징은 스텝 406에서 구성성분 스트림으로 그루핑될 수 있다. 한 실시예에 따르면, 특징들은 시간 주파수 데이타를 가장 잘 나타내는 모델에 적합하게 하기 위해 어댑티브 다중-모델 옵티마이저(110)(도 1 참고)에 제공된다. AMMO(110)는 2-층의 계층구조로 될 수 있다. 예를 들면, 제 1 층은 동시에 복수의 특징을 일시적으로 로컬 세그먼트 모델로 그루핑할 수 있다. 제 2 층은 하나 이상의 소스 모델을 형성하기 위해 일시적으로 로컬 세그먼트 모델을 순차적으로 그루핑한다. 이러한 소스 모델은 그루핑된 음향 에너지의 구성성분 스트림을 포함한다.
스텝 408에서는, 원하는 오디오 소스에 대응하는 (1차)구성성분 스트림이 선택된다. 한 실시예에서는, 어텐션 선택기(112)가 제어 신호를 조정기(114)로 발신하여 분석 모듈(106)로부터 출력된 (시간-변환 범위에서의)분석된 신호를 선택하고 변경한다(스텝 410).
일단 변경이 되면, 이 신호(즉, 변경된 범위)는 스텝 412에서 시간 영역으로 변환된다. 한 실시예에서는, 이러한 변환이 변경된 신호를 오디오 신호로 재생시키는 재생 모듈에 의해서 실행된다. 대체 실시예에서는, 이러한 변환이 음성체계(phonetics)를 분석하고 단어를 결정하는 음성 인식 모듈에 의해서 실행된다. 시간 영역 변환의 다른 형태는 대체 실시예로 사용될 수 있다.
도 5를 참고하면, 모델 조정(스텝 606에서)을 위한 예시적인 방법의 플로우 차트(500)가 도시되어 있다. 스텝 502에서는, 관찰정보와 소스 모델이 입력 관찰정보에 대해 모델의 최적합 상태를 알아내기 위해 사용된다. 모델 조정은 관찰정보와 모델 예측 사이의 비용을 감소시키기 위해서 표준 경사법(standard gradient method)에 의해 이루어진다. 스텝 504에서는, 잔차가 파악된다. 이 잔차는 최적합 모델 예측에 의해 표시되지 않는 관찰된 신호 에너지이다. 스텝 506에서는, AMMO(110)(도 1 참고)가, 부가적인 모델이 액티브(active) 상태로 되어야 하는지 또는 현재의 모델이 제거되어야 하는지를 결정하기 위해 잔차와 관찰정보를 이용한다. 예를 들어, 음조 모델의 추가에 의해 설명될 수 있는 상당한 양의 잉여 에너지가 있다면, 음조 모델이 모델 리스트에 추가된다. 또한, 음조 모델의 추가에 관한 부가적인 정보는 관찰자료로부터 도출된다. 예를 들면, 고조파(harmonics)는 상이한 음조 모델에 의해 설명될 수 있지만, 상이한 기본 주파수를 가진 새로운 음조 모델에 의해 보다 잘 설명될 수도 있다. 스텝 508에서는, 원래의 입력 오디오 신호로부터의 세그먼트를 식별하기 위해 최적합 모델이 사용된다.
도 6을 참고하면, 최적합 상태를 알아내는 방법이 도시되어 있다. 스텝 602에서는, 종전 비용이 모델 및 종전 모델 정보를 이용하여 산출된다. 스텝 604에서는, 관찰 비용이 모델 및 관찰 정보를 이용하여 산출된다. 스텝 606에서는, 종전 비용 및 관찰 비용이 통합된다. 스텝 608에서는, 비용을 최소화하도록 모델 파라미터가 조정된다. 스텝 610에서는, 비용이 최소화되어 있는지 여부를 결정하기 위해 비용이 분석된다. 만약 비용이 최소화되어 있지 않으면, 스텝 602에서 새로운 비용 정보로 종전 비용이 다시 산출된다. 만약 비용이 최소화되어 있으면, 최적합 파라미터를 가진 모델이 스텝 612에서 만들어진다.
본 발명을 상기한 바람직한 실시예에 관하여 설명하였다. 당업자가 본 발명의 기술영역을 벗어나지 않고서 다양한 변경을 가할 수 있고 다른 실시예를 만들 수 있다는 것은 자명하다. 따라서, 본 발명의 바람직한 실시예에 기초한 다른 변형 실시예는 본 발명에 포함된다.

Claims (20)

  1. 오디오 입력 신호의 변경 방법으로서,
    적어도 하나의 관찰된 세그먼트 모델 파라미터를 적어도 하나의 예측된 세그먼트 모델 파라미터와 비교하는 단계;
    상기 비교에 기초하여 소스 모델을 형성하는 단계; 그리고
    형성된 소스 모델에 기초하여 적어도 하나의 소스 모델 파라미터를 발생시키는 단계를 포함하고 있고,
    상기 적어도 하나의 소스 모델 파라미터는 분석된 신호의 변경을 촉진시키는 것을 특징으로 하는 오디오 입력 신호의 변경 방법.
  2. 제 1 항에 있어서, 상기 소스 모델이 최적합 소스 모델을 포함하고 있는지 여부를 결정하는 단계를 더 포함하는 것을 특징으로 하는 오디오 입력 신호의 변경 방법.
  3. 제 2 항에 있어서, 상기 결정이 비용 분석에 기초하여 이루어지는 것을 특징으로 하는 오디오 입력 신호의 변경 방법.
  4. 제 1 항에 있어서, 소스 모델을 형성하는 단계가 소스 모델을 발생시키는 것을 포함하는 것을 특징으로 하는 오디오 입력 신호의 변경 방법.
  5. 제 1 항에 있어서, 소스 모델을 형성하는 단계가 소스 모델이 최적합 소스 모델이 아닌 경우 상기 소스 모델을 조정하는 것을 포함하는 것을 특징으로 하는 오디오 입력 신호의 변경 방법.
  6. 제 1 항에 있어서, 형성된 세그먼트 모델에 기초하여 적어도 하나의 관찰된 세그먼트 모델 파라미터를 발생시키는 단계를 더 포함하는 것을 특징으로 하는 오디오 입력 신호의 변경 방법.
  7. 제 6 항에 있어서, 관찰된 특징 세그먼트와 예측된 특징 세그먼트를 비교하는 단계를 더 포함하고 있고, 형성된 세그먼트 모델은 상기 비교에 기초하는 것을 특징으로 하는 오디오 입력 신호의 변경 방법.
  8. 제 7 항에 있어서, 스펙트로-형태 트랙커를 이용하여 상기 관찰된 특징 세그먼트를 발생시키는 단계를 더 포함하는 것을 특징으로 하는 오디오 입력 신호의 변경 방법.
  9. 제 1 항에 있어서, 오디오 입력 신호를 주파수 영역으로 변환시키는 것에 의해 분석된 신호를 발생시키는 단계를 더 포함하는 것을 특징으로 하는 오디오 입력 신호의 변경 방법.
  10. 제 1 항에 있어서, 적어도 하나의 소스 모델 파라미터에 기초하여 적어도 하나의 제어 신호를 발생시키는 단계를 더 포함하고 있고, 상기 적어도 하나의 제어 신호는 분석된 신호의 변경을 제어하는 것을 특징으로 하는 오디오 입력 신호의 변경 방법.
  11. 오디오 입력 신호의 변경 시스템으로서,
    분석된 신호의 변경을 촉진시키는 적어도 하나의 소스 모델 파라미터를 발생시키도록 형성된 어댑티브 다중-모델 옵티마이저를 포함하고 있고,
    상기 어댑티브 다중-모델 옵티마이저는
    적어도 하나의 세그먼트 모델을 발생시키기 위해서 동시에 특징 세그먼트를 그루핑하도록 형성된 세그먼트 그루핑 엔진; 그리고
    적어도 하나의 세그먼트 모델에 기초하여 적어도 하나의 소스 모델을 발생시키도록 형성된 소스 그루핑 엔진을 포함하고 있고,
    상기 적어도 하나의 소스 모델은 적어도 하나의 소스 모델 파라미터를 제공하는 것을 특징으로 하는 오디오 입력 신호의 변경 시스템.
  12. 제 11 항에 있어서, 세그먼트 그루핑 엔진에 의해 이용되는 특징 세그먼트를 추출하도록 형성된 특징 추출기를 더 포함하는 것을 특징으로 하는 오디오 입력 신호의 변경 시스템.
  13. 제 12 항에 있어서, 상기 특징 추출기는 분석된 신호의 스펙트럴 피크를 트래킹하는 스펙트럴 피크 트랙커를 포함하는 것을 특징으로 하는 오디오 입력 신호의 변경 시스템.
  14. 제 12 항에 있어서, 상기 특징 추출기는 음조와 관련된 특징 세그먼트를 결정하도록 형성된 음조 트랙커를 포함하는 것을 특징으로 하는 오디오 입력 신호의 변경 시스템.
  15. 제 12 항에 있어서, 상기 특징 추출기는 경과음과 관련된 특징 세그먼트를 결정하도록 형성된 경과음 트랙커를 포함하는 것을 특징으로 하는 오디오 입력 신호의 변경 시스템.
  16. 제 12 항에 있어서, 상기 특징 추출기는 노이즈와 관련된 특징 세그먼트를 결정하도록 형성된 노이즈 트랙커를 포함하는 것을 특징으로 하는 오디오 입력 신호의 변경 시스템.
  17. 제 11 항에 있어서, 오디오 입력 신호를 분석된 신호로 변환하도록 형성된 분석 모듈을 더 포함하고 있고, 상기 분석된 신호는 주파수 영역내에 있는 것을 특징으로 하는 오디오 입력 신호의 변경 시스템.
  18. 제 11 항에 있어서, 적어도 하나의 세그먼트 모델로부터 얻은 적어도 하나의 소스 모델 파라미터에 기초하여 분석된 신호의 변경을 위해 제어 신호를 발생시키도록 형성된 어텐션 선택기를 더 포함하는 것을 특징으로 하는 오디오 입력 신호의 변경 시스템.
  19. 제 11 항에 있어서, 적어도 하나의 세그먼트 모델로부터 얻은 적어도 하나의 소스 모델 파라미터에 기초하여 분석된 신호를 변경시키도록 형성된 조정기를 더 포함하는 것을 특징으로 하는 오디오 입력 신호의 변경 시스템.
  20. 오디오 입력 신호의 변경 방법을 수행하도록 기계에 의해 실행될 수 있는 프로그램을 내장하고 있는 기계로 판독가능한 매체로서,
    상기 오디오 입력 신호의 변경 방법은
    적어도 하나의 관찰된 세그먼트 모델 파라미터를 적어도 하나의 예측된 세그먼트 모델 파라미터와 비교하는 단계;
    상기 비교에 기초하여 소스 모델을 형성하는 단계; 그리고
    형성된 소스 모델에 기초하여 적어도 하나의 소스 모델 파라미터를 발생시키는 단계를 포함하고 있고,
    상기 적어도 하나의 소스 모델 파라미터는 분석된 신호의 변경을 촉진시키는 것을 특징으로 하는 오디오 입력 신호의 변경 방법을 수행하도록 기계에 의해 실행 될 수 있는 프로그램을 내장하고 있는 기계로 판독가능한 매체.
KR1020077029312A 2005-05-27 2006-05-30 오디오 신호 분석 및 변경을 위한 시스템 및 방법 KR101244232B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US68575005P 2005-05-27 2005-05-27
US60/685,750 2005-05-27
PCT/US2006/020737 WO2006128107A2 (en) 2005-05-27 2006-05-30 Systems and methods for audio signal analysis and modification

Publications (2)

Publication Number Publication Date
KR20080020624A true KR20080020624A (ko) 2008-03-05
KR101244232B1 KR101244232B1 (ko) 2013-03-18

Family

ID=37452961

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077029312A KR101244232B1 (ko) 2005-05-27 2006-05-30 오디오 신호 분석 및 변경을 위한 시스템 및 방법

Country Status (5)

Country Link
US (1) US8315857B2 (ko)
JP (2) JP2008546012A (ko)
KR (1) KR101244232B1 (ko)
FI (1) FI20071018L (ko)
WO (1) WO2006128107A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111873742A (zh) * 2020-06-16 2020-11-03 吉利汽车研究院(宁波)有限公司 一种车辆控制方法、装置及计算机存储介质

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2796493T3 (es) * 2008-03-20 2020-11-27 Fraunhofer Ges Forschung Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio
US20110228948A1 (en) * 2010-03-22 2011-09-22 Geoffrey Engel Systems and methods for processing audio data
US20130152767A1 (en) * 2010-04-22 2013-06-20 Jamrt Ltd Generating pitched musical events corresponding to musical content
JP5575977B2 (ja) 2010-04-22 2014-08-20 クゥアルコム・インコーポレイテッド ボイスアクティビティ検出
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
US9818416B1 (en) * 2011-04-19 2017-11-14 Deka Products Limited Partnership System and method for identifying and processing audio signals
JP2013205830A (ja) * 2012-03-29 2013-10-07 Sony Corp トーン成分検出方法、トーン成分検出装置およびプログラム
MY181026A (en) 2013-06-21 2020-12-16 Fraunhofer Ges Forschung Apparatus and method realizing improved concepts for tcx ltp
JP6487650B2 (ja) * 2014-08-18 2019-03-20 日本放送協会 音声認識装置及びプログラム
US11308928B2 (en) 2014-09-25 2022-04-19 Sunhouse Technologies, Inc. Systems and methods for capturing and interpreting audio
JP6814146B2 (ja) 2014-09-25 2021-01-13 サンハウス・テクノロジーズ・インコーポレーテッド オーディオをキャプチャーし、解釈するシステムと方法
EP3409380A1 (en) * 2017-05-31 2018-12-05 Nxp B.V. Acoustic processor
US11029914B2 (en) 2017-09-29 2021-06-08 Knowles Electronics, Llc Multi-core audio processor with phase coherency
CN111383646B (zh) * 2018-12-28 2020-12-08 广州市百果园信息技术有限公司 一种语音信号变换方法、装置、设备和存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2644915A1 (fr) * 1989-03-22 1990-09-28 Inst Nat Sante Rech Med Procede et dispositif d'analyse spectrale en temps reel de signaux instationnaires complexes
JP2001503154A (ja) * 1996-09-10 2001-03-06 シーメンス アクチエンゲゼルシヤフト 音声認識システムにおける隠れマルコフ音声モデルの適合方法
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6510408B1 (en) 1997-07-01 2003-01-21 Patran Aps Method of noise reduction in speech signals and an apparatus for performing the method
JP3413634B2 (ja) * 1999-10-27 2003-06-03 独立行政法人産業技術総合研究所 音高推定方法及び装置
US6954745B2 (en) * 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
JP2002073072A (ja) 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US20030050783A1 (en) * 2001-09-13 2003-03-13 Shinichi Yoshizawa Terminal device, server device and speech recognition method
JP2003177790A (ja) 2001-09-13 2003-06-27 Matsushita Electric Ind Co Ltd 端末装置、サーバ装置および音声認識方法
JP2003099085A (ja) 2001-09-25 2003-04-04 National Institute Of Advanced Industrial & Technology 音源の分離方法および音源の分離装置
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
JP4091047B2 (ja) * 2002-10-31 2008-05-28 深▲川▼市中▲興▼通▲訊▼股▲分▼有限公司 広帯域プリディストーション線形化の方法およびシステム
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
JP3987927B2 (ja) 2003-03-20 2007-10-10 独立行政法人産業技術総合研究所 波形認識方法及び装置、並びにプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111873742A (zh) * 2020-06-16 2020-11-03 吉利汽车研究院(宁波)有限公司 一种车辆控制方法、装置及计算机存储介质

Also Published As

Publication number Publication date
JP5383867B2 (ja) 2014-01-08
US8315857B2 (en) 2012-11-20
WO2006128107A3 (en) 2009-09-17
FI20071018L (fi) 2008-02-27
KR101244232B1 (ko) 2013-03-18
WO2006128107A2 (en) 2006-11-30
JP2012177949A (ja) 2012-09-13
US20070010999A1 (en) 2007-01-11
JP2008546012A (ja) 2008-12-18

Similar Documents

Publication Publication Date Title
KR101244232B1 (ko) 오디오 신호 분석 및 변경을 위한 시스템 및 방법
US10236006B1 (en) Digital watermarks adapted to compensate for time scaling, pitch shifting and mixing
US7974838B1 (en) System and method for pitch adjusting vocals
US8143620B1 (en) System and method for adaptive classification of audio sources
CN102792373B (zh) 噪音抑制装置
EP0788089B1 (en) Method and apparatus for suppressing background music or noise from the speech input of a speech recognizer
JP5649488B2 (ja) 音声判別装置、音声判別方法および音声判別プログラム
KR20180050652A (ko) 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용
JP2010224321A (ja) 信号処理装置
US20190172477A1 (en) Systems and methods for removing reverberation from audio signals
US11727949B2 (en) Methods and apparatus for reducing stuttering
JPH1185154A (ja) インタラクティブ音楽伴奏用の方法及び装置
CA2452022C (en) Apparatus and method for changing the playback rate of recorded speech
FR2853125A1 (fr) Procede d'analyse d'informations de frequence fondamentale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d'analyse.
Marxer et al. Low-latency instrument separation in polyphonic audio using timbre models
JP2009218663A (ja) 音響信号処理装置
Meyer et al. A multichannel Kalman-based Wiener filter approach for speaker interference reduction in meetings
JP3555490B2 (ja) 声質変換システム
Alghamdi et al. Real time blind audio source separation based on machine learning algorithms
Kim et al. Time–Frequency Correlation-Based Missing-Feature Reconstruction for Robust Speech Recognition in Band-Restricted Conditions
JP3916834B2 (ja) 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
WO2020179472A1 (ja) 信号処理装置および方法、並びにプログラム
Vavrek et al. Audio classification utilizing a rule-based approach and the support vector machine classifier
Gainza et al. Harmonic sound source separation using FIR comb filters
Li et al. Joint Noise Reduction and Listening Enhancement for Full-End Speech Enhancement

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160224

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170307

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee