KR20200038292A - 음성 스피치 및 피치 추정의 낮은 복잡성 검출 - Google Patents

음성 스피치 및 피치 추정의 낮은 복잡성 검출 Download PDF

Info

Publication number
KR20200038292A
KR20200038292A KR1020207007058A KR20207007058A KR20200038292A KR 20200038292 A KR20200038292 A KR 20200038292A KR 1020207007058 A KR1020207007058 A KR 1020207007058A KR 20207007058 A KR20207007058 A KR 20207007058A KR 20200038292 A KR20200038292 A KR 20200038292A
Authority
KR
South Korea
Prior art keywords
audio
speech
voiced
pitch
calculated
Prior art date
Application number
KR1020207007058A
Other languages
English (en)
Inventor
사이먼 그라프
토비아스 허빅
마르쿠스 벅
Original Assignee
세렌스 오퍼레이팅 컴퍼니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세렌스 오퍼레이팅 컴퍼니 filed Critical 세렌스 오퍼레이팅 컴퍼니
Publication of KR20200038292A publication Critical patent/KR20200038292A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

차량 내 통신(in-car communication, ICC) 시스템들과 같은, 낮은 지연이 요구되는 애플리케이션들(applications)에 의해 주어진 특별한 제약 조건들을 다룰 수 있는 피치 추정(pitch estimation) 및 유성 스피치(voiced speech)의 검출(detection)을 위한 낮은 복잡성 방법 및 장치(low-complexity method and apparatus)가 개시된다. 예시적 실시예는 오디오 신호에서 유성음의 단일 여기 임펄스(single excitation impulse)만을 캡쳐할 수 있는 매우 짧은 프레임들을 이용한다. 피치 주기(pitch period)에 상응하는, 다중 이러한 임펄스들 사이의 거리는 매우 짧은 프레임들의 낮은 분해능 스펙트럼들(low-resolution spectra) 사이의 위상차들(phase differences)을 평가함으로써 결정될 수 있다. 예시적 실시예는 위상차들에 기초하여 주파수 도메인에서 직접 피치 추정을 수행하고, 피치 추정을 수행하기 위해 시간 도메인으로의 변환을 방지(obviating)함으로써 계산 복잡성(computational complexity)을 감소시킬 수 있다. 위상차들이 실질적으로 선형인 것으로 결정되는 경우, 예시적 실시예는 스피치 향상(speech enhancement)을 오디오 신호에 적용함으로써 유성음의 음성 품질을 향상시킨다.

Description

음성 스피치 및 피치 추정의 낮은 복잡성 검출
본 개시는 차량 내 통신(in-car communication, ICC) 시스템들과 같은, 낮은 지연이 요구되는 애플리케이션들(applications)에 의해 주어진 특별한 제약 조건들을 다룰 수 있는 피치 추정(pitch estimation) 및 유성 스피치(voiced speech)의 검출(detection)을 위한 낮은 복잡성 방법 및 장치(low-complexity method and apparatus)에 관한 것이다.
스피치 향상의 목적은 예를 들어 잡음에 의해, 열화될(degraded) 수 있는 스피치 신호의 명료성(intelligibility) 및/또는 전체적인 인지 품질(overall perceptual quality)을 개선하는 것과 같이, 스피치 품질을 개선시키는 것이다. 다양한 오디오 신호 처리 방법들(audio signal processing methods)은 스피치 품질을 개선시키는 것을 목표로 한다. 이러한 오디오 신호 처리 방법들은 휴대폰들, 인터넷 전화 통화 규약(Voice over internet Protocol, VoIP), 원격회의 시스템들(teleconferencing systems), 음성 인식(speech recognition), 또는 임의의 다른 오디오 통신 애플리케이션(application)과 같은 많은 오디오 통신 애플리케이션들에 의해 이용될(employed) 수 있다.
예시적 실시예에 따르면, 오디오 통신 시스템에서 음성 품질 향상을 위한 방법은 오디오 통신 시스템에 의해 캡쳐된(captured) 유성음(voiced speech) 및 잡음(noise)을 포함하는 오디오 신호에서 유성음의 존재를 모니터링하는(monitoring) 단계를 포함할 수 있다. 잡음의 적어도 부분은 유성음과 관련된 주파수들에 있을 수 있다. 모니터링하는 단계는 현재 숏 윈도우(present short window)에서 오디오 신호의 현재 오디오 샘플들(present audio samples) 및 적어도 하나의 이전 숏 윈도우(previous short window)에서 오디오 신호의 이전 오디오 샘플들(previous audio samples)의 개별적인 주파수 도메인 표현들 사이에 위상차들(phase differences)을 산출하는 단계를 포함할 수 있다. 방법은 개별적인 주파수 도메인 표현들 사이에 산출된 위상차가 주파수에 걸쳐(over) 실질적으로 선형인지 결정하는 단계를 포함할 수 있다. 방법은 산출된 위상차들이 실질적으로 선형인 것을 결정함으로써 유성음의 존재를 검출하는 단계를 포함할 수 있고, 및 유성음이 검출되는 경우에, 스피치 향상(speech enhancement)을 오디오 신호에 적용함으로써 오디오 통신 시스템을 통해 통신되는 유성음의 음성 품질을 향상시킨다.
개별적인 주파수 도메인 표현들 사이에 산출된 위상차들은 전체에 걸쳐(throughout) 국소적 편차들(local variations)을 갖는 주파수에 대해 실질적으로 선형일 수 있음을 이해해야 한다. 예를 들어, 산출된 위상차들은 대략적으로, 선형 선 위와 아래에 편차들(deviations)을 갖는 선형 선을 따른다. 산출된 위상차들은 만약 위상차들이 도 6 및 도 7f에 관하여 아래에 더 개시된 바와 같이 선형 라인을, 평균적으로 따른다면, 실질적으로 선형으로 간주될 수 있다. 실질적으로 선형은 주파수에 대한 위상의 기울기의 낮은 변동(low variance)으로 정의될 수 있다. 낮은 변동은 +/- 1%, +/- 5%, +/-10%, 또는 주어진 환경 조건에 대해 허용 가능한 마진 내에서 일치하는 임의의 다른 적합한 값과 같은 변동에 해당할 수 있다. 낮은 변동을 위한 범위는 환경 조건에 따라, 동적으로(dynamically) 변경될 수 있다. 예시적 실시예에 따르면, 낮은 변동은 식 (13)과 관하여 아래에 개시된 임계값과 같은 임계값에 대응할 수 있고, 및 산출된 위상차들이 실질적으로 선형인지 결정하기 위해 이용될(employed) 수 있다.
현재 및 적어도 하나의 이전 숏 윈도우는 오디오 신호에서 유성음의 주기적인 음성 여기 임펄스 신호(voiced excitation impulse signal)의 전주기의 오디오 샘플들을 캡쳐하기에는 너무 짧은 윈도우 길이를 가질 수 있다.
오디오 통신 시스템은 차량 내 통신(in-car-communications, ICC) 시스템일 수 있고, 윈도우 길이는 ICC 시스템에서 오디오 통신 지연(audio communication latency)을 감소시키도록 설정될 수 있다.
존재가 검출되는 것 및 산출된 위상차들에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주파수를 추정하는 단계를 더 포함할 수 있다.
산출하는 단계는 개별적인 주파수 도메인 표현의 정규화된 상호 스펙트럼(normalized cross-spectrum)의 인접하는 주파수들 사이의 위상 관계들의 주파수에 대한(over) 가중합(weighted sum)을 산출하는 단계 및 산출된 가중합의 평균값(mean value)을 산출하는 단계를 포함할 수 있다. 결정하는 단계는 산출된 위상차들이 실질적으로 선형인지 결정하기 위해 산출된 평균값의 크기를 선형성을 나타내는 임계값(threshold value)과 비교하는 단계를 포함할 수 있다.
평균값은 복소수 일 수 있고, 산출된 위상차들이 실질적으로 선형으로 결정되는 경우, 방법은 복소수의 각도에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주기를 추정하는 단계를 더 포함할 수 있다.
방법은 현재 숏 윈도우 및 상이한 이전 숏 윈도우에 기초하여 각각 산출된 다른 평균값들과 산출된 평균값을 비교하는 단계 및 가장 높은 평균값의 각도에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주파수를 추정하는 단계를 포함할 수 있고, 가장 높은 평균값은 비교에 기초한 다른 평균들 및 평균값 중에서 선택된다.
가중합을 산출하는 단계는 유성음의 주파수 범위의 주파수들에서 가중 계수들(weighting coefficients)을 이용하고(employing), 및 적어도 하나의 이전 프레임(frame)이 다중 프레임들을 포함하는 경우 평활 상수(smoothing constant)를 적용하는 단계를 포함할 수 있다.
방법은 존재가 검출되는 것에 기초하여, 주파수 영역에서 직접, 유성음의 피치 주파수를 추정하는 단계를 더 포함할 수 있다. 산출하는 단계는 개별적인 주파수 도메인 표현들의 정규화된 상호 스펙트럼을 산출하는 단계를 포함할 수 있다. 추정하는 단계는 산출된 정규화된 상호 스펙트럼의 기울기를 산출하고, 산출된 기울기(slope)를 피치 주기로 변환하는 단계를 포함할 수 있다.
방법은 존재가 검출되는 것 및 산출된 위상차들에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주파수를 추정하고, 검출되지 않은 존재에 기초하여 오디오 신호에 감쇠 인자(attenuation factor)를 적용하는 단계를 더 포함할 수 있다. 스피치 향상은 추정된 피치 주파수에 기초하여 유성 스피치를 재구성하는 것(reconstructing), 잡음 추적(noise tracking)을 디스에이블(disabling)하는 것, 오디오 신호에 적응 이득(adaptive gain)을 적용하는 것, 또는 이들의 조합을 포함할 수 있다.
다른 예시적 실시예에 따르면, 오디오 통신 시스템에서 음성 품질 향상을 위한 장치는 오디오 통신 시스템에 의해 캡쳐된 유성음 및 잡음을 포함하는 오디오 신호의 전자적 표현을 생성하도록 구성된 오디오 인터페이스(audio interface)를 포함할 수 있다. 잡음의 적어도 부분은 유성음과 관련된 주파수들에 있을 수 있다. 장치는 오디오 인터페이스에 결합된 프로세서를 포함할 수 있다. 프로세서는 오디오 인핸서(audio enhancer) 및 스피치 검출기(speech detector)를 구현하도록 구성될 수 있다. 스피치 검출기는 오디오 인핸서에 결합될 수 있고, 오디오 신호에서 유성음의 존재를 모니터하도록 구성될 수 있다. 모니터 동작은 현재 숏 윈도우에서 오디오 신호의 현재 오디오 샘플들 및 적어도 하나의 이전 숏 윈도우에서 오디오 신호의 이전 오디오 샘플들의 개별적인 주파수 도메인 표현들 사이에 위상차들을 산출하는 동작을 포함할 수 있다. 스피치 검출기는 개별적인 주파수 도메인 표현들 사이에서 산출된 위상차들이 주파수에 걸쳐(over) 실질적으로 선형인지 결정하도록 구성될 수 있다. 스피치 검출기는 산출된 위상차들이 실질적으로 선형인 것을 결정함으로써 유성음의 존재를 검출하도록 및, 존재의 지시(indication)를 오디오 인핸서에 통신하도록 구성될 수 있다. 오디오 인핸서는 통신된 지시에 기초하는 스피치 향상을 오디오 신호에 적용함으로써 오디오 통신 시스템을 통해 통신된 유성음의 음성 품질을 향상시키도록 구성될 수 있다.
현재 및 적어도 하나의 이전 숏 윈도우는 오디오 신호에서 유성음의 주기적인 음성 여기 임펄스 신호(voiced excitation impulse signal)의 전주기의 오디오 샘플들을 캡쳐하기에는 너무 짧은 윈도우 길이를 가질 수 있고, 오디오 통신 시스템은 차량 내 통신(in-car-communications, ICC) 시스템일 수 있고, 및 윈도우 길이는 ICC 시스템에서 오디오 통신 지연을 감소시키도록 설정될 수 있다.
스피치 검출기(speech detector)는 존재가 검출되는 것 및 산출된 위상차들에 기초하여, 주파수 도메인에서 직접(directly), 유성음의 피치 주파수를 추정하도록 더 구성될 수 있다.
산출 동작은 개별적인 주파수 도메인 표현들의 정규화된 상호 스펙트럼의 인접하는 주파수들 사이의 위상 관계들의 주파수에 대한(over) 가중합을 산출하는 동작 및 산출된 가중합의 평균값을 산출하는 동작을 포함할 수 있다. 결정하는 동작은 산출된 위상차들이 실질적으로 선형인지 결정하기 위해 산출된 평균값의 크기를 선형성을 나타내는 임계값과 비교하는 동작을 포함할 수 있다.
평균값은 복소수일 수 있고 및, 산출된 위상차들이 실질적으로 선형으로 결정되는 경우, 스피치 검출기는 복소수의 각도에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주기를 추정하도록 더 구성될 수 있다.
스피치 검출기는 현재 숏 윈도우 및 상이한 이전 숏 윈도우에 기초하여 각각 산출된 다른 평균값들과 산출된 평균값을 비교하도록, 및 가장 높은 평균값의 각도에 기초하여 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하도록 더 구성될 수 있고, 가장 높은 평균값은 비교 동작에 기초한 다른 평균값들 및 평균값 중에서 선택된다.
가중합을 산출하기 위하여, 스피치 검출기는 유성음의 주파수 범위의 주파수들에서 가중 계수들을 이용하도록, 및 적어도 하나의 이전 프레임이 다중 프레임들을 포함하는 경우 평활 상수(smoothing constant)를 적용하도록 더 구성될 수 있다.
스피치 검출기는 존재가 검출되는 것에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주파수를 추정하도록 더 구성된다. 산출 동작은 개별적인 주파수 도메인 표현들의 정규화된 상호 스펙트럼을 산출하는 동작을 포함한다. 추정하는 동작은 산출된 정규화된 상호 스펙트럼의 기울기를 산출하고 산출된 기울기를 피치 주기로 변환하는(converting) 동작을 포함할 수 있다.
스피치 검출기는 존재가 검출되는 것 및 산출된 위상차들에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주파수를 추정하도록, 및 오디오 인핸서(audio enhancer)에 추정된 피치 주파수를 통신하도록 더 구성될 수 있다. 오디오 인핸서는 유성음의 부재(absence)를 지시하는(indicating) 통신된 지시에 기초하여 오디오 신호에 감쇠 인자를 적용하도록 더 구성될 수 있다. 스피치 향상은 추정되고 통신되는 피치 주파수에 기초하여 유성음을 재구성하는 것, 잡음 추적을 디스에이블하는 것, 오디오 신호에 적응 이득을 적용하는 것, 또는 이들의 조합을 포함할 수 있다.
또 다른 예시적 실시예는, 프로세서(processor)에 의해 로드되고(loaded) 실행되는(executed) 경우, 프로세서가 본 명세서에 개시된 방법들을 완료하게 유발하는, 명령들의 시퀀스(sequence of instructions)를 그것에 대해(thereon) 저장한 비 일시적인 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)를 포함할 수 있다.
본 명세서에(herein) 개시된 실시예들은 그것에 대해(thereon) 실시된(embodied) 프로그램 코드들과 함께 방법, 장치, 시스템 또는 컴퓨터 판독 가능 매체의 형태에서 구현될(implemented) 수 있음을 이해해야 한다.
특허 또는 출원 파일은 컬러로(in color) 실행된(executed) 적어도 하나의 도면을 함유한다. 컬러 도면(들)을 갖는 특허 또는 특허 출원 공보의 사본들은 필요한 수수료의 요청 및 지불시 사무실(office)에 의해 제공된다.
전술한 것은(foregoing) 유사한 참조 부호들(reference characters)이 상이한 뷰들(different views) 전체에 걸쳐 동일한 부분들을 참조하는 첨부 도면들에 설명된 바와 같이, 예시적 실시예의 따라오는 더 상세한 기술로부터 명백 할 것이다.
도 1a는 차량 내 통신(in-car-communication, ICC) 시스템의 예시적 실시예(example embodiment)가 이용될(employed) 수 있는 자동차의 예시적 실시예의 도면(diagram)이다.
도 1b는 오디오 통신 시스템에서 음성 품질 향상을 위한 방법의 예시적 실시예의 흐름도(flow diagram)이다.
도 2는 스피치 생성의(speech production)의 예시적 실시예의 블록도(block diagram)이다.
도 3은 유성음을 포함하는 오디오 신호의 예시적 실시예의 스펙트럼 도메인 표현(spectral-domain representation)이다.
도 4는 유성 음소(voiced phoneme)를 캡쳐하는(captures) 오디오 신호의 간격의 전자적 표현의 오디오 샘플들의 롱 윈도우 및 숏 윈도우의 예시적인 실시예의 시간 도메인 표현(time-domain representation)이다.
도 5는 다수의 숏 윈도우들의 예시적 실시예의 시간 도메인 표현이다.
도 6은 도 5의 두개의 숏 윈도우들을 위한 그것에(thereto) 관련된 플롯들의 예시적 실시예의 시간 도메인에서 스펙트럼 도메인으로의 변환 표현(transformation representation)이다.
도 7a는 다수의 여기 임펄스들(multiple excitation impulses)을 캡쳐하는 롱 윈도우의 예시적 실시예의 플롯(plot)이다.
도 7b는 크기 정보만을 사용하는 피치 주파수(pitch frequency)를 반영하는(reflects) 전력 스펙트럼 밀도(power spectral density)의 예시적 실시예의 플롯이다.
도 7c는 자기 상관 함수(autocorrelation function, ACF)의 최대값에 의하여 결정될 수 있는 피치 주기를 도시하는 플롯이다.
도 7d는 두개의 숏 윈도우들의 예시적 실시예의 플롯이다.
도 7e는 프레임들 사이에 일반화된 상호 상관관계(generalized cross-correlation, GCC)의 예시적인 실시예의 플롯이다.
도 7f는 도 7e의 GCC의 정규화된 상호 스펙트럼(normalized cross spectrum, GCSxx)의 위상의 예시적 실시예의 위상의 플롯이다.
도 8a는 검출 결과들(detection results)의 플롯이다.
도 8b는 피치 추정 결과들(pitch estimation results)의 플롯이다.
도 9는 신호 대 잡음비(signal-to-noise ratio, SNR)에 대한(over) 베이스라인 방법들(baseline methods) 및 예시적 실시예에 대한 성능 결과들(performance results)의 플롯이다.
도 10은 피치 주파수 추정치들(estimates)의 오차들(errors)의 분포를 도시하는 플롯이다.
도 11은 그로스 피치 오차(gross pitch error, GPE)의 플롯이다.
도 12는 오디오 통신 시스템에서 음성 품질 향상을 위한 장치의 예시적 실시예의 블록도이다.
도 13은 잡음을 억제함으로써(suppressing) 스피치 향상을 수행하도록 구성된 ICC 시스템의 예시적 실시예의 블록도이다.
도 14는 이득 제어(gain control)를 통해 스피치 향상을 수행하도록 구성된 ICC 시스템의 예시적 실시예의 블록도이다.
도 15는 손실 제어(loss control)를 수행하도록 구성된 ICC 시스템의 예시적 실시예의 블록도이다.
도 16은 스피치 및 피치 검출에 기초하여 스피치 향상을 수행하도록 구성된 ICC 시스템의 예시적 실시예의 블록도이다.
도 17은 선택적으로(optionally) 본 명세서에(herein) 개시된 실시예 내에서 컴퓨터의 예시적 내부 구조의 블록도이다.
예시적 실시예들의 설명이 이어진다.
유성음의 검출 및 그것의(thereof) 피치 주파수의 추정은 많은 스피치 처리 방법들(speech processing methods)을 위한 중요한 과제들이다. 유성음은 스피커(speaker)의 입과 입술들을 포함하는 성도(vocal tract) 및 성대들(vocal cords)에 의해 생성된다. 성도는 성대들에 의해 생성된 음성 여기를 스펙트럼으로 형성하는 공진기(resonator)로서의 역할을 한다. 그러한 것으로(as such), 유성음은 말하는(speaking) 동안 스피커의 성대들이 진동하는 경우 생성되는 반면, 무성음은 스피커의 성대들의 진동을 수반하지 않는다. 음성의 피치는 또한 성대 점막들(vocal folds)로 지칭되는, 성대들의 진동의 속도(rate)와 같이 이해될 수 있다. 변화하는 진동의 속도에 따라 음성의 사운드(sound of the voice)가 바뀐다(change). 초당 진동들의 수가 증가함에 따라, 피치도 증가하여, 음성이 더 높은 사운드를 가지도록 유발한다. 피치 주파수 또는 주기와 같은 피치 정보는 예를 들어, 잡음에 의해 손상되거나(corrupted) 또는 마스크된(masked) 유성음을 재구성하기 위해 사용될 수 있다.
자동차의 환경들에서, 운전 잡음(driving noise)은 주로(primarily) 유성음 부분들의 전형적인 낮은 주파수들에서 존재할 수 있는 바, 유성음 부분들에 특별히 영향을 미칠 수 있다. 그러므로, 피치 추정은, 예를 들어, 차량 내 통신(in-car-communication, ICC) 시스템들을 위하여 중요하다. 이러한 시스템들은 운전자 또는 뒷좌석 승객의 음성과 같은 스피커의 음성을 증폭시킬 수 있고, 운전자와 뒷좌석 승객 사이의 편리한 대화들을 허용한다. 이러한 ICC 애플리케이션에는 일반적으로(typically) 낮은 지연(low latency)이 요구된다; 따라서, ICC 애플리케이션은 연속 프레임들 사이에서 숏 프레임 길이들(short frame lengths) 및 숏 프레임 시프트들(short frame shifts)(본 명세서에서 "윈도우들(windows)"으로 상호교환적으로 또한 지칭됨)을 이용할 수 있다. 종래의 피치 추정 기술들은; 그러나, 인간 스피치(human speech)의 피치 주기를 초과하는(exceed) 롱 윈도우들에 의존한다. 특히, 남성 스피커들의 낮은 피치 주파수들은 종래의 피치 추정 기술들을 사용하는 낮은 지연 애플리케이션들(low-latency applications)에서 분해하기 어렵다.
본 명세서에(herein) 개시된 예시적 실시예는 매우 효율적으로 평가될 수 있는 다중 숏 윈도우들 사이의 관계를 고려한다. 단일 롱 윈도우에 의존하는 대신에 다중 숏 윈도우들 사이의 관계를 고려함으로써, 남성 스피커들에 대한 낮은 피치 주파수들 및 숏 윈도우들과 같은, 일반적인 문제들이, 예시적인 실시예에 따라 분해될 수 있다. 방법의 예시적 실시예는 넓은 범위(wide range)의 피치 주파수들에 걸쳐 피치 주파수를 추정할 수 있다. 게다가, 예시적 실시예가, 피치 추정을 위해 시간 도메인으로 다시 변환하기 위해 역 이산 푸리에 변환(Inverse Discrete Fourier Transform, IDFT)을 산출할 수 있는, 종래의 피치 추정 기술들의 계산 복잡성을 제거하는 주파수 도메인에서 직접 피치 주파수를 추정할 수 있기 때문에, 예시적 실시예의 계산 복잡성은 종래의 피치 추정 기술들에 관하여 낮을 수 있다. 그러한 것으로(as such), 예시적 실시예는 본 명세서에서(herein) 낮은 복잡한 방법(low-complex method) 또는 낮은 복잡성 방법(low-complexity method)인 것으로 지칭될 수 있다.
예시적 실시예는 ICC 시스템에서 다른 애플리케이션들을 위해 이미 산출된 입력 오디오 신호의 스펙트럼 표현(spectral representation)(예를 들어, 스펙트럼(spectrum))을 이용할 수 있다. 통신들을 위한 낮은 지연 요건들을 충족시키기 위하여 ICC 애플리케이션들에 매우 짧은 윈도우들(very short windows)이 사용될 수 있기 때문에, 스펙트럼의 주파수 분해능(resolution)이 낮을 수 있고, 단일 프레임에 기초하여 피치를 결정하는 것이 불가능 할 수 있다. 본 명세서에 개시된 예시적 실시예는 다수의 이러한 낮은 분해능 스펙트럼들 사이의 위상차들에 초점을 맞출 수 있다.
피크들의 주기적인 반복으로서 유성음의 고조파 여기(harmonic excitation)를 고려하면, 피크들 사이의 거리는 딜레이(delay)에 의해 표현될 수 있다. 스펙트럼 도메인에서, 딜레이는 선형 위상에 상응한다. 예시적 실시예는 고조파 요소들이 검출될 수 있는지를 결정하기 위해 선형성을 위하여, 두개의 스펙트럼들과 같은, 다중 스펙트럼들 사이의 위상차들을 테스트(test) 할 수 있다. 더욱이, 예시적 실시예는 선형 위상차의 기울기에 기초하여 피치 주기를 추정할 수 있다.
예시적 실시예에 따르면, 피치 정보는 단일 롱 윈도우 대신 다중 낮은 분해능 스펙트럼들(multiple low-resolution spectra) 사이의 위상차들에 기초하여 오디오 신호로부터 추출될 수 있다. 이러한 예시적 실시예는 숏 프레임 시프트에 의해 제공되는 고시간분해능(high temporal resolution)으로부터 이익을 얻고, 숏 윈도우 길이들에 의해 유발되는 낮은 스펙트럼 분해능을 다룰 수 있다. 이러한 예시적 실시예를 이용함으로써, 매우 낮은 피치 주파수들 조차도 매우 효율적으로 추정될 수 있다.
도 1a는 ICC 시스템(도시되지 않음)의 예시적 실시예가 이용될 수 있는 자동차(102)의 예시적 실시예의 도면(100)이다. ICC 시스템은 자동차(102) 내에서 통신 경로(communications path)(도시되지 않음)를 지원하고, 마이크로폰(microphone)(도시되지 않음)을 통해 제1 사용자(106a)의 스피치 신호들(104)을 수신하고, 제2 사용자(106b)를 위해 향상된 스피치 신호들(enhanced speech signals)(110)을 확성기(loudspeaker)(108) 상에서 재생한다. 마이크로폰에 의해 생성된 마이크로폰 신호(도시되지 않음)는 스피치 신호들(104) 뿐만 아니라 자동차(102)의 내부 캐빈(interior cabin)과 같은 음향 환경(acoustic environment)(103)에서 생성될 수 있는 잡음 신호들(도시되지 않음)을 모두 포함할 수 있다.
마이크로폰 신호는 음향 잡음이 억제될 수 있는 향상된 스피치 신호들(110)을 생성하기 위해서 스피치 신호들(104)로부터, 윈드실드 와이퍼(windshield wiper)(113a 또는 113b)에 의해 생성된 윈드실드 와이퍼 잡음(114)또는 자동차(102)의 음향 환경(103)에서 생성된 다른 음향 잡음과 같은, 음향 환경(103)에서 생성된 음향 잡음을 구별하는 것(differentiating)에 기초하여 ICC 시스템에 의해 향상될 수 있다. 통신 경로는 또한 제2 사용자(106b)로부터 제1 사용자(106a)로의 통신을 가능하게 하는 양방향 경로(bi-directional path)일 수 있음을 이해해야 한다. 그러한 것으로(as such), 스피치 신호들(104)은 또 다른 마이크로폰(도시되지 않음)을 통해 제2 사용자(106b)에 의해 발생될 수 있고, 향상된 스피치 신호들(110)은 제1 사용자(106a)를 위한 또 다른 확성기(도시되지 않음) 상에서 재생될 수 있다. 자동차(102)의 음향 환경(103)에서 생성된 음향 잡음은 지나가는 차량들(passing cars)로부터의 소음, 또는 임의의 다른 환경 소음과 같이, 캐빈의 외부에서 비롯되는(originates) 환경 소음을 포함할 수 있음을 이해해야 한다.
스피치 신호들(104)은 유성 신호들(105) 및 무성 신호들(107)을 포함할 수 있다. 스피커의 스피치는 제1 사용자(106a)의 입과 입술들(109)을 포함하는 성도 및 성대들(도시되지 않음)에 의해 생성된, 유성 음소들로 구성될 수 있다. 그러한 것으로, 유성 신호들(105)은 음소의 발음 중에 스피커의 성대가 진동하는 경우 생성될 수 있다. 대조적으로, 무성음 신호들(107)은 스피커의 성대들의 진동을 수반하지 않는다. 예를 들어, 음소들 /s/ 및 /z/ 또는 /f/ 및 /v/의 차이는 스피커의 성대의 진동이다. 유성 신호들(105)은 무성 신호들(107)보다 모음들 /a/, /e/, /i/, /u/, /o/와 같이 더 큰 경향이 있을 수 있다. 한편, 무성 신호들(107)은 파열음들(stop consonants) /p/, /t/, /k/ 와 같이, 더 갑작스러운(abrupt) 경향이 있을 수 있다.
자동차(102)는 임의의 적합한 유형의 운송 수단(transport vehicle)일 수 있고, 확성기(108)는 제2 사용자(106b)를 위해 가청 형태(audible form)로 향상된 스피치 신호들(110)을 통신하는데 사용되는 임의의 적합한 유형의 장치(device) 일 수 있음을 이해해야 한다. 더 나아가, 향상된 스피치 신호들(110)은 임의의 적합한 유형의 전자 장치를 통해 텍스트 형태(textual form)로 제2 사용자(106b)에게 생성되고 통신될 수 있고, 그러한 텍스트 형태는 가청 형태와 결합하여 또는 대신에 생성될 수 있음을 이해해야 한다.
본 명세서에 개시된 예시적 실시예는 향상된 스피치 신호들(110)을 생성하기 위해, 상기(above) 도 1a에 개시된 바와 같은, ICC 시스템에 이용될 수 있다. 본 명세서에 개시된 예시적 실시예는 스피치 신호들(104) 및 음향 환경(103)의 음향 잡음을 포함하는 마이크로폰 신호를 처리하고, 및 자동차(102)의 음향 환경(103)에 조정될(adjusted) 수 있는 향상된 스피치 신호들(110)을 발생하는 스피치 향상 기술들에 의해 이용될 수 있다.
스피치 향상 기술들은 많은 스피치 구동 애플리케이션들(speech-driven applications)에 이용된다. 소음으로 손상된 스피치 신호를 기반으로, 이러한 스피치 향상 기술들은 본래의 스피치(original speech)를 복구하려고 한다. 자동차(automotive) 애플리케이션들과 같은 많은 시나리오들에서, 잡음은 더 낮은 주파수들에 집중된다. 이 주파수 영역의 스피치 부분들은 특히 잡음의 영향을 받는다.
인간 스피치(human speech)는 유성뿐만 아니라 무성 음소들을 포함한다. 유성 음소들은 성대 점막들의 주기적인 진동들에 의해 유발되는 고조파 여기 구조를 전시한다. 시간 도메인에서, 이 유성 여기는 일련의 반복적인 임펄스 유사 신호 구성 요소들(impulse-like signal components)을 특징으로 한다. 스피커의 신원(identity) 또는 음율(prosody) 상에 정보와 같은, 가치 있는 정보(valuable information)가 피치 주파수에 함유된다. 그러므로, 도 1a에 관하여 위에서 개시된 ICC 애플리케이션과 같은, 많은 애플리케이션들에서 유성 스피치의 존재를 검출하고 피치 주파수를 추정하는 것이 바람직하다 (A. de Cheveign
Figure pct00001
and H. Kawahara, "YIN, a fundamental frequency estimator for speech and music," The Journal of the Acoustical Society of America, vol. I l l, no. 4, p. 1917, 2002; S. Gonzalez and M. Brookes, "A pitch estimation filter robust to high levels of noise (PEFAC)," in Proc. of EUSIPCO, Barcelona, Spain, 2011; B. S. Lee and D. P. Ellis, "Noise robust pitch tracking by subband autocorrelation classification," in Proc. of Interspeech, Portland, Oregon, USA, 2012; F. Kurth, A. Cornaggia-Urrigshardt, and S. Urrigshardt, "Robust F0 Estimation in Noisy Speech Signals Using Shift Autocorrelation," in Proc. of ICASSP, Florence, Italy, 2014.)
도 2는 스피치 생성의 예시적 실시예의 블록도(200)이다. 스피치 신호(210)는 위에서 개시된 바와 같이, 유성 또는 무성 음소들로 구성된 인간 스피치의 전형이다. 블록도(200)는 무성 여기(unvoiced excitation)(202), 유성 여기(voiced excitation)(204), 및 성대 필터(vocal tract filter)(206)의 플롯들(plots)을 포함한다. 위에서 개시된 바와 같이, 여기들은 유성 및 무성 음소에 대해 상이하다. 무성 여기(202)의 플롯은 고조파들을 보이지(exhibits) 않는 반면, 유성 여기(204)의 플롯은 t0 의 피치 주기(208) 및 피치 주파수(f0 = 1/t0)를 갖는 고주파 구성 요소들을 특징으로 한다.
도 3은 유성음(305)을 포함하는 오디오 신호의 예시적 실시예의 스펙트럼 도메인 표현(300)이다. 예시적 실시예에서, 무성 스피치(307)를 또한 포함하는 완전한 발음(complete utterance)이 캡쳐된다(captured). 스펙트럼 도메인 표현(300)은 높은 스펙트럼 분해능 표현(312) 및 낮은 스펙트럼 분해능 표현(314)을 포함한다. 높은 스펙트럼 분해능 표현(312)에서, 도 2에 관하여 위에서 개시된 피치 주파수 f0와 같은 뚜렷한(distinct) 피치 주파수가 관찰 가능하다. 그러나, 낮은 스펙트럼 분해능 표현(314)에서 피치 구조는 분해될(resolved) 수 없다. 낮은 스펙트럼 분해능 표현(314)은 도 1a에 관하여 위에서 개시된 ICC 시스템과 같은, 낮은 지연 통신을 요구하는 오디오 통신 시스템에서 이용되는 숏 윈도우에 대해 전형적일 수 있다.
도 4는 유성 음소를 캡쳐하는 오디오 신호의 간격의 전자 표현의 오디오 샘플들의 롱 윈도우(412) 및 숏 윈도우(414)의 예시적 실시예의 시간 도메인 표현(400)이다. 롱 윈도우(412)에서, 피치 주기(408)가 캡쳐된다. 그러나, 숏 윈도우(414)는 하나의 피치 주기를 캡쳐하기에는 너무 짧다. 이 경우, 숏 윈도우(414)가 피치를 분해하기에는 너무 짧기 때문에, 단일 프레임에 기초한 종래의 방법들로는 피치를 추정할 수 없다. 예시적 실시예는 시간의 컨텍스트(temporal context)를 연장하기 위해 다중 숏 프레임들(예를 들어, 윈도우들)을 이용한다.
일반적으로, 정확하게 피치 주파수를 분해하기 위해 롱 윈도우 길이들이 요구된다. 피치 정보를 추출하기 위해 다중 여기 임펄스들이 캡쳐되어야 한다. 이는 특히 실제적 애플리케이션들에 사용되는 전형적 윈도우 길이들을 초과할 수 있는 피치 주기들을 갖는 낮은 남성 음성들을 위하여 문제이다 (M. Krini and G. Schmidt, "Spectral refinement and its application to fundamental frequency estimation," in Proc. of WASP AA, New Paltz, New York, USA, 2007 ). 윈도우 길이를 늘리는 것은 또한 시스템 지연 뿐만 아니라 계산 복잡성(computational complexity)을 증가시키기 때문에 주로 허용되지 않는다.
그 밖에도(beyond that), 시스템 지연 및 계산 비용들(computational costs)과 관련된 제약 조건들은 일부 애플리케이션들에서 매우 도전적(challenging)이다. 도 1a에 관하여 위에서 개시된 바와 같이, ICC 시스템들의 경우, 편리한 청취 환경을 보장하기 위해 시스템 지연을 가능한 한 낮게 유지해야 한다. 캐빈 안에서 본래의 스피치 및 증폭된 신호 오버레이로 인하여, 양 신호들 사이에 10ms 보다 긴 딜레이들은 청취자들(listeners)에 의해 성가신 것(annoying)으로 인식된다. (G. Schmidt and T. Haulick, "Signal processing for in-car communication systems," Signal processing, vol. 86, no. 6, pp. 1307-1326,2006 ). 따라서, 피치 추정을 위한 표준 접근법들(standard approaches)의 적용을 방지하는(obviates) 매우 짧은 윈도우들이 이용될 수 있다.
본 명세서에 개시된 예시적 실시예는 매우 짧은 윈도우들을 다룰 수 있는 피치 추정 방법을 소개한다. 일반적인 접근법들과 대조적으로, 피치 주파수 또는 피치 주기와 같은 피치 정보는 단일 롱 프레임을 기초로 추출되지 않는다. 대신에, 예시적 실시예는 다중의 더 짧은 프레임들 사이에 위상 관계를 고려한다. 예시적 실시예는 심지어 매우 낮은 피치 주파수들의 분해능을 가능하게 한다. 예시적 실시예는 주파수 도메인에서 완전히 동작할 수 있기 때문에, 낮은 계산 복잡성이 달성될 수 있다.
도 1b는 오디오 통신 시스템에서 음성 품질 향상을 위한 방법의 예시적 실시예의 흐름도(120)이다. 이 방법은 오디오 통신 시스템(124)에 의해 캡쳐된 잡음 및 유성음을 포함하는 오디오 신호에서 유성음의 존재를 모니터하고 시작(122)할 수 있다. 잡음의 적어도 부분은 유성음과 관련된 주파수들에 있을 수 있다. 모니터링 하는 단계는 현재 숏 윈도우에서 오디오 신호의 현재 오디오 샘플들 및 적어도 하나의 이전 숏 윈도우에서 오디오 신호의 이전 오디오 샘플들의 개별적인 주파수 도메인 표현들 사이에 위상차들을 산출하는 단계를 포함할 수 있다. 방법은 개별적인 주파수 도메인 표현들 사이에 산출된 위상차들이 주파수에 걸쳐 실질적으로 선형인지 결정(126)할 수 있다. 방법은 산출된 위상차들이 실질적으로 선형인 것을 결정함으로써 유성음의 존재를 검출할 수 있고, 유성음이 검출되는 경우, 스피치 향상을 오디오 신호에 적용함으로써 오디오 통신 시스템을 통하여 통신된 음성 스피치의 음성 품질을 향상시키고(128), 방법 후(thereafter) 예시적 실시예에서 종료된다(130).
방법은 존재가 검출되는 것 및 산출된 위상차들에 기초하여, 주파수 영역에서 직접, 유성음의 피치 주파수를 추정하는 단계를 더 포함할 수 있다.
일반적인 피치 추정 기술들은 롱 프레임에서 주기적 구성 요소들을 찾는다. 전형적인 피치 추정 기술들은, 예를 들어, 롱 프레임에서 반복적인 구조들을 검출하기 위해, 자동 상관 함수(auto-correlation function, ACF)를 사용할 수 있다. 피치 주기는 ACF의 최대의 위치를 찾는 것에 의해 그런 다음 추정될 수 있다.
대조적으로, 본 명세서에 개시된 예시적 실시예는 시간에 겹치거나(overlapping) 겹치지 않을 수 있는 숏 프레임들(예를 들어, 윈도우들)의 쌍들을 비교함으로써 반복적인 구조들을 검출한다. 두개의 여기 임펄스들이 두개의 상이한 숏 프레임들에 의해 캡쳐되는 것으로 추정(assumption) 할 수 있다. 더 나아가, 양쪽의 임펄스들이 동일하게 형성되는 것으로 가정하면, 시간적 시프트를 제외하고 양쪽의 프레임들에서 신호 섹션들이 동일 할 수 있다. 이 시프트를 결정함으로써, 피치 주기는 매우 효율적으로 추정될 수 있다.
도 5는 오디오 신호(도시되지 않음)의 다중 숏 윈도우들의 예시적 실시예의 시간 도메인 표현(500)이다. 다중 숏 윈도우들은 숏 윈도우들(514a 내지 514z, 514aa, 514bb, 514cc)을 포함한다. 다중 숏 윈도우들 각각은 오디오 신호에서 유성음의 주기적 음성 여기 임펄스 신호의 전주기의 오디오 샘플들을 캡쳐하기에는 너무 짧은 윈도우 길이(516)를 갖는다. 윈도우 길이(516)는 도 1a에 관하여 위에서 개시된 ICC 시스템과 같이, 낮은 지연에 대한 요구 조건을 갖는 오디오 통신 애플리케이션들에 전형적일 수 있다. 윈도우 길이(516)는 ICC 시스템에서 오디오 통신 지연을 감소시키도록 설정될 수 있다.
다중 숏 윈도우들(514a-z, 514aa, 514bb, 514cc)의 연속적인 숏 윈도우들은 프레임 시프트(418)를 가진다. 예시적 실시예는 피치 주기(308)와 같은 피치 정보를 검색하기(retrieve) 위해 다중 숏 프레임들 사이의 관계를 이용할 수 있다. 예시적 실시예는 주기적인 여기의 두개의 임펄스들이, 숏 윈도우(514a), 즉 윈도우 0, 및 숏 윈도우(514g), 즉 윈도우 6과 같은 시간적 시프트를 갖는 두개의 상이한 숏 프레임들에 의해 캡쳐된 것으로 가정할 수 있다. 시간 도메인 표현(500)에 도시된 바와 같이, 숏 윈도우(514a) 및 숏 윈도우(514g)는 시간에서 시프트된다. 예시적 실시예는 아래에 개시된 바와 같이, 유성음의 존재를 모니터링하기 위하여 이러한 숏 윈도우들의 주파수 도메인 표현들을 이용할 수 있다. 숏 윈도우들의 이러한 주파수 도메인 표현들은 낮은 지연 오디오 통신에 대한 요구 조건을 갖는 오디오 통신 시스템에서 다중 애플리케이션들에 의해 이용될 수 있는 이러한 주파수 도메인 표현들이 이용 가능할 수 있다.
도 6은 도 5의 두개의 숏 윈도우들에 대한 그것에 관련된 플롯들의 예시적 실시예의 시간 도메인에서 스펙트럼 도메인으로의 변환 표현(600)이다. 시간 도메인에서 스펙트럼 도메인으로의 변환 표현(600)은 개별적으로, 도 5 또는 숏 윈도우들(514a, 514g)에 대한 시간 도메인 플롯들(612a, 612b)을 포함한다. 도 6에 도시된 바와 같이, 숏 윈도우들(514a, 514g)의 시간 도메인 표현은 시간 차이(608)에 의해 일시적으로 시프트된다. 숏 윈도우들(514a, 514g)의 시간 도메인 표현은 스펙트럼 도메인에서 크기 및 위상 구성 요소들을 생성하기 위해 고속 퓨리에 변환(Fast Fourier Transform, FFT)을 통해 주파수 도메인으로 변환될 수 있다. 스펙트럼 도메인 크기 플롯들(614a, 614b)은 스펙트럼 도메인에서 개별적으로, 숏 윈도우들(514a, 514g)의 크기에 상응한다. 스펙트럼 도메인 위상 플롯들(614a, 614b)은 스펙트럼 도메인에서 개별적으로 숏 윈도우들(514a, 514g)의 위상에 상응한다. 스펙트럼 도메인 위상차 플롯(650)에 도시된 바와 같이, 숏 윈도우들(514a, 514g)의 개별적인 주파수 도메인(예를 들어, 스펙트럼 도메인) 표현들 사이의 위상차들은 주파수에 걸쳐 실질적으로 선형이며, 시간 차이(608)는 기울기(652)로부터 산출될 수 있다. 그러한 것으로(as such), 주파수에 걸쳐 거의 선형일 수 있는 위상차들의 기울기(652)가 피치 추정을 위하여 이용될 수 있다. 산출된 위상차들은 대략적으로, 선형 라인 위와 아래의 편차들을 갖는 선형 라인(651)을 따르기 때문에 산출된 위상차들은 실질적으로 선형인 것으로 간주될 수 있다.
위에서 개시된 바와 같이, 오디오 통신 시스템에서 음성 품질 향상을 위한 방법은 오디오 통신 시스템에 의해 캡쳐된 잡음 및 유성음을 포함하는 오디오 신호에서 유성음의 존재를 모니터링하는 단계를 포함할 수 있다. 잡음의 적어도 부분은 유성음과 관련된 주파수들에 있을 수 있다. 모니터링하는 단계는 개별적인 주파수 도메인 표현들(616a, 616b)과 같은 현재 숏 윈도우의 오디오 신호의 현재 오디오 샘플들 및 적어도 하나의 이전 숏 윈도우에서 오디오 신호의 이전 오디오 샘플들의 주파수 도메인 표현들 사이에 위상차들을 산출하는 단계를 포함할 수 있다. 방법은 개별적인 주파수 도메인 표현들(616a, 616b) 사이에서 산출된 위상차들이 주파수에 걸쳐(over) 실질적으로 선형인지 결정하는 단계를 포함할 수 있다. 방법은 산출된 위상차들이 실질적으로 선형 라인(651)으로 지시된 바와 같이, 실질적으로 선형인지 결정함으로써 유성음의 존재를 검출하는 단계를 포함할 수 있고, 및, 유성음이 검출되는 경우, 스피치 향상을 오디오 신호에 적용함으로써 오디오 통신 시스템을 통해 통신된 유성 스피치의 음성 품질을 향상시키는 단계를 포함할 수 있다.
신호 모델(Signal Model)
두개의 가설들 (H0, H1)은 유성음의 존재 및 부재를 위해 세워질(formulated) 수 있다. 유성음의 존재를 위하여, 신호
Figure pct00002
은 무성음 및 잡음을 포함하는 유성음 구성 요소들
Figure pct00003
및 다른 구성 요소들 b의 중첩(superposition):
Figure pct00004
(1)
에 의해 표현될 수 있다. 그렇지 않으면(alternatively), 유성음이 부재인 경우에, 신호:
Figure pct00005
(2)
는 잡음 또는 무성음 구성 요소들에 전적으로 의존한다.
예시적 실시예는 유성 스피치 구성 요소들의 존재를 검출할 수 있다. 유성음이 검출되는 경우, 예시적 실시예는 피치 주파수
Figure pct00006
를 추정할 수 있다. 여기서
Figure pct00007
는 샘플링 속도를 나타내고,
Figure pct00008
는 샘플들의 피치 주기를 나타낸다.
유성음은 단일 여기 임펄스의 형태가 함수
Figure pct00009
에 의해 표현되는 주기적 여기:
Figure pct00010
(3)
에 의해 모형화 될(modeled) 수 있다. 여기서. 두개의 계속되는 피크들 사이의 거리
Figure pct00011
는 피치 주기에 상응한다. 인간 스피치의 경우, 피치 주기들은 매우 낮은 남성 음성들에 대해
Figure pct00012
까지의 값을 가정할 수 있다.
자동 및 상호 상관을 사용한 피치 추정
신호 처리는
Figure pct00013
이 윈도우의 길이를 나타내고,
Figure pct00014
은 프레임 시프트(frameshift)를 나타내는 신호:
Figure pct00015
(4)
의 프레임들 상에서 수행될 수 있다.
Figure pct00016
인 롱 윈도우들 및 최대의 ACF:
Figure pct00017
(5)
의 경우, 아래에 더 개시된, 도 7a 내지 도 7c에 개시된 바와 같이 피치를 추정하기 위해 사용될 수 있는 인간 피치 주기들의 범위에 있을 수 있다. 추정된 고분해능 전력 스펙트럼(high-resolution power spectrum)
Figure pct00018
을 ACF로 변환하기 위해 IDFT가 적용될 수 있다.
도 7a는 다중 여기 임펄스들을 캡쳐하는 롱 윈도우의 예시적 실시예의 플롯(700)이다.
도 7b는 크기 정보만을 사용하여 피치 주파수
Figure pct00019
를 반영하는 전력 스펙트럼 밀도의 예시적 실시예의 플롯(710)이다.
도 7c는 자기 상관 함수(ACF)의 최대에 의하여 결정될 수 있는 피치 주기
Figure pct00020
를 도시하는 플롯(720) 이다.
롱 윈도우를 이용하는 위(above) ACF 기반 피치 추정과 반대로, 본 명세서에 개시된 예시적 실시예는 전체 피치 주기를 캡쳐하기에는 너무 짧은
Figure pct00021
인 매우 짧은 윈도우들에 초점을 맞출 수 있다.
Figure pct00022
의 스펙트럼 분해능은 숏 윈도우 길이로 인하여 낮다. 그러나,
Figure pct00023
인 숏 프레임 시프트들의 경우, 양호한 시간 분해능(good temporal resolution)이 달성될 수 있다. 이 경우, 예시적 실시예는 도 7d에 도시된 바와 같이 피치 주기를 결정하기 위해 두개의 숏 프레임들
Figure pct00024
Figure pct00025
을 이용할 수 있다.
도 7d는 두개의 숏 윈도우들의 예시적 실시예의 플롯(730)이다. 플롯(730)에 도시된 바와 같이, 더 짧은 윈도우들의 경우, 피치 주기를 캡쳐하기 위해 두개의 프레임들이 필요하다.
두 프레임들이 상이한 여기 임펄스들을 포함하는 경우, 프레임들 사이에 상호 상관:
Figure pct00026
(6)
은 피치 주기
Figure pct00027
에 상응하는 최대
Figure pct00028
를 갖는다. 상관의 피크를 강조하기 위해, 예시적 실시예는 대신 일반화된 상호 상관(generalized cross-correlation, GCC):
Figure pct00029
(7)
를 이용할 수 있다. 정규화된 상호 스펙트럼 GCSxx에서 크기 정보를 제거함으로써, GCC는 전적으로 위상에 의존한다. 결과적으로, 두 임펄스들 사이의 거리는 도 7e에 개시된 바와 같이 명확하게 식별될(identified) 수 있다.
도 7e는 프레임들 사이의 GCC의 예시적 실시예의 플롯(740)이다. 플롯(740)은 프레임들 사이의 GCC가 도 7c에서 ACF와 비교하여 더 명확하게 피크를 도시하는 것을 도시한다.
도 7f는 도 7e의 GCC의 정규화된 크로스 스펙트럼(GCSxx)의 위상의 예시적 실시예의 플롯(750)이다. 플롯(750)은 두개의 낮은 분해능 스펙트럼 사이의 위상차들이 피치 추정에 대한 모든 관련 정보를 포함하는 것을 도시한다. 방법의 예시적 실시예는 주파수 도메인에서 직접 피치 주기를 추정할 수 있다. 추정은 아래에 개시된 바와 같이, GCSxx의 위상차들의 기울기(752)에 기초할 수 있다. 플롯(750)은 도시된 바와 같이, 위상차들이 대략적으로, 선형 선 위와 아래에 편차들을 갖는 선형 선(751)을 따르기 때문에, 위상차들은 실질적으로 선형인 것으로 간주될 수 있다.
위상차들에 기초한 피치 추정
두개의 숏 프레임들이 같은 형태의 시간적으로 시프트된 임펄스들을 캡쳐하는 경우, 시프트는 딜레이로 표현될 수 있다. 주파수 도메인에서, 이는 상호 스펙트럼의 선형 위상을 특징으로 할 수 있다. 이 경우, 인접하는 주파수 빈들(bins):
Figure pct00030
(8)
Figure pct00031
(9)
사이의 위상 관계는 위상차를 갖는 모든 주파수들에 대하여 일정하다.
Figure pct00032
.
주기적인 구조를 드러내지 않는 신호들의 경우,
Figure pct00033
Figure pct00034
에 대해 다소 임의의 성질(rather random nature)을 갖는다. 그러므로, 선형 위상에 대한 테스트는, 유성 구성 요소들을 검출하기 위해 이용될 수 있다.
예시적 실시예는 스피치를 검출하고 피치 주파수를 추정하기 위하여 주파수를 따라 가중합:
Figure pct00035
(10)
을 이용할 수 있다. 고조파 신호들의 경우, 가중 합의 크기는 선형 위상으로 인해 1에 가까운 값을 산출한다. 그 외에는(otherwise), 더 작은 값들이 발생한다(result). 예시적 실시예에서, 가중 계수들
Figure pct00036
는 스피치와 관련된 주파수들을 강조하기(emphasize) 위해 사용될 수 있다. 가중 계수들은 예를 들어, 추정된 신호 대 잡음 전력비(signal-to-noise power ratio, SNR)를 사용하여, 고정된 값들로 설정되거나 동적으로 선택될 수 있다. 예시적 실시예는 유성음의 주파수 범위에서 스펙트럼의 지배적 구성요소들(dominant components)을 강조하기 위하여 그것들을(them):
Figure pct00037
(11)
로 설정할 수 있다.
(10)에서 가중합은 가장 최신 프레임(most current frame)
Figure pct00038
및 하나의 이전 프레임
Figure pct00039
사이의 위상차에만 의존한다. 추정을 위한 둘 이상의 여기 임펄스들을 포함하기 위해, 예시적 실시예는 시간 평활화(temporal smothing)를 적용할 수 있다:
Figure pct00040
(12)
이용되는 시간적 컨텍스트(temporal context)는 평활화 상수 α를 변경함으로써 예시적 실시예에 따라 조정될 수 있다. 평활화의 경우, 예시적 실시예는 아마도 이전 임펄스를 포함하는 프레임들만을 고려할 수 있다. 예시적 실시예는
Figure pct00041
프레임들의 거리를 갖는 임펄스들을 검색할 수 있고,
Figure pct00042
에서 평활화된 추정치를 고려할 수 있다.
평균 위상차들(averaged phase differences)에 기초하여, 예시적 실시예는 위상의 선형성을 지시하는 음성 특징(voicing feature):
Figure pct00043
(13)
을 정의할 수 있다. 모든 복소수 값들인 ΔGCS가 동일 위상을 가지는 경우, 이들은 누적되고, 선형 위상을 나타내는 크기 1의 평균값을 초래한다. 그렇지 않으면(otherwise), 위상이 무작위로 분포될 수 있고, 결과는 더 낮은 값들을 가정한다.
유사한 방식으로, 예시적 실시예는 피치 주기를 추정할 수 있다. 각도 연산자에 의해 (13)의 크기를 대체하는 것:
Figure pct00044
(14)
예시적 실시예는 선형 위상의 기울기를 추정할 수 있다. 예시적 실시예에 따르면, 이 기울기는 피치 주기의 추정치로 변환될 수 있다:
Figure pct00045
(15)
종래의 접근법들과 달리, 예시적 실시예는 위상차들에 기초하여 주파수 도메인에서 직접 피치를 추정할 수 있다. 예시적 실시예는 ACF 기반 방법들의 전형적인 바와 같이 시간 도메인으로 돌아가는 변환 또는 시간 도메인에서 최대 검색을 할 필요가 없기 때문에, 매우 효율적으로 구현될 수 있다.
그러한 것으로(as such), 도 1b로 되돌아 가면, 존재가 검출되는 것 및 산출된 위상차들에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주파수를 추정하는 단계를 더 포함할 수 있다. 위상차들을 산출하는 단계는 개별적인 주파수 도메인 표현들의 정규화된 상호 스펙트럼의 인접하는 주파수들 사이에 위상 관계들의 주파수에 대한 가중합을 산출하는 단계, 및 위에, 식 (10)에 관하여 개시된 바와 같이, 가중합의 평균값을 산출하는 단계를 포함한다. 개별적인 주파수 도메인 표현들 사이에 산출된 위상차들이 주파수에 걸쳐 실질적으로 선형인지 결정하는 단계는 산출된 위상차들이 실질적으로 선형인지 결정하기 위해 식 (13)에 관하여 위에 개시된 바와 같이, 산출된 평균값의 크기를 선형성을 나타내는 임계값과 비교하는 단계를 포함할 수 있다. 모든 복소수 값들 AGCS가 동일 위상을 가지는 경우, 이들은 누적되고 선형 위상을 지시하는 크기 1의 평균값을 초래한다. 예시적 실시예에 따라, 임계는 1보다 작은 값일 수 있다. 1의 최대 값은 완전한 선형성을 위해서만 달성되기 때문에, 임계는 1보다 작은 값으로 설정될 수 있다. 예를 들어, 0.5의 임계값은 위상이 거의(그러나 완벽하지는 않음) 선형인 유성음을 검출하고, 평균값의 크기가 훨씬 낮은 잡음으로부터 분리하기 위하여 이용될 수 있다.
평균값은 복소수 일 수 있고 및, 산출된 위상차들이 실질적으로 선형인 것으로 결정되는 경우, 방법은 위의, 식 (14)에 관하여 개시된 바와 같은, 복소수의 각도에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주기를 추정하는 단계를 더 포함할 수 있다.
방법은 현재 숏 윈도우 및 상이한 이전 숏 윈도우에 기초하여 각각 산출된 다른 평균값들과 산출된 평균값을 비교하는 단계 및 현재 아래에 더, 식 (16)에 관하여 개시된 바와 같은, 비교에 기초하여 평균값과 다른 평균값들 중에서 선택된 최고 평균값(highest mean value)의 각도에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주파수를 추정하는 단계를 포함할 수 있다.
가중합을 산출하는 단계는 위의, 식 (11)에 관하여 개시된 바와 같은, 유성음의 주파수 범위에서 주파수들에 가중 계수들을 이용하는 단계, 및 위의 식 (12)에 관하여 개시된 바와 같은, 적어도 하나의 이전 프레임이 다중 프레임들을 포함하는 경우 평활 상수를 적용하는 단계를 포함할 수 있다.
방법은 존재가 검출되는 것에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주파수를 추정하는 단계를 더 포함할 수 있다. 산출하는 단계는 위의, 식 (7)에 관하여 개시된 바와 같이, 개별적인 주파수 도메인 표현들의 정규화된 상호 스펙트럼을 산출하는 단계를 포함할 수 있다. 추정하는 단계는 위의 식 (14)에 관하여 개시된 바와 같은, 산출된 정규화된 상호 스펙트럼의 기울기를 산출하는 단계 및 위의 식 (15)에 관하여 개시된 바와 같은, 피치 주기로 산출된 기울기를 변환하는 단계를 포함할 수 있다.
방법은 존재가 검출되는 것 및 산출된 위상차들에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주파수를 추정하는 단계 및 아래에 더, 도 15에 관하여 개시된 바와 같이, 검출되지 않은 존재에 기초하여 오디오 신호에 감쇠 인자를 적용하는 단계를 더 포함할 수 있다. 도 15의 손실 제어 적용(loss control application)에서, 스피치 검출 결과들은 스피치가 검출되지 않는 경우 그러한 감쇠 인자를 적용할 뿐만 아니라 에코들(echoes)을 방지하기 위하여 한 방향만을 활성화시키기 위해 이용될 수 있다. 어느 방향이 활성화(및 비활성화) 되는지에 대한 결정은 스피치 검출 결과들을 포함하는 정교한 규칙들(sophisticated rules)에 의존할 수 있다. 게다가, 스피치 향상은 추정된 피치 주파수에 기초하여 유성음을 재구성하고, 아래에 더, 도 13에 관하여 개시된 바와 같이, 잡음 추적(noise tracking)을 디스에이블하는 것, 아래에 더, 도 14에 관하여 개시된 바와 같이, 오디오 신호에 적응 이득을 적용하는 것, 또는 그것들의 조합을 포함할 수 있다.
후 처리(post-processing) 및 검출.
예시적 실시예는 후 처리를 이용할 수 있고, 후 처리는 최종 음성 특징 및 피치 추정을 달성하기 위해 상이한 숏 프레임들의 결과들을 결합하는 단계를 포함할 수 있다. 오디오 신호의 이동 섹션이 상이한 숏 프레임들에 의해 캡쳐될 수 있기 때문에, 가장 최근의 프레임은 하나의 여기 임펄스를 함유할 수 있고; 그러나, 또한 두개의 임펄스들 사이에 놓여 있을 수도 있다. 이 경우, 신호에서 뚜렷한 고조파 여기가 존재하더라도 최근 프레임(current frame)에서 유성음이 검출되지 않을 것이다. 이들 갭들(gaps)을 방지하기 위하여, 예시적 실시예에서
Figure pct00046
의 최대값들은
Figure pct00047
프레임들 위로 유지될 수 있다.
위에서 개시된, 식 (13)을 사용하여, 예시적 실시예에서 상이한 피치 영역들에 대한 다중 결과들이 고려될 수 있다. 예시적인 실시예에서, 최근 프레임
Figure pct00048
및 하나의 이전 프레임
Figure pct00049
사이의 각각의 위상차에 대해 음성 특징
Figure pct00050
의 값이 결정될 수 있다. 가장 개연성 있는 영역에 대해 검색함으로써 상이한 값들이 최종 특징에 융합될 수 있다:
Figure pct00051
(16)
피치 주기가 함유되어 있다. 그 다음에, 음성 특징 및 피치 추정치가 개별적으로
Figure pct00052
Figure pct00053
에 의해 주어질 수 있다. 가장 개연성 있는 영역을 찾기 위해 대안적인 접근법들이 또한 이용될 수 있음을 이해해야 한다. 최대 값은 좋은 지시자(good indicator)이다; 그러나, 다른 영역들도 또한 확인함으로써 개선들(improvements)을 만들 수 있다. 예를 들어, 두개의 값들이 유사하고 최대에 가까운 경우, 서브 고조파들(sub-harmonics)의 검출을 막기 위해 더 낮은 거리
Figure pct00054
을 선택하는 것이 좋다.
음성 특징
Figure pct00055
에 기초하여, 예시적 실시예는 유성음의 존재에 관한 결정(determination)을 내릴 수 있다. 위에 개시된 (1) 및 (2)에서 두개의 가정들 H0및 H1 중 하나를 결정하기(decide) 위해, 임계 η가 음성 특징에 적용될 수 있다. 음성 특징이 임계를 초과하는 경우, 유성음이 검출되는 결정이 있을 수 있으며, 그렇지 않으면, 유성음의 부재가 가정될 수 있다.
실험들 및 결과들
본 명세서에 개시된 실험들 및 결과들은 ICC 애플리케이션들에 전형적인 자동차 잡음 시나리오(automotive noise scenario)에 초점을 맞춘다. 킬리 스피치 데이터베이스(Keele speech database)(F. Plante, G. F. Meyer, and W. A. Ainsworth, "A pitch extraction reference database," in Proc. of EUROSPEECH, Madrid, Spain, 1995)로부터의 스피치 신호들 및 UTD-CAR-NOISE 데이터베이스(N. Krishnamurthy and J. H. L. Hansen, "Car noise verification and applications," International Journal of Speech Technology, Dec. 2013 )로부터의 자동차 소음이 이용된다. 신호들은
Figure pct00056
의 샘플링 속도로 다운샘플링된다(downsampled). R = 32 샘플들 (2 ms)의 프레임시프트가 본 명세서에 개시된 모든 분석들에 사용된다. 숏 프레임들의 경우, 128 샘플들 (8ms)의 Hann 윈도우가 이용된다.
라링고그라프 기록들(larngograph recordings)에 기초한 피치 기준이 Keele 데이터베이스와 함께 제공된다. 이 기준은 모든 분석들에 대한 그라운드 트루스(ground truth)로 이용된다.
비교를 위해, ACF에 기초한 종래의 피치 추정 접근법이 이용되고, 이러한 ACF 기반 접근법은 본 명세서에 베이스라인 방법 또는 베이스라인 접근법으로 상호 교환 가능하게 지칭될 수 있다. 본 명세서에서 또한 낮은 복잡성 특징(low-complexity feature), 낮은 복잡성 방법(low-complexity method), 낮은 복잡성 접근법(low-complexity approach), 낮은 복잡한 특징(low-complex feature), 낮은 복잡한 방법(low-complex method), 낮은 복잡한 접근법(low-complex approach), 또는 단순히 "낮은-복잡성(low-complexity)" 또는 "낮은 복잡한(low-complex)"으로 상호교환적으로 지칭되는, 이 베이스라인 방법은 예시적 실시예의 성능을 평가하기(access) 위한 베이스라인을 얻기 위해 잡음 데이터(noisy data)에 적용된다. 긴 시간적 컨텍스트(long temporal context)는 1024 샘플들(64ms)의 긴 윈도우에서 고려되기 때문에, 베이스라인 접근법을 사용하여 양호한 성능(good performance)을 달성할 수 있다.
일 예에서, 스피치 및 잡음은 0dB의 SNR로 혼합되었다. 도 8a 및 도 8b는 양쪽의 낮은 복잡성 방법, 베이스라인 방법 뿐만 아니라 기준에 대한 피치 추정치 및 검출 결과를 개별적으로 개시한다.
도 8a는 베이스라인 방법(844)에 대한 검출 결과들
Figure pct00057
의 플롯(800) 및 잡음 스피치 신호(noisy speech signal)(SNR = 0dB)에 대한 낮은 복잡성 방법(842)의 예시적인 실시예이다. 게다가, 시끄러운 스피치 신호(SNR = 0dB)에 대한 참조 부호(846) (예를 들어, 그라운드 트루스)은 유성 스피치가 검출되어야 하는 영역을 도시하기 위해 플롯된다.
도 8b는 피치 추정치
Figure pct00058
의 예시적 실시예에 대한 피치 추정 결과들의 플롯(850), 즉, 잡음 스피치 신호(SNR = 0dB)에 대한 기준(reference) (856)(예를 들어, 그라운드 트루스(ground truth))에 대하여 베이스라인 방법(854)의 낮은 복잡성 피치 추정 결과들(852) 및 피치 추정치 결과들은 위에서 개시된, 도 8a의 검출 결과들을 획득하기 위해 이용된다.
도 8a에 도시된 바와 같이, 낮은 복잡성 특징은 ACF 기반 베이스라인 방법과 유사한 스피치를 지시한다. 도 8b에 도시된 바와 같이, 양쪽의 접근법들은 피치 주파수를 추정할 수 있으며; 그러나, 낮은 복잡성 특징의 변동(variance)이 더 높다. 일부 서브 고주파들(sub-harmonics)은 양쪽의 접근법들 및 심지어(even) 기준(reference)에서 관찰 가능하다. 양쪽 낮은 복잡성 및 베이스라인 방법들은 음성 특징
Figure pct00059
의 높은 값들이 1에 가까울수록 유성 스피치를 지시한다. 예시적 실시예에 따라, 간단한 검출기(simple detector)로서 임계가 적용될 수 있다. 임계는 종래의 접근법의 경우 η = 0.25로, 낮은 복잡성 접근법의 경우 η = 0.5로 설정되었으며, 음성 특징이 임계를 초과한 경우에만 피치가 추정되었다. 낮은 복잡성 방법에 대한결과적인 피치 추정치들은 피치를 추적할 수 있음을 보여준다. 그러나, 결과들은 베이스라인 방법으로부터 결과들만큼 정확하지 않다.
보다 광범위한 데이터베이스에 대한 성능을 평가하기 위해, 남성 및 여성 스피커들에 의해 말해진 Keele 데이터베이스로부터 10개 발언들(utterances)(지속 기간 337s)을 자동차 잡음과 혼합하고, SNR은 조정됐다. 임계(η)를 0과 1 사이에서 튜닝(tuning)함으로써 각각의 SNR값에 대한 수신기 동작 특성(receiver operating characteristic, ROC)이 결정된다. 특정 임계에 대한 검출들을 유성음의 기준과 비교함으로써 올바른 검출들(correct detections)의 속도가 발견된다. 반면에, 기준이 스피치의 부재가 지시되는 구간들에 대해 오 경보율(false-alarm rate)이 계산된다. ROC 곡선 아래 면적(area under ROC curve, AUC)을 계산함으로써, 성능 곡선을 스칼라 측정(scalar measure)으로 압축된다. 1에 가까운 AUC 값들은 양호한 검출 성능을 지시하는 반면, 0.5에 가까운 값들은 임의의 결과들에 상응한다.
도 9는 SNR에 대한 베이스라인 방법들 및 예시적 실시예에 대한 성능 결과들의 플롯(900)이다. 플롯(900)은 낮은 복잡성 특징(942)이 롱 컨텍스트(long context)를 갖는 베이스라인 방법(946a)의 성능과 유사한 양호한 검출 성능을 도시하는 것을 도시한다. 베이스라인 방법(946b)을 더 짧은 윈도우에 적용하는 경우, 높은 SNR의 경우에도 낮은 피치 주파수들이 분해 될 수 없기 때문에 성능이 낮아진다. 개시된 바와 같이, 베이스라인 접근법(946a)은 긴 시간적 컨텍스트를 캡쳐하기 때문에 양호한 검출 성능을 도시한다. 비록 낮은 복잡성 접근법(942)이 더 적은 시간적 컨텍스트를 다루어야 할지라도, 유사한 검출 성능이 달성된다. 베이스라인 접근법(946b)을 숏 윈도우에 적용하는 경우, 높은 SNR의 경우에도, 음성 스피치가 완벽하게 검출되지 않는다. 낮은 피치 주파수들은 낮은 성능을 설명하는 단일의 숏 윈도우를 사용하여 분해될 수 없다.
두 번째 분석에서, 낮은 복잡성 및 베이스라인 방법들에 대한 피치 추정 성능에 초점을 맞춘다. 이를 위해(for this), 시험 중인 기준 및 방법 둘 다 유성음의 존재를 지시하기 위해 시간 인스턴스들(time instances)이 고려되었다. 추정된 피치 주파수 및 기준 피치 주파수 사이의 편차가 평가된다. 0dB의 경우, 양 방법들에서 양호한 검출 성능이 관찰된다. 그러므로, 이 상황(this situation)에 대한 피치 추정 성능이 조사된다.
도 10은 피치 주파수 추정치들의 오차들의 분포를 도시하는 플롯(1000)이다. 도 10에서, 기준 주파수
Figure pct00060
에 관하여 편차들
Figure pct00061
의 히스토그램(histogram)이 도시된다. 피치 주파수가 대부분 올바르게(correctly) 추정되는 것이 관찰할 수(observable) 있다. 그러나, 양쪽의 방법들, 즉, 낮은 복잡성 방법(1042) 및 베이스라인 방법(1046)에 대해 기준 피치 주파수의 ±10% 간격에서 작은 편차들이 발견될 수 있다. -0.5에서 더 작은 피크는 피치로 잘못 식별되고 실수로 선택된 서브 고주파들(sub-harmonics)에 의해 설명될 수 있다. 식 (16)에 관련하여 위에서 개시된 바와 같은, 간단한 최대 검색 대신 더 진보된 후 처리(more advanced post-processing)를 적용함으로써, 이러한 유형의 오류들은 감소될 수 있다.
기준 피치 주파수로부터의 편차들은 그로스 피치 오차(gross pitch error, GPE)를 사용하여 평가될 수 있다. (W. Chu and A. Alwan, "Reducing f0 frame error of f0 tracking algorithms under noisy conditions with an unvoiced/voiced classification frontend," in Proc. of ICASSP, Taipei, Taiwan, 2009) 이를 위해(for this), 경험적 확률은 기준 피치의 20%보다 더 큰 편차들로 결정된다:
Figure pct00062
도 11은 그로스 피치 오차(gross pitch error, GPE)의 플롯(1100)이다. 플롯(1100)은 기준 피치 주파수(reference pitch frequency)의 20%를 초과하는 편차들을 갖는 피치 추정 오차들의 경험적 확률(empirical probability)을 도시한다. 베이스라인 접근법(1146)은 낮은 복잡성 방법(1142)의 예시적 실시예보다 피치 주파수를 더 정확하게 추정한다. 도 11에서, GPE는 합리적인 검출 성능이 달성된 SNRs에 대해 묘사된다. 높은 SNRs의 경우, 낮은 복잡성 접근법의 더 높은 편차들은 종래의 베이스라인 접근법과 비교하여 이 관찰될 수 있다. 이들 중 많은 에러들이 피치 주파수로 잘못 식별된(identified) 서브 고주파들로 설명될 수 있다.
결론
ICC 시스템들과 같이, 낮은 지연이 요구되는 애플리케이션들에 의해 주어진 특별한 제약 조건들을 다룰 수 있는 피치 추정 및 유성 스피치의 검출을 위한 낮은 복잡성 방법이 개시된다. 종래의 피치 추정 접근법들과 달리, 예시적 실시예는 단일의 여기 임펄스만을 캡쳐하는 매우 짧은 프레임들을 이용한다. 피치 주기에 상응하는 다중의 임펄스들 사이의 거리는, 낮은 분해능 스펙트럼들 사이의 위상차들을 평가함으로써 결정된다. 피치를 추정하기 위해 IDFT가 필요하지 않기 때문에, ACF 기반 일 수 있는 표준 피치 추정 기술들과 비교하여 계산 복잡성이 낮다.
도 12는 오디오 통신 시스템에 의해 캡쳐된 잡음 및 유성음을 포함하는 오디오 신호(1204)의 전자 표현(1206)을 생성하도록 구성된 오디오 인터페이스(1208)를 포함하는 오디오 통신 시스템(도시되지 않음)에서 음성 품질 향상을 위한 장치(1202)의 블록도(1200)이다 잡음의 적어도 부분(도시되지 않음)은 유성음(도시되지 않음)과 관련된 주파수들에 있을 수 있다. 장치(1202)는 오디오 인터페이스(1208)와 결합된 프로세서(1218)를 포함할 수 있다. 프로세서(1218)는 스피치 검출기(1220) 및 오디오 인핸서(1222)를 구현하도록 구성될 수 있다. 스피치 검출기(1220)는 오디오 인핸서(1222)에 결합될 수 있고 오디오 신호(1204)에서 유성 스피치의 존재를 모니터하도록 구성될 수 있다. 모니터 동작은 현재 숏 윈도우에서 오디오 신호(1204)의 현재 오디오 샘플들 및 적어도 하나의 이전 숏 윈도우에서 오디오 신호(1204)의 이전 오디오 샘플들의 개별적인 주파수 도메인 표현들 사이에 위상차들을 산출하는 동작을 포함할 수 있다. 스피치 검출기(1220)는 개별적인 주파수 도메인 표현들 사이에 산출된 위상차들이 주파수에 걸쳐(over) 실질적으로 선형인지 결정하도록 구성될 수 있다. 스피치 검출기(1220)는 산출된 위상차들이 주파수에 걸쳐 실질적으로 선형인 것을 결정함으로써 유성음의 존재를 검출하도록 구성될 수 있다. 스피치 검출기(1220)는 검출된 존재의 지시(1212)를 오디오 인핸서(1222)에 통신하도록 구성될 수 있다. 오디오 인핸서(1222)는 향상된 오디오 신호(1210)를 생산하기 위하여 오디오 신호(1204)에 스피치 향상을 적용함으로써 오디오 통신 시스템을 통하여 통신되는 유성음의 음성 품질을 향상시키도록 구성될 수 있다. 스피치 향상은 통신된 지시(1212)에 기초할 수 있다.
현재 및 적어도 하나의 이전 숏 윈도우는 오디오 신호에서 유성 스피치의 주기적인 음성 여기 임펄스 신호의 전주기의 오디오 샘플들을 캡쳐하기에는 너무 짧은 윈도우 길이를 가질 수 있으며, 오디오 통신 시스템은 차량 내 통신(in-car-communications, ICC) 시스템일 수 있으며, 및 윈도우 길이는 ICC 시스템에서 오디오 통신 지연을 감소시키도록 설정될 수 있다.
스피치 검출기(1220)는 존재가 검출되는 것 및 산출된 위상차들에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주파수를 추정하도록 더 구성될 수 있다. 스피치 검출기(1220)는 유성음의 존재의 지시(1212) 및 그것에(thereto) 관련된 피치 주파수(1214)와 같은 스피치 검출 결과들을 오디오 인핸서(1222)에 보고하도록 구성될 수 있다.
산출 동작은 개별적인 주파수 도메인 표현들의 정규화된 상호 스펙트럼의 인접하는 주파수들 사이의 위상 관계들의 주파수에 걸쳐(over) 가중합을 산출하는 동작 및 산출된 가중합의 평균값을 산출하는 동작을 포함할 수 있다. 결정하는 동작은 산출된 위상차들이 실질적으로 선형인지 결정하기 위해 산출된 평균값의 크기를 선형성을 나타내는 임계값과 비교하는 동작을 포함할 수 있다.
평균값은 복소수 일 수 있고, 산출된 위상차들은 실질적으로 선형인 것으로 결정되는 경우, 스피치 검출기(1220)는 복소수의 각도에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주기를 추정하도록 더 구성될 수 있다.
스피치 검출기(1220)는 현재 숏 윈도우 및 상이한 이전 숏 윈도우에 기초하여 각각 산출된 다른 평균값들과 산출된 평균값을 비교하도록 및 비교 동작에 기초한 다른 평균값들 및 평균값 중에서 선택된 최고 평균값의 각도에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주파수를 추정하도록 더 구성될 수 있다.
가중합을 산출하기 위해, 스피치 검출기(1220)는 유성음의 주파수 범위에서 주파수들에서 가중 계수들을 이용하도록 및 적어도 하나의 이전 프레임이 다중 프레임들을 포함하는 경우에 평활 상수를 적용하도록 더 구성될 수 있다.
스피치 검출기(1220)는 존재가 검출되는 것에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주파수를 추정하도록 더 구성될 수 있다. 산출 동작은 개별적인 주파수 도메인 표현의 정규화된 상호 스펙트럼을 산출하는 동작을 포함할 수 있다. 추정 동작은 산출된 정규화된 상호 스펙트럼의 기울기를 산출하고 및 산출된 기울기를 피치 주기로 변환하는 동작을 포함할 수 있다.
스피치 검출기(1220)는 존재가 검출되는 것 및 산출된 위상차들에 기초하여, 주파수 도메인에서 직접, 유성음의 피치 주파수를 추정하도록 및 오디오 인핸서(1222)에 추정된 피치 주파수를 통신하도록 더 구성될 수 있다. 오디오 인핸서(1222)는 검출되지 않는 존재를 지시하는 통신된 지시(1212)에 기초하여 오디오 신호(1204)에 감쇠 인자를 적용하도록 더 구성될 수 있다. 스피치 향상은 추정되고 통신된 피치 주파수(1214)에 기초하여 유성 스피치를 재구성하는 것, 잡음 추적을 디스에이블하는 것, 적응 이득을 오디오 신호에 적용하는 것, 또는 이들의 조합을 포함할 수 있다.
위에서 개시된 바와 같이, 본 명세서에(herein) 개시된 예시적 실시예는 위에서 개시된, 도 1a의 ICC 시스템과 같은, 오디오 통신 시스템에 의해 이용될 수 있다. 그러나, 본 명세서에(herein) 개시된 예시적 실시예는 임의의 적합한 오디오 통신 시스템 또는 애플리케이션에 의해 이용될 수 있음을 이해해야 한다.
아래에 개시된, 도 13 내지 도 16은 위에서 개시된, 예시적 실시예가 적용될 수 있는 애플리케이션들을 설명한다. 그러므로, 완전한 기준 지시자들(reference indicators)의 완전한 세트(complete set)는 도 13 내지 도 16에서 제공되지 않는다.
도 13은 잡음을 억제함으로써 스피치 향상을 수행하도록 구성된 ICC 시스템(1302)의 예시적 실시예의 블록도(1300)이다. 위에서 개시된, 도 12의 스피치 검출기(1220)의 예시적 실시예는, 잡음 억제를 위해 ICC 시스템(1302)에 의해 이용될 수 있다. ICC 시스템(1302)에서, 배경 잡음의 특성들이 잡음을 억제하기 위해 이용되고 추정될 수 있다. 스피치 검출기(1220)는 스피치가 부재하고 순수한 잡음이 접근가능한(accessible) 경우에만 잡음이 추정되도록 ICC 시스템(1302)에서 잡음 추정을 제어하기 위하여 이용될 수 있다.
도 14는 이득 제어(gain control)를 통해 스피치 향상을 수행하도록 구성된 ICC 시스템(1402)의 예시적 실시예의 블록도(1400)이다. 위에서 개시된, 도 12의 스피치 검출기(1200)의 예시적 실시예는 이득 제어를 위해 ICC 시스템(1402)에 의해 이용될 수 있다. ICC 시스템(1402)에서, 스피치 레벨(speech level)의 변화들(variations)은 오디오 신호에서 적응 이득을 적용함으로써 보상될 수 있다. 스피치 레벨의 추정은 위에서 개시된, 도 12의 스피치 검출기(1220)를 이용함으로써 스피치가 존재하는 간격들(intervals)에 초점이 맞춰질 수 있다.
도 15는 손실 제어를 수행하도록 구성된 ICC 시스템(1502)의 예시적 실시예의 블록도(1500)이다. 도 15의 손실 제어 어플리케이션(application)에서, 스피치 검출은 에코들(echoes)을 방지하기 위하여 오직 한 방향으로 활성화하기 위해 발생한다. 어느 방향이 활성화 (및 비활성화) 되는지에 대한 결정은 스피치 검출 결과들을 포함하는 정교한 규칙들에 의존할 수 있다. 그러한 것으로(as such), 손실 제어는 스피치 향상의 방향이 활성화되는 것을 제어하기 위해 이용될 수 있다. 위에서 개시된, 도 12의 스피치 검출기(1220)의 예시적 실시예는 손실 제어를 위해 ICC 시스템(1502)에 의해 이용될 수 있다. 도 15의 예시적 실시예에서, 오직 하나의 방향(앞쪽에서 뒤쪽(front-to-rear) 또는 뒤쪽에서 앞쪽(rear-to-front))만이 활성화된다. 어떤 스피커, 즉, 운전자 또는 승객이 말하고 있는지에 기초하여 어떤 방향으로 활성화하는지 결정할 수 있고, 및 그러한 결정은, 위에서 개시된 바와 같이, 스피치 검출기(1220)에 의해 검출된 유성음의 존재에 기초할 수 있다.
이와 같이(as such), 도 15의 예시적 실시예에서, 방향은 비활성화될 수 있으며, 즉, 스피치가 검출되지 않고 방향이 활성화 될 수 있는 경우, 손실이 적용되고, 즉, 스피치가 존재하는 것으로 검출되는 경우, 손실이 적용되지 않는다. 손실 제어는 양방향 시스템에서 활성 스피커의 ICC 방향만 활성화하는데 사용될 수 있다. 예를 들어, 운전자가 뒷좌석 탑승자(rear-seat passenger)에게 말하고 있을 수 있다. 이 경우, 운전자의 마이크로폰의 스피치 신호만이 뒷좌석 확성기들을 통해 처리되고, 향상되고, 재생될 수 있다. 뒷좌석 확성기들로부터의 피드백(feedback)이 운전자 위치에서 확성기들로 다시 전송되는 것을 피하기 위하여 손실 제어는 뒷좌석 마이크로폰 신호의 처리를 차단하는데 사용될 수 있다.
도 16은 스피치 및 피치 검출에 기초하여 스피치 향상을 수행하도록 구성된 ICC 시스템의 예시적 실시예의 블록도(1600)이다.
도 17은 본 개시의 다양한 실시예들이 구현될 수 있는 컴퓨터(1700)의 내부 구조의 예시의 블록도이다. 컴퓨터(1700)는 시스템 버스(1702)를 함유하며, 버스는 컴퓨터 또는 처리 시스템의 구성요소들 간의 데이터 전송에 사용되는 하드웨어 라인들(hardware lines)의 세트(set)이다. 시스템 버스(1702)는 본질적으로 요소들 사이에 정보의 전송을 가능하게 하는 컴퓨터 시스템(예를 들어, 프로세서, 디스크 저장 장치(disk storage), 메모리, 입력/출력 포트들, 네트워크 포트들, 등)의 다른 요소들을 연결하는 공유 도관(shared conduit)이다. 시스템 버스(1702)에 결합은 다양한 입력 및 출력 장치들(예를 들어, 키보드, 마우스, 디스플레이들(displays), 프린터들(printers), 스피커들(speakers), 등)을 컴퓨터(1700)에 연결하기 위한 I/O 장치 인터페이스(1704)이다. 네트워크 인터페이스(1706)는 컴퓨터(1700)가 네트워크에 부착된 다양한 다른 장치들에 연결할 수 있게 한다. 메모리(1708)는 본 개시의 실시예를 구현하는데 사용될 수 있는 컴퓨터 소프트웨어 명령들(computer software instructions)(1710) 및 데이터(1712)를 위한 휘발성 저장 장치(volatile storage)를 제공한다. 디스크 저장 장치(1714)는 본 개시의 실시예를 구현하는데 사용될 수 있는 컴퓨터 소프트웨어 명령들(1710) 및 데이터(1712)를 위한 비휘발성 저장 장치(nonvolatile storage)를 제공한다. 중앙 프로세서 유닛(central processor unit)(1718)은 또한 시스템 버스(1702)에 결합되고 컴퓨터 명령들의 실행을 제공한다.
본 명세서에 개시된 다른 예시적 실시예들은 컴퓨터 프로그램 제품(product)을 사용하여 구성될 수 있으며; 예를 들어, 제어들은(controls) 예시적 실시예를 구현하기 위해 소프트웨어로 프로그램될(programmed) 수 있다. 다른 예시적 실시예들은 프로세서에 의해 실행될 수 있는 명령들을 함유하는 비 일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)를 포함할 수 있고, 및, 로드되고(loaded) 실행되는(executed) 경우, 프로세서가 본 명세서에 기술된 방법들을 완료하게 유발한다. 블록 및 흐름도들의 요소들은 위에서 개시된, 도 12의 하나 이상의 회로의 배열들(arrangements of circuitry), 또는 그것의 등가물들(equivalents), 펌웨어(firmware), 그것의 조합, 또는 미래에 결정된 다른 유사한 구현을 통하여 와 같은, 하드웨어 또는 소프트웨어로 구현될 수 있음을 이해해야 한다. 예를 들어, 위에서 개시된, 도 12의 오디오 인핸서(1222) 및 스피치 검출기(1220)는 위에서 개시된, 도 17의 하나 이상의 회로의 배열들, 또는 그것의 등가물들, 펌웨어, 그것의 조합, 또는 미래에 결정된 다른 유사한 구현을 통하여 와 같은, 하드웨어 또는 소프트웨어로 구현될 수 있다. 게다가, 본 명세서에 기술된 블록 및 흐름도의 요소들은 소프트웨어, 하드웨어 또는 펌웨어에서 임의의 방식으로 결합되거나 분할될 수 있다. 만약 소프트웨어로 구현되는 경우, 소프트웨어는 본 명세서에(herein) 개시된 예시적 실시예들을 지원할 수 있는 임의의 언어로 작성될 수 있다. 소프트웨어는 랜덤 액세스 메모리(random access memory, RAM), 판독 전용 메모리(read only memory, ROM), 읽기 전용 콤팩트디스크 메모리(compact disk read-only memory, CD-ROM) 등과 같은 임의의 형태의 컴퓨터 판독 가능 매체에 저장될 수 있다. 동작시, 범용(general purpose) 또는 애플리케이션 특정 프로세서(application-specific processor) 또는 프로세싱 코어(processing core)는 당해 기술분야에서 잘 이해되는 방식으로 소프트웨어를 로드하고(loads) 실행한다(executes). 블록 및 흐름도들은 더 많거나 더 적은 요소들을 포함하거나, 다르게 배열되거나 또는 배향되거나(oriented), 또는 다르게 표현될 수 있음이 더 이해되어야 한다. 구현은 블록, 흐름, 및/또는 네트워크 다이어그램들 및 본 명세서에 개시된 실시예들의 실행을 설명하는 블록 및 흐름 다이어그램들의 수를 지시할 수 있음이 이해되어야 한다.
본 명세서에(herein) 인용된 모든 특허들, 공개된 출원들 및 참고 문헌들의 교시들은 그 전체(their entirely)가 참고로 포함된다.
예시적 실시예들이 특히 도시되고 설명되었지만, 청구 범위에 포함된 실시예들의 범위로부터 벗어나지 않으면서 형태 및 세부 사항의 다양한 변경들이 그 안에서 이루어질 수 있다는 것이 통상의 기술자들에 의해 이해될 것이다.

Claims (20)

  1. 오디오 통신 시스템(audio communications system)에서 음성 품질 향상(enhancement)을 위한 방법에 있어서,
    상기 오디오 통신 시스템에 의해 캡쳐된(captured) 유성음(voiced speech) 및 잡음(noise)을 포함하는 오디오 신호에서 상기 유성음의 존재(presence)를 모니터링하는(monitoring) 단계; - 상기 잡음의 적어도 부분은 상기 유성음과 관련된 주파수들에 있고, 상기 모니터링은 적어도 하나의 이전 숏 윈도우(previous short window)에서 상기 오디오 신호의 이전 오디오 샘플들(previous audio samples) 및 현재 숏 윈도우(present short window)에서 상기 오디오 신호의 현재 오디오 샘플들(present audio samples)의 개별적인 주파수 도메인 표현들(respective frequency domain representations) 사이에 위상차들(phase differences)을 산출하는(computing) 단계를 포함함 -
    상기 개별적인 주파수 도메인 표현들 사이에서 산출된 상기 위상차들이 주파수에 걸쳐(over) 실질적으로 선형(linear)인지 결정하는(determining) 단계; 및
    산출된 상기 위상차들이 실질적으로 선형이라고 결정함으로써 상기 유성음의 상기 존재를 검출하고, 상기 유성음이 검출되는 경우에 스피치 향상을 상기 오디오 신호에 적용함으로써 상기 오디오 통신 시스템을 통해 통신되는(communicated) 상기 유성음의 음성 품질을 향상시키는 단계
    를 포함하는 음성 품질 향상 방법.
  2. 제1항에 있어서,
    상기 현재 및 적어도 하나의 이전 숏 윈도우는 상기 오디오 신호에서 상기 유성음의 주기적인 음성 여기 임펄스 신호(voiced excitation impulse signal)의 전주기(full period)의 오디오 샘플들을 캡쳐하기에는 너무 짧은 윈도우 길이를 갖는,
    음성 품질 향상 방법.
  3. 제2항에 있어서,
    상기 오디오 통신 시스템은 차량 내 통신(in-car-communications, ICC) 시스템이고, 상기 윈도우 길이는 상기 ICC 시스템에서 오디오 통신 지연(audio communication latency)을 감소시키도록 설정되는,
    음성 품질 향상 방법.
  4. 제1항에 있어서,
    상기 존재가 검출되는 것 및 산출된 상기 위상차들(phase differences)에 기초하여, 주파수 도메인에서 직접(directly), 상기 유성음의 피치 주파수를 추정하는 단계
    를 더 포함하는 음성 품질 향상 방법.
  5. 제1항에 있어서,
    상기 산출하는 단계는,
    상기 개별적인 주파수 도메인 표현들의 정규화된 상호 스펙트럼(normalized cross-spectrum)의 인접하는(neighboring) 주파수들 사이의 위상 관계들(phase relations)의 주파수에 대한(over) 가중합(weighted sum)을 산출하는 단계;
    산출된 상기 가중 합의 평균값(mean value)을 산출하는 단계
    를 포함하고; 및
    상기 결정하는 단계는,
    산출된 상기 위상차들이 실질적으로 선형인지 결정하기 위해 산출된 상기 평균값의 크기(magnitude)를 선형성을 나타내는 임계값(threshold value)과 비교하는 단계
    를 포함하는 음성 품질 향상 방법.
  6. 제5항에 있어서,
    상기 평균값은 복소수(complex number)이고, 산출된 상기 위상차들이 실질적으로 선형으로 결정되는 경우, 상기 방법은 상기 복소수의 각도에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주기(pitch period)를 추정하는 단계
    를 더 포함하는 음성 품질 향상 방법.
  7. 제5항에 있어서,
    상기 현재 숏 윈도우 및 상이한 이전 숏 윈도우에 기초하여 각각 산출된 다른 평균값들에 산출된 상기 평균값을 비교하는 단계; 및
    가장 높은 평균값의 각도에 기초하여 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하는 단계 - 상기 가장 높은 평균값은 상기 비교에 기초하여 다른 평균값들 및 상기 평균값 중에서 선택됨 -
    를 더 포함하는 음성 품질 향상 방법.
  8. 제5항에 있어서,
    상기 가중합을 산출하는 단계는,
    유성음의 주파수 범위의 주파수들에서 가중 계수들(weighting coefficients)을 이용하고(employing), 및 적어도 하나의 이전 프레임(previous frame)이 다중 프레임들(multiple frames)을 포함하는 경우 평활 상수(smoothing constant)를 적용하는 단계
    를 포함하는 음성 품질 향상 방법.
  9. 제1항에 있어서,
    상기 존재가 검출되는 것에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하는 단계를 더 포함하고:
    상기 산출하는 단계는 상기 개별적인 주파수 도메인 표현들의 정규화된 상호 스펙트럼을 산출하는 단계를 포함하고; 및
    상기 추정하는 단계는 산출된 상기 정규화된 상호 스펙트럼의 기울기(slope)를 산출하고 산출된 상기 기울기를 피치 주기로 변환하는 단계
    를 포함하는 음성 품질 향상 방법.
  10. 제1항에 있어서,
    상기 존재가 검출되는 것 및 산출된 상기 위상차들에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하는 단계; 및
    상기 존재가 검출되지 않은 것에 기초하여 상기 오디오 신호에 감쇠 인자(attenuation factor)를 적용하는 단계를 포함하고,
    상기 스피치 향상은,
    추정된 상기 피치 주파수에 기초하여 상기 유성음을 재구성(reconstructing)하는 것, 잡음 추적(noise tracking)을 디스에이블(disabling)하는 것, 상기 오디오 신호에 적응 이득(adaptive gain)을 적용하는 것, 또는 이들의 조합을 포함하는,
    음성 품질 향상 방법.
  11. 오디오 통신 시스템에서 음성 품질 향상을 위한 장치로서,
    상기 오디오 통신 시스템에 의해 캡쳐된 유성음 및 잡음을 포함하는 오디오 신호의 전자적 표현을 생성하도록 구성된 오디오 인터페이스(audio interface); - 상기 잡음의 적어도 부분은 상기 유성음과 관련된 주파수들에 있음 - 및
    상기 오디오 인터페이스에 결합된(coupled) 프로세서, - 상기 프로세서는 오디오 인핸서(audio enhancer) 및 스피치 검출기(speech detector)를 구현(implement)하도록 구성되고,
    상기 스피치 검출기는,
    상기 오디오 인핸서에 결합되어,
    상기 오디오 신호에서 상기 유성음의 존재를 모니터링하고, - 상기 모니터링 동작은 현재 숏 윈도우에서 상기 오디오 신호의 현재 오디오 샘플들 및 적어도 하나의 이전 숏 윈도우에서 상기 오디오 신호의 이전 오디오 샘플들의 개별적인 주파수 도메인 표현들 사이에 위상차들을 산출하는 것을 포함함 - ;
    상기 개별적인 주파수 도메인 표현들 사이에서 산출된 상기 위상차들이 주파수에 걸쳐(over) 실질적으로 선형인지 결정하며; 및
    산출된 상기 위상차들이 실질적으로 선형이라고 결정함으로써 상기 유성음의 상기 존재를 검출하고, 상기 존재의 지시(indication)를 상기 오디오 인핸서에 통신하도록 구성되고,
    상기 오디오 인핸서는,
    통신된 상기 지시에 기초한 스피치 향상을 상기 오디오 신호에 적용함으로써 상기 오디오 통신 시스템을 통해 통신된 상기 유성음의 음성 품질을 향상시키도록 구성되는,
    음성 품질 향상을 위한 장치.
  12. 제11항에 있어서,
    상기 현재 및 적어도 하나의 이전 숏 윈도우는 상기 오디오 신호에서 상기 유성음의 주기적인 음성 여기 임펄스 신호(voiced excitation impulse signal)의 전주기의 오디오 샘플들을 캡쳐하기에는 너무 짧은 윈도우 길이를 가지고,
    상기 오디오 통신 시스템은 차량 내 통신(in-car-communications, ICC) 시스템이며, 및 상기 윈도우 길이는 상기 ICC 시스템에서 오디오 통신 지연을 감소시키도록 설정되는,
    음성 품질 향상을 위한 장치.
  13. 제11항에 있어서,
    상기 스피치 검출기는,
    상기 존재가 검출되는 것 및 산출된 상기 위상차들에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하도록 더 구성되는,
    음성 품질 향상을 위한 장치.
  14. 제11항에 있어서,
    상기 산출 동작은,
    상기 개별적인 주파수 도메인 표현들의 정규화된 상호 스펙트럼의 인접하는 주파수들 사이의 위상 관계들의 주파수에 대한(over) 가중합을 산출하는 것;
    산출된 상기 가중 합의 평균값(mean value)을 산출하는 것을 포함하고; 및
    상기 결정하는 동작은,
    산출된 상기 위상차들이 실질적으로 선형인지 결정하기 위해, 산출된 상기 평균값의 크기를 선형성을 나타내는 임계값(threshold value)에 비교하는 것
    을 포함하는 음성 품질 향상을 위한 장치.
  15. 제14항에 있어서,
    상기 평균값은 복소수(complex number)이고, 산출된 상기 위상차들이 실질적으로 선형으로 결정되는 경우, 상기 스피치 검출기는 상기 복소수의 각도에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주기를 추정하도록 더 구성되는,
    음성 품질 향상을 위한 장치.
  16. 제14항에 있어서,
    상기 스피치 검출기는,
    상기 현재 숏 윈도우 및 상이한 이전 숏 윈도우에 기초하여 각각 산출된 다른 평균값들과 산출된 상기 평균값을 비교하고; 및
    가장 높은 평균값의 각도에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하도록 - 상기 가장 높은 평균값은 상기 비교 동작에 기초한 다른 평균값들 및 상기 평균값 중에서 선택됨 -
    더 구성되는,
    음성 품질 향상을 위한 장치.
  17. 제14항에 있어서,
    상기 가중합을 산출하기 위하여, 상기 스피치 검출기는 유성음의 주파수 범위의 주파수들에서 가중 계수들을 이용하고, 및 적어도 하나의 이전 프레임이 다중 프레임들을 포함하는 경우 평활 상수를 적용하도록 더 구성되는,
    음성 품질 향상을 위한 장치.
  18. 제11항에 있어서,
    상기 스피치 검출기는,
    상기 존재가 검출되는 것에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하도록 더 구성되고,
    상기 산출 동작은 상기 개별적인 주파수 도메인 표현들의 정규화된 상호 스펙트럼을 산출하는 것을 포함하고,
    상기 추정 동작은 산출된 상기 정규화된 상호 스펙트럼의 기울기를 산출하는 것, 및 산출된 상기 기울기를 피치 주기로 변환하는(converting) 것을 포함하는,
    음성 품질 향상을 위한 장치.
  19. 제11항에 있어서,
    상기 스피치 검출기는,
    상기 존재가 검출되는 것 및 상기 위상차들에 기초하여, 주파수 도메인에서 직접, 상기 유성음의 피치 주파수를 추정하고, 및 상기 오디오 인핸서(audio enhancer)에 추정된 상기 피치 주파수를 통신하도록 더 구성되고,
    상기 오디오 인핸서는,
    상기 존재가 검출되지 않음을 지시하는(indicating) 상기 지시에 기초하여 상기 오디오 신호에 감쇠 인자를 적용하도록 더 구성되고,
    상기 스피치 향상은,
    추정되고 통신되는 상기 피치 주파수에 기초하여 상기 유성음을 재구성하는 것, 잡음 추적을 디스에이블하는 것, 상기 오디오 신호에 적응 이득을 적용하는 것, 또는 이들의 조합을 포함하는,
    음성 품질 향상을 위한 장치.
  20. 오디오 통신 시스템에서 음성 품질 향상을 위한 비 일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)에 있어서, 상기 비 일시적 컴퓨터 판독 가능 매체는 상기 매체 상에(thereon) 인코딩된 일련의 명령들(sequence of instructions)을 가지고, 상기 일련의 명령들은 프로세서(processor)에 의해 로드되고(loaded) 실행되는(executed) 경우 프로세서가:
    상기 오디오 통신 시스템에 의해 캡쳐된 유성음 및 잡음을 포함하는 오디오 신호에서 유성음의 존재를 모니터링하고, - 상기 잡음의 적어도 부분은 상기 유성음과 관련된 주파수에 있고, 상기 모니터링 동작은 현재 숏 윈도우에서 상기 오디오 신호의 현재 오디오 샘플들 및 적어도 하나의 이전 숏 윈도우에서 상기 오디오 신호의 이전 오디오 샘플들의 개별적인 주파수 도메인 표현들 사이에 산출하는 것을 포함함 -
    상기 개별적인 주파수 도메인 표현들 사이에 산출된 상기 위상차들이 주파수에 걸쳐 실질적으로 선형인지 결정하며, 및
    산출된 상기 위상차들이 실질적으로 선형이라고 결정함으로써 상기 유성음의 상기 존재를 검출하고, 상기 유성음이 검출되는 경우, 스피치 향상을 상기 오디오 신호에 적용함으로써 상기 오디오 통신 시스템을 통해 통신되는 상기 유성음의 음성 품질을 향상시키도록 유발(cause)하는,
    비 일시적 컴퓨터 판독 가능 매체.
KR1020207007058A 2017-08-17 2017-08-17 음성 스피치 및 피치 추정의 낮은 복잡성 검출 KR20200038292A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2017/047361 WO2019035835A1 (en) 2017-08-17 2017-08-17 DETECTION WITH LOW SPEECH COMPLEXITY AND ESTIMATED HEIGHT

Publications (1)

Publication Number Publication Date
KR20200038292A true KR20200038292A (ko) 2020-04-10

Family

ID=59738477

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207007058A KR20200038292A (ko) 2017-08-17 2017-08-17 음성 스피치 및 피치 추정의 낮은 복잡성 검출

Country Status (6)

Country Link
US (1) US11176957B2 (ko)
EP (1) EP3669356B1 (ko)
JP (1) JP7052008B2 (ko)
KR (1) KR20200038292A (ko)
CN (1) CN111226278B (ko)
WO (1) WO2019035835A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI790705B (zh) * 2021-08-06 2023-01-21 宏正自動科技股份有限公司 語速調整方法及其系統

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3418005B2 (ja) * 1994-08-04 2003-06-16 富士通株式会社 音声ピッチ検出装置
JP3616432B2 (ja) * 1995-07-27 2005-02-02 日本電気株式会社 音声符号化装置
EP0993674B1 (en) * 1998-05-11 2006-08-16 Philips Electronics N.V. Pitch detection
JP2000122698A (ja) 1998-10-19 2000-04-28 Mitsubishi Electric Corp 音声符号化装置
US20080120100A1 (en) * 2003-03-17 2008-05-22 Kazuya Takeda Method For Detecting Target Sound, Method For Detecting Delay Time In Signal Input, And Sound Signal Processor
JP2004297273A (ja) 2003-03-26 2004-10-21 Kenwood Corp 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
JP4433734B2 (ja) 2003-09-11 2010-03-17 カシオ計算機株式会社 音声分析合成装置、音声分析装置、及びプログラム
WO2006079813A1 (en) 2005-01-27 2006-08-03 Synchro Arts Limited Methods and apparatus for use in sound modification
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
JP2007140000A (ja) 2005-11-17 2007-06-07 Casio Comput Co Ltd 歌唱採点装置および歌唱採点処理のプログラム
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
KR20080036897A (ko) * 2006-10-24 2008-04-29 삼성전자주식회사 음성 끝점을 검출하기 위한 장치 및 방법
KR20080072224A (ko) * 2007-02-01 2008-08-06 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
CN101447190A (zh) * 2008-06-25 2009-06-03 北京大学深圳研究生院 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法
JP2011033717A (ja) 2009-07-30 2011-02-17 Secom Co Ltd 雑音抑圧装置
US20110288860A1 (en) 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
US9641934B2 (en) * 2012-01-10 2017-05-02 Nuance Communications, Inc. In-car communication system for multiple acoustic zones
US20130275873A1 (en) * 2012-04-13 2013-10-17 Qualcomm Incorporated Systems and methods for displaying a user interface
US9305567B2 (en) * 2012-04-23 2016-04-05 Qualcomm Incorporated Systems and methods for audio signal processing
JPWO2014136628A1 (ja) * 2013-03-05 2017-02-09 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
WO2014194273A2 (en) * 2013-05-30 2014-12-04 Eisner, Mark Systems and methods for enhancing targeted audibility
US9449594B2 (en) * 2013-09-17 2016-09-20 Intel Corporation Adaptive phase difference based noise reduction for automatic speech recognition (ASR)
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
CN105845150B (zh) * 2016-03-21 2019-09-27 福州瑞芯微电子股份有限公司 一种采用倒谱进行修正的语音增强方法及系统
CN105788607B (zh) * 2016-05-20 2020-01-03 中国科学技术大学 应用于双麦克风阵列的语音增强方法
CN106971740B (zh) * 2017-03-28 2019-11-15 吉林大学 基于语音存在概率和相位估计的语音增强方法

Also Published As

Publication number Publication date
US11176957B2 (en) 2021-11-16
EP3669356A1 (en) 2020-06-24
JP2020533619A (ja) 2020-11-19
US20210134311A1 (en) 2021-05-06
JP7052008B2 (ja) 2022-04-11
CN111226278A (zh) 2020-06-02
CN111226278B (zh) 2023-08-25
EP3669356B1 (en) 2024-07-03
WO2019035835A1 (en) 2019-02-21

Similar Documents

Publication Publication Date Title
US8706483B2 (en) Partial speech reconstruction
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
JP5097504B2 (ja) 音声信号のモデルベース強化
EP2151821B1 (en) Noise-reduction processing of speech signals
EP1547061B1 (en) Multichannel voice detection in adverse environments
US8073689B2 (en) Repetitive transient noise removal
US6173258B1 (en) Method for reducing noise distortions in a speech recognition system
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
US20070033020A1 (en) Estimation of noise in a speech signal
US20090177468A1 (en) Speech recognition with non-linear noise reduction on mel-frequency ceptra
JP5649488B2 (ja) 音声判別装置、音声判別方法および音声判別プログラム
CN111128213A (zh) 一种分频段进行处理的噪声抑制方法及其系统
CN105103230B (zh) 信号处理装置、信号处理方法、信号处理程序
Kumar Comparative performance evaluation of MMSE-based speech enhancement techniques through simulation and real-time implementation
CN112951259A (zh) 音频降噪方法、装置、电子设备及计算机可读存储介质
JP4858663B2 (ja) 音声認識方法及び音声認識装置
US11176957B2 (en) Low complexity detection of voiced speech and pitch estimation
US9875755B2 (en) Voice enhancement device and voice enhancement method
US20230095174A1 (en) Noise supression for speech enhancement
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
Graf et al. Low-Complexity Pitch Estimation Based on Phase Differences Between Low-Resolution Spectra.
Pacheco et al. Spectral subtraction for reverberation reduction applied to automatic speech recognition
Graf Design of Scenario-specific Features for Voice Activity Detection and Evaluation for Different Speech Enhancement Applications
Zhang Two-channel noise reduction and post-processing for speech enhancement

Legal Events

Date Code Title Description
E902 Notification of reason for refusal