KR20060007363A - 백엔드 음성 활동 검출 장치 및 방법을 이용한 분산스피치 인식 - Google Patents

백엔드 음성 활동 검출 장치 및 방법을 이용한 분산스피치 인식 Download PDF

Info

Publication number
KR20060007363A
KR20060007363A KR1020057002294A KR20057002294A KR20060007363A KR 20060007363 A KR20060007363 A KR 20060007363A KR 1020057002294 A KR1020057002294 A KR 1020057002294A KR 20057002294 A KR20057002294 A KR 20057002294A KR 20060007363 A KR20060007363 A KR 20060007363A
Authority
KR
South Korea
Prior art keywords
speech
speech recognition
recognition features
input
mel frequency
Prior art date
Application number
KR1020057002294A
Other languages
English (en)
Inventor
텐카시 라마바드란
Original Assignee
모토로라 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 인코포레이티드 filed Critical 모토로라 인코포레이티드
Publication of KR20060007363A publication Critical patent/KR20060007363A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Traffic Control Systems (AREA)

Abstract

분산 음성 인식 시스템에서, 백엔드 패턴 매칭 유닛(27)은 백엔드 음성 활동 검출기(25)를 사용하여 개발된 음성 활동 검출 정보를 통지받을 수 있다. 시스템의 프론트 엔드에 의해 특정 음성 활동 검출 정보가 개발되거나 전송되지 않지만, 그럼에도 불구하고 시스템의 프론트 엔드에 의해 개발된 해당 음성 인식 특징들의 주어진 세트에 있는 음성의 존재 유무를 비교적 정확하게 확인하기 위해 백엔드에서 개발된 프리커서 정보가 음성 활동 검출기에 의해 사용될 수 있다.
분산 음성 인식 시스템, 백엔드, 프론트 엔드, 프리커서 정보

Description

백엔드 음성 활동 검출 장치 및 방법을 이용한 분산 스피치 인식{DISTRIBUTED SPEECH RECOGNITION WITH BACK-END VOICE ACTIVITY DETECTION APPARATUS AND METHOD}
본 발명은 일반적으로 스피치 인식(speech recognition)에 관한 것으로, 특히 분산 스피치 인식에 관한 것이다.
스피치 인식은 본 기술분야에 공지되어 있다. 일반적으로, 스피치 오디오 입력은 디지털화된 후 스피치 입력에 포함된 특정 스포큰 워드들(spoken words)의 식별(identification)을 용이하게 하도록 처리된다. 하나의 접근법에 따르면, 디지털화된 스피치로부터 소위 특징들이 추출된 후 이전에 저장된 패턴들에 대하여 비교되어 스피치 콘텐트의 그러한 인식을 가능하게 한다. 또한, 2가지의 상이한 프로세싱 유닛을 통해 특징 추출 및 패턴 매칭 활동들을 파싱(parsing) 또는 분산하는 것이 공지되어 있다. 예를 들어, ETSI(European Technical Standards Institute)는 표준 ES 201 108, Ver. 1.1.2 April 2000에서, 셀룰라 핸드셋과 같은 휴대용 장치가 특징 추출 기능을 실행하고 결과로서의 특징들을 고정 엔드 플랫폼에 전송하고 나서 패턴 매칭 기능을 용이하게 하는 분산 스피치 인식 시스템을 제안하고 있다.
또한, 일반적으로 패턴 매칭은 입력이 스피치나 논스피치(non-speech) 오디오 입력중 어느 하나로서 정확하게 특성지어질 수 있는 경우에 보다 성공적으로 달성될 수 있다는 것이 공지되어 있다. 예를 들어, 오디오 입력의 주어진 세그먼트를 논스피치라고 식별하기 위해 정보가 이용되는 경우, 예를 들어 특정 논스피치 세그먼트에 매치되는 패턴을 제거함으로써 패턴 매칭 활동의 기능에 긍정적으로 영향을 미치기 위해 그 정보가 사용될 수 있다. 불행히도, 음성 활동 검출의 이점들은 상술된 ETSI 표준과 같은 분산 스피치 인식 시스템들에서 보편적으로 이용가능하지 않다. 대신, 스피치 콘텐트 특징들(speech content features)은 임의의 음성 활동 검출 정보 없이 원격 패턴 매칭 플랫폼으로 전송된다.
상기 요구들은, 특히 도면과 함께 설명되는 경우, 이하의 상세한 설명에 기재되어 있는 백엔드 음성 활동 검출을 갖는 분산 스피치 인식 장치 및 방법의 제공을 통해 적어도 부분적으로 충족된다.
도 1은 분산 스피치 인식 시스템의 프론트 엔드 특징 추출기(front-end feature extractor)의 종래 구성을 도시한 도면.
도 2는 본 발명의 각종 실시예에 따라 구성되는 음성 활동 검출을 갖는 백엔드 패턴 매칭 플랫폼(back-end pattern matching platform)의 블록도.
도 3은 본 발명의 실시예에 따라 구성된 음성 활동 검출기의 블록도.
도면에 있는 요소들은 간략함 및 명료함을 위해 도시되고 일정한 비율로 그려질 필요가 없음을 당업자들은 이해할 것이다. 예를 들어, 본 발명의 각종 실시 예들의 보다 명확한 이해를 용이하게 하기 위해 공통 요소들이지만 상업적으로 이용가능한 실시예에서 유용하거나 필요한 잘 이해되는 요소들은 전형적으로 도시되지 않는다.
일반적으로, 이러한 각종 실시예들에 의하면, 스피치 인식 특징들을 초기에 산출한 프리커서 정보의 적어도 근사를 제공하기 위해 복수의 스피치 인식 특징이 처리된다. 이 프리커서 정보는 그 후 스피치에 유사하게 대응할 것 같은 부분들을 검출하고 대응하는 식별(identification)을 제공하도록 처리된다. 이러한 음성 검출 정보는 그 후 스피치 인식 특징들의 인식 프로세싱을 용이하게 하기 위해 사용된다.
일 실시예에서, 스피치 인식 특징들은 멜 주파수 켑스트럼 계수들(Mel frequency cepstral coefficients)을 포함한다. 일 실시예에서, 스피치 인식 특징들은 역이산 코사인 변환에 의해 처리되어 프리커서 정보의 근사를 제공하는데 사용되는 결과값들을 제공한다. 원한다면, 이러한 결과값들은 지수화에 의해 처리되어 프리커서 정보를 제공할 수 있다. 또 다른 실시예에서는, 잡음 정보에 대한 신호를 확인하기 위해 스피치 인식 특징들이 처리될 수 있는데, 상기 정보는 스피치 인식 특징들의 인식 프로세싱을 보조하기 위해, 다른 음성 활동 검출 정보와 함께 또는 단독으로 사용된다.
이와 같이 구성되면, 분산 스피치 인식 시스템의 패턴 매칭 활동은 이러한 음성 활동 검출 정보가 특징 추출 프론트 엔드에 의해 초기에 전송되지 않았다는 사실에 관계없이 음성 활동 검출 정보로부터 이익을 얻을 수 있다. 이에 의해 인식이 개선되고 및/또는 전력 및/또는 프로세싱 요구사항이 감소될 수 있다.
본 발명에 따른 각종 실시예들을 제시하기 전에, 분산 스피치 인식 시스템에 대한 프론트 엔드 특징 추출의 예를 우선 제시하는 것이 도움이 될 것이다. 그러면 이러한 예는 몇몇 특정 실시예들을 제시하기 위한 유용한 환경을 제공할 것이다. 이제 도 1을 참조하면, 스피치와 같은 오디오 입력이 아날로그 디지털 컨버터(11)에서 디지털화된다.(선택적으로, 디지털화된 스피치는 본 기술분야에서 이해되는 DC-오프셋 제거 필터(도시하지 않음)를 통과할 수 있다). 그 후 프레이밍 유닛(12)이 디지털화된 스피치를 대응하는 프레임들로 파싱한다. 프레임 사이즈는 일반적으로 샘플링 주파수에 의존할 것이다. 예를 들어, 이전에 참조된 ETSI 분산 스피치 인식 표준은 상이한 샘플링 주파수들을 수용하고 있으며, 이것은 8, 11, 및 16 KHz이다. 이러한 3개의 샘플링 주파수들에 대한 적합한 프레임 사이즈는 각각 200, 256, 및 400 샘플이 될 것이다. 여기서, 로그 에너지 유닛(13)은 각 프레임에 대한 총 에너지의 자연 로그를 산출하여 Log-E 파라미터를 제공하며, 이것은 궁극적으로 분산 스피치 인식 시스템의 백엔드에 제공될 스피치 인식 특징들 중 하나를 포함한다.
프레임화된 정보는 필터 및 FFT(fast Fourier transform) 유닛(14)으로 제공된다. 특히, 프리 앰퍼시스 필터(pre-emphasis filter)는 스피치 콘텐트의 고주파 성분들을 강조한다. 상기 프리 앰퍼시스된 프레임들은 그 후 상기 플레임들과 동일 사이즈의 해밍 윈도우에 의해 윈도우화된다. 윈도우화된 프레임들은 그 후 FFT 에 의해 주파수 도메인으로 변환된다. FFT의 사이즈는 샘플링 주파수에 의존한다. 즉, 8 및 11 KHz일 경우 256이고, 16 KHz일 경우 512이다. 64Hz와 Fs/2 사이의 주파수 범위에서의 FFT 크기는 멜-필터링된 15이고, 여기서 Fs는 샘플링 주파수이다.
멜-필터링은 다음과 같이 성립될 수 있다. 우선, 주파수 범위는 이하의 식을 사용하여 멜-주파수 스케일로 와핑(warping)된다.
Figure 112005007217376-PCT00001
그 후 와핑된 주파수 범위는 23개의 사이즈가 동일하고 절반이 중첩된 밴드들(채널들 또는 빈(bin)들)로 분할된다. 예를 들어, Fs=8000 Hz이면, 64 Hz와 4000Hz 사이의 주파수 범위가 98.6과 20146.1 사이의 멜-주파수 범위로 와핑되고, 각 밴드폭이 170.6이고 각 밴드의 중심에서 85.3 떨어진 23개의 밴드들로 분할된다. 제1 밴드의 중심은 98.6+85.3=183.9에 위치되고, 마지막 밴드의 중심은 2146.1-85.3=2060.8에 위치된다. 이러한 중심들은 그 후 언와핑(un-warping)되고 근처 FFT 빈 주파수들로 라운딩(rounding)된다. 선형 주파수 도메인에서, 23개의 밴드들은 더이상 동일 사이즈가 아니라 각 밴드의 사이즈는 일반적으로 주파수가 증가함에 따라 증가한다. 각 밴드 내에 있는 FFT 크기는 삼각 웨이팅 윈도우(triangle weighting window)를 사용하여 결합된다(중심의 웨이트는 1.0이고, 어느 한쪽 단부는 0.0에 접근함).
그 후 멜-필터 뱅크 출력들은 (자연) 로그 함수(16)에 적용된다. 그 후 23개의 로그 값들은 이산 코사인 변환(DCT)(17)에 의해 변환되어 13개의 멜 주파수 켑스트럼 계수값(Mel frequency cepstral coefficient values) C0 내지 C12가 얻어진다. 본 실시예에서, C13 내지 C22 값들은 버려지고, 즉 계산되지 않는데, 그 이유는 그것들이 송신되지 않거나, 그렇지 않으면 백엔드 패턴 매칭 활동으로 제공되지 않을 것이기 때문이다.
멜 주파수 켑스트럼 계수 파라미터들 및 로그 E 파라미터는 그 후 양자화되고 그렇지 않으면 코더(18)에서 적절하게 코딩되어 원격 백엔드 패턴 매칭 플랫폼으로의 송신을 위해 선택된 무선 송신기에 제공된다.
상기 특징 추출 기능은 예를 들어 셀룰라 핸드셋과 같은 무선 송수신기 플랫폼에 용이하게 제공될 수 있다. 그렇게 구성되면, 핸드셋에 제공된 가청 스피치가 후속 원격 프로세싱을 위해 추출된 스피치 인식 특징들을 가질 수 있음을 알 수 있다. 제공된 예에서, 스피치 인식 특징들은 멜 주파수 켑스트럼 계수들 및 로그 E 파라미터를 포함한다. 이러한 특별한 예는 단지 예시를 위해 제공되었지만, 본 발명을 수행하기 위한 몇몇 실시예들의 상세한 설명을 제공하는 유용한 기반을 제공하기 위한 것임을 이해해야 한다. 제시된 것에 부가하여 또는 그 대신에, 추출될 수 있는 수많은 다른 스피치 인식 특징들이 존재한다. 본 발명의 테넌트(tenant)는 이러한 대안의 실시예들에도 적용가능하다.
도 2는 상술된 프론트 엔드 특징 추출 플랫폼과 함께 사용하기에 적합한 백엔드 패턴 매칭 플랫폼의 일반적 개관을 나타낸 블록도이다. 적합한 무선 수신기(21)는 상술된 프론트엔드 플랫폼에 의해 송신되는 스피치 인식 특징 정보를 수신 한다. 디코더(22)는 수신된 정보를 디코딩하여 상술된 스피치 인식 특징들을 특별히 복구한다. 이러한 특징들은 이하의 식으로 기술될 수 있는 역이산 코사인 변환 유닛(23)에 제공된다.
Figure 112005007217376-PCT00002
(상기 식에서 이용할 수 없는 켑스트럼 계수들 C13 내지 C22는 제로라고 가정함을 주의하라). 그후 결과로서의 Di값들은 지수화 유닛(exponentiation unit)(24)에서 지수화되어 다음과 같은 필터 뱅크 출력이 얻어진다.
Figure 112005007217376-PCT00003
상기와 같이 얻어진 필터 뱅크 출력들 F0 내지 F22는 물론, 단지 이전 절단 동작(earlier truncation operation)(예를 들어, C13 내지 C22 값들의 드로핑(dropping)) 및 멜 주파수 켑스트럼값 C0 내지 C12의 양자화로 인해 프론트 엔드에서 산출되는 원래 필터 뱅크 출력들의 근사가다. 이러한 필터 뱅크 출력들은 이제 도출되는 스피치 인식 특징들을 개발하는데 사용되었던 프리커서 정보의 근사를 나타낸다.
이러한 프리커서 정보는 프리커서 정보가 적어도 의미있는 양의 스피치를 포함하는를 검출하도록 작용하는 음성 활동 검출기(25)에 제공된다. 그 후 분할화 유닛(26)은 이러한 정보를 사용하여 하나 이상의 신호들을 패턴 매칭 유닛(27)으로 제공하는데, 신호들은 디코더(22)에 의해 패턴 매칭 유닛(27)에 제공되는 어떤 세 그먼트들이 스피치 콘텐트를 포함할 것 같은지를 식별한다.
이와 같이 구성되면, 패턴 매칭 유닛(27)은 스피치 인식 특징 정보를 처리할 수 있기 때문에 아마도 인식 품질 및 정확도의 증가, 및/또는 전력/프로세싱 감소를 위해서는 유사한 결과들을 달성할 필요가 있다.
원한다면, 음성 활동 검출기(25)는 또한 복구된 프리커서 정보를 처리하여 원래 오디오 입력에 대응하는 것으로서 신호대 잡음비(SNR)를 나타내는 신호를 개발할 수 있다. 이러한 정보는 또한 이미 상술한 것과 같이 마찬가지의 목적을 위해 패턴 매칭 유닛(27)에 의해 잠재적으로 사용가능하다.
이제 도 3을 참조하면, 예시적인 음성 활동 검출기(25)의 보다 상세한 설명이 제공될 것이다. 상술된 필터 뱅크 출력들 F0 내지 F22는 현채 입력 프레임에 대한 상이한 주파수 밴드들 또는 채널들에서 평균 스펙트럼 크기 추정량으로서 간주될 수 있다. m번째 프레임 및 i번째 채널에 대한 필터 출력을 F(m,i)로 표현할 것이고, 특정 채널이 중요하지 않으면, m번째 프레임에 대한 모든 필터 뱅크 출력들의 집합을 F(m)으로 표현할 것이다. 이러한 값들을 입력으로 사용하여, 채널 에너지 추정기(30)는 다음과 같은 채널 에너지들의 평활화된 추정량을 제공한다.
Figure 112005007217376-PCT00004
여기서, Ech(m,i)는 m번째 프레임 및 i번째 채널에 대한 평활화된 채널 에너지 추정량이고, Emin은 최소 허용가능한 채널 에너지이고, {λi, i=0, 1, ..., 22}는 프리 앰퍼시스 필터의 효과 및 멜-필터링에서 사용되는 삼각 웨이팅 윈도우들의 가변 폭들를 보상하기 위한 보정 팩터들이며, αch(m)은 다음과 같이 정의되는 채널 에너지 평활화 팩터이다.
Figure 112005007217376-PCT00005
이것은, αch(m)이 제1 프레임(m=1)에 대해 제로의 값을 가정하고 모든 후속 프레임들에 대해 0.45의 값을 가정한다는 것을 의미한다. 이에 의해, 채널 에너지 추정량은 제1 프레임의 필터링되지 않은 채널 에너지로 초기화된다. 바람직한 실시예에서, Emin=5000이고, (8kHz 샘플링 주파수에 대한) 보정 팩터 λi의 값은 23개 원소의 테이블 : {3.2811, 2,2510, 1.4051, 1.1038, 0.8867, 0.6487, 0.5482, 0.4163, 0.3234, 0.2820, 0.2505, 0.2036, 0.1680, 0.1397, 0.1179, 0.1080, 0.0931, 0.0763, 0.0674, 0.0636, 0.0546, 0.0478, 0.0046}에 있는 i번째 값에 의해 주어진다. 채널 에너지 추정량으로부터, 피크값 대 평균비 추정기(31)는 다음과 같이, P2A(m)으로 표시되는, 현재 프레임 m에 대한 피크값 대 평균비(Peak To Average Ratio)를 추정한다.
Figure 112005007217376-PCT00006
채널 에너지 추정량과 마찬가지로, 채널 잡음 에너지 추정량(이하와 같이 정 의됨)은, 바람직한 실시예에서, 아래와 같이 초기화된다.
Figure 112005007217376-PCT00007
Figure 112005007217376-PCT00008
여기서 En(m,i)는 m번째 프레임 및 i번째 채널에 대한 평활화된 잡음 에너지 추정량이고, INIT_FRAMES는 잡음만 있는 프레임들이라고 가정되는 초기 프레임들의 수이고, fupdate_flag는 이하에 정의된 강제 업데이트 플래그(forced update flag)이다. 바람직한 실시예에서, INIT_FRAMES=10, PEAK_TO_AVE_THLD=10이다.
현재 프레임 m, 및 모든 23개의 채널들에 대한 채널 에너지 추정량 및 채널 잡음 에너지 추정량은 각각 Ech(m) 및 En(m)으로 표시된다. 채널 에너지 추정량 Ech(m) 및 채널 잡음 에너지 추정량 En(m)은 다음과 같은 채널 SNR 추정기(32)에서 양자화된 채널 SNR(signal-to-noise ratio) 인덱스들을 추정하는데 사용된다.
Figure 112005007217376-PCT00009
여기서 σq(m,i),i=0,1,...22}는 모두 포함하여 0과 89 사이로 제한된다.
현재 프레임에 대한 채널 SNR 추정량 σq(m)으로부터, 현재 프레임에 대한 음성 메트릭 V(m)은 합으로서 음성 메트릭 계산기(33)에서 산출된다.
Figure 112005007217376-PCT00010
여기서 ν(k)는 이하와 같이 정의된 90개 원소의 음성 메트릭 테이블 ν의 k번째 값이다.
Figure 112005007217376-PCT00011
현재 프레임에 대한 채널 에너지 추정량 Ech(m)은 또한 스펙트럼 편차 추정기(34)에 대한 입력으로서 사용되는데, 스펙트럼 편차 추정기(34)는 이하와 같은 현재 프레임에 대한 스펙트럼 편차 ΔE(m)을 추정한다. 우선, 로그 에너지 스펙트럼은 이하와 같이 추정된다.
Figure 112005007217376-PCT00012
다음, 스펙트럼 편차 ΔE(m)는 현재 로그 에너지 스펙트럼과,
Figure 112005007217376-PCT00013
로 표시되는 평균 장기간의 로그 에너지 스펙트럼 사이의 절대값 차이의 합으로서 추정된다. 즉,
Figure 112005007217376-PCT00014
평균 장기간 로그 에너지 스펙트럼은 이하와 같이 초기화된다.
Figure 112005007217376-PCT00015
평균 장기간의 로그 에너지 스펙트럼은 이하와 같이 업데이트된다.
Figure 112005007217376-PCT00016
여기서, 파라미터 SIG_THLD(m)은 이하에 설명되는 양자화된 신호 SNR에 의존한다.
신호 SNR 추정기(35)는 다음과 같이 스피치 신호 SNR을 추정한다. 우선, 현재 프레임에 대한 총 잡음 에너지 Etn(m)는 채널 잡음 에너지들의 합으로서 산출된다. 즉,
Figure 112005007217376-PCT00017
다음, 순간적인 총 신호 에너지 Ets,inst(m)은 다음과 같이 산출된다.
Figure 112005007217376-PCT00018
순간적인 총 신호 에너지 Ets,inst(m)은 V(m)>SIG_THLD(m)인지를 검사함으로써 현재 프레임이 신호 프레임으로 결정되는 경우에만 상기와 같이 업데이트된다. 또 한, 상기 추정된 신호 에너지가 엄격한 의미에서 실제로 (신호+잡음) 에너지라는 것이 명백하다. Ets,inst(m)의 초기화는 다음과 같이 수행된다.
Figure 112005007217376-PCT00019
여기서, 바람직한 실시예에서는 INIT_SIG_ENRG의 값은 1.0E+09이다.
총 순간적인 신호 에너지 및 총 잡음 에너지가 산출되면, SNRinst(m)으로 표시되는 현재 프레임의 순간적인 신호대 잡음비는 다음과 같이 산출된다.
Figure 112005007217376-PCT00020
순간적인 SNR로부터, 평활화된 SNR은 다음과 같이 추정된다.
Figure 112005007217376-PCT00021
바람직한 실시예에서, 평활화 팩터 β의 상한 및 하한은 각각 LO_BETA=0.950, HI_BETA=0.998이다. SNR을 신호 에너지에 대한 (신호+잡음) 에너지 사이의 비로서 추정하기 때문에, 추정된 SNR의 최저값은 제로이다. 추정량은 SNR의 보다 높은 값들에 더 정확하고 SNR 값이 감소함에 따라 작아진다. 신호 SNR은 그 후 20개의 상이한 값들로 양자화된다.
Figure 112005007217376-PCT00022
양자화된 신호 SNR은 상이한 임계값들을 결정하기 위해 사용된다. 바람직한 실시예에서는, 예를 들어, 후속 프레임 SIG_THLD(m+1)에 대한 신호 임계값은 SNRq(m)을 20개 원소의 테이블{36, 43, 52, 62, 73, 86, 101, 117, 134, 153, 173, 194, 217, 242, 268, 295, 295, 295, 295, 295}로의 인덱스로서 사용하여 결정된다.
이 때, 음성 메트릭 V(m), 스펙트럼 편차 ΔE(m), 피크값 대 평균비 P2A(m), 및 양자화된 신호 SNR SNRq(m)은 업데이트 판정 결정기(36)로 입력된다. 이하의 의사 코드에 도시된 로직은 잡음 추정량 업데이트 판정이 이루어지는 방법을 증명한다. 또한, 강제 업데이트 판정이 이루어지는 방법을 증명한다(강제 업데이트 메카니즘은 음성 활동 검출기로 하여금 배경 잡음 레벨이 갑자기 증가할 때마다 잘못 분류된 배경 잡음을 스피치로 복구시킨다).
우선, 현재 프레임에 대한 업데이트 임계값 UPDATE_THLD(m)은 바람직한 실시예에서 {31, 32, 33, 34, 35, 36, 37, 37, 37, 37, 37, 37, 37, 37, 37, 38, 38, 38, 38, 38}로 주어지는 20개 원소의 테이블로의 인덱스로서 SNRq(m)을 사용하여 결 정된다. 업데이트 판정 결정 프로세스는 업데이트 플래그(update_flag) 및 강제 업데이트 플래그(fupdate_flag)를 클리어함으로써 시작한다. 이러한 플래그들은 이하의 의사 코드에서 예시된 바와 같이 특정 조건이 만족되면 설정된다.
Figure 112005007217376-PCT00023
상기 의사 코드에서 강제 업데이트 플래그(fupdate_flag)를 잘못 설정하는 업데이트 카운터(update_cnt)의 장기간의 "크리핑(creeping)"을 피하기 위해, 이하 에 도시된 바와 같이 히스테리시스 로직이 구현된다.
Figure 112005007217376-PCT00024
바람직한 실시예에서, 상기 사용된 (미리 정의되어 있지 않은) 상수들의 값들은 이하와 같다.
Figure 112005007217376-PCT00025
상기 참조된 업데이트 플래그가 주어진 프레임에 대해 설정될 때마다, 잡음 에너지 평활화기(37)를 사용하여 후속 프레임에 대한 채널 잡음 추정량이 업데이트된다.
Figure 112005007217376-PCT00026
후속 업데이트가 발생할 때까지 모든 장래의 프레임들에 대한 업데이트된 채널 잡음 추정량이 잡음 에너지 추정량 저장 장치(38)에 저장된다. 잡음 에너지 추정량 저장 장치(38) En(m)의 출력은 상술된 채널 SNR 추정기(32)에 대한 입력으로서 사용된다.
이제 음성 활동 결정기(39)의 동작이 설명될 것이다. 음성 메트릭 V(m) 및 양자화된 신호 SNR 값 SNRq(m)은 음성 활동 결정기(39)에 대한 입력으로서 작용한다. 제1 INIT_FRAMES 프레임들에 있어서, VAD_FLAG로 표시된 음성 활동 결정기의 출력은 FALSE로 설정되는데, 그 이유는 이러한 프레임들이 잠음만 있는 프레임들이라고 가정되기 때문이다. 이하의 프레임들에 있어서, 음성 활동 결정기는 다음과 같이 동작한다. 제1 단계로서, 양자화된 SNR 값은 현재 프레임에 대한 음성 메트릭 임계값 Vth, 행오버(hangover) 카운트 임계값 Hcnt, 및 버스트(burst) 카운트 임계값 Bcnt를 결정하기 위해 사용된다.
Figure 112005007217376-PCT00027
여기서, SNRq(m)은 개별적인 테이블들로의 인덱스로서 사용된다. 바람직한 실시예에서, 이러한 테이블들은 다음과 같이 정의된다:
Figure 112005007217376-PCT00028
그 후, 현재 프레임의 음성 활동은 음성 메트릭이 음성 메트릭 임계값을 초과하는지를 테스트함으로써 결정된다. 이러한 테스트의 출력이 TRUE이면, 현재 프레임은 "음성-활성(voice-active)"이라고 선언된다. 그렇지 않으면, 행오버 카운트 변수(hangover_count)가 테스트되어 그것이 1보다 크거나 같은지를 알아낸다. 이러한 테스트의 출력이 TRUE이면, 현재 프레임도 "음성-활성"이라고 선언된다. 모두의 테스트들의 출력들이 FALSE이면, 현재의 프레임은 "음성-비활성(voice-inactive)"이라고 선언된다. "행오버" 메카니즘은 일반적으로 다른 경우에 잡음으로서 분류될 수 있는 천천히 없어지는 스피치를 커버하기 위해 사용되고, 적극적인 음성 활동 검출에 의해 저하될 수 있는 스피치의 작은 갭들 또는 중단들을 막기 위해 사용될 수 있다. 행오버 메카니즘은 (burst_count 변수에 의해 카운트되는) 연속적인 "음성-활성" 프레임들의 수가 적어도 Bcnt, 즉 버스트 카운트 임계값과 같은 경우 활성화된다. 메카니즘을 활성화시키기 위해, 행오버 프레임들의 수는 Hcnt, 즉 행오버 카운트 임계값으로 설정된다. 음성 활동 결정기에 대한 의사 코드는 이 하와 같이 도시된다:
Figure 112005007217376-PCT00029
310으로부터의 변수 VAD_FLAG가 각 프레임에 대한 음성 활동 정보로서 출력된다. 선택적으로, 306으로부터의 양자화되지 않은 SNR값 SNR(m)도 출력된다.
이와 같이 구성되면, 분산 스피치 인식 시스템에 대한 원격 프론트 엔드에 의해 제공된 스피치 인식 특징들로부터 도출되는 프리커서 정보의 근사가 개발될 수 있고 그자체가 스피치 및 논스피치에 대응하는 스피치 인식 특징 정보의 부분들 을 식별하는데 도움을 주도록 사용된다. 공지되어 있는 종래 기술에 따르면, 역으로 이러한 정보는 개선된 인식 및/또는 개선된 논리 동작을 용이하게 하기 위해 백엔드 패턴 매칭의 활동들 및 기능을 알리는데 용이하게 사용된다. 요약하면, 음성 활동 검출의 이점들은 그러한 정보가 프론트 엔드의 제1 인스턴스에서 개발되지 않고 백엔드로 제공되었음에도 불구하고 분산 음성 인식 시스템의 백엔드로 제공된다. 대신, 프론트 엔드에 의해 제공된 정보는 초기에 프론트 엔드에서 나타난 후 음성 활동 검출 활동을 용이하게 하기 때문에, 적어도 정보를 근사화하도록 적어도 부분적으로 역처리된다.
본 기술 분야의 당업자들은 본 발명의 정신 및 범위로부터 벗어나지 않고 상술된 실시예들에 대해 다양한 수정, 변경, 및 조합이 이루어질 수 있으며, 이러한 수정, 변경 및 조합은 진보적인 개념의 범위 내에 있는 것으로 여겨져야 함을 이해할 것이다. 특히, 개시된 특정 실시예들은 단지 예시적이고, 본 발명의 필수적인 개념들은 다양한 분산 음성 인식 시스템들 및 컨텍스트에서 적용가능하고, 예시의 목적으로 개시된 실시예들에만 한정되는 것으로 여겨져서는 안된다는 것을 다시 강조한다.

Claims (20)

  1. 스피치의 인식을 용이하게 하는 방법으로서,
    복수의 스피치 인식 특징(speech recognition features)을 수신하는 단계;
    상기 복수의 스피치 인식 특징의 적어도 일부를 처리하여 상기 복수의 스피치 인식 특징을 산출한 프리커서 정보(precursor information)의 적어도 근사(approximation)를 제공하는 단계;
    프리커서 정보의 상기 적어도 근사를 처리하여 스피치에 대응할 것 같은 부분들을 검출하고 대응하는 스피치 부분들의 식별(identification)을 제공하는 단계;
    상기 복수의 스피치 인식 특징을, 적어도 부분적으로, 스피치 부분들의 상기 식별의 함수로서 처리하여 상기 스피치 인식 특징들의 적어도 일부에 의해 표시되는 스피치 콘텐트(speech content)의 인식을 용이하게 하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    복수의 스피치 인식 특징을 수신하는 상기 단계는 무선 채널을 통해 상기 복수의 스피치 인식 특징을 수신하는 단계를 포함하는 방법.
  3. 제1항에 있어서,
    복수의 스피치 인식 특징을 수신하는 상기 단계는 적어도 하나의 멜 주파수 켑스트럼 계수(Mel frequency cepstral coefficient)를 포함한 복수의 스피치 인식 특징을 수신하는 단계를 포함하는 방법.
  4. 제3항에 있어서,
    적어도 하나의 멜 주파수 켑스트럼 계수를 포함한 복수의 스피치 인식 특징을 수신하는 상기 단계는 복수의 멜 주파수 켑스트럼 계수를 수신하는 단계를 포함하는 방법.
  5. 제4항에 있어서,
    복수의 멜 주파수 켑스트럼 계수를 수신하는 상기 단계는 상기 프리커서 정보의 각 샘플에 대해 적어도 13개의 멜 주파수 켑스트럼 계수들을 수신하는 단계를 포함하는 방법.
  6. 제1항에 있어서,
    상기 복수의 스피치 인식 특징의 적어도 일부를 처리하여 상기 복수의 스피치 인식 특징을 산출한 프리커서 정보(precursor information)의 적어도 근사를 제공하는 단계는, 역이산 코사인 변환(inverse discrete cosine transformation)에 의해 상기 복수의 스피치 인식 특징의 적어도 일부를 처리하여 복수의 결과값을 제공하는 단계를 포함하는 방법.
  7. 제6항에 있어서,
    역이산 코사인 변환에 의해 상기 복수의 스피치 인식 특징의 적어도 일부를 처리하는 상기 단계는, 지수화(exponentiation)에 의해 상기 결과값들중 적어도 하나를 처리하는 단계를 더 포함하는 방법.
  8. 제1항에 있어서,
    프리커서 정보의 상기 적어도 근사를 처리하여 상기 복수의 스피치 인식 특징을 산출한 상기 스피치에 대응할 것 같은 신호대 잡음비 값들을 결정하는 단계를 더 포함하는 방법.
  9. 제1항에 있어서,
    상기 복수의 스피치 인식 특징을, 적어도 부분적으로, 스피치 부분들의 상기 식별의 함수로서 처리하여 상기 스피치 인식 특징들의 적어도 일부에 의해 표시되는 스피치 콘텐트의 인식을 용이하게 하는 상기 단계는, 상기 복수의 스피치 인식 특징을, 적어도 부분적으로, 스피치 부분들의 상기 식별 및 상기 신호대 잡음비 값들의 함수로서 처리하여 상기 스피치 인식 특징들의 적어도 일부에 의해 표시되는 스피치 콘텐트의 인식을 용이하게 하는 단계를 더 포함하는 방법.
  10. 분산 스피치 인식을 용이하게 하는데 사용되는 장치로서,
    프리커서 정보로부터 도출되는 스피치 인식 특징들을 수신하도록 동작가능하게 결합된 입력을 갖고, 스피치에 대응할 것 같은 상기 프리커서 정보의 적어도 근사의 각 샘플을 식별하는 스피치 검출 신호를 제공하는 적어도 제1 출력을 갖는 음성 활동 검출기(voice activity detector);
    상기 음성 활동 검출기의 상기 제1 출력에 동작가능하게 결합되는 입력을 갖고, 스피치에 대응할 것 같은 상기 프리커서 정보의 상기 적어도 근사의 일부들을 식별하는 스피치 검출 신호를 제공하는 출력을 갖는 분할화 유닛(segmentation unit); 및
    상기 스피치 인식 특징들 및 상기 스피치 검출 신호를 수신하도록 동작가능하게 결합된 입력들을 갖고, 상기 스피치 인식 특징들에 대응하는 인식된 스피치를 제공하는 출력을 갖는 패턴 매칭 유닛(pattern matching unit)
    을 포함하는 장치.
  11. 제10항에 있어서,
    상기 음성 활동 검출기는 상기 복수의 스피치 인식 특징을 산출한 상기 스피치에 대응하는 신호대 잡음비 신호를 제공하는 제2 출력을 더 포함하는 장치.
  12. 제11항에 있어서,
    상기 패턴 매칭 유닛은 상기 신호대 잡음비 신호를 수신하도록 동작가능하게 결합된 입력을 더 포함하는 장치.
  13. 제10항에 있어서,
    상기 스피치 인식 특징들은 복수의 멜 주파수 켑스트럼 계수를 포함하는 장치.
  14. 제13항에 있어서,
    상기 음성 활동 검출기는 상기 프리커서 정보의 상기 적어도 근사를 제공하기 위해 상기 복수의 멜 주파수 켑스트럼 계수의 사용을 용이하게 하는 역이산 코사인 변환 수단을 포함하는 장치.
  15. 제14항에 있어서,
    상기 음성 활동 검출기는 상기 프리커서 정보의 상기 적어도 근사를 제공하기 위해 상기 멜 주파수 켑스트럼 계수들의 사용을 더 용이하게 하는 지수화 수단을 더 포함하는 장치.
  16. 제10항에 있어서,
    코딩된 비트 스트림을 수신하도록 동작가능하게 결합된 입력 및 상기 스피치 인식 특징들을 제공하는 출력을 갖는 디코더를 더 포함하는 장치.
  17. 제16항에 있어서,
    상기 디코더에 동작가능하게 결합되어 있는 무선 수신기를 더 포함하는 장치.
  18. 복수의 입력 샘플로부터 도출되는 정보를 포함하는 비트 스트림을 포함한 신호를 무선 채널을 통해 수신하는 단계;
    상기 비트 스트림을 디코딩하여 입력 샘플들의 각 프레임에 대응하는 에너지의 로그값 및 13개의 멜 주파수 켑스트럼 계수들을 복구하는 단계;
    역이산 코사인 변환 및 지수화를 사용하여 상기 멜 주파수 켑스트럼 계수들을 스펙트럼 표시로 변환하는 단계;
    상기 스펙트럼 표시를 사용하여 스피치를 포함할 것 같은 부분들을 식별하는 단계; 및
    상기 멜 주파수 켑스트럼 계수들, 상기 입력 샘플들의 각 프레임에 대한 로그값, 및 스피치를 포함할 것 같은 부분들을 식별하는 정보를 사용하여 상기 입력의 스피치 콘텐트를 인식하는 패턴 매칭 프로세스를 용이하게 하는 단계
    를 포함하는 방법.
  19. 제18항에 있어서,
    상기 입력의 상기 스펙트럼 표시를 사용하여 신호대 잡음비 값들을 결정하는 단계를 더 포함하는 방법.
  20. 제19항에 있어서,
    상기 멜 주파수 켑스트럼 계수들, 상기 입력 샘플들의 각 프레임에 대한 로그값, 및 스피치를 포함할 것 같은 입력 부분들을 식별하는 정보를 사용하여 상기 입력의 스피치 콘텐트를 인식하는 패턴 매칭 프로세스를 용이하게 하는 상기 단계는, 상기 멜 주파수 켑스트럼 계수들, 상기 각 샘플들에 대한 상기 로그값, 스피치를 포함할 것 같은 상기 입력의 부분들을 식별하는 상기 정보, 및 상기 신호대 잡음비 값들을 사용하여 상기 입력의 스피치 콘텐트를 인식하는 패턴 매칭 프로세스를 용이하게 하는 단계를 포함하는 방법.
KR1020057002294A 2002-08-09 2003-08-01 백엔드 음성 활동 검출 장치 및 방법을 이용한 분산스피치 인식 KR20060007363A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/215,810 US7024353B2 (en) 2002-08-09 2002-08-09 Distributed speech recognition with back-end voice activity detection apparatus and method
US10/215,810 2002-08-09

Publications (1)

Publication Number Publication Date
KR20060007363A true KR20060007363A (ko) 2006-01-24

Family

ID=31494940

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057002294A KR20060007363A (ko) 2002-08-09 2003-08-01 백엔드 음성 활동 검출 장치 및 방법을 이용한 분산스피치 인식

Country Status (10)

Country Link
US (1) US7024353B2 (ko)
EP (1) EP1540645A4 (ko)
JP (1) JP2005535920A (ko)
KR (1) KR20060007363A (ko)
CN (1) CN1675684A (ko)
AU (1) AU2003254288A1 (ko)
MX (1) MXPA05001593A (ko)
RU (1) RU2005106251A (ko)
WO (1) WO2004015685A2 (ko)
ZA (1) ZA200500792B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100791349B1 (ko) * 2005-12-08 2008-01-07 한국전자통신연구원 분산 음성 인식 시스템에서 음성 신호의 코딩 방법 및 그장치

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6560445B1 (en) * 1999-10-22 2003-05-06 General Dynamics Decision Systems, Inc. Radio communication system and method of operation
GB2422279A (en) * 2004-09-29 2006-07-19 Fluency Voice Technology Ltd Determining Pattern End-Point in an Input Signal
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
WO2006136179A1 (en) * 2005-06-20 2006-12-28 Telecom Italia S.P.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
US8417518B2 (en) * 2007-02-27 2013-04-09 Nec Corporation Voice recognition system, method, and program
US8374851B2 (en) * 2007-07-30 2013-02-12 Texas Instruments Incorporated Voice activity detector and method
US20090150144A1 (en) * 2007-12-10 2009-06-11 Qnx Software Systems (Wavemakers), Inc. Robust voice detector for receive-side automatic gain control
GB2471811B (en) * 2008-05-09 2012-05-16 Fujitsu Ltd Speech recognition dictionary creating support device,computer readable medium storing processing program, and processing method
US9037474B2 (en) 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
JP5712220B2 (ja) * 2009-10-19 2015-05-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声活動検出のための方法および背景推定器
US20110103370A1 (en) 2009-10-29 2011-05-05 General Instruments Corporation Call monitoring and hung call prevention
US9165567B2 (en) 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
EP3726530B1 (en) * 2010-12-24 2024-05-22 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
KR101251373B1 (ko) 2011-10-27 2013-04-05 한국과학기술연구원 음원 분류 장치 및 그 방법
US8615221B1 (en) 2012-12-06 2013-12-24 Google Inc. System and method for selection of notification techniques in an electronic device
CN104715761B (zh) * 2013-12-16 2018-03-30 深圳市梦网百科信息技术有限公司 一种音频有效数据检测方法和系统
US9037455B1 (en) * 2014-01-08 2015-05-19 Google Inc. Limiting notification interruptions
CN103778914B (zh) * 2014-01-27 2017-02-15 华南理工大学 基于信噪比加权模板特征匹配的抗噪语音识别方法及装置
CN107293287B (zh) * 2014-03-12 2021-10-26 华为技术有限公司 检测音频信号的方法和装置
EP3117210A4 (en) * 2014-03-12 2017-11-01 University Of Virginia Patent Foundation Compositions and methods for treating eye infections and disease
US9489958B2 (en) * 2014-07-31 2016-11-08 Nuance Communications, Inc. System and method to reduce transmission bandwidth via improved discontinuous transmission
US9691413B2 (en) * 2015-10-06 2017-06-27 Microsoft Technology Licensing, Llc Identifying sound from a source of interest based on multiple audio feeds
US10070220B2 (en) * 2015-10-30 2018-09-04 Dialog Semiconductor (Uk) Limited Method for equalization of microphone sensitivities
CN105513589B (zh) * 2015-12-18 2020-04-28 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10090005B2 (en) * 2016-03-10 2018-10-02 Aspinity, Inc. Analog voice activity detection
CN107919130B (zh) * 2017-11-06 2021-12-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
US10861484B2 (en) * 2018-12-10 2020-12-08 Cirrus Logic, Inc. Methods and systems for speech detection
CN112489692A (zh) * 2020-11-03 2021-03-12 北京捷通华声科技股份有限公司 语音端点检测方法和装置
CN113345473B (zh) * 2021-06-24 2024-02-13 中国科学技术大学 语音端点检测方法、装置、电子设备和存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1129486A (zh) * 1993-11-30 1996-08-21 美国电报电话公司 通信系统中降低传输噪声的方法
US6104993A (en) 1997-02-26 2000-08-15 Motorola, Inc. Apparatus and method for rate determination in a communication system
KR20000068922A (ko) * 1997-09-10 2000-11-25 요트.게.아. 롤페즈 통신 시스템 및 터미널
US6003004A (en) * 1998-01-08 1999-12-14 Advanced Recognition Technologies, Inc. Speech recognition method and system using compressed speech data
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
JP2001236085A (ja) * 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US7089178B2 (en) * 2002-04-30 2006-08-08 Qualcomm Inc. Multistream network feature processing for a distributed speech recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100791349B1 (ko) * 2005-12-08 2008-01-07 한국전자통신연구원 분산 음성 인식 시스템에서 음성 신호의 코딩 방법 및 그장치

Also Published As

Publication number Publication date
US7024353B2 (en) 2006-04-04
EP1540645A4 (en) 2006-05-31
ZA200500792B (en) 2006-07-26
MXPA05001593A (es) 2005-09-20
RU2005106251A (ru) 2005-10-10
WO2004015685A2 (en) 2004-02-19
US20040030544A1 (en) 2004-02-12
WO2004015685A3 (en) 2004-07-15
AU2003254288A8 (en) 2004-02-25
EP1540645A2 (en) 2005-06-15
AU2003254288A1 (en) 2004-02-25
CN1675684A (zh) 2005-09-28
JP2005535920A (ja) 2005-11-24

Similar Documents

Publication Publication Date Title
KR20060007363A (ko) 백엔드 음성 활동 검출 장치 및 방법을 이용한 분산스피치 인식
Aneeja et al. Single frequency filtering approach for discriminating speech and nonspeech
EP1083541B1 (en) A method and apparatus for speech detection
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
Karray et al. Towards improving speech detection robustness for speech recognition in adverse conditions
US10074384B2 (en) State estimating apparatus, state estimating method, and state estimating computer program
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
EP1390944A1 (en) System and method for transmitting speech activity in a distributed voice recognition system
WO2000017859A1 (en) Noise suppression for low bitrate speech coder
US9280982B1 (en) Nonstationary noise estimator (NNSE)
Morales-Cordovilla et al. Feature extraction based on pitch-synchronous averaging for robust speech recognition
Parihar et al. Analysis of the Aurora large vocabulary evaluations.
Dekens et al. Speech rate determination by vowel detection on the modulated energy envelope
US20170263263A1 (en) Discrimination and attenuation of pre echoes in a digital audio signal
Heese et al. Speech-codebook based soft voice activity detection
KR100284772B1 (ko) 음성 검출 장치 및 그 방법
Kim et al. Speech enhancement of noisy speech using log-spectral amplitude estimator and harmonic tunneling
RU2174714C2 (ru) Способ выделения основного тона
KR100434538B1 (ko) 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법
US20220199074A1 (en) A dialog detector
Yuxin et al. A voice activity detection algorithm based on spectral entropy analysis of sub-frequency band
Kim et al. Enhancement of noisy speech for noise robust front-end and speech reconstruction at back-end of DSR system.
Yingle et al. Speech endpoint detection based on speech time-frequency enhancement and spectral entropy
Macho et al. On the use of wideband signal for noise robust ASR
Zhu et al. Lbp based recursive averaging for babble noise reduction applied to automatic speech recognition

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid