KR100667008B1 - 개선된 오디오신호의 음성/잡음 분류를 위한 복합신호활동 검출 - Google Patents

개선된 오디오신호의 음성/잡음 분류를 위한 복합신호활동 검출 Download PDF

Info

Publication number
KR100667008B1
KR100667008B1 KR1020017006424A KR20017006424A KR100667008B1 KR 100667008 B1 KR100667008 B1 KR 100667008B1 KR 1020017006424 A KR1020017006424 A KR 1020017006424A KR 20017006424 A KR20017006424 A KR 20017006424A KR 100667008 B1 KR100667008 B1 KR 100667008B1
Authority
KR
South Korea
Prior art keywords
audio signal
noise
information
signal
value
Prior art date
Application number
KR1020017006424A
Other languages
English (en)
Other versions
KR20010078401A (ko
Inventor
조나스 스베드베르그
에릭 에쿠덴
안데르스 우브리덴
인게마르 조한손
Original Assignee
텔레포나크티에볼라게트 엘엠 에릭슨(피유비엘)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=26807081&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR100667008(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 텔레포나크티에볼라게트 엘엠 에릭슨(피유비엘) filed Critical 텔레포나크티에볼라게트 엘엠 에릭슨(피유비엘)
Publication of KR20010078401A publication Critical patent/KR20010078401A/ko
Application granted granted Critical
Publication of KR100667008B1 publication Critical patent/KR100667008B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Abstract

오디오신호가 정보(122, 124, 125)를 포함하는지를 결정함으로써 오디오신호의 엔코딩 동안에 지각적으로 관련있는 비-음성 정보를 보존할 수 있다. 만일 오디오신호가 정보를 포함한다면, 오디오신호의 음성/잡음 분류가 무시되어(43) 오디오신호를 잡음으로 잘못 분류하는 것을 방지한다.
오디오신호, 음성, 잡음, 비-음성, 엔코딩, 디코딩, 에너지, 지각적, 오분류

Description

개선된 오디오신호의 음성/잡음 분류를 위한 복합신호 활동 검출{COMPLEX SIGNAL ACTIVITY DETECTION FOR IMPROVED SPEECH/NOISE CLASSIFICATION OF AN AUDIO SIGNAL}
35 USC 119(e)(1) 하에서, 본 출원은 1998년 11월 23일에 출원되어 계류중인 미합중국특허 가출원 60/109,556호의 우선권을 주장한다.
본 발명은 오디오신호 압축에 관한 것으로서, 특히 오디오 압축 동안에 음성/잡음 분류에 관한 것이다.
통상적으로, 무선송신기와 무선수신기에 음성 코더와 디코더들이 제공되어, 무선링크를 통해 소정의 송신기와 수신기 간에 음성(대화) 통신이 이루어질 수 있도록 동작한다. 음성 코더와 음성 디코더의 조합은 종종 음성 코덱(codec)으로 부른다. 이동 무선전화(예컨대, 셀룰러 전화)는 음성 코더를 가지는 무선송신기와 음성 디코더를 가지는 무선수신기를 포함하는 통상적인 통신장치의 예이다.
통상적인 블록-기반(block-based) 음성 코더에 있어서, 입력 음성신호는 프레임이라고 부르는 블록들로 나뉘어진다. 공통적인 4㎑ 전화 대역폭 응용장치에 있어서, 전형적인 프레임 길이는 20ms 또는 160 샘플이다. 이들 프레임들은 전형적으로 길이 5ms 또는 40 샘플들의 서브프레임으로 더 나뉘어진다.
입력 오디오신호를 압축할 때에, 음성 엔코더들은 통상적으로 높은 손실 압축기술을 사용한다. 압축된(또는 코드화된) 신호정보는 무선링크와 같은 통신채널을 통해 디코더로 전송된다. 그런다음, 디코더는 압축된 신호정보로부터 입력 오디오신호를 재생할려고 시도한다. 만일 입력 오디오신호의 특정 특성을 안다면, 통신채널에서 비트율은 가능한 낮게 유지할 수 있다. 만일 오디오신호가 청취자에 대한 관련 정보를 포함한다면, 이 정보를 존속시켜야만 한다. 그러나, 만일 오디오신호가 관련없는 정보(예컨대, 배경잡음)만을 포함한다면, 제한된 량의 정보만을 전송함으로써 신호에 대해 대역폭을 절약할 수 있다. 관련없는 정보만을 포함하는 많은 신호들에 대해, 매우 낮은 비트율은 종종 고품질의 압축을 제공할 수 있다. 극단적인 경우에 있어서, 입력 오디오신호가 관련 정보를 포함하는 것으로 결정되기 전까지 통신 채널을 통해 어떠한 정보 갱신없이 디코더에서 입력신호들을 합성할 수 있다.
매우 낮은 비트율로 매우 정확히 재생할 수 있는 전형적인 신호들은 정적인 잡음, 자동차 소음 및 왁자지껄한 소음을 포함한다. 음악, 또는 음악과 목소리가 혼합된 것과 같은 보다 복잡한 비음성 신호들은 디코더에 정확히 재생하기 위해서는 보다 높은 비트율을 필요로 한다.
많은 공통 유형의 배경잡음들에 대해, 음성을 위해 필요한 것보다 훨씬 더 낮은 비트율은 충분히 훌륭한 신호의 모델을 제공한다. 현존하는 이동 시스템들은 배경잡음 동안에 전송되는 비트율을 하향으로 조정함으로써 상기의 사실을 이용한다. 예컨대, 연속 전송 기술을 사용하는 통상적인 시스템에서, 가변율(variable rate:VR) 음성 코더는 가장 낮은 비트율을 사용할 수 있다.
통상적인 불연속 전송(Discontinuous Transmission;DTX) 방법에서, 스피커가 비활성이 될대 송신기는 코드화된 음성 프레임의 전송을 중단한다. 규칙적인 또는 불규칙적인 간격으로(예컨대, 매 100 내지 500ms), 송신기는 디코더에서 안락잡음(comfort noise)의 생성을 위해 적합한 음성 변수들을 전송한다. 안락잡음 생성(CNG)를 위한 이들 변수들은 통상적으로, 소위 침묵 서술자(Silence Descriptor;SID) 프레임이라고 부르는 프레임으로 코드화된다. 수신기에서, 디코더는 SID 프레임에서 수신된 안락잡음변수를 사용하여 통상적이 안락잡음 삽입( comfort noise injection:CNI) 알고리즘으로 인위잡음을 생성하다.
통상적인 DTX시스템에서 디코더에서 안락잡음이 생성되면, 상기 잡음은 매우 정적이고 또한 활성(비-DTX) 모드에서 생성되는 배경잡음과는 상당히 다른 것으로 인지된다. 이러한 인지의 원인은, DTX SID 프레임들이 정규 음성프레임만큼 자주 수신기로 전송되지 않기 때문이다. DTX 모드를 가지는 통상적인 선형 예측 합성에 의한 분석(linear prediction analysis-by-synthesis;LPAS) 코덱에서, 배경잡음의 스펙트럼과 에너지는 전형적으로 여러개의 프레임들에 대해 추정되고(예컨대, 평균), 추정된 변수들은 양자화되어 채널을 통해 SID 프레임 내에서 디코더로 전송된다.
정규 음성 프레임을 전송하는 대신에 비교적 낮은 갱신율로 SID 프레임을 전송하는 잇점은 두배이다. 예컨대, 이동 무선송수신기에서 배터리 수명은 낮은 전력 소모로 인해 연장되고, 송신기에 의해 발생되는 간섭은 낮아지므로, 높은 시스템 능력을 제공한다.
음악과 같은 복합신호를 상당히 간단한 압축모델과 상당히 낮은 대응하는 비트율을 사용하여 압축한다면, 디코더에서 재생되는 신호는 훨씬 좋은(높은 품질) 압축기술을 사용하여 얻을 수 있는 결과와는 상당히 다르게 될 것이다. 상당히 단순한 압축방법의 사용은 복합신호를 잡음으로서 오분류하는 것으로 말미암을 수 있다. 이러한 오분류는, 디코더가 품질이 떨어지는 재생신호를 출력하게 할 뿐만 아니라, 오분류 그 자체가 높음 품질 압축방법에서 낮은 품질 압축방식으로 전환되게 할 수 있다. 이러한 오분류를 정정하기 위하여, 높은 품질방법으로 다른 역전환이 필요하다. 압축방법들 간에 이러한 전환이 빈번히 발생하면, 이는 청취자가 들을 수 있게 되고 또한 매우 성가신 것이다.
상기의 관점에서 보면, 스피커가 침묵하는 동안에 배경잡음을 압축할 때에 적절한 낮은 비트율(높은 압축)을 유지하면서, 주 관련신호들의 오분류를 감소시키는 것이 바람직하다. 배경잡음이 성가신 것으로 인지되지 않는다면 매우 긴 압축기술을 사용할 수 있다. DTX 시스템에 관해 상기에서 기술한 것과 같은 안락잡음의 사용은, 무작위 여기 방법을 사용하는 통상적인 저비트율 선형 예측 코딩(LPC)에서와 같이 강력한 압축기술의 예다. 강력한 압축기술을 사용하는 이들과 같은 코딩기술은 전형적으로, 정적인 자동차 소음, 길거리 소음, 식당에서의 소음(왁자지껄함)과 다른 유사신호들과 같은 인지 가능한 단순한 잡음만을 정확하게 재생할 수 있다.
입력신호가 관련 정보를 포함하는지 여부를 결정하는 통상적인 분류기술은 주로, 비교적 단순한 입력 오디오신호의 정적인 분석을 기반으로 한다. 만일 입력신호가 정적인 것으로 결정되면, 이를 잡음형 신호로서 추정한다. 그러나, 이러한 통상적인 정적인 분석 하나로만은, 상당히 정적이지만 잡음으로서 잘못 분류될 수 있는 인지 가능한 관련 정보를 포함하는 복합신호를 야기할 수 있다. 이러한 오분류는 상기에서 설명한 문제점들을 일으킬 수 있다.
따라서, 상기에서 설명한 유형의 복합신호에서 인지 가능한 관련정보의 존재를 신뢰성있게 검출하는 분류기술을 제공하는 것이 바람직하다.
본 발명에 따라, 청취자에게 지각적으로 중요한 관련 정보를 포함하는 복합 비-음성 신호들을 신뢰성있게 검출하기 위해 복합신호 활동 검출이 제공된다. 신뢰성있게 검출할 수 있는 복합 비-음성 신호의 예들은, 음악, 보류 음악, 음성과 음악의 결합, 배경음악, 및 다른 음조 또는 조화음을 포함한다.
도 1은 본 발명에 따른 음성 엔코딩 장치의 관련부를 설명하는 도면.
도 2는 도 1의 복합신호 활동 검출기의 예시적인 실시예를 설명하는 도면.
도 3은 도 1의 음성 활동 검출기의 예시적인 실시예를 설명하는 도면.
도 4는 도 1의 행오버 논리의 예시적인 실시예를 설명하는 도면.
도 5는 도 2의 변수 발생기의 예시적인 동작을 설명하는 도면.
도 6은 도 2의 카운터 제어기의 예시적인 동작을 설명하는 도면.
도 7은 도 2의 한 부분의 예시적인 동작을 설명하는 도면.
도 8은 도 2의 다른 부분의 예시적인 동작을 설명하는 도면.
도 9는 도 3의 한 부분의 예시적인 동작을 설명하는 도면.
도 10은 도 3의 카운터 제어기의 예시적인 동작을 설명하는 도면.
도 11은 도 3의 다른 부분의 예시적인 동작을 설명하는 도면.
도 12는 도 1-11 실시예가 수행할 수 있는 예시적인 동작을 설명하는 도면.
도 13은 도 2의 복합신호 활동 검출기의 다른 실시예를 설명하는 도면.
도 1은 본 발명에 따른 음성 엔코딩 장치의 예시적인 실시예의 관련부를 설명하는 도면이다. 음성 엔코딩 장치는 무선 통신채널을 통해 오디오정보를 전송하는 무선 송수신기에 제공될 수 있다. 이러한 무선송수신의 한 예는 셀룰러 전화와 같은 이동 무선전화이다.
도 1에서, 입력 오디오신호가 복합신호 활동 검출기(complex signal activity detector;CAD)에 입력되고 또한 음성 활동 검출기(voice activity detector;VAD)에 입력된다. 복합신호 활동 검출기(CAD)는 오디오 입력신호에 감응하여 관련성 분석을 수행하여, 상기 입력신호가 청취자에게 지각적으로 관련이 있는 정보를 포함하는지를 결정하고, VAD에 신호 관련성 변수들의 셋트를 제공한다. VAD는 입력 오디오신호가 음성인지 아니면 잡음인지를 결정하기 위하여 수신한 오디오 입력신호와 함께 상기 신호 관련성 변수들을 사용한다. VAD는 음성/잡음 분류기로서 동작하고, 음성/잡음 표시를 출력으로서 제공한다. CAD는 입력으로서 음성/잡음 표시를 수신한다. CAD는 음성/잡음 표시와 입력 오디오신호에 감응하여, VAD가 제공하는 음성/잡음 표시를 입력으로서 수신하는 행오버(hangover) 논리 섹션에 출력되는 복합신호 플래그 셋트를 생성한다.
행오버 논리는, 통신채널의 타단에 있는 수신기 내 디코딩장치에 의해 출력되는 재생 오디오신호를 듣게되는 청취자에게 지각적으로 관련이 있는 정보를 입력 오디오신호가 포함하는지를 나타내는 출력을 제공하기 위해 복합신호 플래그와 음성/잡음 표시에 감응한다. 행오버 논리의 출력은 (DTX 시스템에서)DTX 동작을 적절히 제어하거나 또는 (가변율 VR 엔코더에서) 비트율을 적절히 제어하는데 사용할 수 있다. 만일 행오버 논리 입력이, 입력 오디오신호가 관련신호를 포함하지 않는다고 표시하면, 안락잡음을 (DTX 시스템에서) 생성할 수 있거나 또는 (VR 엔코더에서) 비트율을 낮출 수 있다.
(재처리할 수 있는) 입력신호는 특정 주파수 대역에서 신호의 상관에 대해 각 프레임으로부터 정보를 추출함으로써 CAD에서 분석된다. 이는 대역통과 필터 또는 고역 필터와 같은 적절한 필터로 신호를 먼저 필터링함으로써 이루어질 수 있다. 이 필터는 분석에서 관심을 가지는 해당 에너지의 대부분을 포함하는 주파수 대역을 가중한다. 전형적으로, 예컨대 자동차 잡음과 같은 잡음의 강한 저주파수 내용들을 덜 강조하기 위하여 저주파수 영역을 필터링하여야만 한다. 그런 다음, 필터링된 신호는 개방-루프 장주기 예측(open-loop long term prediction;LTP) 상광분석으로 진행한다. LPT 분석은 결과로서, 상관 시트프 당 하나의 값인 상관값들 또는 정규화된 이득값들의 벡터를 제공한다. 시프트 범위는 통상적인 LTP 분석에서와 같이 [20,147]일 수 있다. 바람직한 관련성 검출을 이루기 위한 다른, 낮은 복 잡도의 방법은 아래에서 설명하듯이, 상관 계산에서 필터링되지 않은 신호를 사용하고, 알고리즘적으로 유사한 "필터링"프로세스로 상관값들을 수정하는 것이다.
각 분석 프레임에 대해, 가장 큰 크기를 가지는 정규화된 상관값(이득값)을 선택하고 버퍼링한다. (선택된 상관값의 LTP 지연에 대응하는)시프트는 사용하지 않는다. 값들은 더 분석되어, 배경잡음 추정 프로세스에 사용하기 위해 VAD로 전송되는 신호 관련성 변수(Siganl Relevancy Parameter)의 벡터를 제공한다. 버퍼링된 상관값들은 또한 처리되어, 신호가 관련성이 있는지(즉, 지각적인 중요도를 가지는지)와 VAD 결정이 신뢰성이 있는지와 같은 결정적인 결정을 이루는데 사용될 수 있다. VAD_fail_long 및 VAD_fail-short와 같은 플래그 셋트가 생성되어, 지각적으로 관련성이 있는 정보가 실제로 존재할 때에 VAD가 심각한 오분류, 즉 잡음 분류를 만들게 될 것 같은 때를 나타낸다.
CAD 관련성 분석에서 계산된 신호 관련성 변수들은 VAD 방법의 성능을 강화시키는데 사용된다. VAD방법은, 신호가 (주변 잡음으로 품질이 저하되는) 음성신호인지 또는 잡음신호인지를 결정할려고 하는 것이다. 잡음에서부터 음성+잡음신호를 구분할 수 있도록 하기 위해, VAD는 통상적으로 잡음의 추정을 유지한다. VAD는 그 자신의 배경잡음의 추정들을 갱신하여 음성+잡음신호 분류에서 더 나은 결정을 하여야만 한다. CAD로부터의 관련성 변수들은 VAD 배경잡음과 활동 신호추정들이 어느정도까지 갱신되어야 하는지를 결정하는데 사용된다.
만일, VAD가 신뢰성이 있는 것으로 여겨지면, 행오버 논리는 신호의 관련성에 대한 이전 정보와 이전 VAD 결정을 사용하여 신호의 최종 결정을 조정한다. 핸 오버 논리의 출력은 신호가 관련성이 있는지 아니면 관련성 없는지에 대한 최종 결정이다. 관련성이 없는 경우에, 낮은 비트율을 엔코딩에 사용할 수 있다. DTX시스템에서, 이 관련성/비-관련성 정보는 현 프레임을 정규적인 방식(관련성)으로 코드화하여야 할지 또는 프레임을 안락잡음 변수(비-관련성)로 부호화 하여야 할지를 결정하는데 사용된다.
한 예시적인 실시예에서, 효율적인 낮은 복잡도의 CAD의 구현이, 선형 예측 합성에 의한 분석(LPAS) 구조를 사용하는 음성 코더에 제공된다. 음성 코더로 입력신호는 통상적인 방식(고역 통과 필터링, 스케일링 등)으로 조절된다. 그런 다음, 조절된 신호(s(n))는 LPAS 코더가 사용하는 통상적인 적응성 잡음 가중 필터로 필터링된다. LTP 분석은 범위 [Lmin, Lmax] 내에서 각 시프트에 대한 상관값들을 계산하여 저장한다. 이때, Lmin=18 이고 Lmax=147이다. 범위 내 각 지연값(시프트), L에 대해, 지연값 l의 상관 Rxx(k,l)은 다음과 같이 계산한다:
Figure 112001011835070-pct00001
(식 1)
여기에서 K는 분석프레임의 길이이다. 만일 k가 0(제로)에 설정된다면, 이는 지연 l에만 따른 함수로서 다음과 같이 쓸 수 있다:
Figure 112001011835070-pct00002
(식 2)
또한 다음과 정의할 수 있다.
Figure 112001011835070-pct00003
(식 3)
이들 절차들은 LPAS 코더에서 적응성 코드북 검색에 대한 사전-검색(pre- search)로 통상적으로 수행되고 그리고 추가적인 계산 비용없이 이용할 수 있다.
단일 탭 예측자(singel tap predictor)에 대한 최적 이득 인수 g_opt는 식에서 왜곡 D를 최소화함으로써 얻는다:
Figure 112001011835070-pct00004
(식 4)
최적 이득 인자 g_opt (정규화된 상관)은 D를 최소화하는 식 4에서 g의 값이고, 다음과 같이 주어진다.
Figure 112001011835070-pct00005
(식 5)
여기에서 L은 왜곡 D(식 4)가 최소화되는 지연이고, Exx(L)은 에너지이다. 복합신호 검출기는 가중된 신호 sw의 고역통과 필터링된 버전의 최적 이득(g_opt)를 계산한다. 예컨대, 고역통과 필터는 필터계수 [h0,h1]을 가지는 단순한 1차 필터일 수 있다. 한 실시예에서, 상관계산에 앞서 가중된 신호를 고역통과 필터링하는 대신에, 소정의 단순화된 방정식이 필터링된 신호 sw_f(n)을 사용하여 D(식 4 참조)를 최소화한다.
고역통과 필터링된 신호 sw_f(n)은 다음과 같이 주어진다.
Figure 112001011835070-pct00006
(식 7)
이 경우에, g_max(필터링된 신호의 g_opt)는 다음과 같이 얻을 수 있다:
Figure 112001011835070-pct00007
(식 8)
그러므로, 변수 g_max는 필터링된 신호 sw_f에 대해 새로운 Rxx를 계산하는 대신에, 필터링되지 않은 신호 sw로부터 얻는 RxxExx 값들을 사용하여 식 8에 따라 계산할 수 있다.
필터계수 [ho,h1]를 [1,-1]로서 선택하고, 지연을 정규화하는 분모 Lden를 Lden=0로 설정하면, g_max 계산은 다음과 같이 줄어든다:
Figure 112001011835070-pct00008
(식 9)
또 다른 단순화는 식 (8)의 분모에서 (최적 L-opt, 즉 식 4에서 최적 지연 대신에) Lden+(Lmin+1)에 대한 값들을 사용하고, 최대 검색에서 최대 L값을 Lmax-1로 제한하고 또한 최소 Lmin 값을 (Lmin+1)로 제한함으로써 얻는다. 이 경우에, 개방-루프 Ltp 분석으로부터 이미 이용할 수 있는 Rxx(l)값들 이외에 추가 상관계산들이 필요치 않다.
각 프레임에 대해, 가장 큰 크기를 가지는 이득값 g_max가 저장된다. 평활(smoothed)화된 변형 g_f(i)를 g_f(i)=b0 ·g_max(i)-a1 ·g_f(i-1)에 따라 각 프레임에 포함된 g_max 값을 필터링함으로써 얻을 수 있다. 몇몇 실시예에서, 필터계수 b0와 a1은 시변(time variant)일 수 있고 또한 상태와 입력 의존일 수 있어서 상태 포화(state saturation) 문제를 피할 수 있다. 예컨대, b0 및 a1은 각각 시간의 함수, g_max(i) 및 g_f(i-1)로 나타낼 수 있다. 즉,
b0=fb(t,g_max(i),g_f(i-1)) 및 a1=fa(t,g_max(i),g_f(i-1)).
신호 g_f(i)는 CAD 관련성 분석의 1차 산물(primary product)이다. g_f(i)의 상태와 히스토리를 분석함으로써, VAD 적응성에 도움에 제공되고 또한 행오버 논리 블록에 연산 표시가 제공된다.
도 2는 상기에서 설명한 도 1의 신호 활동 검출기의 예시적인 실시예를 설명한다. 재처리 섹션(reprocessing section)(21)은 입력신호를 재처리하여 상기에서 언급한 가중된 신호 sw(n)을 생성한다. 신호 sw(n)은 통상적인 상관 분석기(23), 예컨대, 개방-루프 장주기 예측(LTP) 상관 분석기에 인가된다. 상관 분석기(23)의 출력(22)은 통상적으로 입력으로서 24의 적응성 코드북 검색에 제공된다. 상기에서 설명하였듯이, 통상적인 상관 분석기(23)에서 사용되는 RxxExx 값들은 본 발명에 따라 g_f(i)를 계산하는데 이용할 수 있다.
Rxx 및 Exx 값들은 상기에서 설명한 것과 같이 g_max를 계산하는 25에 있는 최대 정규화 이득 계산기(20)에 제공된다. 각 프레임에 대해 가장 큰 크기(최대-크기) g_max 값이 계산기(20)에 의해 선택되어 버퍼(26)에 저장된다. 버퍼링된 값들은 상기에서 설명한 것과 같이 평활 필터(27)에 인가된다. 평활 필터(27)의 출력은 g_f(i)이다.
신호 g_f(i)는 변수 발생기(28)에 입력된다. 변수 발생기(28)는 입력신호 g_f(i)에 감응해, VAD에 신호 관련성 변수로서 제공되는 한 쌍의 출력 complex_high와 complex_low를 생성한다(도 1 참조). 변수 발생기(28)는 또한 카운터(201)를 제어하는 카운터 제어기(29)에 입력되는 complex_timer 출력을 생성한다. 카운터(201)의 출력, complex_hang_count는 신호 관련성 변수로서 VAD에 제공되고, 또한 그 출력 VAD_fail_long이 행오버 논리에 제공되는 복합신호 플래그인 비교기(203)에 입력된다(도 1참조). 신호 g_f(i)는 또한, 그 출력(208)이 AND 게이 트(207)의 입력에 커플링되는 다른 비교기(205)에 제공된다.
도 2의 복합신호 활동 검출기는 또한 VAD로부터 음성/잡음 표시, 즉 신호 sp_vad_prim(예컨대, 잡음에 대해 =0, 음성에 대해 =1)를 수신한다(도 1참조). 이 신호는, 그 출력이 비교기(204)에 커플링되는 버퍼(202)에 입력된다. 비교기(204)의 출력(206)은 AND 게이트(207)의 다른 입력에 연결된다. AND 게이트(207)의 출력은 VAD_fail_short, 즉 도 1의 행오버 놀리에 입력되는 복합신호 플래그이다.
도 13은 도 2 구성의 다른 실시예를 보여주는 것으로서, 상기 식 5의 g_opt 값들은 상관 분석기(23)에 의해 고역통과 필터링된 sw(n)의 변형에서부터, 즉 고역통과 필터(131)로부터 출력되는 sw_f(n)에서부터 계산된다. g_max 대신에 각 프레임에 대해 가장 큰 크기의 g_opt 값이 도 2의 26에 버퍼링된다. 상관 분석기(23)는 또한 도 2에서와 같이 신호 sw_(n)에서부터 통상적인 출력(22)을 생성한다.
도 3은 도 1의 VAD의 예시적인 실시예의 관련부분들을 설명한다. 도 2와 관련해 상기에서 설명하였듯이, VAD는 CAD로부터 신호 관련성 변수들, complex_high, complex_low 및 complex_hang-count를 수신한다. complex_high와 complex_low는, 그 입력들이 각각 비교기(32 및 33)에 연결되는 버퍼(30 및 31)에 각각 입력된다. 비교기(32 및 33)의 출력들은, 카운터 제어기(35)로 complex_warning 신호를 출력하는 OR 게이트(34)의 입력들에 각각 연결된다. 카운터 제어기(35)는 complex-warning신호에 감응해 카운터(36)를 제어한다.
오디오 입력신호는 잡음 추정기(38)의 입력에 연결되고 또한 음성/잡음 결정기(39)의 입력에 연결된다. 음성/잡음 결정기(39)는 통상적인 것과 같이, 또한 잡 음 추정기(38)에서부터 배경잡음의 추정(303)을 수신한다. 음성/잡음 결정기는 입력 오디오신호와 303에서의 잡음 추정정보에 감응해 음성/잡음 표시 sp_vad_prim을 생성하고, 이는 도 1의 CAD와 행오버 논리에 제공된다.
신호 complex_hang_count는, 그 입력이 잡음 추정기(38)의 DOWN 입력에 연결되는 비교기(37)에 입력된다. DOWN 입력이 활성되면, 잡음 추정기는 그의 잡음 추정만을 하양으로 갱신하도록 하거나 또는 변경하지 않고 그래도 둔다. 즉, 어떠한 잡음의 새로운 추정은 이전 추정보다 낮은 잡음을 나타내거나 또는 동일한 잡음을 나타낸다. 다른 실시예에서, DOWN 입력의 활성은 잡음 추정기가 그의 잡음 추정을 상향으로 갱신하도록 하거나 또는 보다 많은 잡음을 나타내도록 하지만, 갱신의 속도(강도)가 상당히 감소되는 것을 필요로 한다.
잡음 추정기(38)는 또한 카운터(36)에 의해 생성되는 출력신호, 즉 stat_count에 연결되는 DELAY 입력을 가진다. 통상적인 VAD들에서 잡음 추정기들은 전형적으로, 입력신호가 비-정지 또는 간격이 있는(pitched) 또는 톤신호라는 것을 나타내는 표시를 수신한 후에 지연주기를 구현한다. 이 지연주기 동안에, 잡음 추정은 보다 높은 값으로 갱신될 수 없다. 이는 잡음 속에 숨어있는 비-잡음 신호 또는 음성화 정지신호들에 에러성 반응을 보이는 것을 방지하는데 도움을 준다. 지연주기가 소멸되면, 잡음 추정기는 잠시 동안 음성이 표시되었다 하더라도 그의 잡음 추정들을 상향으로 갱신할 수 있다. 이는, 록킹(locking)에서부터 잡음레벨이 갑자기 증가하는지의 활동 표시까지 전체 VAD 알고리즘 유지한다.
DELAY 입력은 본 발명에 따른 stat_count 로 구동되어, 신호가 잡음 추정의 "빠른"증가가 이루어지게 할 정도로 너무 관련있는 것으로 보일때 잡음 추정기의 지연주기에 하한을 설정한다(즉, 통상적으로 필요한 것보다 긴 지연을 필요로 한다). 조금 긴 시간(예컨대, 2초) 동안에 CAD가 매우 높은 관련성을 검출하였다면, stat_count 신호는 충분히 긴 시간(예컨대, 5초) 동안 잡음 추정의 증가를 지연시킬 수 있다. 한 실시예에서, stat_count는 CAD가 높은 관련성을 표시하는 잡음 추정 갱신의 속도(강도)를 감소시키는데 사용된다.
음성/잡음 결정기(39)는 카운터 제어기(35)의 입력에 연결되고 또한 잡음 추정기(38)에 연결되는 출력(301)을 가지는데, 잡음 추정기에 연결되는 것은 통상적인 것이다. 오디오 입력신호 중 주어진 프레임이 간격이 있는 신호 또는 톤신호 또는 비-정지신호라고 음성/잡음 결정기가 결정하면, 출력(301)은 이를 카운터 제어기(35)에 알리고, 카운터 제어기는 카운터(36)의 출력 stat_count를 요망하는 값으로 설정한다. 만일 출력(301)이 정지신호를 나타내면, 제어기(35)는 카운터(36)를 감소시킬 수 있다.
도 4는 도 1의 행오버 논리의 예시적인 실시예를 설명한다. 도 4에서, 복합신호 플래그 VAD_fail_short 및 VAD_fail_long 들은, 그 출력이 다른 OR 게이트(43)의 입력을 구동하는 OR 게이트(41)에 입력된다. VAD로부터의 음성/잡음 표시 sp_vad_prim 은 통상적인 VAD 행오버 논리(45)에 입력된다. VAD 행오버 논리의 출력 sp_vad는 OR 게이트(43)의 제2입력에 연결된다. 만일 복합신호 플래그 VAD_fail_short 또는 VAD_fail_long 이 활성되면, OR 게이트(41)의 출력은 입력신호가 관련이 있다는 것을 OR 게이트(43)이 나타내도록 한다.
복합신호 플래그 중 어느 것도 활성되지 않는다면, VAD 행오버 논리(45)의 음성/집음 결정, 즉 신호 sp_vad는 관련/비-관련 표시를 구성하게 된다. 만일 sp_vad가 활성이라면, 음성을 나타내게 되어, OR 게이트(43)의 출력은 신호가 관련이 있다는 것을 나타낸다. 반면에, sp_vad가 비활성이이서 잡음을 나타낸다면, OR 게이트(43)의 출력은 신호가 관련이 없다는 것을 나타낸다. OR 게이트(43)으로부터 관련/비-관련 표시는 DTX시스템의 DTX 제어섹션에 또는 VR 시스템의 비트율 제어섹션에 제공될 수 있다.
도 5는 도 2의 변수 발생기(28)에 의해 수행되어 신호 complex_high, complex_low 및 complex_timer를 생성하는 예시적인 연산을 설명한다. 도 5에서(및 도 6-11 에서) 지수 i는 오디오 입력신호의 현 프레임을 나타낸다. 도 5에 도시되어 있듯이, 만일 신호 g_f(i)가 각각의 임계값, 즉 51-52에서 complex_high에 대한 THh와, 54-55에서 complex_low에 대한 THl 또는 57-58에서 complex_timer 에 대한 THt를 초과하지 않는다면 상기 언급한 신호들 각각은 0의 값을 가진다. 만일 g_f(i)가 51에서 THh을 초과한다면, complex_high는 53에서 1에 설정되고, 만일 g_f(i)가 54에서 임계치 THl 을 초과한다면, complex_low는 56에서 1에 설정된다. 만일 g_f(i)가 57에서 임계치 THt 를 초과한다면, complex_timer는 59에서 1씩 증분한다. 도 5에서 예시적인 임계값들은 THh=0.6, THl=0.5 및 THt=0.7을 포함한다. complex_timer는 g_f(i)가 THt 보다 큰 연속적인 프레임들의 수를 나타낸다는 것을 도 5로부터 알 수 있다.
도 6은 도 2의 카운터 제어기(29)와 카운터(201)가 수행할 수 있는 예시적인 연산을 설명한다. 만일 complex_timer가 61에서 임계치 THt를 초과한다면, 카운터 제어기(29)는 카운터(201)의 출력 complex_hang_count 를 62에서 값 H에 설정한다. 만일 complex_timer가 61에서 임계치 THt를 초과하지 않지만, 63에서 0보다 크다면, 카운터 제어기(29)는 64에서 카운터(201)의 출력 complex_hang_count를 감소시킨다. 도 6에서 예시적인 값들은 THct=100(한 실시에에서 2초에 대응함)과 H=250(한 실시예에서 5초에 대응함)를 포함한다.
도 7은 도 2의 비교기(203)가 수행할 수 있는 예시적인 연산을 설명한다. 만일 complex_hang_count가 71에서 THhc 보다 크다면, VAD_fail_long는 72에서 1에 설정된다. 만일 그렇지 않다면, VAD_fail_long는 73에서 0에 설정된다. 한 실시예에서, THhc=0 이다.
도 8은 도 2의 버퍼(202), 비교기(204 및 205) 및 AND 게이트(207)이 수행할 수 있는 예시적인 연산을 설명한다. 도 8에 도시되어 있듯이, sp_vad_prim의 현재(i번째) 값을 바로 선행하는 sp_vad_prim의 마지막 p 값들이 81에서 모두 0과 동일하고 그리고 g_f(i)가 82에서 임계치 THfs를 초과한다면, VAD_fail_short는 83에서 1에 설정된다. 그렇지 않다면, VAD_fail_short는 84에서 0에 설정된다. 도 8에서 예시적인 값들은 THfs=0.55와 p=10을 포함한다.
도 9는 도 3의 버퍼(30 및 31), 비교기(32 및 33) 및 OR 게이트(34)가 수행할 수 있는 예시적인 연산을 설명한다. complex_high 의 현재 (i번째) 값을 바로 선행하는 complex_high의 마지막 m 값들이 모두 91에서 1과 동일하거나, 또는 complex_low의 현재 (i번째) 값을 바로 선행하는 complex_low 의 마지막 n 값들이 모두 92에서 1과 동일하다면, complex_warning 은 93에서 1에 설정된다. 그렇지 않다면, complex_warning은 94에서 0에 설정된다. 도 9에서 예시적인 값들은 m=8 및 n=15이다.
도 10은 도 3의 카운터 제어기(35)와 카운터(36)가 수행할 수 있는 예시적인 연산을 설명한다. 만일 오디오신호가 100에서 정적인 것으로 표시된다면(도 3의 301을 참조하라), stat_count는 104에서 감소된다. 그런 다음, 만일 101에서 complex_warning=1 이거나 또는 102에서 stat_count가 값 MIN 보다 작다면, stat_count 103에서 MIN에 설정된다. 만일 오디오신호가 100에서 정적이지 않다면, stat_count는 105에서 A에 설정된다. MIN과 A의 예시적인 값들은 5와 20인데, 한 실시예에서 이들은 잡음 추정기(38)(도 3)의 지연값을 100ms 및 400ms로 각각 하한시킨다.
도 11은 도 3의 비교기(37)와 잡음 추정기(38)이 수행할 수 있는 예시적인 연산을 설명한다. 만일 complex_hang_count 가 111에서 임계치 THhc를 초과한다면, 잡음 추정기(38)가 그의 잡음 추정을 하향방향으로 갱신만하도록(또는 잡음 추정을 변경하지 않은채로 남겨두도록) 112에서 비교기(37)는 잡음 추정기(38)의 DOWN 입 력을 활성으로 구동한다. 만일 complex_hang_count 가 111에서 임계치 THhc1을 초과하지 않는다면, 잡음 추정기(38)의 DOWN 입력이 비활성이 되어, 잡음 추정기(38)는 113에서 그의 잡음 추정의 하양 또는 상향 갱신을 하게 된다. 한 실시예에서, THhc1=0 이다.
상기에서 증명하였듯이, 만일 CAD가 입력 오디오신호가 청취자에게 지각적으로 관련이 있는 정보를 포함하는 복합신호라고 결정한다면, CAD가 발생하는 복합신호 플래그는 VAD에 의한 "잡음" 분류가 선택적으로 무시되도록 한다. 규정된 수의 연속적인 프레임들이 VAD에 의해 잡음으로서 분류된 후에 g_f(i)가 규정된 값을 초과하는 것으로 결정될 때에 VAD_fail_short 플래그는 행오버 논리의 출력에서 "관련(relevant)" 표시를 트리거한다.
또한, VAD_fail_long 플래그는 행오버 논리의 출력에서 "관련" 표시를 트리거할 수 있고, 또한 규정된 수의 연속적인 프레임 동안에 g_f(i)가 규정된 값들을 초과한 후에 비교적 긴 지속 시간주기 동안에 이 표시를 유지할 수 있다. 이 유지 시간주기는 여러개의 개별적인 연속 프레임들의 시퀀스들을 포함할 수 있는데, 여기에서 g_f(i)는 상기에서 언급한 규정된 값을 초과하지만 개별적인 연속 프레임들의 시퀀스들 각각은 상기에서 규정된 수의 프레임들 보다 적은 프레임을 포함한다.
한 실시예에서, 신호 관련성 변수 complex_hang_count는 잡음 추정기(38)의 DOWN 입력이 복합신호 플래그 VAD_fail_long 에서와 동일한 조건 하에서 활성이 되도록 할 수 있다. 신호 관련성 변수들 complex_high와 complex_low는, 만일 g_f(i) 가 제1수의 연속적인 프레임들에 대한 제1의 규정된 임계치를 초과하거나 또는 제2수의 연속적인 프레임들에 대한 제2의 규정된 임계치를 초과한다면, 여러개의 연속적인 프레임들이 (음성/잡음 결정기 39에 의해) 정적인 것으로 결정되었다 하더라도 잡음 추정기(38)의 DELAY 입력이 (필요에 따라) 하한값으로 상승할 수 있도록 동작할 수 있다.
도 12는 도 1-11의 음성 엔코더 실시예들이 수행할 수 있는 예시적인 연산들을 보여준다. 121에서, 현재 프레임에 대해 가장 큰(최대) 크기를 가지는 정규화된 이득이 계산된다. 122에서, 이득은 분석되어 관련성 변수들과 복합신호 플래그들이 생성된다. 123에서, 관련성 변수들은 VAD에서 배경잡음 추정을 위해 사용된다. 124에서, 복합신호 플래그는 행오버 논리의 관련성 결정에서 사용된다. 만일 125에서 오디오신호가 지각적으로 관련이 있는 정보를 포함하지 않는 것으로 결정된다면, 126에서 VR 시스템에서는 비트율이 저하될 수 있고, 또는 DTX 시스템에서는 안락잡음 변수들이 엔코드될 수 있다.
상기 설명으로부터, 도 1-13의 실시예들은 통상적인 음성 엔코딩 장치에서 소프트웨어에, 하드웨어에 또는 둘 다에 적절한 수정을 가함으로써 쉽게 구현될 수 있다는 것을 본 기술분야의 당업자라면 알 것이다.
비록 본 발명의 예시적인 실시예들을 상기에서 상세히 설명하였다 하더라도, 이는 본 발명의 범위를 제한하는 것이 아니고 실시예를 다양하게 실시할 수 있다.

Claims (20)

  1. 오디오신호가 음성 또는 잡음정보를 포함하는지의 제1결정을 만드는 단계를 포함하는, 오디오신호의 엔코딩 동안에 오디오신호에 지각적으로 관련성 있는 비-음성 정보를 보존하기 위한 방법에 있어서,
    상기 오디오신호가 청취자에게 지각적으로 관련있는 비-음성 정보를 포함하는지의 제2결정을 만드는 단계와;
    상기 제2결정에 응해 상기 제1결정을 선택적으로 무시하는 단계를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서, 상기 제2결정을 만드는 상기 단계가 오디오신호가 분할되어 이루어지는 프레임들 각각과 관련된 상관값들에 규정된 값을 비교하는 단계를 포함하는 것을 특징으로 하는 방법.
  3. 제2항에 있어서, 상기 선택적으로 무시하는 단계가 규정된 값을 초과하는 상관값에 응해 상기 제1결정을 무시하는 단계를 포함하는 것을 특징으로 하는 방법.
  4. 제2항에 있어서, 상기 선택적으로 무시하는 단계가 주어진 시간주기에 규정된 값을 초과하는 규정된 수의 상관값들에 응해 상기 제1결정을 무시하는 단계를 포함하는 것을 특징으로 하는 방법.
  5. 제4항에 있어서, 상기 선택적으로 무시하는 단계가 규정된 값을 초과하는 규정된 수의 연속적인 상관값들에 응해 상기 제1결정을 무시하는 단계를 포함하는 것을 특징으로 하는 방법.
  6. 제2항에 있어서, 상기 프레임 각각에 대해, 고역통과 필터링된 오디오신호의 변형 중에서 가장 높은 정규화 상관값을 찾는 단게를 포함하고, 상기 가장 높은 정규화 상관값들은 각각 언급된 상기 제1상관값들에 대응하는 것을 특징으로 하는 방법.
  7. 제6항에 있어서, 상기 찾는 단계가, 프레임들 각각에 대해 가장 큰 크기의 정규화 상관값을 찾는 단계를 포함하는 것을 특징으로 하는 방법.
  8. 제1항에 있어서, 상기 선택적으로 무시하는 단계가 지각적으로 관련있는 비-음성 정보의 제2결정에 응해 잡음의 제1결정을 무시하는 단계를 포함하는 것을 특징으로 하는 방법.
  9. 오디오신호가 분할되어 이루어지는 다수의 프레임들 각각에 대해 정규화된 상관값들을 결정하는 단계와 오디오신호가 음성/잡음 정보를 포함하는지의 제1결정을 만드는 단계를 포함하는, 오디오신호에 지각적으로 관련있는 정보를 보존하기 위한 방법에 있어서,
    상기 오디오신호가 청취자에게 지각적으로 관련있는 비-음성 정보를 포함하는지의 제2결정을 만드는 단계와;
    상기 제2결정에 응해 상기 제1결정을 선택적으로 무시하는 단계와;
    오디오신호들이 분할되어 이루어지는 다수의 프레임들 각각에 대해, 고역통과된 오디오신호의 변형 중에서 가장 큰 정규화 상관값을 찾는 단계와;
    상기 정규화된 상관값들의 제1시퀀스를 생성하는 단계와;
    제1시퀀스의 정규화 상관값들을 각각 대표하도록 대표 값들의 제2시퀀스를 결정하는 단계와;
    오디오신호가 지각적으로 관련있는 정보를 포함하는지의 표시를 얻기 위하여 임계값에 대표값을 비교하는 단계를 포함하는 것을 특징으로 하는 방법.
  10. 제9항에 있어서, 상기 찾는 단계가 고역통과 필터링된 오디오신호의 변형 없이 오디오신호에 상관분석을 적용하는 단계를 포함하는 것을 특징으로 하는 방법.
  11. 제9항에 있어서, 상기 찾는 단계가 오디오신호를 고역통과 필터링하는 단계와, 이 이후에 고역통과된 오디오신호에 상관분석을 적용하는 단계를 포함하는 것을 특징으로 하는 방법.
  12. 제9항에 있어서, 상기 찾는 단계가, 프레임들 각각에 대해, 가장 큰 크기의 정규화된 상관값을 찾는 단계를 포함하는 것을 특징으로 하는 방법.
  13. 오디오신호(12)를 수신하여 오디오신호(12)가 음성 또는 잡음 정보를 포함하는지의 제1결정을 만드는 분류기(16)를 포함하는, 오디오신호에 포함된 지각적으로 관련있는 비-음성 정보를 보존하기 위해 오디오신호 엔코더에 사용하기 위한 장치(10)에 있어서,
    상기 오디오신호(12)를 수신하여 상기 오디오신호(12)가 청취자에게 지각적으로 관련있는 비-음성 정보를 포함하는지의 제2결정을 만드는 검출기(14)와;
    상기 분류기(16)와 상기 검출기(14)에 연결되고, 또한 오디오신호(12)가 지각적으로 관련있는 정보를 포함하는지를 나타내는 출력을 가지고, 상기 출력에서 상기 제1결정을 나타내는 정보를 선택적으로 제공하도록 동작할 수 있고 또한 상기 제2결정에 응해 상기 제1결정을 나타내는 상기 정보를 상기 출력에서 선택적으로 무시하는 논리(18)를 포함하는 것을 특징으로 하는 장치(10).
  14. 제13항에 있어서, 상기 검출기(16)가 오디오신호(12)가 분할되어 이루어지는 프레임들 각각과 관련된 상관값들에 규정된 값을 비교하도록 동작할 수 있는 것을 특징으로 하는 장치(10).
  15. 제14항에 있어서, 상기 논리(18)가 규정된 값을 초과하는 상관값에 응해 상기 제1결정을 나타내는 상기 정보를 무시하도록 동작할 수 있는 것을 특징으로 하는 장치(10).
  16. 제14항에 있어서, 상기 논리(18)가 주어진 시간주기에 규정된 값을 초과하는 규정된 수의 상관값들에 응해 상기 제1결정을 나타내는 상기 정보를 무시하도록 동작할 수 있는 것을 특징으로 하는 장치(10).
  17. 제16항에 있어서, 상기 논리(18)가 규정된 값을 초과하는 시간방향의 연속적인 프레임들과 관련된 규정된 수의 연속적인 상관값들에 응해 상기 제1결정을 나타내는 상기 정보를 무시하도록 동작할 수 있는 것을 특징으로 하는 장치(10).
  18. 제14항에 있어서, 상기 검출기(16)가 고역통과 필터링된 오디오신호(12)의 변형 중에서 가장 큰 정규화된 상관값을 상기 프레임들 각각 내에서 찾도록 동작할 수 있고, 상기 가장 큰 정규화된 상관값들은 상기 제1의 언급된 상관값들에 각각 대응하는 것을 특징으로 하는 장치.
  19. 제18항에 있어서, 상기 가장 큰 정규화 상관값들 각각은 관련 프레임 내에서 가장 큰 크기의 정규화 상관값을 나타내는 것을 특징으로 하는 장치(10).
  20. 제13항에 있어서, 상기 논리(18)가 지각적으로 관련있는 비-음성 정보를 나타내는 제2결정에 응해 잡음 결정을 나타내는 정보를 무시하도록 동작할 수 있는 것을 특징으로 하는 장치(10).
KR1020017006424A 1998-11-23 1999-11-12 개선된 오디오신호의 음성/잡음 분류를 위한 복합신호활동 검출 KR100667008B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US10955698P 1998-11-23 1998-11-23
US60/109,556 1998-11-23
US09/434,787 US6424938B1 (en) 1998-11-23 1999-11-05 Complex signal activity detection for improved speech/noise classification of an audio signal
US09/434,787 1999-11-05

Publications (2)

Publication Number Publication Date
KR20010078401A KR20010078401A (ko) 2001-08-20
KR100667008B1 true KR100667008B1 (ko) 2007-01-10

Family

ID=26807081

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017006424A KR100667008B1 (ko) 1998-11-23 1999-11-12 개선된 오디오신호의 음성/잡음 분류를 위한 복합신호활동 검출

Country Status (15)

Country Link
US (1) US6424938B1 (ko)
EP (1) EP1224659B1 (ko)
JP (1) JP4025018B2 (ko)
KR (1) KR100667008B1 (ko)
CN (2) CN1828722B (ko)
AR (1) AR030386A1 (ko)
AU (1) AU763409B2 (ko)
BR (1) BR9915576B1 (ko)
CA (1) CA2348913C (ko)
DE (1) DE69925168T2 (ko)
HK (1) HK1097080A1 (ko)
MY (1) MY124630A (ko)
RU (1) RU2251750C2 (ko)
WO (1) WO2000031720A2 (ko)
ZA (1) ZA200103150B (ko)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6694012B1 (en) * 1999-08-30 2004-02-17 Lucent Technologies Inc. System and method to provide control of music on hold to the hold party
US20030205124A1 (en) * 2002-05-01 2003-11-06 Foote Jonathan T. Method and system for retrieving and sequencing music by rhythmic similarity
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
EP1569200A1 (en) * 2004-02-26 2005-08-31 Sony International (Europe) GmbH Identification of the presence of speech in digital audio data
WO2006104555A2 (en) * 2005-03-24 2006-10-05 Mindspeed Technologies, Inc. Adaptive noise state update for a voice activity detector
US8874437B2 (en) * 2005-03-28 2014-10-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal for voice quality enhancement
CA2612903C (en) * 2005-06-20 2015-04-21 Telecom Italia S.P.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
KR100785471B1 (ko) 2006-01-06 2007-12-13 와이더댄 주식회사 통신망을 통해 가입자 단말기로 전송되는 오디오 신호의출력 품질 개선을 위한 오디오 신호의 처리 방법 및 상기방법을 채용한 오디오 신호 처리 장치
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US9966085B2 (en) * 2006-12-30 2018-05-08 Google Technology Holdings LLC Method and noise suppression circuit incorporating a plurality of noise suppression techniques
EP2162880B1 (en) 2007-06-22 2014-12-24 VoiceAge Corporation Method and device for estimating the tonality of a sound signal
CN101889432B (zh) * 2007-12-07 2013-12-11 艾格瑞系统有限公司 处于保持时的音乐的终端用户控制
US20090154718A1 (en) * 2007-12-14 2009-06-18 Page Steven R Method and apparatus for suppressor backfill
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
EP2259253B1 (en) * 2008-03-03 2017-11-15 LG Electronics Inc. Method and apparatus for processing audio signal
CA2717584C (en) * 2008-03-04 2015-05-12 Lg Electronics Inc. Method and apparatus for processing an audio signal
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
ATE539433T1 (de) 2008-07-11 2012-01-15 Fraunhofer Ges Forschung Bereitstellen eines zeitverzerrungsaktivierungssignals und codierung eines audiosignals damit
KR101251045B1 (ko) * 2009-07-28 2013-04-04 한국전자통신연구원 오디오 판별 장치 및 그 방법
JP5754899B2 (ja) * 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
KR20120091068A (ko) 2009-10-19 2012-08-17 텔레폰악티에볼라겟엘엠에릭슨(펍) 음성 활성 검출을 위한 검출기 및 방법
EP2816560A1 (en) * 2009-10-19 2014-12-24 Telefonaktiebolaget L M Ericsson (PUBL) Method and background estimator for voice activity detection
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
JP5609737B2 (ja) * 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
CN102237085B (zh) * 2010-04-26 2013-08-14 华为技术有限公司 音频信号的分类方法及装置
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
SI3493205T1 (sl) 2010-12-24 2021-03-31 Huawei Technologies Co., Ltd. Postopek in naprava za adaptivno zaznavanje glasovne aktivnosti v vstopnem avdio signalu
EP2477188A1 (en) 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
WO2012127278A1 (en) * 2011-03-18 2012-09-27 Nokia Corporation Apparatus for audio signal processing
CN103187065B (zh) * 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
US9208798B2 (en) 2012-04-09 2015-12-08 Board Of Regents, The University Of Texas System Dynamic control of voice codec data rate
CN107195313B (zh) 2012-08-31 2021-02-09 瑞典爱立信有限公司 用于语音活动性检测的方法和设备
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
ES2688021T3 (es) * 2012-12-21 2018-10-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Adición de ruido de confort para modelar ruido de fondo a bajas tasas de bits
CA2894625C (en) 2012-12-21 2017-11-07 Anthony LOMBARD Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals
EP3011561B1 (en) 2013-06-21 2017-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improved signal fade out in different domains during error concealment
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
ES2819032T3 (es) 2013-12-19 2021-04-14 Ericsson Telefon Ab L M Estimación de ruido de fondo en señales de audio
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
US10978096B2 (en) * 2017-04-25 2021-04-13 Qualcomm Incorporated Optimized uplink operation for voice over long-term evolution (VoLte) and voice over new radio (VoNR) listen or silent periods
CN113345446B (zh) * 2021-06-01 2024-02-27 广州虎牙科技有限公司 音频处理方法、装置、电子设备和计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720862A (en) * 1982-02-19 1988-01-19 Hitachi, Ltd. Method and apparatus for speech signal detection and classification of the detected signal into a voiced sound, an unvoiced sound and silence

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
DE69232202T2 (de) * 1991-06-11 2002-07-25 Qualcomm Inc Vocoder mit veraendlicher bitrate
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US5930749A (en) * 1996-02-02 1999-07-27 International Business Machines Corporation Monitoring, identification, and selection of audio signal poles with characteristic behaviors, for separation and synthesis of signal contributions
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US6097772A (en) * 1997-11-24 2000-08-01 Ericsson Inc. System and method for detecting speech transmissions in the presence of control signaling
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
US6173257B1 (en) * 1998-08-24 2001-01-09 Conexant Systems, Inc Completed fixed codebook for speech encoder
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720862A (en) * 1982-02-19 1988-01-19 Hitachi, Ltd. Method and apparatus for speech signal detection and classification of the detected signal into a voiced sound, an unvoiced sound and silence

Also Published As

Publication number Publication date
BR9915576B1 (pt) 2013-04-16
BR9915576A (pt) 2001-08-14
CN1419687A (zh) 2003-05-21
MY124630A (en) 2006-06-30
JP4025018B2 (ja) 2007-12-19
WO2000031720A3 (en) 2002-03-21
AR030386A1 (es) 2003-08-20
DE69925168T2 (de) 2006-02-16
AU1593800A (en) 2000-06-13
CN1828722A (zh) 2006-09-06
ZA200103150B (en) 2002-06-26
KR20010078401A (ko) 2001-08-20
CN1257486C (zh) 2006-05-24
CN1828722B (zh) 2010-05-26
HK1097080A1 (en) 2007-06-15
RU2251750C2 (ru) 2005-05-10
EP1224659B1 (en) 2005-05-04
CA2348913C (en) 2009-09-15
DE69925168D1 (de) 2005-06-09
JP2002540441A (ja) 2002-11-26
US6424938B1 (en) 2002-07-23
CA2348913A1 (en) 2000-06-02
AU763409B2 (en) 2003-07-24
EP1224659A2 (en) 2002-07-24
WO2000031720A2 (en) 2000-06-02

Similar Documents

Publication Publication Date Title
KR100667008B1 (ko) 개선된 오디오신호의 음성/잡음 분류를 위한 복합신호활동 검출
US9646621B2 (en) Voice detector and a method for suppressing sub-bands in a voice detector
JP4444749B2 (ja) 減少レート、可変レートの音声分析合成を実行する方法及び装置
KR100455225B1 (ko) 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임들을 추가하는 방법 및 장치
KR100675126B1 (ko) 향상된 충실도를 위해 안락 잡음 가변특성을 가지는 음성코딩
JP4275855B2 (ja) 適応形後置フィルタを備えた復号化方法およびシステム
EP1312075B1 (en) Method for noise robust classification in speech coding
JPH09152894A (ja) 有音無音判別器
US6424942B1 (en) Methods and arrangements in a telecommunications system
JP2541484B2 (ja) 音声符号化装置
TW479221B (en) Complex signal activity detection for improved speech/noise classification of an audio signal

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121224

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20131224

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20141222

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151223

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20161227

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20171226

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20181220

Year of fee payment: 13