KR101216496B1 - 백그라운드 잡음 정보를 인코딩하기 위한 방법 및 수단 - Google Patents

백그라운드 잡음 정보를 인코딩하기 위한 방법 및 수단 Download PDF

Info

Publication number
KR101216496B1
KR101216496B1 KR1020107021053A KR20107021053A KR101216496B1 KR 101216496 B1 KR101216496 B1 KR 101216496B1 KR 1020107021053 A KR1020107021053 A KR 1020107021053A KR 20107021053 A KR20107021053 A KR 20107021053A KR 101216496 B1 KR101216496 B1 KR 101216496B1
Authority
KR
South Korea
Prior art keywords
background noise
speech
sid frames
frames
generating
Prior art date
Application number
KR1020107021053A
Other languages
English (en)
Other versions
KR20100123734A (ko
Inventor
슈테판 슈안들
판지 세티아완
헤르베 테데이
Original Assignee
지멘스 엔터프라이즈 커뮤니케이션즈 게엠베하 운트 코. 카게
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지멘스 엔터프라이즈 커뮤니케이션즈 게엠베하 운트 코. 카게 filed Critical 지멘스 엔터프라이즈 커뮤니케이션즈 게엠베하 운트 코. 카게
Publication of KR20100123734A publication Critical patent/KR20100123734A/ko
Application granted granted Critical
Publication of KR101216496B1 publication Critical patent/KR101216496B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

본 발명의 방법은 특정 아이들(idle) 시간("Idle Period") 후 평균화된 에너지 및 자기상관 함수를 재계산하도록 설계될 음성 코덱 인코더를 제공한다. 네트워크 내 관리 포인트들은 인코더에게 네트워크상에서 전송 시 설정된 아이들 시간에 관해 알린다.

Description

백그라운드 잡음 정보를 인코딩하기 위한 방법 및 수단{METHOD AND MEANS FOR ENCODING BACKGROUND NOISE INFORMATION}
본 발명은 음성 신호 인코딩 방법들에서 백그라운드(background) 잡음 정보를 인코딩하는 방법 및 수단에 관한 것이다.
원격 통신의 시작 이후, 아날로그 음성 전송을 위한 대역폭의 제한은 전화 호들(call)을 위해 설계되었다. 음성 전송은 제한된 주파수들 범위, 즉 300 Hz 내지 3400 Hz에서 발생한다.
상기 제한된 주파수들의 범위는 또한 많은 음성 신호 인코딩 방법들에서 현재 디지털 원격 통신들을 위해 설계된다. 이를 위해, 임의의 인코딩 과정 이전에, 아날로그 신호의 대역폭의 범위 한정은 수행된다. 상기 프로세스에서, 코덱은 300 Hz 내지 3400 Hz 사이 대역폭의 상기된 범위 한정으로 인해 이하에서 협대역 스피치(speech) 코덱이라 지칭되는 코딩 및 디코딩에 사용된다. 용어 코덱은 오디오 신호들의 디지털 코딩을 위한 코딩 요구 조건뿐 아니라 오디오 신호를 재구성하기 위해 데이터를 디코딩하기 위한 디코딩 요구 조건 둘 다를 의미하는 것으로 이해된다.
예컨대 널리-공지된 협대역 스피치 코덱은 ITU-T-recommendation G.729이다. 8 kbits/s의 데이터 레이트(rate)를 가진 협대역 스피치 신호의 전송은 여기에 기술된 코딩 요구 조건을 사용하여 제공된다.
게다가, 청각 인상(impression)을 개선하기 위하여 확장된 주파수 범위에서 인코딩을 제공하는 소위 광대역 스피치 코덱들이 공지되어 있다. 상기 확장된 주파수 범위는 예컨대 50 Hz 내지 7000 Hz의 주파수 사이에 놓인다. 널리-공지된 광대역 스피치 코덱은 예컨대 ITU-T recommendation G.729.EV이다.
통상적으로, 광대역 스피치 코덱들을 위한 인코딩 방법은 스케일러블(scalable) 하도록 구성된다. 여기서 스케일러빌러티(scalability)는 전송된 인코딩된 데이터가 인코딩된 스피치 신호의 협대역 부분, 광대역 부분, 및/또는 전체(full) 대역 폭을 포함하는 범위가 한정된 다양한 블록들을 포함한다는 것을 의미한다. 상기 스케일러블 구성은 한편으로 수신자(recipient) 파트(part) 상에서 하향(downward) 호환성을 허용하고 다른 한편으로 전송 채널에서 데이터 전송 능력들이 제한되는 경우, 전송기 및 수신자 측에서 데이터 레이트의 조절 및 전송된 데이터 프레임들의 크기 조절을 달성하기 위한 간단한 기회를 제공한다.
코덱에 의한 데이터 전송 레이트를 감소시키기 위하여, 통상적으로 전송될 데이터의 압축이 제공되었다. 압축은 예컨대 여기(excitation) 신호에 대한 파라미터들 및 필터 파라미터들이 스피치 데이터를 인코딩하기 위하여 결정되는 인코딩 방법들에 의해 달성된다. 그 다음 필터 파라미터들뿐 아니라 여기 신호를 지정하는 파라미터는 수신자에게 전송된다. 거기서, 코덱의 도움으로, 임의의 주관적인 청각 인상이 관련되는 한 본래 스피치 신호와 가능한 한 밀접하게 닮은 합성 스피치 신호가 합성된다. 또한 "합성에 의한 분석(analysis by synthesis)"이라 지칭되는 이런 방법의 도움으로, 설정되고 디지털화된 샘플들은 그 자체로 전송되지 않고, 수신자 측에서 스피치 신호의 합성이 이루어지게 하는 확인된 파라미터들이 전송된다.
DTX로서 상기 분야에서 또한 공지된 불연속 전송을 위한 방법은 데이터 전송 레이트의 감소를 위하여 부가적인 조치를 제공한다. DTX의 근본 목적은 스피킹이 일시 중지될 때 데이터 전송 레이트의 감소이다.
이를 위해, 전송자(sender)는 특정 신호 레벨에 부합되지 않으면 스피치 일시 중지를 인식하는 스피치 일시 중지 인식(음성 활성 검출: Voice Activity Detection, VAD)을 이용한다.
통상적으로, 수신자는 스피치 일시 중지 동안 완벽한 무음(silence)을 기대하지 않는다. 이에 반하여, 완벽한 무음은 수신자 측에 불쾌감을 유도하거나 심지어 접속이 중단되었다는 의심을 유발한다. 이런 이유로, 소위 편안한(comfort) 잡음을 형성하기 위한 방법들은 이용된다.
편안한 잡음은 수신자 측 상에서 무음 단계들을 채우기 위해 합성되는 잡음이다. 편안한 잡음은 스피치 신호들을 전송하기 위해 제공된 데이터 전송 레이트를 사용하지 않고 계속 존재하는 주관적인 접속 인상을 조장하기 위해 사용한다. 다른 말로, 스피치 데이터를 인코딩하기 보다 잡음을 인코딩하기 위하여 보다 적은 에너지가 전송자를 위해 소비된다. 실제적으로 수신자에 의해 여전히 지각되는 방식으로 편안한 잡음을 합성하기 위해, 훨씬 낮은 데이터 레이트로 데이터가 전송된다. 상기 프로세스에서 전송된 데이터는 또한 SID(Silence Insertion Description)로서 본 분야 내에서 지칭된다.
광대역 스피치 코덱들을 위한 오늘날 스케일러블 인코딩 방법들은 불연속 전송을 위한 어떠한 방법들도 현재 제공하지 않는다.
현재 기술에서, 수신자 측 편안한 잡음 생성기(CNG)와 관련하여 불연속 전송(DTX)의 임의의 애플리케이션에 문제들이 있다.
불연속 전송의 현재 공지된 방법들은 백그라운드 잡음 에너지의 큰 변화들이 비활성 스피치 기간(스피치 일시 중지) 동안 인코더에 의해 검출되는 경우만 백그라운드 잡음을 특성화하기 위해 업데이트된 파라미터들을 가진 전송 SID 프레임을 제공한다. 이것은 불연속 전송을 위한 방법들을 지원하는 협대역(50 Hz 내지 4 kHz) 및 광대역 스피치 코덱들 양쪽에 관련된다. 통상적으로, 업데이트된 파라미터들을 가진 SID 프레임을 전송하기 위한 결정 시, 디코더에서 지정된 에너지 임계값이 사용된다. 이것은 정의된 에너지 임계값이 초과되지 않으면, SID 프레임들이 전송되지 않는 상황을 유도한다. 그러나, 수신자 및 전송자 사이의 전송 네트워크 파트 상에서, SID 프레임들을 전송하는 것의 중지는 정지 상태, 또는 "아이들 채널(Idle Channel)"로서 보여진다. 접속이 유지되는("살아있는 접속") 것을 보장하기 위하여, 부가적인 데이터 교환은 접속이 유지되는 것을 가리키기 위하여 필요할 수 있다.
공지된 부가적으로 제공된 데이터 교환은 경과된 가장 최근에 전송된 SID 프레임에 대한 아이들 기간이 당해 접속을 위해 너무 긴 것으로 간주되는 경우, 다시 한번 가장 최근에 전송된 SID 프레임을 전송하기 위해, 전송 네트워크의 네트워크 조종(management)의 관리(administrative) 포인트들이 전송 노드, 즉 전송 인코더를 호출하는 현재 발생한다. 다시 전송되는 SID 프레임의 파라미터들은 상기 재개된 전송 동안 업데이트되지 않는다. 따라서, 인코더는 임의의 부가적인 동작들을 수행하지 않는다.
본 발명의 임무는 스케일러블 스피치 코덱들에서 불연속 전송의 개선된 구현을 제공하는 것이다.
상기 임무는 독립항들의 대상에 의해 해결된다.
본 발명의 하나의 근본적인 생각은 미리 결정된 아이들 기간 후 새로운 결정을 시도하거나, 또는 백그라운드 잡음에 관련한 파라미터, 특히 평균 에너지 및 자기상관 함수의 계산을 시도하는 스피치 코드의 인코더를 구현하는데 있다. 백그라운드 잡음 파라미터들의 상기된 결정은 다른 말로 잡음 신호의 인코딩에 대응한다. 네트워크의 관리 포인트들은 인코더에게 전송 네트워크에서 설정되었던 아이들 시간에 관련하여 알린다.
따라서, 인코더는 예컨대 전송 네트워크의 관리 포인트들을 질문(query)함으로써 아이들 기간을 결정한다. 상기 질문은 아이들 기간이 인코더에 의해 저장되면 일회만 필요하다.
SID 프레임들이 전송될 시간의 간격 조절은 전송 네트워크의 관리 포인트들이 인코더를 강제하여 상기 인코더가 업데이트된 프레임워크를 전송하게 한다. 이것은 CNG의 백그라운드 잡음의 보다 우수한 재구성을 위한 업데이팅뿐 아니라 보다 신뢰성 있는 접속 유지 둘 다를 보장한다.
본 발명의 방법의 장점은 업데이트된 SID 프레임 형태의 업데이트된 백그라운드 잡음 파라미터들이 전송될지 여부를 결정하기 위해, 백그라운드 잡음 신호의 에너지와 에너지 임계값의 비교가 필요하지 않다는 사실에서 발견된다. 따라서, 공지된 방법들과 비교하여, 상기 방법은 컴퓨터 자원들을 절약한다.
추가 장점은 두 개의 SID 프레임들 사이의 조절된 지속 기간이 각각의 경우에서 전송 네트워크의 요구 조건들과 일치한다는 사실에 있다.
본 발명의 유리한 확장들 및 실시예들은 종속항들의 대상이다.
본 발명의 하나의 유리한 실시예는 백그라운드 잡음 정보의 협대역 부분이 백그라운드 잡음 정보의 광대역 부분으로부터 분리되는 SID 구조(SID 비트스트림 구조)를 제공한다. SID 프레임에서 협대역 및 광대역 백그라운드 잡음 정보의 분리 처리는 백그라운드 잡음의 협대역 및 광대역 부분의 별도 인코딩을 가능하게 하고 프로세싱을 투명하게 한다. 게다가, 이 실시예는 전송된 SID 프레임의 광대역 부분, 또는 협대역 부분을 바탕으로 편안한 잡음이 발생하여야 하는지를 수신자가 결정할 수 있는 장점을 가진다. 이것은 특히 협대역 스피치 정보만이 전달되도록 스피치 정보 프레임들에 대한 전송 레이트가 감소되는 상황에서 수신자에 의한 청각 수신에 유리하다. 현재 최신 기술에서처럼, 즉 협대역 스피치 정보가 광대역 잡음에 관련하여 합성되면, 이것은 수신자를 매우 기분 나쁘게 한다. 스피치 정보 프레임들에 대한 전송 레이트의 상기된 감소는 예컨대 전송자 및 수신자 사이의 네트워크의 높은 이용(혼잡)에 의해 유발될 수 있다. 매우 작은 SID 프레임들은 임의의 그러한 네트워크 병목(bottleneck)에 의해 영향을 받지 않는다. 따라서, 상기 SID 프레임들에 대해 상기 스피치 정보 프레임들의 데이터 전송 레이트나 상기 스피치 정보 프레임들의 콘텐트를 감소시키기 위한 제한이 없다.
본 발명의 유리한 실시예는 백그라운드 잡음의 에너지 및 자기상관 함수가 백그라운드 잡음의 제 1 협대역 부분의 백그라운드 잡음 파라미터들을 확인하기 위해 결정된다는 점에서 제공된다. 협대역 부분에서, 비교적 긴 기간의 스피치 일시 중지에 걸친 평균화는 실제로 예컨대 100ms의 기간에 걸쳐 필요하다. 이 실시예 형태에 따라 사용된 계산 변수들은 에너지(대수화된(logarithmized) 에너지가 아님) 및 자기상관 함수를 포함한다.
본 발명의 다른 유리한 실시예에 따라 비활성화 또는 스피치 일시 중지로서 분류된 시간 세그먼트의 시작에서, 부가적인 행오버(hangover) 기간이 도입된다. 새롭게 도입된 행오버 기간: 뒤따르는 DTX 행오버 기간은 VAD(Voice Activity Detection) 행오버 기간과 비교하여 지금까지 알려지지 않은 부가적인 목적을 제공한다.
행오버 기간들의 양쪽 타입들이 활성 스피치 프레임들로서 몇몇 프레임들을 식별하는 목적을 추구하고 이에 따라 스피치 신호의 말단에서 잘못된 분류를 회피하는 반면, DTX 행오버 기간은 백그라운 잡음에 관한 정보를 수집하는 부가적인 목적을 가진다.
본 발명의 유리한 실시예는 제 2 광대역 부분의 감쇠를 제공한다. 광대역 부분의 감쇠는 광대역 부분에서 전체 에너지 부분의 감쇠 역할을 한다. 이런 조치는 디코더의 편안한 잡음의 합성을 위한 생성기가 인코더의 본래 백그라운드 잡음과 동일한 잡음 특성들을 생산할 수 없다는 사실로 인해 필요하다.
본 발명의 유리한 실시예는 다운스트림의 디엠파시스(de-emphasis) 포스트 필터가 전체 백그라운드 잡음 신호, 즉 광대역 부분 및 협대역 부분의 결합에 적용된다는 사실을 제공한다. 디엠파시스 포스트 필터는 에너지 및 보다 높은 주파수 성분들의 디엠파시스를 유도한다. 평균화가 특정 방식으로 스펙트럼 포락선(envelope)을 변형하기 때문에, 이런 감쇠는 유리한 방식으로 인간 수신자에 대해 왜곡된 광대역 잡음의 왜곡 효과를 감소시키는데 기여한다.
본 발명의 부가적인 장점들 및 구성들을 가진 예시적인 실시예는 다음 도면에 의해 보다 상세히 도시된다.
상기 방법에서, 도 1은 스피치로서 분류된 것으로부터 백그라운드 잡음으로서 분류된 것으로 디코더에서의 입력 신호로부터의 시간에 따른 전이 표현을 도시한다.
다음에, 본 발명의 근간이 되는 기술적 배경은 처음에 도면을 참조하지 않고 보다 상세히 기술된다.
최신 기술에서, 수신자측 상에서 편안함 생성기(CNG 편안한 잡음 생성기)와 관련하여 불연속 전송(DTX)의 애플리케이션들에서 문제들이 존재한다. DTX/CNG 동작 동안, 다음 고려 사항들은 고려되어야 한다:
1. 실제적으로 수신자측 상 청취자에 의해 지각되어야 하는 CNG 파트 상 백그라운드 잡음 또는 편안한 잡음의 적당한 합성은 필요하다. 따라서 광대역 스피치 코덱들의 경우에, 예컨대 50 Hz 내지 7 kHz 사이의 광대역 주파수들을 가진 스피치 코덱들의 경우에, 광대역 잡음의 임의의 합성은 열화(deterioration)로서 간주된다. 그 외에, 디코더측 및 인코더측 상의 백그라운드 잡음의 특성 또는 "컬러"가 항상 동일하지 않으므로, 에너지 및 스펙트럼 포락선의 평균의 형성을 제공하는 현재 해결책들은 본래 백그라운드 정보의 왜곡을 유발한다.
2. DTX 방법은 백그라운드 잡음의 에너지에서 상당한 변화들이 비활성 스피치 기간(스피킹 일시 중지) 동안 인코더에 의해 검출되는 경우만 업데이트된 SID 프레임들을 전송한다. 이것은 DTX/CNG 방법을 지원하는 광대역 스피치 코덱 및 협대역(50 Hz 내지 4kHz) 코덱 양쪽에 관련된다. 통상적으로, 에너지 임계값은 프로세싱에서 중심 역할을 한다. 이것은 정의된 에너지 임계값이 초과되지 않으면, SID 프레임들이 전송되지 않는 상황을 유도한다. 그러나, 수신자 및 전송자 사이의 통신 네트워크 파트 상에서, 상기 SID 프레임들의 전송의 중지는 정지 상태, 또는 "아이들 채널"로서 간주된다. 접속 유지("살아있는 접속")를 보장하기 위하여, 데이터의 부가적인 교환은 접속이 유지되어야 함을 가리키기 위하여 필요할 수 있다.
현재, 상기된 문제들은 다음과 같이 처리된다:
Re1.: 광대역 부분에 관련된 정보는 SID 프레임에서 인코딩된다. 상기 프로세싱에서, 평균화된 대수 에너지 및 평균화된 이미턴스(immittance) 스펙트럼 주파수(ISF)는 광대역 백그라운드 잡음, 예컨대 스피치 코덱들 G.722.2 및 AMR-WB를 기술하기 위해 사용된다. 프로세싱에서, 광대역 백그라운드 잡음의 하부 부분 및 상부 부분의 별도의 처리는 제공되지 않는다. 협대역 스피치 코드 G.729는 평균화된 대수 에너지 및 평균화된 자기상관 함수를 이용한다. 에너지에 대한 평균화 기간 및 자기상관 함수에 대한 평균화 기간은 대응하지 않는다.
Re2.: 네트워크 조종의 관리 포인트들은 "아이들 기간"이 적당한 접속을 위해 너무 길다고 증명되는 경우, 가장 최근에 전송된 SID 프레임을 다시 한번 전송하기 위하여 전송 노드, 즉 전송 인코더를 호출한다. 따라서 인코더는 부가적인 작용들을 수행하지 않는다.
본 발명의 방법은 특정 주어진 시간 이후, 평균화된 에너지 및 자기상관 함수를 재계산하는 방식으로 인코더를 이용하기 위해 제공한다. 네트워크의 관리 포인트들은 프로세싱시 적당한 아이들 시간에 관련하여 인코더에게 알린다.
SID 프레임을 생성하기 위한 부가적인 실시예들은 다음에 기술된다.
SID 구조(SID 비트스트림 구조)는 합성되고, 여기서 백그라운드 잡음 정보의 협대역 부분은 백그라운드 잡음 정보의 광대역 부분으로부터 분리된다. SID 프레임에서 협대역 백그라운드 잡음 정보 및 광대역 백그라운드 잡음 정보의 별도의 처리는 백그라운드 잡음의 협대역 및 광대역 부분들의 별도의 인코딩을 가능하게 하여 프로세싱을 투명하게 한다.
협대역 부분에서, 비교적 긴 기간의 스피치 일시 중지에 걸친 평균화가 필요하고, 실제로 예컨대 100 ms의 기간에 걸친 평균화가 필요하다. 상기 프로세싱에 사용되는 계산 변수들은 에너지(대수화된 에너지가 아님) 및 자기상관 함수를 포함한다. 자기상관 함수는 포락선의 스펙트럼 표현을 위해 사용된다. 총 증폭 계수는 모든 증폭 및 평균화 방법들의 결합에 의해 보상될 수 있다. 자기상관 함수에 대한 값들은 각각의 경우 평균을 부가하거나 평균을 형성함으로써 노밍(normed)된다(똑같이 가중된다(weighted)). 이것은 모든 SID 프레임들에 관련된다. 협대역 부분의 비교적 긴 평균화는, 에너지의 갑작스러운 변화가 수신자의 편안한 잡음의 합성에 감지할 수 있는 충격을 유도하지 않도록 협대역 에너지 및 스펙트럼 포락선들의 평활화를 유도한다. 이런 동일한 평균화 기간은 스피치 신호의 삽입 후(스피크 버스트(Speak Burst)) 시작 SID 프레임이 생성된 후 에너지 및 스펙트럼 포락선 평균화 둘 다에 사용된다. 이런 조치는 스피치 기간으로부터 스피킹 일시 중지로의 전이 동안 협대역 백그라운드 잡음의 보다 일관된 추정을 보장한다.
다음에 도 1이 참조된다. 도 1은 특정 시간(t)에서 점선들로서 도면에 표시된 특정 신호 레벨(임계값) 아래로 떨어지는 스피치 버스트를 도시한다. 세로좌표는 신호의 에너지 레벨 또는 값으로서 이해될 것이다. 게다가, 전송자의 파트 상에서, 스피치 일시 중지 인식(음성 활성 검출, VAD)은 사용되고, 상기 스피치 일시 중지 인식은 임계값이 충족되지 않으면 스피치 일시 중지를 인식한다. VAD 방법은 활성 스피치 프레임들이 계속 전송되는 알려진 행오버 기간(VAD-HO) 동안 제공되고, 두 개의 프레임 길이들 후에만 통상적으로 이를 SID 프레임들의 생성을 제공하는 모드로 변화한다.
여기에 기술된 본 발명의 실시예에 따라, 부가적인 행오버 기간(DTX-HO)이 도입된다. 새로운 행오버 기간(DTX-HO)은 "블랙 박스"로서 사용된 지금까지 알려진 행오버 기간(VAD-HO)을 따른다. 이런 행오버 기간(DTX-HO) 동안, 인코더에서 프로세싱된 신호는 여전히 스피치 신호로서 분류되는 반면, 그와 유사하게 백그라운드 잡음 파라미터들의 결정은 이미 시작되었다. 스피치 인코딩의 데이터 레이트는 이미 감소되었는데, 그 이유는 고품질 인코딩이 스피치 일시 중지의 시작시에 요구되지 않기 때문이다. 게다가, 협대역 부분에 대해, 행오버 기간의 파트는 제 1 SID 프레임의 평균 값을 형성하기 위해 사용된다. 상기된 언급들은 행오버 기간(DTX-HO, VAD-HO) 내에서 최종 프레임들(FRAMES)을 주로 지칭한다. 대조하여 행오버 기간의 제 1 프레임들로부터의 정보는 주로 사용되지 않는다.
지금까지 알려졌고 음성 활성 검출의 필요성에 의해 유발되는 행오버 기간(VAD-HO)과 비교하여 새롭게 도입된 행오버 기간(DTX-HO)은 지금까지 유념되지 않은 추가 목적을 제공한다. 양쪽 타입의 행오버 기간들(DTX-HO, [및] VAD-HO)은 활성 스피치 프레임들로서 몇몇 프레임들을 식별하여 스피치 신호의 말단에서 잘못된 분류를 회피하는 목적을 수행하는 반면, DTX 행오버 기간(DTX-HO)은 백그라운드 잡음에 관한 정보를 모으는 추가 목적을 가진다.
스피치 신호의 말단에서 잘못된 분류를 회피하는 수행되는 목적에 관해, 새로운 행오버 기간(DTX-HO)은 행오버 기간(DTX-HO)의 종료 후, 최후에 백그라운드 잡음 및 무(no) 스피치 신호들이 디코더 입력부 상에 있다는 추가적인 보장을 나타낸다. 공지된 행오버 기간(VAD-HO)의 지금까지의 어떤 사용의 경우, 적용된 신호만이 백그라운드 잡음들과 관련이 있다는 것이 배제될 수 없다. 실제로, 이런 행오버 기간(VAD-HO) 동안, 스피치 버스트들은 여전히 발생할 수 있다. 다른 측면에서, 새로운 행오버 기간(DTX-HO)은 백그라운드 잡음을 학습하는 목적만을 제공한다.
이들 행오버 기간들(DTX-HO, VAD-HO)의 지속 기간의 선택, 및 이에 따라 프레임들(FRAMES)의 수의 선택과 관련하여, 유리한 조절은 예컨대 두 개의 프레임들의 지속 기간 ― 참조, 점선 축 FRAMES ― 이 공지된 행오버 기간(VAD-HO)을 위해 제공되고 5개의 프레임들의 지속 기간이 새로운 행오버 기간(DTX-HO)을 위해 제공되는 방식으로 선택될 것이다.
에너지 감쇠는 광대역 부분에서 수행된다. 광대역 부분의 감쇠는 광대역 부분 내 전체 에너지 부분의 감쇠 역할을 한다. 이런 조치는 디코더의 편안한 잡음의 생산(합성)을 위한 생성기가 인코더에서 본래 백그라운드 잡음들과 동일한 잡음 특성들을 생산할 수 없다는 사실로 인해 필요하다.
다운스트림의 디엠파시스 포스트 필터가 방출되는 광대역 스피치 신호 상에서, 즉 광대역 부분 및 협대역 부분의 조합 상에서 사용된다. 이런 필터링은 대부분 보다 높은 주파수 성분들을 감쇠시킨다. 게다가, "디엠파시스 포스트 필터"는 에너지 및 보다 높은 주파수 성분들의 디엠파시스를 유도한다. 평균화가 특정 방식으로 스펙트럼 포락선을 변형시키기 때문에, 이런 감쇠는 인간 수신자에 왜곡된 광대역 잡음의 왜곡 효과를 감소시키는데 기여할 수 있다.

Claims (9)

  1. 전송 네트워크를 통한 백그라운드 잡음 파라미터들의 불연속 전송을 위한 SID 프레임들을 생성하기 위한 방법으로서,
    백그라운드 잡음 파라미터들의 주기적 결정 및 상기 결정된 백그라운드 잡음 파라미터들을 기초로 SID 프레임들의 생성 및 전송이 제공되고 상기 주기는 상기 전송 네트워크의 결정된 아이들(idle) 기간에 대응하고,
    상기 결정된 아이들 기간 이후에, 스피치 코드의 인코더는 새로운 백그라운드 잡음 파라미터를 결정하거나 또는 계산하고, 그리고
    전송될 상기 SID 프레임들에 대한 시간 간격의 조절은 상기 전송 네트워크의 관리 포인트들이 상기 인코더를 강제하여 업데이트된 프레임워크를 전송하게 하는,
    SID 프레임들을 생성하기 위한 방법.
  2. 제 1 항에 있어서,
    최초의 협대역 부분 및 제 2 광대역 부분의 백그라운드 잡음 파라미터들이 결정되고 SID 프레임의 생성은 상기 최초의 부분 및 상기 제 2 부분에 대해 별도의 영역들로 발생하는,
    SID 프레임들을 생성하기 위한 방법.
  3. 제 2 항에 있어서,
    상기 백그라운드 잡음의 에너지 및 자기상관 함수는 상기 백그라운드 잡음의 상기 최초의 협대역 부분의 상기 백그라운드 잡음 파라미터들을 확인하기 위하여 결정되는,
    SID 프레임들을 생성하기 위한 방법.
  4. 제 3 항에 있어서,
    상기 최초의 협대역 부분의 상기 백그라운드 잡음 파라미터들은 100 밀리초에서 결정되는,
    SID 프레임들을 생성하기 위한 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    스피치(speech)로서 분류된 신호로부터 백그라운드 잡음으로서 분류된 신호로의 전이시 부가적인 행오버 기간이 제공되고, 상기 부가적인 행오버 기간 동안 백그라운드 잡음 파라미터들의 결정이 발생하는,
    SID 프레임들을 생성하기 위한 방법.
  6. 제 2 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 제 2 광대역 부분은 감쇠되는,
    SID 프레임들을 생성하기 위한 방법.
  7. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    다운스트림 디엠파시스 포스트 필터(downstream de-emphasis post filter)가 전체 백그라운드 잡음 신호 상에 사용되는,
    SID 프레임들을 생성하기 위한 방법.
  8. 제 1 항 내지 제 4 항 중 어느 한 항에 따른 방법을 실행하기 위한 수단을 갖는,
    코덱.
  9. 제 8 항에 있어서,
    상기 코덱은 공지되어 있는 ITU-T 표준 G.729.1에서 실행되는,
    코덱.
KR1020107021053A 2008-02-19 2009-02-02 백그라운드 잡음 정보를 인코딩하기 위한 방법 및 수단 KR101216496B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102008009718.7 2008-02-19
DE102008009718A DE102008009718A1 (de) 2008-02-19 2008-02-19 Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen

Publications (2)

Publication Number Publication Date
KR20100123734A KR20100123734A (ko) 2010-11-24
KR101216496B1 true KR101216496B1 (ko) 2012-12-31

Family

ID=40568601

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107021053A KR101216496B1 (ko) 2008-02-19 2009-02-02 백그라운드 잡음 정보를 인코딩하기 위한 방법 및 수단

Country Status (8)

Country Link
US (1) US8949121B2 (ko)
EP (1) EP2245620B1 (ko)
JP (1) JP5415460B2 (ko)
KR (1) KR101216496B1 (ko)
CN (1) CN101952887B (ko)
DE (1) DE102008009718A1 (ko)
RU (1) RU2440674C1 (ko)
WO (1) WO2009103610A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5722916B2 (ja) * 2011-01-14 2015-05-27 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置および符号化方法
CN103187065B (zh) * 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
US8868415B1 (en) * 2012-05-22 2014-10-21 Sprint Spectrum L.P. Discontinuous transmission control based on vocoder and voice activity
EP3550562B1 (en) * 2013-02-22 2020-10-28 Telefonaktiebolaget LM Ericsson (publ) Methods and apparatuses for dtx hangover in audio coding
US9572103B2 (en) * 2014-09-24 2017-02-14 Nuance Communications, Inc. System and method for addressing discontinuous transmission in a network device
CN112437957A (zh) 2018-07-27 2021-03-02 杜比实验室特许公司 用于全面收听的强加间隙插入

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5881373A (en) 1996-08-28 1999-03-09 Telefonaktiebolaget Lm Ericsson Muting a microphone in radiocommunication systems
US5893056A (en) 1997-04-17 1999-04-06 Northern Telecom Limited Methods and apparatus for generating noise signals from speech signals
CA2334195A1 (en) * 1998-06-08 1999-12-16 Telefonaktiebolaget Lm Ericsson System for elimination of audible effects of handover
RU2237296C2 (ru) 1998-11-23 2004-09-27 Телефонактиеболагет Лм Эрикссон (Пабл) Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения
BRPI9915652B1 (pt) * 1998-11-24 2016-09-06 Ericsson Telefon Ab L M processo para realizar transmissão descontínua num sistema de comunicações, e, sistema de comunicações de fala
JP2003501925A (ja) * 1999-06-07 2003-01-14 エリクソン インコーポレイテッド パラメトリックノイズモデル統計値を用いたコンフォートノイズの生成方法及び装置
US6807525B1 (en) 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
CN1617605A (zh) 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
CN102103860B (zh) * 2004-09-17 2013-05-08 松下电器产业株式会社 频谱包络信息量化装置及方法、频谱包络信息解码装置及方法
PL1897085T3 (pl) * 2005-06-18 2017-10-31 Nokia Technologies Oy System i sposób adaptacyjnej transmisji parametrów szumu łagodzącego w czasie nieciągłej transmisji mowy
US20070136055A1 (en) * 2005-12-13 2007-06-14 Hetherington Phillip A System for data communication over voice band robust to noise
US8725499B2 (en) 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression

Also Published As

Publication number Publication date
US8949121B2 (en) 2015-02-03
DE102008009718A8 (de) 2009-12-17
CN101952887B (zh) 2013-05-29
RU2440674C1 (ru) 2012-01-20
DE102008009718A1 (de) 2009-08-20
JP5415460B2 (ja) 2014-02-12
EP2245620B1 (de) 2017-08-30
CN101952887A (zh) 2011-01-19
KR20100123734A (ko) 2010-11-24
WO2009103610A1 (de) 2009-08-27
JP2011515705A (ja) 2011-05-19
EP2245620A1 (de) 2010-11-03
US20110004471A1 (en) 2011-01-06

Similar Documents

Publication Publication Date Title
KR101364983B1 (ko) Sid 프레임을 인코딩하기 위한 방법
KR101216496B1 (ko) 백그라운드 잡음 정보를 인코딩하기 위한 방법 및 수단
TW469423B (en) Method of generating comfort noise in a speech decoder that receives speech and noise information from a communication channel and apparatus for producing comfort noise parameters for use in the method
EP2518986B1 (en) A device and method for controlling echo in parameter domain
CN1504042A (zh) 数字网络中的音频信号质量增强
JP2002237785A (ja) 人間の聴覚補償によりsidフレームを検出する方法
US20120290305A1 (en) Scalable Audio in a Multi-Point Environment
WO2007140724A1 (fr) procédé et appareil pour transmettre et recevoir un bruit de fond et système de compression de silence
KR101462293B1 (ko) 고정된 배경 잡음의 평활화를 위한 방법 및 장치
JP2012247810A (ja) ノイズ生成装置、方法、及びコンピュータ可読記録媒体
KR20190057052A (ko) 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치
US20120307677A1 (en) Transmitting Data in a Communication System
EP1554717A1 (en) Preprocessing of digital audio data for mobile audio codecs
WO2000025301A1 (en) Method and arrangement for providing comfort noise in communications systems
US20120095760A1 (en) Apparatus, a method and a computer program for coding
KR101166650B1 (ko) 배경 잡음 정보를 디코딩하기 위한 방법 및 수단
Ahmadi et al. On the architecture, operation, and applications of VMR-WB: The new cdma2000 wideband speech coding standard
JP4985743B2 (ja) 音声符号変換方法
CN115641854A (zh) 一种实时语音自适应多速率编码和传输方法
Kroon Speech and Audio Compression

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151215

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161219

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171214

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20191217

Year of fee payment: 8