KR20140109456A - 오디오 데이터 처리 방법, 장치 및 시스템 - Google Patents

오디오 데이터 처리 방법, 장치 및 시스템 Download PDF

Info

Publication number
KR20140109456A
KR20140109456A KR1020147020836A KR20147020836A KR20140109456A KR 20140109456 A KR20140109456 A KR 20140109456A KR 1020147020836 A KR1020147020836 A KR 1020147020836A KR 20147020836 A KR20147020836 A KR 20147020836A KR 20140109456 A KR20140109456 A KR 20140109456A
Authority
KR
South Korea
Prior art keywords
noise
sid
frame
parameter
highband
Prior art date
Application number
KR1020147020836A
Other languages
English (en)
Other versions
KR101693280B1 (ko
Inventor
제 왕
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20140109456A publication Critical patent/KR20140109456A/ko
Application granted granted Critical
Publication of KR101693280B1 publication Critical patent/KR101693280B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)

Abstract

본 발명은 오디오 데이터 처리 방법, 장치 및 시스템에 대해 개시하며, 통신 기술 분야에 속한다. 방법은 오디오 신호의 잡음 프레임을 획득하고, 상기 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제하는 단계; 및 상기 잡음 저대역 신호를 제1 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하고 상기 잡음 고대역 신호를 제2 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하는 단계를 포함한다. 본 발명에 따르면, 고대역 신호 및 저대역 신호에 대해 상이한 인코딩 및 디코딩 방식을 사용하며, 코덱의 주관적 품질이 낮아지지 않는다는 전제 하에 계산 복잡도가 감소될 수 있고 인코딩된 비트가 절감될 수 있으며, 절감되는 비트는 전송 대역폭을 감소시키고 전반적인 인코딩 품질을 향상시키는 목적을 달성한다.

Description

오디오 데이터 처리 방법, 장치 및 시스템{AUDIO DATA PROCESSING METHOD, DEVICE AND SYSTEM}
본 발명은 통신 기술 분야에 관한 것이며, 특히 오디오 데이터 처리 방법, 장치 및 시스템에 관한 것이다.
디지털 통신 분야에는, 음성, 이미지, 오디오 및 비디오의 전송을 위한 확장 애플리케이션 요건이 있는데, 예를 들어, 통화, 시청각 회의, 방송 텔레비전, 및 멀티미디어 엔터테인먼트 등이 있다. 음성은 디지털화된 다음 음성 통신 네트워크를 통해 한 단말로부터 다른 단말로 전송된다. 여기서 단말은 이동전화, 디지털 전화 단말, 또는 음성 단말일 수 있거나 임의의 단말 형태일 수 있다. 디지털 음성 단말의 예는 VOIP폰 또는 ISDN폰, 컴퓨터, 및 케이블 통신 전화이다. 오디오 신호를 저장 또는 전송 중에 점유하는 자원을 감소하기 위해, 송신 단은 오디오 신호를 수신 단에 전송하기 전에 오디오 신호에 대해 압축 처리를 수행하고, 수신 단은 오디오 신호에 대해 압축해제를 수행하여 복원하고 그 오디오 신호를 재생한다.
음성 통신에서, 음성은 약 40%의 시간에만 포함되어 있으며, 다른 시간에는, 무음 또는 배경 잡음이 있다. 전송 대역폭을 절감하고 무음 또는 배경 잡음 주기에서 대역폭의 불필요한 소모를 피하기 위해, 불연속 전송 시스템/안정 잡음 생성(discontinuous transmission system/Comfort Noise Generation: DTX/CNG) 기술이 부각된다. 단순히, DTX/CNG는 잡음 프레임을 지속적으로 인코딩하는 것이 아니라, 정책에 따라 잡음/무음 주기에서 수 개의 프레임의 구간 중에 1회만 인코딩을 수행하는 것이며, 여기서 인코딩 비트 레이트는 일반적으로 음성 프레임 인코딩의 비트 레이트보다 훨씬 낮다. 이러한 낮은 레이트로 인코딩된 잡음 프레임을 무음 삽입 서술자 프레임(Silence Insertion Descriptor frame: SID)이라고 한다. 디코더는 불연속적으로 수신된 SID에 따라 디코딩 단에서 연속적인 배경 잡음 프레임을 복원한다. 이러한 불연속적으로 복원된 배경 잡음은 인코딩 단의 신뢰성 있는 배경 잡음 재생이 아니라 들을 시에 가능한 많이 품질 저하를 막기 위한 것이며, 이에 따라 사용자는 그 잡음을 들을 때 안락감을 느낀다. 복원된 배경 잡음을 안정 잡음(Comfort Noise: CN)이라 하고, 디코딩 단에서 CN을 복원하는 방법을 안정 잡음 생성이라 한다.
종래기술에서는, ITU-T G.718이 새로운 표준의 광대역 코덱인데, 이것은 광대역 DTX/CNG 시스템을 포함한다. 시스템은 고정된 간격에 따라 SID를 송신할 수 있고, 추정된 잡음 레벨에 따라 SID를 송신하는 간격을 적응적으로 조정할 수도 있다. G.718의 SID 프레임은 16개의 이미턴스 스펙트럼 페어(Immittance Spectral Pair: ISP) 파라미터 및 여기 에너지 파라미터를 포함한다. 이러한 ISP 파라미터의 그룹은 전체 광대역의 대역폭 상의 스펙트럼 엔벨로프를 나타내고, 여기 에너지는 이러한 ISP 파라미터의 그룹에 의해 표시되는 분석 필터에 의해 획득된다. 디코딩 단에서, G.178은, CNG 상태에서 SID를 디코딩하여 획득된 ISP 파라미터에 따라, CNG에 필요한 LPC 계수를 추정하고, SID 프레임을 디코딩하여 획득된 여기 에너지 파라미터에 따라, CNG에 필요한 여기 에너지를 추정하며, 이득-조정된 백색 잡음을 사용하여 CNG 합성 필터를 여기함으로써 재구성된 CN을 획득한다.
그렇지만, 초광대역 스펙트럼 엔벨로프에 있어서는, 초광대역의 대역폭이 너무 넓으며; 종래기술을 초광대역 DTX/CNG 시스템에 확장하면, 완전한 초광대역 스펙트럼 엔벨로프가 SID에 대해 인코딩되어야 하기 때문에, 부가된 수십 개의 ISP 파라미터를 계산하고 인코딩하는데 계산 부하가 가중되고 더 많은 비트가 소모된다. 잡음의 고대역 신호는 일반적으로 듣기에 지각적으로 민감하지 않기 때문에, 이러한 부분의 신호에 소모되는 계산 부하 및 비트는 비효율적이며, 이에 의해 코덱의 인코딩 효율이 감소한다.
초광대역 인코딩 및 전송 문제를 해결하기 위해, 본 발명의 실시예는 오디오 데이터 처리 방법, 장치 및 시스템을 제공한다. 기술적 솔루션은 다음과 같다:
한 관점에 따르면, 오디오 데이터 처리 방법이 제공되며, 상기 방법은,
오디오 신호의 잡음 프레임을 획득하고, 상기 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제하는 단계; 및
상기 잡음 저대역 신호를 제1 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하고 상기 잡음 고대역 신호를 제2 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하는 단계
를 포함하며,
여기서, 상기 제1 불연속 전송 메커니즘의 제1 무음 삽입 서술자 프레임(Silence Insertion Descriptor frame: SID)을 송신하는 정책은 상기 제2 불연속 전송 메커니즘의 제2 SID를 송신하는 정책과 다르거나, 또는 상기 제1 불연속 전송 메커니즘의 제1 SID를 인코딩하는 정책은 상기 제2 불연속 전송 메커니즘의 제2 SID를 인코딩하는 정책과 다르다.
한 관점에 따르면, 오디오 데이터 처리 방법이 제공되며, 상기 방법은,
디코더가, 무음 삽입 설명자 프레임(SID)을 획득하고, 상기 SID가 저대역 파라미터 또는 고대역 파라미터를 포함하는지를 판단하는 단계;
상기 SID가 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(Comfort Noise: CN) 프레임을 획득하는 단계;
상기 SID가 고대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터를 획득하고, 잡음 저대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 상기 국부적으로 생성된 잡음 저대역 파라미터에 따라 제2 CN 프레임을 획득하는 단계; 및
상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 상기 잡음 고대역 파라미터 및 상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득하는 단계
를 포함한다.
다른 관점에 따르면, 오디오 데이터 처리 장치가 제공되며, 상기 장치는,
오디오 신호의 잡음 프레임을 획득하고, 상기 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제하도록 구성되어 있는 획득 모듈; 및
상기 잡음 저대역 신호를 제1 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하고 상기 잡음 고대역 신호를 제2 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하도록 구성되어 있는 전송 모듈
을 포함하며,
여기서, 상기 제1 불연속 전송 메커니즘의 제1 무음 삽입 서술자 프레임(SID)을 송신하는 정책은 상기 제2 불연속 전송 메커니즘의 제2 SID를 송신하는 정책과 다르거나, 또는 상기 제1 불연속 전송 메커니즘의 제1 SID를 인코딩하는 정책은 상기 제2 불연속 전송 메커니즘의 제2 SID를 인코딩하는 정책과 다르다.
다른 관점에 따르면, 오디오 데이터 디코딩 장치가 제공되며, 상기 장치는,
무음 삽입 설명자 프레임(SID)을 획득하고, 상기 SID가 저대역 파라미터 또는 고대역 파라미터를 포함하는지를 판단하도록 구성되어 있는 판단 모듈;
상기 SID가 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(CN) 프레임을 획득하도록 구성되어 있는 제1 디코딩 모듈;
상기 SID가 고대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터를 획득하고, 잡음 저대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 상기 국부적으로 생성된 잡음 저대역 파라미터에 따라 제2 CN 프레임을 획득하도록 구성되어 있는 제2 디코딩 모듈; 및
상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 상기 잡음 고대역 파라미터 및 상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득하도록 구성되어 있는 제3 디코딩 모듈
을 포함한다.
다른 관점에 따르면, 오디오 데이터 처리 시스템에 제공되며 전술한 오디오 데이터 인코딩 장치 및 전술한 오디오 데이터 디코딩 장치를 포함한다.
본 발명의 실시예에서 제공하는 기술적 솔루션은 다음과 같은 유리한 효과를 낸다: 현재의 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제하고; 그런 다음 제1 불연속 전송 메커니즘을 사용하여 잡음 저대역 신호를 인코딩하고 전송하며, 제2 불연속 전송 메커니즘을 사용하여 잡음 고대역 신호를 인코딩하고 전송하며; 디코더는 무음 삽입 설명자 프레임 SID를 획득하고, 이 SID가 저대역 파라미터 및/또는 고대역 파라미터를 포함하는지를 판단하며; 상이한 판단 결과에 따라 상이한 잡음 디코딩 방식을 사용한다. 이 방법에서는, 고대역 신호 및 저대역 신호에 대해 상이한 인코딩 및 디코딩 방식을 사용하며, 코덱의 주관적 품질이 낮아지지 않는다는 전제 하에 계산 복잡도가 감소될 수 있고 인코딩된 비트가 절감될 수 있으며, 절감되는 비트는 전송 대역폭을 감소시키고 전반적인 인코딩 품질을 향상시키는 목적을 달성하는 데 일조하며, 이에 의해 초광대역 인코딩 및 전송 문제를 해결한다.
본 발명의 실시예의 기술적 솔루션을 더 명확하게 설명하기 위해, 이하에서는 본 발명의 실시예를 설명하는 데 필요한 첨부된 도면에 대해 간략하게 설명한다. 당연히, 이하의 실시예의 첨부된 도면은 본 발명의 일부의 실시예에 지나지 않으며, 당업자라면 창조적 노력 없이 첨부된 도면으로부터 다른 도면을 도출해낼 수 있을 것이다.
도 1은 본 발명의 실시예 1에 따른 오디오 데이터 처리 방법에 대한 흐름도이다.
도 2는 본 발명의 실시예 2에 따른 오디오 데이터 처리 방법에 대한 흐름도이다.
도 3은 본 발명의 실시예 3에 따른 오디오 데이터 처리 방법에 대한 흐름도이다.
도 4는 본 발명의 실시예 4에 따른 오디오 데이터 처리 방법에 대한 흐름도이다.
도 5는 본 발명의 실시예 6에 따른 오디오 데이터 인코딩 장치에 대한 개략도이다.
도 6은 본 발명의 실시예 6에 따른 다른 오디오 데이터 인코딩 장치에 대한 개략도이다.
도 7은 본 발명의 실시예 7에 따른 오디오 데이터 디코딩 장치에 대한 개략도이다.
도 8은 본 발명의 실시예 7에 따른 다른 오디오 데이터 디코딩 장치에 대한 개략도이다.
도 9는 본 발명의 실시예 8에 따른 다른 오디오 데이터 처리 시스템에 대한 개략도이다.
본 발명의 목적, 기술적 솔루션, 및 이점을 더 명확하게 하기 위해, 첨부된 도면을 참조하여 본 발명의 실시예에 대해 이하에 더 상세히 설명한다.
실시예 1
도 1을 참조하면, 본 실시예는 오디오 데이터 처리 방법을 제공하며, 이 방법은 이하를 포함한다:
101. 오디오 신호의 잡음 프레임을 획득하고, 상기 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제한다.
102. 잡음 저대역 신호를 제1 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하고 잡음 고대역 신호를 제2 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하며, 여기서, 상기 제1 불연속 전송 메커니즘의 제1 무음 삽입 서술자 프레임(Silence Insertion Descriptor frame: SID)을 송신하는 정책은 상기 제2 불연속 전송 메커니즘의 제2 SID를 송신하는 정책과 다르거나, 또는 상기 제1 불연속 전송 메커니즘의 제1 SID를 인코딩하는 정책은 상기 제2 불연속 전송 메커니즘의 제2 SID를 인코딩하는 정책과 다르다.
본 실시예에서, 제1 SID는 잡음 프레임의 저대역 파라미터를 포함하고, 제2 SID는 잡음 프레임의 잡음 저대역 파라미터 또는 고대역 파라미터를 포함한다.
선택적으로, 본 실시예에서, 상기 잡음 고대역 신호를 제2 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하는 단계는:
상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조(preset spectral structure)를 가지는 있는지를 판단하고; 가지고 있으면서, 상기 제2 SID를 송신하는 정책의 송신 조건을 충족하면, 상기 제2 SID를 인코딩하는 정책을 사용하여 상기 잡음 고대역 신호의 SID를 인코딩하고, 상기 SID를 송신하며; 가지고 있지 않으면, 상기 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정하는 단계
를 포함한다.
상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지는 있는지를 판단하는 단계는:
상기 잡음 고대역 신호의 스펙트럼을 획득하고, 상기 스펙트럼을 적어도 2개의 서브대역으로 분할하며, 상기 서브대역 중 임의의 제1 서브대역의 평균 에너지가 상기 서브대역 중 제2 서브대역의 평균 에너지보다 작지 않으면, 상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지고 있지 않는 것으로 확정하며; 그렇지 않으면, 상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지고 있는 것으로 확정하는 단계
를 포함하며,
여기서, 상기 제2 서브대역이 위치하는 주파수 대역은 상기 제1 서브대역이 위치하는 주파수 대역보다 높다.
선택적으로, 본 실시예에서, 상기 잡음 고대역 신호를 제2 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하는 단계는:
제1 비율 및 제2 비율에 따라 편차 정도 값(deviation extent value)을 생성하는 단계 - 상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 상기 잡음 고대역 신호의 에너지의 비율이고, 상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율임 - ; 및
상기 편차 정도 값이 사전설정된 임계값에 도달하는지를 판단하고; 도달하면, 상기 제2 SID를 인코딩하는 정책을 사용하여 상기 잡음 고대역 신호의 SID를 인코딩하고, 상기 SID를 송신하며; 도달하지 않으면, 상기 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정하는 단계
를 포함한다.
선택적으로, 상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 상기 잡음 고대역 신호의 에너지의 비율인 것은:
상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 순간 에너지(instant energy)에 대한 상기 잡음 고대역 신호의 순간 에너지의 비율인 것
을 포함하고, 그리고
이에 대응해서, 상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율인 것은:
상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 순간 에너지에 대한 잡음 고대역 신호의 순간 에너지의 비율인 것
을 포함한다.
대안으로, 상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 상기 잡음 고대역 신호의 에너지의 비율인 것은:
상기 제1 비율은, 상기 잡음 프레임과 상기 잡음 프레임 이전의 잡음 프레임의 잡음 저대역 신호의 가중 평균 에너지(weighted average energy)에 대한 상기 잡음 프레임과 상기 잡음 프레임 이전의 잡음 프레임의 잡음 고대역 신호의 가중 평균 에너지의 비율인 것
을 포함하며, 그리고
이에 대응해서, 상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율인 것은,
상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 프레임 및 상기 잡음 프레임 이전의 잡음 프레임의 저대역 신호의 가중된 평균 에너지에 대한 고대역 신호의 가중 평균 에너지의 비율인 것
을 포함한다.
본 실시예에서, 상기 제1 비율 및 제2 비율에 따라 편차 정도 값을 생성하는 단계는:
상기 제1 비율의 대수값(logarithmic value) 및 상기 제2 비율의 대수값을 개별적으로 계산하는 단계; 및
상기 제1 비율의 대수값과 상기 제2 비율의 대수값 간의 차이의 절댓값을 계산하여, 상기 편차 정도 값을 획득하는 단계
를 포함한다.
선택적으로, 본 실시예에서, 상기 잡음 고대역 신호를 제2 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하는 단계는,
상기 잡음 프레임의 잡음 고대역 신호의 스펙트럼 구조를 상기 잡음 프레임 이전의 잡음 고대역 신호의 평균 스펙트럼 구조와 비교하여, 사전설정된 조건을 충족하는지를 판단하고; 충족하면, 상기 제2 인코딩 정책을 사용하여 상기 잡음 프레임의 잡음 고대역 신호의 SID를 인코딩하고, 상기 SID를 송신하며; 충족하지 않으면, 상기 잡음 프레임의 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정하는 단계
를 포함한다.
상기 잡음 프레임 이전의 잡음 고대역 신호의 평균 스펙트럼 구조는, 상기 잡음 프레임 이전의 잡음 고대역 신호의 스펙트럼의 가중 평균을 포함한다.
본 실시예에서, 상기 제2 불연속 전송 메커니즘의 상기 제2 SID를 송신하는 정책에서의 송신 조건은: 상기 제1 SID를 송신하는 조건을 충족하는 제1 불연속 전송 메커니즘을 더 포함한다.
본 발명의 실시예에서 제공하는 방법 실시예는 다음과 같은 유리한 효과를 낸다: 오디오 신호의 현재의 잡음 프레임을 획득하고, 현재의 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제하고; 그런 다음 제1 불연속 전송 메커니즘을 사용하여 잡음 저대역 신호를 인코딩하고 전송하며, 제2 불연속 전송 메커니즘을 사용하여 잡음 고대역 신호를 인코딩하고 전송한다. 이 방법에서는, 고대역 신호 및 저대역 신호에 대해 상이한 인코딩 및 디코딩 방식을 사용하며, 코덱의 주관적 품질이 낮아지지 않는다는 전제 하에 계산 복잡도가 감소될 수 있고 인코딩된 비트가 절감될 수 있으며, 절감되는 비트는 전송 대역폭을 감소시키고 전반적인 인코딩 품질을 향상시키는 목적을 달성하는 데 일조하며, 이에 의해 초광대역 인코딩 및 전송 문제를 해결한다.
실시예 2
도 2를 참조하면, 본 실시예는 오디오 데이터 처리 방법을 제공하며, 상기 방법은 이하를 포함한다:
201. 디코더는 무음 삽입 설명자 프레임(SID)을 획득하고, 상기 SID가 저대역 파라미터 또는 고대역 파라미터를 포함하는지를 판단한다.
202. SID가 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(Comfort Noise: CN) 프레임을 획득한다.
203. SID가 고대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터를 획득하고, 잡음 저대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 상기 국부적으로 생성된 잡음 저대역 파라미터에 따라 제2 CN 프레임을 획득한다.
204. SID가 고대역 파라미터 및 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 상기 잡음 고대역 파라미터 및 상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득한다.
선택적으로, 본 실시예에서, SID가 저대역 파라미터를 포함하면, 그리고 상기 SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하며, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(CN) 프레임을 획득하기 전에, 상기 방법은:
상기 디코더가 제1 안정 잡음 생성(CNG) 상태에 있으면, 상기 디코더가, 제2 CNG 상태로 들어가는 단계
를 더 포함한다.
선택적으로, 본 실시예에서, SID가 고대역 파라미터 및 저대역 파라미터를 포함할 때, 상기 SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득하기 전에, 상기 방법은:
상기 디코더가 제2 CNG 상태에 있으면, 상기 디코더가, 제1 CNG 상태로 들어가는 단계
를 더 포함한다.
선택적으로, 본 실시예에서, 상기 SID가 저대역 파라미터를 포함하는지 및/또는 고대역 파라미터를 포함하는지를 판단하는 단계는:
상기 SID의 비트 수가 사전설정된 제1 임계값보다 작을 때, 상기 SID가 고대역 파라미터를 포함하는 것으로 확정하고, 상기 SID의 비트 수가 사전설정된 제1 임계값보다 크고 사전설정된 제2 임계값보다 작을 때, 상기 SID가 저대역 파라미터를 포함하는 것으로 확정하며, 상기 SID의 비트 수가 사전설정된 제2 임계값보다 크고 사전설정된 제3 임계값보다 작을 때, 상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함하는 것으로 확정하는 단계; 또는
상기 SID가 제1 식별자를 포함할 때, 상기 SID가 고대역 파라미터를 포함하는 것으로 확정하고; 상기 SID가 제2 식별자를 포함할 때, 상기 SID가 저대역 파라미터를 포함하는 것으로 확정하며; 상기 SID가 제3 식별자를 포함할 때, 상기 SID가 저대역 파라미터 및 고대역 파라미터를 포함하는 것으로 확정하는 단계
를 포함한다.
본 실시예에서, 상기 잡음 고대역 파라미터를 국부적으로 생성하는 단계는:
상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지 및 잡음 고대역 신호의 합성 필터 계수를 개별적으로 획득하는 단계; 및
상기 SID에 대응하는 때의 잡음 고대역 신호의 획득된 가중 평균 에너지 및 잡음 고대역 신호의 획득된 합성 필터 계수에 따라 잡음 고대역 신호를 획득하는 단계
를 포함한다.
선택적으로, 본 실시예에서, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지 및 잡음 고대역 신호의 합성 필터 계수를 개별적으로 획득하는 단계는:
상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 상기 제1 CN 프레임의 저대역 신호의 에너지를 획득하는 단계;
상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율을 계산하여 제1 비율을 획득하는 단계;
상기 제1 CN 프레임의 저대역 신호의 에너지 및 상기 제1 비율에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 에너지를 획득하는 단계; 및
상기 SID에 대응하는 때의 잡음 고대역 신호의 에너지 및 국부적으로 버퍼링된 CN 프레임의 고대역 신호의 에너지에 대한 가중 평균을 수행하여, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 단계
를 포함하며,
여기서, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 상기 제1 CN 프레임의 고대역 신호 에너지이다.
선택적으로, 본 실시예에서, 상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율을 계산하여 제1 비율을 획득하는 단계는:
상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 순간 에너지에 대한 잡음 고대역 신호의 순간 에너지의 비율을 계산하여 제1 비율을 획득하는 단계; 또는
상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 가중 평균 에너지에 대한 잡음 고대역 신호의 가중 평균 에너지의 비율을 계산하여 제1 비율을 획득하는 단계
를 포함한다.
SID에 대응하는 때의 잡음 고대역 신호의 에너지가 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지보다 크면, 상기 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지가 제1 속도로 갱신되고; 그렇지 않으면, 상기 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지는 제2 속도로 갱신되며, 상기 제1 속도는 상기 제2 속도보다 크다.
선택적으로, 본 실시예에서, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 단계는:
상기 SID 전의 사전설정된 시간 주기 내의 음성 프레임 중 고대역 신호 에너지가 최소인 음성 프레임의 고대역 신호를 선택하는 단계; 및
상기 음성 프레임 중 고대역 신호 에너지가 최소인 음성 프레임의 고대역 신호의 에너지에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 단계 - 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 상기 제1 CN 프레임의 고대역 신호 에너지임 - ; 또는
상기 SID 전의 사전설정된 시간 주기 내의 음성 프레임 중 고대역 신호 에너지가 사전설정된 임계값보다 작은 N개의 음성 프레임의 고대역 신호를 선택하는 단계; 및
상기 N개의 음성 프레임의 고대역 신호의 가중 평균 에너지에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 단계 - 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 상기 제1 CN 프레임의 고대역 신호 에너지임 -
를 포함한다.
선택적으로, 본 실시예에서, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계는:
고대역 신호에 대응하는 주파수 범위 내에 M개의 이미턴스 스펙트럼 주파수(immittance spectral frequency: ISF) 계수 또는 이미턴스 스펙트럼 페어(Immittance Spectral Pair: ISP) 계수 또는 라인 스펙트럼 페어(line spectral pair: LSP) 계수를 분배하는 단계;
상기 M개의 계수에 대해 무작위화 처리(randomization processing)를 수행하는 단계 - 상기 무작위화의 특징은 상기 M개의 계수 중 각각의 계수가 점차적으로 각각의 계수에 대응하는 목표값에 접근하게 하는 것이고, 상기 목표값은 계수값에 인접하는 사전설정된 범위 내의 값이며, 상기 M개의 계수 중 각각의 계수의 목표값은 매 N개의 프레임 후에 변하며, M 및 N 모두는 자연수임 - ; 및
상기 무작위화 처리에 의해 획득된 필터 계수에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계
를 포함한다.
선택적으로, 본 실시예에서, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계는:
국부적으로 버퍼링된 잡음 고대역 신호의 M개의 ISF 계수 또는 ISP) 계수 또는 LSP 계수를 획득하는 단계;
상기 M개의 계수에 대해 무작위화 처리를 수행하는 단계 - 상기 무작위화의 특징은 상기 M개의 계수 중 각각의 계수가 점차적으로 각각의 계수에 대응하는 목표값에 접근하게 하는 것이고, 상기 목표값은 계수값에 인접하는 사전설정된 범위 내의 값이며, 상기 M개의 계수 중 각각의 계수의 목표값은 매 N개의 프레임 후에 변함 - ; 및
상기 무작위화 처리에 의해 획득된 필터 계수에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계
를 포함한다.
선택적으로, 본 실시예에서, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 CN 프레임을 획득하는 단계 이전에, 상기 방법은,
상기 SID에 인접하는 내력 프레임(history frame)이 인코딩된 음성 프레임이면, 상기 인코딩된 음성 프레임으로부터 디코딩되는 고대역 신호 또는 일부의 고대역 신호의 평균 에너지가 국부적으로 생성되는 잡음 고대역 신호 또는 일부의 잡음 고대역 신호의 평균 에너지보다 작으면, 상기 SID로부터 시작하는 후속 L개의 프레임의 잡음 고대역 신호에 1보다 작은 평활 인자(smoothing factor)를 승산하여, 상기 국부적으로 생성된 잡음 고대역 신호의 새로운 가중 평균 에너지를 획득하는 단계
를 더 포함하며,
이에 대응해서, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 CN 프레임을 획득하는 단계는,
상기 디코딩에 의해 획득된 잡음 저대역 파라미터, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수, 및 상기 국부적으로 생성된 잡음 고대역 신호의 새로운 가중 평균 에너지에 따라, 제4 CN 프레임을 획득하는 단계
를 포함한다.
본 발명의 실시예에서 제공하는 방법 실시예는 다음과 같은 유리한 효과를 낸다: 디코더는 무음 삽입 설명자 프레임(SID)을 획득하고, 상기 SID가 저대역 파라미터 및/또는 고대역 파라미터를 포함하는지를 판단하고; 상기 SID가 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(Comfort Noise: CN) 프레임을 획득하고; 상기 SID가 고대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터를 획득하고, 잡음 저대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 상기 국부적으로 생성된 잡음 저대역 파라미터에 따라 제2 CN 프레임을 획득하며; 그리고 상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 상기 잡음 고대역 파라미터 및 상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득한다. 이 방법에서는, 고대역 신호 및 저대역 신호에 대해 상이한 인코딩 및 디코딩 방식을 사용하며, 코덱의 주관적 품질이 낮아지지 않는다는 전제 하에 계산 복잡도가 감소될 수 있고 인코딩된 비트가 절감될 수 있으며, 절감되는 비트는 전송 대역폭을 감소시키거나 전반적인 인코딩 품질을 향상시키는 목적을 달성하는 데 일조하며, 이에 의해 초광대역 인코딩 및 전송 문제를 해결한다.
실시예 3
본 실시예는 오디오 데이터 처리 방법을 제공한다. 인코딩 단에서, 저대역 CNG 잡음 스펙트럼 또는 고대역 CNG 잡음 스펙트럼에 상관없이, 일반적으로, 배음 구조(harmonic structure)가 분실되며, 그러므로 CNG 고대역 신호에서, 지각해서(perceptually) 듣기에 유효한 것은 주로 CNG 고대역 신호의 에너지이지, CNG 고대역 신호의 스펙트럼 구조가 아니다. 그러므로 초광대역 신호의 DTX 전송에서, 많은 경우에, 고대역 신호 스펙트럼을 SID으로 전송할 필요가 없으며; 대신, 적절한 방법을 사용하여 디코딩 단에서 고대역 스펙트럼을 국부적으로 구성할 수 있다. 국부적으로 구성된 고대역 스펙트럼은 자명한 지각적 왜곡을 야기하지 않을 것이다. 이 방법에서, 고대역 스펙트럼을 계산하고 인코딩하기 위한 계산 부하 및 비트가 인코딩 단에서 절감된다. 한편, 다른 잡음 신호에 있어서, 배음 구조는 고대역 신호에 존재할 수 있으며, 디코딩 단에서만 고대역 스펙트럼을 국부적으로 구성하는 것은 CNG 세그먼트와 음성 세그먼트 간의 전환 시에 지각 품질 저하를 야기할 수 있다. 그러므로 이러한 잡음에 있어서, 스펙트럼 파라미터를 SID로 전송해야 한다. 효율성 및 품질을 고려하는 DTX/CNG 시스템은 배경 잡음의 고대역 특징에 따라 인코딩 단에서 SID 내의 고대역 스펙트럼 파라미터를 인코딩하는 것을 적응적으로 선택할 수 있거나 인코딩하는 것을 선택하지 않을 수 있어야 하며, 다른 유형의 SID에 따라 다른 디코딩 방법을 사용하여 디코딩 단에서 CNG 프레임을 재구성할 수 있어야 한다는 것을 알 수 있다. 본 실시예에서, 오디오 데이터 처리 방법이 제공되며 이하를 포함한다: 잡음 고대역 스펙트럼을 분석하고 분류하며; 디코더는 고대역 신호 스펙트럼을 맹목적으로 구성하며; SID가 고대역 에너지 파라미터를 포함하고 있지 않으면, 디코더는 고대역 신호 에너지를 추정하며; 디코더는 다른 CNG 모듈들 사이를 전환한다. 도 3을 참조하면, 구체적으로, 본 실시예에 따른 인코더에서의 오디오 데이터 처리 방법은 이하를 포함한다:
301. 인코더는 오디오 신호의 잡음 프레임을 획득하고, 상기 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제한다.
본 실시예에서, 인코더의 상이한 인코딩 규칙 때문에, 인코더는 오디오 신호의 잡음 프레임을 획득하며, 잡음 프레임은 현재의 잡음 프레임일 수 있거나, 인코더 단에 버퍼링된 잡음 프레임일 수 있으며, 이는 구체적으로 본 실시예에서 제한되지 않는다. 본 실시예에서는, 32kHz에서 샘플링된 초광대역 입력 오디오 신호를 예로 사용한다. 인코더는 먼저 입력 오디오 신호에 대해 프레밍 처리(framing processing)를 수행하는데, 예를 들어, 20ms(또는 640 샘플링 포인트)를 하나의 프레임으로 사용한다. 현재 프레임에 있어서(본 실시예에서, 현재 프레임이란 인코딩될 현재 프레임을 말한다), 인코더는 먼저 고대역 필터링을 수행한다. 일반적으로, 통과대역(passband)이란 50Hz보다 높은 주파수를 말한다. 고대역 필터링된 현재 프레임은 직교 미러 필터(quadrature mirror filter: QMF) 분석 필터를 사용하여 저대역 신호 s0 및 고대역 신호 s1로 압축해제된다. 저대역 신호 s0는 16kHz에서 샘플링되고, 현재 프레임의 0-8kHz 스펙트럼을 나타낸다. 고대역 신호 s1도 16kHz에서 샘플링되고, 현재 프레임의 8-16kHz 스펙트럼을 나타낸다. 음성 활동 검출기(Voice Activity Detector: VAD)가 현재 프레임이 전경 신호 프레임(foreground signal frame), 즉 음성 신호 프레임임을 나타내면, 인코더는 이 현재 프레임에 대해 음성 인코딩을 수행한다. 본 실시예에서, 인코더가 그 인코딩된 음성 프레임을 인코딩하는 것은 종래기술의 범주에 속하므로, 본 실시예에서는 이에 대해 반복 설명하지 않는다. VAD는 현재 프레임이 잡음 프레임이면 인코더가 DTX 작업 상태에 들어가는 것을 나타낸다. 본 실시예에서, 잡음 프레임이란 배경 잡음 프레임 또는 무음 프레임을 말한다.
본 실시예에서, DTX 작업 상태에서, DTX 제어기는 SID 송신 정책에 따라 현재 프레임의 저대역 신호의 SID를 인코딩 및 송신할지를 결정한다. 본 실시예에서, 저대역 신호의 SID를 송신하는 정책은 다음과 같다: (1) 인코딩된 음성 프레임 후에 제1 잡음 프레임 내의 SID를 송신하고, SID 송신 플래그 flagSID를 1에 설정하며; (2) 잡음 주기에서, 각각의 SID 프레임 후에 N번째 프레임 내의 SID 프레임을 송신하고, 그 프레임에서 flagSID를 1에 설정하며, 여기서 N은 1보다 큰 정수이고 인코더에 외부에서 입력되며; (3) 잡음 인코더에서, 다른 프레임 내의 SID를 송신하지 않으며, flagSID를 0에 설정한다. 본 실시예에서, 저대역 신호의 SID를 송신하는 정책은 종래기술의 정책과 유사하므로, 본 발명에서는 이에 대해 상세히 설명하지 않는다.
302. 현재 프레임의 고대역 신호가 사전설정된 인코딩 및 전송 조건을 충족하는지를 판단하고; 충족하면, 단계 304를 수행하고; 충족하지 않으면, 단계 303을 수행한다.
본 실시예에서, 현재 프레임의 고대역 신호가 사전설정된 인코딩 및 전송 조건을 충족하는지를 판단하는 단계는: 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지고 있는지를 판단하고; 가지고 있으면서, 제2 SID를 송신하는 정책의 송신 조건이 충족되면, 잡음 고대역 신호의 SID를 제2 SID를 인코딩하는 정책을 사용하여 인코딩하며, 상기 SID를 송신하며; 가지고 있지 않으면, 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정한다. 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지고 있는지를 판단하는 단계는: 잡음 고대역 신호의 스펙트럼을 획득하고, 상기 스펙트럼을 적어도 2개의 서브대역으로 분할하며, 상기 서브대역 중 임의의 제1 서브대역의 평균 에너지가 상기 서브대역 중 제2 서브대역의 평균 에너지보다 작지 않으면, 상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지고 있지 않는 것으로 확정하며; 그렇지 않으면, 상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지고 있는 것으로 확정하는 단계를 포함하며, 여기서, 상기 제2 서브대역이 위치하는 주파수 대역은 상기 제1 서브대역이 위치하는 주파수 대역보다 높다.
본 실시예에서, DTX 작업 상태에서, 인코더는 현재 잡음 프레임의 고대역 신호 s1에 대해 스펙트럼 분석을 수행하여, s1이 명확한 스펙트럼 구조, 즉 사전설정된 스펙트럼 구조를 가지고 있는지를 판단한다. 본 발명의 특정한 방법은 다음과 같다: 12.8kHz으로의 다운샘플링을 s1에 대해 수행하고, 그 다운샘플링된 신호에 대해 256-포인트 FFT를 수행하여 스펙트럼 C(i)를 획득하며, 여기서, i=0,...127이다. C(i)는 폭이 같은 4개의 서브대역으로 분할되고, 각각의 서브대역의 에너지 E(i)가 계산된다. 각각의 서브대역은 전술한 임의의 제1 서브대역이다.
Figure pct00001
, 여기서 i=0,...3, l(i) 및 h(i)는 i번째 서브대역의 상위 경계 및 하위 경계를 각각 나타내며, l(i)={0, 32, 64, 96} 및 h(i)={31, 63, 95, 127}이다. 다음의 조건이 충족되는지를 검사한다:
Figure pct00002
여기서, E(j)는 전술한 제2 서브대역이다. 전술한 식(1)이 충족되면, 즉 서브대역 중 임의의 제1 서브대역의 에너지가 서브대역 중 임의의 제2 서브대역의 에너지보다 작지 않으면, 고대역 신호가 명확한 스펙트럼 구조를 가지지 않는 것으로 간주되고; 그렇지 않으면, 고대역 신호는 명확한 스펙트럼 구조를 가진다. 고대역 신호가 명확한 스펙트럼 구조를 가지면, DTX 정책은 고대역 파라미터를 송신하는 것이다. 본 실시예에서, 고대역 파라미터 송신 플래그 flaghb가 1이 아니면, flagSID=1일 때, flaghb=1이 다음번에 설정되고; 그렇지 않으면, flaghb=0이 된다.
본 실시예에서, SID 송신 조건이 충족되면, 현재 잡음 프레임의 고대역 신호를 인코딩 및 전송할 필요가 있는지가 현재 잡음 프레임의 고대역 신호의 스펙트럼 구조를 사용하여 판단되고, 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지고 있는지 그리고 잡음 저대역 신호가 SID 송신 조건을 충족하는지를 판단하는 단계를 제1 판단 조건으로 사용한다. 선택적으로, 본 실시예에서는, 현재 잡음 프레임의 고대역 신호가 사전설정된 인코딩 및 송신 조건을 충족하는지를 판단하는 단계는: 제1 비율 및 제2 비율에 따라 편차 정도 값(deviation extent value)을 생성하는 단계 - 여기서, 상기 제1 비율은 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율이고, 상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율임 - ; 및 상기 편차 정도 값이 사전설정된 임계값에 도달하는지를 판단하고; 도달하면, 상기 제2 SID를 인코딩하는 정책을 사용하여 상기 잡음 고대역 신호의 SID를 인코딩하고, 상기 SID를 송신하며; 도달하지 않으면, 상기 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정하는 단계를 포함한다. 선택적으로,
상기 제1 비율은 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율인 것은: 상기 제1 비율은 잡음 프레임의 잡음 저대역 신호의 순간 에너지에 대한 상기 잡음 고대역 신호의 순간 에너지의 비율인 것을 포함하고, 그리고 이에 대응해서, 상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율인 것은: 상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 순간 에너지에 대한 잡음 고대역 신호의 순간 에너지의 비율인 것을 포함한다. 대안으로, 상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 상기 잡음 고대역 신호의 에너지의 비율인 것은: 상기 제1 비율은, 상기 잡음 프레임과 상기 잡음 프레임 이전의 잡음 프레임의 잡음 저대역 신호의 가중 평균 에너지에 대한 상기 잡음 프레임과 상기 잡음 프레임 이전의 잡음 프레임의 잡음 고대역 신호의 가중 평균 에너지의 비율인 것을 포함하며; 그리고 이에 대응해서, 상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율인 것은: 상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 프레임 및 상기 잡음 프레임 이전의 잡음 프레임의 저대역 신호의 가중된 평균 에너지에 대한 고대역 신호의 가중 평균 에너지의 비율인 것을 포함한다. 본 실시예에서, 양호하게, 상기 제1 비율 및 제2 비율에 따라 편차 정도 값을 생성하는 단계는: 상기 제1 비율의 대수값 및 상기 제2 비율의 대수값을 개별적으로 계산하는 단계; 및 상기 제1 비율의 대수값과 상기 제2 비율의 대수값 간의 차이의 절댓값을 계산하여, 상기 편차 정도 값을 획득하는 단계를 포함한다.
구체적으로, 본 실시예에서, 상기 편차 정도 값이 사전설정된 임계값에 도달하는지를 판단하는 단계를 이하의 방식으로 실행될 수 있다:
DTX 작업 상태에서, 인코더는 현재 프레임의 고대역 신호 s1 및 저대역 신호 s0의 대수 에너지 e1 및 e0을 개별적으로 계산한다.
Figure pct00003
인코딩 단에서 e1 및 e0의 장기 이동 평균(long-term moving average) e1a 및 e0a는 갱신된다:
Figure pct00004
여기서, sign[.]은 부호 함수를 나타내고, MIN[.]은 최소 함수를 나타내며,
Figure pct00005
는 절대값 함수를 나타내며, 형식 x(-1)은 이전 프레임 x의 값을 나타내며, 그리고 α=0는 갱신 속도가 높은지 또는 낮은지를 결정하는 망각 계수(forgetting factor)이다. 이전의 프레임은 현재 프레임 전에 마지막 송신되는 SID이고 잡음 고대역 파라미터를 포함한다. 본 실시예에서, e1a 및 e0a의 갱신 진폭(update magnitude)은 제한된다. 현재 잡음 프레임의 ex와 이전 프레임의 exa 간의 에너지 변동이 3dB보다 크면, 현재 프레임의 exa가 3dB만큼 갱신된다. 인코더가 최초로 DTX 작업 상태로 들어가면, exa는 현재 프레임의 ex로 초기화된다. 인코더가 현재 잡음 프레임의 저대역 신호의 에너지에 대한 고대역 신호의 에너지의 비율(즉, 제1 비율)과 잡음 고대역 파라미터를 포함하는 SID가 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율(즉, 제2 비율) 간의 편차가 일정 정도에 도달하는지를 검사하는데, 즉 이하의 조건이 충족되는지를 검사한다:
Figure pct00006
여기서, e_ 0a 및 e_ 1a는 고대역 파라미터를 포함하는 SID 프레임이 마지막 송신되는 때의 잡음 고대역 대수 에너지 및 저대역 대수 에너지를 각각 나타낸다. 전술한 식(4)이 충족되면, 잡음 고대역 신호가 인코딩 및 전송되어야 한다. 고대역 파라미터 송신 플래그 falghb=0이면, flaghb=1이 설정된다.
본 실시예에서, 장기 이동 평균은 가중 평균 계산의 한 유형이고, 이에 대해서는 본 실시예에서 구체적으로 제한되지 않는다.
본 실시예에서는, 편차 정도 값이 사전설정된 임계값에 도달하는지를 판단하는 단계를 제2 판단 조건으로 사용할 수 있다. 특정한 실행 프로세스에서는, 잡음 고대역 신호가 인코딩 및 전송되어야 하는지를 판단하기 위해, 제1 판단 조건 또는 제2 판단 조건 중 어느 하나가 결정되어야 하며, 이에 대해서는 본 실시예에서 제한되지 않는다.
본 실시예에서, 제2 판단 조건은 선택사항이다. 이 단계를 수행하는 목적은, 고대역 파라미터를 포함하는 SID가 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율 및 잡음 저대역의 에너지에 따라, 디코딩 단을 보조하기 위한 것이다. 구체적으로, 편차 정도 값이 인코딩 단에서 계산되지 않으면, 고대역 신호 에너지가 최소인 음성 프레임을, 현재 잡음 프레임 이전의 시간 주기 내의 음성 프레임으로부터 디코딩 단에서 획득할 수 있으며, 현재 고대역 잡음의 에너지를, 현재 잡음 프레임 이전의 시간 주기 내의 음성 프레임 중 고대역 신호 에너지가 최소인 음성 프레임의 고대역 신호의 에너지에 따라 국부적으로 추정한다. 예를 들어, 현재 잡음 프레임 이전의 시간 주기 내의 음성 프레임 중 고대역 신호 에너지가 최소인 음성 프레임의 고대역 신호의 에너지를 현재 고대역 잡음의 에너지로서 선택한다. 대안으로, 고대역 신호 에너지가 사전설정된 임계값보다 작은 N개의 음성 프레임의 고대역 신호는 SID 이전의 사전설정된 시간 주기 내의 음성 프레임 중에서 선택되며; SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 N개의 음성 프레임의 고대역 신호의 가중 평균 에너지에 따라 획득된다. 구체적으로, 본 실시예에서 제한은 설정되지 않는다.
303. 잡음 저대역 신호를 제1 불연속 전송 메커니즘을 사용하여 전송한다.
본 실시예에서, 양호하게, 잡음 저대역 신호를 제1 불연속 전송 메커니즘을 사용하여 전송하는 단계는: DTX 작업 상태에서, 인코더가 현재 잡음 프레임의 저대역 신호 s0에 대해 16등급 선형 예측 분석을 수행하고, 16개의 선형 예측 계수를 획득하는 단계를 포함하며, 여기서 i=0,1,...,15이다. LPC 계수는 ISP 계수로 변환되어 16개의 ISP 계수 isp(i)를 획득하며, 여기서 i=0,1,...,15이며, ISP 계수는 버퍼링된다. SID가 현재 프레임에서 인코딩되면, 즉 flagSID=1이면, 현재 프레임을 포함하는 N개의 내력 프레임의 버퍼링된 ISP 계수 중에서 중간의 ISP 계수를 검색한다. 방법은 다음과 같다: 먼저, 각각의 프레임의 ISP 계수로부터 다른 프레임의 ISP 계수까지의 거리 δ를 계산한다:
Figure pct00007
그런 다음, 최소 δ를 가지는 프레임의 ISP 계수를 인코딩되어야 하는 ISP 계수 ispSID(i)로 선택하며, 여기서 i=0,1,...,15이며; ispSID(i)를 ISF 계수 isfSID(i)로 변환하고, isfSID(i)를 양자화하며, 한 그룹의 양자화된 인덱스 idxISF를 획득하여 SID로 캡슐화하며; idxISF를 국부적으로 디코딩하며; 디코딩된 ISF 계수 isf'(i)를 획득하며; isf'(i)를 ISP 계수 isp'(i)로 변환하며, 여기서 i=0,1,...,15이며; 각각의 잡음 프레임에 있어서, 버퍼링된 isp'(i)를 사용하여 인코딩 단의 디코딩된 ISP 계수의 장기 이동 평균을 갱신한다:
Figure pct00008
여기서, 양호하게, α=0.9이고, ispa(i)는 제1 SID의 isp'(i)로서 초기화되며; ispa(i)를 LPC 계수 lpca(i)로 변환하고, 분석 필터 A(Z)를 획득하며; 각각의 잡음 프레임의 저대역 신호 s0를 A(Z)으로 필터링하여 잔여 신호 r(i)를 획득하며, 여기서 i=0,1,...,31이며, 대수 잔여 에너지 er을 계산한다:
Figure pct00009
본 실시예에서, er은 버퍼링되어 있다. 현재 잡음 프레임의 flagSID가 1이면, 현재 잡음 프레임을 포함하는 M개의 내력 프레임의 버피링된 er에 따라 가중 평균 대수 에너지 eSID가 계산되며:
Figure pct00010
, 여기서 w1(k)는 한 그룹의 M-차원 양의 계수이며, 이것의 합은 1보다 작다. eSID는 양자화되며, 양자화된 인덱스 idxe가 획득된다.
본 실시예에서, DTX 작업 상태에서, flagSID=1일 때, flaghb=0이면, 저대역 파라미터만이 인코딩되어 SID 프레임으로 송신되며, 이 경우, SID 프레임은 idxISF 및 idxe로 형성되며, 편의상 작은 ISD 프레임이라고 한다.
본 실시예에서, 잡음 저대역 신호를 인코딩 및 전송하는 정책은 종래기술에서의 잡음 광대역 신호를 인코딩 및 전송하는 정책과 유사하다. 본 실시예에서는 간략하게만 설명한다. 본 실시예에서는 특정한 실행 프로세스에 대해서는 상세히 설명하지 않는다. 본 실시예에서는, 현재 잡음 프레임의 잡음 고대역 신호가 인코되지 않아도 되며, 잡음 저대역 신호만이 인코딩된다. 그러므로 인코딩 단에서 계산 부하가 감소되며, 전송 비트가 절감된다.
304. 잡음 저대역 신호를 제1 불연속 전송 메커니즘을 사용하여 전송하고, 잡음 고대역 신호를 제2 불연속 전송 메커니즘을 사용하여 전송한다.
본 실시예에서, flaghb=1이면, 저대역 파라미터가 인코딩되어야 하는 것 외에, 고대역 파라미터도 SID로 인코딩되어야 한다. 저대역 잡음의 저대역 파라미터의 인코딩은 단계 303에서의 인코딩 모드와 동일하므로, 본 실시예에서는 이에 대해 반복 설명하지 않는다. 본 실시예에서, 양호하게, 고대역 파라미터 인코딩 방법은 다음과 같다: 인코더가 DTX 작업 상태에 있고 flagSID=1이면, 인코더는 현재 프레임의 고대역 신호 s1에 대해 10등급 선형 예측 분석을 수행하고, 10개의 선형 예측 계수 lpc(i)를 획득하며, 여기서 i=0,1,...9이다. lpc(i)는 가중되고:
Figure pct00011
가중된 LPC 계수 lpcw(i)가 획득되며, 여기서 w2(i)는 1보다 작거나 같은 한 그룹의 9차원 가중 인자(9-dimensional weigthing factor)를 나타낸다. lpcw(i)는 LSP 계수로 변환되어 10개의 LSP 계수 lspw(i)를 획득하며, 여기서 i=0,1,...9이며, 인코딩 단의 lspw(i)의 장기 이동 평균은 lspw(i)에 따라 갱신된다.
Figure pct00012
여기서, 양호하게, α=0.9이고, lspa(i)는 flaghb가 0에서 1로 변할 때마다 현재 프레임의 lspw(i)로서 초기화된다. SID가 고대역 파라미터를 포함해야 하면, lspa(i)는 양자화되고, 한 그룹의 양자화된 인덱스 idxLSP가 획득된다. 인코딩 단에서 고대역 신호의 대수 에너지의 장기 이동 평균 e1a가 양자화되고, 양자화된 인덱스 idxE가 획득된다. 이 경우, SID는 idxISF, idxe, idxLSP, 및 idxE로 형성된다. 본 실시예에서는, idxISF, idxe, idxLSP, 및 idxE로 형성된 SID를 큰 SID라고 한다.
선택적으로, lspa(i)도 DTX 작업 상태에서 지속적으로 갱신될 수 있다. 즉, flaghb의 값이 1 또는 0인지에 상관없이, lspa(i)는 갱신된다. 구체적으로, flaghb=0일 때의 lspa(i) 갱신 방법은 flaghb=1일 때의 전술한 방법과 동일하므로, 이에 대해서는 본 실시예에서 반복 설명하지 않는다.
본 실시예에서, 잡음 고대역 신호를 인코딩하는 정책의 원리는 잡음 저대역 신호를 인코딩하는 정책의 원리와 유사하다. 본 실시예에서는 간략하게만 설명한다. 본 실시예에서는 특정한 실행 프로세스에 대해서는 상세히 설명하지 않는다.
본 실시예에서는, 잡음 고대역 신호를 인코딩 및 전송하는 조건이 충족되면, 잡음 고대역 신호의 인코딩 및 전송은 항상 잡음 저대역 신호의 인코딩 및 전송과 동시에 수행된다. 그렇지만, 선택적으로, 잡음 고대역 신호의 인코딩 및 전송 역시 잡음 저대역 신호의 인코딩 및 전송과 동시에 수행되지 않을 수도 있다. 즉, SID가 송신되면, 3가지의 가능한 경우가 있을 수 있다: (1) 현재 잡음 프레임의 저대역 신호만이 인코딩 및 전송되고; (2) 현재 잡음 프레임의 고대역 신호만이 인코딩 및 전송되며; 그리고 (3) 현재 잡음 프레임의 저대역 신호 및 고대역 신호가 동시에 인코딩 및 전송되며, 이 경우, 제2 불연속 전송 메커니즘의 제2 SID를 송신하는 정책에서의 송신 조건은: 제1 SID 송신 조건을 만족하는 제1 불연속 전송 메커니즘을 더 포함한다. SID를 송신하는 3가지 경우는 구체적으로 본 실시예에서 제한되지 않는다.
본 실시예에서, 단계 302 내지 304는 구체적으로 제1 불연속 전송 메커니즘을 사용하여 잡음 저대역 신호를 인코딩 및 전송하는 단계, 및 제2 불연속 전송 메커니즘을 사용하여 잡음 고대역 신호를 인코딩 및 전송하는 단계이며, 여기서, 제1 불연속 전송 메커니즘의 제1 무음 삽입 설명자 프레임 SID를 송신하는 정책은 제2 불연속 전송 메커니즘의 제2 SID를 송신하는 정책과 다르거나, 제1 불연속 전송 메커니즘의 제1 SID를 인코딩하는 정책은 제2 불연속 전송 메커니즘의 제2 SID를 인코딩하는 정책과 다르다.
본 발명에서 제공하는 방법 실시예는 다음과 같은 유리한 효과를 낸다: 오디오 신호의 현재 잡음 프레임을 획득하고, 현재의 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제하고; 그런 다음 제1 불연속 전송 메커니즘을 사용하여 잡음 저대역 신호를 인코딩하고 전송하며, 제2 불연속 전송 메커니즘을 사용하여 잡음 고대역 신호를 인코딩하고 전송한다. 이 방법에서는, 고대역 신호 및 저대역 신호에 대해 상이한 인코딩 및 디코딩 방식을 사용하며, 코덱의 주관적 품질이 낮아지지 않는다는 전제 하에 계산 복잡도가 감소될 수 있고 인코딩된 비트가 절감될 수 있으며, 절감되는 비트는 전송 대역폭을 감소시키고 전반적인 인코딩 품질을 향상시키는 목적을 달성하는 데 일조하며, 이에 의해 초광대역 인코딩 및 전송 문제를 해결한다.
실시예 4
본 실시예는 오디오 데이터 처리 방법을 제공한다. 인코더 단에서의 잡음 신호의 처리와 비교해서, 디코더는, 수신된 비트 스트림에 따라, 현재 프레임이 인코딩된 음성 프레임인지 SID인지 NO_DATA 프레임인지를 판단할 수 있다. NO_DATA 프레임은 인코딩 단이 잡음 주기에서 인코딩 및 송신하지 않는다는 것을 나타내는 프레임이다. 현재 프레임이 SID이면, 디코더는, SID의 비트 수에 따라, SID가 저대역 및/또는 고대역 파라미터를 포함하는지를 추가로 판단할 수 있다. 선택적으로, 디코더는 SID에 삽입된 특정한 식별자에 따라, SID가 저대역 및/또는 고대역 파라미터를 포함하는지를 추가로 판단할 수 있다. 이것은 SID가 인코딩될 때 추가의 식별자 비트가 부가되어야 한다는 것을 요구한다. 예를 들어, SID에 제1 식별자가 삽입되면, SID가 고대역 파라미터만을 포함한다는 것을 나타내며; 제2 식별자가 삽입되면, SID가 저대역 파라미터만을 포함한다는 것을 나타내며; 제3 식별자가 삽입되면, SID가 고대역 파라미터 및 저대역 파라미터를 포함한다는 것을 나타낸다. 현재 프레임이 인코딩된 음성 프레임이면, 디코더는 음성 프레임을 디코딩한다. 특정한 프로세싱 프로세스는 종래기술의 프로세스와 유사하므로, 본 실시예에서는 상세히 설명하지 않는다. 현재 프레임이 SID 또는 NO_DATA 프레임이면, 디코더는, CNG의 특정한 작업 상태에 따라, 대응하는 방법을 선택하여 CN 프레임을 재구성한다. 본 실시예에서, CNG는 2가지의 작업 상태: 작은 SID 프레임에 대응하는 절반-디코딩 CNG 상태, 즉 제1 CNG 상태, 및 큰 SID 프레임에 대응하는 완전-디코딩 CNG 상태, 즉 제2 CNG 상태를 가진다. 완전-디코딩 CNG 상태에서, 디코더는 큰 SID 프레임을 디코딩하여 획득되는 잡음 고대역 파라미터 및 잡음 저대역 파라미터에 따라 CN 프레임을 재구성한다. 절반-디코딩 CNG 상태에서, 디코더는 작은 SID 프레임을 디코딩하여 획득된 잡음 저대역 파라미터 및 국부적으로 추정된 잡음 고대역 파라미터에 따라 CN 프레임을 재구성한다. 디코딩 단에서의 현재 프레임이 큰 SID 프레임일 때, CNG 작업 상태 플래그 flagCNG가 0이면(절반-디코딩 CNG 상태를 나타냄), CNG 작업 상태 플래그 flagCNG가 1에 설정되며(완전-디코딩 CNG 상태를 나타냄); 그렇지 않으면, 원래의 상태가 불변으로 유지된다. 마찬가지로, 디코딩 단에서의 현재 프레임이 작은 SID 프레임일 때, CNG 작업 상태 플래그 flagCNG가 1이면, CNG 작업 상태 플래그 flagCNG가 0에 설정되며; 그렇지 않으면, 원래의 상태가 불변으로 유지된다. 도 4를 참조하면, 구체적으로 본 실시예는 디코더 단에서의 오디오 데이터 처리 방법을 제공하며, 방법은 이하를 포함한다:
401. 디코더는 SID를 획득하고, 상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함하면, SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 디코딩에 의해 획득된 잡음 고대역 파라미터 및 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득한다.
본 실시예에서, 인코더 단이 송신한 인코딩된 프레임을 수신한 후, 디코더 단은 먼저 음성 프레임의 유형을 결정하고, 이에 따라 상이한 유형의 음성 프레임에 따라 상이한 디코딩 방식을 대응해서 사용한다. 구체적으로, SID의 비트 수가 사전설정된 제1 임계값보다 작으면, SID는 고대역 파라미터를 포함하는 것으로 확정하고, SID의 비트 수가 사전설정된 제1 임계값보다 크면, SID는 저대역 파라미터를 포함하는 것으로 확정하며; 그리고 SID의 비트 수가 사전설정된 제2 임계값보다 크고 사전설정된 제3 임계값보다 작으면, SID는 고대역 파라미터 및 저대역 파라미터를 포함하는 것으로 확정한다. 대안으로, SID가 제1 식별자를 포함하면, SID가 고대역 파라미터를 포함하는 것으로 확정하고; SID가 제2 식별자를 포함하면, SID가 저대역 파라미터를 포함하는 것으로 확정하며; 또는 SID가 제3 식별자를 포함하면, SID가 저대역 파라미터 및 고대역 파라미터를 포함하는 것으로 확정한다.
본 실시예에서, SID가 고대역 파라미터 및 저대역 파라미터를 포함하면, SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 디코딩에 의해 획득된 잡음 고대역 파라미터 및 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득한다. 구체적으로, 디코더는 SID를 디코딩하여 디코딩된 저대역 여기 대수 에너지 eD, 저대역 ISF 계수 isfd(i), 고대역 대수 에너지 ED, 및 고대역 ISP 계수 lspd(i)를 획득한다. isfd(i)는 ISP 계수 ispd(i)를 전송하고, eD 및 ED는 에너지 ed 및 Ed에 전송되며, 여기서,
Figure pct00013
Figure pct00014
이고, 그런 다음 ispd(i), ed, lspd(i), 및 Ed가 버퍼링된다.
본 실시예에서, 디코더가 CNG 작업 상태에 있고 flagCNG=1이면, 현재 프레임이 SID 또는 NO_DATA 프레임인지에 상관없이, 버퍼링된 ispd(i), ed, lspd(i), 및 Ed를 사용하여 디코딩 단에서 각각의 버퍼링된 ispd(i), ed, lspd(i), 및 Ed의 장기 이동 평균을 갱신한다:
Figure pct00015
여기서, α=0.9 및 β=0.7이다. ECN은 고대역 에너지 버퍼 E1old에 버퍼링된다. eCN에 기초하여 무작위 작은 에너지가 부가되고, 저대역 잡음 신호를 재구성하는 데 사용되는 최종 여기 에너지 e'CN이 획득된다: e'CN = (1+0.000011ㆍRNDㆍeCN)e'CN, 여기서, RND는 [-32767, 32767]의 범위 내의 난수를 나타낸다. 본 실시예에서는, 320-포인트 백색 잡음 시퀀스 exc0(i)가 생성되며, 여기서 i=0,1,...319이다. e'CN은 exc0(i)에 대한 이득 조정을 수행하는 데 사용되어 exc'0(i)를 획득하며, 즉 exc0(i)는 이득 계수 G0에 의해 승산되고, 이에 따라 exc'0(i)의 에너지는 e'CN과 동등하고, 여기서
Figure pct00016
는 LPC 계수로 변환되어 합성 필터 1/A0(Z)를 획득하며, 이득 조정된 여기 exc'0(i)를 사용하여 필터 1/A(Z)를 여기함으로써, 디코딩 단에서 재구성되고 16kHz에서 샘플링되는 저대역 CN 신호 s'0을 획득하며, s'0의 에너지가 계산되어 저대역 에너지 버퍼 E0old에 버퍼링된다.
본 실시예에서, 디코딩 단에서의 잡음 고대역 신호의 프로세싱은 잡음 저대역 신호의 프로세싱과 유사하다. 다른 320-포인트 백색 잡음 시퀀스 exc1(i)가 생성되며, 여기서 i=0,1,...319이고, lspCN(i)은 LPC 계수로 변환되어 합성 필터 1/A1(Z)를 획득하며, exc1(i)를 사용하여 필터 1/A1(Z)를 여기함으로써 이득 조정된 고대역 CN 신호 s~1(i)을 획득한다. s~1(i)은 이득 계수 G1 및 G2=8로 승산되고, 디코딩 단에서 재구성되고 16kHz에서 샘플링되는 고대역 CN 신호 s'1이 획득되며, 여기서
Figure pct00017
이다. 본 실시예에서, G2의 목적은 재구성된 잡음 신호에 대해 에너지 억제를 일정 정도 수행하는 것이다.
본 실시예에서는, 디코더 단에서, s'0 및 s'1이 QMF 합성 필터를 통해 통과되며, 최종적으로 디코더에 의해 재구성되고 32kHz에서 샘플링되는 제1 CN 프레임이 획득된다.
402. SID가 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 CN 프레임을 획득한다.
본 실시예에서, 디코더가 CNG 작업 상태에 있고 flagCNG=0이면, 현재 프레임이 SID 또는 NO_DATA 프레임인지에 상관없이, 디코딩 단에서 재구성되고 16kHz에서 샘플링되는 저대역 CN 신호 s'0을, flagCNG=1일 때 사용되는 동일한 방법, 즉 단계 402에서의 방법에 따라 획득하며, 이에 대해서는 본 실시예에서 추가로 설명하지 않는다.
본 실시예에서는, 추정을 국부적으로 수행하여 제1 CN 프레임의 고대역 신호의 에너지 및 합성 필터 계수를 획득하는 것을 제외하곤, 제1 CN 프레임의 고대역 신호를, 백색 잡음을 사용하여 합성 필터를 여기하는 방법을 사용하여 여전히 획득한다. 본 실시예에서, 잡음 고대역 파라미터를 국부적으로 생성하는 단계는: SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지 및 잡음 고대역 신호의 합성 필터 계수를 개별적으로 획득하는 단계; 및 상기 SID에 대응하는 때의 잡음 고대역 신호의 획득된 가중 평균 에너지 및 잡음 고대역 신호의 획득된 합성 필터 계수에 따라 잡음 고대역 신호를 획득하는 단계를 포함한다.
본 실시예에서, 양호하게, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 단계는: 상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 상기 제1 CN 프레임의 저대역 신호의 에너지를 획득하는 단계; 상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율을 계산하여 제1 비율을 획득하는 단계; 상기 제1 CN 프레임의 저대역 신호의 에너지 및 상기 제1 비율에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 에너지를 획득하는 단계; 및 상기 SID에 대응하는 때의 잡음 고대역 신호의 에너지 및 국부적으로 버퍼링된 CN 프레임의 고대역 신호의 에너지에 대한 가중 평균을 수행하여, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 단계를 포함하며, 여기서, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 상기 제1 CN 프레임의 고대역 신호 에너지이다. 선택적으로, 상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율을 계산하여 제1 비율을 획득하는 단계는: 상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 순간 에너지에 대한 잡음 고대역 신호의 순간 에너지의 비율을 계산하여 제1 비율을 획득하는 단계; 또는 상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 가중 평균 에너지에 대한 잡음 고대역 신호의 가중 평균 에너지의 비율을 계산하여 제1 비율을 획득하는 단계를 포함한다. 순간 에너지는 디코딩에 의해 획득되는 에너지이다. 상기 SID에 대응하는 때의 잡음 고대역 신호의 에너지가 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지보다 크면, 상기 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지가 제1 속도로 갱신되고; 그렇지 않으면, 상기 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지는 제2 속도로 갱신되며, 상기 제1 속도는 상기 제2 속도보다 크다.
구체적으로, 본 실시예에서, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 단계는 이하의 방법을 사용해서 실행될 수 있다:
디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 제1 CN 프레임 s'0의 저대역 신호의 에너지 E0를 획득하고; 완전-디코딩 CNG 상태에서의 이전의 CN 프레임 내의 고대역 신호의 에너지 E1old, 저대역 신호의 에너지 E0old 및 E0에 따라, SID에 대응하는 때의 잡음 고대역 신호의 에너지 E~ 1을 추정하며, 여기서
Figure pct00018
이며; 그리고 E~ 1을 사용하여 디코딩 단에서 고대역 CN 신호 에너지의 장기 이동 평균 ECN:
Figure pct00019
을 갱신하며, 여기서 계수 λ는 변수이며, E~ 1>ECN이면, λ=0.98이며; 그렇지 않으면, λ=0.9이며, 여기서 λ=0.98은 제1 비율이고, λ=0.9는 제2 비율이다.
본 실시예에서, 편차 정도 값이 인코딩 단에서 계산되지 않으면, 선택적으로, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 단계는: 상기 SID 전의 사전설정된 시간 주기 내의 음성 프레임 중 고대역 신호 에너지가 최소인 음성 프레임의 고대역 신호를 선택하는 단계; 및 상기 음성 프레임 중 고대역 신호 에너지가 최소인 음성 프레임의 고대역 신호의 에너지에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 단계; 또는 상기 SID 전의 사전설정된 시간 주기 내의 음성 프레임 중 고대역 신호 에너지가 사전설정된 임계값보다 작은 N개의 음성 프레임의 고대역 신호를 선택하는 단계; 및 상기 N개의 음성 프레임의 고대역 신호의 가중 평균 에너지에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 단계를 포함하며, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 상기 제1 CN 프레임의 고대역 신호 에너지이다.
본 실시예에서, 양호하게, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계는: 고대역 신호에 대응하는 주파수 범위 내에 M개의 이미턴스 스펙트럼 주파수(immittance spectral frequency: ISF) 계수 또는 이미턴스 스펙트럼 페어(Immittance Spectral Pair: ISP) 계수 또는 라인 스펙트럼 페어(line spectral pair: LSP) 계수를 분배하는 단계; 상기 M개의 계수에 대해 무작위화 처리(randomization processing)를 수행하는 단계 - 상기 무작위화의 특징은 상기 M개의 계수 중 각각의 계수가 점차적으로 각각의 계수에 대응하는 목표값에 접근하게 하는 것이고, 상기 목표값은 계수값에 인접하는 사전설정된 범위 내의 값이며, 상기 M개의 계수 중 각각의 계수의 목표값은 매 N개의 프레임 후에 변하며, N은 변수일 수 있음 - ; 및 상기 무작위화 처리에 의해 획득된 필터 계수에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계를 포함한다.
구체적으로, 본 실시예에서, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계는 이하의 방법을 사용하여 실행될 수 있다:
9개의 ISF 계수 isfext(i)는 저대역 ISF 계수 isfd(14)에 대응하는 -16kHz의 주파수 대역에 공평하게 분배되고, 여기서 i=0,1,...8이며:
Figure pct00020
isfext(i)는 0-8kHz의 주파수 대역으로 변환되며, isf'ext(i)가 획득되며;
Figure pct00021
isf'ext(i)는 한 그룹의 9차원 무작위화 인자 R(i)를 사용하여 무작위화되며, 여기서, i=0,1,...8이며, 무작위화된 ISF 계수 isf1(i)가 획득되며:
Figure pct00022
여기서, R(i)는 식(14)에 따라 획득되며:
Figure pct00023
여기서, α=0.8이고, Rt(i)를 목표 무작위화 인자라 하며, 이하의 식에 따라 획득된다:
Figure pct00024
위 식(15)에서, RND는 한 그룹의 9차원 난수 시퀀스를 나타내며, 각각의 등급에서의 난수는 서로 다르며 모두 [-1, 1]의 범위 내에 있다. cnt는 프레임 카운터이다. CNG 작업 상태에서, flagCNG=0이면, 각각의 SID 프레임 또는 NO_DATA 프레임에 있어서, 카운터에 1이 부가된다. mod(cnt, 10)는 cnt mod 10을 나타낸다. 다른 실시예에서, Rt(i)가 계산될 때, mod(cnt, 10) 내의 10도 변수일 수 있으며, 예를 들어,
Figure pct00025
여기서, RND는 [-1, 1]의 범위 내의 난수를 나타내며, 이는 본 실시예에서 구체적으로 제한되지 않는다.
본 실시예에서, 저대역 ISF 계수 isfd(15)는 isf1(9)로서 사용되고 무작위화된 ISF 계수 isf1(i)과 합성되어(단, i=0,1,...8), 10등급 필터 ISF 계수를 형성하며, 그런 다음 LPC 계수 lpc1(i)로 변환되며, 여기서 i=0,1,...9이다. lpc1(i)는 한 그룹의 10차원 가중 인자 W(i)={0.6699, 0.5862, 0.5129, 0.4488, 0.3927, 0.3436, 0.3007, 0.2631, 0.2302, 0.2014}에 의해 승산되며, 가중된 LPC 계수 lpc~ 1(i)가 획득되며, 즉 분석 필터 1/A~ 1(Z)가 추정된다.
본 실시예에서, 320-포인트 백색 잡음 시퀀스 exc2(i)가 생성되며, i=0,1,...319이고, exc2(i)를 1/A~ 1(Z)을 여기하는 데 사용하여 이득 조정된 고대역 CN 신호 s~1(i)을 획득한다. s~1(i)은 이득 계수 G3 및 G4=0.6에 의해 승산되고, 디코딩 단에서 재구성되고 16kHz에서 샘플링되는 고대역 CN 신호 s'1이 획득되며, 여기서
Figure pct00026
이다.
현재 프레임이 SID이면, lpc~ 1(i)을 LSP 계수 lsp~ 1(i)로 변환하고, lsp~ 1(i)을 사용하여 디코딩 단에 버퍼링되어 있는 CN 프레임의 고대역 신호의 LSP 계수의 장기 이동 평균을 갱신하여야 한다:
Figure pct00027
여기서, β=0.7이다.
본 실시예에서, 선택적으로, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계는:
국부적으로 버퍼링된 잡음 고대역 신호의 M개의 ISF 계수 또는 ISP 계수 또는 LSF 계수 또는 LSP 계수를 획득하는 단계; 상기 M개의 계수에 대해 무작위화 처리를 수행하는 단계 - 상기 무작위화의 특징은 상기 M개의 계수 중 각각의 계수가 점차적으로 각각의 계수에 대응하는 목표값에 접근하게 하는 것이고, 상기 목표값은 계수값에 인접하는 사전설정된 범위 내의 값이며, 상기 M개의 계수 중 각각의 계수의 목표값은 매 N개의 프레임 후에 변함 - ; 및 상기 무작위화 처리에 의해 획득된 필터 계수에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계를 포함한다. 구체적으로, 본 실시예에서 제한을 설정하지 않는다.
본 실시예에서, 저대역 파라미터 및 고대역 파라미터가 획득된 후, s'0 및 s'1은 QMF 합성 필터를 통과하고, 최종적으로 디코더에 의해 재구성되고 32kHz에서 샘플링되는 제1 CN 프레임이 획득된다.
또한, 본 실시예에서, 선택적으로, 디코딩에 의해 획득된 잡음 저대역 파라미터 및 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 CN 프레임이 획득되기 전에, 상기 국부적으로 생성된 잡음 고대역 파라미터는 추가로 최적화될 수 있으며, 이에 따라 효과가 더 우수한 안정 잡음을 획득할 수 있다. 구체적인 최적화 단계는: 상기 SID에 인접하는 내력 프레임(history frame)이 인코딩된 음성 프레임일 때, 상기 인코딩된 음성 프레임으로부터 디코딩되는 고대역 신호 또는 일부의 고대역 신호의 평균 에너지가 국부적으로 생성되는 잡음 고대역 신호 또는 일부의 잡음 고대역 신호의 평균 에너지보다 작으면, 상기 SID로부터 시작하는 후속 L개의 프레임의 잡음 고대역 신호에 1보다 작은 평활 인자(smoothing factor)를 승산하여, 상기 국부적으로 생성된 잡음 고대역 신호의 새로운 가중 평균 에너지를 획득하는 단계를 포함하며, 그리고 이에 대응해서, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 CN 프레임을 획득하는 단계는: 상기 디코딩에 의해 획득된 잡음 저대역 파라미터, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수, 및 상기 국부적으로 생성된 잡음 고대역 신호의 새로운 가중 평균 에너지에 따라, 제4 CN 프레임을 획득하는 단계를 포함한다.
본 실시예에서, 현재 SID 이전의 프레임이 인코딩된 음성 프레임이고, 인코딩된 음성 프레임의 고대역 신호의 에너지 Esp가 s'1의 에너지 Es'1보다 낮으면, 현재 SID의 고대역 신호의 에너지 및 후속하는 수 개의 SID(본 실시예에서는 50 프레임)를 평활화해야 한다. 특정한 평활 방법은: 현재 프레임에 이득 GS를 승산하여 평활화된 s'1S를 획득한다.
Figure pct00028
, 여기서 cnt는 프레임 카운터이고, 인코딩된 음성 프레임 후에 제1 CN 프레임으로부터 시작하는 각각의 프레임에 대한 카운터에 1이 부가되고,
Figure pct00029
은 이전 프레임의 평활화된 고대역 신호의 에너지이고, cnt=1일 때 Esp로서 초기화된다. 이 주기에서,
Figure pct00030
이 Es'1보다 크면, 평활 프로세스는 종료된다. 선택적으로,
Figure pct00031
및 Es'1은 일부의 프레임만의 에너지를 나타낼 수도 있으며, 이는 본 실시예에서 구체적으로 제한되지 않는다. 본 실시예에서, s'0 및 s'1(또는 s'1s)는 QMF 합성 필터를 통해 통과하며, 최종적으로 디코더에 의해 재구성되고 32kHz에서 샘플링되는 CN 프레임이 획득된다.
403. SID가 고대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터를 획득하고, 잡음 저대역 파라미터를 국부적으로 생성하며, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 상기 국부적으로 생성된 잡음 저대역 파라미터에 따라 제2 CN 프레임을 획득한다.
본 실시예에서, SID가 고대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터를 획득하고, 잡음 저대역 파라미터를 국부적으로 생성하며, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 상기 국부적으로 생성된 잡음 저대역 파라미터에 따라 제2 CN 프레임을 획득한다. 고대역 파라미터를 디코딩하는 방법은 단계 401에서의 방법과 동일하므로, 본 실시예에서 반복 설명하지 않는다. 저대역 파라미터를 국부적으로 생성하는 방법은 광대역 파라미터를 국부적으로 생성하는 방법과 동일하므로, 본 실시예에서는 반복 설명하지 않는다.
본 발명의 실시예에서 제공하는 방법 실시예는 다음과 같은 유리한 효과를 낸다: 디코더는 무음 삽입 설명자 프레임(SID)을 획득하고, 상기 SID가 저대역 파라미터 및/또는 고대역 파라미터를 포함하는지를 판단하고; 상기 SID가 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(Comfort Noise: CN) 프레임을 획득하며; 상기 SID가 고대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터를 획득하고, 잡음 저대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 상기 국부적으로 생성된 잡음 저대역 파라미터에 따라 제2 CN 프레임을 획득하며; 그리고 상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하며; 상기 SID가 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하며, 상기 잡음 고대역 파라미터 및 상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득한다. 이 방법에서는, 고대역 신호 및 저대역 신호에 대해 상이한 인코딩 및 디코딩 방식을 사용하며, 코덱의 주관적 품질이 낮아지지 않는다는 전제 하에 계산 복잡도가 감소될 수 있고 인코딩된 비트가 절감될 수 있으며, 절감되는 비트는 전송 대역폭을 감소시키거나 전반적인 인코딩 품질을 향상시키는 목적을 달성하는 데 일조하며, 이에 의해 초광대역 인코딩 및 전송 문제를 해결한다. 또한, 디코딩에 의해 획득된 잡음 저대역 파라미터 및 국부적으로 생성된 고대역 파라미터에 따라 제2 CN 프레임을 획득하며, 국부적으로 생성된 고대역 파라미터는 추가로 최적화될 수 있으며, 이에 따라 효과가 더 우수한 안정 잡음을 획득할 수 있다. 이에 의해, 디코더의 성능이 더 최적화된다.
실시예 5
본 발명의 실시예는 오디오 데이터 처리 방법을 제공한다. 실시예 2에서의 오디오 데이터 처리 방법에서와 마찬가지로, 인코더 단은 오디오 신호의 잡음 프레임을 획득하고, 이 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제한다. 그렇지만, 선택적으로, 잡음 프레임의 고대역 신호가 사전설정된 인코딩 및 전송 조건을 충족하는지를 판단하는 단계는: 잡음 프레임의 잡음 고대역 신호의 스펙트럼 구조를 상기 잡음 프레임 이전의 잡음 고대역 신호의 평균 스펙트럼 구조와 비교하여, 사전설정된 조건을 충족하는지를 판단하고; 충족하면, 상기 제2 인코딩 정책을 사용하여 상기 잡음 프레임의 잡음 고대역 신호의 SID를 인코딩하고, 상기 SID를 송신하며; 충족하지 않으면, 상기 잡음 프레임의 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정하는 단계를 포함한다. 상기 잡음 프레임 이전의 잡음 고대역 신호의 평균 스펙트럼 구조는, 상기 잡음 프레임 이전의 잡음 고대역 신호의 스펙트럼의 가중 평균을 포함한다. 본 실시예에서, 잡음 프레임의 잡음 고대역 신호의 스펙트럼 구조를 상기 잡음 프레임 이전의 잡음 고대역 신호의 평균 스펙트럼 구조와 비교하여, 사전설정된 조건을 충족하는지를 판단하는 단계는, 잡음 고대역 신호를 인코딩 및 전송할지를 판단하기 위한 제3 조건으로 사용된다.
본 실시예에서, 선택적으로, 잡음 고대역 신호를 인코딩 및 전송할지는 제2 판단 조건을 사용하여 판단될 수도 있으며, 이는 본 실시예에서 구체적으로 제한되지 않는다.
본 실시예에서, DTX는 고대역 파라미터를 인코딩 및 전송할지를 결정하는데, 즉 flaghb의 설정은 이하의 조건을 사용하여 결정될 수 있다: (1) 제3 판단 조건이 충족되는지를 판단하고; 충족하면, flaghb를 0에 설정하고; 그렇지 않으면, flaghb를 1에 설정하며; 그리고 (2) 제2 판단 조건이 충족되는지를 판단하고; 충족되지 않으면, flaghb를 0에 설정하고; 그렇지 않으면, flaghb를 1에 설정한다.
본 실시예에서, 제3 판단 조건을 실행하는 구체적인 방법은 다음과 같을 수 있다: 인코더는 현재 잡음 프레임의 잡음 고대역 신호 s1의 10등급 LSP 계수 lsp(i)를 획득하며, 여기서 i=0,...9이며, 선택적으로, 계수는 LSF 또는 ISF 또는 ISP 계수일 수 있으며, 이는 본 실시예에서 구체적으로 제한되지 않는다. LSP 또는 LSF 또는 ISF 또는 ISP 계수는 상이한 도메인에서 상이한 표시 방식일 뿐이지만, 모두 합성 필터 계수이며, 이는 본 실시예에서 구체적으로 제한되지 않는다. lsp(i)는 이동 평균을 갱신하는 데 사용되며:
Figure pct00032
여기서, lspa(i)는 lsp(i)의 장기 이동 평균이다. 현재의 lspa(i)와 고대역 파라미터를 포함하는 SID 프레임이 마지막 송신될 때의 lspa(i) 간의 스펙트럼 왜곡이 계산된다:
Figure pct00033
이고, 여기서 Dlsp는 스펙트럼 왜곡을 나타내며,
Figure pct00034
는 고대역 파라미터를 포함하는 SID 프레임이 마지막 송신되는 때의 lspa(i)를 나타낸다. Dlsp가 소정의 임계값보다 작으면, flaghb=0이 설정되고; 그렇지 않으면, flaghb=1이 설정된다.
본 실시예에서, 필요 시 인코더에 의해 저대역 파라미터 및/또는 고대역 파라미터를 인코딩하는 동작 방법은 실시예 3에서의 동작 방법과 기본적으로 동일하므로, 본 실시예에서 반복 설명하지 않는다.
본 실시예에서, 디코더가 CNG 작업 상태에 있고 flagCNG=0이면, 잡음 고대역 신호를 국부적으로 생성할 필요가 있다. SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 방법은 실시예 4에서의 방법과 동일하므로, 본 실시예에서 반복 설명하지 않는다. 그렇지만, 본 실시예에서, 양호하게, SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계는: 국부적으로 버퍼링된 잡음 고대역 신호의 M개의 ISF 계수 또는 ISP 계수 또는 LSF 계수 또는 LSP 계수를 획득하는 단계; 상기 M개의 계수에 대해 무작위화 처리를 수행하는 단계 - 상기 무작위화의 특징은 상기 M개의 계수 중 각각의 계수가 점차적으로 각각의 계수에 대응하는 목표값에 접근하게 하는 것이고, 상기 목표값은 계수값에 인접하는 사전설정된 범위 내의 값이며, 상기 M개의 계수 중 각각의 계수의 목표값은 매 N개의 프레임 후에 변함 - ; 및 상기 무작위화 처리에 의해 획득된 필터 계수에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계를 포함한다. 구체적으로, SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계는 다음의 방식으로 실행될 수 있다:
lsp'(i)=lspCN(i)이라 하면(단, i=0,...9), lspCN(i)은 디코딩 단에 국부적으로 버퍼링되어 있는 CN 프레임의 고대역 신호의 LSP 계수의 장기 이동 평균이다. 실시예 4에서와 동일한 방법을 사용하여 lsp'(i)에 대해 무작위화 프로세싱을 수행하며, lsp1(i)가 획득된다:
Figure pct00035
lsp1(i)은 LPC 계수 lpc1(i)로 변환되고, 실시예 4에서와 동일한 방법을 사용하여 w(i)로 가중한 후에 1/A~ 1(Z)이 획득된다. 본 실시예에서, 302-포인트 백색 잡음 시퀀스 exc2(i)가 생성되며, 여기서 i=0,1,...319이며, exc2(i)를 1/A~ 1(Z)을 여기하는 데 사용하여 이득 조정된 고대역 CN 신호 s~1(i)을 획득한다. s~1(i)은 이득 계수 G3으로 승산되고, 디코딩 단에서 재구성되고 16kHz에서 샘플링되는 CN 프레임의 고대역 신호 s'1이 획득된다. 본 실시예에서, 현재 프레임이 SID이면, 이 방법을 사용하여 획득된 lsp1(i)은 디코딩 단에 버퍼링되어 있는 CN 프레임의 고대역 신호의 LSP 계수의 장기 이동 평균을 갱신하는 데 사용되지 않는다.
본 실시예에서, 인코더가 큰 SID 프레임일 때, 고대역 신호의 대수 에너지의 장기 이동 평균 e1a가 인코딩 단에서 양자화될 때, e1a가 감쇄된 후에(즉, 값이 감산된 후에) 양자화가 수행된다. 그러므로 이 경우, 디코딩에서, s~1(i)에 실시예 4에서의 G2 또는 G4를 승산하는 것이 필요하지 않다. 본 실시예에서의 디코딩 단에서의 다른 단계들은 전술한 실시예에서의 단계들과 유사하므로, 본 실시예에서 반복 설명하지 않는다.
본 발명의 실시예에서 제공하는 방법 실시예는 다음과 같은 유리한 효과를 낸다: 오디오 신호의 현재의 잡음 프레임을 획득하고, 현재의 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제하고; 그런 다음 제1 불연속 전송 메커니즘을 사용하여 잡음 저대역 신호를 인코딩하고 전송하며, 제2 불연속 전송 메커니즘을 사용하여 잡음 고대역 신호를 인코딩하고 전송한다. 디코더는 무음 삽입 설명자 프레임 SID를 획득하고, 이 SID가 저대역 파라미터 및/또는 고대역 파라미터를 포함하는지를 판단하며; SID가 저대역 파라미터를 포함하면, SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(CN) 프레임을 획득하며; SID가 고대역 파라미터를 포함하면, SID를 디코딩하여 잡음 고대역 파라미터를 획득하고, 잡음 저대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 상기 국부적으로 생성된 잡음 저대역 파라미터에 따라 제2 CN 프레임을 획득하며; 그리고 SID가 고대역 파라미터 및 저대역 파라미터를 포함하면, SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득한다. 이 방법에서는, 고대역 신호 및 저대역 신호에 대해 상이한 인코딩 및 디코딩 방식을 사용하며, 코덱의 주관적 품질이 낮아지지 않는다는 전제 하에 계산 복잡도가 감소될 수 있고 인코딩된 비트가 절감될 수 있으며, 절감되는 비트는 전송 대역폭을 감소시키고 전반적인 인코딩 품질을 향상시키는 목적을 달성하는 데 일조하며, 이에 의해 초광대역 인코딩 및 전송 문제를 해결한다.
실시예 6
도 5를 참조하면, 본 실시예는 오디오 데이터 인코딩 장치를 제공하며, 상기 장치는 획득 모듈(501) 및 전송 모듈(502)을 포함한다.
획득 모듈(501)은 오디오 신호의 잡음 프레임을 획득하고, 상기 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제하도록 구성되어 있다.
전송 모듈(502)은 상기 잡음 저대역 신호를 제1 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하고 상기 잡음 고대역 신호를 제2 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하도록 구성되어 있으며, 여기서, 상기 제1 불연속 전송 메커니즘의 제1 무음 삽입 서술자 프레임(SID)을 송신하는 정책은 상기 제2 불연속 전송 메커니즘의 제2 SID를 송신하는 정책과 다르거나, 또는 상기 제1 불연속 전송 메커니즘의 제1 SID를 인코딩하는 정책은 상기 제2 불연속 전송 메커니즘의 제2 SID를 인코딩하는 정책과 다르다.
본 실시예에서, 제1 SID는 잡음 프레임의 저대역 파라미터를 포함하고, 제2 SID는 잡음 프레임의 잡음 저대역 파라미터 또는 고대역 파라미터를 포함한다.
선택적으로, 도 6을 참조하면, 전송 모듈(502)은:
잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지는 있는지를 판단하고; 가지고 있으면서, 상기 제2 SID를 송신하는 정책의 송신 조건을 충족하면, 상기 제2 SID를 인코딩하는 정책을 사용하여 상기 잡음 고대역 신호의 SID를 인코딩하고, 상기 SID를 송신하며; 가지고 있지 않으면, 상기 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정하도록 구성되어 있는 제1 전송 유닛(502a)
을 포함한다.
본 실시예에서, 제1 전송 유닛(502a)은:
잡음 고대역 신호의 스펙트럼을 획득하고, 상기 스펙트럼을 적어도 2개의 서브대역으로 분할하며, 상기 서브대역 중 임의의 제1 서브대역의 평균 에너지가 상기 서브대역 중 제2 서브대역의 평균 에너지보다 작지 않으면, 상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지고 있지 않는 것으로 확정하며; 그렇지 않으면, 상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지고 있는 것으로 확정하도록 구성되어 있는 제1 판단 서브유닛
을 포함하며,
여기서, 상기 제2 서브대역이 위치하는 주파수 대역은 상기 제1 서브대역이 위치하는 주파수 대역보다 높다.
도 6을 참조하면, 선택적으로, 전송 모듈(502)은:
제1 비율 및 제2 비율에 따라 편차 정도 값을 생성하고 - 상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 상기 잡음 고대역 신호의 에너지의 비율이고, 상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율임 - ; 그리고
상기 편차 정도 값이 사전설정된 임계값에 도달하는지를 판단하고; 도달하면, 상기 제2 SID를 인코딩하는 정책을 사용하여 상기 잡음 고대역 신호의 SID를 인코딩하고, 상기 SID를 송신하며; 도달하지 않으면, 상기 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정하도록 구성되어 있는 제2 전송 유닛(502b)
을 포함한다.
선택적으로, 상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 상기 잡음 고대역 신호의 에너지의 비율인 것은:
상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 순간 에너지(instant energy)에 대한 상기 잡음 고대역 신호의 순간 에너지의 비율인 것
을 포함하고, 그리고
이에 대응해서, 상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율인 것은:
상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 순간 에너지에 대한 잡음 고대역 신호의 순간 에너지의 비율인 것
을 포함한다.
선택적으로, 상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 상기 잡음 고대역 신호의 에너지의 비율인 것은:
상기 제1 비율은, 상기 잡음 프레임과 상기 잡음 프레임 이전의 잡음 프레임의 잡음 저대역 신호의 가중 평균 에너지(weighted average energy)에 대한 상기 잡음 프레임과 상기 잡음 프레임 이전의 잡음 프레임의 잡음 고대역 신호의 가중 평균 에너지의 비율인 것
을 포함하며, 그리고
이에 대응해서, 상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율인 것은:
상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 프레임 및 상기 잡음 프레임 이전의 잡음 프레임의 저대역 신호의 가중된 평균 에너지에 대한 고대역 신호의 가중 평균 에너지의 비율인 것
을 포함한다.
선택적으로, 본 실시예에서, 제2 전송 유닛(502b)은:
상기 제1 비율의 대수값(logarithmic value) 및 상기 제2 비율의 대수값을 개별적으로 계산하고; 그리고 상기 제1 비율의 대수값과 상기 제2 비율의 대수값 간의 차이의 절댓값을 계산하여, 상기 편차 정도 값을 획득하도록 구성되어 있는 계산 서브유닛
을 포함한다.
도 6을 참조하면, 선택적으로, 본 실시예에서, 제1 전송 모듈(502)은:
상기 잡음 프레임의 잡음 고대역 신호의 스펙트럼 구조를 상기 잡음 프레임 이전의 잡음 고대역 신호의 평균 스펙트럼 구조와 비교하여, 사전설정된 조건을 충족하는지를 판단하고; 충족하면, 상기 제2 인코딩 정책을 사용하여 상기 잡음 프레임의 잡음 고대역 신호의 SID를 인코딩하고, 상기 SID를 송신하며; 충족하지 않으면, 상기 잡음 프레임의 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정하도록 구성되어 있는 제3 전송 유닛(502c)
을 포함한다.
본 실시예에서, 선택적으로, 상기 잡음 프레임 이전의 잡음 고대역 신호의 평균 스펙트럼 구조는: 상기 잡음 프레임 이전의 잡음 고대역 신호의 스펙트럼의 가중 평균을 포함한다.
선택적으로, 본 실시예에서, 상기 제2 불연속 전송 메커니즘의 상기 제2 SID를 송신하는 정책에서의 송신 조건은: 상기 제1 SID를 송신하는 조건을 충족하는 제1 불연속 전송 메커니즘을 더 포함한다.
본 발명에서 제공하는 장치 실시예는 다음과 같은 유리한 효과를 낸다: 오디오 신호의 현재의 잡음 프레임을 획득하고, 현재의 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제하고; 그런 다음 제1 불연속 전송 메커니즘을 사용하여 잡음 저대역 신호를 인코딩하고 전송하며, 제2 불연속 전송 메커니즘을 사용하여 잡음 고대역 신호를 인코딩하고 전송한다. 이 방법에서는, 고대역 신호 및 저대역 신호에 대해 상이한 인코딩 및 디코딩 방식을 사용하며, 코덱의 주관적 품질이 낮아지지 않는다는 전제 하에 계산 복잡도가 감소될 수 있고 인코딩된 비트가 절감될 수 있으며, 절감되는 비트는 전송 대역폭을 감소시키고 전반적인 인코딩 품질을 향상시키는 목적을 달성하는 데 일조하며, 이에 의해 초광대역 인코딩 및 전송 문제를 해결한다.
실시예 7
도 7을 참조하면, 본 실시예는 오디오 데이터 디코딩 장치를 제공하며, 상기 장치는: 획득 모듈(601), 제1 디코딩 모듈(602), 제2 디코딩 모듈(603), 및 제3 디코딩 모듈(604)을 포함한다.
획득 모듈(601)은 무음 삽입 설명자 프레임(SID)이 저대역 파라미터 또는 고대역 파라미터를 포함하는지를 판단하도록 구성되어 있다.
제1 디코딩 모듈(602)은 상기 획득 모듈(601)에 의해 획득된 SID가 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(CN) 프레임을 획득하도록 구성되어 있다.
제2 디코딩 모듈(603)은 상기 제1 디코딩 모듈(602)에 의해 획득된 SID가 고대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터를 획득하고, 잡음 저대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 상기 국부적으로 생성된 잡음 저대역 파라미터에 따라 제2 CN 프레임을 획득하도록 구성되어 있다.
제3 디코딩 모듈(604)은 상기 제2 디코딩 모듈(603)에 의해 획득된 SID가 고대역 파라미터 및 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 상기 잡음 고대역 파라미터 및 상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득하도록 구성되어 있다.
선택적으로, 본 실시예에서, 제1 디코딩 모듈(602)은, SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하며, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(CN) 프레임을 획득하기 전에, 상기 디코더가 제1 안정 잡음 생성(CNG) 상태에 있으면, 제2 CNG 상태로 들어가도록 추가로 구성되어 있다.
선택적으로, 본 실시예에서, 상기 제3 디코딩 모듈은, SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득하기 전에, 상기 디코더가 제2 CNG 상태에 있으면, 제1 CNG 상태로 들어가도록 추가로 구성되어 있다.
선택적으로, 획득 모듈(601)은:
SID의 비트 수가 사전설정된 제1 임계값보다 작으면, 상기 SID가 고대역 파라미터를 포함하는 것으로 확정하고, 상기 SID의 비트 수가 사전설정된 제1 임계값보다 크고 사전설정된 제2 임계값보다 작으면, 상기 SID가 저대역 파라미터를 포함하는 것으로 확정하며, 상기 SID의 비트 수가 사전설정된 제2 임계값보다 크고 사전설정된 제3 임계값보다 작으면, 상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함하는 것으로 확정하도록 구성되어 있는 제1 확정 유닛; 또는
SID가 제1 식별자를 포함하면, 상기 SID가 고대역 파라미터를 포함하는 것으로 확정하고; 상기 SID가 제2 식별자를 포함하면, 상기 SID가 저대역 파라미터를 포함하는 것으로 확정하며; 상기 SID가 제3 식별자를 포함하면, 상기 SID가 저대역 파라미터 및 고대역 파라미터를 포함하는 것으로 확정하도록 구성되어 있는 제2 확정 유닛
을 포함한다.
본 실시예에서, 제1 디코딩 모듈(602)은:
SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지 및 잡음 고대역 신호의 합성 필터 계수를 개별적으로 획득하도록 구성되어 있는 제1 획득 유닛; 및
SID에 대응하는 때의 잡음 고대역 신호의 획득된 가중 평균 에너지 및 잡음 고대역 신호의 획득된 합성 필터 계수에 따라 잡음 고대역 신호를 획득하도록 구성되어 있는 제2 획득 유닛
을 포함한다.
선택적으로, 제1 획득 유닛은:
상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 상기 제1 CN 프레임의 저대역 신호의 에너지를 획득하도록 구성되어 있는 제1 획득 서브유닛;
상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율을 계산하여 제1 비율을 획득하도록 구성되어 있는 계산 서브유닛;
상기 제1 CN 프레임의 저대역 신호의 에너지 및 상기 제1 비율에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 에너지를 획득하도록 구성되어 있는 제2 획득 서브유닛; 및
상기 SID에 대응하는 때의 잡음 고대역 신호의 에너지 및 국부적으로 버퍼링된 CN 프레임의 고대역 신호의 에너지에 대한 가중 평균을 수행하여, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하도록 구성되어 있는 제3 획득 서브유닛
을 포함하며,
여기서, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 상기 제1 CN 프레임의 고대역 신호 에너지이다.
상기 계산 서브유닛은 구체적으로:
상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 순간 에너지에 대한 잡음 고대역 신호의 순간 에너지의 비율을 계산하여 제1 비율을 획득하거나; 또는
상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 가중 평균 에너지에 대한 잡음 고대역 신호의 가중 평균 에너지의 비율을 계산하여 제1 비율을 획득하도록 구성되어 있다.
상기 SID에 대응하는 때의 잡음 고대역 신호의 에너지가 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지보다 크면, 상기 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지가 제1 속도로 갱신되고; 그렇지 않으면, 상기 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지는 제2 속도로 갱신되며, 상기 제1 속도는 상기 제2 속도보다 크다.
선택적으로, 상기 제1 획득 유닛은:
상기 SID 전의 사전설정된 시간 주기 내의 음성 프레임 중 고대역 신호 에너지가 최소인 음성 프레임의 고대역 신호를 선택하며; 그리고 상기 음성 프레임 중 고대역 신호 에너지가 최소인 음성 프레임의 고대역 신호의 에너지에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하도록 구성되어 있는 제1 선택 서브유닛 - 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 상기 제1 CN 프레임의 고대역 신호 에너지임 - ; 또는
상기 SID 전의 사전설정된 시간 주기 내의 음성 프레임 중 고대역 신호 에너지가 사전설정된 임계값보다 작은 N개의 음성 프레임의 고대역 신호를 선택하며; 그리고 상기 N개의 음성 프레임의 고대역 신호의 가중 평균 에너지에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하도록 구성되어 있는 제2 선택 서브유닛 - 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 상기 제1 CN 프레임의 고대역 신호 에너지임 - ;
을 포함한다.
선택적으로, 제1 획득 유닛은:
고대역 신호에 대응하는 주파수 범위 내에 M개의 이미턴스 스펙트럼 주파수(ISF) 계수 또는 이미턴스 스펙트럼 페어(ISP) 계수 또는 라인 스펙트럼 페어(LSP) 계수를 분배하도록 구성되어 있는 분배 서브유닛;
상기 M개의 계수에 대해 무작위화 처리를 수행하도록 구성되어 있는 제1 무작위화 처리 서브유닛 - 상기 무작위화의 특징은 상기 M개의 계수 중 각각의 계수가 점차적으로 각각의 계수에 대응하는 목표값에 접근하게 하는 것이고, 상기 목표값은 계수값에 인접하는 사전설정된 범위 내의 값이며, 상기 M개의 계수 중 각각의 계수의 목표값은 매 N개의 프레임 후에 변하며, M 및 N 모두는 자연수임 - ; 및
상기 무작위화 처리에 의해 획득된 필터 계수에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하도록 구성되어 있는 제4 획득 서브유닛
을 포함한다.
선택적으로, 제1 획득 유닛은:
국부적으로 버퍼링된 잡음 고대역 신호의 M개의 ISF 계수 또는 ISP) 계수 또는 LSP 계수를 획득하도록 구성되어 있는 제5 획득 서브유닛;
상기 M개의 계수에 대해 무작위화 처리를 수행하도록 구성되어 있는 제2 무작위화 처리 서브유닛 - 상기 무작위화의 특징은 상기 M개의 계수 중 각각의 계수가 점차적으로 각각의 계수에 대응하는 목표값에 접근하게 하는 것이고, 상기 목표값은 계수값에 인접하는 사전설정된 범위 내의 값이며, 상기 M개의 계수 중 각각의 계수의 목표값은 매 N개의 프레임 후에 변함 - ; 및
상기 무작위화 처리에 의해 획득된 필터 계수에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하도록 구성되어 있는 제6 획득 서브유닛
을 포함한다.
도 8을 참조하면, 선택적으로, 상기 장치는:
상기 제1 디코딩 모듈(602)이 제1 CN 프레임을 획득하기 전에, 상기 SID에 인접하는 내력 프레임이 인코딩된 음성 프레임이면, 상기 인코딩된 음성 프레임으로부터 디코딩되는 고대역 신호 또는 일부의 고대역 신호의 평균 에너지가 국부적으로 생성되는 잡음 고대역 신호 또는 일부의 잡음 고대역 신호의 평균 에너지보다 작으면, 상기 SID로부터 시작하는 후속 L개의 프레임의 잡음 고대역 신호에 1보다 작은 평활 인자를 승산하여, 상기 국부적으로 생성된 잡음 고대역 신호의 새로운 가중 평균 에너지를 획득하도록 구성되어 있는 최적화 모듈(605)
을 더 포함하며,
이에 대응해서, 상기 제1 디코딩 유닛(602)은 구체적으로, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수, 및 상기 국부적으로 생성된 잡음 고대역 신호의 새로운 가중 평균 에너지에 따라, 제4 CN 프레임을 획득하도록 구성되어 있다.
본 발명에서 제공하는 장치 실시예는 다음과 같은 유리한 효과를 낸다: 디코더는 무음 삽입 설명자 프레임(SID)을 획득하고, 상기 SID가 저대역 파라미터 및/또는 고대역 파라미터를 포함하는지를 판단하고; 상기 SID가 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(Comfort Noise: CN) 프레임을 획득하고; 상기 SID가 고대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터를 획득하고, 잡음 저대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 상기 국부적으로 생성된 잡음 저대역 파라미터에 따라 제2 CN 프레임을 획득하며; 그리고 상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 상기 잡음 고대역 파라미터 및 상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득한다. 이 방법에서는, 고대역 신호 및 저대역 신호에 대해 상이한 인코딩 및 디코딩 방식을 사용하며, 코덱의 주관적 품질이 낮아지지 않는다는 전제 하에 계산 복잡도가 감소될 수 있고 인코딩된 비트가 절감될 수 있으며, 절감되는 비트는 전송 대역폭을 감소시키거나 전반적인 인코딩 품질을 향상시키는 목적을 달성하는 데 일조하며, 이에 의해 초광대역 인코딩 및 전송 문제를 해결한다.
실시예 8
도 9를 참조하면, 본 실시예는 오디오 데이터 처리 시스템을 제공하며, 상기 오디오 데이터 처리 시스템은 오디오 데이터 인코딩 장치(500) 및 오디오 데이터 디코딩 장치(600)를 포함한다.
본 발명의 실시예에서 제공하는 기술적 솔루션은 다음과 같은 유리한 효과를 낸다: 오디오 신호의 현재의 잡음 프레임을 획득하고, 현재의 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제하고; 그런 다음 제1 불연속 전송 메커니즘을 사용하여 잡음 저대역 신호를 인코딩하고 전송하며, 제2 불연속 전송 메커니즘을 사용하여 잡음 고대역 신호를 인코딩하고 전송한다. 디코더는 무음 삽입 설명자 프레임 SID를 획득하고, 이 SID가 저대역 파라미터 및/또는 고대역 파라미터를 포함하는지를 판단하며; 상기 SID가 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(Comfort Noise: CN) 프레임을 획득하고; 상기 SID가 고대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터를 획득하고, 잡음 저대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 상기 국부적으로 생성된 잡음 저대역 파라미터에 따라 제2 CN 프레임을 획득하며; 그리고 상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 상기 잡음 고대역 파라미터 및 상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득한다. 이 방법에서는, 고대역 신호 및 저대역 신호에 대해 상이한 인코딩 및 디코딩 방식을 사용하며, 코덱의 주관적 품질이 낮아지지 않는다는 전제 하에 계산 복잡도가 감소될 수 있고 인코딩된 비트가 절감될 수 있으며, 절감되는 비트는 전송 대역폭을 감소시키고 전반적인 인코딩 품질을 향상시키는 목적을 달성하는 데 일조하며, 이에 의해 초광대역 인코딩 및 전송 문제를 해결한다.
본 실시예에서 제공하는 장치 및 시스템은 구체적으로 방법 실시예와 동일한 개념에 속할 수 있다. 장치 및 시스템의 특정한 실행 프로세스는 방법 실시예에서 상세히 설명하였으므로 여기서 반복 설명하지 않는다.
전술한 실시예에서의 오디오 데이터 처리 방법 및 시스템은 오디오 인코더 및 오디오 디코더에 적용될 수 있다. 오디오 코덱은 다양한 전자 기기, 예를 들어, 휴대폰, 무선 장치, 개인휴대단말(PDA), 휴대형 또는 포터블 컴퓨터, GPS 수신기 또는 내비게이션 장치, 카메라, 오디오/비디오 플레이어, 캠코더, 비디오 레코더, 및 감시 장치에 폭넓게 적용될 수 있다. 일반적으로, 이러한 전자 기기는 오디오 인코더 또는 오디오 디코더를 포함한다. 오디오 인코더 또는 디코더는 디지털 회로 또는 칩, 예를 들어, 디지털 신호 프로세서(digital signal processor: DSP)를 사용하여 직접 실행될 수 있거나, 소프트웨어 코드를 사용하여 프로세서를 구동하도록 실행되어 소프트웨어 코드 내의 과정을 실행한다.
당업자라면 실시예의 단계 중 일부 또는 전부는 하드웨어 또는 관련 하드웨어에 명령을 내리는 프로그램에 의해 실행될 수 있다는 것을 이해할 수 있을 것이다. 프로그램은 컴퓨터 판독 가능형 저장 매체에 저장될 수 있다. 저장 매체는 리드-온리 메모리, 자기디스크, 또는 광디스크를 포함할 수 있다.
전술한 설명은 단지 본 발명의 예시적 실시예에 지나지 않으며, 본 발명을 제한하려는 것이 아니다. 본 발명의 정신 및 범주를 벗어남이 없이 이루어지는 모든 변형, 등가의 대체, 및 개선은 본 발명의 보호 범위 내에 있어야 한다.

Claims (45)

  1. 오디오 데이터 처리 방법에 있어서,
    오디오 신호의 잡음 프레임을 획득하고, 상기 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제하는 단계; 및
    상기 잡음 저대역 신호를 제1 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하고 상기 잡음 고대역 신호를 제2 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하는 단계
    를 포함하며,
    여기서, 상기 제1 불연속 전송 메커니즘의 제1 무음 삽입 서술자 프레임(Silence Insertion Descriptor frame: SID)을 송신하는 정책은 상기 제2 불연속 전송 메커니즘의 제2 SID를 송신하는 정책과 다르거나, 또는 상기 제1 불연속 전송 메커니즘의 제1 SID를 인코딩하는 정책은 상기 제2 불연속 전송 메커니즘의 제2 SID를 인코딩하는 정책과 다른, 오디오 데이터 처리 방법.
  2. 제1항에 있어서,
    상기 제1 SID는 상기 잡음 프레임의 저대역 파라미터를 포함하고, 상기 제2 SID는 상기 잡음 프레임의 잡음 저대역 파라미터 또는 고대역 파라미터를 포함하는, 오디오 데이터 처리 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 잡음 고대역 신호를 제2 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하는 단계는,
    상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조(preset spectral structure)를 가지는 있는지를 판단하고; 가지고 있으면서, 상기 제2 SID를 송신하는 정책의 송신 조건을 충족하면, 상기 제2 SID를 인코딩하는 정책을 사용하여 상기 잡음 고대역 신호의 SID를 인코딩하고, 상기 SID를 송신하며; 가지고 있지 않으면, 상기 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정하는 단계
    를 포함하는, 오디오 데이터 처리 방법.
  4. 제3항에 있어서,
    상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지는 있는지를 판단하는 단계는,
    상기 잡음 고대역 신호의 스펙트럼을 획득하고, 상기 스펙트럼을 적어도 2개의 서브대역으로 분할하며, 상기 서브대역 중 임의의 제1 서브대역의 평균 에너지가 상기 서브대역 중 제2 서브대역의 평균 에너지보다 작지 않으면, 상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지고 있지 않는 것으로 확정하며; 그렇지 않으면, 상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지고 있는 것으로 확정하는 단계
    를 포함하며,
    여기서, 상기 제2 서브대역이 위치하는 주파수 대역은 상기 제1 서브대역이 위치하는 주파수 대역보다 높은, 오디오 데이터 처리 방법.
  5. 제1항 또는 제2항에 있어서,
    상기 잡음 고대역 신호를 제2 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하는 단계는,
    제1 비율 및 제2 비율에 따라 편차 정도 값(deviation extent value)을 생성하는 단계 - 상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 상기 잡음 고대역 신호의 에너지의 비율이고, 상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율임 - ; 및
    상기 편차 정도 값이 사전설정된 임계값에 도달하는지를 판단하고; 도달하면, 상기 제2 SID를 인코딩하는 정책을 사용하여 상기 잡음 고대역 신호의 SID를 인코딩하고, 상기 SID를 송신하며; 도달하지 않으면, 상기 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정하는 단계
    를 포함하는, 오디오 데이터 처리 방법.
  6. 제5항에 있어서,
    상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 상기 잡음 고대역 신호의 에너지의 비율인 것은,
    상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 순간 에너지(instant energy)에 대한 상기 잡음 고대역 신호의 순간 에너지의 비율인 것
    을 포함하고, 그리고
    상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율인 것은,
    상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 순간 에너지에 대한 잡음 고대역 신호의 순간 에너지의 비율인 것
    을 포함하며,
    또는
    상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 상기 잡음 고대역 신호의 에너지의 비율인 것은,
    상기 제1 비율은, 상기 잡음 프레임과 상기 잡음 프레임 이전의 잡음 프레임의 잡음 저대역 신호의 가중 평균 에너지(weighted average energy)에 대한 상기 잡음 프레임과 상기 잡음 프레임 이전의 잡음 프레임의 잡음 고대역 신호의 가중 평균 에너지의 비율인 것
    을 포함하며, 그리고
    상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율인 것은,
    상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 프레임 및 상기 잡음 프레임 이전의 잡음 프레임의 저대역 신호의 가중된 평균 에너지에 대한 고대역 신호의 가중 평균 에너지의 비율인 것
    을 포함하는, 오디오 데이터 처리 방법.
  7. 제5항 또는 제6항에 있어서,
    상기 제1 비율 및 제2 비율에 따라 편차 정도 값을 생성하는 단계는,
    상기 제1 비율의 대수값(logarithmic value) 및 상기 제2 비율의 대수값을 개별적으로 계산하는 단계; 및
    상기 제1 비율의 대수값과 상기 제2 비율의 대수값 간의 차이의 절댓값을 계산하여, 상기 편차 정도 값을 획득하는 단계
    를 포함하는, 오디오 데이터 처리 방법.
  8. 제1항 또는 제2항에 있어서,
    상기 잡음 고대역 신호를 제2 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하는 단계는,
    상기 잡음 프레임의 잡음 고대역 신호의 스펙트럼 구조를 상기 잡음 프레임 이전의 잡음 고대역 신호의 평균 스펙트럼 구조와 비교하여, 사전설정된 조건을 충족하는지를 판단하고; 충족하면, 상기 제2 인코딩 정책을 사용하여 상기 잡음 프레임의 잡음 고대역 신호의 SID를 인코딩하고, 상기 SID를 송신하며; 충족하지 않으면, 상기 잡음 프레임의 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정하는 단계
    를 포함하는, 오디오 데이터 처리 방법.
  9. 제8항에 있어서,
    상기 잡음 프레임 이전의 잡음 고대역 신호의 평균 스펙트럼 구조는, 상기 잡음 프레임 이전의 잡음 고대역 신호의 스펙트럼의 가중 평균을 포함하는, 오디오 데이터 처리 방법.
  10. 제3항 내지 제8항 중 어느 한 항에 있어서,
    상기 제2 불연속 전송 메커니즘의 상기 제2 SID를 송신하는 정책에서의 송신 조건은, 상기 제1 SID를 송신하는 조건을 충족하는 제1 불연속 전송 메커니즘을 더 포함하는, 오디오 데이터 처리 방법.
  11. 오디오 데이터 처리 방법에 있어서,
    디코더가, 무음 삽입 설명자 프레임(SID)을 획득하고, 상기 SID가 저대역 파라미터 또는 고대역 파라미터를 포함하는지를 판단하는 단계;
    상기 SID가 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(Comfort Noise: CN) 프레임을 획득하는 단계;
    상기 SID가 고대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터를 획득하고, 잡음 저대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 상기 국부적으로 생성된 잡음 저대역 파라미터에 따라 제2 CN 프레임을 획득하는 단계; 및
    상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 상기 잡음 고대역 파라미터 및 상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득하는 단계
    를 포함하는 오디오 데이터 처리 방법.
  12. 제11항에 있어서,
    상기 SID가 저대역 파라미터를 포함하면, 그리고 상기 SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하며, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(CN) 프레임을 획득하기 전에,
    상기 디코더가 제1 안정 잡음 생성(CNG) 상태에 있을 때, 상기 디코더가, 제2 CNG 상태로 들어가는 단계
    를 더 포함하는 오디오 데이터 처리 방법.
  13. 제11항에 있어서,
    상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함할 때, 상기 SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득하기 전에,
    상기 디코더가 제2 CNG 상태에 있을 때, 상기 디코더가, 제1 CNG 상태로 들어가는 단계
    를 더 포함하는 오디오 데이터 처리 방법.
  14. 제11항 내지 제13항 중 어느 한 항에 있어서,
    상기 SID가 저대역 파라미터를 포함하는지 및/또는 고대역 파라미터를 포함하는지를 판단하는 단계는,
    상기 SID의 비트 수가 사전설정된 제1 임계값보다 작을 때, 상기 SID가 고대역 파라미터를 포함하는 것으로 확정하고, 상기 SID의 비트 수가 사전설정된 제1 임계값보다 크고 사전설정된 제2 임계값보다 작을 때, 상기 SID가 저대역 파라미터를 포함하는 것으로 확정하며, 상기 SID의 비트 수가 사전설정된 제2 임계값보다 크고 사전설정된 제3 임계값보다 작을 때, 상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함하는 것으로 확정하는 단계; 또는
    상기 SID가 제1 식별자를 포함할 때, 상기 SID가 고대역 파라미터를 포함하는 것으로 확정하고; 상기 SID가 제2 식별자를 포함할 때, 상기 SID가 저대역 파라미터를 포함하는 것으로 확정하며; 상기 SID가 제3 식별자를 포함할 때, 상기 SID가 저대역 파라미터 및 고대역 파라미터를 포함하는 것으로 확정하는 단계
    를 포함하는, 오디오 데이터 처리 방법.
  15. 제11항 내지 제14항 중 어느 한 항에 있어서,
    상기 잡음 고대역 파라미터를 국부적으로 생성하는 단계는,
    상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지 및 잡음 고대역 신호의 합성 필터 계수를 개별적으로 획득하는 단계; 및
    상기 SID에 대응하는 때의 잡음 고대역 신호의 획득된 가중 평균 에너지 및 잡음 고대역 신호의 획득된 합성 필터 계수에 따라 잡음 고대역 신호를 획득하는 단계
    를 포함하는, 오디오 데이터 처리 방법.
  16. 제15항에 있어서,
    상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지 및 잡음 고대역 신호의 합성 필터 계수를 개별적으로 획득하는 단계는,
    상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 상기 제1 CN 프레임의 저대역 신호의 에너지를 획득하는 단계;
    상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율을 계산하여 제1 비율을 획득하는 단계;
    상기 제1 CN 프레임의 저대역 신호의 에너지 및 상기 제1 비율에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 에너지를 획득하는 단계; 및
    상기 SID에 대응하는 때의 잡음 고대역 신호의 에너지 및 국부적으로 버퍼링된 CN 프레임의 고대역 신호의 에너지에 대한 가중 평균을 수행하여, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 단계
    를 포함하며,
    여기서, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 상기 제1 CN 프레임의 고대역 신호 에너지인, 오디오 데이터 처리 방법.
  17. 제16항에 있어서,
    상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율을 계산하여 제1 비율을 획득하는 단계는,
    상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 순간 에너지에 대한 잡음 고대역 신호의 순간 에너지의 비율을 계산하여 제1 비율을 획득하는 단계; 또는
    상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 가중 평균 에너지에 대한 잡음 고대역 신호의 가중 평균 에너지의 비율을 계산하여 제1 비율을 획득하는 단계
    를 포함하는, 오디오 데이터 처리 방법.
  18. 제16항 또는 제17항에 있어서,
    상기 SID에 대응하는 때의 잡음 고대역 신호의 에너지가 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지보다 크면, 상기 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지가 제1 속도로 갱신되고; 그렇지 않으면, 상기 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지는 제2 속도로 갱신되며, 상기 제1 속도는 상기 제2 속도보다 큰, 오디오 데이터 처리 방법.
  19. 제15항에 있어서,
    상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 단계는,
    상기 SID 전의 사전설정된 시간 주기 내의 음성 프레임 중 고대역 신호 에너지가 최소인 음성 프레임의 고대역 신호를 선택하는 단계; 및
    상기 음성 프레임 중 고대역 신호 에너지가 최소인 음성 프레임의 고대역 신호의 에너지에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 단계 - 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 상기 제1 CN 프레임의 고대역 신호 에너지임 - ; 또는
    상기 SID 전의 사전설정된 시간 주기 내의 음성 프레임 중 고대역 신호 에너지가 사전설정된 임계값보다 작은 N개의 음성 프레임의 고대역 신호를 선택하는 단계; 및
    상기 N개의 음성 프레임의 고대역 신호의 가중 평균 에너지에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하는 단계 - 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 상기 제1 CN 프레임의 고대역 신호 에너지임 -
    를 포함하는, 오디오 데이터 처리 방법.
  20. 제15항 내지 제19항 중 어느 한 항에 있어서,
    상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계는,
    고대역 신호에 대응하는 주파수 범위 내에 M개의 이미턴스 스펙트럼 주파수(immittance spectral frequency: ISF) 계수 또는 이미턴스 스펙트럼 페어(Immittance Spectral Pair: ISP) 계수 또는 라인 스펙트럼 주파수(line spectral frequency: LSF) 계수 또는 라인 스펙트럼 페어(line spectral pair: LSP) 계수를 분배하는 단계;
    상기 M개의 계수에 대해 무작위화 처리(randomization processing)를 수행하는 단계 - 상기 무작위화의 특징은 상기 M개의 계수 중 각각의 계수가 점차적으로 각각의 계수에 대응하는 목표값에 접근하게 하는 것이고, 상기 목표값은 계수값에 인접하는 사전설정된 범위 내의 값이며, 상기 M개의 계수 중 각각의 계수의 목표값은 매 N개의 프레임 후에 변하며, M 및 N 모두는 자연수임 - ; 및
    상기 무작위화 처리에 의해 획득된 필터 계수에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계
    를 포함하는, 오디오 데이터 처리 방법.
  21. 제15항 내지 제19항 중 어느 한 항에 있어서,
    상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계는,
    국부적으로 버퍼링된 잡음 고대역 신호의 M개의 ISF 계수 또는 ISP 계수 또는 LSF 계수 또는 LSP 계수를 획득하는 단계;
    상기 M개의 계수에 대해 무작위화 처리를 수행하는 단계 - 상기 무작위화의 특징은 상기 M개의 계수 중 각각의 계수가 점차적으로 각각의 계수에 대응하는 목표값에 접근하게 하는 것이고, 상기 목표값은 계수값에 인접하는 사전설정된 범위 내의 값이며, 상기 M개의 계수 중 각각의 계수의 목표값은 매 N개의 프레임 후에 변함 - ; 및
    상기 무작위화 처리에 의해 획득된 필터 계수에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하는 단계
    를 포함하는, 오디오 데이터 처리 방법.
  22. 제15항 내지 제21항 중 어느 한 항에 있어서,
    상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 CN 프레임을 획득하는 단계 이전에, 상기 방법은,
    상기 SID에 인접하는 내력 프레임(history frame)이 인코딩된 음성 프레임일 때, 상기 인코딩된 음성 프레임으로부터 디코딩되는 고대역 신호 또는 일부의 고대역 신호의 평균 에너지가 국부적으로 생성되는 잡음 고대역 신호 또는 일부의 잡음 고대역 신호의 평균 에너지보다 작으면, 상기 SID로부터 시작하는 후속 L개의 프레임의 잡음 고대역 신호에 1보다 작은 평활 인자(smoothing factor)를 승산하여, 상기 국부적으로 생성된 잡음 고대역 신호의 새로운 가중 평균 에너지를 획득하는 단계
    를 더 포함하며,
    상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 CN 프레임을 획득하는 단계는,
    상기 디코딩에 의해 획득된 잡음 저대역 파라미터, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수, 및 상기 국부적으로 생성된 잡음 고대역 신호의 새로운 가중 평균 에너지에 따라, 제4 CN 프레임을 획득하는 단계
    를 포함하는, 오디오 데이터 처리 방법.
  23. 오디오 데이터 인코딩 장치에 있어서,
    오디오 신호의 잡음 프레임을 획득하고, 상기 잡음 프레임을 잡음 저대역 신호 및 잡음 고대역 신호로 압축해제하도록 구성되어 있는 획득 모듈; 및
    상기 잡음 저대역 신호를 제1 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하고 상기 잡음 고대역 신호를 제2 불연속 전송 메커니즘을 사용하여 인코딩 및 전송하도록 구성되어 있는 전송 모듈
    을 포함하며,
    여기서, 상기 제1 불연속 전송 메커니즘의 제1 무음 삽입 서술자 프레임(SID)을 송신하는 정책은 상기 제2 불연속 전송 메커니즘의 제2 SID를 송신하는 정책과 다르거나, 또는 상기 제1 불연속 전송 메커니즘의 제1 SID를 인코딩하는 정책은 상기 제2 불연속 전송 메커니즘의 제2 SID를 인코딩하는 정책과 다른, 오디오 데이터 인코딩 장치.
  24. 제23항에 있어서,
    상기 제1 SID는 상기 잡음 프레임의 저대역 파라미터를 포함하고, 상기 제2 SID는 상기 잡음 프레임의 잡음 저대역 파라미터 또는 고대역 파라미터를 포함하는, 오디오 데이터 인코딩 장치.
  25. 제23항 또는 제24항에 있어서,
    상기 전송 모듈은,
    상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지는 있는지를 판단하고; 가지고 있으면서, 상기 제2 SID를 송신하는 정책의 송신 조건을 충족하면, 상기 제2 SID를 인코딩하는 정책을 사용하여 상기 잡음 고대역 신호의 SID를 인코딩하고, 상기 SID를 송신하며; 가지고 있지 않으면, 상기 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정하도록 구성되어 있는 제1 전송 유닛
    을 포함하는, 오디오 데이터 인코딩 장치.
  26. 제25항에 있어서,
    상기 제1 전송 유닛은,
    상기 잡음 고대역 신호의 스펙트럼을 획득하고, 상기 스펙트럼을 적어도 2개의 서브대역으로 분할하며, 상기 서브대역 중 임의의 제1 서브대역의 평균 에너지가 상기 서브대역 중 제2 서브대역의 평균 에너지보다 작지 않으면, 상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지고 있지 않는 것으로 확정하며; 그렇지 않으면, 상기 잡음 고대역 신호가 사전설정된 스펙트럼 구조를 가지고 있는 것으로 확정하도록 구성되어 있는 제1 판단 서브유닛
    을 포함하며,
    여기서, 상기 제2 서브대역이 위치하는 주파수 대역은 상기 제1 서브대역이 위치하는 주파수 대역보다 높은, 오디오 데이터 인코딩 장치.
  27. 제23항 또는 제24항에 있어서,
    상기 전송 모듈은,
    제1 비율 및 제2 비율에 따라 편차 정도 값을 생성하고 - 상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 상기 잡음 고대역 신호의 에너지의 비율이고, 상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율임 - ; 그리고
    상기 편차 정도 값이 사전설정된 임계값에 도달하는지를 판단하고; 도달하면, 상기 제2 SID를 인코딩하는 정책을 사용하여 상기 잡음 고대역 신호의 SID를 인코딩하고, 상기 SID를 송신하며; 도달하지 않으면, 상기 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정하도록 구성되어 있는 제2 전송 유닛
    을 포함하는, 오디오 데이터 인코딩 장치.
  28. 제27항에 있어서,
    상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 상기 잡음 고대역 신호의 에너지의 비율인 것은,
    상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 순간 에너지(instant energy)에 대한 상기 잡음 고대역 신호의 순간 에너지의 비율인 것
    을 포함하고, 그리고
    상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율인 것은,
    상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 순간 에너지에 대한 잡음 고대역 신호의 순간 에너지의 비율인 것
    을 포함하며,
    또는
    상기 제1 비율은 상기 잡음 프레임의 잡음 저대역 신호의 에너지에 대한 상기 잡음 고대역 신호의 에너지의 비율인 것은,
    상기 제1 비율은, 상기 잡음 프레임과 상기 잡음 프레임 이전의 잡음 프레임의 잡음 저대역 신호의 가중 평균 에너지(weighted average energy)에 대한 상기 잡음 프레임과 상기 잡음 프레임 이전의 잡음 프레임의 잡음 고대역 신호의 가중 평균 에너지의 비율인 것
    을 포함하며, 그리고
    상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율인 것은,
    상기 제2 비율은, 잡음 고대역 파라미터를 포함하는 SID가 상기 잡음 프레임 전에 마지막 송신되는 때의 잡음 프레임 및 상기 잡음 프레임 이전의 잡음 프레임의 저대역 신호의 가중된 평균 에너지에 대한 고대역 신호의 가중 평균 에너지의 비율인 것
    을 포함하는, 오디오 데이터 인코딩 장치.
  29. 제27항 또는 제28항에 있어서,
    상기 제2 전송 유닛은,
    상기 제1 비율의 대수값(logarithmic value) 및 상기 제2 비율의 대수값을 개별적으로 계산하고; 그리고 상기 제1 비율의 대수값과 상기 제2 비율의 대수값 간의 차이의 절댓값을 계산하여, 상기 편차 정도 값을 획득하도록 구성되어 있는 계산 서브유닛
    을 포함하는, 오디오 데이터 인코딩 장치.
  30. 제23항 또는 제24항에 있어서,
    상기 제1 전송 모듈은,
    상기 잡음 프레임의 잡음 고대역 신호의 스펙트럼 구조를 상기 잡음 프레임 이전의 잡음 고대역 신호의 평균 스펙트럼 구조와 비교하여, 사전설정된 조건을 충족하는지를 판단하고; 충족하면, 상기 제2 인코딩 정책을 사용하여 상기 잡음 프레임의 잡음 고대역 신호의 SID를 인코딩하고, 상기 SID를 송신하며; 충족하지 않으면, 상기 잡음 프레임의 잡음 고대역 신호가 인코딩 및 전송되지 않아도 되는 것으로 결정하도록 구성되어 있는 제3 전송 유닛
    을 포함하는, 오디오 데이터 인코딩 장치.
  31. 제30항에 있어서,
    상기 잡음 프레임 이전의 잡음 고대역 신호의 평균 스펙트럼 구조는, 상기 잡음 프레임 이전의 잡음 고대역 신호의 스펙트럼의 가중 평균을 포함하는, 오디오 데이터 인코딩 장치.
  32. 제25항 내지 제31항 중 어느 한 항에 있어서,
    상기 제2 불연속 전송 메커니즘의 상기 제2 SID를 송신하는 정책에서의 송신 조건은, 상기 제1 SID를 송신하는 조건을 충족하는 제1 불연속 전송 메커니즘을 더 포함하는, 오디오 데이터 인코딩 장치.
  33. 오디오 데이터 디코딩 장치에 있어서,
    무음 삽입 설명자 프레임(SID)을 획득하고, 상기 SID가 저대역 파라미터 또는 고대역 파라미터를 포함하는지를 판단하도록 구성되어 있는 획득 모듈;
    상기 SID가 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(CN) 프레임을 획득하도록 구성되어 있는 제1 디코딩 모듈;
    상기 SID가 고대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터를 획득하고, 잡음 저대역 파라미터를 국부적으로 생성하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 상기 국부적으로 생성된 잡음 저대역 파라미터에 따라 제2 CN 프레임을 획득하도록 구성되어 있는 제2 디코딩 모듈; 및
    상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함하면, 상기 SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 상기 잡음 고대역 파라미터 및 상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득하도록 구성되어 있는 제3 디코딩 모듈
    을 포함하는 오디오 데이터 디코딩 장치.
  34. 제32항에 있어서,
    상기 제1 디코딩 모듈은, 상기 SID가 저대역 파라미터를 포함할 때, 그리고 상기 SID를 디코딩하여 잡음 저대역 파라미터를 획득하고, 잡음 고대역 파라미터를 국부적으로 생성하며, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 안정 잡음(CN) 프레임을 획득하기 전에, 상기 디코더가 제1 안정 잡음 생성(CNG) 상태에 있을 때, 제2 CNG 상태로 들어가도록 추가로 구성되어 있는, 오디오 데이터 디코딩 장치.
  35. 제32항에 있어서,
    상기 제3 디코딩 모듈은, 상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함할 때, 상기 SID를 디코딩하여 잡음 고대역 파라미터 및 잡음 저대역 파라미터를 획득하고, 상기 디코딩에 의해 획득된 잡음 고대역 파라미터 및 잡음 저대역 파라미터에 따라 제3 CN 프레임을 획득하기 전에, 상기 디코더가 제2 CNG 상태에 있을 때, 제1 CNG 상태로 들어가도록 추가로 구성되어 있는, 오디오 데이터 디코딩 장치.
  36. 제33항 내지 제35항 중 어느 한 항에 있어서,
    상기 획득 모듈은,
    상기 SID의 비트 수가 사전설정된 제1 임계값보다 작을 때, 상기 SID가 고대역 파라미터를 포함하는 것으로 확정하고, 상기 SID의 비트 수가 사전설정된 제1 임계값보다 크고 사전설정된 제2 임계값보다 작을 때, 상기 SID가 저대역 파라미터를 포함하는 것으로 확정하며, 상기 SID의 비트 수가 사전설정된 제2 임계값보다 크고 사전설정된 제3 임계값보다 작을 때, 상기 SID가 고대역 파라미터 및 저대역 파라미터를 포함하는 것으로 확정하도록 구성되어 있는 제1 확정 유닛; 또는
    상기 SID가 제1 식별자를 포함할 때, 상기 SID가 고대역 파라미터를 포함하는 것으로 확정하고; 상기 SID가 제2 식별자를 포함할 때, 상기 SID가 저대역 파라미터를 포함하는 것으로 확정하며; 상기 SID가 제3 식별자를 포함할 때, 상기 SID가 저대역 파라미터 및 고대역 파라미터를 포함하는 것으로 확정하도록 구성되어 있는 제2 확정 유닛
    을 포함하는, 오디오 데이터 디코딩 장치.
  37. 제33항 내지 제36항 중 어느 한 항에 있어서,
    상기 제1 디코딩 모듈은,
    상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지 및 잡음 고대역 신호의 합성 필터 계수를 개별적으로 획득하도록 구성되어 있는 제1 획득 유닛; 및
    상기 SID에 대응하는 때의 잡음 고대역 신호의 획득된 가중 평균 에너지 및 잡음 고대역 신호의 획득된 합성 필터 계수에 따라 잡음 고대역 신호를 획득하도록 구성되어 있는 제2 획득 유닛
    을 포함하는, 오디오 데이터 디코딩 장치.
  38. 제37항에 있어서,
    상기 제1 획득 유닛은,
    상기 디코딩에 의해 획득된 잡음 저대역 파라미터에 따라 상기 제1 CN 프레임의 저대역 신호의 에너지를 획득하도록 구성되어 있는 제1 획득 서브유닛;
    상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 에너지에 대한 잡음 고대역 신호의 에너지의 비율을 계산하여 제1 비율을 획득하도록 구성되어 있는 계산 서브유닛;
    상기 제1 CN 프레임의 저대역 신호의 에너지 및 상기 제1 비율에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 에너지를 획득하도록 구성되어 있는 제2 획득 서브유닛; 및
    상기 SID에 대응하는 때의 잡음 고대역 신호의 에너지 및 국부적으로 버퍼링된 CN 프레임의 고대역 신호의 에너지에 대한 가중 평균을 수행하여, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하도록 구성되어 있는 제3 획득 서브유닛
    을 포함하며,
    여기서, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 상기 제1 CN 프레임의 고대역 신호 에너지인, 오디오 데이터 디코딩 장치.
  39. 제38항에 있어서,
    상기 계산 서브유닛은 구체적으로,
    상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 순간 에너지에 대한 잡음 고대역 신호의 순간 에너지의 비율을 계산하여 제1 비율을 획득하거나; 또는
    상기 SID 전에 고대역 파라미터를 포함하는 SID가 수신되는 때에 잡음 저대역 신호의 가중 평균 에너지에 대한 잡음 고대역 신호의 가중 평균 에너지의 비율을 계산하여 제1 비율을 획득하도록 구성되어 있는, 오디오 데이터 디코딩 장치.
  40. 제38항 또는 제39항에 있어서,
    상기 SID에 대응하는 때의 잡음 고대역 신호의 에너지가 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지보다 크면, 상기 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지가 제1 속도로 갱신되고; 그렇지 않으면, 상기 국부적으로 버퍼링되는 이전의 CN 프레임의 고대역 신호의 에너지는 제2 속도로 갱신되며, 상기 제1 속도는 상기 제2 속도보다 큰, 오디오 데이터 디코딩 장치.
  41. 제37항에 있어서,
    상기 제1 획득 유닛은,
    상기 SID 전의 사전설정된 시간 주기 내의 음성 프레임 중 고대역 신호 에너지가 최소인 음성 프레임의 고대역 신호를 선택하며; 그리고 상기 음성 프레임 중 고대역 신호 에너지가 최소인 음성 프레임의 고대역 신호의 에너지에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하도록 구성되어 있는 제1 선택 서브유닛 - 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 상기 제1 CN 프레임의 고대역 신호 에너지임 - ; 또는
    상기 SID 전의 사전설정된 시간 주기 내의 음성 프레임 중 고대역 신호 에너지가 사전설정된 임계값보다 작은 N개의 음성 프레임의 고대역 신호를 선택하며; 그리고 상기 N개의 음성 프레임의 고대역 신호의 가중 평균 에너지에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지를 획득하도록 구성되어 있는 제2 선택 서브유닛 - 상기 SID에 대응하는 때의 잡음 고대역 신호의 가중 평균 에너지는 상기 제1 CN 프레임의 고대역 신호 에너지임 -
    을 포함하는, 오디오 데이터 디코딩 장치.
  42. 제37항 내지 제41항 중 어느 한 항에 있어서,
    상기 제1 획득 유닛은,
    고대역 신호에 대응하는 주파수 범위 내에 M개의 이미턴스 스펙트럼 주파수(ISF) 계수 또는 이미턴스 스펙트럼 페어(ISP) 계수 또는 라인 스펙트럼 페어(LSP) 계수를 분배하도록 구성되어 있는 분배 서브유닛;
    상기 M개의 계수에 대해 무작위화 처리를 수행하도록 구성되어 있는 제1 무작위화 처리 서브유닛 - 상기 무작위화의 특징은 상기 M개의 계수 중 각각의 계수가 점차적으로 각각의 계수에 대응하는 목표값에 접근하게 하는 것이고, 상기 목표값은 계수값에 인접하는 사전설정된 범위 내의 값이며, 상기 M개의 계수 중 각각의 계수의 목표값은 매 N개의 프레임 후에 변하며, M 및 N 모두는 자연수임 - ; 및
    상기 무작위화 처리에 의해 획득된 필터 계수에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하도록 구성되어 있는 제4 획득 서브유닛
    을 포함하는, 오디오 데이터 디코딩 장치.
  43. 제37항 내지 제41항 중 어느 한 항에 있어서,
    상기 제1 획득 유닛은,
    국부적으로 버퍼링된 잡음 고대역 신호의 M개의 ISF 계수 또는 ISP) 계수 또는 LSP 계수를 획득하도록 구성되어 있는 제5 획득 서브유닛;
    상기 M개의 계수에 대해 무작위화 처리를 수행하도록 구성되어 있는 제2 무작위화 처리 서브유닛 - 상기 무작위화의 특징은 상기 M개의 계수 중 각각의 계수가 점차적으로 각각의 계수에 대응하는 목표값에 접근하게 하는 것이고, 상기 목표값은 계수값에 인접하는 사전설정된 범위 내의 값이며, 상기 M개의 계수 중 각각의 계수의 목표값은 매 N개의 프레임 후에 변함 - ; 및
    상기 무작위화 처리에 의해 획득된 필터 계수에 따라, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수를 획득하도록 구성되어 있는 제6 획득 서브유닛
    을 포함하는, 오디오 데이터 디코딩 장치.
  44. 제37항 내지 제43항 중 어느 한 항에 있어서,
    상기 디코딩에 의해 획득된 잡음 저대역 파라미터 및 상기 국부적으로 생성된 잡음 고대역 파라미터에 따라 제1 CN 프레임을 획득하는 단계 이전에, 상기 SID에 인접하는 내력 프레임이 인코딩된 음성 프레임이면, 상기 인코딩된 음성 프레임으로부터 디코딩되는 고대역 신호 또는 일부의 고대역 신호의 평균 에너지가 국부적으로 생성되는 잡음 고대역 신호 또는 일부의 잡음 고대역 신호의 평균 에너지보다 작으면, 상기 SID로부터 시작하는 후속 L개의 프레임의 잡음 고대역 신호에 1보다 작은 평활 인자를 승산하여, 상기 국부적으로 생성된 잡음 고대역 신호의 새로운 가중 평균 에너지를 획득하도록 구성되어 있는 제7 획득 서브유닛
    을 더 포함하며,
    상기 제1 디코딩 유닛은 구체적으로, 상기 디코딩에 의해 획득된 잡음 저대역 파라미터, 상기 SID에 대응하는 때의 잡음 고대역 신호의 합성 필터 계수, 및 상기 국부적으로 생성된 잡음 고대역 신호의 새로운 가중 평균 에너지에 따라, 제4 CN 프레임을 획득하도록 구성되어 있는, 오디오 데이터 디코딩 장치.
  45. 제23항 내지 제32항 중 어느 한 항에 따른 오디오 데이터 인코딩 장치 및 제33항 내지 제44항 중 어느 한 항에 따른 오디오 데이터 디코딩 장치를 포함하는 오디오 데이터 처리 시스템.
KR1020147020836A 2011-12-30 2012-12-28 오디오 데이터 처리 방법, 장치 및 시스템 KR101693280B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201110455836.7A CN103187065B (zh) 2011-12-30 2011-12-30 音频数据的处理方法、装置和系统
CN201110455836.7 2011-12-30
PCT/CN2012/087812 WO2013097764A1 (zh) 2011-12-30 2012-12-28 音频数据的处理方法、装置和系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020167036611A Division KR101770237B1 (ko) 2011-12-30 2012-12-28 오디오 데이터 처리 방법, 장치 및 시스템

Publications (2)

Publication Number Publication Date
KR20140109456A true KR20140109456A (ko) 2014-09-15
KR101693280B1 KR101693280B1 (ko) 2017-01-05

Family

ID=48678198

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167036611A KR101770237B1 (ko) 2011-12-30 2012-12-28 오디오 데이터 처리 방법, 장치 및 시스템
KR1020147020836A KR101693280B1 (ko) 2011-12-30 2012-12-28 오디오 데이터 처리 방법, 장치 및 시스템

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020167036611A KR101770237B1 (ko) 2011-12-30 2012-12-28 오디오 데이터 처리 방법, 장치 및 시스템

Country Status (18)

Country Link
US (6) US9406304B2 (ko)
EP (1) EP2793227B1 (ko)
JP (2) JP6072068B2 (ko)
KR (2) KR101770237B1 (ko)
CN (1) CN103187065B (ko)
AU (1) AU2012361423B2 (ko)
BR (1) BR112014016153B1 (ko)
CA (3) CA3059322C (ko)
ES (1) ES2610783T3 (ko)
HK (1) HK1199543A1 (ko)
IN (1) IN2014KN01436A (ko)
MX (1) MX338445B (ko)
MY (1) MY173976A (ko)
PT (1) PT2793227T (ko)
RU (3) RU2617926C1 (ko)
SG (2) SG10201609338SA (ko)
WO (1) WO2013097764A1 (ko)
ZA (2) ZA201404996B (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103187065B (zh) * 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
CN104217723B (zh) * 2013-05-30 2016-11-09 华为技术有限公司 信号编码方法及设备
US9136763B2 (en) * 2013-06-18 2015-09-15 Intersil Americas LLC Audio frequency deadband system and method for switch mode regulators operating in discontinuous conduction mode
KR102121642B1 (ko) * 2014-03-31 2020-06-10 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 부호화 장치, 복호 장치, 부호화 방법, 복호 방법, 및 프로그램
US10163453B2 (en) 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
GB2532041B (en) 2014-11-06 2019-05-29 Imagination Tech Ltd Comfort noise generation
CN105681512B (zh) * 2016-02-25 2019-02-01 Oppo广东移动通信有限公司 一种降低语音通话功耗的方法及装置
CN105721656B (zh) * 2016-03-17 2018-10-12 北京小米移动软件有限公司 背景噪声生成方法及装置
ES2745018T3 (es) 2016-12-12 2020-02-27 Kyynel Oy Procedimiento versátil de selección de canal para red inalámbrica
US10504538B2 (en) * 2017-06-01 2019-12-10 Sorenson Ip Holdings, Llc Noise reduction by application of two thresholds in each frequency band in audio signals
US10540983B2 (en) * 2017-06-01 2020-01-21 Sorenson Ip Holdings, Llc Detecting and reducing feedback
GB2595891A (en) * 2020-06-10 2021-12-15 Nokia Technologies Oy Adapting multi-source inputs for constant rate encoding
CN113571072B (zh) * 2021-09-26 2021-12-14 腾讯科技(深圳)有限公司 一种语音编码方法、装置、设备、存储介质及产品
CN117711434B (zh) * 2023-12-20 2024-10-22 书行科技(北京)有限公司 音频处理方法及装置、电子设备及计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100120217A (ko) * 2008-02-19 2010-11-12 지멘스 엔터프라이즈 커뮤니케이션즈 게엠베하 운트 코. 카게 배경 잡음 정보를 인코딩하는 방법 및 수단

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7103065B1 (en) * 1998-10-30 2006-09-05 Broadcom Corporation Data packet fragmentation in a cable modem system
US6424938B1 (en) 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
EP1715712B1 (en) * 1998-11-24 2009-03-25 Telefonaktiebolaget LM Ericsson (publ) Efficient in-band signaling for discontinuous transmission and configuration changes in adaptive multi-rate communications systems
US6549587B1 (en) * 1999-09-20 2003-04-15 Broadcom Corporation Voice and data exchange over a packet based network with timing recovery
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
WO2001033814A1 (en) * 1999-11-03 2001-05-10 Tellabs Operations, Inc. Integrated voice processing system for packet networks
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US7920697B2 (en) 1999-12-09 2011-04-05 Broadcom Corp. Interaction between echo canceller and packet voice processing
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
US6691085B1 (en) 2000-10-18 2004-02-10 Nokia Mobile Phones Ltd. Method and system for estimating artificial high band signal in speech codec using voice activity information
US6691805B2 (en) 2001-08-27 2004-02-17 Halliburton Energy Services, Inc. Electrically conductive oil-based mud
US7319703B2 (en) * 2001-09-04 2008-01-15 Nokia Corporation Method and apparatus for reducing synchronization delay in packet-based voice terminals by resynchronizing during talk spurts
US20030093270A1 (en) * 2001-11-13 2003-05-15 Domer Steven M. Comfort noise including recorded noise
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
FR2859566B1 (fr) * 2003-09-05 2010-11-05 Eads Telecom Procede de transmission d'un flux d'information par insertion a l'interieur d'un flux de donnees de parole, et codec parametrique pour sa mise en oeuvre
JP4572123B2 (ja) * 2005-02-28 2010-10-27 日本電気株式会社 音源供給装置及び音源供給方法
CN101087319B (zh) * 2006-06-05 2012-01-04 华为技术有限公司 一种发送和接收背景噪声的方法和装置及静音压缩系统
US7809559B2 (en) * 2006-07-24 2010-10-05 Motorola, Inc. Method and apparatus for removing from an audio signal periodic noise pulses representable as signals combined by convolution
US8725499B2 (en) 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
JP2008139447A (ja) * 2006-11-30 2008-06-19 Mitsubishi Electric Corp 音声符号化装置及び音声復号装置
CN101246688B (zh) 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
CN101320563B (zh) * 2007-06-05 2012-06-27 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
BRPI0818927A2 (pt) * 2007-11-02 2015-06-16 Huawei Tech Co Ltd Método e aparelho para a decodificação de áudio
CN100555414C (zh) * 2007-11-02 2009-10-28 华为技术有限公司 一种dtx判决方法和装置
DE102008009718A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
CN101483495B (zh) * 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
WO2011103924A1 (en) * 2010-02-25 2011-09-01 Telefonaktiebolaget L M Ericsson (Publ) Switching off dtx for music
US20110228946A1 (en) * 2010-03-22 2011-09-22 Dsp Group Ltd. Comfort noise generation method and system
JP2012215198A (ja) * 2011-03-31 2012-11-08 Showa Corp 回転構造体
CN103187065B (zh) * 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
KR101690899B1 (ko) * 2012-12-21 2016-12-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호의 불연속 전송에서 높은 스펙트럼-시간 해상도를 가진 편안한 잡음의 생성

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100120217A (ko) * 2008-02-19 2010-11-12 지멘스 엔터프라이즈 커뮤니케이션즈 게엠베하 운트 코. 카게 배경 잡음 정보를 인코딩하는 방법 및 수단

Also Published As

Publication number Publication date
HK1199543A1 (en) 2015-07-03
US20160300578A1 (en) 2016-10-13
US9892738B2 (en) 2018-02-13
CA2861916C (en) 2019-11-19
CN103187065A (zh) 2013-07-03
US20230352035A1 (en) 2023-11-02
EP2793227A4 (en) 2015-03-18
US20180137869A1 (en) 2018-05-17
US20220044692A1 (en) 2022-02-10
SG10201609338SA (en) 2016-12-29
IN2014KN01436A (ko) 2015-10-23
MX2014007968A (es) 2015-01-26
US11183197B2 (en) 2021-11-23
PT2793227T (pt) 2016-12-29
BR112014016153B1 (pt) 2021-01-12
MX338445B (es) 2016-04-15
EP2793227A1 (en) 2014-10-22
CA3059322C (en) 2023-01-10
JP6072068B2 (ja) 2017-02-01
JP6462653B2 (ja) 2019-01-30
CN103187065B (zh) 2015-12-16
RU2641464C1 (ru) 2018-01-17
ZA201600247B (en) 2016-03-30
US12100406B2 (en) 2024-09-24
AU2012361423A1 (en) 2014-07-31
AU2012361423B2 (en) 2016-01-28
KR20170002704A (ko) 2017-01-06
WO2013097764A1 (zh) 2013-07-04
MY173976A (en) 2020-03-02
KR101770237B1 (ko) 2017-08-22
ZA201404996B (en) 2016-06-29
US9406304B2 (en) 2016-08-02
RU2579926C1 (ru) 2016-04-10
US20200098378A1 (en) 2020-03-26
BR112014016153A8 (pt) 2017-07-04
JP2015507764A (ja) 2015-03-12
US10529345B2 (en) 2020-01-07
JP2017062512A (ja) 2017-03-30
CA3059322A1 (en) 2013-07-04
CA3181066A1 (en) 2013-07-04
SG11201403686SA (en) 2014-10-30
ES2610783T3 (es) 2017-05-03
US20140316774A1 (en) 2014-10-23
CA2861916A1 (en) 2013-07-04
BR112014016153A2 (pt) 2017-06-13
KR101693280B1 (ko) 2017-01-05
RU2617926C1 (ru) 2017-04-28
US11727946B2 (en) 2023-08-15
EP2793227B1 (en) 2016-10-26

Similar Documents

Publication Publication Date Title
KR101693280B1 (ko) 오디오 데이터 처리 방법, 장치 및 시스템
RU2383943C2 (ru) Кодирование звуковых сигналов
RU2449386C2 (ru) Способ и устройство для аудиодекодирования
JP6474877B2 (ja) ハーモニックオーディオ信号の帯域幅拡張
WO2023197809A1 (zh) 一种高频音频信号的编解码方法和相关装置
WO2024051412A1 (zh) 语音编码、解码方法、装置、计算机设备和存储介质
KR101248535B1 (ko) 배경 노이즈 생성 방법 및 노이즈 처리 장치
EP2774148A1 (en) Bandwidth extension of audio signals

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)
A107 Divisional application of patent
FPAY Annual fee payment

Payment date: 20191127

Year of fee payment: 4