KR20180040716A - 음질 향상을 위한 신호 처리방법 및 장치 - Google Patents

음질 향상을 위한 신호 처리방법 및 장치 Download PDF

Info

Publication number
KR20180040716A
KR20180040716A KR1020187009607A KR20187009607A KR20180040716A KR 20180040716 A KR20180040716 A KR 20180040716A KR 1020187009607 A KR1020187009607 A KR 1020187009607A KR 20187009607 A KR20187009607 A KR 20187009607A KR 20180040716 A KR20180040716 A KR 20180040716A
Authority
KR
South Korea
Prior art keywords
bandwidth
signal
unit
effective bandwidth
encoding
Prior art date
Application number
KR1020187009607A
Other languages
English (en)
Inventor
성호상
프랑수와홀리
주기현
오은미
정경훈
웨이야오두
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20180040716A publication Critical patent/KR20180040716A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

음질향상을 위한 신호 처리방법 및 장치가 개시된다. 송신장치의 신호 처리방법은 입력신호의 부호화를 위한 복수의 파라미터에 근거하여 유효 대역폭을 결정하는 단계, 결정된 유효 대역폭에 근거하여 입력신호에 대하여 전처리를 수행하는 단계, 결정된 유효 대역폭에 대응하여, 전처리된 입력신호를 부호화하는 단계를 포함하고, 수신장치의 신호 처리방법은 전송채널을 통하여 수신되는 비트스트림 혹은 패킷을 복호화하는 단계, 복호화에 사용된 복수의 파라미터에 근거하여 유효 대역폭을 결정하는 단계, 및 결정된 유효 대역폭에 근거하여, 복호화된 신호에 대하여 후처리를 수행하는 단계를 포함한다.

Description

음질 향상을 위한 신호 처리방법 및 장치
본 개시는 오디오 및/또는 스피치 신호 처리에 관한 것으로서, 보다 구체적으로는 오디오 및/또는 스피치신호의 음질을 향상시키기 위한 신호 처리 방법 및 장치에 관한 것이다.
협대역(Narrow band)인 오디오 및/또는 스피치 신호 부호화와 달리, 광대역(Wide band), 초광대역(Super-wide band) 또는 전대역(Full band)인 오디오 및/또는 스피치 신호 부호화에서는 각 모드에서 지원하는 대역폭보다 실제 입력신호의 대역폭이 좁은 경우가 발생한다.
이러한 경우, 엔코더단에서 입력신호의 유효 대역폭을 확인하고, 확인된 유효 대역폭에 근거하여 부호화 모드를 변경할 수 있다. 그 결과, 부호화를 위한 가용한 비트를 유효 대역폭에 집중시킴으로써 전체적인 음질 향상을 이룰 수 있다.
해결하고자 하는 과제는 오디오 및/또는 스피치신호의 부호화 대역 탐색에 근거하여 음질을 향상시키기 위한 신호 처리방법 및 장치를 제공하는데 있다.
일측면에 따른 신호 처리방법은 입력신호의 부호화를 위한 복수의 파라미터에 근거하여 유효 대역폭을 결정하는 단계; 상기 결정된 유효 대역폭에 근거하여 상기 입력신호에 대하여 전처리를 수행하는 단계; 및 상기 결정된 유효 대역폭에 대응하여, 상기 전처리된 입력신호를 부호화하는 단계를 포함할 수 있다.
상기 부호화를 위한 복수의 파라미터는 비트율, 샘플링 주파수와 대역폭 중 적어도 하나를 포함할 수 있다.
상기 비트율, 샘플링 주파수와 대역폭은 단말간 통화조건 교섭과정을 통하여 결정될 수 있다.
상기 신호 처리방법은 상기 부호화결과 생성되는 비트스트림을 소정 포맷의 패킷으로 생성하는 단계를 더 포함할 수 있다.
상기 유효 대역폭을 결정하는 단계는 상기 입력신호를 주파수 도메인의 신호로 변환하는 단계; 상기 주파수 도메인의 신호를 분류하는 단계; 및 상기 분류 결과에 따라서 설정되는 임계값에 근거하여, 상기 입력신호의 유효 대역폭을 탐색 및 선택하는 단계를 포함할 수 있다.
제1 항에 있어서, 상기 유효 대역폭을 결정하는 단계는 상기 입력신호를 주파수 도메인의 신호로 변환하는 단계; 상기 주파수 도메인의 신호로부터 노이즈 성분을 제거하는 단계; 및 상기 노이즈 성분이 제거되어 남은 액티브 신호에 대하여 유효 대역폭을 탐색 및 선택하는 단계를 포함할 수 있다.
상기 부호화하는 단계는 상기 결정된 유효 대역폭에 따라서, 최대 대역 및 최소 대역 중 적어도 하나를 제한하여 부호화를 수행할 수 있다.
상기 전처리를 수행하는 단계는 저역통과필터링 처리 및 대역확장처리 중 적어도 하나를 수행할 수 있다.
다른 측면에 따른 신호 처리방법은 전송채널을 통하여 수신되는 비트스트림 혹은 패킷을 복호화하는 단계; 복호화에 사용된 복수의 파라미터에 근거하여 유효 대역폭을 결정하는 단계; 및 상기 결정된 유효 대역폭에 근거하여 상기 복호화된 신호에 대하여 후처리를 수행하는 단계를 포함할 수 있다.
상기 복호화에 사용된 복수의 파라미터는 비트율, 샘플링 주파수와 대역폭 중 적어도 하나를 포함할 수 있다.
상기 비트율, 샘플링 주파수와 대역폭은 단말간 통화조건 교섭과정을 통하여 결정될 수 있다.
상기 유효 대역폭을 결정하는 단계는 상기 복호화된 신호를 주파수 도메인의 신호로 변환하는 단계; 상기 주파수 도메인의 신호를 분류하는 단계; 및 상기 분류 결과에 따라서 설정되는 임계값에 근거하여, 상기 복호화된 신호의 유효 대역폭을 탐색 및 선택할 수 있다.
상기 유효 대역폭을 결정하는 단계는 상기 복호화된 신호를 주파수 도메인의 신호로 변환하는 단계; 상기 주파수 도메인의 신호로부터 노이즈 성분을 제거하는 단계; 및 상기 노이즈 성분이 제거되어 남은 액티브 신호에 대하여 유효 대역폭을 탐색 및 선택하는 단계를 포함할 수 있다.
상기 후처리를 수행하는 단계는 저역통과필터링 처리 및 대역확장처리 중 적어도 하나를 수행할 수 있다.
일측면에 따른 신호 처리장치는 입력신호의 부호화를 위한 복수의 파라미터에 근거하여 유효 대역폭을 결정하고, 상기 결정된 유효 대역폭에 근거하여 상기 입력신호에 대하여 전처리를 수행하고, 상기 결정된 유효 대역폭에 대응하여, 상기 전처리된 입력신호를 부호화하여 비트스트림을 생성하는 프로세서; 및 상기 프로세서로부터 제공되는 비트스트림을 송신하는 통신부를 포함할 수 있다.
상기 프로세서는 상기 결정된 유효 대역폭에 대응하여 최대 대역 및 최소 대역 중 적어도 하나를 제한하여, 전처리된 입력신호를 부호화할 수 있다.
다른 측면에 따른 신호 처리장치는 전송채널을 통하여 비트스트림 혹은 패킷을 수신하는 통신부; 및 상기 비트스트림 혹은 패킷을 복호화하고, 복호화에 사용된 복수의 파라미터에 근거하여 유효 대역폭을 결정하고, 상기 결정된 유효 대역폭에 근거하여 상기 복호화된 신호에 대하여 후처리를 수행하는 프로세서를 포함할 수 있다.
음성 및/또는 오디오 신호의 최적 부호화 대역폭을 탐색 및 선택하고, 탐색 및 선택된 대역폭에 근거하여 송신측에서의 전처리 혹은 수신측에서의 후처리를 수행함으로써, 통화 품질을 향상시킬 수 있다.
도 1은 음성 통화를 위한 송수신단 및 패킷 네트워크의 구조를 나타낸다.
도 2는 패킷망에서 음성 통화를 위한 송수신단 및 패킷 네트워크의 구체적인 구조의 예와 교섭시 사용되는 파라미터의 예를 나타낸다.
도 3은 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 4는 패킷 네트워크에서 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 5는 일실시예에 따른 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 6은 일실시예에 따른 패킷 네트워크에서 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 7은 일실시예에 따른 송신장치의 구성을 나타내는 블록도이다.
도 8은 도 7에 도시된 송신대역폭 결정부의 구성을 나타내는 블록도이다.
도 9는 다른 실시예에 따른 송신장치의 구성을 나타내는 블록도이다.
도 10은 도 9에 도시된 송신대역폭 결정부의 구성을 나타내는 블록도이다.
도 11은 일실시예에 따른 도 10에 도시된 전처리부의 구성을 나타내는 블록도이다.
도 12은 일실시예에 따른 도 8 혹은 도 10에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 13은 다른 실시예에 따른 도 8 혹은 도 10에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 14는 일실시예에 따른 수신장치의 구성을 나타내는 블록도이다.
도 15는 도 14에 도시된 수신대역폭 결정부의 구성을 나타내는 블록도이다.
도 16은 일실시예에 따른 도 15에 도시된 후처리부의 구성을 나타내는 블록도이다.
도 17은 일실시예에 따른 도 16에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 18은 다른 실시예에 따른 도 16에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 19는 도 10 및 도 11에 도시된 전처리부의 동작을 설명하는 흐름도이다.
도 20은 도 15 및 도 16에 도시된 후처리부의 동작을 설명하는 흐름도이다.
도 21 내지 도 23는 저역통과필터의 예를 나타낸 그래프이다.
본 개시는 다양한 변환을 가할 수 있고 여러가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 한정하려는 것이 아니며, 기술적 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해될 수 있다. 실시예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들이 용어들에 의해 한정되는 것은 아니다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 개시에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 한정하려는 의도가 아니다. 본 개시에서 사용한 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나 이는 당 분야에 종사하는 기술자의 의도, 판례, 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 개시에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 실시예들을 첨부 도면을 참조하여 상세히 설명하기로 한다.
도 1은 음성 통화를 위한 송수신단 및 패킷 네트워크의 구조를 나타낸다. 도 1의 구조를 이용하는 패킷 네트워크의 예로는 LTE(Long Term Evolution)가 있으며, LTE 네트워크에서의 패킷 기반 음성통화 서비스를 VoLTE(Voice over Long Term Evolution)라고 한다.
일반적으로 음성통화가 이루어지기 위해서는, 송신단말과 송신단말이 접속된 Operator A의 네트워크와, 수신단말과 수신단말이 접속된 Operator B의 네트워크로 이루어진 네트워크 구조에서 송신단과 수신단간의 시그널링 경로(Signaling path)를 통해 통화조건 교섭과정이 선행될 수 있다. 통화조건 교섭과정을 통하여 전송율(Transmission rate), 코덱(Codec), 코덱 비트율(Codec bit rate), 샘플링 주파수(Fs), 대역폭(Bandwidth), 및 채널의 개수 중 적어도 하나 이상이 결정될 수 있다. 전송율은 실제 전송에 필요한 통신채널의 데이터량을 의미하며, 코넥은 실제로 사용되는 음성 코덱의 명칭을 의미할 수 있다. 코덱의 예로는 AMR(Adaptive Multi-Rate), AMR-WB(AMR-Wideband), EVS(Enhanced Voice Services) 등을 들 수 있다. 코덱 비트율은 결정된 코덱에서 사용할 비트율을 의미하며, 교섭된 코덱 비트율에 따라 음성신호를 압축하고, 압축된 데이터는 패킷 네트워크를 통하여 수신단으로 전송될 수 있다. 각 코덱은 다양한 비트율을 갖는 복수의 모드로 이루어져 있으며, 각 모드에서 사용하는 비트율은 미리 정의될 수 있다. 샘플링 주파수는 코덱의 엔코더 입력신호 또는 디코더 출력신호의 샘플링 주파수를 의미한다. 대역폭은 신호의 대역폭을 의미하며 샘플링 주파수와 달리 실제 부호화가 일어나는 대역폭을 의미한다. EVS 코덱에서 지원하는 신호대역의 예로는 NB(20~4,000Hz), WB(20~8,000Hz), SWB(20~16,000Hz), 그리고 FB(20~20,000Hz)가 있으며, 각 샘플링 주파수에서 지원하는 대역보다 낮은 대역폭에 대하여 실제로 부호화가 가능하다. 예를 들어 32kHz의 샘플링 주파수에서 지원이 가능한 대역은 FB, SWB, WB, NB이다. 그리고 채널의 개수는 모노 혹은 스테레오와 같이 부호화될 신호 혹은 복호화된 신호에서 지원하는 채널의 개수를 의미한다.
통화조건 교섭과정이 완료되면, 통화조건에 따라 송신단에서는 부호화가 이루어지며, 수신단에서는 복호화가 이루어질 수 있다. 부호화결과 생성되는 비트스트림은 미디어 경로(Media path)를 통하여 수신단으로 전송될 수 있다. VoLTE 서비스의 경우, 송신단에서 압축된 데이터는 모뎀을 통해 RAN(Radio Access Network)까지 무선으로 전송되며, RAN 이후는 유선으로 PS(Packet Switched) 도메인을 통해 상대방의 오퍼레이터로 전송이 이루어질 수 있다. 수신단이 사용하는 오퍼레이터는 송신단이 사용하는 오퍼레이터와 동일하거나 다를 수 있다.
도 2는 패킷망에서 음성 통화를 위한 송수신단 및 패킷 네트워크의 구체적인 구조의 예와 교섭시 사용되는 파라미터의 예를 나타낸다.
도 2에 있어서, 단말 A는 통화조건을 IMS(IP Multimedia Subsystem)를 경유하여 상대방 단말 B와 교섭하는데, 이 과정에서 단말 A가 보낸 SDP offer를 검토하여 단말 B는 SDP answer로 선호 통화조건을 통보하게 된다. 통화조건 교섭이 완료되면 단말간에 압축된 미디어 전송과정이 이루어진다.
하기 코드는 단말 A에서 비트 레이트(br)는 5.9-48 kbps, 대역폭(bw)는 구체적으로 지정하지 않은 경우로서 NB-FB까지 전체 가용한 대역이 통화에 사용하도록 제안하는 예를 나타낸다. 실시예에 따르면, 교섭에서 우선이 되는 코덱은 EVS이며, 상대방에서 EVS를 지원하지 않는 경우 AMR-WB로 교섭이 진행될 수 있다. EVS/16000/1은 각각 Codec/sampling frequency/Number of channel로서, EVS 코덱, 16,000Hz의 샘플링 주파수, 1채널 즉 모노를 사용하여 통화를 교섭한다는 의미이다.
m=audio 49152 RTP/AVP 98 99
b= AS:65
b=RS:0
b=RR:2000
a=rtpmap: 98 EVS/16000/1
a=fmtp:98 br=5.9-48
a=rtpmap: 99 AMR-WB/16000/1
a=ptime:20
a=maxtime:80
한편, 하기 코드는 단말 B에서 비트 레이트(br)는 13.2-24.4 kbps, 대역폭(bw)는 NB-SWB까지 통화에 사용하도록 답변하는 예를 나타낸다.
m=audio 49152 RTP/AVP 98
b= AS:42
b=RS:0
b=RR:2000
a=rtpmap: 98 EVS/16000/1
a=fmtp:98 br=13.2-24.4; bw=nb-swb
a=ptime:20
a=maxtime:80
도 3은 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 3에 도시된 장치는 송신모듈과 수신모듈로 이루어지며, 송신모듈은 제1 변환부(310), 송신처리부(320)와 부호화부(330)를 포함하고, 수신모듈은 복호화부(360), 수신처리부(370)와 제2 변환부(380)를 포함할 수 있다. 송신모듈 및/혹은 수신모듈에서 각 구성요소는 별도의 하드웨어로 구현되어야 하는 경우를 제외하고는 적어도 하나의 프로세서로 일체화되어 구현될 수 있다. 송신모듈과 수신모듈은 사용자 장비(User Equipment)의 송신측과 수신측에 각각 설치될 수 있다.
도 3에 있어서, 제1 변환부(310)는 마이크로폰과 같은 입력장치를 통하여 제공되는 아날로그 신호를 디지털 신호로 변환할 수 있다.
송신처리부(320)는 제1 변환부(310)로부터 제공되는 디지털 신호에 대하여 다양한 신호처리를 수행할 수 있다. 신호처리의 예로는 노이즈 제거, 에코 저감 등이 있으나 이에 한정되는 것은 아니다.
부호화부(330)는 송신처리부(320)로부터 제공되는 신호에 대하여 결정된 코덱을 이용하여 부호화를 수행할 수 있다. 부호화 결과 생성되는 비트스트림은 전송채널을 통하여 수신측으로 전송되거나 저장매체에 저장된 다음 복호화를 위하여 전송될 수 있다.
한편, 복호화부(360)는 수신된 비트스트림에 대하여 결정된 코덱을 이용하여 복호화를 수행할 수 있다.
수신처리부(370)는 복호화된 신호에 대하여 다양한 신호처리를 수행할 수 있다. 신호처리의 예로는 노이즈 제거, 에코 저감 등이 있으나 이에 한정되는 것은 아니다.
제2 변환부(380)는 수신처리부(370)로부터 제공되는 신호를 아날로그 신호를 변환할 수 있다. 제2 변환부(380)로부터 제공되는 아날로그 신호는 스피커 또는 리시버를 통하여 재생될 수 있다.
도 3에서 사용되는 코덱의 예로는 EVS를 들 수 있다.
도 4는 패킷 네트워크에서 음성통화를 위한 송수신장치의 개략적인 구성을 나타내는 블록도이다.
도 4에 도시된 장치는 송신모듈과 수신모듈로 이루어지며, 송신모듈은 제1 변환부(410), 송신처리부(420), 부호화부(430)와 포매터(440)를 포함하고, 수신모듈은 디포매터(450, 복호화부(460), 수신처리부(470)와 제2 변환부(480)를 포함할 수 있다. 송신모듈 및/혹은 수신모듈에서 각 구성요소는 별도의 하드웨어로 구현되어야 하는 경우를 제외하고는 적어도 하나의 프로세서로 일체화되어 구현될 수 있다. 송신모듈과 수신모듈은 사용자 장비(User Equipment)의 송신측과 수신측에 각각 설치될 수 있다. 도 4의 장치는 포매터(440), 디포매터(450) 및 복호화부(460)를 제외하고는 도 3의 구성요소를 공유하고 있으므로, 중복적인 동작 설명은 생략하기로 한다.
도 4에 있어서, 포매터(440)는 부호화부(430)로부터 제공되는 비트스트림을 이용하여 패킷 네트워크에서의 통신을 위한 RTP(Real-time Transport Protocol) 페이로드 패킷으로 포맷팅할 수 있다. 포매터(440)에서 생성되는 RTP 페이로드 패킷은 전송채널을 통하여 수신측으로 전송되거나 저장매체에 저장된 다음 복호화를 위하여 전송될 수 있다.
한편, 디포매터(450)는 수신된 RTP 페이로드 패킷을 디포맷팅하여 필요한 정보를 추출할 수 있다. 필요한 정보의 예로는 타임 스탬프 정보, 패킷 손실 정보와 EVS 비트스트림 등을 들 수 있다.
복호화부(460)는 JBM(Jitter Buffer Management)부를 포함하며, 디포매터(450)에서 추출된 정보를 이용하여 네트워크 지터를 상쇄한 다음, 복호화 처리를 수행할 수 있다.
도 4에서 사용되는 코덱의 예로는 EVS를 들 수 있다.
도 5는 일실시예에 따른 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 5에 도시된 장치는 송신모듈과 수신모듈로 이루어지며, 송신모듈은 제1 변환부(510), 송신처리부(520), 송신대역폭 결정부(525)와 부호화부(530)를 포함하고, 수신모듈은 복호화부(560), 수신대역폭 결정부(565), 수신처리부(570)와 제2 변환부(580)를 포함할 수 있다. 송신모듈 및/혹은 수신모듈에서 각 구성요소는 별도의 하드웨어로 구현되어야 하는 경우를 제외하고는 적어도 하나의 프로세서로 일체화되어 구현될 수 있다. 송신모듈과 수신모듈은 사용자 장비(User Equipment)의 송신측과 수신측에 각각 설치될 수 있다.
도 5에 있어서, 제1 변환부(510)는 마이크로폰과 같은 입력장치를 통하여 제공되는 아날로그 신호를 디지털 신호로 변환할 수 있다.
송신처리부(520)는 제1 변환부(510)로부터 제공되는 디지털 신호에 대하여 다양한 신호처리를 수행할 수 있다. 신호처리의 예로는 노이즈 제거, 에코 저감 등이 있으나 이에 한정되는 것은 아니다.
송신대역폭 결정부(525)는 송신처리부(520)로부터 제공되는 신호를 이용하여 최적 부호화 대역폭을 탐색하고, 탐색결과에 근거하여 부호화 대역폭을 결정할 수 있다. 송신대역폭 결정부(525)에서 결정되는 부호화 대역폭에 근거하여 코덱을 제어할 수 있다. 일실시예에 따르면, 탐색결과에 근거하여 최대 부호화 대역폭을 결정하고, 코덱 파라미터를 이용하여 최대 부호화 대역을 제한할 수 있다. 다른 실시예에 따르면, 탐색결과에 근거하여 저역통과필터링을 수행하여 해당 컷오프 주파수보다 높은 대역의 신호를 제거할 수 있다. 또 다른 실시예에 따르면, 탐색결과에 근거하여 최대 부호화 대역폭과 최저 부호화 대역폭을 결정하고, 원하는 대역에서 정확히 부호화가 수행되도록 부호화부(530)를 제어할 수 있다. 일실시예에 따르면, 대역폭 결정은 복수의 프레임들, 단일 프레임, 복수의 서브 프레임들 혹은 단일 서브 프레임 단위로 수행될 수 있다.
부호화부(530)는 송신대역폭 결정부(525)에서 결정된 대역폭에 근거하여, 송신처리부(520)로부터 제공되는 신호에 대하여 소정 코덱을 이용하여 부호화를 수행할 수 있다. 부호화 결과 생성되는 비트스트림은 전송채널을 통하여 수신측으로 전송되거나 저장매체에 저장된 다음 복호화를 위하여 전송될 수 있다.
한편, 복호화부(560)는 수신된 비트스트림에 대하여 소정 코덱을 이용하여 복호화를 수행할 수 있다.
수신대역폭 결정부(565)는 복호화부(550)로부터 제공되는 신호를 이용하여 최적 부호화 대역폭을 탐색하고, 탐색결과에 근거하여 부호화 대역폭을 결정할 수 있다. 수신대역폭 결정부(565)에서 결정된 최적 대역폭에 근거하여 복호화된 신호의 음질을 향상시킬 수 있다.
수신처리부(570)는 수신대역폭 결정부(565)에서 결정된 최적 대역폭에 근거하여, 복호화된 신호에 대하여 다양한 신호처리를 수행할 수 있다. 신호처리의 예로는 저역통과필터링, 대역확장 등이 있으나 이에 한정되는 것은 아니다.
제2 변환부(580)는 수신처리부(570)로부터 제공되는 신호를 아날로그 신호를 변환할 수 있다. 제2 변환부(580)로부터 제공되는 아날로그 신호는 스피커 또는 리시버를 통하여 재생될 수 있다.
도 6은 일실시예에 따른 패킷 네트워크에서 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 6에 도시된 장치는 송신모듈과 수신모듈로 이루어지며, 송신모듈은 제1 변환부(610), 송신처리부(620), 송신대역폭 결정부(625), 부호화부(630)와 포매터(640)를 포함하고, 수신모듈은 디포매터(650), 복호화부(660), 수신대역폭 결정부(665), 수신처리부(670)와 제2 변환부(680)를 포함할 수 있다. 송신모듈 및/혹은 수신모듈에서 각 구성요소는 별도의 하드웨어로 구현되어야 하는 경우를 제외하고는 적어도 하나의 프로세서로 일체화되어 구현될 수 있다. 송신모듈과 수신모듈은 사용자 장비(User Equipment)의 송신측과 수신측에 각각 설치될 수 있다. 도 6의 장치는 포매터(640), 디포매터(650) 및 복호화부(660)를 제외하고는 도 5의 구성요소를 공유하고 있으므로, 중복적인 동작 설명은 생략하기로 한다.
도 6에 있어서, 포매터(640)는 부호화부(630)로부터 제공되는 비트스트림을 이용하여 패킷 네트워크에서의 통신을 위한 RTP(Real-time Transport Protocol) 페이로드 패킷으로 포맷팅할 수 있다. 포매터(640)에서 생성되는 RTP 페이로드 패킷은 전송채널을 통하여 수신측으로 전송되거나 저장매체에 저장된 다음 복호화를 위하여 전송될 수 있다.
한편, 디포매터(650)는 수신된 RTP 페이로드 패킷을 디포맷팅하여 필요한 정보를 추출할 수 있다. 필요한 정보의 예로는 타임 스탬프 정보, 패킷 손실 정보와 EVS 비트스트림 등을 들 수 있다.
복호화부(660)는 JBM(Jitter Buffer Management)부를 포함하며, 디포매터(650)에서 추출된 정보를 이용하여 네트워크 지터를 상쇄한 다음, 복호화 처리를 수행할 수 있다.
도 7은 일실시예에 따른 송신장치의 구성을 나타내는 블록도이다.
도 7에 도시된 장치는 송신처리부(710), 송신대역폭 결정부(730)와 부호화부(750)를 포함할 수 있다.
도 7에 있어서, 송신처리부(710)는 입력신호에 대하여 다양한 처리를 수행할 수 있다. 송신처리부(710)에서 수행되는 처리는 필터링 처리, 에코 제거 처리, 노이즈 저감 처리, 등화 처리, 자동 이득 조절 처리 등을 예로 들 수 있으나, 이에 한정되지 않으며, 적어도 하나 이상의 처리를 수행할 수 있다. 필터링 처리의 예로는 하이패스 필터링을 들 수 있다.
송신대역폭 결정부(730)는 송신처리부(710)로부터 제공되는 신호의 최적 부호화 대역폭을 결정할 수 있다. 이를 위하여 송신대역폭 결정부(730)는 단말간의 통화조건 교섭과정을 통하여 결정된 샘플링 주파수와 부호화 비트율을 수신할 수 있다. 최적 부호화 대역폭은 NB(~4kHz), WB(~8kHz), SWB(~16kHz), 그리고 FB(~20kHz)로 구분할 수 있으며, 추가적으로 각 대역폭에 대하여 고정밀도를 갖도록 세부 대역폭을 정의할 수 있다. 예를 들어 SWB인 경우에는 10, 12, 14kHz 등으로 세부 대역폭을 정의할 수 있다.
부호화부(750)는 송신대역폭 결정부(730)에서 결정된 부호화 대역폭에 근거하여, 송신처리부(710)로부터 제공되는 신호의 부호화를 수행할 수 있다.
도 8은 도 7에 도시된 송신대역폭 결정부의 구성을 나타내는 블록도이다.
도 8에 도시된 송신대역폭 결정부는 대역폭 결정부(810)와 코덱 제어부(830)를 포함할 수 있다.
도 8을 참조하면, 대역폭 결정부(810)는 샘플링 주파수와 부호화 비트율에 근거하여 신호의 부호화 대역폭을 결정할 수 있다.
코덱 제어부(830)는 대역폭 결정부(810)에서 결정된 부호화 대역폭에 근거하여 코덱, 예를 들면 부호화부(도 7의 750)를 제어할 수 있다. 일실시예에 따르면, 코덱 제어부(830)는 코덱의 최대 대역폭을 정의하고, 대역폭 결정부(810)에서 결정된 부호화 대역폭에 근거하여 최대 대역폭을 제한할 수 있다. 채용되는 코덱이 EVS 코덱인 경우 MAX_BAND 스위치를 이용하여 최대 대역폭을 제한할 수 있다. 다른 실시예에 따르면, 코덱 제어부(830)는 코덱의 최대 대역폭과 최소 대역폭을 정의하고, 대역폭 결정부(810)에서 결정된 부호화 대역폭에 근거하여 원하는 대역으로 부호화 대역을 선택할 수 있다. 채용되는 코덱이 EVS 코덱인 경우 MIN_BAND 스위치를 추가하여 최소 대역폭을 제한할 수 있다. 일예를 들면, MAX_BAND는 SWB이고 MIN_BAND는 NB인 경우 EVS 코덱은 NB, WB, 그리고 SWB에 대해서만 부호화를 할 수 있다. 다른 예를 들면, MAX_BAND는 SWB이고 MIN_BAND 또한 SWB인 경우 EVS 코덱은 항상 SWB에 대해서만 부호화를 할 수 있다.
도 9는 다른 실시예에 따른 송신장치의 구성을 나타내는 블록도이다.
도 9에 도시된 장치는 송신처리부(910), 송신대역폭 결정부(930)와 부호화부(950)를 포함할 수 있다.
도 9를 참조하면, 송신처리부(910)는 도 7의 송신처리부(710)에서와 동일하거나 유사한 동작을 수행할 수 있다.
송신대역폭 결정부(930)는 단말간의 통화조건 교섭과정을 통하여 결정된 샘플링 주파수와 부호화 비트율에 근거하여, 송신처리부(910)로부터 제공되는 신호의 부호화 대역폭을 결정할 수 있다. 송신대역폭 결정부(930)는 결정된 부호화 대역폭과 샘플링 주파수에서 지원하는 최대 대역폭간의 비교결과에 따라서 전처리 수행 여부를 결정하고, 결정 결과에 대응하여 송신처리부(910)로부터 제공되는 신호를 처리하여 부호화부(950)로 제공할 수 있다.
부호화부(950)는 송신대역폭 결정부(930)에서 결정된 부호화 대역폭에 근거하여, 송신대역폭 결정부(930)로부터 제공되는 신호의 부호화를 수행할 수 있다.
도 10은 도 9에 도시된 송신대역폭 결정부의 구성을 나타내는 블록도이다.
도 10에 도시된 송신대역폭 결정부는 대역폭 결정부(1010), 전처리부(1030)와 코덱 제어부(1050)를 포함할 수 있다.
도 10을 참조하면, 대역폭 결정부(1010)는 샘플링 주파수와 부호화 비트율에 근거하여 신호의 부호화 대역폭을 결정할 수 있다.
전처리부(1030)는 대역폭 결정부(1030)에서 결정된 부호화 대역폭이 샘플링 주파수에서 지원하는 최대 대역폭과 동일한 경우, 송신처리부(910)로부터 제공되는 신호에 대하여 추가 처리없이 부호화부(950)로 제공할 수 있다. 한편, 전처리부(1030)는 송신대역폭 결정부(930)에서 결정된 부호화 대역폭이 샘플링 주파수에서 지원하는 최대 대역폭과 다른 경우, 송신처리부(910)로부터 제공되는 신호에 대하여 저역통과필터링 혹은 대역확장과 같은 전처리를 수행하여 부호화부(950)로 제공할 수 있다.
코덱 제어부(1050)는 대역폭 결정부(1010)에서 결정된 부호화 대역폭에 근거하여 코덱, 예를 들면 부호화부(도 9의 950)를 제어할 수 있다. 코덱 제어부(1050)는 코덱 제어부(도 8의 830)와 동일하거나 유사한 동작을 수행할 수 있다.
한편, 전처리부(1030)와 코덱 제어부(1050)는 하나의 모듈로 구현될 수 있는데, 이 경우 송신처리부(910)로부터 제공되는 신호에 대하여 전처리후, 최대 대역폭을 제한할 수 있다. 또한, 전처리부(1030)와 코덱 제어부(1050) 중 하나만 사용하거나, 동시에 동작시키는 것도 가능하다.
전처리부(1030)에서의 대역 확장 처리를 통하여 결정된 부호화 대역폭이 수신된 샘플링 주파수에서 지원하는 대역폭보다 낮은 주파수 대역에 대해서는 별도로 고주파 대역을 복원해 줄 수 있다.
한편, 전처리부(1030)에서 사용할 수 있는 저역통과 필터링처리는 수신된 샘플링 주파수에 따라 달라질 수 있다. 이를 정리하면 하기의 표 1과 같이 나타낼 수 있다.
샘플링 주파수 지원하는 대역폭 저역통과필터
16 kHz NB, WB 4 kHz(NB) LPF
32 kHz NB, WB, SWB 4 kHz(NB), 8 kHz(WB) LPF9,10,11,12,13,14,15 kHz LPF
48 kHz NB, WB, SWB, FB 4 kHz(NB), 8kHz(WB) LPF9,10,11,12,13,14,15,16,17,18,19 kHz LPF
표 1을 참조하면, SWB와 FB에 대해서는 1 kHz 단위로 필터를 설계할 수 있다. 한편, 16 kHz의 샘플링 주파수를 사용하는 경우 WB를 지원하는 LPF는 필요없게 된다. 그리고 사용된 샘플링 주파수가 변경됨에 따라서 사용되는 필터도 변경될 필요가 있다. 이때, 유사한 응답(response)을 제공하기 위해 필터의 탭수나 계수의 조정이 필요할 수 있다.
도 11은 일실시예에 따른 도 10에 도시된 전처리부의 구성을 나타내는 블록도이다.
도 11에 도시된 전처리부(1030)는 연속 대역폭 탐색부(1110), 반응속도(reaction speed) 결정부(1130)와 스무딩부(1150)를 포함할 수 있다.
도 11을 참조하면, 연속 대역폭 탐색부(1110)에서는 동일한 대역을 갖는 연속된 프레임의 개수를 구할 수 있다.
반응속도 결정부(1130)에서는 결정된 대역에 대한 정보가 실제로 전처리부(1030)의 출력으로 사용되는 시기를 결정할 수 있다. 만일, 연속 대역폭 탐색부(1110)의 출력이 미리 정해진 임계치(threshold)를 넘어서면 대역폭 결정부(1010)에서 결정된 대역이 실제 전처리부(1013)의 출력으로 사용될 수 있다. 만약, 그렇지 않은 경우에는 스무딩부(1150)에서 스무딩 처리된 이후 출력되며, 이 출력이 전체 전처리부(1030)의 출력으로 사용될 수 있다.
스무딩부(1150)는 선택된 대역폭의 변화가 서서히 변화하도록 스무딩할 수 있다.
도 12는 일실시예에 따른 도 8 혹은 도 10에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 12에 도시된 대역폭 결정부는 매핑부(1210)와 대역폭 탐색 및 선택부(1230)를 포함할 수 있다.
도 12를 참조하면, 매핑부(1210)는 시간-주파수 매핑처리에 근거하여 시간 도메인의 신호를 주파수 도메인의 신호로 변환할 수 있다. 시간-주파수 매핑처리의 예로는 FFT(Fast Fourier Transform), CLDFB(Complex modulated Low Delay Filter Bank), DCT(Discrete Cosine Transform) 등을 들 수 있으나, 이에 한정되는 것은 아니다.
대역폭 탐색 및 선택부(1230)는 매핑부(1210)로부터 제공되는 주파수 도메인의 신호를 위한 최적 부호화 대역폭을 결정할 수 있다. 이를 위하여, 먼저 주파수 도메인의 신호를 미리 정의된 밴드 단위로 분리하고, 각 밴드의 에너지에 근거하여 최적 부호화 대역을 검출할 수 있다. 각 밴드의 에너지는 미리 정의된 임계값과 비교되고, 비교결과에 근거하여 최적 부호화 대역을 검출할 수 있다. 이때, 밴드의 크기는 부호화 대역폭 결정 처리의 정밀도 혹은 해상도에 따라 달라질 수 있다. 대역폭 탐색 및 선택부(1230)는 최적 부호화 대역의 검출 결과를 이용하여, 입력 신호에 대하여 원하는 부호화 대역폭을 선택하고, 대역폭 정보를 출력할 수 있다. 원하는 부호화 대역폭은 입력되는 부호화 대역폭과 샘플링 주파수뿐 아니라, 부호화 비트율을 더 고려하여 선택할 수 있다. 이를 정리하면 하기의 표 2와 같이 나타낼 수 있다.
Band-Width SourceBandwidth(Hz) SupportingSampling Frequency(kHz) Bit-Rate (kbps)
NB 20 ~ 4,000 8/16/32/48 5.9, 7.2, 8, 9.6, 13.2, 16.4, 24.4
WB 20 ~ 8,000 16/32/48 5.9, 7.2, 8, 9.6, 13.2, 16.4, 24.4, 32, 48, 64, 96, 128
SWB 20 ~ 16,000 32/48 9.6, 13.2, 16.4, 24.4, 32, 48, 64, 96, 128
FB 20 ~ 20,000 48 16.4, 24.4, 32, 48, 64, 96, 128
표 2를 참조하면, EVS 코덱의 경우 각 대역폭마다 부호화 비트율이 달라질 수 있다. 즉, 부호화 비트율을 고려하여 현재 비트율에서 지원되지 않는 대역폭이 선택되는 경우, 지원되는 상위 대역폭으로 변경될 수 있다.
또한, 대역폭 탐색 및 선택부(1230)는 선택된 부호화 대역폭에 대한 스무딩처리를 수행할 수 있다. 이는 부호화 대역폭의 급격한 변화 혹은 빈번한 변화로 인한 음질 저하를 최소화하기 위한 것이다. 스무딩처리를 위하여 이력(hysteresis), 이동평균(moving average), 혹은 행오버(hangover) 등을 사용할 수 있다.
도 13은 다른 실시예에 따른 도 8 혹은 도 10에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 13에 도시된 대역폭 결정부는 매핑부(1310), 신호분류부(1330)와 대역폭 탐색 및 선택부(1350)를 포함할 수 있다.
도 13을 참조하면, 매핑부(1310)는 도 12의 매핑부(1210)와 동일하거나 유사한 동작을 수행할 수 있다.
신호분류부(1330)는 매핑부(1310)로부터 제공되는 주파수 도메인의 신호에 대하여 신호분류 처리를 수행하여 해당 신호를 음성신호와 음악신호 중 하나로 분류할 수 있다.
대역폭 탐색 및 선택부(1350)는 신호분류부(1330)의 분류결과에 대응하여, 매핑부(1310)로부터 제공되는 주파수 도메인의 신호를 위한 최적 부호화 대역폭을 선택할 수 있다. 신호분류부(1330)의 분류결과에 따라서 서로 다른 임계값을 사용함으로써, 신호 특성을 고려하여 부호화 대역폭을 선택할 수 있다. 임계값을 제외하고, 대역폭 탐색 및 선택부(1350)는 도 12의 대역폭 탐색 및 선택부(1230)와 동일하거나 유사한 동작을 수행할 수 있다.
도 14는 일실시예에 따른 수신장치의 구성을 나타내는 블록도이다.
도 14에 도시된 장치는 복호화부(1410), 수신대역폭 결정부(1430)와 수신처리부(1450)를 포함할 수 있다.
도 14를 참조하면, 복호화부(1410)는 JBM(Jitter Buffer Management)부를 포함하며, 전송된 RTP 페이로드 패킷을 분석하여 최적의 재생지연(playout delay)을 결정할 수 있다. 복호화부(1410)는 결정된 재생지연에 따라서 RTP 페이로드 패킷에 대하여 소정 코덱을 이용하여 복호화를 수행할 수 있다. 한편, 패킷 네트워크를 사용하지 않는 경우, RTP 페이로드 패킷 대신 비트스트림이 입력으로 사용될 수 있다.
수신대역폭 결정부(1430)는 샘플링 주파수에 근거하여, 복호화부(1410)에서 복호화된 신호를 이용하여 최적 부호화 대역폭을 탐색하고, 탐색결과에 근거하여 부호화 대역폭을 결정할 수 있다. 수신대역폭 결정부(1430)에서 결정되는 부호화 대역폭에 근거하여 복호화된 신호의 음질을 향상시킬 수 있다. 샘플링 주파수 역시 단말간 통화조건 교섭과정을 통하여 결정될 수 있다.
수신처리부(1450)는 수신대역폭 결정부(1430)에서 결정된 부호화 대역폭에 근거하여, 복호화된 신호에 대하여 다양한 신호처리를 수행할 수 있다. 신호처리의 예로는 필터링 처리, 이득 제어 처리 등이 있으나 이에 한정되는 것은 아니다.
도 15는 도 14에 도시된 수신대역폭 결정부의 구성을 나타내는 블록도이다.
도 15에 도시된 수신대역폭 결정부는 대역폭 결정부(1510)와 후처리부(1530)를 포함할 수 있다.
도 15를 참조하면, 대역폭 결정부(1510)는 샘플링 주파수에 근거하여 신호의 부호화 대역폭을 결정할 수 있다.
후처리부(1530)는 대역폭 결정부(1510)에서 결정된 부호화 대역폭이 샘플링 주파수에서 지원하는 최대 대역폭과 동일한 경우, 복호화부(1410)에서 복호화된 신호에 대하여 추가 처리없이 수신처리부(1450)로 제공할 수 있다. 한편, 후처리부(1530)는 대역폭 결정부(1510)에서 결정된 부호화 대역폭이 샘플링 주파수에서 지원하는 최대 대역폭과 다른 경우, 복호화부(1410)에서 복호화된 신호에 대하여 저역통과필터링 혹은 대역확장과 같은 후처리를 수행하여 수신처리부(1450)로 제공할 수 있다. 대역확장 처리를 통하여, 결정된 최적 대역폭이 입력 샘플링 주파수에서 지원하는 대역폭보다 낮은 주파수 대역의 신호에 대해 고주파 대역을 복원해 줄 수 있다.
도 16은 일실시예에 따른 도 15에 도시된 후처리부의 구성을 나타내는 블록도이다.
도 16에 도시된 후처리부(1530)는 연속 대역폭 탐색부(1610), 반응속도(reaction speed) 결정부(1630), 스무딩부(1650)와 저역통과필터(1670)를 포함할 수 있다.
도 16을 참조하면, 연속 대역폭 탐색부(1610)와 반응속도 결정부(1630)는 도 11에 도시된 연속 대역폭 탐색부(1110)와 반응속도 결정부(1130)과 실질적으로 동일하다.
스무딩부(1650)는 선택된 대역폭의 변화를 전처리부(1030)에서와 달리 빠르게 변화하도록 한다.
필터링부(1670)는 적어도 하나 이상의 저역통과필터로 구성되어, 스무딩부(1650)의 출력에 대하여 저역통과필터링을 수행할 수 있다. 각 필터는 서로 다른 3dB 컷오프 주파수와 롤 다운 커브(roll-down curve)를 가질 수 있으며, 선택된 필터를 이용하여 저역통과필터링을 수행할 수 있다.
도 17은 일실시예에 따른 도 16에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 16에 도시된 대역폭 결정부(1700)는 매핑부(1710)와 대역폭 탐색 및 선택부(1730)를 포함할 수 있다.
도 17을 참조하면, 매핑부(1710)는 시간-주파수 매핑처리에 근거하여 시간 도메인의 신호를 주파수 도메인의 신호로 변환할 수 있다. 시간-주파수 매핑처리의 예로는 FFT(Fast Fourier Transform), CLDFB(Complex modulated Low Delay Filter Bank), DCT(Discrete Cosine Transform) 등을 들 수 있으나, 이에 한정되는 것은 아니다.
대역폭 탐색 및 선택부(1730)는 매핑부(1710)로부터 제공되는 주파수 도메인의 신호를 위한 최적 대역폭 정보를 생성할 수 있다. 이를 위하여, 복호화시 사용된 복호화 파라미터를 필요로 한다. 복호화 파라미터로는 복호화 대역폭, 복호화 샘플링 주파수, 복호화 비트율을 들 수 있다. 복호화 대역폭, 복호화 샘플링 주파수, 복호화 비트율은 단말간 통화조건 교섭과정을 통하여 정해질 수 있다. 대역폭 탐색 및 선택부(1730)는 복호화 파라미터에 근거하여, 매핑부(1710)로부터 제공되는 주파수 도메인의 신호를 위한 최적 대역폭을 선택할 수 있다. 최적 대역폭은 복호화 샘플링 주파수에서 지원하는 대역폭 이하에 대해서만 선택될 수 있다. 예를 들어, 복호화 샘플링 주파수가 48 kHz인 경우에는 NB, WB, SWB, 그리고 FB중에서 하나가 선택될 수 있으며, 복호화 샘플링 주파수가 32 kHz인 경우에는 NB, WB, 그리고 SWB 중에서 하나가 선택될 수 있다. 한편, 복호화 비트율에 따라서 최적 대역폭 탐색 여부를 결정할 수 있다. 소정 기준치보다 높은 비트율에서는 최적 대역폭 탐색 과정을 생략할 수 있으며, 낮은 비트율에서는 최적 대역폭 탐색 과정을 적용할 수 있다. 기준치의 예로는 13.2 kbps를 들 수 있다. 예를 들어, EVS 코덱의 입력 비트율이 13.2 kbps이하이면, 최적 대역폭 탐색 과정을 수행하며, 그 이외의 경우에는 최적 대역폭 탐색 과정을 생략할 수 있다. 또한, 복호화 샘플링 주파수는 SWB이지만 실제 복호화 대역폭이 NB인 경우에는 최적 대역폭 탐색 과정이 생략된다. 즉, 실제 복호화 대역폭이 NB보다 큰 경우 최적 대역폭 탐색 과정을 수행할 수 있다.
대역폭 탐색 및 선택부(1730)는 매핑부(1710)로부터 제공되는 주파수 도메인의 신호를 위한 최적 대역폭을 결정할 수 있다. 이를 위하여, 먼저 주파수 도메인의 신호를 미리 정의된 밴드 단위로 분리하고, 각 밴드의 에너지에 근거하여 최적 부호화 대역을 검출할 수 있다. 각 밴드의 에너지는 미리 정의된 임계값과 비교되고, 비교결과에 근거하여 최적 부호화 대역을 검출할 수 있다. 이때, 밴드의 크기는 최적 대역폭 결정 처리의 정밀도 혹은 해상도에 따라 달라질 수 있다. 한편, 현재 프레임과 이전 프레임간의 에너지 차이값에 근거하여 배경잡음과 액티브신호를 구분하고, 그 결과에 대응하여 임계값을 설정할 수 있다. 예를 들어, 에너지의 급격한 변화가 발생하는 경우에는 주요한 정보를 가지고 있는 액티브 신호로 구분하고, 액티브 신호를 고려하여 최적 대역폭을 탐색할 수 있다. 이에 따르면, 노이즈 환경에서 배경잡음과 액티브 신호에 대하여 적응적으로 최적 대역폭을 결정할 수 있다. 또한, 신호성분과 노이즈성분을 포함하는 입력신호에서 신호성분의 원하는 실제 대역폭을 선택할 수 있다.
또한, 대역폭 탐색 및 선택부(1730)는 선택된 대역폭에 대한 스무딩처리를 수행할 수 있다. 이는 선택된 대역폭의 급격한 변화 혹은 빈번한 변화로 인한 음질 저하를 최소화하기 위한 것이다. 스무딩처리를 위하여 이력(hysteresis), 이동평균(moving average), 혹은 행오버(hangover) 등을 사용할 수 있다.
도 18은 다른 실시예에 따른 도 16에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 18에 도시된 대역폭 결정부(1800)는 매핑부(1810), 신호분류부(1830)와 대역폭 탐색 및 선택부(1850)를 포함할 수 있다.
도 18을 참조하면, 매핑부(1810)는 도 17의 매핑부(1710)와 동일하거나 유사한 동작을 수행할 수 있다.
신호분류부(1830)는 매핑부(1810)로부터 제공되는 주파수 도메인의 신호에 대하여 신호분류 처리를 수행하여 해당 신호를 음성신호와 음악신호 중 하나로 분류할 수 있다.
대역폭 탐색 및 선택부(1850)는 신호분류부(1830)의 분류결과에 대응하여, 매핑부(1610)로부터 제공되는 주파수 도메인의 신호를 위한 최적 대역폭을 선택할 수 있다. 신호분류부(1830)의 분류결과에 따라서 서로 다른 임계값을 사용함으로써, 신호 특성을 고려하여 최적 대역폭을 선택할 수 있다. 임계값을 제외하고, 대역폭 탐색 및 선택부(1850)는 도 17의 대역폭 탐색 및 선택부(1730)와 동일하거나 유사한 동작을 수행할 수 있다.
도 17은 도 10 및 도 11에 도시된 전처리부의 동작을 설명하는 흐름도이다.
도 17을 참조하면,1710 단계에서는 스피치 입력을 수신할 수 있다.
1730 단계에서는 대역폭을 검출할 수 있다. 일실시예에 따르면, 1730 단계는 프레이밍 및 윈도윙 블럭, FFT 블럭, 밴드에너지 분석 블럭, 액티브 프레임 판단 블럭 및 전처리 결정 블럭으로 구성될 수 있다. 이때, 프레이밍 및 윈도우윙 블럭에서 지원하는 샘플링 주파수와 입력신호에 대한 프레임 크기 등은 전술한 바와 실질적으로 동일하거나 유사한 것을 사용할 수 있다. FFT 블럭에서는 일예로서 256 포인트 real-value FFT를 사용할 수 있으며, 그 결과 128 포인트의 주파수 계수를 생성할 수 있다.
밴드 에너지 분석 블럭에서는 각 밴드의 에너지를 계산할 수 있다.
32 kHz의 샘플링 주파수 입력인 경우, 하기 표 3에서와 같이 밴드를 분할할 수 있다.
Band No. Start End
1 1 63
2 64 71
3 72 79
4 80 87
5 88 95
6 96 103
7 104 111
8 112 119
9 120 128
48 kHz의 샘플링 주파수 입력인 경우, 하기 표 4에서와 같이 밴드를 분할할 수 있다.
Band No. Start End
1 1 42
2 43 47
3 48 53
4 54 58
5 59 63
6 64 69
7 70 74
8 75 79
9 80 85
10 86 90
11 91 95
12 96 100
13 101 106
14 107 111
15 112 116
16 117 121
17 122 128
밴드 에너지 분석 블럭에서는 각 밴드의 에너지를 합산함으로써, 밴드 에너지를 구할 수 있다.
액티브 프레임 판단블럭에서는 현재 프레임이 액티브 프레임(active frame)인지 아닌지 확인할 수 있다. 이는 전술한 신호 분류과정을 통하여 수행될 수 있다. 액티브 프레임인 경우, 전처리 결정(Pre-process Decision) 과정을 수행할 수 있다.
전처리 결정 블럭에서는 전체 신호 에너지 즉, 전체 밴드 에너지의 합을 미리 정해진 신호 임계치와 비교하고, 전체 신호 에너지가 임계치보다 적은 경우에는 해당 밴드를 최소 대역폭으로 설정할 수 있다. 신호 임계치의 예로는 400,000을 사용할 수 있으나, 이에 한정되는 것은 아니다. 만일 전체 신호 에너지가 신호 임계치보다 큰 경우에는 각 밴드 에너지를 서브프레임(n)과 밴드(k)를 이용하여 Energyn,k 와 같이 표현한다. 이 값을 이용하여 하기 수학식 1에서와 같이 로그비(log ratio)인 Speechn,k 를 구할 수 있다.
Figure pct00001
최대 밴드 에너지 증가를 UP라고 정의하고, 최대 밴드 에너지 감소를 DOWN이라고 정의하고, 하기 수학식 2에서와 같이 스무딩된 로그 에너지 En,k 를 구할 수 있다.
Figure pct00002
전처리 결정 블럭에서 검출 임계치는 일예에 따르면 -30 ~ -36 dB 사이에서 튜닝될 수 있다. 도 20에 도시된 후처리부에서는 후처리 결정 블럭으로 적용하며 이때 일예에 따르면 검출 임계치는 -38 ~ -44 dB 사이에서 튜닝될 수 있다.
만일 스무딩된 로그 에너지 En,k 가 검출 임계치보다 큰 경우에는 그 밴드를 스피치 밴드로 판단하며, 전처리 결정 출력은 가장 높은 주파수의 스피치 밴드가 된다.
1950 단계에서는 1930 단계의 출력에 대하여 스무딩 처리를 수행할 수 있다.
1950 단계는 대역폭 변동 판단 블럭, 임계치 비교 블럭, 스무딩 블럭을 포함할 수 있다.
만일 1930 단계의 전처리 결정 블럭의 출력이 연속적으로 5 프레임 이상 동일한 경우 대역폭 검출 결과인 Bn은 하기와 같이 결정될 수 있다.
Bn = En,k
한편, 그렇지 않은 경우에는 대역폭 검출 결과인 Bn은 하기와 같이 스무딩 처리에 의해 결정될 수 있다.
Bn = α×Dn + (1-α)×Bn-1
여기서, α는 전처리부에서는 0.05, 후처리부에서는 0.95를 사용할 수 있으나, 이에 제한되는 것은 아니다.
도 20은 도 15 및 도 16에 도시된 후처리부의 동작을 설명하는 흐름도이다.
도 20에 있어서 2010 단계, 2030 단계와 2050 단계는 도 19의 1910 단계, 1930 단계와 1950 단계와 대부분 실질적으로 동일한 방식을 사용하고, 임계치와 같은 값에서 차이가 있다. 도 20에서 추가된 부분은 2070 단계로서 저역통과 필터링을 수행할 수 있다.
2070 단계는 필터 선택 블럭, 필터링 블럭 및 불연속 제거 블럭을 포함할 수 있다. 2070 단계에서는 대역폭 검출 결과에 따라서 선정된 대역보다 고주파에 해당하는 신호를 제거하기 위해서 저역통과 필터링을 수행할 수 있다. 이를 위하여 적어도 하나 이상의 저역통과필터를 사용할 수 있으며, 각 필터는 대역폭 결정 결과에 해당하는 컷오프 주파수를 가질 수 있다. 일예에 따르면, 도 21 내지 도 23에 도시된 3가지의 필터 중 적어도 하나를 선택하여 사용할 수 있다.
도 21에 도시된 저역통과필터는 amplitude response gain이 단조로이 감소하며, gain은 Nyquistcut 주파수에서 마이너스 무한대로 수렴한다. 도 22에 도시된 저역통과필터는 Amplitude response gain은 동일한 roll down 곡선을 가지며, 서로 다른 cut off 주파수를 갖는다. 도 23에 도시된 저역통과필터는 Amplitude response gain은 서로 다른 roll down 커브를 갖는다.
불연속 제거 블럭에서는 필터링 이후 존재하는 불연속을 제거할 수 있다. n-1 프레임의 대역폭 결정 결과를 Wn-1, n 프레임의 대역폭 결정 결과를 Wn이라고 한다. 또한 상수 M을 정의하며, 여기서 M값은 0<M<subframe length/16 의 범위에 존재할 수 있으나, 이에 한정되는 것은 아니다. 만일 Wn-1 < Wn 인 경우에는, 프레임 n의 처음 M 개의 샘플은 Wn-1과 Wn-1+1 각각에 해당하는 필터에 의해 필터링된다. 만일 Wn-1>Wn인 경우에는, 프레임 n의 처음 M 개의 샘플은 Wn-1과 Wn-1-1 각각에 해당하는 필터에 의해 필터링된다. 필터링된 결과를 각각 T1[M]과 T2[M]이라고 하면 출력신호 O[M]는 하기 수학시 3과 같이 계산될 수 있다.
Figure pct00003
여기서, 0≤m<M이다.
만일 Wn-1<Wn인 경우에는, Wn-1을 증가시키고 다음 M 샘플에 대해 동일한 과정을 Wn-1+1=Wn이 될 때까지 반복한다. 만일 Wn-1>Wn인 경우에는, Wn-1을 감소시키고 다음 M 샘플에 대해 동일한 과정을 Wn-1-1=Wn이 될 때까지 반복한다.
한편, 상기한 실시예들은 멀티미디어 기기(미도시)에 내장될 수 있다. 멀티미디어 기기는 적어도 하나의 안테나를 포함하는 통신부(미도시), 부호화모듈(미도시)과 복호화모듈(미도시)을 포함할 수 있다. 또한, 부호화 결과 얻어지는 오디오 비트스트림 혹은 복호화 결과 얻어지는 복원된 오디오신호의 용도에 따라서, 오디오 비트스트림 혹은 복원된 오디오신호를 저장하는 저장부(미도시)을 더 포함할 수 있다. 또한, 멀티미디어 기기는 마이크로폰 혹은 스피커를 더 포함할 수 있다. 여기서, 부호화모듈과 복호화모듈은 멀티미디어 기기에 구비되는 다른 구성요소와 함께 일체화되어 적어도 하나 이상의 프로세서로 구현될 수 있다.
통신부는 외부로부터 제공되는 오디오와 부호화된 비트스트림 중 적어도 하나를 수신하거나, 복원된 오디오와 부호화모듈의 부호화결과 얻어지는 오디오 비트스트림 중 적어도 하나를 송신할 수 있다.
부호화모듈은 다양한 코덱을 내장하여 오디오 혹은 스피치 신호에 대한 부호화를 수행하여 비트스트림 혹은 패킷을 생성할 수 있다. 부호화모듈은 오디오 혹은 스피치 신호에 대한 부호화를 수행함에 있어서 전술한 실시예에 따른 신호처리를 적용할 수 있다. 신호처리는 일실시예에 따르면, 입력신호의 부호화를 위한 복수의 파라미터에 근거하여 유효 대역폭을 결정하고, 결정된 유효 대역폭에 근거하여 상기 입력신호에 대하여 전처리를 수행하고, 결정된 유효 대역폭에 대응하여, 상기 전처리된 입력신호를 부호화할 수 있다.
복호화모듈은 부호화모듈에 대응되거나 독립적으로 구현될 수 있다. 복호화모듈은 통신부를 통하여 제공되는 패킷 혹은 비트스트림을 수신하고, 복호화를 수행함에 있어서 전술한 실시예에 따른 신호처리를 적용할 수 있다. 신호처리는 일실시예에 따르면, 전송채널을 통하여 수신되는 비트스트림 혹은 패킷을 복호화하고, 복호화에 사용된 복수의 파라미터에 근거하여 유효 대역폭을 결정하고, 결정된 유효 대역폭에 근거하여 상기 복호화된 신호에 대하여 후처리를 수행할 수 있다.
저장부는 멀티미디어 기기의 운용에 필요한 다양한 프로그램을 저장할 수 있다. 마이크로폰은 사용자 혹은 외부의 오디오신호를 부호화모듈로 제공할 수 있다.
멀티미디어 기기에는, 전화, 모바일 폰 등을 포함하는 음성통신 전용단말, TV, MP3 플레이어 등을 포함하는 방송 혹은 음악 전용장치, 혹은 음성통신 전용단말과 방송 혹은 음악 전용장치의 융합 단말장치, 텔레컨퍼런싱 혹은 인터랙션 시스템의 사용자 단말이 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 멀티미디어 기기는 클라이언트, 서버 혹은 클라이언트와 서버 사이에 배치되는 변환기로서 사용될 수 있다.
한편, 멀티미디어 기기가 예를 들어 모바일 폰인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 유저 인터페이스 혹은 모바일 폰에서 처리되는 정보를 디스플레이하는 디스플레이부, 모바일 폰의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, 모바일 폰은 촬상 기능을 갖는 카메라부와 모바일 폰에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함할 수 있다.
한편, 멀티미디어 기기가 예를 들어 TV인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 수신된 방송정보를 디스플레이하는 디스플레이부, TV의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, TV는 TV에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함할 수 있다.
상기 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예들에서 사용될 수 있는 데이터 구조, 프로그램 명령, 혹은 데이터 파일은 컴퓨터로 읽을 수 있는 기록매체에 다양한 수단을 통하여 기록될 수 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함할 수 있다. 컴퓨터로 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 또한, 컴퓨터로 읽을 수 있는 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 전송 매체일 수도 있다. 프로그램 명령의 예로는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상과 같이 본 발명의 일실시예는 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 일실시예는 상기 설명된 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 스코프는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 이의 균등 또는 등가적 변형 모두는 본 발명 기술적 사상의 범주에 속한다고 할 것이다.

Claims (15)

  1. 입력신호의 부호화를 위한 복수의 파라미터에 근거하여 유효 대역폭을 결정하는 단계;
    상기 결정된 유효 대역폭에 근거하여 상기 입력신호에 대하여 전처리를 수행하는 단계; 및
    상기 결정된 유효 대역폭에 대응하여, 상기 전처리된 입력신호를 부호화하는 단계를 포함하는 신호 처리방법.
  2. 제1 항에 있어서, 상기 복수의 파라미터는 단말간 통화조건 교섭과정을 통하여 결정되는 비트율, 샘플링 주파수와 대역폭 중 적어도 하나를 포함하는 신호 처리방법.
  3. 제1 항에 있어서, 상기 방법은 상기 부호화결과 생성되는 비트스트림을 소정 포맷의 패킷으로 생성하는 단계를 더 포함하는 신호 처리방법.
  4. 제1 항에 있어서, 상기 유효 대역폭을 결정하는 단계는
    상기 입력신호를 주파수 도메인의 신호로 변환하는 단계;
    상기 주파수 도메인의 신호를 분류하는 단계; 및
    상기 분류 결과에 따라서 설정되는 임계값에 근거하여, 상기 입력신호의 유효 대역폭을 탐색 및 선택하는 단계를 포함하는 신호 처리방법.
  5. 제1 항에 있어서, 상기 유효 대역폭을 결정하는 단계는
    상기 입력신호를 주파수 도메인의 신호로 변환하는 단계;
    상기 주파수 도메인의 신호로부터 노이즈 성분을 제거하는 단계; 및
    상기 노이즈 성분이 제거되어 남은 액티브 신호에 대하여 유효 대역폭을 탐색 및 선택하는 단계를 포함하는 신호 처리방법.
  6. 제1 항에 있어서, 상기 부호화하는 단계는 상기 결정된 유효 대역폭에 따라서, 최대 대역과 최소 대역 중 적어도 하나를 제한하여 부호화를 수행하는 신호 처리방법.
  7. 제1 항에 있어서, 상기 전처리를 수행하는 단계는 저역통과필터링 처리 및 대역확장처리 중 적어도 하나를 수행하는 신호처리방법.
  8. 입력신호의 부호화를 위한 복수의 파라미터에 근거하여 유효 대역폭을 결정하고, 상기 결정된 유효 대역폭에 근거하여 상기 입력신호에 대하여 전처리를 수행하고, 상기 결정된 유효 대역폭에 대응하여, 상기 전처리된 입력신호를 부호화하여 비트스트림을 생성하는 프로세서; 및
    상기 프로세서로부터 제공되는 비트스트림을 송신하는 통신부를 포함하는 신호 송신장치.
  9. 제8 항에 있어서, 상기 프로세서는 상기 결정된 유효 대역폭에 대응하여 최대 대역 및 최소 대역 중 적어도 하나를 제한하여, 상기 전처리된 입력신호를 부호화하는 신호 송신장치.
  10. 전송채널을 통하여 수신되는 비트스트림 혹은 패킷을 복호화하는 단계;
    복호화에 사용된 복수의 파라미터에 근거하여 유효 대역폭을 결정하는 단계; 및
    상기 결정된 유효 대역폭에 근거하여 상기 복호화된 신호에 대하여 후처리를 수행하는 단계를 포함하는 신호 처리방법.
  11. 제10 항에 있어서, 상기 복수의 파라미터는 단말간 통화조건 교섭과정을 통하여 결정되는 비트율, 샘플링 주파수와 대역폭 중 적어도 하나를 포함하는 신호 처리방법.
  12. 제10 항에 있어서, 상기 유효 대역폭을 결정하는 단계는
    상기 복호화된 신호를 주파수 도메인의 신호로 변환하는 단계;
    상기 주파수 도메인의 신호를 분류하는 단계; 및
    상기 분류 결과에 따라서 설정되는 임계값에 근거하여, 상기 복호화된 신호의 유효 대역폭을 탐색 및 선택하는 단계를 포함하는 신호 처리방법.
  13. 제10 항에 있어서, 상기 유효 대역폭을 결정하는 단계는
    상기 복호화된 신호를 주파수 도메인의 신호로 변환하는 단계;
    상기 주파수 도메인의 신호로부터 노이즈 성분을 제거하는 단계; 및
    상기 노이즈 성분이 제거되어 남은 액티브 신호에 대하여 유효 대역폭을 탐색 및 선택하는 단계를 포함하는 신호 처리방법.
  14. 제10 항에 있어서, 상기 후처리를 수행하는 단계는 저역통과필터링 처리 및 대역확장처리 중 적어도 하나를 수행하는 신호처리방법.
  15. 전송채널을 통하여 비트스트림 혹은 패킷을 수신하는 통신부; 및
    상기 비트스트림 혹은 패킷을 복호화하고, 복호화에 사용된 복수의 파라미터에 근거하여 유효 대역폭을 결정하고, 상기 결정된 유효 대역폭에 근거하여 상기 복호화된 신호에 대하여 후처리를 수행하는 프로세서를 포함하는 신호 수신장치.
KR1020187009607A 2015-09-04 2016-09-05 음질 향상을 위한 신호 처리방법 및 장치 KR20180040716A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020150125874 2015-09-04
KR20150125874 2015-09-04
PCT/KR2016/009935 WO2017039422A2 (ko) 2015-09-04 2016-09-05 음질 향상을 위한 신호 처리방법 및 장치

Publications (1)

Publication Number Publication Date
KR20180040716A true KR20180040716A (ko) 2018-04-20

Family

ID=58188139

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187009607A KR20180040716A (ko) 2015-09-04 2016-09-05 음질 향상을 위한 신호 처리방법 및 장치

Country Status (4)

Country Link
US (2) US10803877B2 (ko)
EP (1) EP3343558A2 (ko)
KR (1) KR20180040716A (ko)
WO (1) WO2017039422A2 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11601483B2 (en) * 2018-02-14 2023-03-07 Genband Us Llc System, methods, and computer program products for selecting codec parameters
CN111429925B (zh) * 2020-04-10 2023-04-07 北京百瑞互联技术有限公司 一种降低音频编码速率的方法及系统
NL2032278B1 (en) 2022-06-24 2024-01-09 Classified Cycling Bv Hub assembly for a bicycle

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3061039B2 (ja) 1998-10-20 2000-07-10 日本電気株式会社 無音圧縮符号復号化方法及びその装置
KR100746050B1 (ko) 2006-06-09 2007-08-06 에스케이 텔레콤주식회사 오디오 코덱의 프레임 구성 방법
KR20080066538A (ko) 2007-01-12 2008-07-16 엘지전자 주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
MX2011000370A (es) * 2008-07-11 2011-03-15 Fraunhofer Ges Forschung Un aparato y un metodo para decodificar una señal de audio codificada.
US8463412B2 (en) 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US9070361B2 (en) 2011-06-10 2015-06-30 Google Technology Holdings LLC Method and apparatus for encoding a wideband speech signal utilizing downmixing of a highband component
US8666753B2 (en) 2011-12-12 2014-03-04 Motorola Mobility Llc Apparatus and method for audio encoding
US9426569B2 (en) 2013-06-13 2016-08-23 Blackberry Limited Audio signal bandwidth to codec bandwidth analysis and response

Also Published As

Publication number Publication date
WO2017039422A3 (ko) 2017-04-20
US20190027156A1 (en) 2019-01-24
US20210012786A1 (en) 2021-01-14
WO2017039422A2 (ko) 2017-03-09
EP3343558A4 (en) 2018-07-04
US11380338B2 (en) 2022-07-05
US10803877B2 (en) 2020-10-13
EP3343558A2 (en) 2018-07-04

Similar Documents

Publication Publication Date Title
US11380338B2 (en) Signal processing methods and apparatuses for enhancing sound quality
US10186276B2 (en) Adaptive noise suppression for super wideband music
EP3692524B1 (en) Multi-stream audio coding
US10885921B2 (en) Multi-stream audio coding
US8311817B2 (en) Systems and methods for enhancing voice quality in mobile device
EP3457402B1 (en) Noise-adaptive voice signal processing method and terminal device employing said method
EP3742439B1 (en) Temporal offset estimation
US10762912B2 (en) Estimating noise in an audio signal in the LOG2-domain
US10529352B2 (en) Audio signal processing
KR20170082901A (ko) 재생 지연 조절 방법 및 이를 적용한 전자 장치
EP3762923A1 (en) Audio coding
EP3682446B1 (en) Temporal offset estimation
KR102457290B1 (ko) 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치
US10242683B2 (en) Optimized mixing of audio streams encoded by sub-band encoding
JP2013537325A (ja) ピッチサイクルエネルギーを判断し、励起信号をスケーリングすること
WO2022192217A1 (en) Audio codec with adaptive gain control of downmixed signals
WO2024076829A1 (en) A method, apparatus, and medium for encoding and decoding of audio bitstreams and associated echo-reference signals
WO2024074284A1 (en) Method, apparatus, and medium for efficient encoding and decoding of audio bitstreams
WO2024074285A1 (en) Method, apparatus, and medium for encoding and decoding of audio bitstreams with flexible block-based syntax
WO2024076830A1 (en) Method, apparatus, and medium for encoding and decoding of audio bitstreams and associated return channel information
WO2024074282A1 (en) Method, apparatus, and medium for encoding and decoding of audio bitstreams
WO2024074283A1 (en) Method, apparatus, and medium for decoding of audio signals with skippable blocks
WO2024076828A1 (en) Method, apparatus, and medium for encoding and decoding of audio bitstreams with parametric flexible rendering configuration data
JP2010160496A (ja) 信号処理装置および信号処理方法
JP2010158044A (ja) 信号処理装置および信号処理方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal