KR20180040716A - 음질 향상을 위한 신호 처리방법 및 장치 - Google Patents
음질 향상을 위한 신호 처리방법 및 장치 Download PDFInfo
- Publication number
- KR20180040716A KR20180040716A KR1020187009607A KR20187009607A KR20180040716A KR 20180040716 A KR20180040716 A KR 20180040716A KR 1020187009607 A KR1020187009607 A KR 1020187009607A KR 20187009607 A KR20187009607 A KR 20187009607A KR 20180040716 A KR20180040716 A KR 20180040716A
- Authority
- KR
- South Korea
- Prior art keywords
- bandwidth
- signal
- unit
- effective bandwidth
- encoding
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 230000005540 biological transmission Effects 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000007781 pre-processing Methods 0.000 claims abstract description 34
- 238000012805 post-processing Methods 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims description 43
- 238000005070 sampling Methods 0.000 claims description 41
- 238000004891 communication Methods 0.000 claims description 26
- 238000001914 filtration Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 description 71
- 238000010586 diagram Methods 0.000 description 32
- 238000013507 mapping Methods 0.000 description 22
- 238000006243 chemical reaction Methods 0.000 description 15
- 238000009499 grossing Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 206010019133 Hangover Diseases 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036632 reaction speed Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2236—Quality of speech transmission monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Telephone Function (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
음질향상을 위한 신호 처리방법 및 장치가 개시된다. 송신장치의 신호 처리방법은 입력신호의 부호화를 위한 복수의 파라미터에 근거하여 유효 대역폭을 결정하는 단계, 결정된 유효 대역폭에 근거하여 입력신호에 대하여 전처리를 수행하는 단계, 결정된 유효 대역폭에 대응하여, 전처리된 입력신호를 부호화하는 단계를 포함하고, 수신장치의 신호 처리방법은 전송채널을 통하여 수신되는 비트스트림 혹은 패킷을 복호화하는 단계, 복호화에 사용된 복수의 파라미터에 근거하여 유효 대역폭을 결정하는 단계, 및 결정된 유효 대역폭에 근거하여, 복호화된 신호에 대하여 후처리를 수행하는 단계를 포함한다.
Description
본 개시는 오디오 및/또는 스피치 신호 처리에 관한 것으로서, 보다 구체적으로는 오디오 및/또는 스피치신호의 음질을 향상시키기 위한 신호 처리 방법 및 장치에 관한 것이다.
협대역(Narrow band)인 오디오 및/또는 스피치 신호 부호화와 달리, 광대역(Wide band), 초광대역(Super-wide band) 또는 전대역(Full band)인 오디오 및/또는 스피치 신호 부호화에서는 각 모드에서 지원하는 대역폭보다 실제 입력신호의 대역폭이 좁은 경우가 발생한다.
이러한 경우, 엔코더단에서 입력신호의 유효 대역폭을 확인하고, 확인된 유효 대역폭에 근거하여 부호화 모드를 변경할 수 있다. 그 결과, 부호화를 위한 가용한 비트를 유효 대역폭에 집중시킴으로써 전체적인 음질 향상을 이룰 수 있다.
해결하고자 하는 과제는 오디오 및/또는 스피치신호의 부호화 대역 탐색에 근거하여 음질을 향상시키기 위한 신호 처리방법 및 장치를 제공하는데 있다.
일측면에 따른 신호 처리방법은 입력신호의 부호화를 위한 복수의 파라미터에 근거하여 유효 대역폭을 결정하는 단계; 상기 결정된 유효 대역폭에 근거하여 상기 입력신호에 대하여 전처리를 수행하는 단계; 및 상기 결정된 유효 대역폭에 대응하여, 상기 전처리된 입력신호를 부호화하는 단계를 포함할 수 있다.
상기 부호화를 위한 복수의 파라미터는 비트율, 샘플링 주파수와 대역폭 중 적어도 하나를 포함할 수 있다.
상기 비트율, 샘플링 주파수와 대역폭은 단말간 통화조건 교섭과정을 통하여 결정될 수 있다.
상기 신호 처리방법은 상기 부호화결과 생성되는 비트스트림을 소정 포맷의 패킷으로 생성하는 단계를 더 포함할 수 있다.
상기 유효 대역폭을 결정하는 단계는 상기 입력신호를 주파수 도메인의 신호로 변환하는 단계; 상기 주파수 도메인의 신호를 분류하는 단계; 및 상기 분류 결과에 따라서 설정되는 임계값에 근거하여, 상기 입력신호의 유효 대역폭을 탐색 및 선택하는 단계를 포함할 수 있다.
제1 항에 있어서, 상기 유효 대역폭을 결정하는 단계는 상기 입력신호를 주파수 도메인의 신호로 변환하는 단계; 상기 주파수 도메인의 신호로부터 노이즈 성분을 제거하는 단계; 및 상기 노이즈 성분이 제거되어 남은 액티브 신호에 대하여 유효 대역폭을 탐색 및 선택하는 단계를 포함할 수 있다.
상기 부호화하는 단계는 상기 결정된 유효 대역폭에 따라서, 최대 대역 및 최소 대역 중 적어도 하나를 제한하여 부호화를 수행할 수 있다.
상기 전처리를 수행하는 단계는 저역통과필터링 처리 및 대역확장처리 중 적어도 하나를 수행할 수 있다.
다른 측면에 따른 신호 처리방법은 전송채널을 통하여 수신되는 비트스트림 혹은 패킷을 복호화하는 단계; 복호화에 사용된 복수의 파라미터에 근거하여 유효 대역폭을 결정하는 단계; 및 상기 결정된 유효 대역폭에 근거하여 상기 복호화된 신호에 대하여 후처리를 수행하는 단계를 포함할 수 있다.
상기 복호화에 사용된 복수의 파라미터는 비트율, 샘플링 주파수와 대역폭 중 적어도 하나를 포함할 수 있다.
상기 비트율, 샘플링 주파수와 대역폭은 단말간 통화조건 교섭과정을 통하여 결정될 수 있다.
상기 유효 대역폭을 결정하는 단계는 상기 복호화된 신호를 주파수 도메인의 신호로 변환하는 단계; 상기 주파수 도메인의 신호를 분류하는 단계; 및 상기 분류 결과에 따라서 설정되는 임계값에 근거하여, 상기 복호화된 신호의 유효 대역폭을 탐색 및 선택할 수 있다.
상기 유효 대역폭을 결정하는 단계는 상기 복호화된 신호를 주파수 도메인의 신호로 변환하는 단계; 상기 주파수 도메인의 신호로부터 노이즈 성분을 제거하는 단계; 및 상기 노이즈 성분이 제거되어 남은 액티브 신호에 대하여 유효 대역폭을 탐색 및 선택하는 단계를 포함할 수 있다.
상기 후처리를 수행하는 단계는 저역통과필터링 처리 및 대역확장처리 중 적어도 하나를 수행할 수 있다.
일측면에 따른 신호 처리장치는 입력신호의 부호화를 위한 복수의 파라미터에 근거하여 유효 대역폭을 결정하고, 상기 결정된 유효 대역폭에 근거하여 상기 입력신호에 대하여 전처리를 수행하고, 상기 결정된 유효 대역폭에 대응하여, 상기 전처리된 입력신호를 부호화하여 비트스트림을 생성하는 프로세서; 및 상기 프로세서로부터 제공되는 비트스트림을 송신하는 통신부를 포함할 수 있다.
상기 프로세서는 상기 결정된 유효 대역폭에 대응하여 최대 대역 및 최소 대역 중 적어도 하나를 제한하여, 전처리된 입력신호를 부호화할 수 있다.
다른 측면에 따른 신호 처리장치는 전송채널을 통하여 비트스트림 혹은 패킷을 수신하는 통신부; 및 상기 비트스트림 혹은 패킷을 복호화하고, 복호화에 사용된 복수의 파라미터에 근거하여 유효 대역폭을 결정하고, 상기 결정된 유효 대역폭에 근거하여 상기 복호화된 신호에 대하여 후처리를 수행하는 프로세서를 포함할 수 있다.
음성 및/또는 오디오 신호의 최적 부호화 대역폭을 탐색 및 선택하고, 탐색 및 선택된 대역폭에 근거하여 송신측에서의 전처리 혹은 수신측에서의 후처리를 수행함으로써, 통화 품질을 향상시킬 수 있다.
도 1은 음성 통화를 위한 송수신단 및 패킷 네트워크의 구조를 나타낸다.
도 2는 패킷망에서 음성 통화를 위한 송수신단 및 패킷 네트워크의 구체적인 구조의 예와 교섭시 사용되는 파라미터의 예를 나타낸다.
도 3은 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 4는 패킷 네트워크에서 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 5는 일실시예에 따른 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 6은 일실시예에 따른 패킷 네트워크에서 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 7은 일실시예에 따른 송신장치의 구성을 나타내는 블록도이다.
도 8은 도 7에 도시된 송신대역폭 결정부의 구성을 나타내는 블록도이다.
도 9는 다른 실시예에 따른 송신장치의 구성을 나타내는 블록도이다.
도 10은 도 9에 도시된 송신대역폭 결정부의 구성을 나타내는 블록도이다.
도 11은 일실시예에 따른 도 10에 도시된 전처리부의 구성을 나타내는 블록도이다.
도 12은 일실시예에 따른 도 8 혹은 도 10에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 13은 다른 실시예에 따른 도 8 혹은 도 10에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 14는 일실시예에 따른 수신장치의 구성을 나타내는 블록도이다.
도 15는 도 14에 도시된 수신대역폭 결정부의 구성을 나타내는 블록도이다.
도 16은 일실시예에 따른 도 15에 도시된 후처리부의 구성을 나타내는 블록도이다.
도 17은 일실시예에 따른 도 16에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 18은 다른 실시예에 따른 도 16에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 19는 도 10 및 도 11에 도시된 전처리부의 동작을 설명하는 흐름도이다.
도 20은 도 15 및 도 16에 도시된 후처리부의 동작을 설명하는 흐름도이다.
도 21 내지 도 23는 저역통과필터의 예를 나타낸 그래프이다.
도 2는 패킷망에서 음성 통화를 위한 송수신단 및 패킷 네트워크의 구체적인 구조의 예와 교섭시 사용되는 파라미터의 예를 나타낸다.
도 3은 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 4는 패킷 네트워크에서 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 5는 일실시예에 따른 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 6은 일실시예에 따른 패킷 네트워크에서 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 7은 일실시예에 따른 송신장치의 구성을 나타내는 블록도이다.
도 8은 도 7에 도시된 송신대역폭 결정부의 구성을 나타내는 블록도이다.
도 9는 다른 실시예에 따른 송신장치의 구성을 나타내는 블록도이다.
도 10은 도 9에 도시된 송신대역폭 결정부의 구성을 나타내는 블록도이다.
도 11은 일실시예에 따른 도 10에 도시된 전처리부의 구성을 나타내는 블록도이다.
도 12은 일실시예에 따른 도 8 혹은 도 10에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 13은 다른 실시예에 따른 도 8 혹은 도 10에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 14는 일실시예에 따른 수신장치의 구성을 나타내는 블록도이다.
도 15는 도 14에 도시된 수신대역폭 결정부의 구성을 나타내는 블록도이다.
도 16은 일실시예에 따른 도 15에 도시된 후처리부의 구성을 나타내는 블록도이다.
도 17은 일실시예에 따른 도 16에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 18은 다른 실시예에 따른 도 16에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 19는 도 10 및 도 11에 도시된 전처리부의 동작을 설명하는 흐름도이다.
도 20은 도 15 및 도 16에 도시된 후처리부의 동작을 설명하는 흐름도이다.
도 21 내지 도 23는 저역통과필터의 예를 나타낸 그래프이다.
본 개시는 다양한 변환을 가할 수 있고 여러가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 한정하려는 것이 아니며, 기술적 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해될 수 있다. 실시예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들이 용어들에 의해 한정되는 것은 아니다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 개시에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 한정하려는 의도가 아니다. 본 개시에서 사용한 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나 이는 당 분야에 종사하는 기술자의 의도, 판례, 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 개시에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 실시예들을 첨부 도면을 참조하여 상세히 설명하기로 한다.
도 1은 음성 통화를 위한 송수신단 및 패킷 네트워크의 구조를 나타낸다. 도 1의 구조를 이용하는 패킷 네트워크의 예로는 LTE(Long Term Evolution)가 있으며, LTE 네트워크에서의 패킷 기반 음성통화 서비스를 VoLTE(Voice over Long Term Evolution)라고 한다.
일반적으로 음성통화가 이루어지기 위해서는, 송신단말과 송신단말이 접속된 Operator A의 네트워크와, 수신단말과 수신단말이 접속된 Operator B의 네트워크로 이루어진 네트워크 구조에서 송신단과 수신단간의 시그널링 경로(Signaling path)를 통해 통화조건 교섭과정이 선행될 수 있다. 통화조건 교섭과정을 통하여 전송율(Transmission rate), 코덱(Codec), 코덱 비트율(Codec bit rate), 샘플링 주파수(Fs), 대역폭(Bandwidth), 및 채널의 개수 중 적어도 하나 이상이 결정될 수 있다. 전송율은 실제 전송에 필요한 통신채널의 데이터량을 의미하며, 코넥은 실제로 사용되는 음성 코덱의 명칭을 의미할 수 있다. 코덱의 예로는 AMR(Adaptive Multi-Rate), AMR-WB(AMR-Wideband), EVS(Enhanced Voice Services) 등을 들 수 있다. 코덱 비트율은 결정된 코덱에서 사용할 비트율을 의미하며, 교섭된 코덱 비트율에 따라 음성신호를 압축하고, 압축된 데이터는 패킷 네트워크를 통하여 수신단으로 전송될 수 있다. 각 코덱은 다양한 비트율을 갖는 복수의 모드로 이루어져 있으며, 각 모드에서 사용하는 비트율은 미리 정의될 수 있다. 샘플링 주파수는 코덱의 엔코더 입력신호 또는 디코더 출력신호의 샘플링 주파수를 의미한다. 대역폭은 신호의 대역폭을 의미하며 샘플링 주파수와 달리 실제 부호화가 일어나는 대역폭을 의미한다. EVS 코덱에서 지원하는 신호대역의 예로는 NB(20~4,000Hz), WB(20~8,000Hz), SWB(20~16,000Hz), 그리고 FB(20~20,000Hz)가 있으며, 각 샘플링 주파수에서 지원하는 대역보다 낮은 대역폭에 대하여 실제로 부호화가 가능하다. 예를 들어 32kHz의 샘플링 주파수에서 지원이 가능한 대역은 FB, SWB, WB, NB이다. 그리고 채널의 개수는 모노 혹은 스테레오와 같이 부호화될 신호 혹은 복호화된 신호에서 지원하는 채널의 개수를 의미한다.
통화조건 교섭과정이 완료되면, 통화조건에 따라 송신단에서는 부호화가 이루어지며, 수신단에서는 복호화가 이루어질 수 있다. 부호화결과 생성되는 비트스트림은 미디어 경로(Media path)를 통하여 수신단으로 전송될 수 있다. VoLTE 서비스의 경우, 송신단에서 압축된 데이터는 모뎀을 통해 RAN(Radio Access Network)까지 무선으로 전송되며, RAN 이후는 유선으로 PS(Packet Switched) 도메인을 통해 상대방의 오퍼레이터로 전송이 이루어질 수 있다. 수신단이 사용하는 오퍼레이터는 송신단이 사용하는 오퍼레이터와 동일하거나 다를 수 있다.
도 2는 패킷망에서 음성 통화를 위한 송수신단 및 패킷 네트워크의 구체적인 구조의 예와 교섭시 사용되는 파라미터의 예를 나타낸다.
도 2에 있어서, 단말 A는 통화조건을 IMS(IP Multimedia Subsystem)를 경유하여 상대방 단말 B와 교섭하는데, 이 과정에서 단말 A가 보낸 SDP offer를 검토하여 단말 B는 SDP answer로 선호 통화조건을 통보하게 된다. 통화조건 교섭이 완료되면 단말간에 압축된 미디어 전송과정이 이루어진다.
하기 코드는 단말 A에서 비트 레이트(br)는 5.9-48 kbps, 대역폭(bw)는 구체적으로 지정하지 않은 경우로서 NB-FB까지 전체 가용한 대역이 통화에 사용하도록 제안하는 예를 나타낸다. 실시예에 따르면, 교섭에서 우선이 되는 코덱은 EVS이며, 상대방에서 EVS를 지원하지 않는 경우 AMR-WB로 교섭이 진행될 수 있다. EVS/16000/1은 각각 Codec/sampling frequency/Number of channel로서, EVS 코덱, 16,000Hz의 샘플링 주파수, 1채널 즉 모노를 사용하여 통화를 교섭한다는 의미이다.
m=audio 49152 RTP/AVP 98 99
b= AS:65
b=RS:0
b=RR:2000
a=rtpmap: 98 EVS/16000/1
a=fmtp:98 br=5.9-48
a=rtpmap: 99 AMR-WB/16000/1
a=ptime:20
a=maxtime:80
한편, 하기 코드는 단말 B에서 비트 레이트(br)는 13.2-24.4 kbps, 대역폭(bw)는 NB-SWB까지 통화에 사용하도록 답변하는 예를 나타낸다.
m=audio 49152 RTP/AVP 98
b= AS:42
b=RS:0
b=RR:2000
a=rtpmap: 98 EVS/16000/1
a=fmtp:98 br=13.2-24.4; bw=nb-swb
a=ptime:20
a=maxtime:80
도 3은 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 3에 도시된 장치는 송신모듈과 수신모듈로 이루어지며, 송신모듈은 제1 변환부(310), 송신처리부(320)와 부호화부(330)를 포함하고, 수신모듈은 복호화부(360), 수신처리부(370)와 제2 변환부(380)를 포함할 수 있다. 송신모듈 및/혹은 수신모듈에서 각 구성요소는 별도의 하드웨어로 구현되어야 하는 경우를 제외하고는 적어도 하나의 프로세서로 일체화되어 구현될 수 있다. 송신모듈과 수신모듈은 사용자 장비(User Equipment)의 송신측과 수신측에 각각 설치될 수 있다.
도 3에 있어서, 제1 변환부(310)는 마이크로폰과 같은 입력장치를 통하여 제공되는 아날로그 신호를 디지털 신호로 변환할 수 있다.
송신처리부(320)는 제1 변환부(310)로부터 제공되는 디지털 신호에 대하여 다양한 신호처리를 수행할 수 있다. 신호처리의 예로는 노이즈 제거, 에코 저감 등이 있으나 이에 한정되는 것은 아니다.
부호화부(330)는 송신처리부(320)로부터 제공되는 신호에 대하여 결정된 코덱을 이용하여 부호화를 수행할 수 있다. 부호화 결과 생성되는 비트스트림은 전송채널을 통하여 수신측으로 전송되거나 저장매체에 저장된 다음 복호화를 위하여 전송될 수 있다.
한편, 복호화부(360)는 수신된 비트스트림에 대하여 결정된 코덱을 이용하여 복호화를 수행할 수 있다.
수신처리부(370)는 복호화된 신호에 대하여 다양한 신호처리를 수행할 수 있다. 신호처리의 예로는 노이즈 제거, 에코 저감 등이 있으나 이에 한정되는 것은 아니다.
제2 변환부(380)는 수신처리부(370)로부터 제공되는 신호를 아날로그 신호를 변환할 수 있다. 제2 변환부(380)로부터 제공되는 아날로그 신호는 스피커 또는 리시버를 통하여 재생될 수 있다.
도 3에서 사용되는 코덱의 예로는 EVS를 들 수 있다.
도 4는 패킷 네트워크에서 음성통화를 위한 송수신장치의 개략적인 구성을 나타내는 블록도이다.
도 4에 도시된 장치는 송신모듈과 수신모듈로 이루어지며, 송신모듈은 제1 변환부(410), 송신처리부(420), 부호화부(430)와 포매터(440)를 포함하고, 수신모듈은 디포매터(450, 복호화부(460), 수신처리부(470)와 제2 변환부(480)를 포함할 수 있다. 송신모듈 및/혹은 수신모듈에서 각 구성요소는 별도의 하드웨어로 구현되어야 하는 경우를 제외하고는 적어도 하나의 프로세서로 일체화되어 구현될 수 있다. 송신모듈과 수신모듈은 사용자 장비(User Equipment)의 송신측과 수신측에 각각 설치될 수 있다. 도 4의 장치는 포매터(440), 디포매터(450) 및 복호화부(460)를 제외하고는 도 3의 구성요소를 공유하고 있으므로, 중복적인 동작 설명은 생략하기로 한다.
도 4에 있어서, 포매터(440)는 부호화부(430)로부터 제공되는 비트스트림을 이용하여 패킷 네트워크에서의 통신을 위한 RTP(Real-time Transport Protocol) 페이로드 패킷으로 포맷팅할 수 있다. 포매터(440)에서 생성되는 RTP 페이로드 패킷은 전송채널을 통하여 수신측으로 전송되거나 저장매체에 저장된 다음 복호화를 위하여 전송될 수 있다.
한편, 디포매터(450)는 수신된 RTP 페이로드 패킷을 디포맷팅하여 필요한 정보를 추출할 수 있다. 필요한 정보의 예로는 타임 스탬프 정보, 패킷 손실 정보와 EVS 비트스트림 등을 들 수 있다.
복호화부(460)는 JBM(Jitter Buffer Management)부를 포함하며, 디포매터(450)에서 추출된 정보를 이용하여 네트워크 지터를 상쇄한 다음, 복호화 처리를 수행할 수 있다.
도 4에서 사용되는 코덱의 예로는 EVS를 들 수 있다.
도 5는 일실시예에 따른 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 5에 도시된 장치는 송신모듈과 수신모듈로 이루어지며, 송신모듈은 제1 변환부(510), 송신처리부(520), 송신대역폭 결정부(525)와 부호화부(530)를 포함하고, 수신모듈은 복호화부(560), 수신대역폭 결정부(565), 수신처리부(570)와 제2 변환부(580)를 포함할 수 있다. 송신모듈 및/혹은 수신모듈에서 각 구성요소는 별도의 하드웨어로 구현되어야 하는 경우를 제외하고는 적어도 하나의 프로세서로 일체화되어 구현될 수 있다. 송신모듈과 수신모듈은 사용자 장비(User Equipment)의 송신측과 수신측에 각각 설치될 수 있다.
도 5에 있어서, 제1 변환부(510)는 마이크로폰과 같은 입력장치를 통하여 제공되는 아날로그 신호를 디지털 신호로 변환할 수 있다.
송신처리부(520)는 제1 변환부(510)로부터 제공되는 디지털 신호에 대하여 다양한 신호처리를 수행할 수 있다. 신호처리의 예로는 노이즈 제거, 에코 저감 등이 있으나 이에 한정되는 것은 아니다.
송신대역폭 결정부(525)는 송신처리부(520)로부터 제공되는 신호를 이용하여 최적 부호화 대역폭을 탐색하고, 탐색결과에 근거하여 부호화 대역폭을 결정할 수 있다. 송신대역폭 결정부(525)에서 결정되는 부호화 대역폭에 근거하여 코덱을 제어할 수 있다. 일실시예에 따르면, 탐색결과에 근거하여 최대 부호화 대역폭을 결정하고, 코덱 파라미터를 이용하여 최대 부호화 대역을 제한할 수 있다. 다른 실시예에 따르면, 탐색결과에 근거하여 저역통과필터링을 수행하여 해당 컷오프 주파수보다 높은 대역의 신호를 제거할 수 있다. 또 다른 실시예에 따르면, 탐색결과에 근거하여 최대 부호화 대역폭과 최저 부호화 대역폭을 결정하고, 원하는 대역에서 정확히 부호화가 수행되도록 부호화부(530)를 제어할 수 있다. 일실시예에 따르면, 대역폭 결정은 복수의 프레임들, 단일 프레임, 복수의 서브 프레임들 혹은 단일 서브 프레임 단위로 수행될 수 있다.
부호화부(530)는 송신대역폭 결정부(525)에서 결정된 대역폭에 근거하여, 송신처리부(520)로부터 제공되는 신호에 대하여 소정 코덱을 이용하여 부호화를 수행할 수 있다. 부호화 결과 생성되는 비트스트림은 전송채널을 통하여 수신측으로 전송되거나 저장매체에 저장된 다음 복호화를 위하여 전송될 수 있다.
한편, 복호화부(560)는 수신된 비트스트림에 대하여 소정 코덱을 이용하여 복호화를 수행할 수 있다.
수신대역폭 결정부(565)는 복호화부(550)로부터 제공되는 신호를 이용하여 최적 부호화 대역폭을 탐색하고, 탐색결과에 근거하여 부호화 대역폭을 결정할 수 있다. 수신대역폭 결정부(565)에서 결정된 최적 대역폭에 근거하여 복호화된 신호의 음질을 향상시킬 수 있다.
수신처리부(570)는 수신대역폭 결정부(565)에서 결정된 최적 대역폭에 근거하여, 복호화된 신호에 대하여 다양한 신호처리를 수행할 수 있다. 신호처리의 예로는 저역통과필터링, 대역확장 등이 있으나 이에 한정되는 것은 아니다.
제2 변환부(580)는 수신처리부(570)로부터 제공되는 신호를 아날로그 신호를 변환할 수 있다. 제2 변환부(580)로부터 제공되는 아날로그 신호는 스피커 또는 리시버를 통하여 재생될 수 있다.
도 6은 일실시예에 따른 패킷 네트워크에서 음성통화를 위한 송수신장치의 구성을 나타내는 블록도이다.
도 6에 도시된 장치는 송신모듈과 수신모듈로 이루어지며, 송신모듈은 제1 변환부(610), 송신처리부(620), 송신대역폭 결정부(625), 부호화부(630)와 포매터(640)를 포함하고, 수신모듈은 디포매터(650), 복호화부(660), 수신대역폭 결정부(665), 수신처리부(670)와 제2 변환부(680)를 포함할 수 있다. 송신모듈 및/혹은 수신모듈에서 각 구성요소는 별도의 하드웨어로 구현되어야 하는 경우를 제외하고는 적어도 하나의 프로세서로 일체화되어 구현될 수 있다. 송신모듈과 수신모듈은 사용자 장비(User Equipment)의 송신측과 수신측에 각각 설치될 수 있다. 도 6의 장치는 포매터(640), 디포매터(650) 및 복호화부(660)를 제외하고는 도 5의 구성요소를 공유하고 있으므로, 중복적인 동작 설명은 생략하기로 한다.
도 6에 있어서, 포매터(640)는 부호화부(630)로부터 제공되는 비트스트림을 이용하여 패킷 네트워크에서의 통신을 위한 RTP(Real-time Transport Protocol) 페이로드 패킷으로 포맷팅할 수 있다. 포매터(640)에서 생성되는 RTP 페이로드 패킷은 전송채널을 통하여 수신측으로 전송되거나 저장매체에 저장된 다음 복호화를 위하여 전송될 수 있다.
한편, 디포매터(650)는 수신된 RTP 페이로드 패킷을 디포맷팅하여 필요한 정보를 추출할 수 있다. 필요한 정보의 예로는 타임 스탬프 정보, 패킷 손실 정보와 EVS 비트스트림 등을 들 수 있다.
복호화부(660)는 JBM(Jitter Buffer Management)부를 포함하며, 디포매터(650)에서 추출된 정보를 이용하여 네트워크 지터를 상쇄한 다음, 복호화 처리를 수행할 수 있다.
도 7은 일실시예에 따른 송신장치의 구성을 나타내는 블록도이다.
도 7에 도시된 장치는 송신처리부(710), 송신대역폭 결정부(730)와 부호화부(750)를 포함할 수 있다.
도 7에 있어서, 송신처리부(710)는 입력신호에 대하여 다양한 처리를 수행할 수 있다. 송신처리부(710)에서 수행되는 처리는 필터링 처리, 에코 제거 처리, 노이즈 저감 처리, 등화 처리, 자동 이득 조절 처리 등을 예로 들 수 있으나, 이에 한정되지 않으며, 적어도 하나 이상의 처리를 수행할 수 있다. 필터링 처리의 예로는 하이패스 필터링을 들 수 있다.
송신대역폭 결정부(730)는 송신처리부(710)로부터 제공되는 신호의 최적 부호화 대역폭을 결정할 수 있다. 이를 위하여 송신대역폭 결정부(730)는 단말간의 통화조건 교섭과정을 통하여 결정된 샘플링 주파수와 부호화 비트율을 수신할 수 있다. 최적 부호화 대역폭은 NB(~4kHz), WB(~8kHz), SWB(~16kHz), 그리고 FB(~20kHz)로 구분할 수 있으며, 추가적으로 각 대역폭에 대하여 고정밀도를 갖도록 세부 대역폭을 정의할 수 있다. 예를 들어 SWB인 경우에는 10, 12, 14kHz 등으로 세부 대역폭을 정의할 수 있다.
부호화부(750)는 송신대역폭 결정부(730)에서 결정된 부호화 대역폭에 근거하여, 송신처리부(710)로부터 제공되는 신호의 부호화를 수행할 수 있다.
도 8은 도 7에 도시된 송신대역폭 결정부의 구성을 나타내는 블록도이다.
도 8에 도시된 송신대역폭 결정부는 대역폭 결정부(810)와 코덱 제어부(830)를 포함할 수 있다.
도 8을 참조하면, 대역폭 결정부(810)는 샘플링 주파수와 부호화 비트율에 근거하여 신호의 부호화 대역폭을 결정할 수 있다.
코덱 제어부(830)는 대역폭 결정부(810)에서 결정된 부호화 대역폭에 근거하여 코덱, 예를 들면 부호화부(도 7의 750)를 제어할 수 있다. 일실시예에 따르면, 코덱 제어부(830)는 코덱의 최대 대역폭을 정의하고, 대역폭 결정부(810)에서 결정된 부호화 대역폭에 근거하여 최대 대역폭을 제한할 수 있다. 채용되는 코덱이 EVS 코덱인 경우 MAX_BAND 스위치를 이용하여 최대 대역폭을 제한할 수 있다. 다른 실시예에 따르면, 코덱 제어부(830)는 코덱의 최대 대역폭과 최소 대역폭을 정의하고, 대역폭 결정부(810)에서 결정된 부호화 대역폭에 근거하여 원하는 대역으로 부호화 대역을 선택할 수 있다. 채용되는 코덱이 EVS 코덱인 경우 MIN_BAND 스위치를 추가하여 최소 대역폭을 제한할 수 있다. 일예를 들면, MAX_BAND는 SWB이고 MIN_BAND는 NB인 경우 EVS 코덱은 NB, WB, 그리고 SWB에 대해서만 부호화를 할 수 있다. 다른 예를 들면, MAX_BAND는 SWB이고 MIN_BAND 또한 SWB인 경우 EVS 코덱은 항상 SWB에 대해서만 부호화를 할 수 있다.
도 9는 다른 실시예에 따른 송신장치의 구성을 나타내는 블록도이다.
도 9에 도시된 장치는 송신처리부(910), 송신대역폭 결정부(930)와 부호화부(950)를 포함할 수 있다.
도 9를 참조하면, 송신처리부(910)는 도 7의 송신처리부(710)에서와 동일하거나 유사한 동작을 수행할 수 있다.
송신대역폭 결정부(930)는 단말간의 통화조건 교섭과정을 통하여 결정된 샘플링 주파수와 부호화 비트율에 근거하여, 송신처리부(910)로부터 제공되는 신호의 부호화 대역폭을 결정할 수 있다. 송신대역폭 결정부(930)는 결정된 부호화 대역폭과 샘플링 주파수에서 지원하는 최대 대역폭간의 비교결과에 따라서 전처리 수행 여부를 결정하고, 결정 결과에 대응하여 송신처리부(910)로부터 제공되는 신호를 처리하여 부호화부(950)로 제공할 수 있다.
부호화부(950)는 송신대역폭 결정부(930)에서 결정된 부호화 대역폭에 근거하여, 송신대역폭 결정부(930)로부터 제공되는 신호의 부호화를 수행할 수 있다.
도 10은 도 9에 도시된 송신대역폭 결정부의 구성을 나타내는 블록도이다.
도 10에 도시된 송신대역폭 결정부는 대역폭 결정부(1010), 전처리부(1030)와 코덱 제어부(1050)를 포함할 수 있다.
도 10을 참조하면, 대역폭 결정부(1010)는 샘플링 주파수와 부호화 비트율에 근거하여 신호의 부호화 대역폭을 결정할 수 있다.
전처리부(1030)는 대역폭 결정부(1030)에서 결정된 부호화 대역폭이 샘플링 주파수에서 지원하는 최대 대역폭과 동일한 경우, 송신처리부(910)로부터 제공되는 신호에 대하여 추가 처리없이 부호화부(950)로 제공할 수 있다. 한편, 전처리부(1030)는 송신대역폭 결정부(930)에서 결정된 부호화 대역폭이 샘플링 주파수에서 지원하는 최대 대역폭과 다른 경우, 송신처리부(910)로부터 제공되는 신호에 대하여 저역통과필터링 혹은 대역확장과 같은 전처리를 수행하여 부호화부(950)로 제공할 수 있다.
코덱 제어부(1050)는 대역폭 결정부(1010)에서 결정된 부호화 대역폭에 근거하여 코덱, 예를 들면 부호화부(도 9의 950)를 제어할 수 있다. 코덱 제어부(1050)는 코덱 제어부(도 8의 830)와 동일하거나 유사한 동작을 수행할 수 있다.
한편, 전처리부(1030)와 코덱 제어부(1050)는 하나의 모듈로 구현될 수 있는데, 이 경우 송신처리부(910)로부터 제공되는 신호에 대하여 전처리후, 최대 대역폭을 제한할 수 있다. 또한, 전처리부(1030)와 코덱 제어부(1050) 중 하나만 사용하거나, 동시에 동작시키는 것도 가능하다.
전처리부(1030)에서의 대역 확장 처리를 통하여 결정된 부호화 대역폭이 수신된 샘플링 주파수에서 지원하는 대역폭보다 낮은 주파수 대역에 대해서는 별도로 고주파 대역을 복원해 줄 수 있다.
한편, 전처리부(1030)에서 사용할 수 있는 저역통과 필터링처리는 수신된 샘플링 주파수에 따라 달라질 수 있다. 이를 정리하면 하기의 표 1과 같이 나타낼 수 있다.
샘플링 주파수 | 지원하는 대역폭 | 저역통과필터 |
16 kHz | NB, WB | 4 kHz(NB) LPF |
32 kHz | NB, WB, SWB | 4 kHz(NB), 8 kHz(WB) LPF9,10,11,12,13,14,15 kHz LPF |
48 kHz | NB, WB, SWB, FB | 4 kHz(NB), 8kHz(WB) LPF9,10,11,12,13,14,15,16,17,18,19 kHz LPF |
표 1을 참조하면, SWB와 FB에 대해서는 1 kHz 단위로 필터를 설계할 수 있다. 한편, 16 kHz의 샘플링 주파수를 사용하는 경우 WB를 지원하는 LPF는 필요없게 된다. 그리고 사용된 샘플링 주파수가 변경됨에 따라서 사용되는 필터도 변경될 필요가 있다. 이때, 유사한 응답(response)을 제공하기 위해 필터의 탭수나 계수의 조정이 필요할 수 있다.
도 11은 일실시예에 따른 도 10에 도시된 전처리부의 구성을 나타내는 블록도이다.
도 11에 도시된 전처리부(1030)는 연속 대역폭 탐색부(1110), 반응속도(reaction speed) 결정부(1130)와 스무딩부(1150)를 포함할 수 있다.
도 11을 참조하면, 연속 대역폭 탐색부(1110)에서는 동일한 대역을 갖는 연속된 프레임의 개수를 구할 수 있다.
반응속도 결정부(1130)에서는 결정된 대역에 대한 정보가 실제로 전처리부(1030)의 출력으로 사용되는 시기를 결정할 수 있다. 만일, 연속 대역폭 탐색부(1110)의 출력이 미리 정해진 임계치(threshold)를 넘어서면 대역폭 결정부(1010)에서 결정된 대역이 실제 전처리부(1013)의 출력으로 사용될 수 있다. 만약, 그렇지 않은 경우에는 스무딩부(1150)에서 스무딩 처리된 이후 출력되며, 이 출력이 전체 전처리부(1030)의 출력으로 사용될 수 있다.
스무딩부(1150)는 선택된 대역폭의 변화가 서서히 변화하도록 스무딩할 수 있다.
도 12는 일실시예에 따른 도 8 혹은 도 10에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 12에 도시된 대역폭 결정부는 매핑부(1210)와 대역폭 탐색 및 선택부(1230)를 포함할 수 있다.
도 12를 참조하면, 매핑부(1210)는 시간-주파수 매핑처리에 근거하여 시간 도메인의 신호를 주파수 도메인의 신호로 변환할 수 있다. 시간-주파수 매핑처리의 예로는 FFT(Fast Fourier Transform), CLDFB(Complex modulated Low Delay Filter Bank), DCT(Discrete Cosine Transform) 등을 들 수 있으나, 이에 한정되는 것은 아니다.
대역폭 탐색 및 선택부(1230)는 매핑부(1210)로부터 제공되는 주파수 도메인의 신호를 위한 최적 부호화 대역폭을 결정할 수 있다. 이를 위하여, 먼저 주파수 도메인의 신호를 미리 정의된 밴드 단위로 분리하고, 각 밴드의 에너지에 근거하여 최적 부호화 대역을 검출할 수 있다. 각 밴드의 에너지는 미리 정의된 임계값과 비교되고, 비교결과에 근거하여 최적 부호화 대역을 검출할 수 있다. 이때, 밴드의 크기는 부호화 대역폭 결정 처리의 정밀도 혹은 해상도에 따라 달라질 수 있다. 대역폭 탐색 및 선택부(1230)는 최적 부호화 대역의 검출 결과를 이용하여, 입력 신호에 대하여 원하는 부호화 대역폭을 선택하고, 대역폭 정보를 출력할 수 있다. 원하는 부호화 대역폭은 입력되는 부호화 대역폭과 샘플링 주파수뿐 아니라, 부호화 비트율을 더 고려하여 선택할 수 있다. 이를 정리하면 하기의 표 2와 같이 나타낼 수 있다.
Band-Width | SourceBandwidth(Hz) | SupportingSampling Frequency(kHz) | Bit-Rate (kbps) |
NB | 20 ~ 4,000 | 8/16/32/48 | 5.9, 7.2, 8, 9.6, 13.2, 16.4, 24.4 |
WB | 20 ~ 8,000 | 16/32/48 | 5.9, 7.2, 8, 9.6, 13.2, 16.4, 24.4, 32, 48, 64, 96, 128 |
SWB | 20 ~ 16,000 | 32/48 | 9.6, 13.2, 16.4, 24.4, 32, 48, 64, 96, 128 |
FB | 20 ~ 20,000 | 48 | 16.4, 24.4, 32, 48, 64, 96, 128 |
표 2를 참조하면, EVS 코덱의 경우 각 대역폭마다 부호화 비트율이 달라질 수 있다. 즉, 부호화 비트율을 고려하여 현재 비트율에서 지원되지 않는 대역폭이 선택되는 경우, 지원되는 상위 대역폭으로 변경될 수 있다.
또한, 대역폭 탐색 및 선택부(1230)는 선택된 부호화 대역폭에 대한 스무딩처리를 수행할 수 있다. 이는 부호화 대역폭의 급격한 변화 혹은 빈번한 변화로 인한 음질 저하를 최소화하기 위한 것이다. 스무딩처리를 위하여 이력(hysteresis), 이동평균(moving average), 혹은 행오버(hangover) 등을 사용할 수 있다.
도 13은 다른 실시예에 따른 도 8 혹은 도 10에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 13에 도시된 대역폭 결정부는 매핑부(1310), 신호분류부(1330)와 대역폭 탐색 및 선택부(1350)를 포함할 수 있다.
도 13을 참조하면, 매핑부(1310)는 도 12의 매핑부(1210)와 동일하거나 유사한 동작을 수행할 수 있다.
신호분류부(1330)는 매핑부(1310)로부터 제공되는 주파수 도메인의 신호에 대하여 신호분류 처리를 수행하여 해당 신호를 음성신호와 음악신호 중 하나로 분류할 수 있다.
대역폭 탐색 및 선택부(1350)는 신호분류부(1330)의 분류결과에 대응하여, 매핑부(1310)로부터 제공되는 주파수 도메인의 신호를 위한 최적 부호화 대역폭을 선택할 수 있다. 신호분류부(1330)의 분류결과에 따라서 서로 다른 임계값을 사용함으로써, 신호 특성을 고려하여 부호화 대역폭을 선택할 수 있다. 임계값을 제외하고, 대역폭 탐색 및 선택부(1350)는 도 12의 대역폭 탐색 및 선택부(1230)와 동일하거나 유사한 동작을 수행할 수 있다.
도 14는 일실시예에 따른 수신장치의 구성을 나타내는 블록도이다.
도 14에 도시된 장치는 복호화부(1410), 수신대역폭 결정부(1430)와 수신처리부(1450)를 포함할 수 있다.
도 14를 참조하면, 복호화부(1410)는 JBM(Jitter Buffer Management)부를 포함하며, 전송된 RTP 페이로드 패킷을 분석하여 최적의 재생지연(playout delay)을 결정할 수 있다. 복호화부(1410)는 결정된 재생지연에 따라서 RTP 페이로드 패킷에 대하여 소정 코덱을 이용하여 복호화를 수행할 수 있다. 한편, 패킷 네트워크를 사용하지 않는 경우, RTP 페이로드 패킷 대신 비트스트림이 입력으로 사용될 수 있다.
수신대역폭 결정부(1430)는 샘플링 주파수에 근거하여, 복호화부(1410)에서 복호화된 신호를 이용하여 최적 부호화 대역폭을 탐색하고, 탐색결과에 근거하여 부호화 대역폭을 결정할 수 있다. 수신대역폭 결정부(1430)에서 결정되는 부호화 대역폭에 근거하여 복호화된 신호의 음질을 향상시킬 수 있다. 샘플링 주파수 역시 단말간 통화조건 교섭과정을 통하여 결정될 수 있다.
수신처리부(1450)는 수신대역폭 결정부(1430)에서 결정된 부호화 대역폭에 근거하여, 복호화된 신호에 대하여 다양한 신호처리를 수행할 수 있다. 신호처리의 예로는 필터링 처리, 이득 제어 처리 등이 있으나 이에 한정되는 것은 아니다.
도 15는 도 14에 도시된 수신대역폭 결정부의 구성을 나타내는 블록도이다.
도 15에 도시된 수신대역폭 결정부는 대역폭 결정부(1510)와 후처리부(1530)를 포함할 수 있다.
도 15를 참조하면, 대역폭 결정부(1510)는 샘플링 주파수에 근거하여 신호의 부호화 대역폭을 결정할 수 있다.
후처리부(1530)는 대역폭 결정부(1510)에서 결정된 부호화 대역폭이 샘플링 주파수에서 지원하는 최대 대역폭과 동일한 경우, 복호화부(1410)에서 복호화된 신호에 대하여 추가 처리없이 수신처리부(1450)로 제공할 수 있다. 한편, 후처리부(1530)는 대역폭 결정부(1510)에서 결정된 부호화 대역폭이 샘플링 주파수에서 지원하는 최대 대역폭과 다른 경우, 복호화부(1410)에서 복호화된 신호에 대하여 저역통과필터링 혹은 대역확장과 같은 후처리를 수행하여 수신처리부(1450)로 제공할 수 있다. 대역확장 처리를 통하여, 결정된 최적 대역폭이 입력 샘플링 주파수에서 지원하는 대역폭보다 낮은 주파수 대역의 신호에 대해 고주파 대역을 복원해 줄 수 있다.
도 16은 일실시예에 따른 도 15에 도시된 후처리부의 구성을 나타내는 블록도이다.
도 16에 도시된 후처리부(1530)는 연속 대역폭 탐색부(1610), 반응속도(reaction speed) 결정부(1630), 스무딩부(1650)와 저역통과필터(1670)를 포함할 수 있다.
도 16을 참조하면, 연속 대역폭 탐색부(1610)와 반응속도 결정부(1630)는 도 11에 도시된 연속 대역폭 탐색부(1110)와 반응속도 결정부(1130)과 실질적으로 동일하다.
스무딩부(1650)는 선택된 대역폭의 변화를 전처리부(1030)에서와 달리 빠르게 변화하도록 한다.
필터링부(1670)는 적어도 하나 이상의 저역통과필터로 구성되어, 스무딩부(1650)의 출력에 대하여 저역통과필터링을 수행할 수 있다. 각 필터는 서로 다른 3dB 컷오프 주파수와 롤 다운 커브(roll-down curve)를 가질 수 있으며, 선택된 필터를 이용하여 저역통과필터링을 수행할 수 있다.
도 17은 일실시예에 따른 도 16에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 16에 도시된 대역폭 결정부(1700)는 매핑부(1710)와 대역폭 탐색 및 선택부(1730)를 포함할 수 있다.
도 17을 참조하면, 매핑부(1710)는 시간-주파수 매핑처리에 근거하여 시간 도메인의 신호를 주파수 도메인의 신호로 변환할 수 있다. 시간-주파수 매핑처리의 예로는 FFT(Fast Fourier Transform), CLDFB(Complex modulated Low Delay Filter Bank), DCT(Discrete Cosine Transform) 등을 들 수 있으나, 이에 한정되는 것은 아니다.
대역폭 탐색 및 선택부(1730)는 매핑부(1710)로부터 제공되는 주파수 도메인의 신호를 위한 최적 대역폭 정보를 생성할 수 있다. 이를 위하여, 복호화시 사용된 복호화 파라미터를 필요로 한다. 복호화 파라미터로는 복호화 대역폭, 복호화 샘플링 주파수, 복호화 비트율을 들 수 있다. 복호화 대역폭, 복호화 샘플링 주파수, 복호화 비트율은 단말간 통화조건 교섭과정을 통하여 정해질 수 있다. 대역폭 탐색 및 선택부(1730)는 복호화 파라미터에 근거하여, 매핑부(1710)로부터 제공되는 주파수 도메인의 신호를 위한 최적 대역폭을 선택할 수 있다. 최적 대역폭은 복호화 샘플링 주파수에서 지원하는 대역폭 이하에 대해서만 선택될 수 있다. 예를 들어, 복호화 샘플링 주파수가 48 kHz인 경우에는 NB, WB, SWB, 그리고 FB중에서 하나가 선택될 수 있으며, 복호화 샘플링 주파수가 32 kHz인 경우에는 NB, WB, 그리고 SWB 중에서 하나가 선택될 수 있다. 한편, 복호화 비트율에 따라서 최적 대역폭 탐색 여부를 결정할 수 있다. 소정 기준치보다 높은 비트율에서는 최적 대역폭 탐색 과정을 생략할 수 있으며, 낮은 비트율에서는 최적 대역폭 탐색 과정을 적용할 수 있다. 기준치의 예로는 13.2 kbps를 들 수 있다. 예를 들어, EVS 코덱의 입력 비트율이 13.2 kbps이하이면, 최적 대역폭 탐색 과정을 수행하며, 그 이외의 경우에는 최적 대역폭 탐색 과정을 생략할 수 있다. 또한, 복호화 샘플링 주파수는 SWB이지만 실제 복호화 대역폭이 NB인 경우에는 최적 대역폭 탐색 과정이 생략된다. 즉, 실제 복호화 대역폭이 NB보다 큰 경우 최적 대역폭 탐색 과정을 수행할 수 있다.
대역폭 탐색 및 선택부(1730)는 매핑부(1710)로부터 제공되는 주파수 도메인의 신호를 위한 최적 대역폭을 결정할 수 있다. 이를 위하여, 먼저 주파수 도메인의 신호를 미리 정의된 밴드 단위로 분리하고, 각 밴드의 에너지에 근거하여 최적 부호화 대역을 검출할 수 있다. 각 밴드의 에너지는 미리 정의된 임계값과 비교되고, 비교결과에 근거하여 최적 부호화 대역을 검출할 수 있다. 이때, 밴드의 크기는 최적 대역폭 결정 처리의 정밀도 혹은 해상도에 따라 달라질 수 있다. 한편, 현재 프레임과 이전 프레임간의 에너지 차이값에 근거하여 배경잡음과 액티브신호를 구분하고, 그 결과에 대응하여 임계값을 설정할 수 있다. 예를 들어, 에너지의 급격한 변화가 발생하는 경우에는 주요한 정보를 가지고 있는 액티브 신호로 구분하고, 액티브 신호를 고려하여 최적 대역폭을 탐색할 수 있다. 이에 따르면, 노이즈 환경에서 배경잡음과 액티브 신호에 대하여 적응적으로 최적 대역폭을 결정할 수 있다. 또한, 신호성분과 노이즈성분을 포함하는 입력신호에서 신호성분의 원하는 실제 대역폭을 선택할 수 있다.
또한, 대역폭 탐색 및 선택부(1730)는 선택된 대역폭에 대한 스무딩처리를 수행할 수 있다. 이는 선택된 대역폭의 급격한 변화 혹은 빈번한 변화로 인한 음질 저하를 최소화하기 위한 것이다. 스무딩처리를 위하여 이력(hysteresis), 이동평균(moving average), 혹은 행오버(hangover) 등을 사용할 수 있다.
도 18은 다른 실시예에 따른 도 16에 도시된 대역폭 결정부의 구성을 나타내는 블록도이다.
도 18에 도시된 대역폭 결정부(1800)는 매핑부(1810), 신호분류부(1830)와 대역폭 탐색 및 선택부(1850)를 포함할 수 있다.
도 18을 참조하면, 매핑부(1810)는 도 17의 매핑부(1710)와 동일하거나 유사한 동작을 수행할 수 있다.
신호분류부(1830)는 매핑부(1810)로부터 제공되는 주파수 도메인의 신호에 대하여 신호분류 처리를 수행하여 해당 신호를 음성신호와 음악신호 중 하나로 분류할 수 있다.
대역폭 탐색 및 선택부(1850)는 신호분류부(1830)의 분류결과에 대응하여, 매핑부(1610)로부터 제공되는 주파수 도메인의 신호를 위한 최적 대역폭을 선택할 수 있다. 신호분류부(1830)의 분류결과에 따라서 서로 다른 임계값을 사용함으로써, 신호 특성을 고려하여 최적 대역폭을 선택할 수 있다. 임계값을 제외하고, 대역폭 탐색 및 선택부(1850)는 도 17의 대역폭 탐색 및 선택부(1730)와 동일하거나 유사한 동작을 수행할 수 있다.
도 17은 도 10 및 도 11에 도시된 전처리부의 동작을 설명하는 흐름도이다.
도 17을 참조하면,1710 단계에서는 스피치 입력을 수신할 수 있다.
1730 단계에서는 대역폭을 검출할 수 있다. 일실시예에 따르면, 1730 단계는 프레이밍 및 윈도윙 블럭, FFT 블럭, 밴드에너지 분석 블럭, 액티브 프레임 판단 블럭 및 전처리 결정 블럭으로 구성될 수 있다. 이때, 프레이밍 및 윈도우윙 블럭에서 지원하는 샘플링 주파수와 입력신호에 대한 프레임 크기 등은 전술한 바와 실질적으로 동일하거나 유사한 것을 사용할 수 있다. FFT 블럭에서는 일예로서 256 포인트 real-value FFT를 사용할 수 있으며, 그 결과 128 포인트의 주파수 계수를 생성할 수 있다.
밴드 에너지 분석 블럭에서는 각 밴드의 에너지를 계산할 수 있다.
32 kHz의 샘플링 주파수 입력인 경우, 하기 표 3에서와 같이 밴드를 분할할 수 있다.
Band No. | Start | End |
1 | 1 | 63 |
2 | 64 | 71 |
3 | 72 | 79 |
4 | 80 | 87 |
5 | 88 | 95 |
6 | 96 | 103 |
7 | 104 | 111 |
8 | 112 | 119 |
9 | 120 | 128 |
48 kHz의 샘플링 주파수 입력인 경우, 하기 표 4에서와 같이 밴드를 분할할 수 있다.
Band No. | Start | End |
1 | 1 | 42 |
2 | 43 | 47 |
3 | 48 | 53 |
4 | 54 | 58 |
5 | 59 | 63 |
6 | 64 | 69 |
7 | 70 | 74 |
8 | 75 | 79 |
9 | 80 | 85 |
10 | 86 | 90 |
11 | 91 | 95 |
12 | 96 | 100 |
13 | 101 | 106 |
14 | 107 | 111 |
15 | 112 | 116 |
16 | 117 | 121 |
17 | 122 | 128 |
밴드 에너지 분석 블럭에서는 각 밴드의 에너지를 합산함으로써, 밴드 에너지를 구할 수 있다.
액티브 프레임 판단블럭에서는 현재 프레임이 액티브 프레임(active frame)인지 아닌지 확인할 수 있다. 이는 전술한 신호 분류과정을 통하여 수행될 수 있다. 액티브 프레임인 경우, 전처리 결정(Pre-process Decision) 과정을 수행할 수 있다.
전처리 결정 블럭에서는 전체 신호 에너지 즉, 전체 밴드 에너지의 합을 미리 정해진 신호 임계치와 비교하고, 전체 신호 에너지가 임계치보다 적은 경우에는 해당 밴드를 최소 대역폭으로 설정할 수 있다. 신호 임계치의 예로는 400,000을 사용할 수 있으나, 이에 한정되는 것은 아니다. 만일 전체 신호 에너지가 신호 임계치보다 큰 경우에는 각 밴드 에너지를 서브프레임(n)과 밴드(k)를 이용하여 Energyn,k 와 같이 표현한다. 이 값을 이용하여 하기 수학식 1에서와 같이 로그비(log ratio)인 Speechn,k 를 구할 수 있다.
최대 밴드 에너지 증가를 UP라고 정의하고, 최대 밴드 에너지 감소를 DOWN이라고 정의하고, 하기 수학식 2에서와 같이 스무딩된 로그 에너지 En,k 를 구할 수 있다.
전처리 결정 블럭에서 검출 임계치는 일예에 따르면 -30 ~ -36 dB 사이에서 튜닝될 수 있다. 도 20에 도시된 후처리부에서는 후처리 결정 블럭으로 적용하며 이때 일예에 따르면 검출 임계치는 -38 ~ -44 dB 사이에서 튜닝될 수 있다.
만일 스무딩된 로그 에너지 En,k 가 검출 임계치보다 큰 경우에는 그 밴드를 스피치 밴드로 판단하며, 전처리 결정 출력은 가장 높은 주파수의 스피치 밴드가 된다.
1950 단계에서는 1930 단계의 출력에 대하여 스무딩 처리를 수행할 수 있다.
1950 단계는 대역폭 변동 판단 블럭, 임계치 비교 블럭, 스무딩 블럭을 포함할 수 있다.
만일 1930 단계의 전처리 결정 블럭의 출력이 연속적으로 5 프레임 이상 동일한 경우 대역폭 검출 결과인 Bn은 하기와 같이 결정될 수 있다.
Bn = En,k
한편, 그렇지 않은 경우에는 대역폭 검출 결과인 Bn은 하기와 같이 스무딩 처리에 의해 결정될 수 있다.
Bn = α×Dn + (1-α)×Bn-1
여기서, α는 전처리부에서는 0.05, 후처리부에서는 0.95를 사용할 수 있으나, 이에 제한되는 것은 아니다.
도 20은 도 15 및 도 16에 도시된 후처리부의 동작을 설명하는 흐름도이다.
도 20에 있어서 2010 단계, 2030 단계와 2050 단계는 도 19의 1910 단계, 1930 단계와 1950 단계와 대부분 실질적으로 동일한 방식을 사용하고, 임계치와 같은 값에서 차이가 있다. 도 20에서 추가된 부분은 2070 단계로서 저역통과 필터링을 수행할 수 있다.
2070 단계는 필터 선택 블럭, 필터링 블럭 및 불연속 제거 블럭을 포함할 수 있다. 2070 단계에서는 대역폭 검출 결과에 따라서 선정된 대역보다 고주파에 해당하는 신호를 제거하기 위해서 저역통과 필터링을 수행할 수 있다. 이를 위하여 적어도 하나 이상의 저역통과필터를 사용할 수 있으며, 각 필터는 대역폭 결정 결과에 해당하는 컷오프 주파수를 가질 수 있다. 일예에 따르면, 도 21 내지 도 23에 도시된 3가지의 필터 중 적어도 하나를 선택하여 사용할 수 있다.
도 21에 도시된 저역통과필터는 amplitude response gain이 단조로이 감소하며, gain은 Nyquistcut 주파수에서 마이너스 무한대로 수렴한다. 도 22에 도시된 저역통과필터는 Amplitude response gain은 동일한 roll down 곡선을 가지며, 서로 다른 cut off 주파수를 갖는다. 도 23에 도시된 저역통과필터는 Amplitude response gain은 서로 다른 roll down 커브를 갖는다.
불연속 제거 블럭에서는 필터링 이후 존재하는 불연속을 제거할 수 있다. n-1 프레임의 대역폭 결정 결과를 Wn-1, n 프레임의 대역폭 결정 결과를 Wn이라고 한다. 또한 상수 M을 정의하며, 여기서 M값은 0<M<subframe length/16 의 범위에 존재할 수 있으나, 이에 한정되는 것은 아니다. 만일 Wn-1 < Wn 인 경우에는, 프레임 n의 처음 M 개의 샘플은 Wn-1과 Wn-1+1 각각에 해당하는 필터에 의해 필터링된다. 만일 Wn-1>Wn인 경우에는, 프레임 n의 처음 M 개의 샘플은 Wn-1과 Wn-1-1 각각에 해당하는 필터에 의해 필터링된다. 필터링된 결과를 각각 T1[M]과 T2[M]이라고 하면 출력신호 O[M]는 하기 수학시 3과 같이 계산될 수 있다.
여기서, 0≤m<M이다.
만일 Wn-1<Wn인 경우에는, Wn-1을 증가시키고 다음 M 샘플에 대해 동일한 과정을 Wn-1+1=Wn이 될 때까지 반복한다. 만일 Wn-1>Wn인 경우에는, Wn-1을 감소시키고 다음 M 샘플에 대해 동일한 과정을 Wn-1-1=Wn이 될 때까지 반복한다.
한편, 상기한 실시예들은 멀티미디어 기기(미도시)에 내장될 수 있다. 멀티미디어 기기는 적어도 하나의 안테나를 포함하는 통신부(미도시), 부호화모듈(미도시)과 복호화모듈(미도시)을 포함할 수 있다. 또한, 부호화 결과 얻어지는 오디오 비트스트림 혹은 복호화 결과 얻어지는 복원된 오디오신호의 용도에 따라서, 오디오 비트스트림 혹은 복원된 오디오신호를 저장하는 저장부(미도시)을 더 포함할 수 있다. 또한, 멀티미디어 기기는 마이크로폰 혹은 스피커를 더 포함할 수 있다. 여기서, 부호화모듈과 복호화모듈은 멀티미디어 기기에 구비되는 다른 구성요소와 함께 일체화되어 적어도 하나 이상의 프로세서로 구현될 수 있다.
통신부는 외부로부터 제공되는 오디오와 부호화된 비트스트림 중 적어도 하나를 수신하거나, 복원된 오디오와 부호화모듈의 부호화결과 얻어지는 오디오 비트스트림 중 적어도 하나를 송신할 수 있다.
부호화모듈은 다양한 코덱을 내장하여 오디오 혹은 스피치 신호에 대한 부호화를 수행하여 비트스트림 혹은 패킷을 생성할 수 있다. 부호화모듈은 오디오 혹은 스피치 신호에 대한 부호화를 수행함에 있어서 전술한 실시예에 따른 신호처리를 적용할 수 있다. 신호처리는 일실시예에 따르면, 입력신호의 부호화를 위한 복수의 파라미터에 근거하여 유효 대역폭을 결정하고, 결정된 유효 대역폭에 근거하여 상기 입력신호에 대하여 전처리를 수행하고, 결정된 유효 대역폭에 대응하여, 상기 전처리된 입력신호를 부호화할 수 있다.
복호화모듈은 부호화모듈에 대응되거나 독립적으로 구현될 수 있다. 복호화모듈은 통신부를 통하여 제공되는 패킷 혹은 비트스트림을 수신하고, 복호화를 수행함에 있어서 전술한 실시예에 따른 신호처리를 적용할 수 있다. 신호처리는 일실시예에 따르면, 전송채널을 통하여 수신되는 비트스트림 혹은 패킷을 복호화하고, 복호화에 사용된 복수의 파라미터에 근거하여 유효 대역폭을 결정하고, 결정된 유효 대역폭에 근거하여 상기 복호화된 신호에 대하여 후처리를 수행할 수 있다.
저장부는 멀티미디어 기기의 운용에 필요한 다양한 프로그램을 저장할 수 있다. 마이크로폰은 사용자 혹은 외부의 오디오신호를 부호화모듈로 제공할 수 있다.
멀티미디어 기기에는, 전화, 모바일 폰 등을 포함하는 음성통신 전용단말, TV, MP3 플레이어 등을 포함하는 방송 혹은 음악 전용장치, 혹은 음성통신 전용단말과 방송 혹은 음악 전용장치의 융합 단말장치, 텔레컨퍼런싱 혹은 인터랙션 시스템의 사용자 단말이 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 멀티미디어 기기는 클라이언트, 서버 혹은 클라이언트와 서버 사이에 배치되는 변환기로서 사용될 수 있다.
한편, 멀티미디어 기기가 예를 들어 모바일 폰인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 유저 인터페이스 혹은 모바일 폰에서 처리되는 정보를 디스플레이하는 디스플레이부, 모바일 폰의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, 모바일 폰은 촬상 기능을 갖는 카메라부와 모바일 폰에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함할 수 있다.
한편, 멀티미디어 기기가 예를 들어 TV인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 수신된 방송정보를 디스플레이하는 디스플레이부, TV의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, TV는 TV에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함할 수 있다.
상기 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예들에서 사용될 수 있는 데이터 구조, 프로그램 명령, 혹은 데이터 파일은 컴퓨터로 읽을 수 있는 기록매체에 다양한 수단을 통하여 기록될 수 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함할 수 있다. 컴퓨터로 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 또한, 컴퓨터로 읽을 수 있는 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 전송 매체일 수도 있다. 프로그램 명령의 예로는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상과 같이 본 발명의 일실시예는 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 일실시예는 상기 설명된 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 스코프는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 이의 균등 또는 등가적 변형 모두는 본 발명 기술적 사상의 범주에 속한다고 할 것이다.
Claims (15)
- 입력신호의 부호화를 위한 복수의 파라미터에 근거하여 유효 대역폭을 결정하는 단계;
상기 결정된 유효 대역폭에 근거하여 상기 입력신호에 대하여 전처리를 수행하는 단계; 및
상기 결정된 유효 대역폭에 대응하여, 상기 전처리된 입력신호를 부호화하는 단계를 포함하는 신호 처리방법. - 제1 항에 있어서, 상기 복수의 파라미터는 단말간 통화조건 교섭과정을 통하여 결정되는 비트율, 샘플링 주파수와 대역폭 중 적어도 하나를 포함하는 신호 처리방법.
- 제1 항에 있어서, 상기 방법은 상기 부호화결과 생성되는 비트스트림을 소정 포맷의 패킷으로 생성하는 단계를 더 포함하는 신호 처리방법.
- 제1 항에 있어서, 상기 유효 대역폭을 결정하는 단계는
상기 입력신호를 주파수 도메인의 신호로 변환하는 단계;
상기 주파수 도메인의 신호를 분류하는 단계; 및
상기 분류 결과에 따라서 설정되는 임계값에 근거하여, 상기 입력신호의 유효 대역폭을 탐색 및 선택하는 단계를 포함하는 신호 처리방법. - 제1 항에 있어서, 상기 유효 대역폭을 결정하는 단계는
상기 입력신호를 주파수 도메인의 신호로 변환하는 단계;
상기 주파수 도메인의 신호로부터 노이즈 성분을 제거하는 단계; 및
상기 노이즈 성분이 제거되어 남은 액티브 신호에 대하여 유효 대역폭을 탐색 및 선택하는 단계를 포함하는 신호 처리방법. - 제1 항에 있어서, 상기 부호화하는 단계는 상기 결정된 유효 대역폭에 따라서, 최대 대역과 최소 대역 중 적어도 하나를 제한하여 부호화를 수행하는 신호 처리방법.
- 제1 항에 있어서, 상기 전처리를 수행하는 단계는 저역통과필터링 처리 및 대역확장처리 중 적어도 하나를 수행하는 신호처리방법.
- 입력신호의 부호화를 위한 복수의 파라미터에 근거하여 유효 대역폭을 결정하고, 상기 결정된 유효 대역폭에 근거하여 상기 입력신호에 대하여 전처리를 수행하고, 상기 결정된 유효 대역폭에 대응하여, 상기 전처리된 입력신호를 부호화하여 비트스트림을 생성하는 프로세서; 및
상기 프로세서로부터 제공되는 비트스트림을 송신하는 통신부를 포함하는 신호 송신장치. - 제8 항에 있어서, 상기 프로세서는 상기 결정된 유효 대역폭에 대응하여 최대 대역 및 최소 대역 중 적어도 하나를 제한하여, 상기 전처리된 입력신호를 부호화하는 신호 송신장치.
- 전송채널을 통하여 수신되는 비트스트림 혹은 패킷을 복호화하는 단계;
복호화에 사용된 복수의 파라미터에 근거하여 유효 대역폭을 결정하는 단계; 및
상기 결정된 유효 대역폭에 근거하여 상기 복호화된 신호에 대하여 후처리를 수행하는 단계를 포함하는 신호 처리방법. - 제10 항에 있어서, 상기 복수의 파라미터는 단말간 통화조건 교섭과정을 통하여 결정되는 비트율, 샘플링 주파수와 대역폭 중 적어도 하나를 포함하는 신호 처리방법.
- 제10 항에 있어서, 상기 유효 대역폭을 결정하는 단계는
상기 복호화된 신호를 주파수 도메인의 신호로 변환하는 단계;
상기 주파수 도메인의 신호를 분류하는 단계; 및
상기 분류 결과에 따라서 설정되는 임계값에 근거하여, 상기 복호화된 신호의 유효 대역폭을 탐색 및 선택하는 단계를 포함하는 신호 처리방법. - 제10 항에 있어서, 상기 유효 대역폭을 결정하는 단계는
상기 복호화된 신호를 주파수 도메인의 신호로 변환하는 단계;
상기 주파수 도메인의 신호로부터 노이즈 성분을 제거하는 단계; 및
상기 노이즈 성분이 제거되어 남은 액티브 신호에 대하여 유효 대역폭을 탐색 및 선택하는 단계를 포함하는 신호 처리방법. - 제10 항에 있어서, 상기 후처리를 수행하는 단계는 저역통과필터링 처리 및 대역확장처리 중 적어도 하나를 수행하는 신호처리방법.
- 전송채널을 통하여 비트스트림 혹은 패킷을 수신하는 통신부; 및
상기 비트스트림 혹은 패킷을 복호화하고, 복호화에 사용된 복수의 파라미터에 근거하여 유효 대역폭을 결정하고, 상기 결정된 유효 대역폭에 근거하여 상기 복호화된 신호에 대하여 후처리를 수행하는 프로세서를 포함하는 신호 수신장치.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150125874 | 2015-09-04 | ||
KR20150125874 | 2015-09-04 | ||
PCT/KR2016/009935 WO2017039422A2 (ko) | 2015-09-04 | 2016-09-05 | 음질 향상을 위한 신호 처리방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20180040716A true KR20180040716A (ko) | 2018-04-20 |
Family
ID=58188139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020187009607A KR20180040716A (ko) | 2015-09-04 | 2016-09-05 | 음질 향상을 위한 신호 처리방법 및 장치 |
Country Status (4)
Country | Link |
---|---|
US (2) | US10803877B2 (ko) |
EP (1) | EP3343558A2 (ko) |
KR (1) | KR20180040716A (ko) |
WO (1) | WO2017039422A2 (ko) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483882A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
US11601483B2 (en) * | 2018-02-14 | 2023-03-07 | Genband Us Llc | System, methods, and computer program products for selecting codec parameters |
CN111429925B (zh) * | 2020-04-10 | 2023-04-07 | 北京百瑞互联技术有限公司 | 一种降低音频编码速率的方法及系统 |
NL2032278B1 (en) | 2022-06-24 | 2024-01-09 | Classified Cycling Bv | Hub assembly for a bicycle |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3061039B2 (ja) | 1998-10-20 | 2000-07-10 | 日本電気株式会社 | 無音圧縮符号復号化方法及びその装置 |
KR100746050B1 (ko) | 2006-06-09 | 2007-08-06 | 에스케이 텔레콤주식회사 | 오디오 코덱의 프레임 구성 방법 |
KR20080066538A (ko) | 2007-01-12 | 2008-07-16 | 엘지전자 주식회사 | 멀티 채널 신호의 부호화/복호화 방법 및 장치 |
MX2011000370A (es) * | 2008-07-11 | 2011-03-15 | Fraunhofer Ges Forschung | Un aparato y un metodo para decodificar una señal de audio codificada. |
US8463412B2 (en) | 2008-08-21 | 2013-06-11 | Motorola Mobility Llc | Method and apparatus to facilitate determining signal bounding frequencies |
US9070361B2 (en) | 2011-06-10 | 2015-06-30 | Google Technology Holdings LLC | Method and apparatus for encoding a wideband speech signal utilizing downmixing of a highband component |
US8666753B2 (en) | 2011-12-12 | 2014-03-04 | Motorola Mobility Llc | Apparatus and method for audio encoding |
US9426569B2 (en) | 2013-06-13 | 2016-08-23 | Blackberry Limited | Audio signal bandwidth to codec bandwidth analysis and response |
-
2016
- 2016-09-05 KR KR1020187009607A patent/KR20180040716A/ko not_active Application Discontinuation
- 2016-09-05 US US15/757,547 patent/US10803877B2/en active Active
- 2016-09-05 WO PCT/KR2016/009935 patent/WO2017039422A2/ko active Application Filing
- 2016-09-05 EP EP16842388.7A patent/EP3343558A2/en not_active Ceased
-
2020
- 2020-09-29 US US17/037,128 patent/US11380338B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2017039422A3 (ko) | 2017-04-20 |
US20190027156A1 (en) | 2019-01-24 |
US20210012786A1 (en) | 2021-01-14 |
WO2017039422A2 (ko) | 2017-03-09 |
EP3343558A4 (en) | 2018-07-04 |
US11380338B2 (en) | 2022-07-05 |
US10803877B2 (en) | 2020-10-13 |
EP3343558A2 (en) | 2018-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11380338B2 (en) | Signal processing methods and apparatuses for enhancing sound quality | |
US10186276B2 (en) | Adaptive noise suppression for super wideband music | |
EP3692524B1 (en) | Multi-stream audio coding | |
US10885921B2 (en) | Multi-stream audio coding | |
US8311817B2 (en) | Systems and methods for enhancing voice quality in mobile device | |
EP3457402B1 (en) | Noise-adaptive voice signal processing method and terminal device employing said method | |
EP3742439B1 (en) | Temporal offset estimation | |
US10762912B2 (en) | Estimating noise in an audio signal in the LOG2-domain | |
US10529352B2 (en) | Audio signal processing | |
KR20170082901A (ko) | 재생 지연 조절 방법 및 이를 적용한 전자 장치 | |
EP3762923A1 (en) | Audio coding | |
EP3682446B1 (en) | Temporal offset estimation | |
KR102457290B1 (ko) | 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치 | |
US10242683B2 (en) | Optimized mixing of audio streams encoded by sub-band encoding | |
JP2013537325A (ja) | ピッチサイクルエネルギーを判断し、励起信号をスケーリングすること | |
WO2022192217A1 (en) | Audio codec with adaptive gain control of downmixed signals | |
WO2024076829A1 (en) | A method, apparatus, and medium for encoding and decoding of audio bitstreams and associated echo-reference signals | |
WO2024074284A1 (en) | Method, apparatus, and medium for efficient encoding and decoding of audio bitstreams | |
WO2024074285A1 (en) | Method, apparatus, and medium for encoding and decoding of audio bitstreams with flexible block-based syntax | |
WO2024076830A1 (en) | Method, apparatus, and medium for encoding and decoding of audio bitstreams and associated return channel information | |
WO2024074282A1 (en) | Method, apparatus, and medium for encoding and decoding of audio bitstreams | |
WO2024074283A1 (en) | Method, apparatus, and medium for decoding of audio signals with skippable blocks | |
WO2024076828A1 (en) | Method, apparatus, and medium for encoding and decoding of audio bitstreams with parametric flexible rendering configuration data | |
JP2010160496A (ja) | 信号処理装置および信号処理方法 | |
JP2010158044A (ja) | 信号処理装置および信号処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |