KR102331279B1 - 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 - Google Patents
부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 Download PDFInfo
- Publication number
- KR102331279B1 KR102331279B1 KR1020157012623A KR20157012623A KR102331279B1 KR 102331279 B1 KR102331279 B1 KR 102331279B1 KR 1020157012623 A KR1020157012623 A KR 1020157012623A KR 20157012623 A KR20157012623 A KR 20157012623A KR 102331279 B1 KR102331279 B1 KR 102331279B1
- Authority
- KR
- South Korea
- Prior art keywords
- encoding mode
- mode
- initial
- encoding
- gsc
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000005236 sound signal Effects 0.000 claims abstract description 41
- 230000004044 response Effects 0.000 claims abstract description 7
- 238000012986 modification Methods 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 8
- 206010019133 Hangover Diseases 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 4
- 230000005284 excitation Effects 0.000 description 75
- 230000003595 spectral effect Effects 0.000 description 41
- 238000012545 processing Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 17
- 238000007781 pre-processing Methods 0.000 description 10
- 239000000203 mixture Substances 0.000 description 9
- 238000004088 simulation Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 7
- 230000007774 longterm Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
부호화 모드 결정방법은 오디오 신호의 특성에 대응하여 제1 부호화모드와 제2 부호화모드를 포함하는 복수의 부호화모드 중 하나를 현재 프레임의 초기 부호화 모드로 결정하는 단계; 및 상기 초기 부호화모드에 대한 결정에 오류가 존재하는 경우 상기 초기 부호화모드를 제3 부호화모드로 수정하여 수정된 부호화 모드를 생성하는 단계를 포함한다.
Description
본 발명은 오디오 부호화 및 복호화에 관한 것으로서, 좀 더 구체적으로는 오디오신호의 특성에 적합하도록 부호화 모드를 결정하면서 빈번한 부호화 모드 스위칭을 방지하여 복원음질을 향상시킬 수 있는 부호화 모드 결정방법 및 장치, 신호 부호화방법 및 장치와, 신호 복호화방법 및 장치에 관한 것이다.
음악신호의 경우 주파수 도메인에서의 부호화가 효율적이고, 음성신호의 경우 시간 도메인에서의 부호화가 효율적임이 널리 알려져 있다. 따라서, 음악신호와 음성신호가 혼합된 오디오 신호에 대하여 타입을 분류하고, 분류된 타입에 대응하여 부호화 모드를 결정하는 기술이 다양하게 제안되어 있다.
그러나, 빈번한 부호화 모드의 스위칭으로 인하여 딜레이가 발생할 뿐 아니라 복원음질의 열화를 초래하고, 일차적으로 결정된 부호화 모드를 수정하는 기술이 제안되어 있지 않아, 부호화 모드 결정시 오류가 존재하는 경우 복원음질의 열화가 발생되는 문제가 있었다.
본 발명의 기술적 과제는 오디오신호의 특성에 적합하도록 부호화 모드를 결정하여 복원음질을 향상시킬 수 있는 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치를 제공하는데 있다.
본 발명의 기술적 과제는 오디오신호의 특성에 적합하도록 부호화 모드를 결정하면서 부호화 모드 스위칭으로 인한 딜레이를 줄일 수 있는 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치를 제공하는데 있다.
일측면에 따르면, 부호화 모드 결정방법은 오디오 신호의 특성에 대응하여 제1 부호화모드와 제2 부호화모드를 포함하는 복수의 부호화모드 중 하나를 현재 프레임의 초기 부호화 모드로 결정하는 단계; 및 상기 초기 부호화모드에 대한 결정에 오류가 존재하는 경우 상기 초기 부호화모드를 제3 부호화모드로 수정하여 수정된 부호화 모드를 생성하는 단계를 포함할 수 있다.
일측면에 따르면 오디오 부호화방법은 오디오 신호의 특성에 대응하여 제1 부호화모드와 제2 부호화모드를 포함하는 복수의 부호화모드 중 하나를 현재 프레임의 초기 부호화 모드로 결정하고, 상기 초기 부호화모드에 대한 결정에 오류가 존재하는 경우 상기 초기 부호화모드를 제3 부호화모드로 수정하여 수정된 부호화 모드를 생성하는 단계; 및 상기 초기 부호화모드 혹은 수정된 부호화모드에 대응하여 오디오신호에 대하여 서로 다른 부호화처리를 수행하는 단계를 포함할 수 있다.
일측면에 따르면 오디오 복호화방법은 오디오 신호의 특성에 대응하여 제1 부호화모드와 제2 부호화모드를 포함하는 복수의 부호화모드 중 하나로 결정된 초기 부호화 모드 혹은 상기 초기 부호화모드에 대한 결정에 오류가 존재하는 경우 상기 초기 부호화모드로부터 수정된 제3 부호화모드 중 하나를 부호화모드로 포함하는 비트스트림을 파싱하는 단계; 및 상기 부호화 모드에 따라서 비트스트림에 대하여 서로 다른 복호화처리를 수행하는 단계를 포함할 수 있다.
초기 부호화모드의 수정 및 행오버 길이에 대응되는 프레임들의 부호화모드를 참조하여, 현재 프레임의 최종 부호화모드를 결정함으로써, 오디오 신호의 특성에 적응적인 부호화 모드를 결정하면서도 프레임간 빈번한 부호화 모드의 스위칭을 방지할 수 있다.
도 1은 일실시예에 따른 오디오 부호화장치의 구성을 나타낸 블록도이다.
도 2는 다른 실시예에 따른 오디오 부호화장치의 구성을 나타낸 블록도이다.
도 3은 일실시예에 따른 부호화 모드 결정부의 구성을 나타낸 블록도이다.
도 4는 일실시예에 따른 초기 부호화 모드 결정부의 구성을 나타낸 블록도이다.
도 5는 일실시예에 따른 특징 파라미터 추출부의 구성을 나타낸 블록도이다.
도 6은 일실시예에 따른 선형예측도메인 도메인 및 스펙트럼 도메인 부호화에 대한 적응적 스위칭 방법을 설명하는 도면이다.
도 7은 일실시예에 따른 부호화모드 수정부의 동작을 설명하는 도면이다.
도 8은 일실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다.
도 9는 다른 실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다.
도 2는 다른 실시예에 따른 오디오 부호화장치의 구성을 나타낸 블록도이다.
도 3은 일실시예에 따른 부호화 모드 결정부의 구성을 나타낸 블록도이다.
도 4는 일실시예에 따른 초기 부호화 모드 결정부의 구성을 나타낸 블록도이다.
도 5는 일실시예에 따른 특징 파라미터 추출부의 구성을 나타낸 블록도이다.
도 6은 일실시예에 따른 선형예측도메인 도메인 및 스펙트럼 도메인 부호화에 대한 적응적 스위칭 방법을 설명하는 도면이다.
도 7은 일실시예에 따른 부호화모드 수정부의 동작을 설명하는 도면이다.
도 8은 일실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다.
도 9는 다른 실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다.
이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 구체적으로 설명하기로 한다. 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하기로 한다.
어떤 구성요소가 다른 구성요소에 연결되어 있다거나 접속되어 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 수 있다.
실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성 단위로 이루어짐을 의미하지 않는다. 각 구성부는 설명의 편의상 각각의 구성부로 나열한 것으로, 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수개의 구성부로 나뉘어져 기능을 수행할 수 있다.
도 1은 일실시예에 따른 오디오 부호화장치의 구성을 나타낸 블록도이다.
도 1에 도시된 오디오 부호화장치(100)는 부호화모드 결정부(110), 스위칭부(120), 스펙트럼 도메인 부호화부(130), 선형예측도메인 부호화부(140) 및 비트스트림 생성부(150)를 포함할 수 있다. 여기서, 선형예측도메인 부호화부(140)는 시간 도메인 여기 부호화부(141)과 주파수 도메인 여기 부호화부(143)을 포함할 수 있으며, 두개의 여기 부호화부(141,143) 중 적어도 하나로 구현될 수 있다. 여기서, 각 구성요소는 별도의 하드웨어로 구현되어야 할 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다. 여기서, 오디오는 음악 혹은 음성, 혹은 음악과 음성의 혼합신호를 의미할 수 있다.
도 1을 참조하면, 부호화모드 결정부(110)는 오디오신호의 특성을 분석하여 오디오 신호의 타입을 분류하고, 분류결과에 대응하여 부호화모드를 결정할 수 있다. 부호화모드는 슈퍼프레임 단위, 프레임 단위, 혹은 밴드 단위로 수행될 수 있다. 또는, 복수의 슈퍼프레임 그룹, 복수의 프레임 그룹, 복수의 밴드 그룹 단위로 수행될 수 있다. 여기서, 부호화모드의 예로는 크게 스펙트럼 도메인과 시간도메인 혹은 선형예측도메인 두가지가 있을 수 있으나, 이에 한정되는 것은 아니다. 프로세서의 성능 및 처리속도 등이 지원되고, 부호화모드 스위칭에 따른 딜레이가 해결될 수 있는 경우, 부호화모드를 좀 더 세분화시킬 수 있으며, 부호화모드에 대응하여 부호화방식도 세분화시킬 수 있다. 실시예에 따르면, 오디오신호를 스펙트럼 도메인 부호화모드와 시간도메인 부호화모드 중 하나로 초기 부호화모드를 결정할 수 있다. 다른 실시예에 따르면, 오디오신호를 스펙트럼 도메인 부호화모드, 시간도메인 여기 부호화모드와 주파수 도메인 여기 부호화모드 중 하나로 초기 부호화모드를 결정할 수 있다. 또한, 부호화모드 결정부(110)는 초기 부호화모드가 스펙트럼 도메인 부호화모드로 결정된 경우 재차 스펙트럼 도메인 부호화모드와 주파수도메인 여기 부호화모드 중 하나로 수정할 수 있다. 부호화모드 결정부(110)는 초기 부호화모드가 시간도메인 부호화모드 즉, 시간 도메인 여기 부호화모드로 결정된 경우 재차 시간도메인(TD) 여기 부호화모드와 주파수도메인(FD) 여기 부호화모드 중 하나로 수정할 수 있다. 여기서, 초기 부호화모드가 시간 도메인 여기 부호화모드로 결정된 경우 최종 부호화모드 결정과정은 선택적으로 수행될 수 있다. 즉, 시간 도메인 여기 부호화모드인 초기 부호화모드가 그대로 유지될 수 있다. 부호화모드 결정부(110)는 행오버 길이에 해당하는 프레임 수에 대하여 부호화 모드를 판단하여 현재 프레임의 최종 부호화 모드를 결정할 수 있다. 일실시예에 따르면, 현재 프레임의 초기 부호화 모드 혹은 수정된 부호화 모드가 복수개, 예를 들면 7개의 이전 프레임의 부호화 모드와 동일한 경우, 해당 초기 부호화 모드 혹은 수정된 부호화 모드를 현재 프레임의 최종 부호화 모드로 결정할 수 있다. 한편, 부호화모드 결정부(110)는 현재 프레임의 초기 부호화 모드 혹은 수정된 부호화 모드가 복수개의 이전 프레임의 부호화 모드와 동일하지 않은 경우, 바로 이전 프레임의 부호화모드를 현재 프레임의 최종 부호화 모드로 결정할 수 있다.
상기한 바와 같이 초기 부호화모드의 수정 및 행오버 길이에 대응되는 프레임들의 부호화모드를 참조하여, 현재 프레임의 최종 부호화모드를 결정함으로써, 오디오 신호의 특성에 적응적인 부호화 모드를 결정하면서도 프레임간 빈번한 부호화 모드의 스위칭을 방지할 수 있다.
일반적으로, 음성신호로 분류된 경우 시간 도메인 부호화 즉, 시간 도메인 여기 부호화, 음악신호로 분류된 경우 스펙트럼 도메인 부호화, 보컬 및/또는 하모닉 신호로 분류된 경우 주파수 도메인 여기 부호화가 효율적일 수 있다.
스위칭부(120)는 부호화모드 결정부(110)에서 결정되는 부호화모드에 대응하여, 오디오신호를 스펙트럼 도메인 부호화부(130)와 선형예측도메인 부호화부(140) 중 하나로 제공할 수 있다. 선형예측도메인 부호화부(140)이 시간 도메인 여기 부호화부(141)로 구현하는 경우에는 스위칭부(120)는 전체 2개의 브랜치, 시간 도메인 여기 부호화부(141)과 주파수 도메인 여기 부호화부(143)으로 구현되는 경우에는 스위칭부(120)는 전체 3가지의 브랜치가 존재할 수 있다.
스펙트럼 도메인 부호화부(130)는 오디오 신호를 스펙트럼 도메인에서 부호화할 수 있다. 스펙트럼 도메인은 주파수 도메인 혹은 변환 도메인을 의미할 수 있다. 스펙트럼 도메인 부호화부(130)에 적용될 수 있는 부호화방식으로는 AAC(Advanced Audio Coding) 방식 혹은 MDCT(Modified Discrete Cosine Transform)와 FPC(Factorial Pulse Coding) 결합 방식을 예로 들 수 있으나 이에 한정되는 것은 아니다. 구체적으로, FPC 대신 다른 양자화 및 엔트로피 부호화방식을 사용할 수 있다. 음악 신호의 경우 스펙트럼 도메인 부호화부(130)에서 부호화되는 것이 효율적이다.
선형예측도메인(Linear Prediction Domain) 부호화부(140)는 오디오 신호를 선형예측 도메인에서 부호화할 수 있다. 선형예측 도메인은 여기 도메인 혹은 시간 도메인을 의미할 수 있다. 선형예측도메인 부호화부(140)는 시간 도메인 여기 부호화부(141)로 구현되거나, 시간 도메인 여기 부호화부(141)와 주파수 도메인 여기 부호화부(143)를 포함하여 구현될 수 있다. 시간 도메인 여기 부호화부(141)에 적용될 수 있는 부호화방식으로는 CELP(Code Excited Linear Prediction) 혹은 ACELP(Algebraic CELP) 방식을 예로 들 수 있으나 이에 한정되는 것은 아니다. 주파수 도메인 여기 부호화부(143)에 적용될 수 있는 부호화방식으로는 GSC(General Signal Coding) 혹은 TCX(Transform Coded eXcitation) 방식을 예로 들 수 있으나 이에 한정되는 것은 아니다. 음성 신호의 경우 시간 도메인 여기 부호화부(141)에서 부호화되는 것이 효율적일 수 있고, 보컬 및/또는 하모닉 신호의 경우 주파수 도메인 여기 부호화부(143)에서 부호화되는 것이 효율적일 수 있다.
비트스트림 생성부(150)는 부호화모드 결정부(110)에서 제공되는 부호화 모드, 스펙트럼 도메인 부호화부(130)로부터 제공되는 부호화결과와 선형예측도메인 부호화부(140)로부터 제공되는 부호화결과를 포함하여 비트스트림을 생성할 수 있다.
도 2는 다른 실시예에 따른 오디오 부호화장치의 구성을 나타낸 블록도이다.
도 2에 도시된 오디오 부호화장치(200)는 공통 전처리모듈(205), 부호화모드 결정부(210), 스위칭부(220), 스펙트럼 도메인 부호화부(230), 선형예측도메인 부호화부(240) 및 비트스트림 생성부(250)를 포함할 수 있다. 여기서, 선형예측도메인 부호화부(240)는 시간 도메인 여기 부호화부(241)과 주파수 도메인 여기 부호화부(243)을 포함할 수 있으며, 두개의 여기 부호화부(241,243) 중 적어도 하나로 구현될 수 있다. 도 1에 도시된 오디오 부호화장치와 비교하여 공통 전처리 모듈(205)이 더 부가된 것으로서, 공통적인 구성요소에 대한 동작설명은 생략하기로 한다.
도 2를 참조하면, 공통 전처리 모듈(205)은 조인트 스테레오 처리(joint stereo processing), 서라운드 처리(surround processing) 및/또는 대역폭 확장 처리(bandwidth extension processing)를 수행할 수 있다. 여기서, 조인트 스테레오 처리, 서라운드 처리 및 대역폭 확장 처리는 특정 표준방식 예를 들면 MPEG 표준방식에 채택된 것을 적용할 수 있으나, 이에 한정되는 것은 아니다. 공통 전처리 모듈(205)의 출력은 모노 채널, 스테레오 채널 혹은 멀티채널이 될 수 있다. 공통 전처리 모듈(205)로부터 출력되는 신호의 채널 수에 따라서 스위칭부(220)가 적어도 하나 이상의 스위치들로 구성될 수 있다. 예를 들면, 공통 전처리 모듈(205)이 두개 이상의 채널 출력 즉, 스테레오 채널 혹은 멀티채널 신호를 출력하는 경우 각 채널에 대응하는 스위치가 구비될 수 있다. 대표적으로 스테레오 신호의 첫번째 채널은 음성 채널일 수 있으며 스테레오 신호의 두번째 채널은 음악 채널일 수 있으며, 이 경우 두개의 스위치에 동시에 오디오 신호가 제공될 수 있다. 공통 전처리 모듈(205)에서 생성되는 부가정보는 비트스트림 생성부(250)로 제공되어 비트스트림에 포함될 수 있다. 여기서, 부가정보는 복호화단에서 조인트 스테레오 처리, 서라운드 처리 및/또는 대역폭 확장 처리가 수행되는데 필요한 정보로서, 공간 파라미터, 엔벨로프 정보, 에너지 정보 등을 들 수 있으나, 적용되는 처리기법에 따라서 다양한 부가정보가 존재할 수 있다.
일실시예에 따르면, 공통 전처리 모듈(205)내에서 대역폭 확장 처리는 부호화 도메인에 따라서 서로 다르게 수행될 수 있다. 코어 대역의 오디오 신호는 시간도메인 여기 부호화방식 혹은 주파수도메인 여기 부호화방식을 이용하여 처리되고, 대역폭 확장 대역의 오디오 신호는 시간도메인에서 처리될 수 있다. 시간도메인에서의 대역폭 확장 처리 모드는 유성음 모드 혹은 무성음 모드를 포함하는 복수의 모드가 존재할 수 있다. 한편, 코어 대역의 오디오 신호는 스펙트럼 도메인방식을 이용하여 처리되고, 대역폭 확장 대역의 오디오 신호는 주파수도메인에서 처리될 수 있다. 주파수도메인에서의 대역폭 확장 처리 모드는 트랜지언트 모드, 노멀 모드 혹은 하모닉 모드를 포함하는 복수의 모드가 존재할 수 있다. 서로 다른 도메인에서의 대역폭 확장 처리를 위하여 부호화모드 결정부(110)에서 결정되는 부호화모드가 시그널링 정보로 공통 전처리 모듈(205)에 제공될 수 있다. 일실시예에 따르면, 코어 대역의 마지막 부분과 대역폭 확장대역의 시작 부분은 오버랩될 수 있다. 오버랩되는 영역의 위치 및 크기는 미리 정해질 수 있다.
도 3은 일실시예에 따른 부호화 모드 결정부의 구성을 나타낸 블록도이다.
도 3에 도시된 부호화 모드 결정부(300)는 초기 부호화모드 결정부(310)와 부호화모드 수정부(330)를 포함할 수 있다.
도 3을 참조하면, 초기 부호화모드 결정부(310)는 오디오신호부터 추출된 특징 파라미터들을 이용하여 음악신호인지 음성신호인지 그 타입을 분류할 수 있다. 음성신호로 분류된 경우 선형예측도메인 부호화 처리가 바람직할 수 있다. 한편, 음악신호로 분류된 경우 스펙트럼 도메인 부호화 처리가 바람직할 수 있다. 초기 부호화모드 결정부(310)는 오디오신호부터 추출된 특징 파라미터들을 이용하여 스펙트럼 도메인 처리가 적합한지, 시간 도메인 여기처리가 적합한지, 주파수 도메인 여기처리가 적합한지 그 타입을 분류할 수 있다. 오디오신호의 타입에 따라서, 대응하는 부호화모드가 결정될 수 있다. 스위칭부(도 1의 120)의 브랜치가 2개인 경우 1비트, 브랜치가 3개인 경우 2비트로 부호화모드를 표현할 수 있다. 초기 부호화모드 결정부(310)에서의 음악신호 혹은 음성신호로의 타입 분류 방식은 공지된 여러가지 방식을 사용할 수 있다. 예를 들어, USAC 표준의 엔코더 파트에서 기재된 FD/LPD 분류 혹은 ACELP/TCX 분류나, AMR 표준에서 사용되는 ACELP/TCX 분류 등이 있으나, 이에 한정되는 것은 아니다. 요약하자면, 초기 부호화모드를 어떻게 결정하는지에 대해서는 실시예로 기재된 방식 이외에 다양한 방식을 사용할 수 있음이 자명하다.
부호화모드 수정부(330)는 초기 부호화모드 결정부(310)에서 결정된 초기 부호화모드를 수정 파라미터를 이용하여 수정하여 수정된 부호화모드를 결정할 수 있다. 실시예에 따르면, 초기 부호화모드가 스펙트럼 도메인 부호화모드로 결정된 경우, 수정 파라미터에 근거하여 주파수 도메인 여기 부호화모드로 수정될 수 있다. 또한, 초기 부호화모드가 시간 도메인 부호화모드로 결정된 경우, 수정 파라미터에 근거하여 주파수 도메인 여기 부호화모드로 수정될 수 있다. 즉, 초기 부호화모드의 결정에 오류가 있는지를 수정 파라미터를 이용하여 판단하고, 초기 부호화모드의 결정에 오류가 없다고 판단된 경우에는 그대로 유지하는 한편, 오류가 있다고 판단된 경우에는 초기 부호화모드를 수정할 수 있다. 초기 부호화모드의 수정 범위는 스펙트럼 도메인 부호화모드로부터 주파수 도메인 여기 부호화모드, 시간 도메인 여기 부호화모드로부터 주파수 도메인 여기 부호화모드가 될 수 있다.
한편, 초기 부호화모드 혹은 수정된 부호화 모드는 현재 프레임의 일시적인 부호화 모드이며, 현재 프레임의 일시적 부호화 모드를 미리 결정된 행오버 길이내의 이전 프레임들의 부호화 모드를 비교하고, 비교 결과에 따라서 현재 프레임의 최종 부호화 모드를 결정할 수 있다.
도 4는 일실시예에 따른 초기 부호화 모드 결정부의 구성을 나타낸 블록도이다.
도 4에 도시된 초기 부호화 모드 결정부(400)는 특징 파라미터 추출부(410)와 결정부(430)를 포함할 수 있다.
도 4를 참조하면, 특징 파라미터 추출부(410)는 오디오신호로부터 부호화모드 결정에 필요로 하는 특징 파라미터를 추출할 수 있다. 추출되는 특징 파라미터의 예로는 피치 파라미터, 보이싱 파라미터, 상관도 파라미터, 선형예측에러 중 적어도 하나 혹은 적어도 두개의 조합을 포함할 수 있으나, 이에 한정되는 것은 아니다. 특징 파라미터에 대하여 좀 더 구체적으로 설명하면 다음과 같다.
먼저, 첫번째 특징 파라미터 F1은 피치 파라미터와 관련된 것으로서, 현재 프레임과 적어도 하나 이상의 이전 프레임으로부터 검출되는 N개 피치값을 이용하여 피치의 행동(behavior of pitch)을 파악할 수 있다. 랜덤한 변동 혹은 잘못 검출된 피치값으로부터의 영향을 방지하기 위하여, N개 피치값의 평균으로부터 차이가 큰 M개 피치값은 제거할 수 있다. 여기서, N과 M은 미리 실험적으로 혹은 시뮬레이션을 통하여 최적의 값을 설정할 수 있다. 또한, N은 미리 설정하고, N개 피치값의 평균으로부터 어느 정도의 차이 이상의 피치값을 제거할지에 대하여 미리 실험적으로 혹은 시뮬레이션을 통하여 최적의 값을 설정할 수 있다. (N-M)개의 피치값에 대한 평균 mp'와 분산 σp'을 이용하여 첫번째 특징 파라미터 F1은 다음 수학식 1과 같이 나타낼 수 있다.
두번째 특징 파라미터 F2 역시 피치 파라미터와 관련된 것으로서, 현재 프레임에서 검출된 피치값의 신뢰도를 나타낼 수 있다. 현재 프레임내 두개의 서브프레임 SF1, SF2에서 각각 검출된 피치값의 분산 σSF1, σSF2을 이용하여 두번째 특징 파라미터 F2는 다음 수학식 2와 같이 나타낼 수 있다.
여기서, cov(SF1,SF2)는 서브프레임 SF1, SF2간 공분산을 나타낸다. 즉, 두번째 특징 파라미터 F2는 두개 서브프레임간 상관도를 피치 거리로 나타내는 것이다. 실시예에 따르면, 현재 프레임은 두개 이상의 서브프레임으로 구성될 수 있으며, 서브프레임의 수에 따라서 수학식 2가 변형될 수 있다.
세번째 특징 파라미터 F3는 보이싱 파라미터(Voicing)와 상관도 파라미터(Corr)로부터 다음 수학식 3과 같이 나타낼 수 있다.
여기서, 보이싱 파라미터(Voicing)는 소리의 보컬 특징과 관련된 것으로 공지된 다양한 방법에 의해 얻어질 수 있고, 상관도 파라미터(Corr)는 각 밴드별 프레임간 상관도의 합으로 구해질 수 있다.
네번째 특징 파라미터 F4는 선형예측에러(ELPC)와 관련된 것으로서 다음 수학식 4와 같이 나타낼 수 있다.
여기서, M(ELPC)는 N개 선형예측에러의 평균을 나타낸다.
결정부(430)는 특징 파라미터 추출부(410)로부터 제공되는 적어도 하나 이상의 특징 파라미터를 이용하여 오디오 신호의 타입을 분류하고, 분류된 타입에 따라서 초기 부호화모드를 결정할 수 있다. 결정부(430)는 바람직하게로는 경판정(soft decision) 방식을 적용할 수 있으며, 특징 파라미터별로 적어도 하나의 믹스쳐(mixture)를 형성할 수 있다. 일실시예로는, 믹스쳐 확률에 근거한 GMM(Gaussian Mixture Model)을 이용하여 오디오 신호의 타입을 분류할 수 있다. 하나의 믹스쳐에 대한 확률 f(x)는 하기 수학식 5에 의해 산출될 수 있다.
여기서, x는 특징 파라미터의 입력 벡터, m은 믹스쳐, c는 공분산 행렬(covariance matrix)을 나타낸다.
결정부(430)는 음악 확률(Pm) 및 음성 확률(Ps)을 다음 수학식 6를 이용하여 산출할 수 있다.
여기서, 음악으로의 분류에 우월한 특징 파라미터와 관련된 M개 믹스쳐에 대한 확률 Pi를 모두 가산하여 음악 확률(Pm)을 산출하고, 음성으로의 분류에 우월한 특징 파라미터와 관련된 S개 믹스쳐에 대한 확률 Pi를 모두 가산하여 음성 확률(Ps)을 산출한다.
한편, 정확도를 좀 더 확보하기 위하여 음악 확률(Pm) 및 음성 확률(Ps)을 다음 수학식 7을 이용하여 산출할 수 있다.
여기서, p_i^err는 각 믹스쳐에 대한 에러 확률을 나타낸다. 에러 확률은 클린 음성신호와 클린 음악신호를 포함하는 트레이닝 데이터에 대하여 각 믹스쳐를 이용하여 분류해 본 결과 잘못 분류된 개수를 체크하여 얻어질 수 있다.
다음, 일정한 행오버 길이만큼의 복수 프레임에 대하여 모든 프레임이 음악인 확률 Pm과 모든 프레임이 음성인 확률 Ps를 다음 수학식 8을 이용하여 산출할 수 있다. 여기서, 행오버 길이는 8로 설정할 수 있으나, 이에 한정되는 것은 아니다. 8개의 프레임은 현재 프레임과 7개의 이전 프레임을 포함할 수 있다.
다음, 수학식 5 혹은 6을 이용하여 구해진 음악 확률 및 음성 확률을 이용하여 복수개의 조건 세트들 {D_i^M } 및 {D_i^S }을 산출할 수 있다. 이에 대하여, 도 6를 참조하여 좀 더 구체적으로 설명하면 다음과 같다. 여기서, 각 조건에서 음악인 경우 1, 음성인 경우 0의 값을 가지는 것으로 설정할 수 있다.
도 6을 참조하면, 610 단계 및 620 단계에서는 음악 확률(Pm) 및 음성 확률(Ps)을 이용하여 산출된 복수개의 조건 세트들 {D_i^M } 및 {D_i^S }로부터 음악 조건의 합 M와 음성조건의 합 S를 구할 수 있다. 즉, 음악 조건의 합 M와 음성조건의 합 S은 각각 다음 수학식 9과 같이 나타낼 수 있다.
630 단계에서는 음악 조건의 합 M을 소정의 문턱치 Tm과 비교하고, 비교결과 M이 Tm보다 크면 현재 프레임의 부호화모드를 음악 모드 즉, 스펙트럼 도메인 모드로 스위칭한다. 한편, 630 단계에서의 비교결과 M이 Tm보다 작거나 같으면 현재 프레임의 부호화 모드를 변경시키지 않는다.
640 단계에서는 음성 조건의 합 S을 소정의 문턱치 Ts과 비교하고, 비교결과 S가 Ts보다 크면 현재 프레임의 부호화모드를 음성 모드 즉, 선형예측도메인 도메인 모드로 스위칭한다. 한편, 640 단계에서의 비교결과 S가 Ts보다 작거나 같으면 현재 프레임의 부호화 모드를 변경시키지 않는다.
630 및 640 단계에서 사용되는 문턱치 Tm 및 Ts는 미리 실험적으로 혹은 시뮬레이션을 통하여 최적의 값으로 설정될 수 있다.
도 5은 일실시예에 따른 특징 파라미터 추출부의 구성을 나타낸 블록도이다.
도 5에 도시된 초기 부호화 모드 결정부(500)는 변환부(510), 스펙트럴 파라미터 추출부(520), 템포럴 파라미터 추출부(530) 및 결정부(540)를 포함할 수 있다.
도 5에 있어서, 변환부(510)는 원래의 오디오신호를 시간 도메인에서 주파수 도메인으로 변환할 수 있다. 여기서, 변환부(510)는 시간 표현의 오디오 신호를 스펙트럼 표현으로 나타낼 수 있는 다양한 변환방식을 적용할 수 있으며, 예로서 FFT(Fast Fourier Transform), DCT(Discrete Cosine Transform) 혹은 MDCT(Modified Discrete Cosine Transform)를 들 수 있으나 이에 한정되는 것은 아니다.
스펙트럴 파라미터 추출부(520)는 변환부(510)로부터 제공되는 주파수 도메인의 오디오 신호로부터 적어도 한가지 이상의 스펙트럴 파라미터를 추출할 수 있다. 또한, 스펙트럴 파라미터를 단기 특징 파라미터 및 장기 특징 파라미터로 분류하여 사용할 수도 있다. 단기 특징 파라미터는 단일한 현재 프레임으로부터 얻어지고, 장기 특징 파라미터는 현재 프레임과 적어도 하나의 과거 프레임을 포함하는 복수의 프레임으로부터 얻어질 수 있다.
템포럴 파라미터 추출부(530)는 시간 도메인의 오디오 신호로부터 적어도 한가지 이상의 템포럴 파라미터를 추출할 수 있다. 또한, 템포럴 파라미터를 단기 특징 파라미터 및 장기 특징 파라미터로 분류하여 사용할 수도 있다. 마찬가지로, 단기 특징 파라미터는 단일한 현재 프레임으로부터 얻어지고, 장기 특징 파라미터는 현재 프레임과 적어도 하나의 과거 프레임을 포함하는 복수의 프레임으로부터 얻어질 수 있다.
결정부(도 4의 430)는 스펙트럴 파라미터 추출부(520)로부터 제공되는 스펙트럴 파라미터와 템포럴 파라미터 추출부(530)로부터 제공되는 템포럴 파라미터를 이용하여 오디오 신호의 타입을 분류하고, 분류된 타입에 따라서 초기 부호화모드를 결정할 수 있다. 결정부(도 4의 430)는 바람직하게로는 경판정(soft decision) 방식을 적용할 수 있다.
도 7은 일실시예에 따른 부호화모드 수정부의 동작을 설명하는 도면이다.
도 7을 참조하면, 700 단계에서는 초기 부호화모드 결정부(310)에서 결정된 초기 부호화모드를 수신하여, 시간 도메인 모드 즉, 시간 도메인 여기 모드인지 스펙트럼 도메인 모드인지를 판단할 수 있다.
701 단계에서는 700 단계에서 스펙트럼 도메인 모드로 판단된 경우(stateTS == 1), 주파수 도메인 여기 부호화가 적합한지를 나타내는 지표 stateTTSS를 체크할 수 있다. 주파수 도메인 여기 부호화 예를 들어 GSC가 적합한지를 나타내는 지표 stateTTSS는 서로 다른 주파수 밴드의 토널러티를 이용하여 얻을 수 있다. 이에 대하여 좀 더 구체적으로 설명하면 다음과 같다.
저대역 신호의 토널러티는 주어진 밴드에 대하여 최소값을 포함하는 작은 값을 갖는 복수개의 스펙트럼 계수의 합과 최대값인 스펙트럼 계수간의 비율로서 얻어질 수 있다. 주어진 밴드가 각각 0~1 kHz, 1~2 kHz, 2~4 kHz 인 경우 각 밴드의 토널러티 t01, t12, t24와 저대역 신호 즉, 코어 대역의 토널러티 tL은 하기 수학식 10에서와 같이 나타낼 수 있다.
한편, 선형예측에러(err)는 LPC 필터를 이용하여 얻어질 수 있으며, 강한 토널 성분을 배제시키기 위하여 사용될 수 있다. 즉, 강한 토널 성분은 주파수 도메인 여기 부호화모드보다 스펙트럼 도메인 부호화 모드가 더 효율적일 수 있다.
상기한 바와 같이 얻어지는 토널러티 및 선형예측에러를 이용하여 주파수 도메인 여기 부호화모드로 스위칭하기 위한 시작 조건 즉, condfront는 다음 수학식 11에서와 같이 나타낼 수 있다.
여기서, t12front, t24front, tLfront, errfront는 각각 임계치로서, 미리 실험적으로 혹은 시뮬레이션을 통하여 최적의 값으로 설정될 수 있다.
한편, 상기한 바와 같이 얻어지는 토널러티 및 선형예측에러를 이용하여 주파수 도메인 여기 부호화모드를 끝내기 위한 종료 조건 즉, condback는 다음 수학식 12에서와 같이 나타낼 수 있다.
여기서, t12back, t24back, tLback 는 각각 임계치로서, 미리 실험적으로 혹은 시뮬레이션을 통하여 최적의 값으로 설정될 수 있다.
즉, 상기 수학식 11의 시작 조건이 성립되는지 혹은 상기 수학식 12의 종료조건이 성립되지 않는지를 확인함으로써, 701 단계에서 스펙트럼 도메인 부호화에 비하여 주파수 도메인 여기 부호화 예를 들어 GSC가 적합한지를 나타내는 지표 stateTTSS가 1인지가 체크될 수 있다. 이때, 상기 수학식 12의 종료 조건 확인은 옵션으로 수행될 수 있다.
702 단계에서는 701 단계에서의 체크 결과, stateTTSS가 1인 경우 주파수 도메인 여기 부호화 방식으로 결정할 수 있다. 이 경우, 초기 부호화모드가 스펙트럼 도메인 모드에서 주파수 도메인 여기 모드로 최종 부호화모드가 수정된 것이다.
705 단계에서는 701 단계에서의 체크 결과, stateTTSS가 0인 경우 강한 음성인지를 판단하는 지표 stateSS를 체크할 수 있다. 만약, 스펙트럼 도메인 부호화 모드에 대한 결정 오류가 존재하는 경우, 스펙트럼 도메인 부호화 모드 대신 주파수 도메인 여기 부호화 모드가 효율적일 수 있다. 강한 음성인지를 판단하는 지표 stateSS는 보이싱 파라미터와 상관도 파라미터간의 차이값(vc)를 이용하여 얻을 수 있다.
보이싱 파라미터와 상관도 파라미터간의 차이값(vc)을 이용하여 강한 음성 모드로 스위칭하기 위한 시작 조건 즉, condfront는 다음 수학식 13에서와 같이 나타낼 수 있다.
여기서, vcfront는 임계치로서, 미리 실험적으로 혹은 시뮬레이션을 통하여 최적의 값으로 설정될 수 있다.
한편, 보이싱 파라미터와 상관도 파라미터간의 차이값(vc)을 이용하여 강한음성 모드를 끝내기 위한 종료 조건 즉, condback는 다음 수학식 14에서와 같이 나타낼 수 있다.
여기서, vcback는 임계치로서, 미리 실험적으로 혹은 시뮬레이션을 통하여 최적의 값으로 설정될 수 있다.
즉, 상기 수학식 13의 시작 조건이 성립되는지 혹은 상기 수학식 14의 종료조건이 성립되지 않는지를 확인함으로써, 705 단계에서 스펙트럼 도메인 부호화에 비하여 주파수 도메인 여기 부호화 예를 들어 GSC가 적합한지를 나타내는 지표 stateSS가 1인지가 체크될 수 있다. 이때, 상기 수학식 14의 종료 조건 확인은 옵션으로 수행될 수 있다.
706 단계에서는 705 단계에서의 체크결과, stateSS가 0인 경우 즉, 강한 음성이 아닌 것으로 판단되는 경우 스펙트럼 도메인 부호화 방식으로 결정할 수 있다. 이 경우, 스펙트럼 도메인 모드인 초기 부호화 모드가 최종 부호화 모드로 유지된 것이다.
707 단계에서는 705 단계에서의 체크결과, stateSS가 1인 경우 즉, 강한 음성인 것으로 판단되는 경우 주파수 도메인 여기 부호화 방식으로 결정할 수 있다. 이 경우, 초기 부호화모드가 스펙트럼 도메인 모드에서 주파수 도메인 여기 모드로 최종 부호화모드가 수정된 것이다.
700, 701, 및 705 단계를 통하여 초기 부호화 모드 결정시 스펙트럼 도메인 부호화 모드에 대한 결정 오류를 수정할 수 있다. 구체적으로, 초기 부호화모드가 스펙트럼 도메인 모드에서 스펙트럼 도메인 모드 혹은 주파수 도메인 여기 모드로 최종 부호화모드가 변경될 수 있다.
한편, 700 단계에서 선형예측 도메인 모드로 판단된 경우(stateTS == 0), 709 단계에서 강한 음악인지를 판단하는 지표 stateSM를 체크할 수 있다. 만약, 선형예측 도메인 부호화 모드 즉, 시간도메인 여기 부호화 모드에 대한 결정 오류가 존재하는 경우, 시간도메인 여기 부호화 모드 대신 주파수 도메인 여기 부호화 모드가 효율적일 수 있다. 강한 음악인지를 판단하는 지표 stateSM는 1로부터 보이싱 파라미터와 상관도 파라미터간의 차이값(vc)을 감산한 값(1-vc)을 이용하여 얻을 수 있다.
1로부터 보이싱 파라미터와 상관도 파라미터간의 차이값(vc)을 감산한 값(1-vc)을 이용하여 강한 음악 모드로 스위칭하기 위한 시작 조건 즉, condfront는 다음 수학식 15에서와 같이 나타낼 수 있다.
여기서, vcmfront는 임계치로서, 미리 실험적으로 혹은 시뮬레이션을 통하여 최적의 값으로 설정될 수 있다.
한편, 1로부터 보이싱 파라미터와 상관도 파라미터간의 차이값(vc)을 감산한 값(1-vc)을 이용하여 강한 음악 모드를 끝내기 위한 종료 조건 즉, condback는 다음 수학식 16에서와 같이 나타낼 수 있다.
여기서, vcmback는 임계치로서, 미리 실험적으로 혹은 시뮬레이션을 통하여 최적의 값으로 설정될 수 있다
즉, 상기 수학식 15의 시작 조건이 성립되는지 혹은 상기 수학식 16의 종료조건이 성립되지 않는지를 확인함으로써, 709 단계에서 시간 도메인 여기 부호화에 비하여 주파수 도메인 여기 부호화 예를 들어 GSC가 적합한지를 나타내는 지표 stateSM가 1인지가 체크될 수 있다. 이때, 상기 수학식 16의 종료 조건 확인은 옵션으로 수행될 수 있다.
710 단계에서는 709 단계에서의 체크결과, stateSM가 0인 경우 즉, 강한 음악이 아닌 것으로 판단되는 경우 시간 도메인 여기 부호화 방식으로 결정할 수 있다. 이 경우, 선형예측 도메인 모드인 초기 부호화 모드가 시간 도메인 여기 모드인 최종 부호화 모드로 수정된 것이다. 실시예에 따르면, 선형예측 도메인 모드가 시간 도메인 여기 모드인 경우 수정없이 유지된 것으로 볼 수 있다.
707 단계에서는 709 단계에서의 체크결과, stateSM가 1인 경우 즉, 강한 음악인 것으로 판단되는 경우 주파수 도메인 여기 부호화 방식으로 결정할 수 있다. 이 경우, 선형예측 도메인 모드인 초기 부호화 모드가 주파수 도메인 여기 모드인 최종 부호화 모드로 수정된 것이다.
700 및 709 단계를 통하여 초기 부호화 모드 판단시의 오류를 수정할 수 있다. 구체적으로, 초기 부호화 모드가 선형예측 도메인 모드 예를 들면 시간 도메인 여기 모드에서 시간 도메인 여기 모드 혹은 주파수 도메인 여기 모드로 최종 부호화 모드가 변경될 수 있다.
실시예에 따르면, 선형예측도메인 모드에 대한 부호화 모드 결정 오류를 수정하기 위한 강한 음악 판정 단계인 709 단계는 옵션으로 수행될 수 있다.
다른 실시예에 따르면, 강한 음성 판정 단계인 705 단계와 주파수 도메인 여기 모드 판정 단계인 701 단계는 선후 관계가 바뀔 수도 있다. 즉, 700 단계 이후 705 단계를 먼저 수행한 다음, 701 단계를 수행할 수도 있다. 이 경우, 필요에 따라서 각 판정 단계에서 사용되는 파라미터들이 변경될 수 있다.
도 8은 본 발명의 일실시예에 따른 오디오 복호화장치의 구성을 나타낸 블럭도이다.
도 8에 도시된 오디오 복호화장치(800)는 비트스트림 파싱부(810), 스펙트럼 도메인 복호화부(820), 선형예측도메인 복호화부(830)와 스위칭부(840)를 포함할 수 있다. 여기서, 선형예측도메인 복호화부(830)는 시간 도메인 여기 복호화부(831)과 주파수 도메인 여기 복호화부(833)을 포함할 수 있으며, 두개의 여기 복호화부(831,833) 중 적어도 하나로 구현될 수 있다. 여기서, 각 구성요소는 별도의 하드웨어로 구현되어야 할 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
도 8을 참조하면, 비트스트림 파싱부(810)는 수신된 비트스트림을 파싱하여 부호화모드에 대한 정보와 부호화된 데이터를 분리할 수 있다. 부호화모드는 오디오 신호의 특성에 대응하여 제1 부호화모드와 제2 부호화모드를 포함하는 복수의 부호화모드 중 하나를 초기 부호화 모드로 결정하고, 초기 부호화모드에 대한 결정에 오류가 존재하는 경우 초기 부호화모드를 제3 부호화모드로 수정하여 결정된 최종 부호화모드에 해당할 수 있다.
스펙트럼 도메인 복호화부(820)는 분리된 부호화 데이터 중 스펙트럼 도메인에서 부호화된 데이터를 복호화할 수 있다.
선형예측도메인 복호화부(830)는 분리된 부호화 데이터 중 선형예측 도메인에서 부호화된 데이터를 복호화할 수 있다. 선형예측도메인 복호화부(830)가 시간 도메인 여기 복호화부(831)과 주파수 도메인 여기 복호화부(833)로 구성되는 경우, 분리된 부호화 데이터에 대하여 시간 도메인 여기 복호화 혹은 주파수 도메인 여기 복호화를 수행할 수 있다.
스위칭부(840)는 스펙트럼 도메인 복호화부(820)로부터 복원된 신호와 선형예측도메인 복호화부(830)로부터 복원된 신호 중 하나를 스위칭하여 최종 복원된 신호로 제공할 수 있다.
도 9는 본 발명의 다른 실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다.
도 9에 도시된 오디오 복호화장치(900)는 비트스트림 파싱부(910), 스펙트럼 도메인 복호화부(920), 선형예측도메인 복호화부(930), 스위칭부(940) 및 공통 후처리 모듈(950)를 포함할 수 있다. 여기서, 선형예측도메인 복호화부(930)는 시간 도메인 여기 부호화부(931)과 주파수 도메인 여기 부호화부(933)을 포함할 수 있으며, 두개의 여기 부호화부(931,933) 중 적어도 하나로 구현될 수 있다. 여기서, 각 구성요소는 별도의 하드웨어로 구현되어야 할 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다. 도 8에 도시된 오디오 부호화장치와 비교하여 공통 후처리 모듈(950)이 더 부가된 것으로서, 공통적인 구성요소에 대한 동작설명은 생략하기로 한다.
도 9를 참조하면, 공통 후처리 모듈(950)은 공통 전처리 모듈(도 2의 205)에 대응하여 조인트 스테레오 처리(joint stereo processing), 서라운드 처리(surround processing) 및/또는 대역폭 확장 처리(bandwidth extension processing)를 수행할 수 있다.
상기 실시예들에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예들에서 사용될 수 있는 데이터 구조, 프로그램 명령, 혹은 데이터 파일은 컴퓨터로 읽을 수 있는 기록매체에 다양한 수단을 통하여 기록될 수 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함할 수 있다. 컴퓨터로 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 또한, 컴퓨터로 읽을 수 있는 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 전송 매체일 수도 있다. 프로그램 명령의 예로는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상과 같이 본 발명의 일실시예는 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 일실시예는 상기 설명된 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 스코프는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 이의 균등 또는 등가적 변형 모두는 본 발명 기술적 사상의 범주에 속한다고 할 것이다.
Claims (11)
- 오디오 신호의 특성에 대응하여 MDCT(Modified Discrete Cosine Transform) 기반 부호화모드와 CELP(Code Excited Linear Prediction) 기반 부호화모드를 포함하는 복수의 부호화모드 중 하나를 현재 프레임의 초기 부호화 모드로 결정하는 단계; 및
상기 초기 부호화모드에 대한 결정에 오류가 존재하는 경우 상기 초기 부호화모드를 GSC(Generic Signal Coding) 기반 부호화모드로 수정하는 단계를 포함하는 부호화 모드 결정방법. - 삭제
- 제1 항에 있어서, 상기 초기 부호화모드를 상기 GSC 기반 부호화모드로 수정하는 단계는,
상기 초기 부호화모드가 상기 MDCT 기반 부호화모드인 경우, 소정의 수정 파라미터에 근거하여 상기 초기 부호화모드를 상기 GSC 기반 부호화모드로 수정할지를 판단하는 단계를 포함하는 부호화모드 결정방법. - 제3 항에 있어서, 상기 수정 파라미터는 상기 오디오신호의 토널러티, 선형예측에러 및 보이싱 파라미터와 상관도 파라미터간 차이값 중 적어도 하나를 포함하는 부호화모드 결정방법.
- 제1 항에 있어서, 상기 초기 부호화모드를 상기 GSC 기반 부호화모드로 수정하는 단계는,
상기 초기 부호화모드가 상기 MDCT 기반 부호화모드인 경우, 상기 오디오신호의 토널러티와 선형예측에러에 근거하여 상기 MDCT 기반 부호화모드를 상기 GSC 기반 부호화모드로 수정할지를 판단하고, 상기 판단결과에 따라서 상기 오디오신호의 보이싱 파라미터와 상관도 파라미터간 차이값에 근거하여 상기 MDCT 기반 부호화모드를 상기 GSC 기반 부호화모드로 수정할지를 판단하는 단계를 포함하는, 부호화모드 결정방법. - 삭제
- 제1 항에 있어서, 상기 부호화모드 결정방법은, 행오버 길이에 해당하는 프레임 수에 대하여 부호화 모드를 판단하여 상기 현재 프레임의 최종 부호화 모드를 결정하는 단계를 더 포함하는 부호화모드 결정방법.
- 제7 항에 있어서, 상기 현재 프레임의 초기 부호화 모드 혹은 상기 GSC 기반 부호화모드가 복수개의 이전 프레임의 부호화 모드와 동일한 경우, 해당 초기 부호화 모드 혹은 GSC 기반 부호화모드를 상기 현재 프레임의 최종 부호화 모드로 결정하는 부호화모드 결정방법.
- 제7 항에 있어서, 상기 현재 프레임의 초기 부호화 모드 혹은 상기 GSC 기반 부호화모드가 복수개의 이전 프레임의 부호화 모드와 동일하지 않은 경우, 바로 이전 프레임의 부호화모드를 상기 현재 프레임의 최종 부호화 모드로 결정하는 부호화모드 결정방법.
- 제1 항, 제3 항 내지 제5 항 및 제7 항 내지 제9 항 중 어느 한 항에 따라서 최종 부호화 모드를 결정하는 단계; 및
상기 결정된 최종 부호화모드에 따라서 오디오신호에 대하여 서로 다른 부호화처리를 수행하는 단계를 포함하는 오디오 부호화방법. - 제1 항, 제3 항 내지 제5 항 및 제7 항 내지 제9 항 중 어느 한 항에 따라서 결정된 최종 부호화 모드를 포함하는 비트스트림을 파싱하는 단계; 및
상기 최종 부호화 모드에 따라서 비트스트림에 대하여 서로 다른 복호화처리를 수행하는 단계를 포함하는 오디오 복호화방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020217038093A KR102446441B1 (ko) | 2012-11-13 | 2013-11-13 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261725694P | 2012-11-13 | 2012-11-13 | |
US61/725,694 | 2012-11-13 | ||
PCT/KR2013/010310 WO2014077591A1 (ko) | 2012-11-13 | 2013-11-13 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217038093A Division KR102446441B1 (ko) | 2012-11-13 | 2013-11-13 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150087226A KR20150087226A (ko) | 2015-07-29 |
KR102331279B1 true KR102331279B1 (ko) | 2021-11-25 |
Family
ID=50731440
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217038093A KR102446441B1 (ko) | 2012-11-13 | 2013-11-13 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
KR1020157012623A KR102331279B1 (ko) | 2012-11-13 | 2013-11-13 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
KR1020227032281A KR102561265B1 (ko) | 2012-11-13 | 2013-11-13 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217038093A KR102446441B1 (ko) | 2012-11-13 | 2013-11-13 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020227032281A KR102561265B1 (ko) | 2012-11-13 | 2013-11-13 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
Country Status (18)
Country | Link |
---|---|
US (3) | US20140188465A1 (ko) |
EP (3) | EP4407616A3 (ko) |
JP (2) | JP6170172B2 (ko) |
KR (3) | KR102446441B1 (ko) |
CN (3) | CN104919524B (ko) |
AU (2) | AU2013345615B2 (ko) |
BR (1) | BR112015010954B1 (ko) |
CA (1) | CA2891413C (ko) |
ES (1) | ES2900594T3 (ko) |
MX (2) | MX349196B (ko) |
MY (1) | MY188080A (ko) |
PH (1) | PH12015501114A1 (ko) |
PL (1) | PL2922052T3 (ko) |
RU (3) | RU2630889C2 (ko) |
SG (2) | SG10201706626XA (ko) |
TW (2) | TWI648730B (ko) |
WO (1) | WO2014077591A1 (ko) |
ZA (1) | ZA201504289B (ko) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102354331B1 (ko) | 2014-02-24 | 2022-01-21 | 삼성전자주식회사 | 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치 |
US9886963B2 (en) * | 2015-04-05 | 2018-02-06 | Qualcomm Incorporated | Encoder selection |
CN107731238B (zh) | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN114898761A (zh) * | 2017-08-10 | 2022-08-12 | 华为技术有限公司 | 立体声信号编解码方法及装置 |
US10325588B2 (en) | 2017-09-28 | 2019-06-18 | International Business Machines Corporation | Acoustic feature extractor selected according to status flag of frame of acoustic signal |
US11032580B2 (en) | 2017-12-18 | 2021-06-08 | Dish Network L.L.C. | Systems and methods for facilitating a personalized viewing experience |
US10365885B1 (en) * | 2018-02-21 | 2019-07-30 | Sling Media Pvt. Ltd. | Systems and methods for composition of audio content from multi-object audio |
CN111081264B (zh) * | 2019-12-06 | 2022-03-29 | 北京明略软件系统有限公司 | 一种语音信号处理方法、装置、设备及存储介质 |
EP4362366A4 (en) * | 2021-09-24 | 2024-10-23 | Samsung Electronics Co Ltd | ELECTRONIC DEVICE FOR TRANSMITTING OR RECEIVING DATA PACKETS, AND ASSOCIATED OPERATING METHOD |
Family Cites Families (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2102080C (en) * | 1992-12-14 | 1998-07-28 | Willem Bastiaan Kleijn | Time shifting for generalized analysis-by-synthesis coding |
DE69926821T2 (de) * | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
JP3273599B2 (ja) * | 1998-06-19 | 2002-04-08 | 沖電気工業株式会社 | 音声符号化レート選択器と音声符号化装置 |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6704711B2 (en) * | 2000-01-28 | 2004-03-09 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for modifying speech signals |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
ES2378462T3 (es) * | 2002-09-04 | 2012-04-12 | Microsoft Corporation | Codificación entrópica por adaptación de codificación entre modalidades de nivel y de longitud/nivel de cadencia |
WO2004034379A2 (en) * | 2002-10-11 | 2004-04-22 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US20050096898A1 (en) * | 2003-10-29 | 2005-05-05 | Manoj Singhal | Classification of speech and music using sub-band energy |
FI118834B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Audiosignaalien luokittelu |
US7512536B2 (en) * | 2004-05-14 | 2009-03-31 | Texas Instruments Incorporated | Efficient filter bank computation for audio coding |
DE602004025517D1 (de) | 2004-05-17 | 2010-03-25 | Nokia Corp | Audiocodierung mit verschiedenen codierungsrahmenlängen |
US7739120B2 (en) * | 2004-05-17 | 2010-06-15 | Nokia Corporation | Selection of coding models for encoding an audio signal |
CN101203907B (zh) * | 2005-06-23 | 2011-09-28 | 松下电器产业株式会社 | 音频编码装置、音频解码装置以及音频编码信息传输装置 |
US7733983B2 (en) * | 2005-11-14 | 2010-06-08 | Ibiquity Digital Corporation | Symbol tracking for AM in-band on-channel radio receivers |
US7558809B2 (en) * | 2006-01-06 | 2009-07-07 | Mitsubishi Electric Research Laboratories, Inc. | Task specific audio classification for identifying video highlights |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
KR100790110B1 (ko) * | 2006-03-18 | 2008-01-02 | 삼성전자주식회사 | 모폴로지 기반의 음성 신호 코덱 방법 및 장치 |
WO2008045846A1 (en) * | 2006-10-10 | 2008-04-17 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
CN100483509C (zh) * | 2006-12-05 | 2009-04-29 | 华为技术有限公司 | 声音信号分类方法和装置 |
CN101197130B (zh) * | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
CN101025918B (zh) * | 2007-01-19 | 2011-06-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
KR20080075050A (ko) | 2007-02-10 | 2008-08-14 | 삼성전자주식회사 | 오류 프레임의 파라미터 갱신 방법 및 장치 |
US8060363B2 (en) * | 2007-02-13 | 2011-11-15 | Nokia Corporation | Audio signal encoding |
CN101256772B (zh) * | 2007-03-02 | 2012-02-15 | 华为技术有限公司 | 确定非噪声音频信号归属类别的方法和装置 |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
CA2690433C (en) * | 2007-06-22 | 2016-01-19 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
KR101380170B1 (ko) * | 2007-08-31 | 2014-04-02 | 삼성전자주식회사 | 미디어 신호 인코딩/디코딩 방법 및 장치 |
CN101393741A (zh) * | 2007-09-19 | 2009-03-25 | 中兴通讯股份有限公司 | 一种宽带音频编解码器中的音频信号分类装置及分类方法 |
CN101399039B (zh) * | 2007-09-30 | 2011-05-11 | 华为技术有限公司 | 一种确定非噪声音频信号类别的方法及装置 |
CN101236742B (zh) * | 2008-03-03 | 2011-08-10 | 中兴通讯股份有限公司 | 音乐/非音乐的实时检测方法和装置 |
EP2259253B1 (en) | 2008-03-03 | 2017-11-15 | LG Electronics Inc. | Method and apparatus for processing audio signal |
JP2011518345A (ja) * | 2008-03-14 | 2011-06-23 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング |
US8856049B2 (en) * | 2008-03-26 | 2014-10-07 | Nokia Corporation | Audio signal classification by shape parameter estimation for a plurality of audio signal samples |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
MY153562A (en) * | 2008-07-11 | 2015-02-27 | Fraunhofer Ges Forschung | Method and discriminator for classifying different segments of a signal |
CN101350199A (zh) * | 2008-07-29 | 2009-01-21 | 北京中星微电子有限公司 | 音频编码器及音频编码方法 |
CN102177426B (zh) * | 2008-10-08 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 多分辨率切换音频编码/解码方案 |
CN101751920A (zh) * | 2008-12-19 | 2010-06-23 | 数维科技(北京)有限公司 | 基于再次分类的音频分类装置及其实现方法 |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
JP4977157B2 (ja) | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
CN101577117B (zh) * | 2009-03-12 | 2012-04-11 | 无锡中星微电子有限公司 | 伴奏音乐提取方法及装置 |
CN101847412B (zh) * | 2009-03-27 | 2012-02-15 | 华为技术有限公司 | 音频信号的分类方法及装置 |
US20100253797A1 (en) * | 2009-04-01 | 2010-10-07 | Samsung Electronics Co., Ltd. | Smart flash viewer |
KR20100115215A (ko) * | 2009-04-17 | 2010-10-27 | 삼성전자주식회사 | 가변 비트율 오디오 부호화 및 복호화 장치 및 방법 |
KR20110022252A (ko) * | 2009-08-27 | 2011-03-07 | 삼성전자주식회사 | 스테레오 오디오의 부호화, 복호화 방법 및 장치 |
BR112012009490B1 (pt) * | 2009-10-20 | 2020-12-01 | Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. | ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados |
CN102237085B (zh) * | 2010-04-26 | 2013-08-14 | 华为技术有限公司 | 音频信号的分类方法及装置 |
JP5749462B2 (ja) | 2010-08-13 | 2015-07-15 | 株式会社Nttドコモ | オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム |
CN102446504B (zh) * | 2010-10-08 | 2013-10-09 | 华为技术有限公司 | 语音/音乐识别方法及装置 |
CN102385863B (zh) * | 2011-10-10 | 2013-02-20 | 杭州米加科技有限公司 | 一种基于语音音乐分类的声音编码方法 |
US9111531B2 (en) * | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
WO2014010175A1 (ja) * | 2012-07-09 | 2014-01-16 | パナソニック株式会社 | 符号化装置及び符号化方法 |
-
2013
- 2013-11-13 JP JP2015542948A patent/JP6170172B2/ja active Active
- 2013-11-13 SG SG10201706626XA patent/SG10201706626XA/en unknown
- 2013-11-13 CN CN201380070268.6A patent/CN104919524B/zh active Active
- 2013-11-13 MY MYPI2015701531A patent/MY188080A/en unknown
- 2013-11-13 EP EP24182511.6A patent/EP4407616A3/en active Pending
- 2013-11-13 CA CA2891413A patent/CA2891413C/en active Active
- 2013-11-13 BR BR112015010954-3A patent/BR112015010954B1/pt active IP Right Grant
- 2013-11-13 ES ES13854639T patent/ES2900594T3/es active Active
- 2013-11-13 AU AU2013345615A patent/AU2013345615B2/en active Active
- 2013-11-13 PL PL13854639T patent/PL2922052T3/pl unknown
- 2013-11-13 WO PCT/KR2013/010310 patent/WO2014077591A1/ko active Application Filing
- 2013-11-13 KR KR1020217038093A patent/KR102446441B1/ko active IP Right Grant
- 2013-11-13 RU RU2015122128A patent/RU2630889C2/ru active
- 2013-11-13 TW TW106140629A patent/TWI648730B/zh active
- 2013-11-13 SG SG11201503788UA patent/SG11201503788UA/en unknown
- 2013-11-13 KR KR1020157012623A patent/KR102331279B1/ko active IP Right Grant
- 2013-11-13 CN CN201711421463.5A patent/CN107958670B/zh active Active
- 2013-11-13 MX MX2015006028A patent/MX349196B/es active IP Right Grant
- 2013-11-13 TW TW102141400A patent/TWI612518B/zh active
- 2013-11-13 MX MX2017009362A patent/MX361866B/es unknown
- 2013-11-13 EP EP21192621.7A patent/EP3933836B1/en active Active
- 2013-11-13 KR KR1020227032281A patent/KR102561265B1/ko active IP Right Grant
- 2013-11-13 RU RU2017129727A patent/RU2656681C1/ru active
- 2013-11-13 EP EP13854639.5A patent/EP2922052B1/en active Active
- 2013-11-13 US US14/079,090 patent/US20140188465A1/en not_active Abandoned
- 2013-11-13 CN CN201711424971.9A patent/CN108074579B/zh active Active
-
2015
- 2015-05-13 PH PH12015501114A patent/PH12015501114A1/en unknown
- 2015-06-12 ZA ZA2015/04289A patent/ZA201504289B/en unknown
-
2017
- 2017-06-29 JP JP2017127285A patent/JP6530449B2/ja active Active
- 2017-07-20 AU AU2017206243A patent/AU2017206243B2/en active Active
-
2018
- 2018-04-18 RU RU2018114257A patent/RU2680352C1/ru active
- 2018-07-18 US US16/039,110 patent/US10468046B2/en active Active
-
2019
- 2019-10-04 US US16/593,041 patent/US11004458B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102331279B1 (ko) | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 | |
RU2630390C2 (ru) | Устройство и способ для маскирования ошибок при стандартизированном кодировании речи и аудио с низкой задержкой (usac) | |
US9928843B2 (en) | Method and apparatus for encoding/decoding speech signal using coding mode | |
EP2198424B1 (en) | A method and an apparatus for processing a signal | |
US20220180884A1 (en) | Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack | |
KR20100006491A (ko) | 무성음 부호화 및 복호화 방법 및 장치 | |
BR122020023798B1 (pt) | Método de codificação de um sinal de áudio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |