KR20170008837A - 오디오 신호를 처리하기 위한 방법 및 장치 - Google Patents
오디오 신호를 처리하기 위한 방법 및 장치 Download PDFInfo
- Publication number
- KR20170008837A KR20170008837A KR1020167035690A KR20167035690A KR20170008837A KR 20170008837 A KR20170008837 A KR 20170008837A KR 1020167035690 A KR1020167035690 A KR 1020167035690A KR 20167035690 A KR20167035690 A KR 20167035690A KR 20170008837 A KR20170008837 A KR 20170008837A
- Authority
- KR
- South Korea
- Prior art keywords
- value
- signal
- sample value
- sample
- audio
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 261
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000012545 processing Methods 0.000 title claims description 14
- 238000010606 normalization Methods 0.000 claims abstract description 152
- 230000003044 adaptive effect Effects 0.000 claims abstract description 150
- 238000012937 correction Methods 0.000 claims description 61
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000001174 ascending effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001580 bacterial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
- Telephone Function (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
음성 오디오 신호의 잡은 성분을 재구성하기 위한 방법 및 장치가 개시된다. 방법은 비트스트림(bitstream)을 수신하고, 비트스트림을 디코딩하여, 음성 오디오 신호를 획득하는 단계(101), 1 음성 오디오 신호를 음성 오디오 신호에 따라 결정하는 단계(102), 제1 음성 오디오 신호 내의 각 샘플 값의 심볼(symbol) 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값(amplitude value)을 결정하는 단계(103), 적응적 정규화 길이(adaptive normalization length)를 결정하는 단계(104), 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하는 단계(105), 그리고 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호인 제2 음성 오디오 신호를 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 결정하는 단계(106)를 포함한다.
Description
본 발명은 통신 분야에 관한 것으로, 특히 음성 오디오 신호를 처리하는 방법 및 장치에 관한 것이다.
본 출원은 2014년 6월 3일자로 중국 특허청에 제출된 "음성 오디오 신호 처리를 위한 방법 및 장치"라는 제목의 중국 특허 출원 제201410242233.2호의 우선권을 주장하며, 그 전문이 본 명세서에 참고로 포함된다.
현재, 음성 오디오 신호의 코딩된(coded) 정보를 디코딩(decoding)할 때, 보다 양호한 청각적 품질을 얻기 위해, 전자 장치는 디코딩에 의해 획득된 음성 오디오 신호의 잡음 성분(noise component)을 재구성한다.
현재, 전자 장치는 일반적으로 음성 오디오 신호에 랜덤 잡음 신호를 부가하여 음성 오디오 신호의 잡음 성분을 재구성한다. 구체적으로, 음성 오디오 신호 및 랜덤 잡음 신호에 대해 가중 가산이 수행되어, 음성 오디오 신호의 잡음 성분이 재구성된 후에 신호를 획득한다. 음성 오디오 신호는 시간 영역(time-domain) 신호, 주파수 영역(frequency-domain) 신호 또는 여기(excitation) 신호일 수 있거나, 저주파 신호, 고주파 신호 등일 수 있다.
그러나, 발명자는, 음성 오디오 신호가 온셋(onset) 또는 오프셋(offset)을 갖는 신호이면, 음성 오디오 신호의 잡음 성분을 재구성하기 위한 이 방법은, 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득된 신호가 반향(echo)를 가지므로, 잡음 성분이 재구성된 후에 획득된 신호의 청각적 품질에 영향을 미친다.
본 발명의 실시예는 음성 오디오 신호를 처리하기 위한 방법 및 장치를 제공하여, 온셋(onset) 또는 오프셋(offset)을 갖는 음성 오디오 신호에 대해, 음성 오디오 신호의 잡음 성분이 재구성되는 때, 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득된 신호가 반향을 가지지 않으므로, 잡음 성분이 재구성된 후의 청각적 품질을 개선한다.
제1 측면에 따르면, 본 발명의 실시예는 음성 오디오 신호를 처리하는 방법을 제공하고, 여기서 방법은 비트스트림(bitstream)을 수신하고, 비트스트림을 디코딩하여, 음성 오디오 신호를 획득하는 단계, 음성 오디오 신호 내에서, 재구성되어야 하는 잡음 성분(noise component)을 갖는 신호인 제1 음성 오디오 신호를 음성 오디오 신호에 따라 결정하는 단계, 제1 음성 오디오 신호 내의 각 샘플 값의 심볼(symbol) 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값(amplitude value)을 결정하는 단계, 적응적 정규화 길이(adaptive normalization length)를 결정하는 단계, 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하는 단계, 그리고 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호인 제2 음성 오디오 신호를 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 결정하는 단계를 포함한다.
제1 측면을 참조하여, 제1 측면의 첫 번째 가능한 구현 방식으로, 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하는 단계는, 각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하고, 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란(disturbance) 값을 결정하는 단계, 그리고 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산하는 단계를 포함한다.
제1 측면의 첫 번째 가능한 구현 방식을 참조하여, 제1 측면의 두 번째 가능한 구현 방식으로, 각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하는 것은, 적응적 정규화 길이에 따라 각 샘플 값에 대해, 샘플 값이 속하는 서브대역(subband)을 결정하는 단계, 그리고 샘플 값이 속하는 서브대역 내의 모든 샘플 값의 진폭 값의 평균을 계산하고, 계산에 의해 획득된 평균 값을 샘플 값에 대응하는 평균 진폭 값으로서 사용하는 단계를 포함한다.
제1 측면의 두 번째 가능한 구현 방식을 참조하여, 제1 측면의 세 번째 가능한 구현 방식으로, 적응적 정규화 길이에 따라 각 샘플 값에 대해 샘플 값이 속하는 서브대역(subband)을 결정하는 단계는, 적응적 정규화 길이에 따라 미리 설정된 순서로 모든 샘플 값에 대해 서브대역 그룹화를 수행하고, 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하는 단계, 또는 각 샘플 값에 대해, 샘플 값 이전의 m개의 샘플 값, 샘플 값, 샘플 값 이후의 n개의 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하는 단계를 포함하고, m 및 n은 적응적 정규화 길이에 의존하며, m은 0 이상의 정수이고, n은 0 이상의 정수이다.
제1 측면의 첫 번째 가능한 구현 방식, 및/또는 제1 측면의 두 번째 가능한 구현 방식, 및/또는 제1 측면의 세 번째 가능한 구현 방식을 참조하여, 제1 측면의 네 번째 가능한 구현 방식으로, 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산하는 단계는, 각 샘플 값의 진폭 값으로부터 각 샘플 값에 대응하는 진폭 외란 값을 감산하여, 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값 간의 차이를 획득하고, 획득된 차이를 각 샘플 값의 조정된 진폭 값으로서 사용하는 단계를 포함한다.
제1 측면, 및/또는 제1 측면의 첫 번째 가능한 구현 방식, 및/또는 제1 측면의 두 번째 가능한 구현 방식, 및/또는 제1 측면의 세 번째 가능한 구현 방식, 및/또는 제1 측면의 네 번째 가능한 구현 방식을 참조하여, 제1 측면의 다섯 번째 가능한 구현 방식으로, 적응적 정규화 길이를 결정하는 단계는, 음성 오디오 신호의 저주파 대역 신호를 N개의 서브대역으로 분할하는 단계, 각 서브대역의 피크 대 평균 비율(peak-to-average ratio)을 계산하고, 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량을 결정하는 단계, 그리고 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 적응적 정규화 길이를 계산하는 단계를 포함하고, N은 자연수이다.
제1 측면의 다섯 번째 가능한 구현 방식을 참조하여, 제1 측면의 여섯 번째 가능한 구현 방식으로, 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 적응적 정규화 길이를 계산하는 단계는, 수학식에 따라 적응적 정규화 길이를 계산하는 단계를 포함하고, , L은 적응적 정규화 길이이며, K는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 대응하는 수치이고, 고주파 대역 신호의 상이한 신호 유형은 상이한 수치 K에 대응하며, M은 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량이고, α는 1보다 작은 상수이다.
제1 측면, 및/또는 제1 측면의 첫 번째 가능한 구현 방식, 및/또는 제1 측면의 두 번째 가능한 구현 방식, 및/또는 제1 측면의 세 번째 가능한 구현 방식, 및/또는 제1 측면의 네 번째 가능한 구현 방식을 참조하여, 제1 측면의 일곱 번째 가능한 구현 방식으로, 적응적 정규화 길이를 결정하는 단계는, 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율(peak-to-average ratio) 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (1-1) 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (1-2) 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하는 단계, 또는 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (2-1) 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (2-2) 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하는 단계, 또는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 따라 적응적 정규화 길이를 결정하는 단계를 포함하고, 제1 길이 값은 제2 길이 값보다 크고, 고주파 대역 신호들의 상이한 신호 유형들은 상이한 적응적 정규화 길이들에 대응한다.
제1 측면, 및/또는 제1 측면의 첫 번째 가능한 구현 방식, 및/또는 제1 측면의 두 번째 가능한 구현 방식, 및/또는 제1 측면의 세 번째 가능한 구현 방식, 및/또는 제1 측면의 네 번째 가능한 구현 방식, 및/또는 제1 측면의 다섯 번째 가능한 구현 방식, 및/또는 제1 측면의 여섯 번째 가능한 구현 방식, 및/또는 제1 측면의 일곱 번째 가능한 구현 방식을 참조하여, 제1 측면의 여덟 번째 가능한 구현 방식으로, 제2 음성 오디오 신호를 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 결정하는 단계는, 제2 음성 오디오 신호를 획득하기 위해, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 새로운 값을 결정하는 단계, 또는 제2 음성 오디오 신호를 획득하기 위해, 수정 계수를 계산하고, 수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하며, 수정 처리 후에 획득된 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 각 샘플 값의 새로운 값을 결정하는 단계를 포함한다.
제1 측면의 여덟 번째 가능한 구현 방식을 참조하여, 제1 측면의 아홉 번째 가능한 구현 방식으로, 수정 계수를 계산하는 것은, 다음의 수학식을 사용하여 수정 계수를 계산하는 단계를 포함하고, , β는 수정 계수이고, L은 적응적 정규화 길이이며, a는 1 보다 큰 상수이다.
제1 측면의 여덟 번째 가능한 구현 방식, 및/또는 제1 측면의 아홉 번째 가능한 구현 방식을 참조하여, 제1 측면의 열 번째 가능한 구현 방식으로, 수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하는 것은, 다음의 수학식을 사용하여 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하는 단계를 포함하고, , Y는 수정 처리 후에 획득된 조정된 진폭 값이고, y는 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값이며, b는 0 보다 크고 2 보다 작은 상수이다.
제2 측면에 따르면, 본 발명의 실시예는 음성 오디오 신호의 잡음 성분(noise component)을 재구성하기 위한 장치를 제공하고, 여기서 장치는 비트스트림을 수신하고 비트스트림을 디코딩하여 음성 오디오 신호를 획득하도록 구성된 비트스트림 처리 유닛, 디코딩에 의해 획득된 음성 오디오 신호 내에서, 재구성되어야 하는 잡음 성분을 갖는 제1 음성 오디오 신호를 비트스트림 처리 유닛에 의해 획득된 음성 오디오 신호에 따라 결정하도록 구성된 신호 결정 유닛, 신호 결정 유닛에 의해 결정된 제1 음성 오디오 신호 내의 각 샘플 값의 심볼(symbol) 및 신호 결정 유닛에 의해 결정된 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값(amplitude value)을 결정하도록 구성된 제1 결정 유닛, 적응적 정규화 길이(adaptive normalization length)를 결정하도록 구성된 제2 결정 유닛, 제2 결정 유닛에 의해 결정된 적응적 정규화 길이 및 제1 결정 유닛에 의해 결정된 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하도록 구성된 제3 결정 유닛, 그리고 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호인 제2 음성 오디오 신호를 제1 결정 유닛에 의해 결정된 각 샘플 값의 심볼 및 제3 결정 유닛에 의해 결정된 각 샘플 값의 조정된 진폭 값에 따라 결정하도록 구성된 제4 결정 유닛을 포함한다.
제2 측면을 참조하여, 제2 측면의 첫 번째 가능한 구현 방식으로, 제3 결정 유닛은, 각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하고, 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란(disturbance) 값을 결정하도록 구성된 결정 서브유닛, 그리고 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산하도록 구성된 조정된 진폭 값 계산 서브유닛을 포함한다.
제2 측면의 첫 번째 가능한 구현 방식을 참조하여, 제2 측면의 두 번째 가능한 구현 방식으로, 결정 서브유닛은, 적응적 정규화 길이에 따라 각 샘플 값에 대해, 샘플 값이 속하는 서브대역(subband)을 결정하도록 구성된 결정 모듈, 그리고 샘플 값이 속하는 서브대역 내의 모든 샘플 값의 진폭 값의 평균을 계산하고, 계산에 의해 획득된 평균 값을 샘플 값에 대응하는 평균 진폭 값으로서 사용하도록 구성된 계산 모듈을 포함한다.
제2 측면의 두 번째 가능한 구현 방식을 참조하여, 제2 측면의 세 번째 가능한 구현 방식으로, 결정 모듈은 구체적으로, 적응적 정규화 길이에 따라 미리 설정된 순서로 모든 샘플 값에 대해 서브대역 그룹화를 수행하고, 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하거나, 또는 각 샘플 값에 대해, 샘플 값 이전의 m개의 샘플 값, 샘플 값, 샘플 값 이후의 n개의 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하도록 구성되고, m 및 n은 적응적 정규화 길이에 의존하며, m은 0 이상의 정수이고, n은 0 이상의 정수이다.
제2 측면의 첫 번째 가능한 구현 방식, 및/또는 제2 측면의 두 번째 가능한 구현 방식, 및/또는 제2 측면의 세 번째 가능한 구현 방식을 참조하여, 제2 측면의 네 번째 가능한 구현 방식으로, 조정된 진폭 값 계산 서브유닛은 구체적으로, 각 샘플 값의 진폭 값으로부터 각 샘플 값에 대응하는 진폭 외란 값을 감산하여, 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값 간의 차이를 획득하고, 획득된 차이를 각 샘플 값의 조정된 진폭 값으로서 사용하도록 구성된다.
제2 측면, 및/또는 제2 측면의 첫 번째 가능한 구현 방식, 및/또는 제2 측면의 두 번째 가능한 구현 방식, 및/또는 제2 측면의 세 번째 가능한 구현 방식, 및/또는 제2 측면의 네 번째 가능한 구현 방식을 참조하여, 제2 측면의 다섯 번째 가능한 구현 방식으로, 제2 결정 유닛은, 음성 오디오 신호의 저주파 대역 신호를 N개의 서브대역으로 분할하도록 구성된 분할 서브유닛, 각 서브대역의 피크 대 평균 비율(peak-to-average ratio)을 계산하고, 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량을 결정하도록 구성된 수량 결정 서브유닛, 그리고 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 적응적 정규화 길이를 계산하도록 구성된 길이 계산 서브유닛을 포함하고, N은 자연수이다.
제2 측면의 다섯 번째 가능한 구현 방식을 참조하여, 제2 측면의 여섯 번째 가능한 구현 방식으로, 길이 계산 서브유닛은 구체적으로, 다음의 수학식에 따라 적응적 정규화 길이를 계산하도록 구성되고, , L은 적응적 정규화 길이이며, K는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 대응하는 수치이고, 고주파 대역 신호의 상이한 신호 유형은 상이한 수치 K에 대응하며, M은 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량이고, α는 1보다 작은 상수이다.
제2 측면, 및/또는 제2 측면의 첫 번째 가능한 구현 방식, 및/또는 제2 측면의 두 번째 가능한 구현 방식, 및/또는 제2 측면의 세 번째 가능한 구현 방식, 및/또는 제2 측면의 네 번째 가능한 구현 방식을 참조하여, 제2 측면의 일곱 번째 가능한 구현 방식으로, 제2 결정 유닛은 구체적으로, 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율(peak-to-average ratio) 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (1-1) 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (1-2) 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (2-1) 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (2-2) 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 따라 적응적 정규화 길이를 결정하도록 구성되고, 제1 길이 값은 제2 길이 값보다 크고, 고주파 대역 신호들의 상이한 신호 유형들은 상이한 적응적 정규화 길이들에 대응한다.
제2 측면, 및/또는 제2 측면의 첫 번째 가능한 구현 방식, 및/또는 제2 측면의 두 번째 가능한 구현 방식, 및/또는 제2 측면의 세 번째 가능한 구현 방식, 및/또는 제2 측면의 네 번째 가능한 구현 방식, 및/또는 제2 측면의 다섯 번째 가능한 구현 방식, 및/또는 제2 측면의 여섯 번째 가능한 구현 방식, 및/또는 제2 측면의 일곱 번째 가능한 구현 방식을 참조하여, 제2 측면의 여덟 번째 가능한 구현 방식으로, 제4 결정 유닛은 구체적으로, 제2 음성 오디오 신호를 획득하기 위해, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 새로운 값을 결정하거나, 또는 제2 음성 오디오 신호를 획득하기 위해, 수정 계수를 계산하고, 수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하며, 수정 처리 후에 획득된 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 각 샘플 값의 새로운 값을 결정하도록 구성된다.
제2 측면의 여덟 번째 가능한 구현 방식을 참조하여, 제2 측면의 아홉 번째 가능한 구현 방식으로, 제4 결정 유닛은 구체적으로, 다음의 수학식을 사용하여 수정 계수를 계산하도록 구성되고, , β는 수정 계수이고, L은 적응적 정규화 길이이며, a는 1 보다 큰 상수이다.
제2 측면의 여덟 번째 가능한 구현 방식, 및/또는 제2 측면의 아홉 번째 가능한 구현 방식을 참조하여, 제2 측면의 열 번째 가능한 구현 방식으로, 제4 결정 유닛은 구체적으로, 다음의 수학식을 사용하여 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하도록 구성되고, , Y는 수정 처리 후에 획득된 조정된 진폭 값이고, y는 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값이며, b는 0 보다 크고 2 보다 작은 상수이다.
실시예에서, 음성 오디오 신호를 획득하기 위해, 비트스트림이 수신되고, 비트스트림이 디코딩되며, 제1 음성 오디오 신호가 음성 오디오 신호에 따라 결정되고, 제1 음성 오디오 신호 내의 각 샘플 값의 심볼 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값이 결정되며, 적응적 정규화 길이가 결정되고, 각 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 샘플 값의 조정된 진폭 값이 결정되며, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 제2 음성 오디오 신호가 결정된다. 이 과정에서, 원래의 신호만, 즉, 제1 음성 오디오 신호가 처리되고, 새로운 신호가 제1 음성 오디오 신호에 부가되지 않으므로, 잡음 성분이 재구성된 후에 새로운 에너지가 제2 음성 오디오 신호에 부가되지 않는다. 따라서, 제1 음성 오디오 신호가 온셋 또는 오프셋을 가지면, 반향이 제2 음성 오디오 신호에 부가되지 않으므로, 제2 음성 오디오 신호의 청각적 품질을 개선한다.
전술한 일반적인 설명 및 다음의 상세한 설명은 단지 예시적인 것이며, 본 발명의 보호 범위를 제한하려는 것은 아니라는 것을 이해해야 한다.
본 발명의 실시예 또는 종래 기술의 기술적 해결책을 보다 명확하게 설명하기 위해, 실시예 또는 종래 기술을 설명하기 위해 요구되는 첨부 도면을 간단히 소개한다. 명백하게, 다음의 설명에서의 첨부된 도면은 본 발명의 단지 일부 실시예를 도시하고, 당업자는 창의적인 노력 없이도 이들 도면으로부터 다른 도면을 유도할 수 있다.
도 1은 본 발명의 일 실시예에 따라 음성 오디오 신호의 잡음 성분을 재구성하기 위한 방법의 개략적인 순서도이다.
도 1a는 본 발명의 일 실시예에 따라 샘플 값들의 그룹화의 일 예를 나타낸 개략도이다.
도 1b는 본 발명의 일 실시예에 따라 샘플 값들의 그룹화의 일 예의 다른 개략도이다.
도 2는 본 발명의 일 실시예에 따라 음성 오디오 신호의 잡음 성분을 재구성하기 위한 다른 방법의 개략적인 순서도이다.
도 3은 본 발명의 일 실시예에 따라 음성 오디오 신호의 잡음 성분을 재구성하기 위한 다른 방법의 개략적인 순서도이다.
도 4는 본 발명의 일 실시예에 따라 음성 오디오 신호의 잡음 성분을 재구성하기 위한 장치의 개략적인 구조도이다.
도 5는 본 발명의 일 실시예에 따른 전자 장치의 개략적인 구조도이다.
전술한 첨부 도면은 본 발명의 특정 실시예를 도시하고, 보다 상세한 설명이 하기에서 제공된다. 첨부된 도면 및 텍스트 설명은 임의의 방식으로 본 발명의 사상의 범위를 제한하고자 하는 것이 아니라, 특정 실시예를 참조하여 당업자에게 본 발명의 개념을 설명하기 위한 것이다.
도 1은 본 발명의 일 실시예에 따라 음성 오디오 신호의 잡음 성분을 재구성하기 위한 방법의 개략적인 순서도이다.
도 1a는 본 발명의 일 실시예에 따라 샘플 값들의 그룹화의 일 예를 나타낸 개략도이다.
도 1b는 본 발명의 일 실시예에 따라 샘플 값들의 그룹화의 일 예의 다른 개략도이다.
도 2는 본 발명의 일 실시예에 따라 음성 오디오 신호의 잡음 성분을 재구성하기 위한 다른 방법의 개략적인 순서도이다.
도 3은 본 발명의 일 실시예에 따라 음성 오디오 신호의 잡음 성분을 재구성하기 위한 다른 방법의 개략적인 순서도이다.
도 4는 본 발명의 일 실시예에 따라 음성 오디오 신호의 잡음 성분을 재구성하기 위한 장치의 개략적인 구조도이다.
도 5는 본 발명의 일 실시예에 따른 전자 장치의 개략적인 구조도이다.
전술한 첨부 도면은 본 발명의 특정 실시예를 도시하고, 보다 상세한 설명이 하기에서 제공된다. 첨부된 도면 및 텍스트 설명은 임의의 방식으로 본 발명의 사상의 범위를 제한하고자 하는 것이 아니라, 특정 실시예를 참조하여 당업자에게 본 발명의 개념을 설명하기 위한 것이다.
이하, 본 발명의 실시예의 기술적 해결책을, 본 발명의 실시예의 첨부 도면을 참조하여 명확하고 완전하게 설명한다. 명백하게, 설명된 실시예는 본 발명의 실시예의 전부가 아니라 일부에 불과하다. 창의적인 노력없이 본 발명의 실시예에 기초하여 당업자에 의해 획득된 다른 모든 실시예는 본 발명의 보호 범위 내에 있다.
본 발명의 완전한 이해를 제공하기 위해 다수의 특정 세부 사항이 이하의 상세한 설명에서 언급된다. 그러나, 당업자는 본 발명이 이러한 특정 세부 사항 없이 구현될 수 있음을 이해해야 한다. 다른 실시예들에서, 공지된 방법, 프로세스(process), 구성요소(component), 및 회로는 실시예들을 불필요하게 불명료하게하지 않기 위해 상세하게 설명되지 않는다.
도 1을 참조하면, 도 1은 본 발명의 일 실시예에 따른 음성 오디오 신호의 잡음 성분을 재구성하기 위한 방법의 순서도다. 이 방법은 다음을 포함한다.
단계(101): 비트스트림(bitstream)을 수신하고 비트스트림을 디코딩하여 음성 오디오 신호를 획득한다.
음성 오디오 신호를 얻기 위해, 비트스트림을 디코딩하는 방법에 대한 세부 사항은 본 명세서에서 설명하지 않는다.
단계(102): 디코딩에 의해 획득된 음성 오디오 신호 내에서, 재구성되어야 하는 잡음 성분을 갖는 신호인 제1 음성 오디오 신호를 음성 오디오 신호에 따라 결정한다.
제1 음성 오디오 신호는 디코딩에 의해 획득된 음성 오디오 신호 내의 저주파 대역 신호, 고주파 대역 신호, 또는 전대역 신호 등일 수 있다.
디코딩에 의해 획득된 음성 오디오 신호는 저주파 대역 신호 및 고주파 대역 신호를 포함할 수 있거나, 또는 전대역 신호를 포함할 수 있다.
단계(103): 제1 음성 오디오 신호 내의 각 샘플 값의 심볼(symbol) 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값(amplitude value)을 결정한다.
제1 음성 오디오 신호가 다른 구현 방식을 갖는 경우, 샘플 값의 구현 방식이 다를 수도 있다. 예를 들어, 제1 음성 오디오 신호가 주파수 영역(frequency-domain) 신호이면, 샘플 값은 스펙트럼 계수일 수 있다. 음성 오디오 신호가 시간 영역(time-domain) 신호이면, 샘플 값은 샘플 포인트 값일 수 있다.
단계(104): 적응적 정규화 길이를 결정한다.
적응적 정규화 길이는 디코딩에 의해 획득된 음성 오디오 신호의 저주파 대역 신호 및/또는 고주파 대역 신호의 관련 파라미터에 따라 결정될 수 있다. 구체적으로, 관련 파라미터는 신호 유형, 피크 대 평균 비율 등을 포함할 수 있다. 예를 들어, 가능한 구현 방식으로, 적응적 정규화 길이를 결정하는 단계는 음성 오디오 신호의 저주파 대역 신호를 자연수인 N 개의 서브대역으로 분할하는 단계, 각 서브대역의 피크 대 평균 비율(peak-to-average ratio)을 계산하고, 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량을 결정하는 단계, 그리고 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 적응적 정규화 길이를 계산하는 단계를 포함할 수 있다.
선택적으로, 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역들의 수에 따라 적응적 정규화 길이를 계산하는 단계는, 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 적응적 정규화 길이를 계산하는 단계는, 수학식 1에 따라 적응적 정규화 길이를 계산하는 단계를 포함하고,
여기서, L은 적응적 정규화 길이이며, K는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 대응하는 수치이고, 고주파 대역 신호의 상이한 신호 유형은 상이한 수치 K에 대응하며, M은 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량이고, α는 1보다 작은 상수이다.
다른 가능한 구현 방식으로, 적응적 정규화 길이는 음성 오디오 신호 내의 저주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 계산될 수 있다. 구체적인 계산 수학식은, 수학식 2를 참조한다.
차이점은 단지, 이 경우, K가 음성 오디오 신호 내의 저주파 대역 신호의 신호 유형에 대응하는 수치라는 것이다. 저주파 대역 신호의 상이한 신호 유형은 상이한 수치 값 K에 대응한다.
세 번째 가능한 구현 방식에서, 정규화 길이를 결정하는 단계는, 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하는 단계를 포함할 수 있다.
제1 길이 값은 제2 길이 값보다 크다. 또한, 제1 길이 값 및 제2 길이 값은 고주파 대역 신호의 피크 대 평균 비율에 대한 저주파 대역 신호의 피크 대 평균 비율의 비율, 또는 저주파 대역 신호의 피크 대 평균 비율과 고주파 대역 신호의 피크 대 평균 비율 사이의 차이를 사용하여 계산함으로써 획득될 수 있다. 구체적인 계산 방법은 제한되지 않는다.
네 번째 가능한 구현 방식으로, 적응적 정규화 길이를 결정하는 단계는, 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하는 단계를 포함할 수 있다. 제1 길이 값은 제2 길이 값보다 크다. 또한, 제1 길이 값 및 제2 길이 값은 고주파 대역 신호의 피크 대 평균 비율에 대한 저주파 대역 신호의 피크 대 평균 비율의 비율을 사용하여 계산함으로써 획득되거나, 저주파 대역 신호의 피크 대 평균 비와 고주파 대역 신호의 피크 대 평균 비 사이의 차이. 또한, 제1 길이 값 및 제2 길이 값은 고주파 대역 신호의 피크 대 평균 비율에 대한 저주파 대역 신호의 피크 대 평균 비율의 비율, 또는 저주파 대역 신호의 피크 대 평균 비율과 고주파 대역 신호의 피크 대 평균 비율 사이의 차이를 사용하여 계산함으로써 획득될 수 있다. 구체적인 계산 방법은 제한되지 않는다.
다섯 번째 가능한 구현 방식으로, 적응적 정규화 길이를 결정하는 단계는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 따라 적응적 정규화 길이를 결정하는 단계를 포함할 수 있다. 상이한 신호 유형은 상이한 적응적 정규화 길이에 대응한다. 예를 들어, 신호 유형이 하모닉 신호(harmonic signal)인 경우, 대응하는 적응적 정규화 길이는 32이다. 신호 유형이 정상 신호(normal signal)인 경우, 대응하는 적응적 정규화 길이는 16이다. 신호 유형이 과도 신호(transient signal)일 때, 대응하는 적응적 정규화 길이는 8이다.
단계(105): 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정한다.
적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하는 단계는, 각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하고, 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란(disturbance) 값을 결정하는 단계, 그리고 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산하는 단계를 포함할 수 있다.
각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하는 것은, 적응적 정규화 길이에 따라 각 샘플 값에 대해, 샘플 값이 속하는 서브대역(subband)을 결정하는 단계, 그리고 샘플 값이 속하는 서브대역 내의 모든 샘플 값의 진폭 값의 평균을 계산하고, 계산에 의해 획득된 평균 값을 샘플 값에 대응하는 평균 진폭 값으로서 사용하는 단계를 포함할 수 있다.
적응적 정규화 길이에 따라 각 샘플 값에 대해 샘플 값이 속하는 서브대역(subband)을 결정하는 단계는, 적응적 정규화 길이에 따라 미리 설정된 순서로 모든 샘플 값에 대해 서브대역 그룹화를 수행하고, 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하는 단계를 포함할 수 있다.
미리 설정된 순서는, 예를 들어, 저주파수에서 고주파수로의 순서 또는 고주파수에서 저주파수로의 순서일 수 있으며, 여기에 한정되지는 않는다.
예를 들어, 도 1a를 참조하면, 오름차순으로 샘플 값을 각각 x1, x2, x3, ..., xn, 적응적 정규화 길이를 5라고 가정하면, x1 내지 x5는 하나의 서브대역으로 그룹화될 수 있고, x6 내지 x10은 하나의 서브대역으로 그룹화될 수 있다. 유추에 의해, 여러 개의 서브대역들이 획득된다. 따라서, x1 내지 x5의 각 샘플 값에 대해, 서브대역 x1 내지 x5는 각 샘플 값이 속하는 서브대역이고, x6 내지 x10의 각 샘플 값에 대해, 서브대역 x6 내지 x10은 각 샘플 값이 속하는 서브대역이다.
대안적으로, 적응적 정규화 길이에 따라 각 샘플 값에 대해 샘플 값이 속하는 서브대역(subband)을 결정하는 단계는, 각 샘플 값에 대해, 샘플 값 이전의 m개의 샘플 값, 샘플 값, 샘플 값 이후의 n개의 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하는 단계를 포함할 수 있고, 여기서 m 및 n은 적응적 정규화 길이에 의존하며, m은 0 이상의 정수이고, n은 0 이상의 정수이다.
예를 들어, 도 1b을 참조하면, 오름차순의 샘플 값은 각각 x1, x2, x3, ..., 및 xn이고, 적응적 정규화 길이는 5이며, m은 2이고, n은 2이다. 샘플 값 x3에 대해, x1 내지 x5로 구성된 서브대역은 샘플 값 x3이 속하는 서브대역이다. 샘플 값 x4에 대해, x2 내지 x6으로 구성된 서브대역은 샘플 값 x4가 속하는 서브대역이다. 나머지는 유추에 의해 추론될 수 있다. 샘플 값 x1 및 x2가 속하는 서브대역을 형성하기에 샘플 값 x1 및 x2 이전에 충분한 샘플 값이 없으며, 샘플 값 x(n-1) 및 xn이 속하는 서브대역을 형성하기에 샘플 값 x(n-1) 및 xn 다음에 충분한 샘플 값이 없기 때문에, 실제 응용에서, x1, x2, x(n-1), 및 xn이 속하는 서브대역이 자율적으로 설정될 수 있다. 예를 들어, 샘플 값이 속하는 서브대역 내의 샘플 값의 부족을 보상하도록 샘플 값 자체가 추가될 수 있다. 예를 들어, 샘플 값 x1의 경우, 샘플 값 x1 이전에 샘플 값이 없고, x1, x1, x1, x2, 및 x3은 샘플 값 x1이 속하는 서브대역으로 사용될 수 있다.
각 샘플 값에 대응하는 진폭 외란 값을 각 샘플 값에 대응하는 평균 진폭 값에 따라 결정하는 때, 각 샘플 값에 대응하는 평균 진폭 값은 각 샘플 값에 대응하는 진폭 외란 값으로서 직접 사용될 수 있다. 또는, 각 샘플 값에 대응하는 진폭 외란 값을 획득하기 위해, 각 샘플 값에 대응하는 평균 진폭 값에 대해 미리 설정된 연산이 수행될 수 있다. 미리 설정된 연산은, 예를 들어, 평균 진폭 값에 수치가 승산되는 것일 수 있다. 수치 일반적으로 0보다 크다.
각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산하는 단계는, 각 샘플 값의 진폭 값으로부터 각 샘플 값에 대응하는 진폭 외란 값을 감산하여, 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값 간의 차이를 획득하고, 획득된 차이를 각 샘플 값의 조정된 진폭 값으로서 사용하는 단계를 포함할 수 있다.
단계(106): 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호인 제2 음성 오디오 신호를 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 결정한다.
가능한 구현 방식으로, 제2 음성 오디오 신호를 획득하기 위해, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 새로운 값이 결정될 수 있다.
다른 가능한 구현 방식으로, 제2 음성 오디오 신호를 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 결정하는 단계는, 제2 음성 오디오 신호를 획득하기 위해, 수정 계수를 계산하고, 수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하며, 수정 처리 후에 획득된 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 각 샘플 값의 새로운 값을 결정하는 단계를 포함할 수 있다.
가능한 구현 방식으로, 획득된 제2 음성 오디오 신호는 모든 샘플 값들의 새로운 값을 포함할 수 있다.
수정 계수는 적응적 정규화 길이에 따라 계산될 수 있다. 구체적으로, 수정 계수 β는 a/L과 같을 수 있고, 여기서 a는 1보다 큰 상수이다.
수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하는 것은,
다음의 수학식 3을 사용하여 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하는 단계를 포함하고,
여기서, Y는 수정 처리 후에 획득된 조정된 진폭 값이고, y는 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값이며, b는 0보다 크고 2보다 작은 상수이다.
단계(103)에서 제1 음성 오디오 신호 내의 각 샘플 값의 심볼을 추출하는 단계는 단계(106) 이전의 임의의 시간에 수행될 수 있다. 제1 음성 오디오 신호 내의 각 샘플 값의 심볼을 추출하는 단계와 단계(104) 및 단계(105) 사이에 필연적인 실행 순서는 없다.
단계(103)과 단계(104) 사이의 실행 순서는 제한되지 않는다.
종래 기술에서, 음성 오디오 신호가 온셋 또는 오프셋을 갖는 신호인 경우, 음성 오디오 신호 내의 시간 영역 신호는 한 프레임 내에 있을 수 있다. 이 경우, 음성 오디오 신호의 일부는 매우 큰 신호 샘플 포인트 값 및 매우 강력한 신호 에너지를 가지며, 반면에 음성 오디오 신호의 다른 부분은 매우 작은 신호 샘플 포인트 값 및 매우 약한 신호 에너지를 갖는다. 이 경우, 잡음 성분이 재구성된 후의 신호를 획득하기 위해, 주파수 영역에서 음성 오디오 신호에 랜덤 잡음 신호가 부가된다. 랜덤 잡음 신호의 에너지는 시간 영역의 한 프레임 내에서 균일하기 때문에, 잡음 성분이 재구성된 후에 획득된 주파수 영역 신호가 신호 영역 신호로 변환되는 때, 새롭게 부가된 랜덤 잡음 신호는 일반적으로 변환에 의해 획득된 시간 영역 신호 내의, 원래의 샘플 포인트 값이 매우 작은, 일부의 신호 에너지를 증가시킨다. 이 부분의 신호 샘플 포인트 값 또한 이에 따라 상대적으로 커지게 된다. 결과적으로, 잡음 성분이 재구성된 후에 획득된 신호는 약간의 반향을 가지며, 이는 잡음 성분이 재구성된 후에 획득된 신호의 청각적 품질에 영향을 미친다.
이 실시예에서, 제1 음성 오디오 신호가 음성 오디오 신호에 따라 결정되고, 제1 음성 오디오 신호 내의 각 샘플 값의 심볼 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값이 결정되며, 적응적 정규화 길이가 결정되고, 각 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 샘플 값의 조정된 진폭 값이 결정되며, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 제2 음성 오디오 신호가 결정된다. 이 과정에서, 원래의 신호만, 즉, 제1 음성 오디오 신호가 처리되고, 새로운 신호가 제1 음성 오디오 신호에 부가되지 않으므로, 잡음 성분이 재구성된 후에 새로운 에너지가 제2 음성 오디오 신호에 부가되지 않는다. 따라서, 제1 음성 오디오 신호가 온셋 또는 오프셋을 가지면, 제2 음성 오디오 신호에 반향이 부가되지 않으므로, 제2 음성 오디오 신호의 청각적 품질을 개선한다.
도 2를 참조하면, 도 2는 본 발명의 일 실시예에 따른 음성 오디오 신호의 잡음 성분을 재구성하기 위한 방법의 다른 개략적인 순서도다. 이 방법은 다음을 포함한다.
단계(201): 비트스트림을 수신하고, 비트스트림을 디코딩하여, 저주파 대역 신호 및 고주파 대역 신호를 포함하는 음성 오디오 신호를 획득하고, 고주파 대역 신호를 제1 음성 오디오 신호로서 결정할 수 있다.
비트스트림을 디코딩하는 방법은 본 발명에서 제한되지 않는다.
단계(202): 고주파 대역 신호 내의 각 샘플 값의 심볼 및 고주파 대역 신호 내의 각 샘플 값의 진폭 값을 결정한다.
예를 들어, 고주파 대역 신호의 샘플 값의 계수가 -4이면, 샘플 값의 심볼은 "-"이고, 진폭 값은 4이다.
단계(203): 적응적 정규화 길이를 결정한다.
적응적 정규화 길이를 결정하는 방법에 대한 자세한 내용은 단계(104)의 관련 설명을 참조한다. 세부 사항은 여기에서 다시 설명하지 않는다.
단계(204): 각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 결정하고, 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란 값을 결정한다.
각 샘플 값에 해당하는 평균 진폭 값을 결정하는 방법은 단계(105)의 관련 설명을 참조한다. 세부 사항은 여기에서 다시 설명하지 않는다.
단계(205): 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산한다.
각 샘플 값의 조정된 진폭 값을 결정하는 방법에 대해서는, 단계(105)의 관련 설명을 참조한다. 세부 사항은 여기에서 다시 설명하지 않는다.
단계(206): 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 제2 음성 오디오 신호를 결정한다.
제2 음성 오디오 신호는 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호이다.
이 단계의 구체적인 구현에 대해서는, 단계(106)의 관련 설명을 참조한다. 세부 사항은 여기에서 다시 설명하지 않는다.
단계(202)에서 제1 음성 오디오 신호 내의 각 샘플 값의 심볼을 결정하는 단계는 단계(206) 이전의 임의의 시간에 수행될 수 있다. 제1 음성 오디오 신호 내의 각 샘플 값의 심볼을 결정하는 단계와 단계(203), 단계(204), 및 단계(205) 사이에 필연적인 실행 순서는 없다.
단계(202)와 단계(203) 사이의 실행 순서는 제한되지 않는다.
단계(207): 출력 신호를 획득하기 위해, 디코딩에 의해 획득된 음성 오디오 신호 내의 제2 음성 오디오 신호 및 저주파 대역 신호를 결합한다.
출력 신호를 획득하기 위해, 제1 음성 오디오 신호가 디코딩에 의해 획득된 음성 오디오 신호 내의 저주파 대역 신호이면, 디코딩에 의해 획득된 음성 오디오 신호 내의 제2 음성 오디오 신호 및 고주파 대역 신호가 결합될 수 있다.
출력 신호를 획득하기 위해, 제1 음성 오디오 신호가 디코딩에 의해 획득된 음성 오디오 신호 내의 고주파 대역 신호이면, 디코딩에 의해 획득된 음성 오디오 신호 내의 제2 음성 오디오 신호 및 저주파 대역 신호가 결합될 수 있다.
제1 음성 오디오 신호가 디코딩에 의해 획득된 음성 오디오 신호 내의 전대역 신호이면, 제2 음성 오디오 신호는 출력 신호로서 직접 결정될 수 있다.
본 실시예에서는, 제2 음성 오디오 신호를 획득하기 위해, 디코딩에 의해 획득된 음성 오디오 신호 내의 고주파 대역 신호의 잡음 성분을 재구성하여, 고주파 대역 신호의 잡음 성분이 최종적으로 재구성된다. 따라서, 고주파 대역 신호가 온셋 또는 오프셋을 갖는 경우, 제2 음성 오디오 신호에 반향이 추가되지 않으므로, 제2 음성 오디오 신호의 청각적 품질을 향상시키고 최종적으로 출력된 출력 신호의 청각적 품질을 더욱 향상시킨다.
도 3은 본 발명의 일 실시예에 따른 음성 오디오 신호의 잡음 성분을 재구성하기 위한 방법의 다른 개략적인 순서도이다. 이 방법은 다음을 포함한다.
단계(301) 내지 단계(305)는 단계(201) 내지 단계(205)와 동일하며, 상세한 설명은 여기에서 다시 기술하지 않는다.
단계(306): 수정 계수를 계산하고, 수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0보다 큰, 조정된 진폭 값에 대한 수정 처리를 수행한다.
이 단계의 구체적인 구현에 대해서는, 단계(106)의 관련 설명을 참조한다. 세부 사항은 여기에서 다시 설명하지 않는다.
단계(307): 각 샘플 값의 심볼 및 수정 처리 후에 획득된 조정된 진폭 값에 따라 제2 음성 오디오 신호를 결정한다.
이 단계의 특정 구현에 대해서는, 단계(106)의 관련 설명을 참조한다. 세부 사항은 여기에서 다시 설명하지 않는다.
단계(302)에서 제1 음성 오디오 신호 내의 각 샘플 값의 심볼을 결정하는 단계는 단계(307) 이전의 임의의 시간에 수행될 수 있다. 제1 음성 오디오 신호 내의 각 샘플 값의 심볼을 결정하는 단계와 단계(303), 단계(304), 단계(305), 및 단계(306) 사이에 필연적인 실행 순서는 없다.
단계(302)와 단계(303) 사이의 실행 순서는 제한되지 않는다.
단계(308): 출력 신호를 획득하기 위해, 디코딩에 의해 획득된 음성 오디오 신호 내의 제2 음성 오디오 신호 및 저주파 대역 신호를 결합한다.
도 2에 도시된 실시예와 관련하여, 이 실시예에서, 각 샘플 값의 조정된 진폭 값이 획득된 후, 조정된 진폭 값들 내의, 0보다 큰, 조정된 진폭 값이 추가로 수정됨으로써, 제2 음성 오디오 신호의 청각적 품질을 더욱 개선하고, 최정족으로 출력되는 출력 신호의 청각적 품질을 더욱 개선할 수 있다.
본 발명의 실시예에 따른 도 2 및 도 3의 음성 오디오 신호의 잡음 성분을 재구성하기 위한 예시적인 방법들에서, 디코딩에 의해 획득된 음성 오디오 신호의 고주파 대역 신호는 제1 음성 오디오 신호로서 결정되고, 제1 음성 오디오 신호의 잡음 성분이 재구성되어, 최종적으로 제2 음성 오디오 신호를 획득한다. 실제 응용에서, 본 발명의 실시예에 따른 음성 오디오 신호의 잡음 성분을 재구성하기 위한 방법에 따르면, 디코딩에 의해 획득된 음성 오디오 신호의 전대역 신호의 잡음 성분이 재구성될 수 있거나, 또는 디코딩에 의해 획득된 음성 오디오 신호의 저주파 대역 신호의 잡음 성분이 재구성되어, 최종적으로 제2 음성 오디오 신호를 획득한다. 그 구현 프로세스에 대해서는, 도 2 및 도 3에 도시된 예시적인 방법을 참조한다. 차이점은, 제1 음성 오디오 신호가 결정될 때, 전대역 신호 또는 저주파 대역 신호가 제1 음성 오디오 신호로서 결정된다는 것이다. 여기에서 예를 하나씩 사용하여 설명이 제공되지 않는다.
도 4를 참조하면, 도 4는 본 발명의 실시예에 따른 음성 오디오 신호의 잡음 성분을 재구성하기 위한 장치의 개략적인 구조도이다. 장치는 전자 장치에 배치될 수 있다. 장치(400)는 비트스트림을 수신하고 비트스트림을 디코딩하여 음성 오디오 신호를 획득하며, 디코딩에 의해 획득된 음성 오디오 신호 내에서, 재구성되어야 하는 잡음 성분을 갖는 제1 음성 오디오 신호를 음성 오디오 신호에 따라 결정하도록 구성된 비트스트림 처리 유닛(410), 비트스트림 처리 유닛(410)에서 획득된 음성 오디오 신호에 따라 제1 음성 오디오 신호를 결정하는 신호 결정 유닛(420), 신호 결정 유닛에 의해 결정된 제1 음성 오디오 신호 내의 각 샘플 값의 심볼 및 신호 결정 유닛에 의해 결정된 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값을 결정하도록 구성된 제1 결정 유닛(430), 적응적 정규화 길이를 결정하도록 구성된 제2 결정 유닛(440), 제2 결정 유닛(440)에 의해 결정된 적응적 정규화 길이 및 제1 결정 유닛(430)에 의해 결정된 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하도록 구성된 제3 결정 유닛(450), 그리고 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호인 제2 음성 오디오 신호를 제1 결정 유닛(430)에 의해 결정된 각 샘플 값의 심볼 및 제3 결정 유닛(450)에 의해 결정된 각 샘플 값의 조정된 진폭 값에 따라 결정하도록 구성된 제4 결정 유닛(460)을 포함할 수 있다.
선택적으로, 제3 결정 유닛(450)은, 각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하고, 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란 값을 결정하도록 구성된 결정 서브유닛, 그리고 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산하도록 구성된 조정된 진폭 값 계산 서브유닛을 포함할 수 있다.
선택적으로, 결정 서브 유닛은, 적응적 정규화 길이에 따라 각 샘플 값에 대해, 샘플 값이 속하는 서브대역을 결정하도록 구성된 결정 모듈, 그리고 샘플 값이 속하는 서브대역 내의 모든 샘플 값의 진폭 값의 평균을 계산하고, 계산에 의해 획득된 평균 값을 샘플 값에 대응하는 평균 진폭 값으로서 사용하도록 구성된 계산 모듈을 포함할 수 있다.
선택적으로, 결정 모듈은 구체적으로, 적응적 정규화 길이에 따라 미리 설정된 순서로 모든 샘플 값에 대해 서브대역 그룹화를 수행하고, 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하거나, 또는 각 샘플 값에 대해, 샘플 값 이전의 m개의 샘플 값, 샘플 값, 샘플 값 이후의 n개의 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하도록 구성될 수 있고, 여기서 m 및 n은 적응적 정규화 길이에 의존하며, m은 0 이상의 정수이고, n은 0 이상의 정수이다.
선택적으로, 조정된 진폭 값 계산 서브유닛은 구체적으로, 각 샘플 값의 진폭 값으로부터 각 샘플 값에 대응하는 진폭 외란 값을 감산하여, 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값 간의 차이를 획득하고, 획득된 차이를 각 샘플 값의 조정된 진폭 값으로서 사용하도록 구성된다.
선택적으로, 제2 결정 유닛(440)은, 음성 오디오 신호의 저주파 대역 신호를 자연수인 N개의 서브대역으로 분할하도록 구성된 분할 서브유닛, 각 서브대역의 피크 대 평균 비율을 계산하고, 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량을 결정하도록 구성된 수량 결정 서브유닛, 그리고 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 적응적 정규화 길이를 계산하도록 구성된 길이 계산 서브유닛을 포함할 수 있다.
선택적으로 길이 계산 서브유닛은 구체적으로, 다음의 수학식 4에 따라 적응적 정규화 길이를 계산하도록 구성될 수 있고,
여기서 L은 적응적 정규화 길이이며, K는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 대응하는 수치이고, 고주파 대역 신호의 상이한 신호 유형은 상이한 수치 K에 대응하며, M은 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량이고, α는 1보다 작은 상수이다.
선택적으로, 제2 결정 유닛(440)은 구체적으로, 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 따라 적응적 정규화 길이를 결정하도록 구성될 수 있고, 여기서 제1 길이 값은 제2 길이 값보다 크고, 고주파 대역 신호들의 상이한 신호 유형들은 상이한 적응적 정규화 길이들에 대응한다.
선택적으로, 제4 결정 유닛(460)은 구체적으로, 제2 음성 오디오 신호를 획득하기 위해, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 새로운 값을 결정하거나, 또는 제2 음성 오디오 신호를 획득하기 위해, 수정 계수를 계산하고, 수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하며, 수정 처리 후에 획득된 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 각 샘플 값의 새로운 값을 결정하도록 구성될 수 있다.
선택적으로, 제4 결정 유닛(460)은 구체적으로, 다음의 수학식 5를 사용하여 수정 계수를 계산하도록 구성될 수 있고,
여기서 β는 수정 계수이고, L은 적응적 정규화 길이이며, a는 1보다 큰 상수이다.
선택적으로, 제4 결정 유닛은 구체적으로, 다음의 수학식 6을 사용하여 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하도록 구성될 수 있고,
Y는 수정 처리 후에 획득된 조정된 진폭 값이고, y는 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값이며, b는 0보다 크고 2보다 작은 상수이다.
이 실시예에서, 제1 음성 오디오 신호가 음성 오디오 신호에 따라 결정되고, 제1 음성 오디오 신호 내의 각 샘플 값의 심볼 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값이 결정되며, 적응적 정규화 길이가 결정되고, 각 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 샘플 값의 조정된 진폭 값이 결정되며, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 제2 음성 오디오 신호가 결정된다. 이 과정에서, 원래의 신호만, 즉, 제1 음성 오디오 신호가 처리되고, 새로운 신호가 제1 음성 오디오 신호에 부가되지 않으므로, 잡음 성분이 재구성된 후에 새로운 에너지가 제2 음성 오디오 신호에 부가되지 않는다. 따라서, 제1 음성 오디오 신호가 온셋 또는 오프셋을 가지면, 제2 음성 오디오 신호에 반향이 부가되지 않으므로, 제2 음성 오디오 신호의 청각적 품질을 개선한다.
도 5를 참조하면, 도 5는 본 발명의 일 실시예에 따른 전자 장치의 구조도이다. 전자 장치(500)는 프로세서(510), 메모리(520), 트랜시버(530), 및 버스(540)를 포함한다.
프로세서(510), 메모리(520), 및 트랜시버(530)는 버스(540)를 사용하여 서로 연결되고, 버스(540)는 ISA 버스, PCI 버스 또는 EISA 버스 등일 수 있다. 버스는 어드레스 버스, 데이터 버스, 제어 버스 등으로 분류될 수 있다. 표시의 용이함을 위해, 5는 굵은 선을 하나만 사용하여 나타내지만 버스가 하나 또는 버스 유형이 하나만 있음을 나타내지는 않는다.
메모리(520)는 프로그램을 저장하도록 구성된다. 특히, 프로그램은 프로그램 코드를 포함할 수 있고, 프로그램 코드는 컴퓨터 동작 명령을 포함한다. 메모리(520)는 고속 RAM 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 장치와 같은 비휘발성 메모리(non-volatile memory)를 더 포함할 수 있다.
트랜시버(530)는 다른 장치에 연결하고, 다른 장치와 통신하도록 구성된다. 특히, 트랜시버(530)는 비트스트림을 수신하도록 구성될 수 있다.
프로세서(510)는 메모리(520)에 저장된 프로그램 코드를 실행하고, 비트스트림을 디코딩하여, 음성 오디오 신호를 획득하고, 음성 오디오 신호에 따라 제1 음성 오디오 신호를 결정하며, 제1 음성 오디오 신호 내의 각 샘플 값의 심볼 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값을 결정하고, 적응적 정규화 길이를 결정하며, 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하고, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 제2 음성 오디오 신호를 결정하도록 구성된다.
선택적으로, 프로세서(510)는 구체적으로, 각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하고, 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란 값을 결정하고, 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산하도록 구성될 수 있다.
선택적으로, 프로세서(510)는 구체적으로, 결정 서브 유닛은 적응적 정규화 길이에 따라 각 샘플 값에 대해, 샘플 값이 속하는 서브대역을 결정하고, 샘플 값이 속하는 서브대역 내의 모든 샘플 값의 진폭 값의 평균을 계산하고, 계산에 의해 획득된 평균 값을 샘플 값에 대응하는 평균 진폭 값으로서 사용하도록 구성될 수 있다.
선택적으로, 프로세서(510)는 구체적으로, 적응적 정규화 길이에 따라 미리 설정된 순서로 모든 샘플 값에 대해 서브대역 그룹화를 수행하고, 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하거나, 또는 각 샘플 값에 대해, 샘플 값 이전의 m개의 샘플 값, 샘플 값, 샘플 값 이후의 n개의 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하도록 구성될 수 있고, 여기서 m 및 n은 적응적 정규화 길이에 의존하며, m은 0 이상의 정수이고, n은 0 이상의 정수이다
선택적으로, 프로세서(510)는 구체적으로, 각 샘플 값의 진폭 값으로부터 각 샘플 값에 대응하는 진폭 외란 값을 감산하여, 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값 간의 차이를 획득하고, 획득된 차이를 각 샘플 값의 조정된 진폭 값으로서 사용하도록 구성될 수 있다.
선택적으로, 프로세서(510)는 구체적으로, 음성 오디오 신호의 저주파 대역 신호를 자연수인 N 개의 서브대역으로 분할하도록 구성된 분할 서브유닛, 각 서브대역의 피크 대 평균 비율을 계산하고, 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량을 결정하며, 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 적응적 정규화 길이를 계산하도록 구성될 수 있다.
선택적으로, 프로세서(510)는 구체적으로, 다음의 수학식 7에 따라 적응적 정규화 길이를 계산하도록 구성될 수 있고,
여기서 L은 적응적 정규화 길이이며, K는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 대응하는 수치이고, 고주파 대역 신호의 상이한 신호 유형은 상이한 수치 K에 대응하며, M은 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량이고, α는 1보다 작은 상수이다.
선택적으로, 프로세서(510)는 구체적으로, 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 따라 적응적 정규화 길이를 결정하도록 구성될 수 있고, 여기서 제1 길이 값은 제2 길이 값보다 크고, 고주파 대역 신호들의 상이한 신호 유형들은 상이한 적응적 정규화 길이들에 대응한다.
선택적으로, 프로세서(510)는 구체적으로, 제2 음성 오디오 신호를 획득하기 위해, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 새로운 값을 결정하거나, 또는 제2 음성 오디오 신호를 획득하기 위해, 수정 계수를 계산하고, 수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하며, 수정 처리 후에 획득된 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 각 샘플 값의 새로운 값을 결정하도록 구성될 수 있다.
선택적으로, 프로세서(510)는 구체적으로, 다음의 수학식 8를 사용하여 수정 계수를 계산하도록 구성될 수 있고,
여기서 β는 수정 계수이고, L은 적응적 정규화 길이이며, a는 1보다 큰 상수이다.
선택적으로, 프로세서(510)는 구체적으로, 다음의 수학식 9을 사용하여 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하도록 구성될 수 있고,
Y는 수정 처리 후에 획득된 조정된 진폭 값이고, y는 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값이며, b는 0보다 크고 2보다 작은 상수이다.
이 실시예에서, 전자 장치는 음성 오디오 신호에 따라 제1 음성 오디오 신호를 결정하고, 제1 음성 오디오 신호 내의 각 샘플 값의 심볼 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값을 결정하며, 적응적 정규화 길이를 결정하고, 각 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 샘플 값의 조정된 진폭 값을 결정하며, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 제2 음성 오디오 신호를 결정한다. 이 과정에서, 원래의 신호만, 즉, 제1 음성 오디오 신호가 처리되고, 새로운 신호가 제1 음성 오디오 신호에 부가되지 않으므로, 잡음 성분이 재구성된 후에 새로운 에너지가 제2 음성 오디오 신호에 부가되지 않는다. 따라서, 제1 음성 오디오 신호가 온셋 또는 오프셋을 가지면, 제2 음성 오디오 신호에 반향이 부가되지 않으므로, 제2 음성 오디오 신호의 청각적 품질을 개선한다.
시스템 실시예는 기본적으로 방법 실시예에 대응하고, 따라서 관련 부분에 대해서는 방법 실시예에서 부분 설명을 참조할 수 있다. 설명된 시스템 실시예는 단지 예시적인 것이다. 분리된 부분들로 기술된 유닛들은 물리적으로 분리될 수도 있고 그렇지 않을 수도 있으며, 유닛들로서 표시된 부분들은 물리적 유닛일 수도 있고 아닐 수도 있으며, 하나의 위치에 위치되거나 또는 복수의 네트워크 유닛 상에 분포될 수 있다. 모듈의 일부 또는 전부는 실시예의 해결책의 목적을 달성하기 위해 실제 필요에 따라 선택될 수 있다. 당업자는 독창적인 노력없이 본 발명의 실시예를 이해하고 구현할 수 있다.
본 발명은 컴퓨터, 예를 들어 프로그램 모듈에 의해 실행되는 실행 가능한 컴퓨터 명령의 일반적인 맥락에서 설명될 수 있다. 일반적으로, 프로그램 유닛은 특정 태스크를 실행하거나 특정 추상 데이터 타입을 구현하기 위한 루틴(routine), 프로그램, 오브젝트(object), 컴포넌트(component), 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크를 이용하여 연결된 원격 처리 장치에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 저장 장치를 포함하는 로컬 및 원격 컴퓨터 저장 매체 모두에 위치할 수 있다.
당업자는 방법의 구현 방식의 단계들 중 전부 또는 일부가 관련 하드웨어를 지시하는 프로그램에 의해 구현될 수 있다는 것을 이해할 수 있다. 프로그램은 ROM, RAM, 자기 디스크 또는 광학 디스크와 같은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다.
본 명세서에서, 제1 및 제2와 같은 관계형 용어는 엔티티(entity) 또는 오퍼레이션을 다른 엔티티 또는 오퍼레이션과 구별하기 위해서만 사용되며, 이들 엔티티 또는 오퍼레이션 사이에 임의의 실제적 관계 또는 시퀀스가 존재함을 요구하거나 암시하지 않는다는 점에 유의해야 한다. 또한, 용어 "포함하다(include)", "포함하다(comprise)" 또는 그들의 임의의 다른 변형은 배타적이지 않은 포함을 커버(cover)하도록 의도되어서, 구성요소의 목록을 포함하는 프로세스, 방법, 물품, 또는 장치가 그 구성요소들뿐만 아니라 명시적으로 열거되지 않은 다른 구성요소들을 포함하거나, 그러한 프로세스, 방법, 물품, 또는 장치에 고유한 요소들을 더 포함한다. "~을 포함하는(includes a...)"로 시작하는 구성요소는, 더 많은 제약 없이, 구성 요소를 포함하는 프로세스, 방법, 물품, 또는 장치 내에서 추가적인 동일 구성 요소의 존재를 배제하지 않는다.
전술한 설명은 본 발명의 예시적인 실시예에 불과하지만, 본 발명의 보호 범위를 제한하고자 하는 것은 아니다. 본 명세서에서, 구체적인 예는 본 발명의 원리 및 구현 방식을 설명하기 위해 사용되며, 실시예의 설명은 본 발명의 방법 및 핵심 개념을 보다 이해하기 쉽게 하기 위한 것이다. 또한, 당업자는 본 발명의 아이디어에 기초하여 특정 구현 방식 및 적용 범위에 대한 수정을 할 수 있다. 결론적으로, 본 명세서의 내용은 본 발명의 제한으로 해석되어서는 안된다. 본 발명의 사상 및 원리를 벗어나지 않는 한 임의의 수정, 동등한 대체 또는 개선은 본 발명의 보호 범위 내에 있다.
Claims (22)
- 음성 오디오 신호를 처리하는 방법으로서,
비트스트림(bitstream)을 수신하고, 상기 비트스트림을 디코딩하여, 음성 오디오 신호를 획득하는 단계,
상기 음성 오디오 신호 내에서, 재구성되어야 하는 잡음 성분(noise component)을 갖는 신호인 제1 음성 오디오 신호를 상기 음성 오디오 신호에 따라 결정하는 단계,
상기 제1 음성 오디오 신호 내의 각 샘플 값의 심볼(symbol) 및 상기 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값(amplitude value)을 결정하는 단계,
적응적 정규화 길이(adaptive normalization length)를 결정하는 단계,
상기 적응적 정규화 길이 및 상기 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하는 단계, 그리고
상기 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호인 제2 음성 오디오 신호를 상기 각 샘플 값의 심볼 및 상기 각 샘플 값의 조정된 진폭 값에 따라 결정하는 단계
를 포함하는 방법. - 제1항에 있어서,
상기 적응적 정규화 길이 및 상기 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하는 단계는,
상기 각 샘플 값의 진폭 값 및 상기 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하고, 상기 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란(disturbance) 값을 결정하는 단계, 그리고
상기 각 샘플 값의 진폭 값 및 상기 각 샘플 값에 대응하는 진폭 외란 값에 따라 상기 각 샘플 값의 조정된 진폭 값을 계산하는 단계를 포함하는,
방법. - 제2항에 있어서,
상기 각 샘플 값의 진폭 값 및 상기 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하는 것은,
상기 적응적 정규화 길이에 따라 각 샘플 값에 대해, 상기 샘플 값이 속하는 서브대역(subband)을 결정하는 단계, 그리고
상기 샘플 값이 속하는 서브대역 내의 모든 샘플 값의 진폭 값의 평균을 계산하고, 계산에 의해 획득된 상기 평균 값을 상기 샘플 값에 대응하는 상기 평균 진폭 값으로서 사용하는 단계를 포함하는,
방법. - 제3항에 있어서,
상기 적응적 정규화 길이에 따라 각 샘플 값에 대해 상기 샘플 값이 속하는 서브대역(subband)을 결정하는 단계는,
상기 적응적 정규화 길이에 따라 미리 설정된 순서로 모든 샘플 값에 대해 서브대역 그룹화를 수행하고, 상기 샘플 값을 포함하는 서브대역을 상기 샘플 값이 속하는 서브대역으로서 결정하는 단계, 또는
각 샘플 값에 대해, 상기 샘플 값 이전의 m개의 샘플 값, 상기 샘플 값, 상기 샘플 값 이후의 n개의 샘플 값을 포함하는 서브대역을 상기 샘플 값이 속하는 서브대역으로서 결정하는 단계를 포함하고,
m 및 n은 상기 적응적 정규화 길이에 의존하며, m은 0 이상의 정수이고, n은 0 이상의 정수인,
방법. - 제2항 내지 제4항 중 어느 한 항에 있어서,
상기 각 샘플 값의 진폭 값 및 상기 각 샘플 값에 대응하는 진폭 외란 값에 따라 상기 각 샘플 값의 조정된 진폭 값을 계산하는 단계는,
상기 각 샘플 값의 진폭 값으로부터 각 샘플 값에 대응하는 상기 진폭 외란 값을 감산하여, 상기 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 상기 진폭 외란 값 간의 차이를 획득하고, 상기 획득된 차이를 상기 각 샘플 값의 조정된 진폭 값으로서 사용하는 단계를 포함하는,
방법. - 제1항 내지 제5항 중 어느 한 항에 있어서,
상기 적응적 정규화 길이를 결정하는 단계는,
음성 오디오 신호의 저주파 대역 신호를 N개의 서브대역으로 분할하는 단계,
각 서브대역의 피크 대 평균 비율(peak-to-average ratio)을 계산하고, 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량을 결정하는 단계, 그리고
상기 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 상기 서브대역의 수량에 따라 상기 적응적 정규화 길이를 계산하는 단계를 포함하고,
N은 자연수인,
방법. - 제6항에 있어서,
상기 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 상기 서브대역의 수량에 따라 상기 적응적 정규화 길이를 계산하는 단계는,
수학식에 따라 상기 적응적 정규화 길이를 계산하는 단계를 포함하고,
,
L은 상기 적응적 정규화 길이이며, K는 상기 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 대응하는 수치이고, 고주파 대역 신호의 상이한 신호 유형은 상이한 수치 K에 대응하며, M은 피크 대 평균 비율이 상기 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량이고, α는 1보다 작은 상수인,
방법. - 제1항 내지 제5항 중 어느 한 항에 있어서,
상기 적응적 정규화 길이를 결정하는 단계는,
상기 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율(peak-to-average ratio) 및 상기 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (1-1) 상기 저주파 대역 신호의 피크 대 평균 비율 및 상기 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작은 때, 상기 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (1-2) 상기 저주파 대역 신호의 피크 대 평균 비율 및 상기 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작지 않은 때, 상기 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하는 단계, 또는
상기 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 상기 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (2-1) 상기 저주파 대역 신호의 피크 대 평균 비율이 상기 고주파 대역 신호의 피크 대 평균 비율보다 작은 때, 상기 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (2-2) 상기 저주파 대역 신호의 피크 대 평균 비율이 상기 고주파 대역 신호의 피크 대 평균 비율보다 작지 않은 때, 상기 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하는 단계, 또는
상기 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 따라 적응적 정규화 길이를 결정하는 단계를 포함하고,
상기 제1 길이 값은 상기 제2 길이 값보다 크고, 고주파 대역 신호들의 상이한 신호 유형들은 상이한 적응적 정규화 길이들에 대응하는,
방법. - 제1항 내지 제8항 중 어느 한 항에 있어서,
상기 제2 음성 오디오 신호를 상기 각 샘플 값의 심볼 및 상기 각 샘플 값의 조정된 진폭 값에 따라 결정하는 단계는,
상기 제2 음성 오디오 신호를 획득하기 위해, 상기 각 샘플 값의 심볼 및 상기 각 샘플 값의 조정된 진폭 값에 따라 새로운 값을 결정하는 단계, 또는
상기 제2 음성 오디오 신호를 획득하기 위해, 수정 계수를 계산하고, 상기 수정 계수에 따라 상기 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하며, 상기 수정 처리 후에 획득된 상기 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 각 샘플 값의 새로운 값을 결정하는 단계를 포함하는,
방법. - 음성 오디오 신호의 잡음 성분(noise component)을 재구성하기 위한 장치로서,
비트스트림을 수신하고 상기 비트스트림을 디코딩하여 음성 오디오 신호를 획득하도록 구성된 비트스트림 처리 유닛,
디코딩에 의해 획득된 상기 음성 오디오 신호 내에서, 재구성되어야 하는 잡음 성분을 갖는 제1 음성 오디오 신호를 상기 비트스트림 처리 유닛에 의해 획득된 상기 음성 오디오 신호에 따라 결정하도록 구성된 신호 결정 유닛,
상기 신호 결정 유닛에 의해 결정된 상기 제1 음성 오디오 신호 내의 각 샘플 값의 심볼(symbol) 및 상기 신호 결정 유닛에 의해 결정된 상기 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값(amplitude value)을 결정하도록 구성된 제1 결정 유닛,
적응적 정규화 길이(adaptive normalization length)를 결정하도록 구성된 제2 결정 유닛,
상기 제2 결정 유닛에 의해 결정된 상기 적응적 정규화 길이 및 상기 제1 결정 유닛에 의해 결정된 상기 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하도록 구성된 제3 결정 유닛, 그리고
상기 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호인 제2 음성 오디오 신호를 제1 결정 유닛에 의해 결정된 상기 각 샘플 값의 심볼 및 상기 제3 결정 유닛에 의해 결정된 상기 각 샘플 값의 조정된 진폭 값에 따라 결정하도록 구성된 제4 결정 유닛
을 포함하는 장치. - 제12항에 있어서,
상기 제3 결정 유닛은,
상기 각 샘플 값의 진폭 값 및 상기 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하고, 상기 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란(disturbance) 값을 결정하도록 구성된 결정 서브유닛, 그리고
상기 각 샘플 값의 진폭 값 및 상기 각 샘플 값에 대응하는 진폭 외란 값에 따라 상기 각 샘플 값의 조정된 진폭 값을 계산하도록 구성된 조정된 진폭 값 계산 서브유닛을 포함하는,
장치. - 제13항에 있어서,
상기 결정 서브유닛은,
상기 적응적 정규화 길이에 따라 각 샘플 값에 대해, 상기 샘플 값이 속하는 서브대역(subband)을 결정하도록 구성된 결정 모듈, 그리고
상기 샘플 값이 속하는 서브대역 내의 모든 샘플 값의 진폭 값의 평균을 계산하고, 계산에 의해 획득된 상기 평균 값을 상기 샘플 값에 대응하는 상기 평균 진폭 값으로서 사용하도록 구성된 계산 모듈을 포함하는,
장치. - 제14항에 있어서,
상기 결정 모듈은 구체적으로,
상기 적응적 정규화 길이에 따라 미리 설정된 순서로 모든 샘플 값에 대해 서브대역 그룹화를 수행하고, 상기 샘플 값을 포함하는 서브대역을 상기 샘플 값이 속하는 서브대역으로서 결정하거나, 또는
각 샘플 값에 대해, 상기 샘플 값 이전의 m개의 샘플 값, 상기 샘플 값, 상기 샘플 값 이후의 n개의 샘플 값을 포함하는 서브대역을 상기 샘플 값이 속하는 서브대역으로서 결정하도록 구성되고,
m 및 n은 상기 적응적 정규화 길이에 의존하며, m은 0 이상의 정수이고, n은 0 이상의 정수인,
장치. - 제13항 내지 제15항 중 어느 한 항에 있어서,
상기 조정된 진폭 값 계산 서브유닛은 구체적으로, 상기 각 샘플 값의 진폭 값으로부터 각 샘플 값에 대응하는 상기 진폭 외란 값을 감산하여, 상기 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 상기 진폭 외란 값 간의 차이를 획득하고, 상기 획득된 차이를 상기 각 샘플 값의 조정된 진폭 값으로서 사용하도록 구성된,
장치. - 제12항 내지 제16항 중 어느 한 항에 있어서,
상기 제2 결정 유닛은,
음성 오디오 신호의 저주파 대역 신호를 N개의 서브대역으로 분할하도록 구성된 분할 서브유닛,
각 서브대역의 피크 대 평균 비율(peak-to-average ratio)을 계산하고, 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량을 결정하도록 구성된 수량 결정 서브유닛, 그리고
상기 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 상기 서브대역의 수량에 따라 상기 적응적 정규화 길이를 계산하도록 구성된 길이 계산 서브유닛을 포함하고,
N은 자연수인,
장치. - 제12항 내지 제16항 중 어느 한 항에 있어서,
상기 제2 결정 유닛은 구체적으로,
상기 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율(peak-to-average ratio) 및 상기 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (1-1) 상기 저주파 대역 신호의 피크 대 평균 비율 및 상기 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작은 때, 상기 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (1-2) 상기 저주파 대역 신호의 피크 대 평균 비율 및 상기 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작지 않은 때, 상기 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는
상기 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 상기 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (2-1) 상기 저주파 대역 신호의 피크 대 평균 비율이 상기 고주파 대역 신호의 피크 대 평균 비율보다 작은 때, 상기 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (2-2) 상기 저주파 대역 신호의 피크 대 평균 비율이 상기 고주파 대역 신호의 피크 대 평균 비율보다 작지 않은 때, 상기 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는
상기 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 따라 적응적 정규화 길이를 결정하도록 구성되고,
상기 제1 길이 값은 상기 제2 길이 값보다 크고, 고주파 대역 신호들의 상이한 신호 유형들은 상이한 적응적 정규화 길이들에 대응하는,
장치. - 제12항 내지 제19항 중 어느 한 항에 있어서,
상기 제4 결정 유닛은 구체적으로,
상기 제2 음성 오디오 신호를 획득하기 위해, 상기 각 샘플 값의 심볼 및 상기 각 샘플 값의 조정된 진폭 값에 따라 새로운 값을 결정하거나, 또는
상기 제2 음성 오디오 신호를 획득하기 위해, 수정 계수를 계산하고, 상기 수정 계수에 따라 상기 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하며, 상기 수정 처리 후에 획득된 상기 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 각 샘플 값의 새로운 값을 결정하도록 구성된,
장치.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410242233.2 | 2014-06-03 | ||
CN201410242233.2A CN105336339B (zh) | 2014-06-03 | 2014-06-03 | 一种语音频信号的处理方法和装置 |
PCT/CN2015/071017 WO2015184813A1 (zh) | 2014-06-03 | 2015-01-19 | 一种语音频信号的处理方法和装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020197002091A Division KR102104561B1 (ko) | 2014-06-03 | 2015-01-19 | 오디오 신호를 처리하기 위한 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170008837A true KR20170008837A (ko) | 2017-01-24 |
KR101943529B1 KR101943529B1 (ko) | 2019-01-29 |
Family
ID=54766052
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020197002091A KR102104561B1 (ko) | 2014-06-03 | 2015-01-19 | 오디오 신호를 처리하기 위한 방법 및 장치 |
KR1020207011385A KR102201791B1 (ko) | 2014-06-03 | 2015-01-19 | 오디오 신호를 처리하기 위한 방법 및 장치 |
KR1020167035690A KR101943529B1 (ko) | 2014-06-03 | 2015-01-19 | 오디오 신호를 처리하기 위한 방법 및 장치 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020197002091A KR102104561B1 (ko) | 2014-06-03 | 2015-01-19 | 오디오 신호를 처리하기 위한 방법 및 장치 |
KR1020207011385A KR102201791B1 (ko) | 2014-06-03 | 2015-01-19 | 오디오 신호를 처리하기 위한 방법 및 장치 |
Country Status (19)
Country | Link |
---|---|
US (3) | US9978383B2 (ko) |
EP (3) | EP3147900B1 (ko) |
JP (3) | JP6462727B2 (ko) |
KR (3) | KR102104561B1 (ko) |
CN (2) | CN105336339B (ko) |
AU (1) | AU2015271580B2 (ko) |
BR (1) | BR112016028375B1 (ko) |
CA (1) | CA2951169C (ko) |
CL (1) | CL2016003121A1 (ko) |
ES (1) | ES2964221T3 (ko) |
HK (1) | HK1220543A1 (ko) |
IL (1) | IL249337B (ko) |
MX (2) | MX362612B (ko) |
MY (1) | MY179546A (ko) |
NZ (1) | NZ727567A (ko) |
RU (1) | RU2651184C1 (ko) |
SG (1) | SG11201610141RA (ko) |
WO (1) | WO2015184813A1 (ko) |
ZA (1) | ZA201608477B (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105336339B (zh) | 2014-06-03 | 2019-05-03 | 华为技术有限公司 | 一种语音频信号的处理方法和装置 |
CN108133712B (zh) * | 2016-11-30 | 2021-02-12 | 华为技术有限公司 | 一种处理音频数据的方法和装置 |
CN106847299B (zh) * | 2017-02-24 | 2020-06-19 | 喜大(上海)网络科技有限公司 | 延时的估计方法及装置 |
RU2754497C1 (ru) * | 2020-11-17 | 2021-09-02 | федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет" (ФГАОУ ВО КФУ) | Способ передачи речевых файлов по зашумленному каналу и устройство для его реализации |
US20230300524A1 (en) * | 2022-03-21 | 2023-09-21 | Qualcomm Incorporated | Adaptively adjusting an input current limit for a boost converter |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010008995A1 (en) * | 1999-12-31 | 2001-07-19 | Kim Jeong Jin | Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6261312B1 (en) | 1998-06-23 | 2001-07-17 | Innercool Therapies, Inc. | Inflatable catheter for selective organ heating and cooling and method of using the same |
SE9803698L (sv) * | 1998-10-26 | 2000-04-27 | Ericsson Telefon Ab L M | Metoder och anordningar i ett telekommunikationssystem |
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
US6631139B2 (en) * | 2001-01-31 | 2003-10-07 | Qualcomm Incorporated | Method and apparatus for interoperability between voice transmission systems during speech inactivity |
US6708147B2 (en) * | 2001-02-28 | 2004-03-16 | Telefonaktiebolaget Lm Ericsson(Publ) | Method and apparatus for providing comfort noise in communication system with discontinuous transmission |
US20030093270A1 (en) * | 2001-11-13 | 2003-05-15 | Domer Steven M. | Comfort noise including recorded noise |
DE60214027T2 (de) * | 2001-11-14 | 2007-02-15 | Matsushita Electric Industrial Co., Ltd., Kadoma | Kodiervorrichtung und dekodiervorrichtung |
US7536298B2 (en) * | 2004-03-15 | 2009-05-19 | Intel Corporation | Method of comfort noise generation for speech communication |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
US7610197B2 (en) * | 2005-08-31 | 2009-10-27 | Motorola, Inc. | Method and apparatus for comfort noise generation in speech communication systems |
WO2008007700A1 (fr) | 2006-07-12 | 2008-01-17 | Panasonic Corporation | Dispositif de décodage de son, dispositif de codage de son, et procédé de compensation de trame perdue |
CN101517637B (zh) * | 2006-09-18 | 2012-08-15 | 皇家飞利浦电子股份有限公司 | 音频编解码器 、编解码方法、 集线器、 发送接收器、 发送接收方法、通信系统、 播放设备 |
CN101320563B (zh) * | 2007-06-05 | 2012-06-27 | 华为技术有限公司 | 一种背景噪声编码/解码装置、方法和通信设备 |
CN101335003B (zh) * | 2007-09-28 | 2010-07-07 | 华为技术有限公司 | 噪声生成装置、及方法 |
US8139777B2 (en) * | 2007-10-31 | 2012-03-20 | Qnx Software Systems Co. | System for comfort noise injection |
CN101483042B (zh) | 2008-03-20 | 2011-03-30 | 华为技术有限公司 | 一种噪声生成方法以及噪声生成装置 |
PL2301020T3 (pl) * | 2008-07-11 | 2013-06-28 | Fraunhofer Ges Forschung | Urządzenie i sposób do kodowania/dekodowania sygnału audio z użyciem algorytmu przełączania aliasingu |
ES2592416T3 (es) | 2008-07-17 | 2016-11-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Esquema de codificación/decodificación de audio que tiene una derivación conmutable |
CN101483048B (zh) | 2009-02-06 | 2010-08-25 | 凌阳科技股份有限公司 | 光学储存装置及其回路增益值的自动校正方法 |
US9047875B2 (en) | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
CN102436820B (zh) * | 2010-09-29 | 2013-08-28 | 华为技术有限公司 | 高频带信号编码方法及装置、高频带信号解码方法及装置 |
TWI606441B (zh) * | 2011-05-13 | 2017-11-21 | 三星電子股份有限公司 | 解碼裝置 |
US20130006644A1 (en) * | 2011-06-30 | 2013-01-03 | Zte Corporation | Method and device for spectral band replication, and method and system for audio decoding |
JP2013015598A (ja) * | 2011-06-30 | 2013-01-24 | Zte Corp | オーディオ符号化/復号化方法、システム及びノイズレベルの推定方法 |
CN102208188B (zh) * | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
US20130132100A1 (en) | 2011-10-28 | 2013-05-23 | Electronics And Telecommunications Research Institute | Apparatus and method for codec signal in a communication system |
CN104040624B (zh) * | 2011-11-03 | 2017-03-01 | 沃伊斯亚吉公司 | 改善低速率码激励线性预测解码器的非语音内容 |
US20130282372A1 (en) | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
CN105336339B (zh) * | 2014-06-03 | 2019-05-03 | 华为技术有限公司 | 一种语音频信号的处理方法和装置 |
US12044962B2 (en) | 2019-04-19 | 2024-07-23 | Canon Kabushiki Kaisha | Forming apparatus, forming method, and article manufacturing method |
-
2014
- 2014-06-03 CN CN201410242233.2A patent/CN105336339B/zh active Active
- 2014-06-03 CN CN201910358522.1A patent/CN110097892B/zh active Active
-
2015
- 2015-01-19 KR KR1020197002091A patent/KR102104561B1/ko active IP Right Grant
- 2015-01-19 WO PCT/CN2015/071017 patent/WO2015184813A1/zh active Application Filing
- 2015-01-19 EP EP15802508.0A patent/EP3147900B1/en active Active
- 2015-01-19 CA CA2951169A patent/CA2951169C/en active Active
- 2015-01-19 NZ NZ727567A patent/NZ727567A/en unknown
- 2015-01-19 KR KR1020207011385A patent/KR102201791B1/ko active IP Right Grant
- 2015-01-19 MY MYPI2016704486A patent/MY179546A/en unknown
- 2015-01-19 EP EP19190663.5A patent/EP3712890B1/en active Active
- 2015-01-19 MX MX2016015950A patent/MX362612B/es active IP Right Grant
- 2015-01-19 AU AU2015271580A patent/AU2015271580B2/en active Active
- 2015-01-19 JP JP2016570979A patent/JP6462727B2/ja active Active
- 2015-01-19 EP EP23184053.9A patent/EP4283614A3/en active Pending
- 2015-01-19 ES ES19190663T patent/ES2964221T3/es active Active
- 2015-01-19 KR KR1020167035690A patent/KR101943529B1/ko active IP Right Grant
- 2015-01-19 RU RU2016152224A patent/RU2651184C1/ru active
- 2015-01-19 SG SG11201610141RA patent/SG11201610141RA/en unknown
- 2015-01-19 BR BR112016028375-9A patent/BR112016028375B1/pt active IP Right Grant
-
2016
- 2016-07-15 HK HK16108374.1A patent/HK1220543A1/zh unknown
- 2016-12-01 IL IL249337A patent/IL249337B/en active IP Right Grant
- 2016-12-02 CL CL2016003121A patent/CL2016003121A1/es unknown
- 2016-12-02 MX MX2019001193A patent/MX2019001193A/es unknown
- 2016-12-05 US US15/369,396 patent/US9978383B2/en active Active
- 2016-12-08 ZA ZA2016/08477A patent/ZA201608477B/en unknown
-
2018
- 2018-05-21 US US15/985,281 patent/US10657977B2/en active Active
- 2018-12-26 JP JP2018242725A patent/JP6817283B2/ja active Active
-
2020
- 2020-05-18 US US16/877,389 patent/US11462225B2/en active Active
- 2020-12-23 JP JP2020213571A patent/JP7142674B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010008995A1 (en) * | 1999-12-31 | 2001-07-19 | Kim Jeong Jin | Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same |
Non-Patent Citations (1)
Title |
---|
EVS Codec Detailed Algorithmic Description (3GPP TS 26.445 version 12.0.0 Release 12). ETSI TS 126 445 V12.0.0. 2014.11. * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6817283B2 (ja) | 音声/オーディオ信号を処理するための方法および装置 | |
US9489961B2 (en) | Controlling a noise-shaping feedback loop in a digital audio signal encoder avoiding instability risk of the feedback | |
CN102176312B (zh) | 一种通过小波陷波来降低突发噪音的系统及方法 | |
KR101445290B1 (ko) | 신호 프로세서 및 신호를 처리하기 위한 방법 | |
JP7008756B2 (ja) | デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置 | |
JP2017151466A (ja) | 符号化方法、復号化方法、符号化装置及び復号化装置 | |
JP6714741B2 (ja) | バーストフレーム誤り処理 | |
CN109285553A (zh) | 对高阶高保真立体声信号应用动态范围压缩的方法和设备 | |
JP2014508973A (ja) | オーディオ信号において卓越周波数を減衰させるための方法および装置 | |
Samaali et al. | Watermark-aided pre-echo reduction in low bit-rate audio coding | |
GB2349054A (en) | Digital audio signal encoders |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
A107 | Divisional application of patent | ||
GRNT | Written decision to grant |