KR20170008837A - 오디오 신호를 처리하기 위한 방법 및 장치 - Google Patents

오디오 신호를 처리하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20170008837A
KR20170008837A KR1020167035690A KR20167035690A KR20170008837A KR 20170008837 A KR20170008837 A KR 20170008837A KR 1020167035690 A KR1020167035690 A KR 1020167035690A KR 20167035690 A KR20167035690 A KR 20167035690A KR 20170008837 A KR20170008837 A KR 20170008837A
Authority
KR
South Korea
Prior art keywords
value
signal
sample value
sample
audio
Prior art date
Application number
KR1020167035690A
Other languages
English (en)
Other versions
KR101943529B1 (ko
Inventor
제신 리우
레이 미아오
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20170008837A publication Critical patent/KR20170008837A/ko
Application granted granted Critical
Publication of KR101943529B1 publication Critical patent/KR101943529B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Telephone Function (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

음성 오디오 신호의 잡은 성분을 재구성하기 위한 방법 및 장치가 개시된다. 방법은 비트스트림(bitstream)을 수신하고, 비트스트림을 디코딩하여, 음성 오디오 신호를 획득하는 단계(101), 1 음성 오디오 신호를 음성 오디오 신호에 따라 결정하는 단계(102), 제1 음성 오디오 신호 내의 각 샘플 값의 심볼(symbol) 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값(amplitude value)을 결정하는 단계(103), 적응적 정규화 길이(adaptive normalization length)를 결정하는 단계(104), 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하는 단계(105), 그리고 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호인 제2 음성 오디오 신호를 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 결정하는 단계(106)를 포함한다.

Description

오디오 신호를 처리하기 위한 방법 및 장치{METHOD AND DEVICE FOR PROCESSING AUDIO SIGNAL}
본 발명은 통신 분야에 관한 것으로, 특히 음성 오디오 신호를 처리하는 방법 및 장치에 관한 것이다.
본 출원은 2014년 6월 3일자로 중국 특허청에 제출된 "음성 오디오 신호 처리를 위한 방법 및 장치"라는 제목의 중국 특허 출원 제201410242233.2호의 우선권을 주장하며, 그 전문이 본 명세서에 참고로 포함된다.
현재, 음성 오디오 신호의 코딩된(coded) 정보를 디코딩(decoding)할 때, 보다 양호한 청각적 품질을 얻기 위해, 전자 장치는 디코딩에 의해 획득된 음성 오디오 신호의 잡음 성분(noise component)을 재구성한다.
현재, 전자 장치는 일반적으로 음성 오디오 신호에 랜덤 잡음 신호를 부가하여 음성 오디오 신호의 잡음 성분을 재구성한다. 구체적으로, 음성 오디오 신호 및 랜덤 잡음 신호에 대해 가중 가산이 수행되어, 음성 오디오 신호의 잡음 성분이 재구성된 후에 신호를 획득한다. 음성 오디오 신호는 시간 영역(time-domain) 신호, 주파수 영역(frequency-domain) 신호 또는 여기(excitation) 신호일 수 있거나, 저주파 신호, 고주파 신호 등일 수 있다.
그러나, 발명자는, 음성 오디오 신호가 온셋(onset) 또는 오프셋(offset)을 갖는 신호이면, 음성 오디오 신호의 잡음 성분을 재구성하기 위한 이 방법은, 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득된 신호가 반향(echo)를 가지므로, 잡음 성분이 재구성된 후에 획득된 신호의 청각적 품질에 영향을 미친다.
본 발명의 실시예는 음성 오디오 신호를 처리하기 위한 방법 및 장치를 제공하여, 온셋(onset) 또는 오프셋(offset)을 갖는 음성 오디오 신호에 대해, 음성 오디오 신호의 잡음 성분이 재구성되는 때, 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득된 신호가 반향을 가지지 않으므로, 잡음 성분이 재구성된 후의 청각적 품질을 개선한다.
제1 측면에 따르면, 본 발명의 실시예는 음성 오디오 신호를 처리하는 방법을 제공하고, 여기서 방법은 비트스트림(bitstream)을 수신하고, 비트스트림을 디코딩하여, 음성 오디오 신호를 획득하는 단계, 음성 오디오 신호 내에서, 재구성되어야 하는 잡음 성분(noise component)을 갖는 신호인 제1 음성 오디오 신호를 음성 오디오 신호에 따라 결정하는 단계, 제1 음성 오디오 신호 내의 각 샘플 값의 심볼(symbol) 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값(amplitude value)을 결정하는 단계, 적응적 정규화 길이(adaptive normalization length)를 결정하는 단계, 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하는 단계, 그리고 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호인 제2 음성 오디오 신호를 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 결정하는 단계를 포함한다.
제1 측면을 참조하여, 제1 측면의 첫 번째 가능한 구현 방식으로, 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하는 단계는, 각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하고, 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란(disturbance) 값을 결정하는 단계, 그리고 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산하는 단계를 포함한다.
제1 측면의 첫 번째 가능한 구현 방식을 참조하여, 제1 측면의 두 번째 가능한 구현 방식으로, 각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하는 것은, 적응적 정규화 길이에 따라 각 샘플 값에 대해, 샘플 값이 속하는 서브대역(subband)을 결정하는 단계, 그리고 샘플 값이 속하는 서브대역 내의 모든 샘플 값의 진폭 값의 평균을 계산하고, 계산에 의해 획득된 평균 값을 샘플 값에 대응하는 평균 진폭 값으로서 사용하는 단계를 포함한다.
제1 측면의 두 번째 가능한 구현 방식을 참조하여, 제1 측면의 세 번째 가능한 구현 방식으로, 적응적 정규화 길이에 따라 각 샘플 값에 대해 샘플 값이 속하는 서브대역(subband)을 결정하는 단계는, 적응적 정규화 길이에 따라 미리 설정된 순서로 모든 샘플 값에 대해 서브대역 그룹화를 수행하고, 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하는 단계, 또는 각 샘플 값에 대해, 샘플 값 이전의 m개의 샘플 값, 샘플 값, 샘플 값 이후의 n개의 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하는 단계를 포함하고, m 및 n은 적응적 정규화 길이에 의존하며, m은 0 이상의 정수이고, n은 0 이상의 정수이다.
제1 측면의 첫 번째 가능한 구현 방식, 및/또는 제1 측면의 두 번째 가능한 구현 방식, 및/또는 제1 측면의 세 번째 가능한 구현 방식을 참조하여, 제1 측면의 네 번째 가능한 구현 방식으로, 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산하는 단계는, 각 샘플 값의 진폭 값으로부터 각 샘플 값에 대응하는 진폭 외란 값을 감산하여, 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값 간의 차이를 획득하고, 획득된 차이를 각 샘플 값의 조정된 진폭 값으로서 사용하는 단계를 포함한다.
제1 측면, 및/또는 제1 측면의 첫 번째 가능한 구현 방식, 및/또는 제1 측면의 두 번째 가능한 구현 방식, 및/또는 제1 측면의 세 번째 가능한 구현 방식, 및/또는 제1 측면의 네 번째 가능한 구현 방식을 참조하여, 제1 측면의 다섯 번째 가능한 구현 방식으로, 적응적 정규화 길이를 결정하는 단계는, 음성 오디오 신호의 저주파 대역 신호를 N개의 서브대역으로 분할하는 단계, 각 서브대역의 피크 대 평균 비율(peak-to-average ratio)을 계산하고, 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량을 결정하는 단계, 그리고 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 적응적 정규화 길이를 계산하는 단계를 포함하고, N은 자연수이다.
제1 측면의 다섯 번째 가능한 구현 방식을 참조하여, 제1 측면의 여섯 번째 가능한 구현 방식으로, 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 적응적 정규화 길이를 계산하는 단계는, 수학식에 따라 적응적 정규화 길이를 계산하는 단계를 포함하고,
Figure pct00001
, L은 적응적 정규화 길이이며, K는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 대응하는 수치이고, 고주파 대역 신호의 상이한 신호 유형은 상이한 수치 K에 대응하며, M은 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량이고, α는 1보다 작은 상수이다.
제1 측면, 및/또는 제1 측면의 첫 번째 가능한 구현 방식, 및/또는 제1 측면의 두 번째 가능한 구현 방식, 및/또는 제1 측면의 세 번째 가능한 구현 방식, 및/또는 제1 측면의 네 번째 가능한 구현 방식을 참조하여, 제1 측면의 일곱 번째 가능한 구현 방식으로, 적응적 정규화 길이를 결정하는 단계는, 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율(peak-to-average ratio) 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (1-1) 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (1-2) 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하는 단계, 또는 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (2-1) 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (2-2) 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하는 단계, 또는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 따라 적응적 정규화 길이를 결정하는 단계를 포함하고, 제1 길이 값은 제2 길이 값보다 크고, 고주파 대역 신호들의 상이한 신호 유형들은 상이한 적응적 정규화 길이들에 대응한다.
제1 측면, 및/또는 제1 측면의 첫 번째 가능한 구현 방식, 및/또는 제1 측면의 두 번째 가능한 구현 방식, 및/또는 제1 측면의 세 번째 가능한 구현 방식, 및/또는 제1 측면의 네 번째 가능한 구현 방식, 및/또는 제1 측면의 다섯 번째 가능한 구현 방식, 및/또는 제1 측면의 여섯 번째 가능한 구현 방식, 및/또는 제1 측면의 일곱 번째 가능한 구현 방식을 참조하여, 제1 측면의 여덟 번째 가능한 구현 방식으로, 제2 음성 오디오 신호를 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 결정하는 단계는, 제2 음성 오디오 신호를 획득하기 위해, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 새로운 값을 결정하는 단계, 또는 제2 음성 오디오 신호를 획득하기 위해, 수정 계수를 계산하고, 수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하며, 수정 처리 후에 획득된 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 각 샘플 값의 새로운 값을 결정하는 단계를 포함한다.
제1 측면의 여덟 번째 가능한 구현 방식을 참조하여, 제1 측면의 아홉 번째 가능한 구현 방식으로, 수정 계수를 계산하는 것은, 다음의 수학식을 사용하여 수정 계수를 계산하는 단계를 포함하고,
Figure pct00002
, β는 수정 계수이고, L은 적응적 정규화 길이이며, a는 1 보다 큰 상수이다.
제1 측면의 여덟 번째 가능한 구현 방식, 및/또는 제1 측면의 아홉 번째 가능한 구현 방식을 참조하여, 제1 측면의 열 번째 가능한 구현 방식으로, 수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하는 것은, 다음의 수학식을 사용하여 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하는 단계를 포함하고,
Figure pct00003
, Y는 수정 처리 후에 획득된 조정된 진폭 값이고, y는 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값이며, b는 0 보다 크고 2 보다 작은 상수이다.
제2 측면에 따르면, 본 발명의 실시예는 음성 오디오 신호의 잡음 성분(noise component)을 재구성하기 위한 장치를 제공하고, 여기서 장치는 비트스트림을 수신하고 비트스트림을 디코딩하여 음성 오디오 신호를 획득하도록 구성된 비트스트림 처리 유닛, 디코딩에 의해 획득된 음성 오디오 신호 내에서, 재구성되어야 하는 잡음 성분을 갖는 제1 음성 오디오 신호를 비트스트림 처리 유닛에 의해 획득된 음성 오디오 신호에 따라 결정하도록 구성된 신호 결정 유닛, 신호 결정 유닛에 의해 결정된 제1 음성 오디오 신호 내의 각 샘플 값의 심볼(symbol) 및 신호 결정 유닛에 의해 결정된 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값(amplitude value)을 결정하도록 구성된 제1 결정 유닛, 적응적 정규화 길이(adaptive normalization length)를 결정하도록 구성된 제2 결정 유닛, 제2 결정 유닛에 의해 결정된 적응적 정규화 길이 및 제1 결정 유닛에 의해 결정된 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하도록 구성된 제3 결정 유닛, 그리고 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호인 제2 음성 오디오 신호를 제1 결정 유닛에 의해 결정된 각 샘플 값의 심볼 및 제3 결정 유닛에 의해 결정된 각 샘플 값의 조정된 진폭 값에 따라 결정하도록 구성된 제4 결정 유닛을 포함한다.
제2 측면을 참조하여, 제2 측면의 첫 번째 가능한 구현 방식으로, 제3 결정 유닛은, 각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하고, 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란(disturbance) 값을 결정하도록 구성된 결정 서브유닛, 그리고 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산하도록 구성된 조정된 진폭 값 계산 서브유닛을 포함한다.
제2 측면의 첫 번째 가능한 구현 방식을 참조하여, 제2 측면의 두 번째 가능한 구현 방식으로, 결정 서브유닛은, 적응적 정규화 길이에 따라 각 샘플 값에 대해, 샘플 값이 속하는 서브대역(subband)을 결정하도록 구성된 결정 모듈, 그리고 샘플 값이 속하는 서브대역 내의 모든 샘플 값의 진폭 값의 평균을 계산하고, 계산에 의해 획득된 평균 값을 샘플 값에 대응하는 평균 진폭 값으로서 사용하도록 구성된 계산 모듈을 포함한다.
제2 측면의 두 번째 가능한 구현 방식을 참조하여, 제2 측면의 세 번째 가능한 구현 방식으로, 결정 모듈은 구체적으로, 적응적 정규화 길이에 따라 미리 설정된 순서로 모든 샘플 값에 대해 서브대역 그룹화를 수행하고, 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하거나, 또는 각 샘플 값에 대해, 샘플 값 이전의 m개의 샘플 값, 샘플 값, 샘플 값 이후의 n개의 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하도록 구성되고, m 및 n은 적응적 정규화 길이에 의존하며, m은 0 이상의 정수이고, n은 0 이상의 정수이다.
제2 측면의 첫 번째 가능한 구현 방식, 및/또는 제2 측면의 두 번째 가능한 구현 방식, 및/또는 제2 측면의 세 번째 가능한 구현 방식을 참조하여, 제2 측면의 네 번째 가능한 구현 방식으로, 조정된 진폭 값 계산 서브유닛은 구체적으로, 각 샘플 값의 진폭 값으로부터 각 샘플 값에 대응하는 진폭 외란 값을 감산하여, 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값 간의 차이를 획득하고, 획득된 차이를 각 샘플 값의 조정된 진폭 값으로서 사용하도록 구성된다.
제2 측면, 및/또는 제2 측면의 첫 번째 가능한 구현 방식, 및/또는 제2 측면의 두 번째 가능한 구현 방식, 및/또는 제2 측면의 세 번째 가능한 구현 방식, 및/또는 제2 측면의 네 번째 가능한 구현 방식을 참조하여, 제2 측면의 다섯 번째 가능한 구현 방식으로, 제2 결정 유닛은, 음성 오디오 신호의 저주파 대역 신호를 N개의 서브대역으로 분할하도록 구성된 분할 서브유닛, 각 서브대역의 피크 대 평균 비율(peak-to-average ratio)을 계산하고, 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량을 결정하도록 구성된 수량 결정 서브유닛, 그리고 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 적응적 정규화 길이를 계산하도록 구성된 길이 계산 서브유닛을 포함하고, N은 자연수이다.
제2 측면의 다섯 번째 가능한 구현 방식을 참조하여, 제2 측면의 여섯 번째 가능한 구현 방식으로, 길이 계산 서브유닛은 구체적으로, 다음의 수학식에 따라 적응적 정규화 길이를 계산하도록 구성되고,
Figure pct00004
, L은 적응적 정규화 길이이며, K는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 대응하는 수치이고, 고주파 대역 신호의 상이한 신호 유형은 상이한 수치 K에 대응하며, M은 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량이고, α는 1보다 작은 상수이다.
제2 측면, 및/또는 제2 측면의 첫 번째 가능한 구현 방식, 및/또는 제2 측면의 두 번째 가능한 구현 방식, 및/또는 제2 측면의 세 번째 가능한 구현 방식, 및/또는 제2 측면의 네 번째 가능한 구현 방식을 참조하여, 제2 측면의 일곱 번째 가능한 구현 방식으로, 제2 결정 유닛은 구체적으로, 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율(peak-to-average ratio) 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (1-1) 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (1-2) 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (2-1) 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (2-2) 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 따라 적응적 정규화 길이를 결정하도록 구성되고, 제1 길이 값은 제2 길이 값보다 크고, 고주파 대역 신호들의 상이한 신호 유형들은 상이한 적응적 정규화 길이들에 대응한다.
제2 측면, 및/또는 제2 측면의 첫 번째 가능한 구현 방식, 및/또는 제2 측면의 두 번째 가능한 구현 방식, 및/또는 제2 측면의 세 번째 가능한 구현 방식, 및/또는 제2 측면의 네 번째 가능한 구현 방식, 및/또는 제2 측면의 다섯 번째 가능한 구현 방식, 및/또는 제2 측면의 여섯 번째 가능한 구현 방식, 및/또는 제2 측면의 일곱 번째 가능한 구현 방식을 참조하여, 제2 측면의 여덟 번째 가능한 구현 방식으로, 제4 결정 유닛은 구체적으로, 제2 음성 오디오 신호를 획득하기 위해, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 새로운 값을 결정하거나, 또는 제2 음성 오디오 신호를 획득하기 위해, 수정 계수를 계산하고, 수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하며, 수정 처리 후에 획득된 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 각 샘플 값의 새로운 값을 결정하도록 구성된다.
제2 측면의 여덟 번째 가능한 구현 방식을 참조하여, 제2 측면의 아홉 번째 가능한 구현 방식으로, 제4 결정 유닛은 구체적으로, 다음의 수학식을 사용하여 수정 계수를 계산하도록 구성되고,
Figure pct00005
, β는 수정 계수이고, L은 적응적 정규화 길이이며, a는 1 보다 큰 상수이다.
제2 측면의 여덟 번째 가능한 구현 방식, 및/또는 제2 측면의 아홉 번째 가능한 구현 방식을 참조하여, 제2 측면의 열 번째 가능한 구현 방식으로, 제4 결정 유닛은 구체적으로, 다음의 수학식을 사용하여 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하도록 구성되고,
Figure pct00006
, Y는 수정 처리 후에 획득된 조정된 진폭 값이고, y는 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값이며, b는 0 보다 크고 2 보다 작은 상수이다.
실시예에서, 음성 오디오 신호를 획득하기 위해, 비트스트림이 수신되고, 비트스트림이 디코딩되며, 제1 음성 오디오 신호가 음성 오디오 신호에 따라 결정되고, 제1 음성 오디오 신호 내의 각 샘플 값의 심볼 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값이 결정되며, 적응적 정규화 길이가 결정되고, 각 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 샘플 값의 조정된 진폭 값이 결정되며, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 제2 음성 오디오 신호가 결정된다. 이 과정에서, 원래의 신호만, 즉, 제1 음성 오디오 신호가 처리되고, 새로운 신호가 제1 음성 오디오 신호에 부가되지 않으므로, 잡음 성분이 재구성된 후에 새로운 에너지가 제2 음성 오디오 신호에 부가되지 않는다. 따라서, 제1 음성 오디오 신호가 온셋 또는 오프셋을 가지면, 반향이 제2 음성 오디오 신호에 부가되지 않으므로, 제2 음성 오디오 신호의 청각적 품질을 개선한다.
전술한 일반적인 설명 및 다음의 상세한 설명은 단지 예시적인 것이며, 본 발명의 보호 범위를 제한하려는 것은 아니라는 것을 이해해야 한다.
본 발명의 실시예 또는 종래 기술의 기술적 해결책을 보다 명확하게 설명하기 위해, 실시예 또는 종래 기술을 설명하기 위해 요구되는 첨부 도면을 간단히 소개한다. 명백하게, 다음의 설명에서의 첨부된 도면은 본 발명의 단지 일부 실시예를 도시하고, 당업자는 창의적인 노력 없이도 이들 도면으로부터 다른 도면을 유도할 수 있다.
도 1은 본 발명의 일 실시예에 따라 음성 오디오 신호의 잡음 성분을 재구성하기 위한 방법의 개략적인 순서도이다.
도 1a는 본 발명의 일 실시예에 따라 샘플 값들의 그룹화의 일 예를 나타낸 개략도이다.
도 1b는 본 발명의 일 실시예에 따라 샘플 값들의 그룹화의 일 예의 다른 개략도이다.
도 2는 본 발명의 일 실시예에 따라 음성 오디오 신호의 잡음 성분을 재구성하기 위한 다른 방법의 개략적인 순서도이다.
도 3은 본 발명의 일 실시예에 따라 음성 오디오 신호의 잡음 성분을 재구성하기 위한 다른 방법의 개략적인 순서도이다.
도 4는 본 발명의 일 실시예에 따라 음성 오디오 신호의 잡음 성분을 재구성하기 위한 장치의 개략적인 구조도이다.
도 5는 본 발명의 일 실시예에 따른 전자 장치의 개략적인 구조도이다.
전술한 첨부 도면은 본 발명의 특정 실시예를 도시하고, 보다 상세한 설명이 하기에서 제공된다. 첨부된 도면 및 텍스트 설명은 임의의 방식으로 본 발명의 사상의 범위를 제한하고자 하는 것이 아니라, 특정 실시예를 참조하여 당업자에게 본 발명의 개념을 설명하기 위한 것이다.
이하, 본 발명의 실시예의 기술적 해결책을, 본 발명의 실시예의 첨부 도면을 참조하여 명확하고 완전하게 설명한다. 명백하게, 설명된 실시예는 본 발명의 실시예의 전부가 아니라 일부에 불과하다. 창의적인 노력없이 본 발명의 실시예에 기초하여 당업자에 의해 획득된 다른 모든 실시예는 본 발명의 보호 범위 내에 있다.
본 발명의 완전한 이해를 제공하기 위해 다수의 특정 세부 사항이 이하의 상세한 설명에서 언급된다. 그러나, 당업자는 본 발명이 이러한 특정 세부 사항 없이 구현될 수 있음을 이해해야 한다. 다른 실시예들에서, 공지된 방법, 프로세스(process), 구성요소(component), 및 회로는 실시예들을 불필요하게 불명료하게하지 않기 위해 상세하게 설명되지 않는다.
도 1을 참조하면, 도 1은 본 발명의 일 실시예에 따른 음성 오디오 신호의 잡음 성분을 재구성하기 위한 방법의 순서도다. 이 방법은 다음을 포함한다.
단계(101): 비트스트림(bitstream)을 수신하고 비트스트림을 디코딩하여 음성 오디오 신호를 획득한다.
음성 오디오 신호를 얻기 위해, 비트스트림을 디코딩하는 방법에 대한 세부 사항은 본 명세서에서 설명하지 않는다.
단계(102): 디코딩에 의해 획득된 음성 오디오 신호 내에서, 재구성되어야 하는 잡음 성분을 갖는 신호인 제1 음성 오디오 신호를 음성 오디오 신호에 따라 결정한다.
제1 음성 오디오 신호는 디코딩에 의해 획득된 음성 오디오 신호 내의 저주파 대역 신호, 고주파 대역 신호, 또는 전대역 신호 등일 수 있다.
디코딩에 의해 획득된 음성 오디오 신호는 저주파 대역 신호 및 고주파 대역 신호를 포함할 수 있거나, 또는 전대역 신호를 포함할 수 있다.
단계(103): 제1 음성 오디오 신호 내의 각 샘플 값의 심볼(symbol) 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값(amplitude value)을 결정한다.
제1 음성 오디오 신호가 다른 구현 방식을 갖는 경우, 샘플 값의 구현 방식이 다를 수도 있다. 예를 들어, 제1 음성 오디오 신호가 주파수 영역(frequency-domain) 신호이면, 샘플 값은 스펙트럼 계수일 수 있다. 음성 오디오 신호가 시간 영역(time-domain) 신호이면, 샘플 값은 샘플 포인트 값일 수 있다.
단계(104): 적응적 정규화 길이를 결정한다.
적응적 정규화 길이는 디코딩에 의해 획득된 음성 오디오 신호의 저주파 대역 신호 및/또는 고주파 대역 신호의 관련 파라미터에 따라 결정될 수 있다. 구체적으로, 관련 파라미터는 신호 유형, 피크 대 평균 비율 등을 포함할 수 있다. 예를 들어, 가능한 구현 방식으로, 적응적 정규화 길이를 결정하는 단계는 음성 오디오 신호의 저주파 대역 신호를 자연수인 N 개의 서브대역으로 분할하는 단계, 각 서브대역의 피크 대 평균 비율(peak-to-average ratio)을 계산하고, 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량을 결정하는 단계, 그리고 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 적응적 정규화 길이를 계산하는 단계를 포함할 수 있다.
선택적으로, 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역들의 수에 따라 적응적 정규화 길이를 계산하는 단계는, 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 적응적 정규화 길이를 계산하는 단계는, 수학식 1에 따라 적응적 정규화 길이를 계산하는 단계를 포함하고,
Figure pct00007
여기서, L은 적응적 정규화 길이이며, K는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 대응하는 수치이고, 고주파 대역 신호의 상이한 신호 유형은 상이한 수치 K에 대응하며, M은 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량이고, α는 1보다 작은 상수이다.
다른 가능한 구현 방식으로, 적응적 정규화 길이는 음성 오디오 신호 내의 저주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 계산될 수 있다. 구체적인 계산 수학식은, 수학식 2를 참조한다.
Figure pct00008
차이점은 단지, 이 경우, K가 음성 오디오 신호 내의 저주파 대역 신호의 신호 유형에 대응하는 수치라는 것이다. 저주파 대역 신호의 상이한 신호 유형은 상이한 수치 값 K에 대응한다.
세 번째 가능한 구현 방식에서, 정규화 길이를 결정하는 단계는, 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하는 단계를 포함할 수 있다.
제1 길이 값은 제2 길이 값보다 크다. 또한, 제1 길이 값 및 제2 길이 값은 고주파 대역 신호의 피크 대 평균 비율에 대한 저주파 대역 신호의 피크 대 평균 비율의 비율, 또는 저주파 대역 신호의 피크 대 평균 비율과 고주파 대역 신호의 피크 대 평균 비율 사이의 차이를 사용하여 계산함으로써 획득될 수 있다. 구체적인 계산 방법은 제한되지 않는다.
네 번째 가능한 구현 방식으로, 적응적 정규화 길이를 결정하는 단계는, 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하는 단계를 포함할 수 있다. 제1 길이 값은 제2 길이 값보다 크다. 또한, 제1 길이 값 및 제2 길이 값은 고주파 대역 신호의 피크 대 평균 비율에 대한 저주파 대역 신호의 피크 대 평균 비율의 비율을 사용하여 계산함으로써 획득되거나, 저주파 대역 신호의 피크 대 평균 비와 고주파 대역 신호의 피크 대 평균 비 사이의 차이. 또한, 제1 길이 값 및 제2 길이 값은 고주파 대역 신호의 피크 대 평균 비율에 대한 저주파 대역 신호의 피크 대 평균 비율의 비율, 또는 저주파 대역 신호의 피크 대 평균 비율과 고주파 대역 신호의 피크 대 평균 비율 사이의 차이를 사용하여 계산함으로써 획득될 수 있다. 구체적인 계산 방법은 제한되지 않는다.
다섯 번째 가능한 구현 방식으로, 적응적 정규화 길이를 결정하는 단계는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 따라 적응적 정규화 길이를 결정하는 단계를 포함할 수 있다. 상이한 신호 유형은 상이한 적응적 정규화 길이에 대응한다. 예를 들어, 신호 유형이 하모닉 신호(harmonic signal)인 경우, 대응하는 적응적 정규화 길이는 32이다. 신호 유형이 정상 신호(normal signal)인 경우, 대응하는 적응적 정규화 길이는 16이다. 신호 유형이 과도 신호(transient signal)일 때, 대응하는 적응적 정규화 길이는 8이다.
단계(105): 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정한다.
적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하는 단계는, 각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하고, 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란(disturbance) 값을 결정하는 단계, 그리고 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산하는 단계를 포함할 수 있다.
각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하는 것은, 적응적 정규화 길이에 따라 각 샘플 값에 대해, 샘플 값이 속하는 서브대역(subband)을 결정하는 단계, 그리고 샘플 값이 속하는 서브대역 내의 모든 샘플 값의 진폭 값의 평균을 계산하고, 계산에 의해 획득된 평균 값을 샘플 값에 대응하는 평균 진폭 값으로서 사용하는 단계를 포함할 수 있다.
적응적 정규화 길이에 따라 각 샘플 값에 대해 샘플 값이 속하는 서브대역(subband)을 결정하는 단계는, 적응적 정규화 길이에 따라 미리 설정된 순서로 모든 샘플 값에 대해 서브대역 그룹화를 수행하고, 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하는 단계를 포함할 수 있다.
미리 설정된 순서는, 예를 들어, 저주파수에서 고주파수로의 순서 또는 고주파수에서 저주파수로의 순서일 수 있으며, 여기에 한정되지는 않는다.
예를 들어, 도 1a를 참조하면, 오름차순으로 샘플 값을 각각 x1, x2, x3, ..., xn, 적응적 정규화 길이를 5라고 가정하면, x1 내지 x5는 하나의 서브대역으로 그룹화될 수 있고, x6 내지 x10은 하나의 서브대역으로 그룹화될 수 있다. 유추에 의해, 여러 개의 서브대역들이 획득된다. 따라서, x1 내지 x5의 각 샘플 값에 대해, 서브대역 x1 내지 x5는 각 샘플 값이 속하는 서브대역이고, x6 내지 x10의 각 샘플 값에 대해, 서브대역 x6 내지 x10은 각 샘플 값이 속하는 서브대역이다.
대안적으로, 적응적 정규화 길이에 따라 각 샘플 값에 대해 샘플 값이 속하는 서브대역(subband)을 결정하는 단계는, 각 샘플 값에 대해, 샘플 값 이전의 m개의 샘플 값, 샘플 값, 샘플 값 이후의 n개의 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하는 단계를 포함할 수 있고, 여기서 m 및 n은 적응적 정규화 길이에 의존하며, m은 0 이상의 정수이고, n은 0 이상의 정수이다.
예를 들어, 도 1b을 참조하면, 오름차순의 샘플 값은 각각 x1, x2, x3, ..., 및 xn이고, 적응적 정규화 길이는 5이며, m은 2이고, n은 2이다. 샘플 값 x3에 대해, x1 내지 x5로 구성된 서브대역은 샘플 값 x3이 속하는 서브대역이다. 샘플 값 x4에 대해, x2 내지 x6으로 구성된 서브대역은 샘플 값 x4가 속하는 서브대역이다. 나머지는 유추에 의해 추론될 수 있다. 샘플 값 x1 및 x2가 속하는 서브대역을 형성하기에 샘플 값 x1 및 x2 이전에 충분한 샘플 값이 없으며, 샘플 값 x(n-1) 및 xn이 속하는 서브대역을 형성하기에 샘플 값 x(n-1) 및 xn 다음에 충분한 샘플 값이 없기 때문에, 실제 응용에서, x1, x2, x(n-1), 및 xn이 속하는 서브대역이 자율적으로 설정될 수 있다. 예를 들어, 샘플 값이 속하는 서브대역 내의 샘플 값의 부족을 보상하도록 샘플 값 자체가 추가될 수 있다. 예를 들어, 샘플 값 x1의 경우, 샘플 값 x1 이전에 샘플 값이 없고, x1, x1, x1, x2, 및 x3은 샘플 값 x1이 속하는 서브대역으로 사용될 수 있다.
각 샘플 값에 대응하는 진폭 외란 값을 각 샘플 값에 대응하는 평균 진폭 값에 따라 결정하는 때, 각 샘플 값에 대응하는 평균 진폭 값은 각 샘플 값에 대응하는 진폭 외란 값으로서 직접 사용될 수 있다. 또는, 각 샘플 값에 대응하는 진폭 외란 값을 획득하기 위해, 각 샘플 값에 대응하는 평균 진폭 값에 대해 미리 설정된 연산이 수행될 수 있다. 미리 설정된 연산은, 예를 들어, 평균 진폭 값에 수치가 승산되는 것일 수 있다. 수치 일반적으로 0보다 크다.
각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산하는 단계는, 각 샘플 값의 진폭 값으로부터 각 샘플 값에 대응하는 진폭 외란 값을 감산하여, 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값 간의 차이를 획득하고, 획득된 차이를 각 샘플 값의 조정된 진폭 값으로서 사용하는 단계를 포함할 수 있다.
단계(106): 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호인 제2 음성 오디오 신호를 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 결정한다.
가능한 구현 방식으로, 제2 음성 오디오 신호를 획득하기 위해, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 새로운 값이 결정될 수 있다.
다른 가능한 구현 방식으로, 제2 음성 오디오 신호를 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 결정하는 단계는, 제2 음성 오디오 신호를 획득하기 위해, 수정 계수를 계산하고, 수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하며, 수정 처리 후에 획득된 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 각 샘플 값의 새로운 값을 결정하는 단계를 포함할 수 있다.
가능한 구현 방식으로, 획득된 제2 음성 오디오 신호는 모든 샘플 값들의 새로운 값을 포함할 수 있다.
수정 계수는 적응적 정규화 길이에 따라 계산될 수 있다. 구체적으로, 수정 계수 β는 a/L과 같을 수 있고, 여기서 a는 1보다 큰 상수이다.
수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하는 것은,
다음의 수학식 3을 사용하여 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하는 단계를 포함하고,
Figure pct00009
여기서, Y는 수정 처리 후에 획득된 조정된 진폭 값이고, y는 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값이며, b는 0보다 크고 2보다 작은 상수이다.
단계(103)에서 제1 음성 오디오 신호 내의 각 샘플 값의 심볼을 추출하는 단계는 단계(106) 이전의 임의의 시간에 수행될 수 있다. 제1 음성 오디오 신호 내의 각 샘플 값의 심볼을 추출하는 단계와 단계(104) 및 단계(105) 사이에 필연적인 실행 순서는 없다.
단계(103)과 단계(104) 사이의 실행 순서는 제한되지 않는다.
종래 기술에서, 음성 오디오 신호가 온셋 또는 오프셋을 갖는 신호인 경우, 음성 오디오 신호 내의 시간 영역 신호는 한 프레임 내에 있을 수 있다. 이 경우, 음성 오디오 신호의 일부는 매우 큰 신호 샘플 포인트 값 및 매우 강력한 신호 에너지를 가지며, 반면에 음성 오디오 신호의 다른 부분은 매우 작은 신호 샘플 포인트 값 및 매우 약한 신호 에너지를 갖는다. 이 경우, 잡음 성분이 재구성된 후의 신호를 획득하기 위해, 주파수 영역에서 음성 오디오 신호에 랜덤 잡음 신호가 부가된다. 랜덤 잡음 신호의 에너지는 시간 영역의 한 프레임 내에서 균일하기 때문에, 잡음 성분이 재구성된 후에 획득된 주파수 영역 신호가 신호 영역 신호로 변환되는 때, 새롭게 부가된 랜덤 잡음 신호는 일반적으로 변환에 의해 획득된 시간 영역 신호 내의, 원래의 샘플 포인트 값이 매우 작은, 일부의 신호 에너지를 증가시킨다. 이 부분의 신호 샘플 포인트 값 또한 이에 따라 상대적으로 커지게 된다. 결과적으로, 잡음 성분이 재구성된 후에 획득된 신호는 약간의 반향을 가지며, 이는 잡음 성분이 재구성된 후에 획득된 신호의 청각적 품질에 영향을 미친다.
이 실시예에서, 제1 음성 오디오 신호가 음성 오디오 신호에 따라 결정되고, 제1 음성 오디오 신호 내의 각 샘플 값의 심볼 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값이 결정되며, 적응적 정규화 길이가 결정되고, 각 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 샘플 값의 조정된 진폭 값이 결정되며, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 제2 음성 오디오 신호가 결정된다. 이 과정에서, 원래의 신호만, 즉, 제1 음성 오디오 신호가 처리되고, 새로운 신호가 제1 음성 오디오 신호에 부가되지 않으므로, 잡음 성분이 재구성된 후에 새로운 에너지가 제2 음성 오디오 신호에 부가되지 않는다. 따라서, 제1 음성 오디오 신호가 온셋 또는 오프셋을 가지면, 제2 음성 오디오 신호에 반향이 부가되지 않으므로, 제2 음성 오디오 신호의 청각적 품질을 개선한다.
도 2를 참조하면, 도 2는 본 발명의 일 실시예에 따른 음성 오디오 신호의 잡음 성분을 재구성하기 위한 방법의 다른 개략적인 순서도다. 이 방법은 다음을 포함한다.
단계(201): 비트스트림을 수신하고, 비트스트림을 디코딩하여, 저주파 대역 신호 및 고주파 대역 신호를 포함하는 음성 오디오 신호를 획득하고, 고주파 대역 신호를 제1 음성 오디오 신호로서 결정할 수 있다.
비트스트림을 디코딩하는 방법은 본 발명에서 제한되지 않는다.
단계(202): 고주파 대역 신호 내의 각 샘플 값의 심볼 및 고주파 대역 신호 내의 각 샘플 값의 진폭 값을 결정한다.
예를 들어, 고주파 대역 신호의 샘플 값의 계수가 -4이면, 샘플 값의 심볼은 "-"이고, 진폭 값은 4이다.
단계(203): 적응적 정규화 길이를 결정한다.
적응적 정규화 길이를 결정하는 방법에 대한 자세한 내용은 단계(104)의 관련 설명을 참조한다. 세부 사항은 여기에서 다시 설명하지 않는다.
단계(204): 각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 결정하고, 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란 값을 결정한다.
각 샘플 값에 해당하는 평균 진폭 값을 결정하는 방법은 단계(105)의 관련 설명을 참조한다. 세부 사항은 여기에서 다시 설명하지 않는다.
단계(205): 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산한다.
각 샘플 값의 조정된 진폭 값을 결정하는 방법에 대해서는, 단계(105)의 관련 설명을 참조한다. 세부 사항은 여기에서 다시 설명하지 않는다.
단계(206): 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 제2 음성 오디오 신호를 결정한다.
제2 음성 오디오 신호는 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호이다.
이 단계의 구체적인 구현에 대해서는, 단계(106)의 관련 설명을 참조한다. 세부 사항은 여기에서 다시 설명하지 않는다.
단계(202)에서 제1 음성 오디오 신호 내의 각 샘플 값의 심볼을 결정하는 단계는 단계(206) 이전의 임의의 시간에 수행될 수 있다. 제1 음성 오디오 신호 내의 각 샘플 값의 심볼을 결정하는 단계와 단계(203), 단계(204), 및 단계(205) 사이에 필연적인 실행 순서는 없다.
단계(202)와 단계(203) 사이의 실행 순서는 제한되지 않는다.
단계(207): 출력 신호를 획득하기 위해, 디코딩에 의해 획득된 음성 오디오 신호 내의 제2 음성 오디오 신호 및 저주파 대역 신호를 결합한다.
출력 신호를 획득하기 위해, 제1 음성 오디오 신호가 디코딩에 의해 획득된 음성 오디오 신호 내의 저주파 대역 신호이면, 디코딩에 의해 획득된 음성 오디오 신호 내의 제2 음성 오디오 신호 및 고주파 대역 신호가 결합될 수 있다.
출력 신호를 획득하기 위해, 제1 음성 오디오 신호가 디코딩에 의해 획득된 음성 오디오 신호 내의 고주파 대역 신호이면, 디코딩에 의해 획득된 음성 오디오 신호 내의 제2 음성 오디오 신호 및 저주파 대역 신호가 결합될 수 있다.
제1 음성 오디오 신호가 디코딩에 의해 획득된 음성 오디오 신호 내의 전대역 신호이면, 제2 음성 오디오 신호는 출력 신호로서 직접 결정될 수 있다.
본 실시예에서는, 제2 음성 오디오 신호를 획득하기 위해, 디코딩에 의해 획득된 음성 오디오 신호 내의 고주파 대역 신호의 잡음 성분을 재구성하여, 고주파 대역 신호의 잡음 성분이 최종적으로 재구성된다. 따라서, 고주파 대역 신호가 온셋 또는 오프셋을 갖는 경우, 제2 음성 오디오 신호에 반향이 추가되지 않으므로, 제2 음성 오디오 신호의 청각적 품질을 향상시키고 최종적으로 출력된 출력 신호의 청각적 품질을 더욱 향상시킨다.
도 3은 본 발명의 일 실시예에 따른 음성 오디오 신호의 잡음 성분을 재구성하기 위한 방법의 다른 개략적인 순서도이다. 이 방법은 다음을 포함한다.
단계(301) 내지 단계(305)는 단계(201) 내지 단계(205)와 동일하며, 상세한 설명은 여기에서 다시 기술하지 않는다.
단계(306): 수정 계수를 계산하고, 수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0보다 큰, 조정된 진폭 값에 대한 수정 처리를 수행한다.
이 단계의 구체적인 구현에 대해서는, 단계(106)의 관련 설명을 참조한다. 세부 사항은 여기에서 다시 설명하지 않는다.
단계(307): 각 샘플 값의 심볼 및 수정 처리 후에 획득된 조정된 진폭 값에 따라 제2 음성 오디오 신호를 결정한다.
이 단계의 특정 구현에 대해서는, 단계(106)의 관련 설명을 참조한다. 세부 사항은 여기에서 다시 설명하지 않는다.
단계(302)에서 제1 음성 오디오 신호 내의 각 샘플 값의 심볼을 결정하는 단계는 단계(307) 이전의 임의의 시간에 수행될 수 있다. 제1 음성 오디오 신호 내의 각 샘플 값의 심볼을 결정하는 단계와 단계(303), 단계(304), 단계(305), 및 단계(306) 사이에 필연적인 실행 순서는 없다.
단계(302)와 단계(303) 사이의 실행 순서는 제한되지 않는다.
단계(308): 출력 신호를 획득하기 위해, 디코딩에 의해 획득된 음성 오디오 신호 내의 제2 음성 오디오 신호 및 저주파 대역 신호를 결합한다.
도 2에 도시된 실시예와 관련하여, 이 실시예에서, 각 샘플 값의 조정된 진폭 값이 획득된 후, 조정된 진폭 값들 내의, 0보다 큰, 조정된 진폭 값이 추가로 수정됨으로써, 제2 음성 오디오 신호의 청각적 품질을 더욱 개선하고, 최정족으로 출력되는 출력 신호의 청각적 품질을 더욱 개선할 수 있다.
본 발명의 실시예에 따른 도 2 및 도 3의 음성 오디오 신호의 잡음 성분을 재구성하기 위한 예시적인 방법들에서, 디코딩에 의해 획득된 음성 오디오 신호의 고주파 대역 신호는 제1 음성 오디오 신호로서 결정되고, 제1 음성 오디오 신호의 잡음 성분이 재구성되어, 최종적으로 제2 음성 오디오 신호를 획득한다. 실제 응용에서, 본 발명의 실시예에 따른 음성 오디오 신호의 잡음 성분을 재구성하기 위한 방법에 따르면, 디코딩에 의해 획득된 음성 오디오 신호의 전대역 신호의 잡음 성분이 재구성될 수 있거나, 또는 디코딩에 의해 획득된 음성 오디오 신호의 저주파 대역 신호의 잡음 성분이 재구성되어, 최종적으로 제2 음성 오디오 신호를 획득한다. 그 구현 프로세스에 대해서는, 도 2 및 도 3에 도시된 예시적인 방법을 참조한다. 차이점은, 제1 음성 오디오 신호가 결정될 때, 전대역 신호 또는 저주파 대역 신호가 제1 음성 오디오 신호로서 결정된다는 것이다. 여기에서 예를 하나씩 사용하여 설명이 제공되지 않는다.
도 4를 참조하면, 도 4는 본 발명의 실시예에 따른 음성 오디오 신호의 잡음 성분을 재구성하기 위한 장치의 개략적인 구조도이다. 장치는 전자 장치에 배치될 수 있다. 장치(400)는 비트스트림을 수신하고 비트스트림을 디코딩하여 음성 오디오 신호를 획득하며, 디코딩에 의해 획득된 음성 오디오 신호 내에서, 재구성되어야 하는 잡음 성분을 갖는 제1 음성 오디오 신호를 음성 오디오 신호에 따라 결정하도록 구성된 비트스트림 처리 유닛(410), 비트스트림 처리 유닛(410)에서 획득된 음성 오디오 신호에 따라 제1 음성 오디오 신호를 결정하는 신호 결정 유닛(420), 신호 결정 유닛에 의해 결정된 제1 음성 오디오 신호 내의 각 샘플 값의 심볼 및 신호 결정 유닛에 의해 결정된 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값을 결정하도록 구성된 제1 결정 유닛(430), 적응적 정규화 길이를 결정하도록 구성된 제2 결정 유닛(440), 제2 결정 유닛(440)에 의해 결정된 적응적 정규화 길이 및 제1 결정 유닛(430)에 의해 결정된 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하도록 구성된 제3 결정 유닛(450), 그리고 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호인 제2 음성 오디오 신호를 제1 결정 유닛(430)에 의해 결정된 각 샘플 값의 심볼 및 제3 결정 유닛(450)에 의해 결정된 각 샘플 값의 조정된 진폭 값에 따라 결정하도록 구성된 제4 결정 유닛(460)을 포함할 수 있다.
선택적으로, 제3 결정 유닛(450)은, 각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하고, 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란 값을 결정하도록 구성된 결정 서브유닛, 그리고 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산하도록 구성된 조정된 진폭 값 계산 서브유닛을 포함할 수 있다.
선택적으로, 결정 서브 유닛은, 적응적 정규화 길이에 따라 각 샘플 값에 대해, 샘플 값이 속하는 서브대역을 결정하도록 구성된 결정 모듈, 그리고 샘플 값이 속하는 서브대역 내의 모든 샘플 값의 진폭 값의 평균을 계산하고, 계산에 의해 획득된 평균 값을 샘플 값에 대응하는 평균 진폭 값으로서 사용하도록 구성된 계산 모듈을 포함할 수 있다.
선택적으로, 결정 모듈은 구체적으로, 적응적 정규화 길이에 따라 미리 설정된 순서로 모든 샘플 값에 대해 서브대역 그룹화를 수행하고, 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하거나, 또는 각 샘플 값에 대해, 샘플 값 이전의 m개의 샘플 값, 샘플 값, 샘플 값 이후의 n개의 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하도록 구성될 수 있고, 여기서 m 및 n은 적응적 정규화 길이에 의존하며, m은 0 이상의 정수이고, n은 0 이상의 정수이다.
선택적으로, 조정된 진폭 값 계산 서브유닛은 구체적으로, 각 샘플 값의 진폭 값으로부터 각 샘플 값에 대응하는 진폭 외란 값을 감산하여, 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값 간의 차이를 획득하고, 획득된 차이를 각 샘플 값의 조정된 진폭 값으로서 사용하도록 구성된다.
선택적으로, 제2 결정 유닛(440)은, 음성 오디오 신호의 저주파 대역 신호를 자연수인 N개의 서브대역으로 분할하도록 구성된 분할 서브유닛, 각 서브대역의 피크 대 평균 비율을 계산하고, 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량을 결정하도록 구성된 수량 결정 서브유닛, 그리고 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 적응적 정규화 길이를 계산하도록 구성된 길이 계산 서브유닛을 포함할 수 있다.
선택적으로 길이 계산 서브유닛은 구체적으로, 다음의 수학식 4에 따라 적응적 정규화 길이를 계산하도록 구성될 수 있고,
Figure pct00010
여기서 L은 적응적 정규화 길이이며, K는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 대응하는 수치이고, 고주파 대역 신호의 상이한 신호 유형은 상이한 수치 K에 대응하며, M은 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량이고, α는 1보다 작은 상수이다.
선택적으로, 제2 결정 유닛(440)은 구체적으로, 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 따라 적응적 정규화 길이를 결정하도록 구성될 수 있고, 여기서 제1 길이 값은 제2 길이 값보다 크고, 고주파 대역 신호들의 상이한 신호 유형들은 상이한 적응적 정규화 길이들에 대응한다.
선택적으로, 제4 결정 유닛(460)은 구체적으로, 제2 음성 오디오 신호를 획득하기 위해, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 새로운 값을 결정하거나, 또는 제2 음성 오디오 신호를 획득하기 위해, 수정 계수를 계산하고, 수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하며, 수정 처리 후에 획득된 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 각 샘플 값의 새로운 값을 결정하도록 구성될 수 있다.
선택적으로, 제4 결정 유닛(460)은 구체적으로, 다음의 수학식 5를 사용하여 수정 계수를 계산하도록 구성될 수 있고,
Figure pct00011
여기서 β는 수정 계수이고, L은 적응적 정규화 길이이며, a는 1보다 큰 상수이다.
선택적으로, 제4 결정 유닛은 구체적으로, 다음의 수학식 6을 사용하여 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하도록 구성될 수 있고,
Figure pct00012
Y는 수정 처리 후에 획득된 조정된 진폭 값이고, y는 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값이며, b는 0보다 크고 2보다 작은 상수이다.
이 실시예에서, 제1 음성 오디오 신호가 음성 오디오 신호에 따라 결정되고, 제1 음성 오디오 신호 내의 각 샘플 값의 심볼 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값이 결정되며, 적응적 정규화 길이가 결정되고, 각 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 샘플 값의 조정된 진폭 값이 결정되며, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 제2 음성 오디오 신호가 결정된다. 이 과정에서, 원래의 신호만, 즉, 제1 음성 오디오 신호가 처리되고, 새로운 신호가 제1 음성 오디오 신호에 부가되지 않으므로, 잡음 성분이 재구성된 후에 새로운 에너지가 제2 음성 오디오 신호에 부가되지 않는다. 따라서, 제1 음성 오디오 신호가 온셋 또는 오프셋을 가지면, 제2 음성 오디오 신호에 반향이 부가되지 않으므로, 제2 음성 오디오 신호의 청각적 품질을 개선한다.
도 5를 참조하면, 도 5는 본 발명의 일 실시예에 따른 전자 장치의 구조도이다. 전자 장치(500)는 프로세서(510), 메모리(520), 트랜시버(530), 및 버스(540)를 포함한다.
프로세서(510), 메모리(520), 및 트랜시버(530)는 버스(540)를 사용하여 서로 연결되고, 버스(540)는 ISA 버스, PCI 버스 또는 EISA 버스 등일 수 있다. 버스는 어드레스 버스, 데이터 버스, 제어 버스 등으로 분류될 수 있다. 표시의 용이함을 위해, 5는 굵은 선을 하나만 사용하여 나타내지만 버스가 하나 또는 버스 유형이 하나만 있음을 나타내지는 않는다.
메모리(520)는 프로그램을 저장하도록 구성된다. 특히, 프로그램은 프로그램 코드를 포함할 수 있고, 프로그램 코드는 컴퓨터 동작 명령을 포함한다. 메모리(520)는 고속 RAM 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 장치와 같은 비휘발성 메모리(non-volatile memory)를 더 포함할 수 있다.
트랜시버(530)는 다른 장치에 연결하고, 다른 장치와 통신하도록 구성된다. 특히, 트랜시버(530)는 비트스트림을 수신하도록 구성될 수 있다.
프로세서(510)는 메모리(520)에 저장된 프로그램 코드를 실행하고, 비트스트림을 디코딩하여, 음성 오디오 신호를 획득하고, 음성 오디오 신호에 따라 제1 음성 오디오 신호를 결정하며, 제1 음성 오디오 신호 내의 각 샘플 값의 심볼 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값을 결정하고, 적응적 정규화 길이를 결정하며, 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하고, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 제2 음성 오디오 신호를 결정하도록 구성된다.
선택적으로, 프로세서(510)는 구체적으로, 각 샘플 값의 진폭 값 및 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하고, 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란 값을 결정하고, 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값에 따라 각 샘플 값의 조정된 진폭 값을 계산하도록 구성될 수 있다.
선택적으로, 프로세서(510)는 구체적으로, 결정 서브 유닛은 적응적 정규화 길이에 따라 각 샘플 값에 대해, 샘플 값이 속하는 서브대역을 결정하고, 샘플 값이 속하는 서브대역 내의 모든 샘플 값의 진폭 값의 평균을 계산하고, 계산에 의해 획득된 평균 값을 샘플 값에 대응하는 평균 진폭 값으로서 사용하도록 구성될 수 있다.
선택적으로, 프로세서(510)는 구체적으로, 적응적 정규화 길이에 따라 미리 설정된 순서로 모든 샘플 값에 대해 서브대역 그룹화를 수행하고, 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하거나, 또는 각 샘플 값에 대해, 샘플 값 이전의 m개의 샘플 값, 샘플 값, 샘플 값 이후의 n개의 샘플 값을 포함하는 서브대역을 샘플 값이 속하는 서브대역으로서 결정하도록 구성될 수 있고, 여기서 m 및 n은 적응적 정규화 길이에 의존하며, m은 0 이상의 정수이고, n은 0 이상의 정수이다
선택적으로, 프로세서(510)는 구체적으로, 각 샘플 값의 진폭 값으로부터 각 샘플 값에 대응하는 진폭 외란 값을 감산하여, 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 진폭 외란 값 간의 차이를 획득하고, 획득된 차이를 각 샘플 값의 조정된 진폭 값으로서 사용하도록 구성될 수 있다.
선택적으로, 프로세서(510)는 구체적으로, 음성 오디오 신호의 저주파 대역 신호를 자연수인 N 개의 서브대역으로 분할하도록 구성된 분할 서브유닛, 각 서브대역의 피크 대 평균 비율을 계산하고, 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량을 결정하며, 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 서브대역의 수량에 따라 적응적 정규화 길이를 계산하도록 구성될 수 있다.
선택적으로, 프로세서(510)는 구체적으로, 다음의 수학식 7에 따라 적응적 정규화 길이를 계산하도록 구성될 수 있고,
Figure pct00013
여기서 L은 적응적 정규화 길이이며, K는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 대응하는 수치이고, 고주파 대역 신호의 상이한 신호 유형은 상이한 수치 K에 대응하며, M은 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량이고, α는 1보다 작은 상수이다.
선택적으로, 프로세서(510)는 구체적으로, 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 저주파 대역 신호의 피크 대 평균 비율 및 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작은 때, 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 저주파 대역 신호의 피크 대 평균 비율이 고주파 대역 신호의 피크 대 평균 비율보다 작지 않은 때, 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 따라 적응적 정규화 길이를 결정하도록 구성될 수 있고, 여기서 제1 길이 값은 제2 길이 값보다 크고, 고주파 대역 신호들의 상이한 신호 유형들은 상이한 적응적 정규화 길이들에 대응한다.
선택적으로, 프로세서(510)는 구체적으로, 제2 음성 오디오 신호를 획득하기 위해, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 새로운 값을 결정하거나, 또는 제2 음성 오디오 신호를 획득하기 위해, 수정 계수를 계산하고, 수정 계수에 따라 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하며, 수정 처리 후에 획득된 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 각 샘플 값의 새로운 값을 결정하도록 구성될 수 있다.
선택적으로, 프로세서(510)는 구체적으로, 다음의 수학식 8를 사용하여 수정 계수를 계산하도록 구성될 수 있고,
Figure pct00014
여기서 β는 수정 계수이고, L은 적응적 정규화 길이이며, a는 1보다 큰 상수이다.
선택적으로, 프로세서(510)는 구체적으로, 다음의 수학식 9을 사용하여 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하도록 구성될 수 있고,
Figure pct00015
Y는 수정 처리 후에 획득된 조정된 진폭 값이고, y는 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값이며, b는 0보다 크고 2보다 작은 상수이다.
이 실시예에서, 전자 장치는 음성 오디오 신호에 따라 제1 음성 오디오 신호를 결정하고, 제1 음성 오디오 신호 내의 각 샘플 값의 심볼 및 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값을 결정하며, 적응적 정규화 길이를 결정하고, 각 적응적 정규화 길이 및 각 샘플 값의 진폭 값에 따라 샘플 값의 조정된 진폭 값을 결정하며, 각 샘플 값의 심볼 및 각 샘플 값의 조정된 진폭 값에 따라 제2 음성 오디오 신호를 결정한다. 이 과정에서, 원래의 신호만, 즉, 제1 음성 오디오 신호가 처리되고, 새로운 신호가 제1 음성 오디오 신호에 부가되지 않으므로, 잡음 성분이 재구성된 후에 새로운 에너지가 제2 음성 오디오 신호에 부가되지 않는다. 따라서, 제1 음성 오디오 신호가 온셋 또는 오프셋을 가지면, 제2 음성 오디오 신호에 반향이 부가되지 않으므로, 제2 음성 오디오 신호의 청각적 품질을 개선한다.
시스템 실시예는 기본적으로 방법 실시예에 대응하고, 따라서 관련 부분에 대해서는 방법 실시예에서 부분 설명을 참조할 수 있다. 설명된 시스템 실시예는 단지 예시적인 것이다. 분리된 부분들로 기술된 유닛들은 물리적으로 분리될 수도 있고 그렇지 않을 수도 있으며, 유닛들로서 표시된 부분들은 물리적 유닛일 수도 있고 아닐 수도 있으며, 하나의 위치에 위치되거나 또는 복수의 네트워크 유닛 상에 분포될 수 있다. 모듈의 일부 또는 전부는 실시예의 해결책의 목적을 달성하기 위해 실제 필요에 따라 선택될 수 있다. 당업자는 독창적인 노력없이 본 발명의 실시예를 이해하고 구현할 수 있다.
본 발명은 컴퓨터, 예를 들어 프로그램 모듈에 의해 실행되는 실행 가능한 컴퓨터 명령의 일반적인 맥락에서 설명될 수 있다. 일반적으로, 프로그램 유닛은 특정 태스크를 실행하거나 특정 추상 데이터 타입을 구현하기 위한 루틴(routine), 프로그램, 오브젝트(object), 컴포넌트(component), 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크를 이용하여 연결된 원격 처리 장치에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 저장 장치를 포함하는 로컬 및 원격 컴퓨터 저장 매체 모두에 위치할 수 있다.
당업자는 방법의 구현 방식의 단계들 중 전부 또는 일부가 관련 하드웨어를 지시하는 프로그램에 의해 구현될 수 있다는 것을 이해할 수 있다. 프로그램은 ROM, RAM, 자기 디스크 또는 광학 디스크와 같은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다.
본 명세서에서, 제1 및 제2와 같은 관계형 용어는 엔티티(entity) 또는 오퍼레이션을 다른 엔티티 또는 오퍼레이션과 구별하기 위해서만 사용되며, 이들 엔티티 또는 오퍼레이션 사이에 임의의 실제적 관계 또는 시퀀스가 존재함을 요구하거나 암시하지 않는다는 점에 유의해야 한다. 또한, 용어 "포함하다(include)", "포함하다(comprise)" 또는 그들의 임의의 다른 변형은 배타적이지 않은 포함을 커버(cover)하도록 의도되어서, 구성요소의 목록을 포함하는 프로세스, 방법, 물품, 또는 장치가 그 구성요소들뿐만 아니라 명시적으로 열거되지 않은 다른 구성요소들을 포함하거나, 그러한 프로세스, 방법, 물품, 또는 장치에 고유한 요소들을 더 포함한다. "~을 포함하는(includes a...)"로 시작하는 구성요소는, 더 많은 제약 없이, 구성 요소를 포함하는 프로세스, 방법, 물품, 또는 장치 내에서 추가적인 동일 구성 요소의 존재를 배제하지 않는다.
전술한 설명은 본 발명의 예시적인 실시예에 불과하지만, 본 발명의 보호 범위를 제한하고자 하는 것은 아니다. 본 명세서에서, 구체적인 예는 본 발명의 원리 및 구현 방식을 설명하기 위해 사용되며, 실시예의 설명은 본 발명의 방법 및 핵심 개념을 보다 이해하기 쉽게 하기 위한 것이다. 또한, 당업자는 본 발명의 아이디어에 기초하여 특정 구현 방식 및 적용 범위에 대한 수정을 할 수 있다. 결론적으로, 본 명세서의 내용은 본 발명의 제한으로 해석되어서는 안된다. 본 발명의 사상 및 원리를 벗어나지 않는 한 임의의 수정, 동등한 대체 또는 개선은 본 발명의 보호 범위 내에 있다.

Claims (22)

  1. 음성 오디오 신호를 처리하는 방법으로서,
    비트스트림(bitstream)을 수신하고, 상기 비트스트림을 디코딩하여, 음성 오디오 신호를 획득하는 단계,
    상기 음성 오디오 신호 내에서, 재구성되어야 하는 잡음 성분(noise component)을 갖는 신호인 제1 음성 오디오 신호를 상기 음성 오디오 신호에 따라 결정하는 단계,
    상기 제1 음성 오디오 신호 내의 각 샘플 값의 심볼(symbol) 및 상기 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값(amplitude value)을 결정하는 단계,
    적응적 정규화 길이(adaptive normalization length)를 결정하는 단계,
    상기 적응적 정규화 길이 및 상기 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하는 단계, 그리고
    상기 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호인 제2 음성 오디오 신호를 상기 각 샘플 값의 심볼 및 상기 각 샘플 값의 조정된 진폭 값에 따라 결정하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 적응적 정규화 길이 및 상기 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하는 단계는,
    상기 각 샘플 값의 진폭 값 및 상기 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하고, 상기 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란(disturbance) 값을 결정하는 단계, 그리고
    상기 각 샘플 값의 진폭 값 및 상기 각 샘플 값에 대응하는 진폭 외란 값에 따라 상기 각 샘플 값의 조정된 진폭 값을 계산하는 단계를 포함하는,
    방법.
  3. 제2항에 있어서,
    상기 각 샘플 값의 진폭 값 및 상기 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하는 것은,
    상기 적응적 정규화 길이에 따라 각 샘플 값에 대해, 상기 샘플 값이 속하는 서브대역(subband)을 결정하는 단계, 그리고
    상기 샘플 값이 속하는 서브대역 내의 모든 샘플 값의 진폭 값의 평균을 계산하고, 계산에 의해 획득된 상기 평균 값을 상기 샘플 값에 대응하는 상기 평균 진폭 값으로서 사용하는 단계를 포함하는,
    방법.
  4. 제3항에 있어서,
    상기 적응적 정규화 길이에 따라 각 샘플 값에 대해 상기 샘플 값이 속하는 서브대역(subband)을 결정하는 단계는,
    상기 적응적 정규화 길이에 따라 미리 설정된 순서로 모든 샘플 값에 대해 서브대역 그룹화를 수행하고, 상기 샘플 값을 포함하는 서브대역을 상기 샘플 값이 속하는 서브대역으로서 결정하는 단계, 또는
    각 샘플 값에 대해, 상기 샘플 값 이전의 m개의 샘플 값, 상기 샘플 값, 상기 샘플 값 이후의 n개의 샘플 값을 포함하는 서브대역을 상기 샘플 값이 속하는 서브대역으로서 결정하는 단계를 포함하고,
    m 및 n은 상기 적응적 정규화 길이에 의존하며, m은 0 이상의 정수이고, n은 0 이상의 정수인,
    방법.
  5. 제2항 내지 제4항 중 어느 한 항에 있어서,
    상기 각 샘플 값의 진폭 값 및 상기 각 샘플 값에 대응하는 진폭 외란 값에 따라 상기 각 샘플 값의 조정된 진폭 값을 계산하는 단계는,
    상기 각 샘플 값의 진폭 값으로부터 각 샘플 값에 대응하는 상기 진폭 외란 값을 감산하여, 상기 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 상기 진폭 외란 값 간의 차이를 획득하고, 상기 획득된 차이를 상기 각 샘플 값의 조정된 진폭 값으로서 사용하는 단계를 포함하는,
    방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 적응적 정규화 길이를 결정하는 단계는,
    음성 오디오 신호의 저주파 대역 신호를 N개의 서브대역으로 분할하는 단계,
    각 서브대역의 피크 대 평균 비율(peak-to-average ratio)을 계산하고, 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량을 결정하는 단계, 그리고
    상기 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 상기 서브대역의 수량에 따라 상기 적응적 정규화 길이를 계산하는 단계를 포함하고,
    N은 자연수인,
    방법.
  7. 제6항에 있어서,
    상기 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 상기 서브대역의 수량에 따라 상기 적응적 정규화 길이를 계산하는 단계는,
    수학식에 따라 상기 적응적 정규화 길이를 계산하는 단계를 포함하고,
    Figure pct00016
    ,
    L은 상기 적응적 정규화 길이이며, K는 상기 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 대응하는 수치이고, 고주파 대역 신호의 상이한 신호 유형은 상이한 수치 K에 대응하며, M은 피크 대 평균 비율이 상기 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량이고, α는 1보다 작은 상수인,
    방법.
  8. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 적응적 정규화 길이를 결정하는 단계는,
    상기 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율(peak-to-average ratio) 및 상기 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (1-1) 상기 저주파 대역 신호의 피크 대 평균 비율 및 상기 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작은 때, 상기 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (1-2) 상기 저주파 대역 신호의 피크 대 평균 비율 및 상기 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작지 않은 때, 상기 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하는 단계, 또는
    상기 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 상기 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (2-1) 상기 저주파 대역 신호의 피크 대 평균 비율이 상기 고주파 대역 신호의 피크 대 평균 비율보다 작은 때, 상기 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (2-2) 상기 저주파 대역 신호의 피크 대 평균 비율이 상기 고주파 대역 신호의 피크 대 평균 비율보다 작지 않은 때, 상기 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하는 단계, 또는
    상기 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 따라 적응적 정규화 길이를 결정하는 단계를 포함하고,
    상기 제1 길이 값은 상기 제2 길이 값보다 크고, 고주파 대역 신호들의 상이한 신호 유형들은 상이한 적응적 정규화 길이들에 대응하는,
    방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 제2 음성 오디오 신호를 상기 각 샘플 값의 심볼 및 상기 각 샘플 값의 조정된 진폭 값에 따라 결정하는 단계는,
    상기 제2 음성 오디오 신호를 획득하기 위해, 상기 각 샘플 값의 심볼 및 상기 각 샘플 값의 조정된 진폭 값에 따라 새로운 값을 결정하는 단계, 또는
    상기 제2 음성 오디오 신호를 획득하기 위해, 수정 계수를 계산하고, 상기 수정 계수에 따라 상기 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하며, 상기 수정 처리 후에 획득된 상기 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 각 샘플 값의 새로운 값을 결정하는 단계를 포함하는,
    방법.
  10. 제9항에 있어서,
    상기 수정 계수를 계산하는 것은,
    다음의 수학식을 사용하여 상기 수정 계수를 계산하는 단계를 포함하고,
    Figure pct00017
    ,
    β는 상기 수정 계수이고, L은 상기 적응적 정규화 길이이며, a는 1 보다 큰 상수인,
    방법.
  11. 제9항 또는 제10항에 있어서,
    상기 수정 계수에 따라 상기 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하는 것은,
    다음의 수학식을 사용하여 상기 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하는 단계를 포함하고,
    Figure pct00018
    ,
    Y는 상기 수정 처리 후에 획득된 조정된 진폭 값이고, y는 상기 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값이며, b는 0 보다 크고 2 보다 작은 상수인,
    방법.
  12. 음성 오디오 신호의 잡음 성분(noise component)을 재구성하기 위한 장치로서,
    비트스트림을 수신하고 상기 비트스트림을 디코딩하여 음성 오디오 신호를 획득하도록 구성된 비트스트림 처리 유닛,
    디코딩에 의해 획득된 상기 음성 오디오 신호 내에서, 재구성되어야 하는 잡음 성분을 갖는 제1 음성 오디오 신호를 상기 비트스트림 처리 유닛에 의해 획득된 상기 음성 오디오 신호에 따라 결정하도록 구성된 신호 결정 유닛,
    상기 신호 결정 유닛에 의해 결정된 상기 제1 음성 오디오 신호 내의 각 샘플 값의 심볼(symbol) 및 상기 신호 결정 유닛에 의해 결정된 상기 제1 음성 오디오 신호 내의 각 샘플 값의 진폭 값(amplitude value)을 결정하도록 구성된 제1 결정 유닛,
    적응적 정규화 길이(adaptive normalization length)를 결정하도록 구성된 제2 결정 유닛,
    상기 제2 결정 유닛에 의해 결정된 상기 적응적 정규화 길이 및 상기 제1 결정 유닛에 의해 결정된 상기 각 샘플 값의 진폭 값에 따라 각 샘플 값의 조정된 진폭 값을 결정하도록 구성된 제3 결정 유닛, 그리고
    상기 제1 음성 오디오 신호의 잡음 성분이 재구성된 후에 획득되는 신호인 제2 음성 오디오 신호를 제1 결정 유닛에 의해 결정된 상기 각 샘플 값의 심볼 및 상기 제3 결정 유닛에 의해 결정된 상기 각 샘플 값의 조정된 진폭 값에 따라 결정하도록 구성된 제4 결정 유닛
    을 포함하는 장치.
  13. 제12항에 있어서,
    상기 제3 결정 유닛은,
    상기 각 샘플 값의 진폭 값 및 상기 적응적 정규화 길이에 따라, 각 샘플 값에 대응하는 평균 진폭 값을 계산하고, 상기 각 샘플 값에 대응하는 평균 진폭 값에 따라, 각 샘플 값에 대응하는 진폭 외란(disturbance) 값을 결정하도록 구성된 결정 서브유닛, 그리고
    상기 각 샘플 값의 진폭 값 및 상기 각 샘플 값에 대응하는 진폭 외란 값에 따라 상기 각 샘플 값의 조정된 진폭 값을 계산하도록 구성된 조정된 진폭 값 계산 서브유닛을 포함하는,
    장치.
  14. 제13항에 있어서,
    상기 결정 서브유닛은,
    상기 적응적 정규화 길이에 따라 각 샘플 값에 대해, 상기 샘플 값이 속하는 서브대역(subband)을 결정하도록 구성된 결정 모듈, 그리고
    상기 샘플 값이 속하는 서브대역 내의 모든 샘플 값의 진폭 값의 평균을 계산하고, 계산에 의해 획득된 상기 평균 값을 상기 샘플 값에 대응하는 상기 평균 진폭 값으로서 사용하도록 구성된 계산 모듈을 포함하는,
    장치.
  15. 제14항에 있어서,
    상기 결정 모듈은 구체적으로,
    상기 적응적 정규화 길이에 따라 미리 설정된 순서로 모든 샘플 값에 대해 서브대역 그룹화를 수행하고, 상기 샘플 값을 포함하는 서브대역을 상기 샘플 값이 속하는 서브대역으로서 결정하거나, 또는
    각 샘플 값에 대해, 상기 샘플 값 이전의 m개의 샘플 값, 상기 샘플 값, 상기 샘플 값 이후의 n개의 샘플 값을 포함하는 서브대역을 상기 샘플 값이 속하는 서브대역으로서 결정하도록 구성되고,
    m 및 n은 상기 적응적 정규화 길이에 의존하며, m은 0 이상의 정수이고, n은 0 이상의 정수인,
    장치.
  16. 제13항 내지 제15항 중 어느 한 항에 있어서,
    상기 조정된 진폭 값 계산 서브유닛은 구체적으로, 상기 각 샘플 값의 진폭 값으로부터 각 샘플 값에 대응하는 상기 진폭 외란 값을 감산하여, 상기 각 샘플 값의 진폭 값 및 각 샘플 값에 대응하는 상기 진폭 외란 값 간의 차이를 획득하고, 상기 획득된 차이를 상기 각 샘플 값의 조정된 진폭 값으로서 사용하도록 구성된,
    장치.
  17. 제12항 내지 제16항 중 어느 한 항에 있어서,
    상기 제2 결정 유닛은,
    음성 오디오 신호의 저주파 대역 신호를 N개의 서브대역으로 분할하도록 구성된 분할 서브유닛,
    각 서브대역의 피크 대 평균 비율(peak-to-average ratio)을 계산하고, 피크 대 평균 비율이 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량을 결정하도록 구성된 수량 결정 서브유닛, 그리고
    상기 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형 및 상기 서브대역의 수량에 따라 상기 적응적 정규화 길이를 계산하도록 구성된 길이 계산 서브유닛을 포함하고,
    N은 자연수인,
    장치.
  18. 제17항에 있어서,
    상기 길이 계산 서브유닛은 구체적으로,
    다음의 수학식에 따라 상기 적응적 정규화 길이를 계산하도록 구성되고,
    Figure pct00019
    ,
    L은 상기 적응적 정규화 길이이며, K는 상기 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 대응하는 수치이고, 고주파 대역 신호의 상이한 신호 유형은 상이한 수치 K에 대응하며, M은 피크 대 평균 비율이 상기 미리 설정된 피크 대 평균 비율 임계치보다 큰 서브대역의 수량이고, α는 1보다 작은 상수인,
    장치.
  19. 제12항 내지 제16항 중 어느 한 항에 있어서,
    상기 제2 결정 유닛은 구체적으로,
    상기 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율(peak-to-average ratio) 및 상기 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (1-1) 상기 저주파 대역 신호의 피크 대 평균 비율 및 상기 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작은 때, 상기 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (1-2) 상기 저주파 대역 신호의 피크 대 평균 비율 및 상기 고주파 대역 신호의 피크 대 평균 비율 사이의 차이의 절대 값이 미리 설정된 차이 임계치보다 작지 않은 때, 상기 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는
    상기 음성 오디오 신호 내의 저주파 대역 신호의 피크 대 평균 비율 및 상기 음성 오디오 신호 내의 고주파 대역 신호의 피크 대 평균 비율을 계산하고, (2-1) 상기 저주파 대역 신호의 피크 대 평균 비율이 상기 고주파 대역 신호의 피크 대 평균 비율보다 작은 때, 상기 적응적 정규화 길이를 미리 설정된 제1 길이 값으로서 결정하거나, 또는 (2-2) 상기 저주파 대역 신호의 피크 대 평균 비율이 상기 고주파 대역 신호의 피크 대 평균 비율보다 작지 않은 때, 상기 적응적 정규화 길이를 미리 설정된 제2 길이 값으로서 결정하거나, 또는
    상기 음성 오디오 신호 내의 고주파 대역 신호의 신호 유형에 따라 적응적 정규화 길이를 결정하도록 구성되고,
    상기 제1 길이 값은 상기 제2 길이 값보다 크고, 고주파 대역 신호들의 상이한 신호 유형들은 상이한 적응적 정규화 길이들에 대응하는,
    장치.
  20. 제12항 내지 제19항 중 어느 한 항에 있어서,
    상기 제4 결정 유닛은 구체적으로,
    상기 제2 음성 오디오 신호를 획득하기 위해, 상기 각 샘플 값의 심볼 및 상기 각 샘플 값의 조정된 진폭 값에 따라 새로운 값을 결정하거나, 또는
    상기 제2 음성 오디오 신호를 획득하기 위해, 수정 계수를 계산하고, 상기 수정 계수에 따라 상기 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하며, 상기 수정 처리 후에 획득된 상기 각 샘플 값의 심볼 및 조정된 진폭 값에 따라 각 샘플 값의 새로운 값을 결정하도록 구성된,
    장치.
  21. 제20항에 있어서,
    상기 제4 결정 유닛은 구체적으로, 다음의 수학식을 사용하여 상기 수정 계수를 계산하도록 구성되고,
    Figure pct00020
    ,
    β는 상기 수정 계수이고, L은 상기 적응적 정규화 길이이며, a는 1 보다 큰 상수인,
    장치.
  22. 제20항 또는 제21항에 있어서,
    상기 제4 결정 유닛은 구체적으로,
    다음의 수학식을 사용하여 상기 샘플 값의 조정된 진폭 값 내의, 0 보다 큰 조정된 진폭 값에 대해 수정 처리를 수행하도록 구성되고,
    Figure pct00021
    ,
    Y는 상기 수정 처리 후에 획득된 조정된 진폭 값이고, y는 상기 샘플 값의 조정된 진폭 값 내의, 0보다 큰 조정된 진폭 값이며, b는 0 보다 크고 2 보다 작은 상수인,
    장치.
KR1020167035690A 2014-06-03 2015-01-19 오디오 신호를 처리하기 위한 방법 및 장치 KR101943529B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410242233.2A CN105336339B (zh) 2014-06-03 2014-06-03 一种语音频信号的处理方法和装置
CN201410242233.2 2014-06-03
PCT/CN2015/071017 WO2015184813A1 (zh) 2014-06-03 2015-01-19 一种语音频信号的处理方法和装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020197002091A Division KR102104561B1 (ko) 2014-06-03 2015-01-19 오디오 신호를 처리하기 위한 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20170008837A true KR20170008837A (ko) 2017-01-24
KR101943529B1 KR101943529B1 (ko) 2019-01-29

Family

ID=54766052

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020167035690A KR101943529B1 (ko) 2014-06-03 2015-01-19 오디오 신호를 처리하기 위한 방법 및 장치
KR1020207011385A KR102201791B1 (ko) 2014-06-03 2015-01-19 오디오 신호를 처리하기 위한 방법 및 장치
KR1020197002091A KR102104561B1 (ko) 2014-06-03 2015-01-19 오디오 신호를 처리하기 위한 방법 및 장치

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020207011385A KR102201791B1 (ko) 2014-06-03 2015-01-19 오디오 신호를 처리하기 위한 방법 및 장치
KR1020197002091A KR102104561B1 (ko) 2014-06-03 2015-01-19 오디오 신호를 처리하기 위한 방법 및 장치

Country Status (19)

Country Link
US (3) US9978383B2 (ko)
EP (3) EP3712890B1 (ko)
JP (3) JP6462727B2 (ko)
KR (3) KR101943529B1 (ko)
CN (2) CN110097892B (ko)
AU (1) AU2015271580B2 (ko)
BR (1) BR112016028375B1 (ko)
CA (1) CA2951169C (ko)
CL (1) CL2016003121A1 (ko)
ES (1) ES2964221T3 (ko)
HK (1) HK1220543A1 (ko)
IL (1) IL249337B (ko)
MX (2) MX362612B (ko)
MY (1) MY179546A (ko)
NZ (1) NZ727567A (ko)
RU (1) RU2651184C1 (ko)
SG (1) SG11201610141RA (ko)
WO (1) WO2015184813A1 (ko)
ZA (1) ZA201608477B (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097892B (zh) 2014-06-03 2022-05-10 华为技术有限公司 一种语音频信号的处理方法和装置
CN108133712B (zh) * 2016-11-30 2021-02-12 华为技术有限公司 一种处理音频数据的方法和装置
CN106847299B (zh) * 2017-02-24 2020-06-19 喜大(上海)网络科技有限公司 延时的估计方法及装置
RU2754497C1 (ru) * 2020-11-17 2021-09-02 федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет" (ФГАОУ ВО КФУ) Способ передачи речевых файлов по зашумленному каналу и устройство для его реализации
US20230300524A1 (en) * 2022-03-21 2023-09-21 Qualcomm Incorporated Adaptively adjusting an input current limit for a boost converter

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010008995A1 (en) * 1999-12-31 2001-07-19 Kim Jeong Jin Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6261312B1 (en) 1998-06-23 2001-07-17 Innercool Therapies, Inc. Inflatable catheter for selective organ heating and cooling and method of using the same
SE9803698L (sv) * 1998-10-26 2000-04-27 Ericsson Telefon Ab L M Metoder och anordningar i ett telekommunikationssystem
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6631139B2 (en) * 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
US6708147B2 (en) * 2001-02-28 2004-03-16 Telefonaktiebolaget Lm Ericsson(Publ) Method and apparatus for providing comfort noise in communication system with discontinuous transmission
US20030093270A1 (en) * 2001-11-13 2003-05-15 Domer Steven M. Comfort noise including recorded noise
EP1701340B1 (en) * 2001-11-14 2012-08-29 Panasonic Corporation Decoding device, method and program
US7536298B2 (en) * 2004-03-15 2009-05-19 Intel Corporation Method of comfort noise generation for speech communication
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
WO2008007700A1 (fr) 2006-07-12 2008-01-17 Panasonic Corporation Dispositif de décodage de son, dispositif de codage de son, et procédé de compensation de trame perdue
RU2460155C2 (ru) * 2006-09-18 2012-08-27 Конинклейке Филипс Электроникс Н.В. Кодирование и декодирование звуковых объектов
CN101320563B (zh) * 2007-06-05 2012-06-27 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
CN101335003B (zh) 2007-09-28 2010-07-07 华为技术有限公司 噪声生成装置、及方法
US8139777B2 (en) * 2007-10-31 2012-03-20 Qnx Software Systems Co. System for comfort noise injection
CN101483042B (zh) 2008-03-20 2011-03-30 华为技术有限公司 一种噪声生成方法以及噪声生成装置
ES2401487T3 (es) * 2008-07-11 2013-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena
PL2146344T3 (pl) * 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
CN101483048B (zh) 2009-02-06 2010-08-25 凌阳科技股份有限公司 光学储存装置及其回路增益值的自动校正方法
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
CN102436820B (zh) * 2010-09-29 2013-08-28 华为技术有限公司 高频带信号编码方法及装置、高频带信号解码方法及装置
CN105825858B (zh) * 2011-05-13 2020-02-14 三星电子株式会社 比特分配、音频编码和解码
US8731949B2 (en) 2011-06-30 2014-05-20 Zte Corporation Method and system for audio encoding and decoding and method for estimating noise level
US20130006644A1 (en) * 2011-06-30 2013-01-03 Zte Corporation Method and device for spectral band replication, and method and system for audio decoding
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
US20130132100A1 (en) 2011-10-28 2013-05-23 Electronics And Telecommunications Research Institute Apparatus and method for codec signal in a communication system
CN104040624B (zh) * 2011-11-03 2017-03-01 沃伊斯亚吉公司 改善低速率码激励线性预测解码器的非语音内容
US9305567B2 (en) 2012-04-23 2016-04-05 Qualcomm Incorporated Systems and methods for audio signal processing
CN110097892B (zh) * 2014-06-03 2022-05-10 华为技术有限公司 一种语音频信号的处理方法和装置
US20200333702A1 (en) 2019-04-19 2020-10-22 Canon Kabushiki Kaisha Forming apparatus, forming method, and article manufacturing method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010008995A1 (en) * 1999-12-31 2001-07-19 Kim Jeong Jin Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EVS Codec Detailed Algorithmic Description (3GPP TS 26.445 version 12.0.0 Release 12). ETSI TS 126 445 V12.0.0. 2014.11. *

Also Published As

Publication number Publication date
KR102104561B1 (ko) 2020-04-24
IL249337A0 (en) 2017-02-28
BR112016028375A2 (pt) 2017-08-22
WO2015184813A1 (zh) 2015-12-10
KR101943529B1 (ko) 2019-01-29
AU2015271580A1 (en) 2017-01-19
KR102201791B1 (ko) 2021-01-11
JP7142674B2 (ja) 2022-09-27
EP4283614A2 (en) 2023-11-29
US20180268830A1 (en) 2018-09-20
JP6462727B2 (ja) 2019-01-30
CN105336339B (zh) 2019-05-03
US20170084282A1 (en) 2017-03-23
MY179546A (en) 2020-11-10
US9978383B2 (en) 2018-05-22
MX362612B (es) 2019-01-28
CN105336339A (zh) 2016-02-17
US20200279572A1 (en) 2020-09-03
MX2016015950A (es) 2017-04-05
AU2015271580B2 (en) 2018-01-18
BR112016028375B1 (pt) 2022-09-27
ES2964221T3 (es) 2024-04-04
US11462225B2 (en) 2022-10-04
SG11201610141RA (en) 2017-01-27
EP3147900B1 (en) 2019-10-02
CN110097892B (zh) 2022-05-10
EP3147900A4 (en) 2017-05-03
US10657977B2 (en) 2020-05-19
CA2951169C (en) 2019-12-31
MX2019001193A (es) 2019-06-12
CL2016003121A1 (es) 2017-04-28
JP2021060609A (ja) 2021-04-15
KR20200043548A (ko) 2020-04-27
ZA201608477B (en) 2018-08-29
IL249337B (en) 2020-09-30
HK1220543A1 (zh) 2017-05-05
JP2017517034A (ja) 2017-06-22
RU2651184C1 (ru) 2018-04-18
EP4283614A3 (en) 2024-02-21
EP3712890A1 (en) 2020-09-23
KR20190009440A (ko) 2019-01-28
EP3147900A1 (en) 2017-03-29
JP2019061282A (ja) 2019-04-18
EP3712890B1 (en) 2023-08-30
JP6817283B2 (ja) 2021-01-20
CN110097892A (zh) 2019-08-06
CA2951169A1 (en) 2015-12-10
NZ727567A (en) 2018-01-26

Similar Documents

Publication Publication Date Title
JP6817283B2 (ja) 音声/オーディオ信号を処理するための方法および装置
JP2023022073A (ja) 信号分類方法および信号分類デバイス、ならびに符号化/復号化方法および符号化/復号化デバイス
KR101019398B1 (ko) 오디오 코딩 및 디코딩에서의 여기의 프로세싱
US20130204630A1 (en) Controlling a Noise-Shaping Feedback Loop in a Digital Audio Signal Encoder
JP6493889B2 (ja) 音声信号を検出するための方法および装置
JP6616470B2 (ja) 符号化方法、復号化方法、符号化装置及び復号化装置
JP7008756B2 (ja) デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置
CN102176312A (zh) 一种通过小波陷波来降低突发噪音的系统及方法
KR20130007603A (ko) 신호 프로세서, 윈도우 제공기, 인코딩된 미디어 신호, 신호를 처리하기 위한 방법 및 윈도우를 제공하기 위한 방법
JP6714741B2 (ja) バーストフレーム誤り処理
JP5295372B2 (ja) デジタルオーディオ信号におけるプリエコーの減衰
CN109285553A (zh) 对高阶高保真立体声信号应用动态范围压缩的方法和设备
JP2014508973A (ja) オーディオ信号において卓越周波数を減衰させるための方法および装置
Samaali et al. Watermark-aided pre-echo reduction in low bit-rate audio coding
GB2349054A (en) Digital audio signal encoders

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant