KR101702281B1 - 음성 주파수 신호 처리 방법 및 장치 - Google Patents

음성 주파수 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR101702281B1
KR101702281B1 KR1020167028242A KR20167028242A KR101702281B1 KR 101702281 B1 KR101702281 B1 KR 101702281B1 KR 1020167028242 A KR1020167028242 A KR 1020167028242A KR 20167028242 A KR20167028242 A KR 20167028242A KR 101702281 B1 KR101702281 B1 KR 101702281B1
Authority
KR
South Korea
Prior art keywords
signal
audio
frequency signal
parameter
current frame
Prior art date
Application number
KR1020167028242A
Other languages
English (en)
Other versions
KR20160121612A (ko
Inventor
제신 리우
레이 미아오
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20160121612A publication Critical patent/KR20160121612A/ko
Application granted granted Critical
Publication of KR101702281B1 publication Critical patent/KR101702281B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Transmitters (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

본 발명은 음성/오디오 신호 처리 방법 및 장치를 개시한다. 실시예에서, 음성/오디오 신호 처리 방법은: 음성/오디오 신호가 대역폭을 전환활 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 대역 신호를 얻는 단계; 초기 고주파 대역 신호의 시간 영역 전역 이득 파라미터를 얻는 단계; 에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하는 단계 ―에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ; 예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하여, 합성된 신호를 출력하는 단계를 포함한다.

Description

음성 주파수 신호 처리 방법 및 장치{VOICE FREQUENCY SIGNAL PROCESSING METHOD AND DEVICE}
본 발명은 디지털 신호 처리 기술 분야에 관한 것으로, 특히, 음성/오디오 신호 처리 방법 및 장치에 관한 것이다.
디지털 통신 분야에서, 음성, 이미지, 오디오, 및 비디오의 전송은, 이동 전화 통화, 음성/화상 회의, 방송 텔레비전, 및 멀티미디어 엔터테인먼트 등의 광범위한 응용에서 요구된다. 오디오는 디지털화되어, 오디오 통신 네트워크를 이용해 한 단말기에서 다른 단말기로 전송된다. 여기서 단말기는, 이동 전화, 디지털 전화 단말기, 또는 기타 임의 타입의 오디오 단말기일 수 있고, 여기서, 디지털 전화 단말기는, 예를 들어, VOIP 전화, ISDN 전화, 컴퓨터, 또는 케이블 통신 전화이다. 저장 또는 전송 동안에 음성/오디오 신호(speech/audio signal)에 의해 점유되는 자원을 감소시키기 위해, 음성/오디오 신호는 전송단에서 압축된 다음 수신단에 전송되고, 수신단에서, 음성/오디오 신호는 압축해제(decompression) 처리에 의해 복원되고 재생된다.
현재의 멀티레이트 음성/오디오 코딩(multirate speech/audio coding)에서, 상이한 네트워크 상태 때문에, 네트워크는 상이한 비트 레이트들로 비트 스트림들을 절삭하고(truncate), 여기서, 비트 스트림들은 인코더로부터 네트워크로 전송되며, 디코더에서, 절삭된 비트 스트림들은 상이한 대역폭의 음성/오디오 신호로 디코딩된다. 그 결과, 출력 음성/오디오 신호들은 상이한 대역폭들 사이에서 전환된다.
상이한 대역폭들의 신호들 사이의 갑작스런 전환은 인간의 귀에는 명백한 청각적 불편함을 야기한다. 게다가, 시간-주파수 변환 또는 주파수-시간 변환 동안의 필터들의 상태의 업데이팅은 일반적으로 연속된 프레임들 사이에서 파라미터의 이용을 요구하므로, 대역폭 전환 동안에 어떤 적절한 처리가 수행되지 않으면, 이들 상태들의 업데이트 동안에 에러가 생길 수 있고, 이것은 갑작스런 에너지 변화와 청각적 품질 열화라는 일부 현상을 야기한다.
본 발명의 실시예들의 목적은, 음성/오디오 신호의 대역폭 전환 동안의 청각적 편안함을 개선하는 음성/오디오 신호 처리 방법 및 장치를 제공하는 것이다.
본 발명의 제1 양태에 따르면, 음성/오디오 신호 처리 방법은 하기 단계들을 포함한다:
음성/오디오 신호가 넓은 주파수 신호(wide frequency signal)로부터 좁은 주파수 신호(narrow frequency signal)로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는 단계;
음성/오디오 신호의 현재 프레임의 스펙트럼 틸트 파라미터(spectrum tilt parameter), 및 현재 프레임의 좁은 주파수 신호와 이력 프레임(historical frame)의 좁은 주파수 신호 사이의 상관관계(correlation)에 따라 고주파 신호의 시간 영역 전역 이득 파라미터(time-domain global gain parameter)를 얻는 단계;
시간 영역 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고 합성된 신호를 출력하는 단계.
본 발명의 제2 양태에 따르면, 음성/오디오 신호 처리 방법은 하기 단계들을 포함한다:
음성/오디오 신호가 넓은 주파수 신호로부터 좁은 주파수 신호로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는 단계;
초기 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는 단계;
에너지 비율(energy ratio)과 시간 영역 전역 이득 파라미터에 관해 가중치 처리(weighting processing)를 수행하여 예측된 전역 이득 파라미터로서 가중된 값(weighted value)을 얻는 단계 ―에너지 비율은 이전 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ;
예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하는 단계.
본 발명의 제3 양태에 따르면, 음성/오디오 신호 처리 장치는 하기 유닛들을 포함한다:
음성/오디오 신호가 넓은 주파수 신호로부터 좁은 주파수 신호로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 예측 유닛;
현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛;
예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛.
본 발명의 제4 양태에 따르면, 음성/오디오 신호 처리 장치는 하기 유닛들을 포함한다:
음성/오디오 신호가 넓은 주파수 신호로부터 좁은 주파수 신호로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 취득 유닛;
초기 고주파 신호에 대응하는 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛;
에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하여 예측된 전역 이득 파라미터로서 가중된 값을 얻도록 구성된 가중치 처리 유닛 ―에너지 비율은 이전 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ;
예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛.
본 발명의 실시예에서, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환 동안에, 고주파 신호가 보정되어 넓은 주파수 대역과 좁은 주파수 대역 사이의 고주파 신호의 평활한 천이(smooth transition)를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다; 또한, 대역폭 전환 알고리즘과 전환 이전의 고주파 신호의 코딩/디코딩 알고리즘은 동일한 신호 영역(signal domain)에 있기 때문에, 어떠한 추가의 지연도 부가되지 않고 알고리즘이 간단해지는 것을 보장할 뿐만 아니라 출력 신호의 성능도 보장한다.
본 발명의 실시예에서의 기술적 해결책을 설명하기 위하여, 이하에서는 실시예를 설명하는데 요구되는 첨부된 도면을 간략하게 소개한다. 명백히, 이하의 설명에서의 첨부된 도면은 본 발명의 일부 실시예를 도시할 뿐이며, 이 기술분야의 통상의 기술자라면 창조적 노력없이 이들 첨부된 도면들로부터 다른 도면들을 여전히 유도해 낼 수 있을 것이다.
도 1은 본 발명에 따른 음성/오디오 신호 처리 방법의 실시예의 개략적 플로차트이다;
도 2는 본 발명에 따른 음성/오디오 신호 처리 방법의 또 다른 실시예의 개략적 플로차트이다;
도 3은 본 발명에 따른 음성/오디오 신호 처리 방법의 또 다른 실시예의 개략적 플로차트이다;
도 4는 본 발명에 따른 음성/오디오 신호 처리 방법의 또 다른 실시예의 개략적 플로차트이다;
도 5는 본 발명에 따른 음성/오디오 신호 처리 장치의 실시예의 개략적 구조도이다;
도 6은 본 발명에 따른 음성/오디오 신호 처리 장치의 실시예의 개략적 구조도이다;
도 7은 본 발명에 따른 파라미터 획득 유닛의 실시예의 개략적 구조도이다;
도 8은 본 발명에 따른 전역 이득 파라미터 획득 유닛의 실시예의 개략적 구조도이다;
도 9는 본 발명에 따른 취득 유닛의 실시예의 개략적 구조도이다;
도 10은 본 발명에 따른 음성/오디오 신호 처리 장치의 또 다른 실시예의 개략적 구조도이다.
이하에서는 본 발명의 실시예의 첨부된 도면을 참조하여 본 발명의 실시예에서의 기술적 해결책을 명확하게 설명한다. 명백하게, 설명된 실시예들은 본 발명의 실시예들 전부가 아닌 일부일 뿐이다. 창조적 노력없이 본 발명의 실시예에 기초하여 이 기술분야의 통상의 기술자에 의해 얻어지는 다른 모든 실시예들은 본 발명의 보호 범위 내에 든다.
디지털 신호 처리 분야에서, 오디오 코덱 및 비디오 코덱은, 예를 들어, 이동 전화, 무선 장치, PDA(personal data assistant), 핸드헬드 또는 휴대 컴퓨터, GPS 수신기/네비게이터, 카메라, 오디오/비디오 재생기, 비디오 카메라, 비디오 레코더, 및 모니터링 장치 등의 다양한 전자 장치에 널리 적용된다. 대개, 이러한 타입의 전자 장치는 오디오 코더 또는 오디오 디코더를 포함하고, 오디오 코더 또는 디코더는 디지털 회로 또는 칩, 예를 들어, DSP(digital signal processor)에 의해 직접 구현되거나, 프로세서가 소프트웨어 코드로 프로세스를 실행하게 하는 소프트웨어 코드에 의해 구현될 수 있다.
종래 기술에서, 네트워크에서 전송된 음성/오디오 신호들의 대역폭들은 상이하므로, 음성/오디오 신호를 전송하는 과정에서, 음성/오디오 신호의 대역폭은 자주 변하고, 좁은 주파수 음성/오디오 신호로부터 넓은 주파수 음성/오디오 신호로의 전환, 및 넓은 주파수 음성/오디오 신호로부터 좁은 주파수 음성/오디오 신호로의 전환의 현상이 존재한다. 높은 주파수 대역과 낮은 주파수 대역 사이에서 음성/오디오 신호를 전환하는 이러한 프로세스는 대역폭 전환이라 불린다. 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환과 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환을 포함한다. 본 발명에서 언급되는 좁은 주파수 신호는, 업샘플링(up-sampling) 및 저역-통과 필터링(low-pass filtering) 후에 저주파 성분만을 갖고 고주파 성분은 비어 있는 음성 신호인 반면, 넓은 주파수 음성/오디오 신호는 저주파 신호 성분과 고주파 신호 성분 양쪽 모두를 갖는다. 좁은 주파수 신호와 넓은 주파수 신호는 상대적이다. 예를 들어, 협대역 신호에 대해, 광대역 신호는 넓은 주파수 신호이고; 광대역 신호에 대해, 초광대역 신호는 넓은 주파수 신호이다. 일반적으로, 협대역 신호는 샘플링 레이트(sampling rate)가 8 kHz인 음성/오디오 신호이고; 광대역 신호는 샘플링 레이트가 16 kHz인 음성/오디오 신호이고; 초광대역 신호는 샘플링 레이트가 32 kHz인 음성/오디오 신호이다.
전환 이전의 고주파 신호의 코딩/디코딩 알고리즘이 상이한 신호 타입에 따라 시간 영역 및 주파수 영역 코딩/디코딩 알고리즘들 사이에서 선택될 때, 또는 전환 이전의 고주파 신호의 코딩 알고리즘이 시간 영역 코딩 알고리즘일 때, 전환 동안의 출력 신호들의 연속성을 보장하기 위하여, 처리를 위해 신호 영역에서 전환 알고리즘이 유지되고, 여기서, 이 신호 영역은 전환 이전의 고주파 코딩/디코딩 알고리즘의 신호 영역과 동일하다. 즉, 시간 영역 코딩/디코딩 알고리즘이 전환 이전의 고주파 신호에 이용될 때, 이용될 전환 알고리즘으로서 시간 영역 전환 알고리즘이 이용된다; 주파수 영역 코딩/디코딩 알고리즘이 전환 이전의 고주파 신호에 이용될 때, 이용될 전환 알고리즘으로서 주파수 영역 전환 알고리즘이 이용된다. 종래 기술에서, 전환 이전에 시간 영역 주파수 대역 확장 알고리즘이 이용될 때, 전환 이후에 유사한 시간 영역 전환 기술은 이용되지 않는다.
음성/오디오 코딩에서, 처리는 일반적으로 단위로서 프레임을 이용하여 수행된다. 처리될 필요가 있는 현재의 입력 오디오 프레임은 음성/오디오 신호의 현재 프레임이다. 현재 프레임의 음성/오디오 신호는, 좁은 주파수 신호와 고주파 신호, 즉, 현재 프레임의 좁은 주파수 신호와 현재 프레임의 고주파 신호를 포함한다. 현재 프레임의 고주파 신호 이전의(before) 임의의 프레임의 음성/오디오 신호가 이력 프레임의 음성/오디오 신호이고, 이는 또한 이력 프레임의 좁은 주파수 신호와 이력 프레임의 고주파 신호를 포함한다. 현재 프레임의 음성/오디오 신호에 선행하는(previous to) 프레임의 음성/오디오 신호가 이전 프레임(previous frame)의 음성/오디오 신호이다.
도 1을 참조하면, 본 발명의 음성/오디오 신호 처리 방법의 실시예는 하기 단계들을 포함한다:
S101: 음성/오디오 신호가 대역폭을 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는다.
현재 프레임의 음성/오디오 신호는 현재 프레임의 좁은 주파수 신호와 현재 프레임의 고주파 시간 영역 신호를 포함한다. 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환과 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환을 포함한다. 좁은 주파수 신호로부터 넓은 주파수 신호로 전환하는 경우, 현재 프레임의 음성/오디오 신호는 좁은 주파수 신호와 고주파 신호를 포함하는, 현재 프레임의 넓은 주파수 신호이고, 현재 프레임의 음성/오디오 신호의 초기 고주파 신호는 실제 신호(real signal)이고 현재 프레임의 음성/오디오 신호로부터 직접 얻어질 수 있다. 넓은 주파수 신호로부터 좁은 주파수 신호로 전환하는 경우, 현재 프레임의 음성/오디오 신호는 현재 프레임의 고주파 시간 영역 신호가 비어 있는 현재 프레임의 좁은 주파수 신호이고, 현재 프레임의 음성/오디오 신호의 초기 고주파 신호는 예측된 신호이며, 현재 프레임의 좁은 주파수 신호에 대응하는 고주파 신호는 예측되어 초기 고주파 신호로서 이용될 필요가 있다.
S102: 초기 고주파 신호에 대응하는 시간 영역 전역 이득 파라미터를 얻는다.
좁은 주파수 신호로부터 넓은 주파수 신호로 전환하는 경우, 고주파 신호의 시간 영역 전역 이득 파라미터는 디코딩에 의해 얻어질 수 있다. 넓은 주파수 신호로부터 좁은 주파수 신호로 전환하는 경우, 고주파 신호의 시간 영역 전역 이득 파라미터는 현재 프레임의 신호에 따라 얻어질 수 있다: 고주파 신호의 시간 영역 전역 이득 파라미터는 좁은 주파수 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 얻어진다.
S103: 에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하고, 여기서, 에너지 비율은 이력 프레임의 음성/오디오 신호의 고주파 시간 영역 신호의 에너지와 현재 프레임의 음성/오디오 신호의 초기 고주파 신호의 에너지 사이의 비율이다.
이력 프레임의 최종 출력 음성/오디오 신호는 이력 프레임의 음성/오디오 신호로서 이용되고, 초기 고주파 신호는 현재 프레임의 음성/오디오 신호로서 이용된다. 에너지 비율 Ratio=Esyn(-1)/Esyn_tmp이고, 여기서 Esyn(-1)은 이력 프레임의 출력 고주파 시간 영역 신호 syn의 에너지를 나타내고, Esyn_tmp는 현재 프레임에 대응하는 초기 고주파 시간 영역 신호 syn의 에너지를 나타낸다.
예측된 전역 이득 파라미터 gain=alfa*Ratio+beta*gain'이고, gain'는 시간 영역 전역 이득 파라미터이고, alfa+beta =1이며, alfa와 beta의 값들은 상이한 신호 타입들에 따라 상이하다.
S104: 예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는다.
보정이란 예측된 전역 이득 파라미터에 의해 신호가 곱해진다(multiply)는 것, 즉, 초기 고주파 신호가 곱해진다는 것을 가리킨다. 또 다른 실시예에서, 단계 S102에서, 초기 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터(time-domain envelope parameter)와 시간 영역 전역 이득 파라미터가 얻어진다; 따라서, 단계 S104에서, 초기 고주파 신호는 시간 영역 엔빌로프 파라미터와 예측된 전역 이득 파라미터를 이용하여 보정되어 보정된 고주파 시간 영역 신호를 얻는다; 즉, 예측된 고주파 신호는 시간 영역 엔빌로프 파라미터와 예측된 시간 영역 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다.
좁은 주파수 신호로부터 넓은 주파수 신호로 전환하는 경우, 고주파 신호의 시간 영역 엔빌로프 파라미터는 디코딩에 의해 얻어질 수 있다. 넓은 주파수 신호로부터 좁은 주파수 신호로 전환하는 경우, 고주파 신호의 시간 영역 엔빌로프 파라미터는 신호의 현재 프레임에 따라 얻어질 수 있다; 이력 프레임의 고주파 시간 영역 엔빌로프 파라미터 또는 일련의 미리 결정된 값은 현재 프레임의 음성/오디오 신호의 고주파 시간 영역 엔빌로프 파라미터로서 이용될 수 있다.
S105: 현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력한다.
상기 실시예에서, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환 동안에, 고주파 신호가 보정되어 넓은 주파수 대역과 좁은 주파수 대역 사이의 고주파 신호의 평활한 천이를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다; 또한, 대역폭 전환 알고리즘과 전환 이전의 고주파 신호의 코딩/디코딩 알고리즘은 동일한 신호 영역에 있기 때문에, 어떠한 추가의 지연도 부가되지 않고 알고리즘이 간단해지는 것을 보장할 뿐만 아니라 출력 신호의 성능도 보장한다.
도 2를 참조하면, 본 발명의 음성/오디오 신호 처리 방법의 또 다른 실시예는 하기 단계들을 포함한다:
S201: 넓은 주파수 신호가 좁은 주파수 신호로 전환할 때, 현재 프레임의 좁은 주파수 신호에 대응하는 예측된 고주파 신호를 예측한다.
넓은 주파수 신호가 좁은 주파수 신호로 전환할 때, 이전 프레임은 넓은 주파수 신호이고, 현재 프레임은 좁은 주파수 신호이다. 현재 프레임의 좁은 주파수 신호에 대응하는 예측된 고주파 신호를 예측하는 단계는, 현재 프레임의 좁은 주파수 신호에 따라 현재 프레임의 음성/오디오 신호의 고주파 신호의 여기 신호(excitation signal)를 예측하는 단계; 음성/오디오 신호의 현재 프레임의 고주파 신호의 LPC(Linear Predictive Coding) 계수를 예측하는 단계; 및 예측된 고주파 여기 신호와 LPC 계수를 합성하여 예측된 고주파 신호 syn_tmp를 얻는 단계를 포함한다.
실시예에서, 피치 주기(pitch period), 대수 코드북(algebraic codebook), 및 이득 등의 파라미터들은 좁은 주파수 신호로부터 추출될 수 있고, 고주파 여기 신호는 리샘플링(resampling)과 필터링에 의해 예측된다.
또 다른 실시예에서, 업샘플링, 저역통과, 절대값 또는 제곱을 얻는 등의 동작이 좁은 주파수 시간 영역 신호 또는 좁은 주파수 시간 영역 여기 신호에 관해 수행되어 높은 주파수 여기 신호를 예측한다.
고주파 신호의 LPC 계수를 예측하기 위해, 이력 프레임의 고주파 LPC 계수 또는 일련의 미리 설정된 값들이 현재 프레임의 LPC 계수로서 이용될 수 있다; 또는 상이한 신호 타입들에 대해 상이한 예측 방식들이 이용될 수 있다.
S202: 예측된 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터 및 시간 영역 전역 이득 파라미터를 얻는다.
일련의 미리 결정된 값들이 현재 프레임의 고주파 시간 영역 엔빌로프 파라미터로서 이용될 수 있다. 협대역 신호는 일반적으로 수 개의 타입들로 분류될 수 있고, 각각의 타입에 대해 일련의 값들이 미리 설정될 수 있으며, 협대역 신호의 현재 프레임의 타입에 따라 한 그룹의 미리 설정된 시간 영역 엔빌로프 파라미터들이 선택될 수 있다; 또는 한 그룹의 시간 영역 엔빌로프 값들이 설정될 수 있다, 예를 들어, 시간 영역 엔빌로프의 개수가 M일 때, 미리 설정된 값은 M 0.3536s일 수 있다. 이 실시예에서, 시간 영역 엔빌로프 파라미터의 획득은 선택사항이고 필요한 단계인 것은 아니다.
좁은 주파수 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터가 얻어지며, 실시예에서는 다음과 같은 단계들을 포함한다:
S2021: 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로서 분류하고, 한 실시예에서, 제1 타입의 신호는 마찰음(fricative) 신호이고, 제2 타입의 신호는 비마찰음(non-fricative) 신호이다; 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값보다 작을 때, 좁은 주파수 신호를 마찰음 신호로서 분류하고, 나머지는 비마찰음 신호로서 분류한다.
현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계를 보여주는 파라미터 cor는 동일한 주파수 대역의 신호들 사이의 에너지 크기 관계에 따라 결정되거나, 수 개의 동일한 주파수 대역 사이의 에너지 관계에 따라 결정되거나, 시간 영역 신호들 사이의 자기상관(self-correlation) 또는 교차상관(cross-correlation)을 보여주거나 시간 영역 여기 신호들 사이의 자기상관 또는 교차상관을 보여주는 공식에 따라 계산될 수 있다.
S2022: 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용한다. 즉, 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 미리 결정된 값 이하일 때, 스펙트럼 틸트 파라미터의 원래 값이 스펙트럼 틸트 파라미터 제한값으로서 유지된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 미리 결정된 값보다 클 때, 제1 미리 결정된 값이 스펙트럼 틸트 파라미터 제한값으로서 이용된다.
시간 영역 전역 이득 파라미터 gain'는 다음과 같은 공식에 따라 얻어진다:
Figure 112016098392989-pat00001
여기서, tilt는 스펙트럼 틸트 파라미터이고, ∂1은 제1 미리 결정된 값이다.
S2023: 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 그 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용한다. 즉, 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위에 속할 때, 스펙트럼 틸트 파라미터의 원래 값이 스펙트럼 틸트 파라미터 제한값으로서 유지된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위의 상한보다 클 때, 제1 범위의 상한이 스펙트럼 틸트 파라미터 제한값으로서 이용된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위의 하한보다 작을 때, 제1 범위의 하한이 스펙트럼 틸트 파라미터 제한값으로서 이용된다.
시간 영역 전역 이득 파라미터 gain'는 다음과 같은 공식에 따라 얻어진다:
Figure 112016098392989-pat00002
여기서, tilt는 스펙트럼 틸트 파라미터이고, [a, b]는 제1 범위이다.
실시예에서, 좁은 주파수 신호의 스펙트럼 틸트 파라미터 tilt, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계를 보여주는 파라미터 cor가 얻어진다; 현재 프레임의 신호는 tilt 및 cor에 따라 2개의 타입, 마찰음 및 비마찰음으로 분류된다; 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만일 때, 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로 분류된다; tilt가 값 범위 0.5<=tilt<=1.0 내로 제한되어 비마찰음의 시간 영역 전역 이득 파라미터로서 이용되며, tilt가 값 범위 tilt <= 8.0으로 제한되어 마찰음의 시간 영역 전역 이득 파라미터로서 이용된다. 마찰음의 경우, 스펙트럼 틸트 파라미터는 5보다 큰 임의의 값일 수 있고, 비마찰음의 경우, 스펙트럼 틸트 파라미터는 5 이하의 임의의 값이거나, 5보다 큰 값일 수 있다. 스펙트럼 틸트 파라미터 tilt가 추정된 시간 영역 전역 이득 파라미터로서 이용될 수 있도록 보장하기 위해, tilt는 값 범위 내로 제한된 다음 시간 영역 전역 이득 파라미터로서 이용된다. 즉, tilt > 8일 때, tilt=8이 마찰음의 시간 영역 전역 이득 파라미터로서 이용되는 것으로 결정된다; tilt < 0.5일 때, tilt는 0.5라고 결정되거나, 또는 tilt > 1.0일 때, tilt =1.0이라고 결정되며, 0.5 또는 1.0이 비마찰음의 시간 영역 전역 이득 파라미터로서 이용된다.
S203: 에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하고, 여기서, 에너지 비율은 이력 프레임의 음성/오디오 신호의 고주파 시간 영역 신호의 에너지와 현재 프레임의 음성/오디오 신호의 초기 고주파 신호의 에너지 사이의 비율이다.
에너지 비율 Ratio=Esyn(-1)/Esyn_tmp에 관해 계산이 수행되고, tilt와 Ratio의 가중된 값은 현재 프레임의 예측된 전역 이득 파라미터 gain, 즉, gain=alfa*Ratio+beta*gain'로서 이용되고, 여기서, gain'는 시간 영역 전역 이득 파라미터이고, alfa + beta = 1이며, alfa와 beta의 값들은 상이한 신호 타입들에 따라 상이하며, Esyn(-1)는 이력 프레임의 최종 출력 고주파 시간 영역 신호 syn의 에너지를 나타내고, Esyn_tmp는 현재 프레임의 예측된 고주파 시간 영역 신호 syn의 에너지를 나타낸다.
S204: 시간 영역 엔빌로프 파라미터와 예측된 전역 이득 파라미터를 이용하여 예측된 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는다.
예측된 고주파 신호는 시간 영역 엔빌로프 파라미터와 예측된 시간 영역 전역 이득 파라미터로 곱해져 고주파 시간 영역 신호를 얻는다.
이 실시예에서, 시간 영역 엔빌로프 파라미터는 선택사항이다. 시간 영역 전역 이득 파라미터만이 포함되는 경우, 예측된 고주파 신호는 예측된 전역 이득 파라미터를 이용해 보정되어 보정된 고주파 시간 영역 신호를 얻는다. 즉, 예측된 고주파 신호는 예측된 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다.
S205: 현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력한다.
고주파 시간 영역 신호 syn의 에너지 Esyn은 다음 프레임의 시간 영역 전역 이득 파라미터를 예측하는데 이용된다. 즉, Esyn의 값은 Esyn(-1)에 할당된다.
상기 실시예에서, 넓은 주파수 신호에 후속하는 좁은 주파수 신호의 높은 주파수 대역이 보정되어, 넓은 주파수 대역과 좁은 주파수 대역 사이의 높은 주파수 부분의 평활한 천이를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다; 또한, 전환 동안에 프레임에 관해 대응하는 처리가 수행되기 때문에, 파라미터와 상태 업데이트 동안에 발생하는 문제가 간접적으로 제거된다. 대역폭 전환 알고리즘과 전환 이전의 고주파 신호의 코딩/디코딩 알고리즘을 동일한 신호 영역에 유지함으로써, 어떠한 추가 지연도 부가되지 않고 알고리즘이 간단해지는 것을 보장할 뿐만 아니라 출력 신호의 성능도 보장한다.
도 3을 참조하면, 본 발명의 음성/오디오 신호 처리 방법의 또 다른 실시예는 하기 단계들을 포함한다:
S301: 좁은 주파수 신호가 넓은 주파수 신호로 전환할 때, 현재 프레임의 고주파 신호를 얻는다.
좁은 주파수 신호가 넓은 주파수 신호로 전환할 때, 이전 프레임은 좁은 주파수 신호이고, 현재 프레임은 넓은 주파수 신호이다.
S302: 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터 및 시간 영역 전역 이득 파라미터를 얻는다.
시간 영역 엔빌로프 파라미터 및 시간 영역 전역 이득 파라미터는 현재 프레임의 고주파 신호로부터 직접 얻어질 수 있다. 시간 영역 엔빌로프 파라미터의 획득은 선택사항적 단계이다.
S303: 에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하고, 여기서, 에너지 비율은 이력 프레임의 음성/오디오 신호의 고주파 시간 영역 신호의 에너지와 현재 프레임의 음성/오디오 신호의 초기 고주파 신호의 에너지 사이의 비율이다.
현재 프레임은 넓은 주파수 신호이므로, 고주파 신호의 파라미터들 모두는 디코딩에 의해 얻어질 수 있다. 전환 동안에 평활한 천이를 보장하기 위하여, 시간 영역 전역 이득 파라미터는 다음과 같은 방식으로 평활화된다:
에너지 비율 Ratio=Esyn(-1)/Esyn_tmp에 관해 계산이 수행되고, 여기서 Esyn(-1)은 이력 프레임의 최종 출력 고주파 시간 영역 신호 syn의 에너지를 나타내고, Esyn_tmp는 현재 프레임의 고주파 시간 영역 신호 syn의 에너지를 나타낸다.
디코딩에 의해 얻어지는 시간 영역 전역 이득 파라미터 gain과 Ratio의 가중된 값은 현재 프레임의 예측된 전역 이득 파라미터 gain, 즉, gain=alfa*Ratio+beta*gain'로서 이용되고, 여기서, gain'는 시간 영역 전역 이득 파라미터이고, alfa+beta =1이며, alfa와 beta의 값은 상이한 신호 타입들에 따라 상이하다.
현재 오디오 프레임 및 이전 프레임의 음성/오디오 신호의 협대역 신호들이 미리 결정된 상관관계를 가질 때, 특정 스텝 크기(step size)에 따라, 이전 프레임의 음성/오디오 신호에 대응하는 에너지 비율의 가중치 인자(weighting factor) alfa를 감쇠함으로써 얻어지는 값이 현재 오디오 프레임에 대응하는 에너지 비율의 가중치 인자로서 이용되고, 감쇠는 alfa가 0일 때까지 프레임별로(frame by frame) 수행된다.
연속된 프레임들의 좁은 주파수 신호들이 동일한 신호 타입이거나, 또는 연속된 프레임들의 좁은 주파수 신호들 사이의 상관관계가 특정 조건을 만족할 때, 즉, 연속된 프레임들이 특정 상관관계를 갖거나 연속된 프레임들의 신호 타입이 유사할 때, alfa는 alfa가 0으로 감쇠될 때까지 특정 스텝 크기에 따라 프레임별로 감쇠된다; 연속된 프레임들의 좁은 주파수 신호가 어떠한 상관관계도 갖지 않을 때, alfa는 바로 0으로 감쇠되는데, 즉, 가중치 또는 보정을 수행하지 않고 현재의 디코딩 결과가 유지된다.
S304: 시간 영역 엔빌로프 파라미터와 예측된 전역 이득 파라미터를 이용하여 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는다.
보정이란, 고주파 신호가 시간 영역 엔빌로프 파라미터와 예측된 시간 영역 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다는 것을 말한다.
이 실시예에서, 시간 영역 엔빌로프 파라미터는 선택사항이다. 시간 영역 전역 이득 파라미터만이 포함되는 경우, 고주파 신호는 예측된 전역 이득 파라미터를 이용해 보정되어 보정된 고주파 시간 영역 신호를 얻는다. 즉, 고주파 신호는 예측된 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다.
S305: 현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력한다.
상기 실시예에서, 좁은 주파수 신호에 후속하는 넓은 주파수 신호의 높은 주파수 대역이 보정되어, 넓은 주파수 대역과 좁은 주파수 대역 사이의 높은 주파수 부분의 평활한 천이를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다; 또한, 전환 동안에 프레임에 관해 대응하는 처리가 수행되기 때문에, 파라미터와 상태 업데이트 동안에 발생하는 문제가 간접적으로 제거된다. 대역폭 전환 알고리즘과 전환 이전의 고주파 신호의 코딩/디코딩 알고리즘을 동일한 신호 영역에 유지함으로써, 어떠한 추가 지연도 부가되지 않고 알고리즘이 간단해지는 것을 보장할 뿐만 아니라 출력 신호의 성능도 보장한다.
도 4를 참조하면, 본 발명의 음성/오디오 신호 처리 방법의 또 다른 실시예는 하기 단계들을 포함한다:
S401: 음성/오디오 신호가 넓은 주파수 신호로부터 좁은 주파수 신호로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는다.
넓은 주파수 신호가 좁은 주파수 신호로 전환할 때, 이전 프레임은 넓은 주파수 신호이고, 현재 프레임은 좁은 주파수 신호이다. 현재 프레임의 좁은 주파수 신호에 대응하는 초기 고주파 신호를 예측하는 단계는, 현재 프레임의 좁은 주파수 신호에 따라 현재 프레임의 음성/오디오 신호의 고주파 신호의 여기 신호를 예측하는 단계; 현재 프레임의 음성/오디오 신호의 고주파 신호의 LPC 계수를 예측하는 단계; 및 예측된 고주파 여기 신호와 LPC 계수를 합성하여 예측된 고주파 신호 syn_tmp를 얻는 단계를 포함한다.
실시예에서, 피치 주기, 대수 코드북, 및 이득 등의 파라미터들은 좁은 주파수 신호로부터 추출될 수 있고, 고주파 여기 신호는 리샘플링과 필터링에 의해 예측된다.
또 다른 실시예에서, 좁은 주파수 시간 영역 신호 또는 좁은 주파수 시간 영역 여기 신호에 관해 업샘플링, 저역통과, 절대값 또는 제곱을 얻는 등의 동작을 수행하여, 높은 주파수 여기 신호를 예측한다.
고주파 신호의 LPC 계수를 예측하기 위해, 이력 프레임의 고주파 LPC 계수 또는 일련의 미리 설정된 값들이 현재 프레임의 LPC 계수로서 이용될 수 있거나; 또는 상이한 신호 타입들에 대해 상이한 예측 방식들이 이용될 수 있다.
S402: 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는다.
실시예에서, 다음과 같은 단계들이 포함된다:
S2021: 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로서 분류하고, 한 실시예에서, 제1 타입의 신호는 마찰음 신호이고, 제2 타입의 신호는 비마찰음 신호이다.
실시예에서, 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값보다 작을 때, 좁은 주파수 신호를 마찰음 신호로서 분류하고, 나머지는 비마찰음 신호로서 분류한다. 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계를 보여주는 파라미터 cor는 동일한 주파수 대역의 신호들 사이의 에너지 크기 관계에 따라 결정되거나, 수 개의 동일한 주파수 대역 사이의 에너지 관계에 따라 결정되거나, 시간 영역 신호들 사이의 자기상관 또는 교차상관을 보여주거나 시간 영역 여기 신호들 사이의 자기상관 또는 교차상관을 보여주는 공식에 따라 계산될 수 있다.
S2022: 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 그 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용한다. 즉, 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 미리 결정된 값 이하일 때, 스펙트럼 틸트 파라미터의 원래 값이 스펙트럼 틸트 파라미터 제한값으로서 유지된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 미리 결정된 값보다 클 때, 제1 미리 결정된 값이 스펙트럼 틸트 파라미터 제한값으로서 이용된다.
현재 프레임의 음성/오디오 신호가 마찰음 신호일 때, 시간 영역 전역 이득 파라미터 gain'는 다음과 같은 공식에 따라 얻어진다:
Figure 112016098392989-pat00003
여기서, tilt는 스펙트럼 틸트 파라미터이고, ∂1은 제1 미리 결정된 값이다.
S2023: 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 그 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용한다. 즉, 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위에 속할 때, 스펙트럼 틸트 파라미터의 원래 값이 스펙트럼 틸트 파라미터 제한값으로서 유지된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위의 상한보다 클 때, 제1 범위의 상한이 스펙트럼 틸트 파라미터 제한값으로서 이용된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위의 하한보다 작을 때, 제1 범위의 하한이 스펙트럼 틸트 파라미터 제한값으로서 이용된다.
현재 프레임의 음성/오디오 신호가 비마찰음 신호일 때, 시간 영역 전역 이득 파라미터 gain'는 다음과 같은 공식에 따라 얻어진다:
Figure 112016098392989-pat00004
여기서, tilt는 스펙트럼 틸트 파라미터이고, [a, b]는 제1 범위이다.
실시예에서, 좁은 주파수 신호의 스펙트럼 틸트 파라미터 tilt, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계를 보여주는 파라미터 cor가 얻어진다; 현재 프레임의 신호는 tilt 및 cor에 따라 2개의 타입, 마찰음 및 비마찰음으로 분류된다; 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만일 때, 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로 분류된다; tilt가 값 범위 0.5<=tilt<=1.0 내로 제한되어 비마찰음의 시간 영역 전역 이득 파라미터로서 이용되며, tilt가 값 범위 tilt <= 8.0으로 제한되어 마찰음의 시간 영역 전역 이득 파라미터로서 이용된다. 마찰음의 경우, 스펙트럼 틸트 파라미터는 5보다 큰 임의의 값일 수 있고, 비마찰음의 경우, 스펙트럼 틸트 파라미터는 5 이하의 임의의 값이거나, 5보다 큰 값일 수 있다. 스펙트럼 틸트 파라미터 tilt가 예측된 전역 이득 파라미터로서 이용될 수 있도록 보장하기 위해, tilt는 값 범위 내로 제한된 다음 시간 영역 전역 이득 파라미터로서 이용된다. 즉, tilt > 8일 때, tilt=8인 것으로 결정되고, 8이 마찰음 신호의 시간 영역 전역 이득 파라미터로서 이용된다; tilt < 0.5일 때, tilt=0.5라고 결정되거나, 또는 tilt > 1.0일 때, tilt=1.0이라고 결정되고, 0.5 또는 1.0이 비마찰음 신호의 시간 영역 전역 이득 파라미터로서 이용된다.
S403: 시간 영역 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는다.
실시예에서, 초기 고주파 신호는 시간 영역 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다.
또 다른 실시예에서, 단계 S403은 다음과 같은 단계들을 포함할 수 있다:
에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하는 단계 ―에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ; 및
예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 즉, 초기 고주파 신호를 예측된 전역 이득 파라미터로 곱해서 보정된 고주파 시간 영역 신호를 얻는 단계.
선택사항으로서, 단계(S403) 이전에, 이 방법은:
초기 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터를 얻는 단계를 더 포함할 수 있고,
예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하는 단계는:
시간 영역 엔빌로프 파라미터와 시간 영역 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하는 단계를 포함한다.
S404: 현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력한다.
상기 실시예에서, 넓은 주파수 대역이 좁은 주파수 대역으로 전환할 때, 고주파 신호의 시간 영역 전역 이득 파라미터가 스펙트럼 틸트 파라미터와 프레임간 상관관계(interframe correlation)에 따라 얻어진다. 좁은 주파수 스펙트럼 틸트 파라미터를 이용하여, 좁은 주파수 신호와 고주파 신호 사이의 에너지 관계가 정확하게 추정되어 고주파 신호의 에너지를 더 양호하게 추정할 수 있다. 프레임간 상관관계를 이용함으로써, 좁은 주파수 프레임들 사이의 상관관계를 잘 이용해 고주파 신호들 사이의 프레임간 상관관계가 추정될 수 있다. 이런 방식으로, 가중치 처리를 수행하여 고주파 전역 이득을 얻게 되면, 전술한 실제 정보가 양호하게 이용될 수 있고, 바람직하지 않은 노이즈가 도입되지 않는다. 고주파 신호는 시간 영역 전역 이득 파라미터를 이용해 보정되어, 넓은 주파수 대역과 좁은 주파수 대역 사이의 고주파 부분의 평활한 천이를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이에서 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다.
전술한 방법 실시예와 관련하여, 본 발명은 음성/오디오 신호 처리 장치를 더 제공한다. 이 장치는, 단말기 장치, 네트워크 장치, 또는 테스트 장치에 위치할 수 있다. 음성/오디오 신호 처리 장치는 하드웨어 회로에 의해 구현되거나, 하드웨어와 조합한 소프트웨어에 의해 구현될 수도 있다. 예를 들어, 도 5를 참조하면, 프로세서는 음성/오디오 신호 처리 장치를 기동하여 음성/오디오 신호 처리를 구현한다. 음성/오디오 신호 처리 장치는 전술한 방법 실시예들의 방법과 프로세스를 실행할 수 있다.
도 6을 참조하면, 음성/오디오 신호 처리 장치의 실시예는 하기 유닛들을 포함한다:
음성/오디오 신호가 대역폭을 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 취득 유닛(601);
초기 고주파 신호에 대응하는 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛(602);
에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하도록 구성된 가중치 처리 유닛(603) ―에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ;
예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛(604); 및
현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛(605).
실시예에서, 대역폭 전환은 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환이고, 파라미터 획득 유닛(602)은:
현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 음성/오디오 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻도록 구성된 전역 이득 파라미터 획득 유닛을 포함한다.
도 7을 참조하면, 또 다른 실시예에서, 대역폭 전환은 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환이고, 파라미터 획득 유닛(602)은:
현재 프레임의 음성/오디오 신호의 고주파 시간 영역 엔빌로프 파라미터로서 일련의 미리 설정된 값들을 이용하도록 구성된 시간 영역 엔빌로프 획득 유닛(701); 및
현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 음성/오디오 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻도록 구성된 전역 이득 파라미터 획득 유닛(702)을 포함한다.
따라서, 보정 유닛(604)은, 시간 영역 엔빌로프 파라미터와 예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된다.
도 8을 참조하면, 또한, 전역 이득 파라미터 획득 유닛(702)의 실시예는:
현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 음성/오디오 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하도록 구성된 분류 유닛(801);
현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제1 제한 유닛(802); 및
현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제2 제한 유닛(803)을 포함한다.
또한, 실시예에서, 제1 타입의 신호는 마찰음 신호이고, 제2 타입의 신호는 비마찰음 신호이다; 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로서 분류된다; 제1 미리 결정된 값은 8이고; 미리 설정된 제1 범위는 [0.5, 1]이다.
도 9를 참조하면, 실시예에서, 취득 유닛(601)은:
현재 프레임의 음성/오디오 신호에 따라 고주파 신호의 여기 신호를 예측하도록 구성된 여기 신호 획득 유닛(901);
고주파 신호의 LPC 계수를 예측하도록 구성된 LPC 계수 획득 유닛(902); 및
고주파 신호의 여기 신호와 고주파 신호의 LPC 계수를 합성하여 예측된 고주파 신호를 얻도록 구성된 생성 유닛(903)을 포함한다.
실시예에서, 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환이고, 음성/오디오 신호 처리 장치는:
현재 오디오 프레임의 음성/오디오 신호와 이전 프레임의 음성/오디오 신호의 협대역 신호들이 미리 결정된 상관관계를 가질 때, 특정 스텝 크기에 따라, 이전 프레임의 음성/오디오 신호에 대응하는 에너지 비율의 가중치 인자 alfa를 감쇠함으로써 얻어지는 값을 현재 오디오 프레임에 대응하는 에너지 비율의 가중치 인자로서 이용하도록 구성된 가중치 인자 설정 유닛을 더 포함하고, 여기서, 감쇠는 alfa가 0일 때까지 프레임별로 수행된다.
도 10을 참조하면, 음성/오디오 신호 처리 장치의 또 다른 실시예는:
음성/오디오 신호가 넓은 주파수 신호로부터 좁은 주파수 신호로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 예측 유닛(1001);
현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛(1002);
예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛(1003); 및
현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛(1004)을 포함한다.
도 8을 참조하면, 파라미터 획득 유닛(1002)은:
현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 음성/오디오 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하도록 구성된 분류 유닛(801);
현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 그 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제1 제한 유닛(802); 및
현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 그 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제2 제한 유닛(803)을 포함한다.
또한, 실시예에서, 제1 타입의 신호는 마찰음 신호이고, 제2 타입의 신호는 비마찰음 신호이다; 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로서 분류된다; 제1 미리 결정된 값은 8이고; 미리 설정된 제1 범위는 [0.5, 1]이다.
선택사항으로서, 실시예에서, 음성/오디오 신호 처리 장치는:
에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하도록 구성된 가중치 처리 유닛을 더 포함하고, 여기서, 에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율이고,
보정 유닛은, 예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된다.
또 다른 실시예에서, 파라미터 획득 유닛은 초기 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터를 얻도록 더 구성되고; 보정 유닛은 시간 영역 엔빌로프 파라미터와 시간 영역 전역 이득 파라미터를 이용해 초기 고주파 신호를 보정하도록 구성된다.
이 기술분야의 통상의 기술자라면, 실시예들의 방법들의 프로세스들 전부 또는 일부는 관련 하드웨어에게 명령하는 컴퓨터 프로그램에 의해 구현될 수 있다는 것을 이해할 수 있을 것이다. 이 프로그램은 컴퓨터 판독가능한 저장 매체에 저장될 수 있다. 프로그램이 실행되면, 실시예의 방법의 프로세스가 수행된다. 저장 매체는, 자기 디스크, 광학 디스크, 판독 전용 메모리(ROM; Read-Only Memory), 또는 랜덤 액세스 메모리(RAM; Random Access Memory)를 포함할 수 있다.
위의 설명은 본 발명을 나타내기 위한 예시적인 실시예들일 뿐이고, 본 발명의 범위는 이것으로 제한되지 않는다. 본 발명의 사상과 범위로부터 벗어나지 않고 이 기술분야의 통상의 기술자에게 수정 또는 변형이 쉽게 명백하다.

Claims (11)

  1. 음성/오디오 신호(speech/audio signal) 처리 방법으로서,
    음성/오디오 신호가 넓은 주파수 신호(wide frequency signal)로부터 좁은 주파수 신호(narrow frequency signal)로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는 단계;
    상기 초기 고주파 신호의 시간 영역 전역 이득 파라미터(time-domain global gain parameter)를 얻는 단계;
    에너지 비율(energy ratio)과 상기 시간 영역 전역 이득 파라미터에 관해 가중치 처리(weighting processing)를 수행하여 예측된 전역 이득 파라미터로서 가중된 값(weighted value)을 얻는 단계 - 상기 에너지 비율은 이전 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임 -;
    상기 예측된 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 및
    현재 프레임의 좁은 주파수 시간 영역 신호와 상기 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하는 단계
    를 포함하는 음성/오디오 신호 처리 방법.
  2. 제1항에 있어서,
    상기 초기 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는 단계는,
    상기 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터(spectrum tilt parameter), 및 현재 프레임의 좁은 주파수 신호와 이전 프레임의 좁은 주파수 신호 사이의 상관관계(correlation)에 따라 상기 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는 단계를 포함하는, 음성/오디오 신호 처리 방법.
  3. 제2항에 있어서,
    상기 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이전 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 상기 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는 단계는,
    상기 현재 프레임의 음성/오디오 신호의 상기 스펙트럼 틸트 파라미터, 및 상기 현재 프레임의 좁은 주파수 신호와 상기 이전 프레임의 좁은 주파수 신호 사이의 상기 상관관계에 따라 상기 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하는 단계;
    상기 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻는 단계; 및
    상기 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻는 단계
    를 포함하고,
    상기 스펙트럼 틸트 파라미터 제한값은 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터를 얻기 위해 이용되는, 음성/오디오 신호 처리 방법.
  4. 제3항에 있어서, 상기 제1 타입의 신호는 마찰음(fricative) 신호이고, 상기 제2 타입의 신호는 비마찰음(non-fricative) 신호이며; 상기 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 상기 좁은 주파수 신호는 마찰음 신호로서 분류되고, 나머지는 비마찰음 신호들로서 분류되며; 상기 제1 미리 결정된 값은 8이고; 상기 제1 범위는 [0.5, 1]인, 음성/오디오 신호 처리 방법.
  5. 제1항에 있어서, 상기 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는 단계는,
    상기 현재 프레임의 음성/오디오 신호에 따라 고주파 여기 신호(high frequency excitation signal)를 예측하는 단계;
    상기 고주파 신호의 LPC 계수를 예측하는 단계; 및
    상기 고주파 여기 신호와 상기 고주파 신호의 LPC 계수를 합성하여 상기 예측된 고주파 신호를 얻는 단계
    를 포함하는, 음성/오디오 신호 처리 방법.
  6. 음성/오디오 신호 처리 장치로서,
    음성/오디오 신호가 넓은 주파수 신호로부터 좁은 주파수 신호로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 취득 유닛;
    상기 초기 고주파 신호에 대응하는 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛;
    에너지 비율과 상기 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하여 예측된 전역 이득 파라미터로서 가중된 값을 얻도록 구성된 가중치 처리 유닛 ―상기 에너지 비율은 이전 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ;
    상기 예측된 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛; 및
    현재 프레임의 좁은 주파수 시간 영역 신호와 상기 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛
    을 포함하는 음성/오디오 신호 처리 장치.
  7. 제6항에 있어서, 상기 파라미터 획득 유닛은,
    상기 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이전 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터를 얻도록 구성된 전역 이득 파라미터 획득 유닛을 포함하는, 음성/오디오 신호 처리 장치.
  8. 제7항에 있어서, 상기 전역 이득 파라미터 획득 유닛은,
    상기 현재 프레임의 음성/오디오 신호의 상기 스펙트럼 틸트 파라미터, 및 상기 현재 프레임의 좁은 주파수 신호와 상기 이전 프레임의 좁은 주파수 신호 사이의 상기 상관관계에 따라 상기 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하도록 구성된 분류 유닛;
    상기 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻도록 구성된 제1 제한 유닛; 및
    상기 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻도록 구성된 제2 제한 유닛
    을 포함하고,
    상기 스펙트럼 틸트 파라미터 제한값은 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터를 얻기 위해 이용되는, 음성/오디오 신호 처리 장치.
  9. 제8항에 있어서, 상기 제1 타입의 신호는 마찰음 신호이고, 상기 제2 타입의 신호는 비마찰음 신호이며; 상기 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 상기 좁은 주파수 신호는 마찰음 신호로서 분류되고, 나머지는 비마찰음 신호들로서 분류되며; 상기 제1 미리 결정된 값은 8이고; 상기 제1 범위는 [0.5, 1]인, 음성/오디오 신호 처리 장치.
  10. 제6항에 있어서, 상기 취득 유닛은,
    상기 현재 프레임의 음성/오디오 신호에 따라 고주파 여기 신호를 예측하도록 구성된 여기 신호 획득 유닛;
    상기 고주파 신호의 LPC 계수를 예측하도록 구성된 LPC 계수 획득 유닛; 및
    상기 고주파 여기 신호와 상기 고주파 신호의 상기 LPC 계수를 합성하여 상기 예측된 고주파 신호를 얻도록 구성된 합성 유닛을 포함하는, 음성/오디오 신호 처리 장치.
  11. 컴퓨터가 제1항 내지 제5항 중 어느 한 항의 방법을 실행하게 하는 프로그램이 저장되어 있는 컴퓨터 판독가능 기록 매체.

KR1020167028242A 2012-03-01 2013-03-01 음성 주파수 신호 처리 방법 및 장치 KR101702281B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210051672.6A CN103295578B (zh) 2012-03-01 2012-03-01 一种语音频信号处理方法和装置
CN201210051672.6 2012-03-01
PCT/CN2013/072075 WO2013127364A1 (zh) 2012-03-01 2013-03-01 一种语音频信号处理方法和装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020147025655A Division KR101667865B1 (ko) 2012-03-01 2013-03-01 음성 주파수 신호 처리 방법 및 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020177002148A Division KR101844199B1 (ko) 2012-03-01 2013-03-01 음성 주파수 신호 처리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20160121612A KR20160121612A (ko) 2016-10-19
KR101702281B1 true KR101702281B1 (ko) 2017-02-03

Family

ID=49081655

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020177002148A KR101844199B1 (ko) 2012-03-01 2013-03-01 음성 주파수 신호 처리 방법 및 장치
KR1020147025655A KR101667865B1 (ko) 2012-03-01 2013-03-01 음성 주파수 신호 처리 방법 및 장치
KR1020167028242A KR101702281B1 (ko) 2012-03-01 2013-03-01 음성 주파수 신호 처리 방법 및 장치

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020177002148A KR101844199B1 (ko) 2012-03-01 2013-03-01 음성 주파수 신호 처리 방법 및 장치
KR1020147025655A KR101667865B1 (ko) 2012-03-01 2013-03-01 음성 주파수 신호 처리 방법 및 장치

Country Status (20)

Country Link
US (4) US9691396B2 (ko)
EP (3) EP3534365B1 (ko)
JP (3) JP6010141B2 (ko)
KR (3) KR101844199B1 (ko)
CN (2) CN103295578B (ko)
BR (1) BR112014021407B1 (ko)
CA (1) CA2865533C (ko)
DK (1) DK3534365T3 (ko)
ES (3) ES2867537T3 (ko)
HU (1) HUE053834T2 (ko)
IN (1) IN2014KN01739A (ko)
MX (2) MX345604B (ko)
MY (1) MY162423A (ko)
PL (1) PL3534365T3 (ko)
PT (2) PT3193331T (ko)
RU (2) RU2585987C2 (ko)
SG (2) SG11201404954WA (ko)
TR (1) TR201911006T4 (ko)
WO (1) WO2013127364A1 (ko)
ZA (1) ZA201406248B (ko)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103295578B (zh) 2012-03-01 2016-05-18 华为技术有限公司 一种语音频信号处理方法和装置
CN108364657B (zh) 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
MX355091B (es) 2013-10-18 2018-04-04 Fraunhofer Ges Forschung Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz.
AU2014336357B2 (en) 2013-10-18 2017-04-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
US20150170655A1 (en) * 2013-12-15 2015-06-18 Qualcomm Incorporated Systems and methods of blind bandwidth extension
KR101864122B1 (ko) 2014-02-20 2018-06-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN106683681B (zh) 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
WO2019002831A1 (en) 2017-06-27 2019-01-03 Cirrus Logic International Semiconductor Limited REPRODUCTIVE ATTACK DETECTION
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201719734D0 (en) * 2017-10-30 2018-01-10 Cirrus Logic Int Semiconductor Ltd Speaker identification
GB2567503A (en) * 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
CN112927709B (zh) * 2021-02-04 2022-06-14 武汉大学 一种基于时频域联合损失函数的语音增强方法
CN115294947A (zh) * 2022-07-29 2022-11-04 腾讯科技(深圳)有限公司 音频数据处理方法、装置、电子设备及介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2252170A1 (en) 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
DE60040146D1 (de) 1999-04-26 2008-10-16 Lucent Technologies Inc Pfadumschaltung im bezug auf übertragungsbedarf
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US6606591B1 (en) 2000-04-13 2003-08-12 Conexant Systems, Inc. Speech coding employing hybrid linear prediction coding
US7113522B2 (en) 2001-01-24 2006-09-26 Qualcomm, Incorporated Enhanced conversion of wideband signals to narrowband signals
JP2003044098A (ja) 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
WO2006028009A1 (ja) * 2004-09-06 2006-03-16 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置および信号消失補償方法
EP1898397B1 (en) 2005-06-29 2009-10-21 Panasonic Corporation Scalable decoder and disappeared data interpolating method
JP2009524101A (ja) 2006-01-18 2009-06-25 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
RU2414009C2 (ru) * 2006-01-18 2011-03-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования и декодирования сигнала
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
GB2444757B (en) 2006-12-13 2009-04-22 Motorola Inc Code excited linear prediction speech coding
JP4733727B2 (ja) 2007-10-30 2011-07-27 日本電信電話株式会社 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体
CN100585699C (zh) * 2007-11-02 2010-01-27 华为技术有限公司 一种音频解码的方法和装置
BRPI0818927A2 (pt) * 2007-11-02 2015-06-16 Huawei Tech Co Ltd Método e aparelho para a decodificação de áudio
KR100930061B1 (ko) * 2008-01-22 2009-12-08 성균관대학교산학협력단 신호 검출 방법 및 장치
CN101499278B (zh) * 2008-02-01 2011-12-28 华为技术有限公司 音频信号切换处理方法和装置
CN101751925B (zh) * 2008-12-10 2011-12-21 华为技术有限公司 一种语音解码方法及装置
JP5448657B2 (ja) * 2009-09-04 2014-03-19 三菱重工業株式会社 空気調和機の室外機
US8484020B2 (en) 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
CN102044250B (zh) * 2009-10-23 2012-06-27 华为技术有限公司 频带扩展方法及装置
JP5287685B2 (ja) * 2009-11-30 2013-09-11 ダイキン工業株式会社 空調室外機
CN101964189B (zh) * 2010-04-28 2012-08-08 华为技术有限公司 语音频信号切换方法及装置
US8000968B1 (en) * 2011-04-26 2011-08-16 Huawei Technologies Co., Ltd. Method and apparatus for switching speech or audio signals
AR085895A1 (es) * 2011-02-14 2013-11-06 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio
CN103295578B (zh) * 2012-03-01 2016-05-18 华为技术有限公司 一种语音频信号处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S.Ragot et al., ITU-T:AN 8-32 kbit/s scalable coder interoperable with G.729 for wideband telephony and voice over IP,ICASSP 2007, 15~20 Apr. 2007, pp.529~532(vol.4)
김현우 외, G.729.1 광대역멀티코덱 표준 기술 동향, ETRI 전자통신동향분석 제21권 제6호, 2006년 12월

Also Published As

Publication number Publication date
DK3534365T3 (da) 2021-04-12
ES2867537T3 (es) 2021-10-20
BR112014021407A2 (pt) 2019-04-16
CN103295578B (zh) 2016-05-18
CA2865533A1 (en) 2013-09-06
US10360917B2 (en) 2019-07-23
KR20170013405A (ko) 2017-02-06
EP3534365A1 (en) 2019-09-04
ES2741849T3 (es) 2020-02-12
SG10201608440XA (en) 2016-11-29
EP2821993B1 (en) 2017-05-10
MX364202B (es) 2019-04-16
SG11201404954WA (en) 2014-10-30
JP6378274B2 (ja) 2018-08-22
US10013987B2 (en) 2018-07-03
PT3193331T (pt) 2019-08-27
US20180374488A1 (en) 2018-12-27
PL3534365T3 (pl) 2021-07-12
JP2017027068A (ja) 2017-02-02
MX345604B (es) 2017-02-03
US20150006163A1 (en) 2015-01-01
RU2585987C2 (ru) 2016-06-10
US10559313B2 (en) 2020-02-11
CA2865533C (en) 2017-11-07
JP2018197869A (ja) 2018-12-13
CN105469805B (zh) 2018-01-12
EP2821993A1 (en) 2015-01-07
HUE053834T2 (hu) 2021-07-28
KR101667865B1 (ko) 2016-10-19
KR101844199B1 (ko) 2018-03-30
MY162423A (en) 2017-06-15
IN2014KN01739A (ko) 2015-10-23
KR20160121612A (ko) 2016-10-19
BR112014021407B1 (pt) 2019-11-12
EP3193331A1 (en) 2017-07-19
US20170270933A1 (en) 2017-09-21
RU2014139605A (ru) 2016-04-20
WO2013127364A1 (zh) 2013-09-06
EP2821993A4 (en) 2015-02-25
JP6010141B2 (ja) 2016-10-19
JP6558748B2 (ja) 2019-08-14
JP2015512060A (ja) 2015-04-23
US20190318747A1 (en) 2019-10-17
US9691396B2 (en) 2017-06-27
EP3193331B1 (en) 2019-05-15
MX2014010376A (es) 2014-12-05
PT2821993T (pt) 2017-07-13
EP3534365B1 (en) 2021-01-27
ZA201406248B (en) 2016-01-27
TR201911006T4 (tr) 2019-08-21
ES2629135T3 (es) 2017-08-07
CN103295578A (zh) 2013-09-11
KR20140124004A (ko) 2014-10-23
CN105469805A (zh) 2016-04-06
RU2616557C1 (ru) 2017-04-17

Similar Documents

Publication Publication Date Title
KR101702281B1 (ko) 음성 주파수 신호 처리 방법 및 장치
KR101668401B1 (ko) 오디오 신호를 인코딩하기 위한 방법 및 장치
US9830920B2 (en) Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US20080312916A1 (en) Receiver Intelligibility Enhancement System
JP6612808B2 (ja) 会話/音声信号処理方法および符号化装置
JP2014507681A (ja) 帯域幅を拡張する方法および装置
CN105761724B (zh) 一种语音频信号处理方法和装置
US9111527B2 (en) Encoding device, decoding device, and methods therefor
JP4269364B2 (ja) 信号処理方法及び装置、並びに帯域幅拡張方法及び装置
JP2012083775A (ja) 信号処理装置および信号処理方法
JP2010158044A (ja) 信号処理装置および信号処理方法

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
FPAY Annual fee payment

Payment date: 20200103

Year of fee payment: 4