KR20140124004A - 음성 주파수 신호 처리 방법 및 장치 - Google Patents
음성 주파수 신호 처리 방법 및 장치 Download PDFInfo
- Publication number
- KR20140124004A KR20140124004A KR1020147025655A KR20147025655A KR20140124004A KR 20140124004 A KR20140124004 A KR 20140124004A KR 1020147025655 A KR1020147025655 A KR 1020147025655A KR 20147025655 A KR20147025655 A KR 20147025655A KR 20140124004 A KR20140124004 A KR 20140124004A
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- audio
- frequency signal
- parameter
- current frame
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title description 2
- 238000012545 processing Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims description 161
- 230000003595 spectral effect Effects 0.000 claims description 97
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 230000005284 excitation Effects 0.000 claims description 20
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 15
- 230000007704 transition Effects 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
- Transmitters (AREA)
- Circuit For Audible Band Transducer (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
본 발명의 실시예에서는 음성 주파수 신호 처리 방법 및 장치가 개시되고, 실시예에서의 음성 주파수 신호 처리 방법은: 음성 주파수 신호가 대역폭을 전환활 때, 현재 프레임의 음성 주파수 신호에 대응하는 초기 고주파 대역 신호를 취득하는 단계; 초기 고주파 대역 신호의 시간 영역 전역 이득 파라미터를 취득하는 단계; 에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하는 단계 ―에너지 비율은 이력 프레임의 고주파 대역 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 대역 신호의 에너지 사이의 비율임― ; 예측된 전역 이득 파라미터를 이용하여 초기 고주파 대역 신호를 보정하여, 보정된 고주파 대역 시간 영역 신호를 취득하는 단계; 현재 프레임의 좁은 주파수 대역 시간 영역 신호와 보정된 고주파 대역 시간 영역 신호를 합성하여, 합성된 결과를 출력하는 단계를 포함한다.
Description
관련 출원에 대한 상호참조
본 출원은, 참조에 의해 전체를 본 명세서에 포함하는, 발명의 명칭이 "SPEECH/AUDIO SIGNAL PROCESSING METHOD AND APPARATUS"인, 2012년 3월 1일 중국 특허청에 출원된 중국 특허 출원 제201210051672.6호에 대한 우선권을 주장한다.
기술 분야
본 발명은 디지털 신호 처리 기술 분야에 관한 것으로, 특히, 음성/오디오 신호 처리 방법 및 장치에 관한 것이다.
디지털 통신 분야에서, 음성, 이미지, 오디오, 및 비디오의 전송은, 이동 전화 통화, 음성/화상 회의, 방송 텔레비전, 및 멀티미디어 엔터테인먼트 등의 광범위한 응용에서 요구된다. 오디오는 디지털화되어, 오디오 통신 네트워크를 이용해 한 단말기에서 다른 단말기로 전송된다. 여기서 단말기는, 이동 전화, 디지털 전화 단말기, 또는 기타 임의 타입의 오디오 단말기일 수 있고, 여기서, 디지털 전화 단말기는, 예를 들어, VOIP 전화, ISDN 전화, 컴퓨터, 또는 케이블 통신 전화이다. 저장 또는 전송 동안에 음성/오디오 신호(speech/audio signal)에 의해 점유되는 자원을 감소시키기 위해, 음성/오디오 신호는 전송단에서 압축된 다음 수신단에 전송되고, 수신단에서, 음성/오디오 신호는 압축해제(decompression) 처리에 의해 복원되고 재생된다.
현재의 멀티레이트 음성/오디오 코딩(multirate speech/audio coding)에서, 상이한 네트워크 상태 때문에, 네트워크는 상이한 비트 레이트들로 비트 스트림들을 절삭하고(truncate), 여기서, 비트 스트림들은 인코더로부터 네트워크로 전송되며, 디코더에서, 절삭된 비트 스트림들은 상이한 대역폭의 음성/오디오 신호로 디코딩된다. 그 결과, 출력 음성/오디오 신호들은 상이한 대역폭들 사이에서 전환된다.
상이한 대역폭들의 신호들 사이의 갑작스런 전환은 인간의 귀에는 명백한 청각적 불편함을 야기한다. 게다가, 시간-주파수 변환 또는 주파수-시간 변환 동안의 필터들의 상태의 업데이팅은 일반적으로 연속된 프레임들 사이에서 파라미터의 이용을 요구하므로, 대역폭 전환 동안에 어떤 적절한 처리가 수행되지 않으면, 이들 상태들의 업데이트 동안에 에러가 생길 수 있고, 이것은 갑작스런 에너지 변화와 청각적 품질 열화라는 일부 현상을 야기한다.
본 발명의 실시예들의 목적은, 음성/오디오 신호의 대역폭 전환 동안의 청각적 편안함을 개선하는 음성/오디오 신호 처리 방법 및 장치를 제공하는 것이다.
본 발명의 실시예에 따르면, 음성/오디오 신호 처리 방법은 하기 단계들을 포함한다:
음성/오디오 신호가 넓은 주파수 신호(wide frequency signal)로부터 좁은 주파수 신호(narrow frequency signal)로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는 단계;
음성/오디오 신호의 현재 프레임의 스펙트럼 틸트 파라미터(spectrum tilt parameter), 및 현재 프레임의 좁은 주파수 신호와 이력 프레임(historical frame)의 좁은 주파수 신호 사이의 상관관계(correlation)에 따라 고주파 신호의 시간 영역 전역 이득 파라미터(time-domain global gain parameter)를 얻는 단계;
시간 영역 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고 합성된 신호를 출력하는 단계.
본 발명의 또 다른 실시예에 따르면, 음성/오디오 신호 처리 방법은 하기 단계들을 포함한다:
음성/오디오 신호가 대역폭을 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는 단계;
초기 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는 단계;
에너지 비율(energy ratio)과 시간 영역 전역 이득 파라미터에 관해 가중치 처리(weighting processing)를 수행하고, 얻어진 가중된 값(weighted value)을 예측된 전역 이득 파라미터로서 이용하는 단계 ―에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ;
예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하는 단계.
본 발명의 또 다른 실시예에 따르면, 음성/오디오 신호 처리 장치는 하기 유닛들을 포함한다:
음성/오디오 신호가 넓은 주파수 신호로부터 좁은 주파수 신호로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 예측 유닛;
현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛;
예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛.
본 발명의 또 다른 실시예에 따르면, 음성/오디오 신호 처리 장치는 하기 유닛들을 포함한다:
음성/오디오 신호가 대역폭을 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 취득 유닛;
초기 고주파 신호에 대응하는 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛;
에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하도록 구성된 가중치 처리 유닛 ―에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ;
예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛.
본 발명의 실시예에서, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환 동안에, 고주파 신호가 보정되어 넓은 주파수 대역과 좁은 주파수 대역 사이의 고주파 신호의 평활한 천이(smooth transition)를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다; 또한, 대역폭 전환 알고리즘과 전환 이전의 고주파 신호의 코딩/디코딩 알고리즘은 동일한 신호 영역(signal domain)에 있기 때문에, 어떠한 추가의 지연도 부가되지 않고 알고리즘이 간단해지는 것을 보장할 뿐만 아니라 출력 신호의 성능도 보장한다.
본 발명의 실시예에서의 또는 종래 기술에서의 기술적 해결책을 더 명확하게 설명하기 위하여, 이하에서는 실시예 또는 종래 기술을 설명하는데 요구되는 첨부된 도면을 간략하게 소개한다. 명백히, 이하의 설명에서의 첨부된 도면은 본 발명의 일부 실시예를 도시할 뿐이며, 이 기술분야의 통상의 기술자라면 창조적 노력없이 이들 첨부된 도면들로부터 다른 도면들을 여전히 유도해 낼 수 있을 것이다.
도 1은 본 발명에 따른 음성/오디오 신호 처리 방법의 실시예의 개략적 플로차트이다;
도 2는 본 발명에 따른 음성/오디오 신호 처리 방법의 또 다른 실시예의 개략적 플로차트이다;
도 3은 본 발명에 따른 음성/오디오 신호 처리 방법의 또 다른 실시예의 개략적 플로차트이다;
도 4는 본 발명에 따른 음성/오디오 신호 처리 방법의 또 다른 실시예의 개략적 플로차트이다;
도 5는 본 발명에 따른 음성/오디오 신호 처리 장치의 실시예의 개략적 구조도이다;
도 6은 본 발명에 따른 음성/오디오 신호 처리 장치의 실시예의 개략적 구조도이다;
도 7은 본 발명에 따른 파라미터 획득 유닛의 실시예의 개략적 구조도이다;
도 8은 본 발명에 따른 전역 이득 파라미터 획득 유닛의 실시예의 개략적 구조도이다;
도 9는 본 발명에 따른 취득 유닛의 실시예의 개략적 구조도이다;
도 10은 본 발명에 따른 음성/오디오 신호 처리 장치의 또 다른 실시예의 개략적 구조도이다.
도 1은 본 발명에 따른 음성/오디오 신호 처리 방법의 실시예의 개략적 플로차트이다;
도 2는 본 발명에 따른 음성/오디오 신호 처리 방법의 또 다른 실시예의 개략적 플로차트이다;
도 3은 본 발명에 따른 음성/오디오 신호 처리 방법의 또 다른 실시예의 개략적 플로차트이다;
도 4는 본 발명에 따른 음성/오디오 신호 처리 방법의 또 다른 실시예의 개략적 플로차트이다;
도 5는 본 발명에 따른 음성/오디오 신호 처리 장치의 실시예의 개략적 구조도이다;
도 6은 본 발명에 따른 음성/오디오 신호 처리 장치의 실시예의 개략적 구조도이다;
도 7은 본 발명에 따른 파라미터 획득 유닛의 실시예의 개략적 구조도이다;
도 8은 본 발명에 따른 전역 이득 파라미터 획득 유닛의 실시예의 개략적 구조도이다;
도 9는 본 발명에 따른 취득 유닛의 실시예의 개략적 구조도이다;
도 10은 본 발명에 따른 음성/오디오 신호 처리 장치의 또 다른 실시예의 개략적 구조도이다.
이하에서는 본 발명의 실시예의 첨부된 도면을 참조하여 본 발명의 실시예에서의 기술적 해결책을 명확하고 완전하게 설명한다. 명백하게, 설명된 실시예들은 본 발명의 실시예들 전부가 아닌 일부일 뿐이다. 창조적 노력없이 본 발명의 실시예에 기초하여 이 기술분야의 통상의 기술자에 의해 얻어지는 다른 모든 실시예들은 본 발명의 보호 범위 내에 든다.
디지털 신호 처리 분야에서, 오디오 코덱 및 비디오 코덱은, 예를 들어, 이동 전화, 무선 장치, PDA(personal data assistant), 핸드헬드 또는 휴대 컴퓨터, GPS 수신기/네비게이터, 카메라, 오디오/비디오 재생기, 비디오 카메라, 비디오 레코더, 및 모니터링 장치 등의 다양한 전자 장치에 널리 적용된다. 대개, 이러한 타입의 전자 장치는 오디오 코더 또는 오디오 디코더를 포함하고, 오디오 코더 또는 디코더는 디지털 회로 또는 칩, 예를 들어, DSP(digital signal processor)에 의해 직접 구현되거나, 프로세서가 소프트웨어 코드로 프로세스를 실행하게 하는 소프트웨어 코드에 의해 구현될 수 있다.
종래 기술에서, 네트워크에서 전송된 음성/오디오 신호들의 대역폭들은 상이하므로, 음성/오디오 신호를 전송하는 과정에서, 음성/오디오 신호의 대역폭은 자주 변하고, 좁은 주파수 음성/오디오 신호로부터 넓은 주파수 음성/오디오 신호로의 전환, 및 넓은 주파수 음성/오디오 신호로부터 좁은 주파수 음성/오디오 신호로의 전환의 현상이 존재한다. 높은 주파수 대역과 낮은 주파수 대역 사이에서 음성/오디오 신호를 전환하는 이러한 프로세스는 대역폭 전환이라 불린다. 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환과 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환을 포함한다. 본 발명에서 언급되는 좁은 주파수 신호는, 업샘플링(up-sampling) 및 저역-통과 필터링(low-pass filtering) 후에 저주파 성분만을 갖고 고주파 성분은 비어 있는 음성 신호인 반면, 넓은 주파수 음성/오디오 신호는 저주파 신호 성분과 고주파 신호 성분 양쪽 모두를 갖는다. 좁은 주파수 신호와 넓은 주파수 신호는 상대적이다. 예를 들어, 협대역 신호에 대해, 광대역 신호는 넓은 주파수 신호이고; 광대역 신호에 대해, 초광대역 신호는 넓은 주파수 신호이다. 일반적으로, 협대역 신호는 샘플링 레이트(sampling rate)가 8 kHz인 음성/오디오 신호이고; 광대역 신호는 샘플링 레이트가 16 kHz인 음성/오디오 신호이고; 초광대역 신호는 샘플링 레이트가 32 kHz인 음성/오디오 신호이다.
전환 이전의 고주파 신호의 코딩/디코딩 알고리즘이 상이한 신호 타입에 따라 시간 영역 및 주파수 영역 코딩/디코딩 알고리즘들 사이에서 선택될 때, 또는 전환 이전의 고주파 신호의 코딩 알고리즘이 시간 영역 코딩 알고리즘일 때, 전환 동안의 출력 신호들의 연속성을 보장하기 위하여, 처리를 위해 신호 영역에서 전환 알고리즘이 유지되고, 여기서, 이 신호 영역은 전환 이전의 고주파 코딩/디코딩 알고리즘의 신호 영역과 동일하다. 즉, 시간 영역 코딩/디코딩 알고리즘이 전환 이전의 고주파 신호에 이용될 때, 이용될 전환 알고리즘으로서 시간 영역 전환 알고리즘이 이용된다; 주파수 영역 코딩/디코딩 알고리즘이 전환 이전의 고주파 신호에 이용될 때, 이용될 전환 알고리즘으로서 주파수 영역 전환 알고리즘이 이용된다. 종래 기술에서, 전환 이전에 시간 영역 주파수 대역 확장 알고리즘이 이용될 때, 전환 이후에 유사한 시간 영역 전환 기술은 이용되지 않는다.
음성/오디오 코딩에서, 처리는 일반적으로 단위로서 프레임을 이용하여 수행된다. 처리될 필요가 있는 현재의 입력 오디오 프레임은 음성/오디오 신호의 현재 프레임이다. 현재 프레임의 음성/오디오 신호는, 좁은 주파수 신호와 고주파 신호, 즉, 현재 프레임의 좁은 주파수 신호와 현재 프레임의 고주파 신호를 포함한다. 현재 프레임의 고주파 신호 이전의(before) 임의의 프레임의 음성/오디오 신호가 이력 프레임의 음성/오디오 신호이고, 이는 또한 이력 프레임의 좁은 주파수 신호와 이력 프레임의 고주파 신호를 포함한다. 현재 프레임의 음성/오디오 신호에 선행하는(previous to) 프레임의 음성/오디오 신호가 이전 프레임(previous frame)의 음성/오디오 신호이다.
도 1을 참조하면, 본 발명의 음성/오디오 신호 처리 방법의 실시예는 하기 단계들을 포함한다:
S101: 음성/오디오 신호가 대역폭을 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는다.
현재 프레임의 음성/오디오 신호는 현재 프레임의 좁은 주파수 신호와 현재 프레임의 고주파 시간 영역 신호를 포함한다. 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환과 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환을 포함한다. 좁은 주파수 신호로부터 넓은 주파수 신호로 전환하는 경우, 현재 프레임의 음성/오디오 신호는 좁은 주파수 신호와 고주파 신호를 포함하는, 현재 프레임의 넓은 주파수 신호이고, 현재 프레임의 음성/오디오 신호의 초기 고주파 신호는 실제 신호(real signal)이고 현재 프레임의 음성/오디오 신호로부터 직접 얻어질 수 있다. 넓은 주파수 신호로부터 좁은 주파수 신호로 전환하는 경우, 현재 프레임의 음성/오디오 신호는 현재 프레임의 고주파 시간 영역 신호가 비어 있는 현재 프레임의 좁은 주파수 신호이고, 현재 프레임의 음성/오디오 신호의 초기 고주파 신호는 예측된 신호이며, 현재 프레임의 좁은 주파수 신호에 대응하는 고주파 신호는 예측되어 초기 고주파 신호로서 이용될 필요가 있다.
S102: 초기 고주파 신호에 대응하는 시간 영역 전역 이득 파라미터를 얻는다.
좁은 주파수 신호로부터 넓은 주파수 신호로 전환하는 경우, 고주파 신호의 시간 영역 전역 이득 파라미터는 디코딩에 의해 얻어질 수 있다. 넓은 주파수 신호로부터 좁은 주파수 신호로 전환하는 경우, 고주파 신호의 시간 영역 전역 이득 파라미터는 현재 프레임의 신호에 따라 얻어질 수 있다: 고주파 신호의 시간 영역 전역 이득 파라미터는 좁은 주파수 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 얻어진다.
S103: 에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하고, 여기서, 에너지 비율은 이력 프레임의 음성/오디오 신호의 고주파 시간 영역 신호의 에너지와 현재 프레임의 음성/오디오 신호의 초기 고주파 신호의 에너지 사이의 비율이다.
이력 프레임의 최종 출력 음성/오디오 신호는 이력 프레임의 음성/오디오 신호로서 이용되고, 초기 고주파 신호는 현재 프레임의 음성/오디오 신호로서 이용된다. 에너지 비율 Ratio=Esyn(-1)/Esyn_tmp이고, 여기서 Esyn(-1)은 이력 프레임의 출력 고주파 시간 영역 신호 syn의 에너지를 나타내고, Esyn_tmp는 현재 프레임에 대응하는 초기 고주파 시간 영역 신호 syn의 에너지를 나타낸다.
예측된 전역 이득 파라미터 gain=alfa*Ratio+beta*gain'이고, gain'는 시간 영역 전역 이득 파라미터이고, alfa+beta =1이며, alfa와 beta의 값들은 상이한 신호 타입들에 따라 상이하다.
S104: 예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는다.
보정이란 예측된 전역 이득 파라미터에 의해 신호가 곱해진다(multiply)는 것, 즉, 초기 고주파 신호가 곱해진다는 것을 가리킨다. 또 다른 실시예에서, 단계 S102에서, 초기 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터(time-domain envelope parameter)와 시간 영역 전역 이득 파라미터가 얻어진다; 따라서, 단계 S104에서, 초기 고주파 신호는 시간 영역 엔빌로프 파라미터와 예측된 전역 이득 파라미터를 이용하여 보정되어 보정된 고주파 시간 영역 신호를 얻는다; 즉, 예측된 고주파 신호는 시간 영역 엔빌로프 파라미터와 예측된 시간 영역 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다.
좁은 주파수 신호로부터 넓은 주파수 신호로 전환하는 경우, 고주파 신호의 시간 영역 엔빌로프 파라미터는 디코딩에 의해 얻어질 수 있다. 넓은 주파수 신호로부터 좁은 주파수 신호로 전환하는 경우, 고주파 신호의 시간 영역 엔빌로프 파라미터는 신호의 현재 프레임에 따라 얻어질 수 있다; 이력 프레임의 고주파 시간 영역 엔빌로프 파라미터 또는 일련의 미리 결정된 값은 현재 프레임의 음성/오디오 신호의 고주파 시간 영역 엔빌로프 파라미터로서 이용될 수 있다.
S105: 현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력한다.
상기 실시예에서, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환 동안에, 고주파 신호가 보정되어 넓은 주파수 대역과 좁은 주파수 대역 사이의 고주파 신호의 평활한 천이를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다; 또한, 대역폭 전환 알고리즘과 전환 이전의 고주파 신호의 코딩/디코딩 알고리즘은 동일한 신호 영역에 있기 때문에, 어떠한 추가의 지연도 부가되지 않고 알고리즘이 간단해지는 것을 보장할 뿐만 아니라 출력 신호의 성능도 보장한다.
도 2를 참조하면, 본 발명의 음성/오디오 신호 처리 방법의 또 다른 실시예는 하기 단계들을 포함한다:
S201: 넓은 주파수 신호가 좁은 주파수 신호로 전환할 때, 현재 프레임의 좁은 주파수 신호에 대응하는 예측된 고주파 신호를 예측한다.
넓은 주파수 신호가 좁은 주파수 신호로 전환할 때, 이전 프레임은 넓은 주파수 신호이고, 현재 프레임은 좁은 주파수 신호이다. 현재 프레임의 좁은 주파수 신호에 대응하는 예측된 고주파 신호를 예측하는 단계는, 현재 프레임의 좁은 주파수 신호에 따라 현재 프레임의 음성/오디오 신호의 고주파 신호의 여기 신호(excitation signal)를 예측하는 단계; 음성/오디오 신호의 현재 프레임의 고주파 신호의 LPC(Linear Predictive Coding) 계수를 예측하는 단계; 및 예측된 고주파 여기 신호와 LPC 계수를 합성하여 예측된 고주파 신호 syn_tmp를 얻는 단계를 포함한다.
실시예에서, 피치 주기(pitch period), 대수 코드북(algebraic codebook), 및 이득 등의 파라미터들은 좁은 주파수 신호로부터 추출될 수 있고, 고주파 여기 신호는 리샘플링(resampling)과 필터링에 의해 예측된다.
또 다른 실시예에서, 업샘플링, 저역통과, 절대값 또는 제곱을 얻는 등의 동작이 좁은 주파수 시간 영역 신호 또는 좁은 주파수 시간 영역 여기 신호에 관해 수행되어 높은 주파수 여기 신호를 예측한다.
고주파 신호의 LPC 계수를 예측하기 위해, 이력 프레임의 고주파 LPC 계수 또는 일련의 미리 설정된 값들이 현재 프레임의 LPC 계수로서 이용될 수 있다; 또는 상이한 신호 타입들에 대해 상이한 예측 방식들이 이용될 수 있다.
S202: 예측된 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터 및 시간 영역 전역 이득 파라미터를 얻는다.
일련의 미리 결정된 값들이 현재 프레임의 고주파 시간 영역 엔빌로프 파라미터로서 이용될 수 있다. 협대역 신호는 일반적으로 수 개의 타입들로 분류될 수 있고, 각각의 타입에 대해 일련의 값들이 미리 설정될 수 있으며, 협대역 신호의 현재 프레임의 타입에 따라 한 그룹의 미리 설정된 시간 영역 엔빌로프 파라미터들이 선택될 수 있다; 또는 한 그룹의 시간 영역 엔빌로프 값들이 설정될 수 있다, 예를 들어, 시간 영역 엔빌로프의 개수가 M일 때, 미리 설정된 값은 M 0.3536s일 수 있다. 이 실시예에서, 시간 영역 엔빌로프 파라미터의 획득은 선택사항이고 필요한 단계인 것은 아니다.
좁은 주파수 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터가 얻어지며, 실시예에서는 다음과 같은 단계들을 포함한다:
S2021: 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로서 분류하고, 한 실시예에서, 제1 타입의 신호는 마찰음(fricative) 신호이고, 제2 타입의 신호는 비마찰음(non-fricative) 신호이다; 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값보다 작을 때, 좁은 주파수 신호를 마찰음 신호로서 분류하고, 나머지는 비마찰음 신호로서 분류한다.
현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계를 보여주는 파라미터 cor는 동일한 주파수 대역의 신호들 사이의 에너지 크기 관계에 따라 결정되거나, 수 개의 동일한 주파수 대역 사이의 에너지 관계에 따라 결정되거나, 시간 영역 신호들 사이의 자기상관(self-correlation) 또는 교차상관(cross-correlation)을 보여주거나 시간 영역 여기 신호들 사이의 자기상관 또는 교차상관을 보여주는 공식에 따라 계산될 수 있다.
S2022: 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용한다. 즉, 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 미리 결정된 값 이하일 때, 스펙트럼 틸트 파라미터의 원래 값이 스펙트럼 틸트 파라미터 제한값으로서 유지된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 미리 결정된 값보다 클 때, 제1 미리 결정된 값이 스펙트럼 틸트 파라미터 제한값으로서 이용된다.
시간 영역 전역 이득 파라미터 gain'는 다음과 같은 공식에 따라 얻어진다:
S2023: 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 그 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용한다. 즉, 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위에 속할 때, 스펙트럼 틸트 파라미터의 원래 값이 스펙트럼 틸트 파라미터 제한값으로서 유지된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위의 상한보다 클 때, 제1 범위의 상한이 스펙트럼 틸트 파라미터 제한값으로서 이용된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위의 하한보다 작을 때, 제1 범위의 하한이 스펙트럼 틸트 파라미터 제한값으로서 이용된다.
시간 영역 전역 이득 파라미터 gain'는 다음과 같은 공식에 따라 얻어진다:
실시예에서, 좁은 주파수 신호의 스펙트럼 틸트 파라미터 tilt, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계를 보여주는 파라미터 cor가 얻어진다; 현재 프레임의 신호는 tilt 및 cor에 따라 2개의 타입, 마찰음 및 비마찰음으로 분류된다; 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만일 때, 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로 분류된다; tilt가 값 범위 0.5<=tilt<=1.0 내로 제한되어 비마찰음의 시간 영역 전역 이득 파라미터로서 이용되며, tilt가 값 범위 tilt <= 8.0으로 제한되어 마찰음의 시간 영역 전역 이득 파라미터로서 이용된다. 마찰음의 경우, 스펙트럼 틸트 파라미터는 5보다 큰 임의의 값일 수 있고, 비마찰음의 경우, 스펙트럼 틸트 파라미터는 5 이하의 임의의 값이거나, 5보다 큰 값일 수 있다. 스펙트럼 틸트 파라미터 tilt가 추정된 시간 영역 전역 이득 파라미터로서 이용될 수 있도록 보장하기 위해, tilt는 값 범위 내로 제한된 다음 시간 영역 전역 이득 파라미터로서 이용된다. 즉, tilt > 8일 때, tilt=8이 마찰음의 시간 영역 전역 이득 파라미터로서 이용되는 것으로 결정된다; tilt < 0.5일 때, tilt는 0.5라고 결정되거나, 또는 tilt > 1.0일 때, tilt =1.0이라고 결정되며, 0.5 또는 1.0이 비마찰음의 시간 영역 전역 이득 파라미터로서 이용된다.
S203: 에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하고, 여기서, 에너지 비율은 이력 프레임의 음성/오디오 신호의 고주파 시간 영역 신호의 에너지와 현재 프레임의 음성/오디오 신호의 초기 고주파 신호의 에너지 사이의 비율이다.
에너지 비율 Ratio=Esyn(-1)/Esyn_tmp에 관해 계산이 수행되고, tilt와 Ratio의 가중된 값은 현재 프레임의 예측된 전역 이득 파라미터 gain, 즉, gain=alfa*Ratio+beta*gain'로서 이용되고, 여기서, gain'는 시간 영역 전역 이득 파라미터이고, alfa + beta = 1이며, alfa와 beta의 값들은 상이한 신호 타입들에 따라 상이하며, Esyn(-1)는 이력 프레임의 최종 출력 고주파 시간 영역 신호 syn의 에너지를 나타내고, Esyn_tmp는 현재 프레임의 예측된 고주파 시간 영역 신호 syn의 에너지를 나타낸다.
S204: 시간 영역 엔빌로프 파라미터와 예측된 전역 이득 파라미터를 이용하여 예측된 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는다.
예측된 고주파 신호는 시간 영역 엔빌로프 파라미터와 예측된 시간 영역 전역 이득 파라미터로 곱해져 고주파 시간 영역 신호를 얻는다.
이 실시예에서, 시간 영역 엔빌로프 파라미터는 선택사항이다. 시간 영역 전역 이득 파라미터만이 포함되는 경우, 예측된 고주파 신호는 예측된 전역 이득 파라미터를 이용해 보정되어 보정된 고주파 시간 영역 신호를 얻는다. 즉, 예측된 고주파 신호는 예측된 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다.
S205: 현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력한다.
고주파 시간 영역 신호 syn의 에너지 Esyn은 다음 프레임의 시간 영역 전역 이득 파라미터를 예측하는데 이용된다. 즉, Esyn의 값은 Esyn(-1)에 할당된다.
상기 실시예에서, 넓은 주파수 신호에 후속하는 좁은 주파수 신호의 높은 주파수 대역이 보정되어, 넓은 주파수 대역과 좁은 주파수 대역 사이의 높은 주파수 부분의 평활한 천이를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다; 또한, 전환 동안에 프레임에 관해 대응하는 처리가 수행되기 때문에, 파라미터와 상태 업데이트 동안에 발생하는 문제가 간접적으로 제거된다. 대역폭 전환 알고리즘과 전환 이전의 고주파 신호의 코딩/디코딩 알고리즘을 동일한 신호 영역에 유지함으로써, 어떠한 추가 지연도 부가되지 않고 알고리즘이 간단해지는 것을 보장할 뿐만 아니라 출력 신호의 성능도 보장한다.
도 3을 참조하면, 본 발명의 음성/오디오 신호 처리 방법의 또 다른 실시예는 하기 단계들을 포함한다:
S301: 좁은 주파수 신호가 넓은 주파수 신호로 전환할 때, 현재 프레임의 고주파 신호를 얻는다.
좁은 주파수 신호가 넓은 주파수 신호로 전환할 때, 이전 프레임은 좁은 주파수 신호이고, 현재 프레임은 넓은 주파수 신호이다.
S302: 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터 및 시간 영역 전역 이득 파라미터를 얻는다.
시간 영역 엔빌로프 파라미터 및 시간 영역 전역 이득 파라미터는 현재 프레임의 고주파 신호로부터 직접 얻어질 수 있다. 시간 영역 엔빌로프 파라미터의 획득은 선택사항적 단계이다.
S303: 에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하고, 여기서, 에너지 비율은 이력 프레임의 음성/오디오 신호의 고주파 시간 영역 신호의 에너지와 현재 프레임의 음성/오디오 신호의 초기 고주파 신호의 에너지 사이의 비율이다.
현재 프레임은 넓은 주파수 신호이므로, 고주파 신호의 파라미터들 모두는 디코딩에 의해 얻어질 수 있다. 전환 동안에 평활한 천이를 보장하기 위하여, 시간 영역 전역 이득 파라미터는 다음과 같은 방식으로 평활화된다:
에너지 비율 Ratio=Esyn(-1)/Esyn_tmp에 관해 계산이 수행되고, 여기서 Esyn(-1)은 이력 프레임의 최종 출력 고주파 시간 영역 신호 syn의 에너지를 나타내고, Esyn_tmp는 현재 프레임의 고주파 시간 영역 신호 syn의 에너지를 나타낸다.
디코딩에 의해 얻어지는 시간 영역 전역 이득 파라미터 gain과 Ratio의 가중된 값은 현재 프레임의 예측된 전역 이득 파라미터 gain, 즉, gain=alfa*Ratio+beta*gain'로서 이용되고, 여기서, gain'는 시간 영역 전역 이득 파라미터이고, alfa+beta =1이며, alfa와 beta의 값은 상이한 신호 타입들에 따라 상이하다.
현재 오디오 프레임 및 이전 프레임의 음성/오디오 신호의 협대역 신호들이 미리 결정된 상관관계를 가질 때, 특정 스텝 크기(step size)에 따라, 이전 프레임의 음성/오디오 신호에 대응하는 에너지 비율의 가중치 인자(weighting factor) alfa를 감쇠함으로써 얻어지는 값이 현재 오디오 프레임에 대응하는 에너지 비율의 가중치 인자로서 이용되고, 감쇠는 alfa가 0일 때까지 프레임별로(frame by frame) 수행된다.
연속된 프레임들의 좁은 주파수 신호들이 동일한 신호 타입이거나, 또는 연속된 프레임들의 좁은 주파수 신호들 사이의 상관관계가 특정 조건을 만족할 때, 즉, 연속된 프레임들이 특정 상관관계를 갖거나 연속된 프레임들의 신호 타입이 유사할 때, alfa는 alfa가 0으로 감쇠될 때까지 특정 스텝 크기에 따라 프레임별로 감쇠된다; 연속된 프레임들의 좁은 주파수 신호가 어떠한 상관관계도 갖지 않을 때, alfa는 바로 0으로 감쇠되는데, 즉, 가중치 또는 보정을 수행하지 않고 현재의 디코딩 결과가 유지된다.
S304: 시간 영역 엔빌로프 파라미터와 예측된 전역 이득 파라미터를 이용하여 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는다.
보정이란, 고주파 신호가 시간 영역 엔빌로프 파라미터와 예측된 시간 영역 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다는 것을 말한다.
이 실시예에서, 시간 영역 엔빌로프 파라미터는 선택사항이다. 시간 영역 전역 이득 파라미터만이 포함되는 경우, 고주파 신호는 예측된 전역 이득 파라미터를 이용해 보정되어 보정된 고주파 시간 영역 신호를 얻는다. 즉, 고주파 신호는 예측된 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다.
S305: 현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력한다.
상기 실시예에서, 좁은 주파수 신호에 후속하는 넓은 주파수 신호의 높은 주파수 대역이 보정되어, 넓은 주파수 대역과 좁은 주파수 대역 사이의 높은 주파수 부분의 평활한 천이를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다; 또한, 전환 동안에 프레임에 관해 대응하는 처리가 수행되기 때문에, 파라미터와 상태 업데이트 동안에 발생하는 문제가 간접적으로 제거된다. 대역폭 전환 알고리즘과 전환 이전의 고주파 신호의 코딩/디코딩 알고리즘을 동일한 신호 영역에 유지함으로써, 어떠한 추가 지연도 부가되지 않고 알고리즘이 간단해지는 것을 보장할 뿐만 아니라 출력 신호의 성능도 보장한다.
도 4를 참조하면, 본 발명의 음성/오디오 신호 처리 방법의 또 다른 실시예는 하기 단계들을 포함한다:
S401: 음성/오디오 신호가 넓은 주파수 신호로부터 좁은 주파수 신호로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는다.
넓은 주파수 신호가 좁은 주파수 신호로 전환할 때, 이전 프레임은 넓은 주파수 신호이고, 현재 프레임은 좁은 주파수 신호이다. 현재 프레임의 좁은 주파수 신호에 대응하는 초기 고주파 신호를 예측하는 단계는, 현재 프레임의 좁은 주파수 신호에 따라 현재 프레임의 음성/오디오 신호의 고주파 신호의 여기 신호를 예측하는 단계; 현재 프레임의 음성/오디오 신호의 고주파 신호의 LPC 계수를 예측하는 단계; 및 예측된 고주파 여기 신호와 LPC 계수를 합성하여 예측된 고주파 신호 syn_tmp를 얻는 단계를 포함한다.
실시예에서, 피치 주기, 대수 코드북, 및 이득 등의 파라미터들은 좁은 주파수 신호로부터 추출될 수 있고, 고주파 여기 신호는 리샘플링과 필터링에 의해 예측된다.
또 다른 실시예에서, 좁은 주파수 시간 영역 신호 또는 좁은 주파수 시간 영역 여기 신호에 관해 업샘플링, 저역통과, 절대값 또는 제곱을 얻는 등의 동작을 수행하여, 높은 주파수 여기 신호를 예측한다.
고주파 신호의 LPC 계수를 예측하기 위해, 이력 프레임의 고주파 LPC 계수 또는 일련의 미리 설정된 값들이 현재 프레임의 LPC 계수로서 이용될 수 있거나; 또는 상이한 신호 타입들에 대해 상이한 예측 방식들이 이용될 수 있다.
S402: 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는다.
실시예에서, 다음과 같은 단계들이 포함된다:
S2021: 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로서 분류하고, 한 실시예에서, 제1 타입의 신호는 마찰음 신호이고, 제2 타입의 신호는 비마찰음 신호이다.
실시예에서, 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값보다 작을 때, 좁은 주파수 신호를 마찰음 신호로서 분류하고, 나머지는 비마찰음 신호로서 분류한다. 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계를 보여주는 파라미터 cor는 동일한 주파수 대역의 신호들 사이의 에너지 크기 관계에 따라 결정되거나, 수 개의 동일한 주파수 대역 사이의 에너지 관계에 따라 결정되거나, 시간 영역 신호들 사이의 자기상관 또는 교차상관을 보여주거나 시간 영역 여기 신호들 사이의 자기상관 또는 교차상관을 보여주는 공식에 따라 계산될 수 있다.
S2022: 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 그 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용한다. 즉, 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 미리 결정된 값 이하일 때, 스펙트럼 틸트 파라미터의 원래 값이 스펙트럼 틸트 파라미터 제한값으로서 유지된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 미리 결정된 값보다 클 때, 제1 미리 결정된 값이 스펙트럼 틸트 파라미터 제한값으로서 이용된다.
현재 프레임의 음성/오디오 신호가 마찰음 신호일 때, 시간 영역 전역 이득 파라미터 gain'는 다음과 같은 공식에 따라 얻어진다:
S2023: 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 그 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용한다. 즉, 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위에 속할 때, 스펙트럼 틸트 파라미터의 원래 값이 스펙트럼 틸트 파라미터 제한값으로서 유지된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위의 상한보다 클 때, 제1 범위의 상한이 스펙트럼 틸트 파라미터 제한값으로서 이용된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위의 하한보다 작을 때, 제1 범위의 하한이 스펙트럼 틸트 파라미터 제한값으로서 이용된다.
현재 프레임의 음성/오디오 신호가 비마찰음 신호일 때, 시간 영역 전역 이득 파라미터 gain'는 다음과 같은 공식에 따라 얻어진다:
실시예에서, 좁은 주파수 신호의 스펙트럼 틸트 파라미터 tilt, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계를 보여주는 파라미터 cor가 얻어진다; 현재 프레임의 신호는 tilt 및 cor에 따라 2개의 타입, 마찰음 및 비마찰음으로 분류된다; 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만일 때, 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로 분류된다; tilt가 값 범위 0.5<=tilt<=1.0 내로 제한되어 비마찰음의 시간 영역 전역 이득 파라미터로서 이용되며, tilt가 값 범위 tilt <= 8.0으로 제한되어 마찰음의 시간 영역 전역 이득 파라미터로서 이용된다. 마찰음의 경우, 스펙트럼 틸트 파라미터는 5보다 큰 임의의 값일 수 있고, 비마찰음의 경우, 스펙트럼 틸트 파라미터는 5 이하의 임의의 값이거나, 5보다 큰 값일 수 있다. 스펙트럼 틸트 파라미터 tilt가 예측된 전역 이득 파라미터로서 이용될 수 있도록 보장하기 위해, tilt는 값 범위 내로 제한된 다음 시간 영역 전역 이득 파라미터로서 이용된다. 즉, tilt > 8일 때, tilt=8인 것으로 결정되고, 8이 마찰음 신호의 시간 영역 전역 이득 파라미터로서 이용된다; tilt < 0.5일 때, tilt=0.5라고 결정되거나, 또는 tilt > 1.0일 때, tilt=1.0이라고 결정되고, 0.5 또는 1.0이 비마찰음 신호의 시간 영역 전역 이득 파라미터로서 이용된다.
S403: 시간 영역 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는다.
실시예에서, 초기 고주파 신호는 시간 영역 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다.
또 다른 실시예에서, 단계 S403은 다음과 같은 단계들을 포함할 수 있다:
에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하는 단계 ―에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ; 및
예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 즉, 초기 고주파 신호를 예측된 전역 이득 파라미터로 곱해서 보정된 고주파 시간 영역 신호를 얻는 단계.
선택사항으로서, 단계(S403) 이전에, 이 방법은:
초기 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터를 얻는 단계를 더 포함할 수 있고,
예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하는 단계는:
시간 영역 엔빌로프 파라미터와 시간 영역 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하는 단계를 포함한다.
S404: 현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력한다.
상기 실시예에서, 넓은 주파수 대역이 좁은 주파수 대역으로 전환할 때, 고주파 신호의 시간 영역 전역 이득 파라미터가 스펙트럼 틸트 파라미터와 프레임간 상관관계(interframe correlation)에 따라 얻어진다. 좁은 주파수 스펙트럼 틸트 파라미터를 이용하여, 좁은 주파수 신호와 고주파 신호 사이의 에너지 관계가 정확하게 추정되어 고주파 신호의 에너지를 더 양호하게 추정할 수 있다. 프레임간 상관관계를 이용함으로써, 좁은 주파수 프레임들 사이의 상관관계를 잘 이용해 고주파 신호들 사이의 프레임간 상관관계가 추정될 수 있다. 이런 방식으로, 가중치 처리를 수행하여 고주파 전역 이득을 얻게 되면, 전술한 실제 정보가 양호하게 이용될 수 있고, 바람직하지 않은 노이즈가 도입되지 않는다. 고주파 신호는 시간 영역 전역 이득 파라미터를 이용해 보정되어, 넓은 주파수 대역과 좁은 주파수 대역 사이의 고주파 부분의 평활한 천이를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이에서 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다.
전술한 방법 실시예와 관련하여, 본 발명은 음성/오디오 신호 처리 장치를 더 제공한다. 이 장치는, 단말기 장치, 네트워크 장치, 또는 테스트 장치에 위치할 수 있다. 음성/오디오 신호 처리 장치는 하드웨어 회로에 의해 구현되거나, 하드웨어와 조합한 소프트웨어에 의해 구현될 수도 있다. 예를 들어, 도 5를 참조하면, 프로세서는 음성/오디오 신호 처리 장치를 기동하여 음성/오디오 신호 처리를 구현한다. 음성/오디오 신호 처리 장치는 전술한 방법 실시예들의 방법과 프로세스를 실행할 수 있다.
도 6을 참조하면, 음성/오디오 신호 처리 장치의 실시예는 하기 유닛들을 포함한다:
음성/오디오 신호가 대역폭을 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 취득 유닛(601);
초기 고주파 신호에 대응하는 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛(602);
에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하도록 구성된 가중치 처리 유닛(603) ―에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ;
예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛(604); 및
현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛(605).
실시예에서, 대역폭 전환은 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환이고, 파라미터 획득 유닛(602)은:
현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 음성/오디오 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻도록 구성된 전역 이득 파라미터 획득 유닛을 포함한다.
도 7을 참조하면, 또 다른 실시예에서, 대역폭 전환은 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환이고, 파라미터 획득 유닛(602)은:
현재 프레임의 음성/오디오 신호의 고주파 시간 영역 엔빌로프 파라미터로서 일련의 미리 설정된 값들을 이용하도록 구성된 시간 영역 엔빌로프 획득 유닛(701); 및
현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 음성/오디오 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻도록 구성된 전역 이득 파라미터 획득 유닛(702)을 포함한다.
따라서, 보정 유닛(604)은, 시간 영역 엔빌로프 파라미터와 예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된다.
도 8을 참조하면, 또한, 전역 이득 파라미터 획득 유닛(702)의 실시예는:
현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 음성/오디오 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하도록 구성된 분류 유닛(801);
현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제1 제한 유닛(802); 및
현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제2 제한 유닛(803)을 포함한다.
또한, 실시예에서, 제1 타입의 신호는 마찰음 신호이고, 제2 타입의 신호는 비마찰음 신호이다; 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로서 분류된다; 제1 미리 결정된 값은 8이고; 미리 설정된 제1 범위는 [0.5, 1]이다.
도 9를 참조하면, 실시예에서, 취득 유닛(601)은:
현재 프레임의 음성/오디오 신호에 따라 고주파 신호의 여기 신호를 예측하도록 구성된 여기 신호 획득 유닛(901);
고주파 신호의 LPC 계수를 예측하도록 구성된 LPC 계수 획득 유닛(902); 및
고주파 신호의 여기 신호와 고주파 신호의 LPC 계수를 합성하여 예측된 고주파 신호를 얻도록 구성된 생성 유닛(903)을 포함한다.
실시예에서, 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환이고, 음성/오디오 신호 처리 장치는:
현재 오디오 프레임의 음성/오디오 신호와 이전 프레임의 음성/오디오 신호의 협대역 신호들이 미리 결정된 상관관계를 가질 때, 특정 스텝 크기에 따라, 이전 프레임의 음성/오디오 신호에 대응하는 에너지 비율의 가중치 인자 alfa를 감쇠함으로써 얻어지는 값을 현재 오디오 프레임에 대응하는 에너지 비율의 가중치 인자로서 이용하도록 구성된 가중치 인자 설정 유닛을 더 포함하고, 여기서, 감쇠는 alfa가 0일 때까지 프레임별로 수행된다.
도 10을 참조하면, 음성/오디오 신호 처리 장치의 또 다른 실시예는:
음성/오디오 신호가 넓은 주파수 신호로부터 좁은 주파수 신호로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 예측 유닛(1001);
현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛(1002);
예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛(1003); 및
현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛(1004)을 포함한다.
도 8을 참조하면, 파라미터 획득 유닛(1002)은:
현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 음성/오디오 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하도록 구성된 분류 유닛(801);
현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 그 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제1 제한 유닛(802); 및
현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 그 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제2 제한 유닛(803)을 포함한다.
또한, 실시예에서, 제1 타입의 신호는 마찰음 신호이고, 제2 타입의 신호는 비마찰음 신호이다; 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로서 분류된다; 제1 미리 결정된 값은 8이고; 미리 설정된 제1 범위는 [0.5, 1]이다.
선택사항으로서, 실시예에서, 음성/오디오 신호 처리 장치는:
에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하도록 구성된 가중치 처리 유닛을 더 포함하고, 여기서, 에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율이고,
보정 유닛은, 예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된다.
또 다른 실시예에서, 파라미터 획득 유닛은 초기 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터를 얻도록 더 구성되고; 보정 유닛은 시간 영역 엔빌로프 파라미터와 시간 영역 전역 이득 파라미터를 이용해 초기 고주파 신호를 보정하도록 구성된다.
이 기술분야의 통상의 기술자라면, 실시예들의 방법들의 프로세스들 전부 또는 일부는 관련 하드웨어에게 명령하는 컴퓨터 프로그램에 의해 구현될 수 있다는 것을 이해할 수 있을 것이다. 이 프로그램은 컴퓨터 판독가능한 저장 매체에 저장될 수 있다. 프로그램이 실행되면, 실시예의 방법의 프로세스가 수행된다. 저장 매체는, 자기 디스크, 광학 디스크, 판독 전용 메모리(ROM; Read-Only Memory), 또는 랜덤 액세스 메모리(RAM; Random Access Memory)를 포함할 수 있다.
위의 설명은 본 발명을 나타내기 위한 예시적인 실시예들일 뿐이고, 본 발명의 범위는 이것으로 제한되지 않는다. 본 발명의 사상과 범위로부터 벗어나지 않고 이 기술분야의 통상의 기술자에게 수정 또는 변형이 쉽게 명백하다.
Claims (23)
- 음성/오디오 신호(speech/audio signal) 처리 방법으로서,
음성/오디오 신호가 넓은 주파수 신호(wide frequency signal)로부터 좁은 주파수 신호(narrow frequency signal)로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는 단계;
상기 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터(spectrum tilt parameter), 및 현재 프레임의 좁은 주파수 신호와 이력 프레임(historical frame)의 좁은 주파수 신호 사이의 상관관계(correlation)에 따라 상기 고주파 신호의 시간 영역 전역 이득 파라미터(time-domain global gain parameter)를 얻는 단계;
상기 시간 영역 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 상기 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하는 단계
를 포함하는 음성/오디오 신호 처리 방법. - 제1항에 있어서, 상기 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터를 얻는 단계는,
상기 현재 프레임의 음성/오디오 신호의 상기 스펙트럼 틸트 파라미터, 및 상기 현재 프레임의 좁은 주파수 신호와 상기 이력 프레임의 좁은 주파수 신호 사이의 상기 상관관계에 따라 상기 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하는 단계;
상기 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻는 단계;
상기 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻는 단계; 및
상기 스펙트럼 틸트 파라미터 제한값을 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터로서 이용하는 단계
를 포함하는, 음성/오디오 신호 처리 방법. - 제2항에 있어서, 상기 제1 타입의 신호는 마찰음(fricative) 신호이고, 상기 제2 타입의 신호는 비마찰음(non-fricative) 신호이며; 상기 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 상기 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로서 분류되며; 상기 제1 미리 결정된 값은 8이고; 미리 설정된 상기 제1 범위는 [0.5, 1]인, 음성/오디오 신호 처리 방법.
- 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 시간 영역 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계는,
에너지 비율(energy ratio)과 상기 시간 영역 전역 이득 파라미터에 관해 가중치 처리(weighting processing)를 수행하고, 얻어진 가중된 값(weighted value)을 예측된 전역 이득 파라미터로서 이용하는 단계 ―상기 에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ; 및
상기 예측된 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하는 단계
를 포함하는, 음성/오디오 신호 처리 방법. - 제1항 내지 제3항 중 어느 한 항에 있어서,
상기 초기 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터(time-domain envelope parameter)를 얻는 단계를 더 포함하고,
상기 시간 영역 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하는 단계는,
상기 시간 영역 엔빌로프 파라미터와 상기 시간 영역 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하는 단계를 포함하는, 음성/오디오 신호 처리 방법. - 음성/오디오 신호 처리 방법으로서,
음성/오디오 신호가 대역폭을 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는 단계;
상기 초기 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는 단계;
에너지 비율과 상기 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하는 단계 ―상기 에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ;
상기 예측된 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 상기 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하는 단계
를 포함하는 음성/오디오 신호 처리 방법. - 제6항에 있어서, 상기 대역폭 전환은 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환이고, 상기 초기 고주파 신호에 대응하는 전역 이득 파라미터를 얻는 단계는,
상기 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 상기 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는 단계를 포함하는, 음성/오디오 신호 처리 방법. - 제7항에 있어서, 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 상기 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는 단계는,
상기 현재 프레임의 음성/오디오 신호의 상기 스펙트럼 틸트 파라미터, 및 상기 현재 프레임의 좁은 주파수 신호와 상기 이력 프레임의 좁은 주파수 신호 사이의 상기 상관관계에 따라 상기 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하는 단계;
상기 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻는 단계;
상기 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻는 단계; 및
상기 스펙트럼 틸트 파라미터 제한값을 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터로서 이용하는 단계
를 포함하는, 음성/오디오 신호 처리 방법. - 제8항에 있어서, 상기 제1 타입의 신호는 마찰음 신호이고, 상기 제2 타입의 신호는 비마찰음 신호이며; 상기 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 상기 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로서 분류되며; 상기 제1 미리 결정된 값은 8이고; 미리 설정된 상기 제1 범위는 [0.5, 1]인, 음성/오디오 신호 처리 방법.
- 제6항에 있어서, 상기 대역폭 전환은 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환이고, 상기 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는 단계는,
상기 현재 프레임의 음성/오디오 신호에 따라 고주파 여기 신호(high frequency excitation signal)를 예측하는 단계;
상기 고주파 신호의 LPC 계수를 예측하는 단계; 및
상기 고주파 여기 신호와 상기 고주파 신호의 LPC 계수를 합성하여 예측된 고주파 신호를 얻는 단계
를 포함하는, 음성/오디오 신호 처리 방법. - 제6항에 있어서, 상기 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환이고, 상기 방법은,
상기 현재 프레임의 음성/오디오 신호와 이전 프레임의 음성/오디오 신호의 협대역 신호들이 미리 결정된 상관관계를 가질 때, 특정 스텝 크기(step size)에 따라, 상기 이전 프레임의 음성/오디오 신호에 대응하는 상기 에너지 비율의 가중치 인자(weighting factor) alfa를 감쇠함으로써 얻어지는 값을 현재 오디오 프레임에 대응하는 상기 에너지 비율의 가중치 인자로서 이용하는 단계를 더 포함하고, 상기 감쇠는 alfa가 0일 때까지 프레임별로(frame by frame) 수행되는, 음성/오디오 신호 처리 방법. - 음성/오디오 신호 처리 장치로서,
음성/오디오 신호가 넓은 주파수 신호로부터 좁은 주파수 신호로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 예측 유닛;
상기 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 상기 고주파 신호의 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛;
상기 예측된 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 상기 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛
을 포함하는 음성/오디오 신호 처리 장치. - 제12항에 있어서, 상기 파라미터 획득 유닛은,
상기 현재 프레임의 음성/오디오 신호의 상기 스펙트럼 틸트 파라미터, 및 상기 현재 프레임의 음성/오디오 신호와 상기 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 상기 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하도록 구성된 분류 유닛;
상기 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 상기 스펙트럼 틸트 파라미터 제한값을 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제1 제한 유닛; 및
상기 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 상기 스펙트럼 틸트 파라미터 제한값을 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제2 제한 유닛
을 포함하는 음성/오디오 신호 처리 장치. - 제13항에 있어서, 상기 제1 타입의 신호는 마찰음 신호이고, 상기 제2 타입의 신호는 비마찰음 신호이며; 상기 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 상기 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로서 분류되며; 상기 제1 미리 결정된 값은 8이고; 미리 설정된 상기 제1 범위는 [0.5, 1]인, 음성/오디오 신호 처리 장치.
- 제12항 내지 제14항 중 어느 한 항에 있어서,
에너지 비율과 상기 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하도록 구성된 가중치 처리 유닛을 더 포함하고, 상기 에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율이고,
상기 보정 유닛은, 상기 예측된 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된, 음성/오디오 신호 처리 장치. - 제12항 내지 제14항 중 어느 한 항에 있어서,
상기 파라미터 획득 유닛은 상기 초기 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터를 얻도록 더 구성되고;
상기 보정 유닛은, 상기 시간 영역 엔빌로프 파라미터와 상기 시간 영역 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하도록 구성된, 음성/오디오 신호 처리 장치. - 음성/오디오 신호 처리 장치로서,
음성/오디오 신호가 대역폭을 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 취득 유닛;
상기 초기 고주파 신호에 대응하는 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛;
에너지 비율과 상기 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하도록 구성된 가중치 처리 유닛 ―상기 에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ;
상기 예측된 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 상기 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛
을 포함하는 음성/오디오 신호 처리 장치. - 제17항에 있어서, 상기 대역폭 전환은 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환이고, 상기 파라미터 획득 유닛은,
상기 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 음성/오디오 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터를 얻도록 구성된 전역 이득 파라미터 획득 유닛을 포함하는, 음성/오디오 신호 처리 장치. - 제18항에 있어서, 상기 전역 이득 파라미터 획득 유닛은,
상기 현재 프레임의 음성/오디오 신호의 상기 스펙트럼 틸트 파라미터, 및 상기 현재 프레임의 음성/오디오 신호와 상기 이력 프레임의 좁은 주파수 신호 사이의 상기 상관관계에 따라 상기 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하도록 구성된 분류 유닛;
상기 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 상기 스펙트럼 틸트 파라미터 제한값을 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제1 제한 유닛; 및
상기 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 상기 스펙트럼 틸트 파라미터 제한값을 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제2 제한 유닛
을 포함하는, 음성/오디오 신호 처리 장치. - 제19항에 있어서, 상기 제1 타입의 신호는 마찰음 신호이고, 상기 제2 타입의 신호는 비마찰음 신호이며; 상기 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 상기 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로서 분류되며; 상기 제1 미리 결정된 값은 8이고; 미리 설정된 상기 제1 범위는 [0.5, 1]인, 음성/오디오 신호 처리 장치.
- 제17항 내지 제20항 중 어느 한 항에 있어서, 상기 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환이고, 상기 장치는,
상기 현재 프레임의 음성/오디오 신호의 고주파 시간 영역 엔빌로프 파라미터로서 일련의 미리 설정된 값들을 이용하도록 구성된 시간 영역 엔빌로프 획득 유닛을 더 포함하고,
상기 보정 유닛은, 상기 시간 영역 엔빌로프 파라미터와 상기 예측된 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된, 음성/오디오 신호 처리 장치. - 제17항 내지 제20항 중 어느 한 항에 있어서, 상기 취득 유닛은,
상기 현재 프레임의 음성/오디오 신호에 따라 상기 고주파 신호의 여기 신호를 예측하도록 구성된 여기 신호 획득 유닛;
상기 고주파 신호의 LPC 계수를 예측하도록 구성된 LPC 계수 획득 유닛; 및
상기 고주파 신호의 상기 여기 신호와 상기 고주파 신호의 상기 LPC 계수를 합성하여 예측된 고주파 신호를 얻도록 구성된 합성 유닛을 포함하는, 음성/오디오 신호 처리 장치. - 제17항 내지 제20항 중 어느 한 항에 있어서, 상기 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환이고, 상기 장치는,
상기 현재 프레임의 음성/오디오 신호와 이전 프레임의 음성/오디오 신호의 협대역 신호들이 미리 결정된 상관관계를 가질 때, 특정 스텝 크기에 따라, 상기 이전 프레임의 음성/오디오 신호에 대응하는 상기 에너지 비율의 가중치 인자 alfa를 감쇠함으로써 얻어지는 값을 현재 오디오 프레임에 대응하는 상기 에너지 비율의 가중치 인자로서 이용하도록 구성된 가중치 인자 설정 유닛을 더 포함하고, 상기 감쇠는 alfa가 0일 때까지 프레임별로 수행되는, 음성/오디오 신호 처리 장치.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210051672.6A CN103295578B (zh) | 2012-03-01 | 2012-03-01 | 一种语音频信号处理方法和装置 |
CN201210051672.6 | 2012-03-01 | ||
PCT/CN2013/072075 WO2013127364A1 (zh) | 2012-03-01 | 2013-03-01 | 一种语音频信号处理方法和装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167028242A Division KR101702281B1 (ko) | 2012-03-01 | 2013-03-01 | 음성 주파수 신호 처리 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140124004A true KR20140124004A (ko) | 2014-10-23 |
KR101667865B1 KR101667865B1 (ko) | 2016-10-19 |
Family
ID=49081655
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020177002148A KR101844199B1 (ko) | 2012-03-01 | 2013-03-01 | 음성 주파수 신호 처리 방법 및 장치 |
KR1020167028242A KR101702281B1 (ko) | 2012-03-01 | 2013-03-01 | 음성 주파수 신호 처리 방법 및 장치 |
KR1020147025655A KR101667865B1 (ko) | 2012-03-01 | 2013-03-01 | 음성 주파수 신호 처리 방법 및 장치 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020177002148A KR101844199B1 (ko) | 2012-03-01 | 2013-03-01 | 음성 주파수 신호 처리 방법 및 장치 |
KR1020167028242A KR101702281B1 (ko) | 2012-03-01 | 2013-03-01 | 음성 주파수 신호 처리 방법 및 장치 |
Country Status (20)
Country | Link |
---|---|
US (4) | US9691396B2 (ko) |
EP (3) | EP3193331B1 (ko) |
JP (3) | JP6010141B2 (ko) |
KR (3) | KR101844199B1 (ko) |
CN (2) | CN103295578B (ko) |
BR (1) | BR112014021407B1 (ko) |
CA (1) | CA2865533C (ko) |
DK (1) | DK3534365T3 (ko) |
ES (3) | ES2629135T3 (ko) |
HU (1) | HUE053834T2 (ko) |
IN (1) | IN2014KN01739A (ko) |
MX (2) | MX345604B (ko) |
MY (1) | MY162423A (ko) |
PL (1) | PL3534365T3 (ko) |
PT (2) | PT3193331T (ko) |
RU (2) | RU2616557C1 (ko) |
SG (2) | SG11201404954WA (ko) |
TR (1) | TR201911006T4 (ko) |
WO (1) | WO2013127364A1 (ko) |
ZA (1) | ZA201406248B (ko) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103295578B (zh) | 2012-03-01 | 2016-05-18 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
CN108364657B (zh) | 2013-07-16 | 2020-10-30 | 超清编解码有限公司 | 处理丢失帧的方法和解码器 |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
WO2015055531A1 (en) | 2013-10-18 | 2015-04-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
KR20160070147A (ko) | 2013-10-18 | 2016-06-17 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념 |
US9524720B2 (en) * | 2013-12-15 | 2016-12-20 | Qualcomm Incorporated | Systems and methods of blind bandwidth extension |
KR101864122B1 (ko) * | 2014-02-20 | 2018-06-05 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
CN105225666B (zh) | 2014-06-25 | 2016-12-28 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | REPRODUCTIVE ATTACK DETECTION |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB2567503A (en) * | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201719734D0 (en) * | 2017-10-30 | 2018-01-10 | Cirrus Logic Int Semiconductor Ltd | Speaker identification |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
CN112927709B (zh) * | 2021-02-04 | 2022-06-14 | 武汉大学 | 一种基于时频域联合损失函数的语音增强方法 |
CN113470691B (zh) * | 2021-07-08 | 2024-08-30 | 浙江大华技术股份有限公司 | 一种语音信号的自动增益控制方法及其相关装置 |
CN115294947B (zh) * | 2022-07-29 | 2024-06-11 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、电子设备及介质 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
DE60040146D1 (de) | 1999-04-26 | 2008-10-16 | Lucent Technologies Inc | Pfadumschaltung im bezug auf übertragungsbedarf |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
US6606591B1 (en) | 2000-04-13 | 2003-08-12 | Conexant Systems, Inc. | Speech coding employing hybrid linear prediction coding |
US7113522B2 (en) | 2001-01-24 | 2006-09-26 | Qualcomm, Incorporated | Enhanced conversion of wideband signals to narrowband signals |
JP2003044098A (ja) | 2001-07-26 | 2003-02-14 | Nec Corp | 音声帯域拡張装置及び音声帯域拡張方法 |
CN101010730B (zh) * | 2004-09-06 | 2011-07-27 | 松下电器产业株式会社 | 可扩展解码装置以及信号丢失补偿方法 |
WO2007000988A1 (ja) * | 2005-06-29 | 2007-01-04 | Matsushita Electric Industrial Co., Ltd. | スケーラブル復号装置および消失データ補間方法 |
KR20080101873A (ko) | 2006-01-18 | 2008-11-21 | 연세대학교 산학협력단 | 부호화/복호화 장치 및 방법 |
RU2414009C2 (ru) * | 2006-01-18 | 2011-03-10 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Устройство и способ для кодирования и декодирования сигнала |
US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
GB2444757B (en) | 2006-12-13 | 2009-04-22 | Motorola Inc | Code excited linear prediction speech coding |
JP4733727B2 (ja) | 2007-10-30 | 2011-07-27 | 日本電信電話株式会社 | 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体 |
JP5547081B2 (ja) * | 2007-11-02 | 2014-07-09 | 華為技術有限公司 | 音声復号化方法及び装置 |
CN100585699C (zh) * | 2007-11-02 | 2010-01-27 | 华为技术有限公司 | 一种音频解码的方法和装置 |
KR100930061B1 (ko) * | 2008-01-22 | 2009-12-08 | 성균관대학교산학협력단 | 신호 검출 방법 및 장치 |
CN101499278B (zh) * | 2008-02-01 | 2011-12-28 | 华为技术有限公司 | 音频信号切换处理方法和装置 |
CN101751925B (zh) * | 2008-12-10 | 2011-12-21 | 华为技术有限公司 | 一种语音解码方法及装置 |
JP5448657B2 (ja) * | 2009-09-04 | 2014-03-19 | 三菱重工業株式会社 | 空気調和機の室外機 |
CN102044250B (zh) * | 2009-10-23 | 2012-06-27 | 华为技术有限公司 | 频带扩展方法及装置 |
US8484020B2 (en) * | 2009-10-23 | 2013-07-09 | Qualcomm Incorporated | Determining an upperband signal from a narrowband signal |
JP5287685B2 (ja) * | 2009-11-30 | 2013-09-11 | ダイキン工業株式会社 | 空調室外機 |
US8000968B1 (en) * | 2011-04-26 | 2011-08-16 | Huawei Technologies Co., Ltd. | Method and apparatus for switching speech or audio signals |
CN101964189B (zh) * | 2010-04-28 | 2012-08-08 | 华为技术有限公司 | 语音频信号切换方法及装置 |
MX2013009305A (es) * | 2011-02-14 | 2013-10-03 | Fraunhofer Ges Forschung | Generacion de ruido en codecs de audio. |
CN103295578B (zh) | 2012-03-01 | 2016-05-18 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
-
2012
- 2012-03-01 CN CN201210051672.6A patent/CN103295578B/zh active Active
- 2012-03-01 CN CN201510991494.9A patent/CN105469805B/zh active Active
-
2013
- 2013-03-01 WO PCT/CN2013/072075 patent/WO2013127364A1/zh active Application Filing
- 2013-03-01 BR BR112014021407-7A patent/BR112014021407B1/pt active IP Right Grant
- 2013-03-01 IN IN1739KON2014 patent/IN2014KN01739A/en unknown
- 2013-03-01 ES ES13754564.6T patent/ES2629135T3/es active Active
- 2013-03-01 ES ES16187948T patent/ES2741849T3/es active Active
- 2013-03-01 TR TR2019/11006T patent/TR201911006T4/tr unknown
- 2013-03-01 PT PT16187948T patent/PT3193331T/pt unknown
- 2013-03-01 KR KR1020177002148A patent/KR101844199B1/ko active IP Right Grant
- 2013-03-01 HU HUE18199234A patent/HUE053834T2/hu unknown
- 2013-03-01 RU RU2016115109A patent/RU2616557C1/ru active
- 2013-03-01 MY MYPI2014002393A patent/MY162423A/en unknown
- 2013-03-01 JP JP2014559077A patent/JP6010141B2/ja active Active
- 2013-03-01 KR KR1020167028242A patent/KR101702281B1/ko active Application Filing
- 2013-03-01 SG SG11201404954WA patent/SG11201404954WA/en unknown
- 2013-03-01 SG SG10201608440XA patent/SG10201608440XA/en unknown
- 2013-03-01 EP EP16187948.1A patent/EP3193331B1/en active Active
- 2013-03-01 MX MX2014010376A patent/MX345604B/es active IP Right Grant
- 2013-03-01 PL PL18199234T patent/PL3534365T3/pl unknown
- 2013-03-01 MX MX2017001662A patent/MX364202B/es unknown
- 2013-03-01 PT PT137545646T patent/PT2821993T/pt unknown
- 2013-03-01 RU RU2014139605/08A patent/RU2585987C2/ru active
- 2013-03-01 DK DK18199234.8T patent/DK3534365T3/da active
- 2013-03-01 EP EP13754564.6A patent/EP2821993B1/en active Active
- 2013-03-01 KR KR1020147025655A patent/KR101667865B1/ko active IP Right Grant
- 2013-03-01 ES ES18199234T patent/ES2867537T3/es active Active
- 2013-03-01 EP EP18199234.8A patent/EP3534365B1/en active Active
- 2013-03-01 CA CA2865533A patent/CA2865533C/en active Active
-
2014
- 2014-08-25 ZA ZA2014/06248A patent/ZA201406248B/en unknown
- 2014-08-27 US US14/470,559 patent/US9691396B2/en active Active
-
2016
- 2016-09-15 JP JP2016180496A patent/JP6378274B2/ja active Active
-
2017
- 2017-06-07 US US15/616,188 patent/US10013987B2/en active Active
-
2018
- 2018-06-28 US US16/021,621 patent/US10360917B2/en active Active
- 2018-07-26 JP JP2018140054A patent/JP6558748B2/ja active Active
-
2019
- 2019-06-28 US US16/457,165 patent/US10559313B2/en active Active
Non-Patent Citations (2)
Title |
---|
S.Ragot et al., ITU-T:AN 8-32 kbit/s scalable coder interoperable with G.729 for wideband telephony and voice over IP,ICASSP 2007, 15~20 Apr. 2007, pp.529~532(vol.4)* * |
김현우 외, G.729.1 광대역멀티코덱 표준 기술 동향, ETRI 전자통신동향분석 제21권 제6호, 2006년 12월* * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101702281B1 (ko) | 음성 주파수 신호 처리 방법 및 장치 | |
US9830920B2 (en) | Method and apparatus for polyphonic audio signal prediction in coding and networking systems | |
EP2624254A1 (en) | Audio processing device and audio processing method for de-reverberation | |
EP2660812A1 (en) | Bandwidth expansion method and apparatus | |
JP6612808B2 (ja) | 会話/音声信号処理方法および符号化装置 | |
CN105761724B (zh) | 一种语音频信号处理方法和装置 | |
US9111527B2 (en) | Encoding device, decoding device, and methods therefor | |
JP4269364B2 (ja) | 信号処理方法及び装置、並びに帯域幅拡張方法及び装置 | |
JP5480226B2 (ja) | 信号処理装置および信号処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
A107 | Divisional application of patent | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190917 Year of fee payment: 4 |