KR101433833B1 - 음향 신호에 확장된 대역폭을 제공하기 위한 방법 및시스템 - Google Patents

음향 신호에 확장된 대역폭을 제공하기 위한 방법 및시스템 Download PDF

Info

Publication number
KR101433833B1
KR101433833B1 KR1020070084306A KR20070084306A KR101433833B1 KR 101433833 B1 KR101433833 B1 KR 101433833B1 KR 1020070084306 A KR1020070084306 A KR 1020070084306A KR 20070084306 A KR20070084306 A KR 20070084306A KR 101433833 B1 KR101433833 B1 KR 101433833B1
Authority
KR
South Korea
Prior art keywords
signal
bandwidth
broadband
wideband
limit
Prior art date
Application number
KR1020070084306A
Other languages
English (en)
Other versions
KR20080018132A (ko
Inventor
하울릭 팀
이셀 베른드
우베 쉬미트 게르하드
Original Assignee
하만 베커 오토모티브 시스템즈 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 하만 베커 오토모티브 시스템즈 게엠베하 filed Critical 하만 베커 오토모티브 시스템즈 게엠베하
Publication of KR20080018132A publication Critical patent/KR20080018132A/ko
Application granted granted Critical
Publication of KR101433833B1 publication Critical patent/KR101433833B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

본 발명은 음향 신호에 확장된 대역폭을 제공하기 위한 방법으로서, 수신된 음향 신호의 현재의 대역폭 상한 및 현재의 대역폭 하한을 자동으로 결정하는 단계, 적어도 하나의 상보적인 신호를 자동으로 결정하여, 미리 정의된 광대역 대역폭 하한과 상기 현재의 대역폭 하한 사이 및/또는 상기 현재의 대역폭 상한과 미리 정의된 광대역 대역폭 상한 사이의 상기 수신된 음향 신호를 보충하는 단계로서, 상기 미리 정의된 광대역 대역폭 하한은 상기 현재의 대역폭 한계보다 작고, 상기 미리 정의된 광대역 대역폭 상한은 상기 현재의 대역폭 상한보다 큰 것인, 상기 수신된 음향 신호를 보충하는 단계, 및 상기 적어도 하나의 상보적인 신호와 상기 수신된 음향 신호를 자동으로 어셈블링하여 확장된 대역폭을 갖는 음향 신호를 얻는 단계를 포함한다.

Description

음향 신호에 확장된 대역폭을 제공하기 위한 방법 및 시스템 {Method and System for Providing an Acoustic Signal with Extended Bandwidth}
본 발명은 음향 신호, 특히 음성 신호에 확장된 대역폭을 제공하기 위한 방법 및 시스템에 관한 발명이다.
아날로그 또는 디지털 신호 경로를 통하여 전달되는 음향 신호는, 전달된 음향 신호가 최초 신호와 상당히 다른 것과 같이, 일반적으로 신호 경로가 제한된 대역폭만을 갖는 단점이 있다. 예를 들면, 종래의 전화 연결의 경우에, 8kHz의 샘플링 속도가 이용되고, 그 결과 최대 신호 대역폭은 4kHz가 된다. 오디오 CD의 경우와 비교하면, 음성 및 오디오 품질은 심각하게 떨어진다.
더욱이, 많은 종류의 전송은 추가의 대역폭 제한을 나타낸다. 아날로그 전화 연결의 경우, 단지 300Hz와 3.4kHz 사이의 주파수만이 전송된다. 그 결과 단지 3.1kHz의 대역폭만 이용가능하다.
원칙적으로, 전화 연결의 대역폭은 광대역 디지털 코딩 및 디코딩 방법(소위 광대역 코덱)을 이용하여 증가시킬 수 있다. 이러한 경우에는, 하지만, 송신기 및 수신기 모두가 새로운 표준의 실행이 요구되는 대응되는 코딩 및 디코딩 방법을 지 원해야 한다.
택일적으로, 대역폭 확장을 위한 시스템은, 예를 들면, P. Jax, Enhancement of Bandlimited Speech Signals: Algirithms and Theoretical Bounds, Dissertation, Aachen, Germany, 2002 또는 E. Larsen, R. M. Aarts, Audio Bandwidth Extension, Wiley, Hoboken, NJ, USA, 2004에서 설명한 것과 같이 이용될 수 있다. 이 시스템들은 존재하는 전화 연결을 변화시킬 필요가 없도록, 단지 수신자 측에서만 실행되는 것이다. 이 시스템에서, 작은 대역폭을 갖는 입력 신호의 잃어버린 주파수 성분을 추정하거나 입력 신호에 추가한다.
이러한 종래의 대역폭 확장 시스템의 상태에서 구성과 대응하는 신호 흐름의 예가 도 6에 도시된다. 일반적으로, 하위 또는 상위의 주파수 범위가 모두 재합성된다.
블록(601)에서, 디지털화된 폼(form)의 들어오거나 수신된 음향 신호(x(n))는 서브-샘플링 및 블록 추출에 의하여 처리되어, 신호 벡터(x(n))를 얻는다. 여기서, 변수(n)는 시간을 표시한다. 도 6에서, 입력 신호는 샘플링 속도를 증가시킴으로써 바람직한 대역폭으로 이미 변환되었다고 가정한다. 이러한 변환 단계에서, 예를 들면, 적절한 안티-앨리어싱(anti-alising) 또는 안티-이미징(anti-imaging) 필터 요소를 이용하여 달성될 수 있는, 추가의 주파수 성분은 생성되지 않는다. 전송된 신호를 수정하지 않기 위하여, 대역폭 확장은 잃어버린(missing)주파수 범위 내에서만 수행된다. 상기 전송 방법에 따라서, 상기 확장은 저주파수(예를 들면 0 내지 300kHz) 및/또는 고주파수(예를 들면 3400Hz 내지 바람직한 샘플링 속도의 절반) 범위에서 관여한다.
블록(602)에서, 협대역 스펙트럼 엔빌로프(narrowband spectral envelope)는 협대역 신호로부터 추출되는데, 상기 협대역 신호는 전화 채널의 대역폭 제한에 의하여 제한된다. 비선형 맵핑을 통하여, 대응하는 광대역 엔빌로프 신호가 협대역 엔빌로프로부터 추정된다. 맵핑은, 예를 들면 코드북 쌍(J.Epps, W.H. Holmes, A New Technique for Wideband Enhancement of Coded Narrowband Speech, IEEE Workshop on Speech Coding, Conference proceedings, pages 174 to 176 June 1999 참조), 또는 뉴럴(Newral) 네트워크(J.-M. Valin R. Lefebvre, Bandwidth Extension of Narrowband Speech for Low Bit-Rate Wideband Coding, IEEE Workshop on Speech Coding, Conference Proceedings, pages 130 to 132, September 2000 참조)에 기초한 것이다. 이러한 방법들에서, 코드북의 엔트리 또는 뉴럴 네트워크의 가중(weights)이 큰 프로세서 및 메모리 자원을 필요로하는 트레이닝 방법을 이용하여 발생된다.
더욱이, 블록(603)에서, 스펙트럼으로 평평한 엔빌로프를 갖는 광대역 여기 신호(excitation signal)가 협대역 신호로부터 발생한다. 이 여기 신호는 성대(vocal cord) 뒤에서 직접 기록되는 신호에 대응한다. 즉, 여기 신호는 보이싱(voicing) 및 피치(pitch)에 관한 정보를 포함하지만, 일반적으로 폼 및 구조 또는 스펙트럼의 형상에 관한 정보는 포함하지 않는다. 따라서, 음성 신호와 같은 완전한 신호를 되찾기 위해서, 여기 신호는 스펙트럼 엔빌로프를 이용하여 가중되어야 한다. 여기 신호의 발생을 위하여, 예를 들면 투-레이(two-ray) 정 류(rectifying) 또는 스퀘어링(squaring)과 같은 비선형 특성(U. Kornagel, Spectral Widening of the Excitation Signal for Telephone-Band Speech Enhancement, IWAENC 01, Conference Proceedings, pages 215 to 218, September 2001 참조)들을 이용할 수 있다.
대역폭 확장을 위하여, 여기 신호(x exc(n))는 블록(604)에서 엔빌로프를 이용하여 스펙트럼으로 칼라링된다. 확장에 이용된 스펙트럼 범위가 블록(606)에서 대역 저지 필터(band stop filter)를 이용하여 추출되어, 그 결과 신호 백터(y ext(n))가 된다. 대역 저지 필터는 예를 들면 200 내지 3700Hz 범위에서 효과적일 수 있다.
수신 신호의 신호 벡터(x(n))는 블록(605)에서 상보식 대역 통과 필터(complementary band pass filter)를 통과하게 된다. 이어서, 신호 성분(y ext(n) 및 (y tel(n))이 추가되어 확장된 대역폭을 갖는 신호 벡터(y(n))를 얻는다. 블록(607)에서, 상이한 신호 벡터들이 다시 수집되고, 오버 샘플링(over-sampling)이 수행되어 신호(y(n))를 얻는다.
이러한 종래의 시스템에서, 구성요소 및 그들의 변수는 일단 실행된 다음에는 변화하지 않고 유지된다. 따라서, 모든 입력 음향 신호는 동일한 방식으로 처리된다. 이러한 관점에서, 본 발명은 음향 신호에 확장된 대역폭을 제공하기 위한 보다 융통성 있는 방법 및 시스템을 제공하는 것을 기본적인 목적으로 한다.
상기 문제는 청구항 1항에 따른 방법과 청구항 16항에 따른 장치에 의하여 해결된다.
본 발명에 따르면, 음향 신호에 확장된 대역폭을 제공하기 위한 방법은:
(a) 수신된 음향 신호의 현재의 대역폭 상한 및 현재의 대역폭 하한을 자동으로 결정하는 단계,
(b) 적어도 하나의 상보적인 신호를 자동으로 결정하여, 미리 규정된 광대역 대역폭 하한과 상기 현재의 대역폭 하한 사이 및/또는 상기 현재의 대역폭 상한과 미리 규정된 광대역 대역폭 상한 사이에서 상기 수신된 음향 신호를 보충하는 단계로서, 상기 미리 규정된 광대역 대역폭 하한은 상기 현재의 대역폭 하한보다 작고, 상기 미리 규정된 광대역 대역폭 상한은 상기 현재의 대역폭 상한보다 큰 것인, 상기 수신된 음향 신호를 보충하는 단계,
(c) 상기 적어도 하나의 상보적인 신호와 상기 수신된 음향 신호를 자동으로 어셈블링하여 확장된 대역폭을 갖는 음향 신호를 얻는 단계
를 포함한다.
수신된 음향 신호의 현재의 대역폭 상한 및 대역폭 하한을 결정하고, 상기 현재의 대역폭 한계와 상기 각각의 미리 규정된 광대역 대역폭 한계 사이의 상보적인 신호를 결정함으로써, 본 발명에 따른 방법은 상기 대역폭 확장을 실제로 수신된 상기 음향 신호에서 적응시킨다. 예를 들면, 전송기가 ISDN 전화기를 이용하는 경우, 핸즈-프리 시스템을 구비한 이동전화의 경우와 비교하여 더 넓은 주파수 범위가 이용된다. 따라서, 그 결과 생성되는 신호의 품질이 매우 높도록 할 필요가 있는 범위에서만, 수신된 음향 신호의 대역폭이 확장될 것이다.
한편, 이러한 방식에서,상기 수신된 신호가 단지 매우 좁은 주파수 범위만을 포괄하는 경우에도, 스펙트럼 갭(gap)은 발생하지 않는다. 반면, 상대적으로 넓은 주파수 범위를 포괄하는 경우에는, 상보적인 신호를 결정할 때 주파수는 컷-오프(cut-off)되지 않는다.
상기 수신된 음향 신호는 디지털 신호이거나 디지털화될 수 있다. 상기 방법에서 단계 (a) 내지 (c)에 앞서 상기 수신된 음향 신호를 미리 결정된 샘플링 속도로 변환하는 단계가 선행될 수 있다. 더욱이, 단계 (a) 내지 (c)에 앞서, 상기 음향 신호, 특히 상기 변환된 음향 신호로부터 신호 벡터를 추출하는 단계가 선행될 수 있다. 이어서, (시간상) 후속하는 신호 벡터가 중복될 수 있다. 신호 벡터의 이용은 상기 신호의 추가 처리를 간단하게 한다.
단계 (a) 내지 (c)에 앞서, 상기 수신된 음향 신호의 스펙트럼 벡터를 결정하는 단계가 선행될 수 있다. 특히, 윈도우(window) 함수가 상기 수신된 음향 신 호의 신호 벡터에 인가될 수 있다. 예를 들면, 한(Hann) 또는 하밍(Hamming) 윈도우 함수가 이용될 수 있다(K. D. Kammeyer, K. Kroschel, Digitale Signalverarbeitung, 4th, Edition, Teubner, Stuttgart, Germany, 1997 참조). 신호 벡터, 특히 이러한 방식으로 가중된 신호 벡터는 이산 푸리에 변형을 이용한 푸리에 도메인으로 변환될 수 있다. 그 결과 생성된 벡터는 쇼트-텀 스펙트럼 벡터(short-term spectral vector)이다. 이것은 상기 푸리에 도메인에서 추가 처리를 가능하게 해준다.
상기 방법에서, 단계 (b)는 스펙트럼 엔빌로프 신호와 여기 신호의 곱이 미리 결정된 범주에 따른 상기 수신된 음향 신호와 대응하도록 상기 광대역 대역폭 의 상한과 하한 사이의 광대역 스펙트럼 엔빌로프 신호와 광대역 여기 신호를 결정하는 단계를 포함할 수 있다.
이러한 엔빌로프 신호와 여기 신호로의 분해는 현재의 대역폭 한계를 결정하는 것을 간단하게 하고, 상보적인 신호를 결정할 때 정확성을 증가시킨다.
단계 (a)는 결정된 광대역 스펙트럼 엔빌로프 신호와 상기 수신된 음향 신호의 롱-텀 파워(long-term power) 스펙트럼을 비교하는 단계를 포함할 수 있다. 그것은 롱-텀 파워 스펙트럼이 음향 신호의 현재의 대역폭 한계를 결정하기 위한 적절한 기초임을 보여준다.
따라서, 현재의 대역폭 한계가 상기 수신된 음향 신호의 광대역 스펙트럼 엔빌로프 신호를 이용하는 방식으로 단계 (a)에서 결정된다면, 이러한 현재의 대역폭 한계들에 기초한 단계 (b)에서 상보적인 신호를 결정하고, 엔빌로프 신호의 결정을 포함하는 것은 (새롭게) 결정된 엔빌로프 신호와 롱-텀 파워 스펙트럼을 다시 비교함으로써 상기 현재의 대역폭 한계를 반복하여 적응시키는 것을 가능하게 한다. 다시 말하면, 단계 (a)에서 현재의 대역폭 한계를 결정하는 것은 특히 선행 단계에서 또는 본 방법의 이전의 앞선 반복에서 단계 (b)에 따라서 결정된 스펙트럼 엔빌로프 신호를 이용할 수 있다.
특히, 상기 수신된 음향 신호가 푸리에 도메인으로 변환되는 경우, 롱-텀 파워 스펙트럼을 결정하는 것은 상기 음향 신호에 대응하는 서브-대역 신호를 제곱한 절대값의 제1 차수의 반복 스무딩(smoothing)을 수행하는 것을 포함할 수 있다. 이것은 특히 음성 신호와 같은 원하는 신호가 상기 수신된 음향 신호에서 검출되는 경우에만 수행될 수 있다.
또한, 롱-텀 파워 스펙트럼은 특히 미리 결정된 주파수 한계 내의 롱-텀 파워 스펙트럼과 관련하여 정규화될 수 있다.
별법으로서, 롱-텀 파워 스펙트럼은 시간 도메인에서 결정될 수 있다. 이것은 자동-상관을 결정하고, LPC 분석을 수행하여 대응하는 예측 계수를 얻음으로써 이루어질 수 있다.
상기 비교하는 단계는 상기 롱-텀 파워 스펙트럼이 상기 결정된 광대역 스펙트럼 엔빌로프 신호와 미리 결정된 상수의 합보다 크거나 같은 최대 및 최소 주파수를 선택하는 것을 포함할 수 있다.
이것은 특히 대역폭 한계를 결정하는 간단하고 신뢰성있는 방식이다. 상기 미리 결정된 상수는 실험적이거나 이론적인 데이터에 기초하여 선택될 수 있다. 상기 미리 결정된 상수는 음의 값일 수 있다.
상기 방법에서, 광대역 스펙트럼 엔빌로프 신호를 결정하는 단계는 미리 결정된 범주에 따라 코드북(doedbook)으로부터 엔빌로프 신호를 선택하는 단계를 포함할 수 있다.
코드북을 이용함으로써, 엔빌로프 신호를 결정하기 위해서 필요한 계산 파워가 감소될 수 있다. 원칙적으로, 엔빌로프 신호를 코드북으로부터 선택하는 경우 상이한 종류의 범주들을 이용할 수 있다. 특히, 상기 코드북 엔트리(entries)가 켑스트럴(cepstral) 벡터의 형태를 갖는 경우에는, 켑스트럴 거리와 같은 미리 결정된 거리 범주를 이용할 수 있다.
특히, 엔빌로프 신호를 선택하는 단계는, 상기 수신된 음향 신호를 등화하는 단계와, 특히 최소의 켑스트럴 거리를 갖는 미리 정해진 거리 범주에 따라 상기 최소 거리를 갖는 코드북으로부터 상기 등화된 음향 신호까지의 엔빌로프 신호를 선택하는 단계를 포함할 수 있다.
상기 음향 신호를 등화하면 코드북으로부터 엔빌로프 신호들을 비교하는 것이 단순화 될 수 있도록 음향 신호를 수정할 수 있다. 특히, 결과적으로 생성된 신호가 상기 코드북을 트레이닝하기 위하여 이용되는 상기 신호의 롱-텀 파워 스펙트럼에 대응하는 롱-텀 파워 스펙트럼을 나타내는 방식으로, 상기 수신된 음향 신호가 등화될 수 있다. 상기 등화는 상기 수신 음향 신호의 현재의 대역폭 상한과 하한 사이의 주파수로 제한될 수 있는데, 이들 한계 바깥에서는, 상기 신호는 변화되지 않고 남을 수 있다. 특히, 상기 수신된 음향 신호를 등화하는 것은 상기 코드북을 트레이닝하기 위하여 이용되는 신호의 정규화된 롱-텀 파워 스펙트럼을 이용하여, 특히 상기 수신된 음향 신호 자체의 정규화된 롱-텀 파워 스펙트럼에 의하여 분할되는 정규화된 롱-텀 파워 스펙트럼을 이용하여 수행될 수 있다.
코드북은 대응하는 엔빌로프 신호의 쌍들을 포함할 수 있고, 각각의 쌍은 광대역 대역폭 상한과 하한 사이의 광대역 엔빌로프 신호와 상기 광대역 대역폭 하한보다 큰 협대역 대역폭 하한과 상기 광대역 대역폭 상한보다 작은 협대역 대역폭 상한 사이의 대응하는 협대역 엔빌로프 신호를 포함한다. 그리고, 엔빌로프 신호를 선택하는 단계는 상기 미리 정해진 거리 범주에 따라 등화된 음향 신호까지 최소의 거리를 갖는 협대역 엔빌로프 신호를 결정하는 단계와 상기 쌍의 대응하는 광대역 엔빌로프 신호를 선택하는 단계를 포함할 수 있다.
이 방식에서, 상기 수신된 음향 신호와 상기 코드북의 요소들 사이의 간단한 비교는 협대역 신호가 보통 수신된 음향 신호를 좁은 대역폭과 더욱 밀접하게 매치시킴에 따라 수행될 수 있다.
엔빌로프 신호를 선택하기 위해 켑스트럴 거리를 이용하는 경우, 특히 등화된 형태의 상기 수신된 음향 신호는 상기 켑스트럴 도메인으로 변환되어야 한다. 따라서, 엔빌로프 신호를 선택하는 상기 단계는 상기 수신된 음향 신호의 상기 서브-대역 신호를 제곱한 절대값을 결정하는 단계, 상기 제곱된 절대값의 벡터 상에서 역이산 푸리에 변환을 수행하여 시간 도메인에서 자동-상관을 결정하는 단계, 특히 레빈슨-더빈(Revinson-Durbin) 알고리즘을 이용하여 예측 계수를 결정하는 단 계, 및 이를 반복하여 켑스트럴 계수를 얻는 단계를 더 포함할 수 있다.
상기 켑스트럴 벡터로부터 스펙트럼 엔빌로프를 결정하기 위하여, 상기 방법은 켑스트럴 벡터를 예측 에러 계수로 반복적으로 변환하는 단계, 미리 결정된 갯수의 영을 추가하고 이어서 이산 푸리에 변환을 수행하여 역 스펙트럼을 형성함으로써 상기 예측 에러 필터 벡터를 증가시키는 단계, 및 각각의 서브-밴드 성분의 역수를 결정하여 스펙트럼 엔빌로프 벡터를 얻는 단계를 더 포함할 수 있다.
상기 방법에서, 엔빌로프 신호를 선택하는 단계에 앞서 상기 현재의 대역폭의 상한과 하한에 적응되는 적응된 협대역 코드북 엔빌로프 신호를 제공하는 단계를 진행할 수 있다.
이러한 상기 코드북 엔트리의 적응은 코드북에서 대응하는 엔빌로프 신호를 선택하는 것을 개선해준다. 특히, 상기 수신된 음향 신호가 상기 코드북의 원래 협대역 엔빌로프 신호보다 더 넓은 대역폭을 보여준다면, 상기 적응에 의해, 확장된 대역폭을 갖는 코드북에서 엔빌로프 신호가 얻어진다. 이 방식에서, 특히 마찰음이 더욱 신뢰성 있게 감지될 수 있다.
상기 제공 단계는 상기 수신된 음향 신호의 롱-텀 파워 스펙트럼을 이용하여 광대역 코드북 엔빌로프 신호를 처리하는 단계를 포함할 수 있다.
상기 수신된 음향 신호의 파워 스펙트럼을 이용함으로 인하여, 음향 신호에의 적절한 적응이 얻어질 수 있다. 롱-텀 파워 스펙트럼은 정규화될 수 있다. 더욱이, 상기 수신된 음향 신호의 롱-텀 파워 스펙트럼은 상기 코드북의 트레이닝을 위해 이용되는 광대역 신호의 정규화된 롱-텀 파워 스펙트럼에 의하여 분할될 수 있다. 상기 광대역 코드북 엔빌로프 신호를 처리하는 단계는 상기 현재의 대역폭 한계 외부의 주파수에 대해서만 수행될 수 있고, 상기 대역폭 한계 내에서, 상기 엔빌로프 신호는 변화하지 않고 유지될 수 있다. 롱-텀 파워 스펙트럼을 이용하여 처리하는 단계는 상기 수신된 음향 신호의 롱-텀 파워 스펙트럼을 이용하여 광대역 코드북 엔빌로프 신호 벡터를 가중하는 단계를 포함할 수 있다.
상기 방법들에서, 광대역 여기 신호를 결정하는 단계는 예측 에러 필터링 및/또는 비선형 특성에 기초할 수 있다. 이 방식에서, 적절한 여기 신호가 발생될 수 있다. 가능한 비선형 특성이, 예를 들면 U. Kornagel, Spectral Widening of the Exitation Signal for Tlelphone-Band Speech Enhancement에 기재되어 있다.
상기 방법들에서, 적어도 하나의 상보적인 신호는 상기 결정된 광대역 스펙트럼 엔빌로프과 상기 결정된 광대역 여기 신호의 곱에 기초할 수 있다. 또한, 단계 (c)는 상기 현재의 대역폭의 상한과 하한 사이의 상기 수신된 음향 신호와, 상기 광대역 대역폭 하한과 현재의 대역폭 하한 사이의 대역 및/또는 상기 현재의 대역폭 상한과 상기 광대역 대역폭 상한 사이의 대역에서 제한되는 적어도 하나의 상보적인 신호의 합을 포함한다.
따라서, 상기 상보적인 신호는 상기 엔빌로프 신호를 이용하여 상기 여기 신호를 스펙트럼으로 칼라링하는 것에 기초한다. 상기 수신된 음향 신호의 현재의 대역폭 한계의 외부에서 상보적인 신호를 더하는 것에 의하여, 확장된 대역폭을 갖는 결과물인 신호에서 가공물이 방지된다.
단계 (c)는 또한 상기 상보적인 신호 및/또는 상기 수신된 음향 신호의 출력 을 적응하는 단계를 포함한다. 이 단계를 이용하여 상기 수신된 음향 신호의 파워가 유지될 수 있다.
위에서 설명한 방법에서, 상기 단계들의 적어도 하나는 켑스트럴 도메인에서 수행될 수 있다. 특히, 상기 코드북의 엔트리가 켑스트럴 벡터인 경우, 이것은 더욱 단순한 방식으로 상기 방법을 수행할 수 있게 한다.
상기 방법들 중 단계 (a) 내지 (c)는 미리 계산된 시간 간격에서 반복될 수 있다. 이어서, 상기 현재 수신된 음향 신호에서 반복된 적응은 상기 결과로 생성된 광대역 신호의 영구적인 고품질을 유도한다.
상기 방법들 중 단계 (a) 내지 (c)는, 만약 음성 활동과 같이 원하는 신호 성분이 상기 수신된 음성 신호에서 검출되는 경우에만, 반복될 수 있다. 특히, 음성 신호의 경우에, 상기 수신된 음향 신호의 대역폭을 확장하는 것이 유리하다. 따라서 상기 방법을 검출된 음성 활동의 경우에 한정하면 필요한 계산 파워가 감소되고, 이상적응(mal-adaptation)으로 인한 인공물의 존재가 방지된다.
본 발명은 또한 컴퓨터에서 구동되어 위에서 설명한 방법의 단계를 수행하기 위하여 컴퓨터에서 실행가능한 명령어를 갖는 하나 이상의 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품을 제공한다.
또한, 확장된 대역폭을 갖는 음향 신호를 제공하기 위한 장치가 제공되는데 상기 장치는:
수신된 음향 신호의 현재의 대역폭 상한 및 현재의 대역폭 하한을 자동으로 결정하기 위한 대역폭 결정 수단,
적어도 하나의 상보적인 신호를 자동으로 결정하여, 미리 규정된 광대역 대역폭 상한과 상기 현재의 하위 대역폭 하한 사이 및/또는 상기 현재의 대역폭 상한과 미리 규정된 광대역 대역폭 상한 사이의 상기 수신된 음향 신호를 보충하기 위한 수단으로서, 상기 미리 규정된 광대역 대역폭 하한은 상기 현재의 대역폭 한계보다 작고, 상기 미리 규정된 광대역 대역폭 상한은 상기 현재의 대역폭 한계보다 큰 것인, 상기 수신된 음향 신호를 보충하기 위한 보충의 신호 수단,
상기 적어도 하나의 상보적인 신호와 상기 수신된 음향 신호를 자동으로 어셈블링하여 확장된 대역폭을 갖는 음향 신호를 얻기 위한 어셈블링(assembling) 수단,
을 포함한다.
위에서 설명한 방법과 유사하게, 이러한 장치는 수신된 음향 신호의 대역폭을 확장하기 위한 유리한 수단을 제공한다. 특히, 상기 수신된 음향 신호의 현재의 대역폭 상한 및 하한을 결정하고 대응하는 상보적인 신호를 결정함으로 인하여, 결과물인 출력 신호의 품질은 고정된 변수를 갖는 대역폭 확장 시스템의 경우와 비교하여 증가한다.
스펙트럼 엔빌로프 신호와 여기 신호의 곱이 미리 정해진 범주에 따른 수신된 음향 신호에 대응하도록, 상보적인 신호 수단은 광대역 대역폭 상한과 하한 사이의 광대역 스펙트럼 엔빌로프 신호와 광대역 여기 신호를 결정하기 위한 수단을 포함할 수 있다.
대역폭 결정 수단은 결정된 광대역 스펙트럼 엔빌로프 신호와 상기 수신된 음향 신호의 롱-텀 파워 스펙트럼을 비교하도록 구성될 수 있다.
대역폭 결정 수단은 롱-텀 파워 스팩트럼이 미리 정해진 광대역 스펙트럼 엔빌로프 신호의 파워 스펙트럼과 미리 계산된 상수의 합보다 더 크거나 동일한 최소 및 최대의 주파수를 선택하도록 구성될 수 있다.
위에서 설명한 장치에서, 광대역 스펙트럼 엔빌로프 신호를 결정하기 위한 수단은 미리 결정된 범주에 따라 코드북으로부터 엔빌로프 신호를 선택하기 위한 수단을 포함한다.
엔빌로프 신호를 선택하기 위한 수단은 상기 수신된 음향 신호를 등화하고, 특히 최소 켑스트럴 거리를 갖는 미리 결정된 거리 표준에 따라 상기 최소 거리를 갖는 코드북으로부터 상기 등화된 음향 신호에서 엔빌로프 신호를 선택하도록 구성될 수 있다.
위에서 설명한 장치에서, 상기 코드북은 대응하는 엔빌로프 신호의 쌍들을 포함할 수 있고, 각각의 쌍은 광대역 대역폭의 상한과 하한 사이의 광대역 엔빌로프 신호와 상기 광대역 대역폭 하한보다 큰 협대역 대역폭 하한과 상기 광대역 대역폭 상한보다 작은 협대역 대역폭 상한 사이의 대응하는 협대역 대역폭 한계를 포함한다. 그리고, 엔빌로프 신호를 선택하기 위한 수단은 상기 미리 결정된 거리 범주에 따라 등화된 음향 신호에서 최소의 거리를 갖는 협대역 엔빌로프 신호를 결정하고 상기 쌍의 대응하는 광대역 엔빌로프 신호를 선택하도록 구성될 수 있다.
광대역 스펙트럼 엔빌로프 신호를 결정하기 위한 수단은 상기 현재의 대역폭의 상한 및 하한에 적응되는 적응된 협대역 코드북 엔빌로프 신호를 제공하기 위한 신호를 포함할 수 있다.
상기 제공 수단은 상기 수신된 음향 신호의 롱-텀 파워 스펙트럼을 이용하여 상기 광대역 코드북 엔빌로프 신호를 처리하도록 구성될 수 있다.
위에서 설명한 장치에서, 광대역 여기 신호를 결정하기 위한 수단은 예측 에러 필터링 및/또는 비선형 특징에 기초하여 상기 광대역 여기 신호를 결정하도록 구성될 수 있다.
상기 적어도 하나의 상보적인 신호는 상기 결정된 광대역 스펙트럼 엔빌로프와 상기 결정된 광대역 여기 신호의 곱에 기초할 수 있고, 상기 어셈블링 수단은 상기 광대역 대역폭 하한과 현재의 대역폭 하한 사이의 대역 및/또는 상기 현재의 대역폭 상한과 상기 광대역 대역폭 상한 사이의 대역에 제한되는 적어도 하나의 상보적인 신호를 합하도록 구성될 수 있다.
위에서 설명한 장치에서, 상기 수단들 중 적어도 하나는 상기 켑스트럴 도메인에서 그 기능 중 적어도 일부를 수행하도록 구성될 수 있다.
위에서 설명한 장치의 상기 수단은 미리 결정된 시간 간격에서 그들 각각의 기능을 수행하도록 구성될 수 있다.
상기 장치는 원하는 신호 검출기, 특히 음성 검출기를 더 포함할 수 있고, 상기 수단은 단지 원하는 신호 성분이 상기 수신된 음향 신호에서 검출되는 경우에만 그들 각각의 기능을 수행하도록 구성될 수 있다.
본 발명의 추가의 특징 및 잇점은 첨부한 도면을 참고로 이하에서 설명한다.
본 발명에 따른 방법은 수신된 음향 신호의 현재의 대역폭 상한 및 하한을 결정하고, 상기 현재의 대역폭 한계와 상기 각각의 미리 규정된 광대역 대역폭 한계 사이의 상보적인 신호를 결정함으로써, 실제로 수신된 상기 음향 신호에서 상기 대역폭 확장을 적응시킨다.
한편, 이러한 방식에서,상기 수신된 신호가 단지 매우 좁은 주파수 범위를 포함하는 경우에도, 스펙트럼 갭(gap)은 발생하지 않는다. 반면, 상대적으로 넓은 주파수 범위를 포함하는 경우에도 상보적인 신호를 결정할 때 주파수는 컷-오프(cut-off)되지 않는다.
도 1은 음향 신호에 확장된 대역폭을 제공하기 위한 장치에서 신호 흐름의 구조를 보여주는 도면이다. 도 2는 음향 신호에 확장된 대역폭을 제공하기 위한 방법의 일예를 보여주는 흐름도로서, 도 1에 대응하는 장치에 의해 수행될 수 있다. 이러한 관점에서, 도 1 및 도 2를 동시에 설명한다.
단계(201)에 따르면, 음성 신호와 같은 음향 신호가 전화선을 통해 수신된다. 전화선의 제한된 대역폭 때문에, 신호 품질을 향상시키기 위해 대역폭의 확장이 요망된다. 따라서, 상기 신호는 미리 정해진 더 넓은 대역폭을 얻기 위해 확대(augment)될 것이다. 이하에서 설명하는 방법은 들어오는 신호 타입 및 전송선의 타입과는 독립적으로(즉, 전화선일 필요가 없다), 대역폭 확장을 위해 이용될 수 있다는 것을 이해하여야 한다.
블록(101)에 의해 수신된 음향 신호 x(n)은, 샘플링 속도를 최대 미리 정해진 광대역 대역폭까지 증가시킴으로써 이미 사전 처리되었다. 그러나, 이러한 방식에서, 추가의 주파수 성분이 생성되지는 않는다. 이는, 예컨대 적당한 안티-앨리어싱(anti-aliasing) 또는 안티-이미징(anti-imaging) 필터를 이용하여 달성될 수 있다. 이러한 종류의 대역폭 확장은 "잃어버린(missing)" 주파수 영역에 대해서만 수행되는 것이 바람직하다. 즉, 아날로그 전화선의 경우에, 이들 주파수 영역은 0과 300 Hz 사이 및 3,400 Hz일 수 있고, 최대 원하는 샘플링 속도의 절반, 예컨대 최대 3,700 Hz일 수 있다.
결과적으로 얻어지는 신호 x(n)으로부터, 신호 벡터 x(n)이 생성된다(n:시간 변수를 나타낸다)(단계 202). 이는, 모든 샘플링 값(r)을 최대 소정의 길이까지 취함으로써 달성될 수 있다. 따라서, N ana 요소를 갖는 신호 벡터는 다음의 형태를 갖는다.
Figure 112007060630275-pat00001
인접하는 신호 벡터 사이에 오버랩(overlap)이 존재할 수 있다는 것에 유의하여야 한다. 11.025 kHz의 원하는, 즉 최종 샘플링 속도에 대하여, 다음의 값을 취할 수 있다.
r= 64,
N ana = 256.
그 후(단계 203), 윈도우된 신호 벡터(wiondowed signal vector)(x w(n))를 얻기 위해 신호 벡터 상에서 윈도우잉 과정(windowing procedure)이 수행된다.
x w(n) = Fx(n).
윈도우 행렬(F)은 다음과 같은 대각선 행렬이다.
Figure 112007060630275-pat00002
상기 행렬의 요소들은 상이한 종류의 윈도우에 대응하는 것을 선택할 수 있다. 전형적인 윈도우는 Hann 또는 Hamming 윈도우이다. 가중된(weighted) 신호 벡터는 이산 푸리에 변환(discrete Fourier transform)을 이용하여 푸리에 도메인으로 변환될 수 있다.
Figure 112007060630275-pat00003
그 결과 얻어지는 쇼트-텀(short-term) 스펙트럼 벡터는 다음의 형태를 갖는다.
Figure 112007060630275-pat00004
상기 형태에서, Ωμ는 주파수 변수를 나타낸다.
상기 스펙트럼 벡터에 기초하여, 수신된 음향 신호의 롱텀(long-term) 파워 스펙트럼이 블록(102)에서 결정된다(단계 204). 이러한 롱텀 파워 스텍트럼을 추정하는 데에 여러 상이한 가능성이 있다. 한 가지 예에 따르면, 제1 차수의 반복 스무딩(first order recursive smoothing)이 서브-대역 신호
Figure 112007060630275-pat00005
의 제곱한 절대값 상에서 수행된다. 즉,
Figure 112007060630275-pat00006
,
그 밖의 음성 활동 동안.
바람직하게는, 시간 상수(βfre)는 충분히 큰 평균 시간(averaging time)을 얻기 위하여 1에 가깝도록 선택된다(0<<βfre<1).
원칙적으로, 상기 식의 첫 번째 줄에 따른 반복 스무딩은 연속적으로 수행될 수 있다. 그러나, 임의의 가공물(artifact)를 피하기 위하여, 반복 스무딩은 원하는 신호 성분이 수신된 음향 신호에 존재하는 경우에만, 예컨대 음성 활동이 검출 된 경우에만 수행될 수도 있다. 이러한 목적으로, 예컨대 E. Hansler, G. Schmidt, Acoustic Echo and Noise Control - A Practral Approach, Wiley, Hoboken, NJ, USA, 2004에 기재된 것과 같은 음성 검출기가 제공될 수 있다.
추가의 프로세싱을 단순화하기 위하여, 상기 롱-텀 파워 스펙트럼은 미리 규정된 주파수 대역 내에서 롱텀 파워로 정규화될 수 있다(normalzed).
Figure 112007060630275-pat00007
상기 대역 한계(
Figure 112007060630275-pat00008
,
Figure 112007060630275-pat00009
)는 미리 규정된 주파수 대역의 하한 및 상한을 나타낸다. 예컨대, 이 주파수 대역은 본 발명이 이용될 수 있는 최소 대역폭을 갖는 전화 대역에 대응할 수 있는데, 예컨대 상기 한계는 400 Hz 및 3,300 Hz일 수 있다. 바람직하게는, 상기 한계는, 후술하는 코드북(codebook)이 트레인되어 있는 범위의 좁은 주파수 대역의 주파수 대역보다 작거나 기껏해야 동일한 대역에 대응하는데, 이들 한계는
Figure 112007060630275-pat00010
,
Figure 112007060630275-pat00011
으로 나타내어진다.
별법으로서, 주파수 도메인 내에서 롱텀 파워 스펙트럼을 결정하기 위하여, 시간 도메인에서도 추정이 수행될 수 있다. 이러한 목적을 위해, 약 10 내지 20 샘플링 사이클의 옵셋에 대하여 자동-상관(auto-correlation)이 추정된다. 이후, LPC(linear predictive coding) 분석을 이용하여 예측 계수(prediction coefficients)가 결정될 수 있다. 롱텀 파워 스펙트럼은 이산 푸리에 변환 및 제법(division)을 통해 얻어진다.
블록(103)(단계 205)에서, 상기 음향 신호는 등화된다. 등화(equalziing)는 상기 결정된 스펙트럼 벡터 상에서 수행된다. 즉,
Figure 112007060630275-pat00012
상기 등화 행렬(H eq(n))은 다음과 같은 대각선 행렬 형태이고,
Figure 112007060630275-pat00013
엔트리는 다음과 같다.
Figure 112007060630275-pat00014
,
Figure 112007060630275-pat00015
.
상기 식에서,
Figure 112007060630275-pat00016
Figure 112007060630275-pat00017
는 상기 수신된 음향 신호의 현재의 대역폭 하한 및 대역폭 상한을 나타낸다. 따라서, 갱신된 등화된 신호를 얻기 위하여, 시간(n-1)에서 대역폭 한계는 현재의 대역폭 한계로서 취해진다. 또한,
Figure 112007060630275-pat00018
는 코드북을 트레인 하기 위해 사용된 상기 광대역 신호의 정규화된 롱텀 파워 스펙트럼을 나타낸다. 이러한 파워 스펙트럼을 정규화하는 것은 상기 수신된 음향 신호의 롱텀 파워 스펙트럼의 경우와 유사하게 수행된다. 코드북을 트레인하기 위해 이용되는 정규화된 롱텀 파워 스펙트럼의 한 가지 예가 도 3에 도시되어 있다.
상기 등화는 최소 및 최대값으로 제한된다. 예컨대,
Figure 112007060630275-pat00019
상기 내용으로부터 알 수 있는 바와 같이, 상기 음향 신호는 현재의 대역폭 한계 내에서만 하나의 시간 단계 전에 등화된다. 이들 대역폭 한계 밖에서는 어떠한 등화도 일어나지 않는다.
이하에서, 광대역 스펙트럼 엔빌로프(envelope)를 결정하는 것을 보다 상세하게 설명한다. 수신된 음향 신호에 대응하는 엔빌로프 신호는 코드북을 이용하여 결정된다. 상기 사용된 코드북은 대응하는 협대역 및 광대역 엔빌로프 신호들의 수 많은 쌍을 포함한다. 상기 코드북은 시작하는 롱텀 파워 스펙트럼에 기초하여, 큰 데이터베이스로 트레인함으로써 얻어진다(참조: Y. Linde, A. Buzo, R. M. Gray, An Algorithm for Vector Quantizer Design , IEEE Trans. Comm., vol. COM-28, no. 1, pages 84-95, Jan. 1980).
도 2에 나타낸 바와 같이, 상기 코드북 엔트리는 단계(206)(블록 104)에서 적응된다. 특히, 협대역 코드북 엔트리 c i ,s(n)가 적응된다.
이는 코드북의 광대역 엔트리로 시작함으로써 달성된다. 상기 광대역 엔빌로프 신호가 켑스트럴 벡터 c i ,s(n)로서 제공된다면, 대응하는 스펙트럼 C i ,s(n)이 결정된다. 이들 광대역 스펙트럼 엔빌로프에 기초하여, 상기 적응된 또는 최적화된 협대역 스펙트럼은 가중 행렬과의 곱에 의해 결정된다.
Figure 112007060630275-pat00020
상기 가중 행렬은 다음과 같은 대각선 행렬 형태이고,
Figure 112007060630275-pat00021
엔트리는 다음과 같다.
Figure 112007060630275-pat00022
그 후, 켑스트럴 벡터는 상기 결과적으로 얻어지는 스펙트럼 협대역 엔빌로프로부터 결정된다.
스펙트럼 벡터로부터 켑스트럴 벡터로의 변환 및 그 역은 단계(207)와 관련하여 이하에서 설명하는데, 상기 단계에서 광대역 스펙트럼 엔빌로프가 결정된다(블록 105).
상기 음향 신호와 가장 잘 매치되는 코드북으로부터의 광대역 스펙트럼 엔빌로프는 상기 협대역 코드북 엔트리와 (등화 후) 상기 음향 신호의 스펙트럼의 스펙트럼 엔빌로프를 비교함으로써 결정된다. 상기 음향 신호 스펙트럼까지의 거리가 작은 협대역 코드북 엔트리가 선택된다. 원칙적으로, 상이한 거리 범주(criteria)가 이용될 수 있다. 상기 켑스트럴 거리는, 상기 코드북 엔트리가 켑스트럴 벡터의 형태로 제공되는 경우에 특히 유용한다.
최적의 협대역 코드북 엔트리가 선택되면, 대응하는 광대역 코드북 엔트리가 상기 수신된 음향 신호에 대한 최적의 광대역 스펙트럼 엔빌로프로서 결정된다. 상기한 바와 같이, 협대역 코드북 엔트리가 적응되었기 때문에, 최적의 협대역 엔 빌로프가 매우 신뢰성 있는 방식으로 선택될 수 있다.
특히, 수신된 음향 신호의 스펙트럼 벡터를 켑스트럴 벡터로 변환하는 것은 다음을 통해 달성될 수 있다. 즉,
1. 각 서브-대역 신호
Figure 112007060630275-pat00023
의 제곱한 절대값을 결정한다.
2. 역 이산 푸리에 변환을 상기 벡터 상에서 적용하여, 시간 도메인에서 자동-상관을 추정한다.
3. Levinson-Durbin 알고리즘을 이용하여, (약, 10~20의 차수의) 예측 계수를 상기 자동-상관으로부터 결정된다.
4. 상기 차수와 관련하여 반복(recursion)을 수행함으로써, 상기 예측 계수는 켑스트럴 계수를 결정하는데 사용된다. 보통, 상기 차수는 예측 차수의 1과 1/2에 대응한다.
상기 광대역 코드북의 최적의 켑스트럴 벡터는
Figure 112007060630275-pat00024
에 의해 표시된다. 결과적으로 얻어지는 광대역 스펙트럼 엔빌로프는 다음의 형태를 갖는다.
Figure 112007060630275-pat00025
켑스트럴 벡터의 스펙트럼 벡터로의 변환은 다음에 의해 달성된다.
1. 예측 에러 필터 계수를 얻기 위하여, (상기한 것과 같은) 차수와 관련하여 반복을 이용하여 켑스트럴 벡터를 변환한다.
2. 미리 정해진 수의 제로에 의해 상기 예측 에러 필터 벡터를 증대시키고 후속하여 이산 푸리에 변환을 수행함으로써, 역 스펙트럼이 얻어진다.
3. 각 서브-대역 성분의 역수를 결정함으로써, 벡터
Figure 112007060630275-pat00026
가 생성된다. 제로에 의한 제법은 별도로, 예컨대 적당한 상수를 추가함으로써 처리되어야 한다.
도 4는 4개 쌍의 엔트리를 갖는 코드북의 일예를 보여준다. 각 도면에서, 대응하는 원래의 협대역 엔빌로프와 대응하는 적응된 협대역 엔빌로프가 도시되어 있다. 상기 원래의 광대역 및 협대역 코드북 엔트리는 ISDN 전화 접속을 위한 큰 데이터베이스에 기초하여 얻어진 것이다. 도면에서 알 수 있는 바와 같이, 상기 적응시킨 후, 결과적으로 얻어지는 최적화된 엔트리는 더 큰 주파수 상한을 갖고 있다. 이는 마찰음의 검출을 개선할 수 있도록 해준다.
단계(208)(블록 103)에서, 상기 수신된 음향 신호에 대응하는 여기 신호(excitation signal)가 생성된다. 이 광대역 여기 신호는 스펙트럼으로 평탄한 엔빌로프(spectrally flat envelope)를 보여준다. 이는 성대(vocal cords) 뒤에서 직접 레코드되는 신호에 대응한다.
광대역 여기 신호를 결정하기 위하여, 무엇보다도, 상기 등화된 쇼트-텀 스펙트럼 X eq(n)의 스펙트럼 엔빌로프가 예측 에러 필터 계수의 형태로 추정된다. 역 이산 푸리에 변환을 이 스펙트럼 벡터에 적용하면, 대응하는 시간 신호를 결정할 수 있다. 그 후, 시간 도메인 내의 벡터는 예측 에러 필터에 의해 필터링된다. 대응하는 필터 계수는 미리 결정된 계수이다.
다음에, 투-웨이 정류(two-way rectification) 또는 스퀘어링(squaring)과 같은 비선형 특성이 상기 필터링된 시간 도메인 벡터에 적용된다. 이는 잃어버린 저주파수 및 고주파수 신호 성분을 생성한다. 다음에, 푸리에 도메인에서의 변환은 확장된 여기 신호 X exc(n)의 스펙트럼을 제공한다.
별법으로서, 여기 신호를 결정하는 것은 시간 서브-대역 또는 푸리에 도메인에서도 수행될 수 있다. 이러한 별볍의 예는 B. Iser, G. Schmidt, Bandwidth Extension of Telephony Speech, Eurasip Newsletter, Volume 16, Number 2, pages 2 to 24, June 2005에서 발견할 수 있다.
다음의 단계(209)(블록 107)에서, 광대역 스펙트럼 엔빌로프 및 여기 신호는 상기 여기 신호를 스펙트럼으로 칼러링(spetrally coloring)하는 데에 사용된다. 이는 서브-대역 또는 푸리에 도메인에서의 곱에 의해 달성될 수 있다. 즉,
Figure 112007060630275-pat00027
대각선 행렬
Figure 112007060630275-pat00028
은 다음과 같은 형태를 갖는다.
Figure 112007060630275-pat00029
여기 신호를 생성할 때의 비선형성 또는 상기 예측 에러 필터링 때문에, 상기 음향 신호의 파워는 유지할 필요가 없다. 따라서, 파워 적응(power adaptation)이 수행될 수 있다.
Figure 112007060630275-pat00030
상기 수정 팩터 K는 다음과 같은 것으로 선택할 수 있다.
Figure 112007060630275-pat00031
상기 식에서,
Figure 112007060630275-pat00032
Figure 112007060630275-pat00033
는 상기 롱텀 파워 스펙트럼의 추정에서와 동일한 대역폭 한계를 나타낸다.
현재의 대역폭 한계는 단계(210)(블록 108)에서 적응된다. 한 가지 가능성에 따르면, 상기 대역폭 한계는 상기 수신된 음향 신호의 스펙트럼과 미리 규정된 상수에 의해 감소되는 광대역 스펙트럼 엔빌로프의 비교로 시작하여 결정된다. 즉,
Figure 112007060630275-pat00034
Figure 112007060630275-pat00035
상기 파라미터 KC는 다음의 값을 가질 수 있다. 즉,
KC= -12dB.
도 5에서, 대역폭 한계를 결정하는 한 가지 예가 도시되어 있다. 중간의 한계값들은 낮추어진 광대역 스펙트럼 엔빌로프와 수신된 음향 신호의 스펙트럼 사이의 교차점에 의해 주어진다.
이들 중간의 한계값들은 일시적인 오추정(malestimation)을 제거하기 위하여 반복적으로 스무딩될 수 있다. 이러한 경우에, 스무딩은, 현재의 신호 프레임에서 음성 활동이 검출된 경우에만 수행되는 것이 바람직하다.
Figure 112007060630275-pat00036
그 밖의 음성 활동 동안.
Figure 112007060630275-pat00037
그 밖의 음성 활동 동안.
다음에, 상기 수신된 음향 신호는, 현재의 대역폭 한계 내의 성분만을 보유하는 적응형 대역 통과 필터(adaptive band pass filter)를 통과하게 되어(블록 109), 스펙트럼 벡터 Y tel(n)를 얻는다. 유사하게, 상기 스펙트럼식으로 칼라링된 여기 신호는 벡터 Y ext(n)를 얻기 위하여 상보식 적응형 대역 정지 필터(complementary adaptive band stop filter)(블록 110)를 통과한다.
표준 대역폭을 갖는 출력 신호가, 이들 두 스펙트럼 벡터를 합하는 것을 시작으로 하여 생성된다(단계 211). 즉,
Figure 112007060630275-pat00038
이들 벡터의 성분들은 다음과 같이 생성된다.
Figure 112007060630275-pat00039
Figure 112007060630275-pat00040
상기 식에서, 가중 행렬
Figure 112007060630275-pat00041
Figure 112007060630275-pat00042
은 대각선 행렬이다. 즉,
Figure 112007060630275-pat00043
Figure 112007060630275-pat00044
행렬 G tel(n)의 요소들은 다음과 같이 결정된다.
Figure 112007060630275-pat00045
상보식 가중 행렬(complementary weighting matrix)의 가중치는 합해졌을 때 단일 행력을 산출하도록 결정된다. 즉,
Figure 112007060630275-pat00046
별법으로서, 대역폭 한계에서의 천이(transitions)는 보다 유연한 방식으로 실현될 수 있다.
다음에, 결과적으로 얻어지는 출력 스펙트럼 Y(n)은 역 푸리에 변환을 통해 시간 도메인으로 변환된다.
Figure 112007060630275-pat00047
이어서, 결과적으로 얻어지는 벡터를 윈도우잉하게 된다. 특히, N ana, r 및 Hann 윈도우에 대한 상기 값들을 이용하는 경우, 이 윈도우 함수는 윈도우된 시간 도메인 벡터를 얻기 위하여 다시 사용될 수 있다. 즉,
Figure 112007060630275-pat00048
다음에, 결과적으로 얻어지는 시간 도메인 벡터는 오버랩 추가법(overlap add method)(K. D. Kammeyer, K. Kroschel, Digitale Signalverarbeitung 참조)을 이용하여 합체되어, 최종 출력 신호 y(n)을 얻는다.
상기 방법의 단계들에서, 종래의 이산 푸리에 변환 및 역 이산 푸리에 변환 대신에 보다 복잡한 필터 뱅크 시스템(filter bank system)을 이용할 수 있다(예컨대, 참조: P. P. Vaidyanathan, Multirate Systems and Filter Banks, Prentice Hall, Englewood Cliffs, NJ, USA, 1992).
상기 변형예의 또 다른 대안 역시 가능하다. 예컨대, 푸리에 도메인에서 수 행된 단계들은 또한 시간 도메인에서 수행될 수 있다. 또한, 음향 신호를 등화하는 것은 협대역 코드북 엔트리를 적응될 때 수행될 수 있다. 또한, 상기 등화 단계는 증대될 수 있다. 예컨대, 어떤 주파수에서 증폭 또는 감쇄가 검출되면, 이는 대역폭 한계 내에서 조정될 수 있다. 이러한 경우에, 출력 벡터(Y tel(n))는 가중 행렬(H mod(n))로 수정된다.
광대역 스펙트럼 엔빌로프를 추정하기 위한 상기 코드북 분석 외에도, 소위 선형 매핑(linear mapping)(B. Iser, G. Schmidt, Bandwidth Extension of Telephony Speech)이 추가적으로 이용될 수 있다.
본 발명의 추가의 수정예 및 변형예는 상기 내용에 비추어 당업자에게 명백할 것이다. 따라서, 전술한 내용은 설명을 위한 것으로서 고려되어야 하며, 본 발명을 수행하기 위한 일반적인 방법을 당업자에게 교시하기 위한 것이다. 본 명세서에서 설명하고 도시한 본 발명의 형태는 바람직한 실시예로서 주어진 것이라고 이해하여야 한다.
도 1은 음향 신호에 확장된 대역폭을 제공하기 위한 장치의 일 실시예의 구조를 도시하는 도면;
도 2는 음향 신호에 확장된 대역폭을 제공하기 위한 방법의 일 실시예의 흐름선도;
도 3은 코드북을 트레이닝하기 위한 정규화된 롱-텀 파워 스펙트럼의 일 실시예를 도시하는 도면;
도 4는 코드북 엔트리의 예들을 도시하는 도면;
도 5는 현재의 대역폭 한계를 결정한 도면; 및
도 6은 종래의 시스템의 구조를 도시하는 도면이다.

Claims (29)

  1. (a) 수신된 음향 신호의 현재의 대역폭 상한 및 현재의 대역폭 하한을 자동으로 결정하는 단계,
    (b) 적어도 하나의 상보적인 신호를 자동으로 결정하여, 미리 규정된 광대역 대역폭 하한과 상기 현재의 대역폭 하한 사이 및/또는 상기 현재의 대역폭 상한과 미리 규정된 광대역 대역폭 상한 사이에서 상기 수신된 음향 신호를 보충하는 단계로서, 상기 미리 규정된 광대역 대역폭 하한은 상기 현재의 대역폭 하한보다 작고, 상기 미리 규정된 광대역 대역폭 상한은 상기 현재의 대역폭 한계보다 큰 것인, 상기 수신된 음향 신호를 보충하는 단계,
    (c) 상기 적어도 하나의 상보적인 신호와 상기 수신된 음향 신호를 자동으로 어셈블링하여 확장된 대역폭을 갖는 음향 신호를 얻는 단계
    를 포함하는 음향 신호에 확장된 대역폭을 제공하기 위한 방법.
  2. 제 1항에 있어서, 상기 단계 (b)는 스펙트럼 엔빌로프 신호와 여기 신호의 곱이 미리 결정된 범주에 따른 상기 수신된 음향 신호와 대응하도록 상기 광대역 대역폭의 상한과 하한 사이의 광대역 스펙트럼 엔빌로프 신호와 광대역 여기 신호를 결정하는 단계를 포함하는 것인 방법.
  3. 제 2항에 있어서, 상기 단계 (a)는 결정된 광대역 스펙트럼 엔빌로프 신호와 상기 수신된 음향 신호의 롱-텀 파워 스펙트럼을 비교하는 단계를 포함하는 것인 방법.
  4. 제 3항에 있어서, 상기 비교하는 단계는 상기 롱-텀 파워 스펙트럼이 상기 미리 결정된 광대역 스펙트럼 엔빌로프 신호와 미리 결정된 상수의 합보다 크거나 같은 최대 및 최소 주파수를 선택하는 것을 포함하는 것이 방법.
  5. 제 2항 내지 4항 중 어느 한 항에 있어서, 광대역 스펙트럼 엔빌로프 신호를 결정하는 단계는 미리 결정된 범주에 따라 코드북으로부터 엔빌로프 신호를 선택하는 단계를 포함하는 것인 방법.
  6. 제 5항에 있어서, 상기 엔빌로프 신호를 선택하는 단계는, 상기 수신된 음향 신호를 등화하는 단계와 특히 최소의 켑스트럴 거리를 갖는 미리 정해진 거리 범주에 따라 상기 최소 거리를 갖는 코드북으로부터 상기 등화된 음향 신호까지의 엔빌로프 신호를 선택하는 단계를 포함하는 것인 방법.
  7. 제 6항에 있어서, 상기 코드북은 대응하는 엔빌로프 신호의 쌍들을 포함할 수 있고, 각각의 쌍은 광대역 대역폭의 상한과 하한 사이의 광대역 엔빌로프 신호와 상기 광대역 대역폭 하한보다 큰 협대역 대역폭 하한과 상기 광대역 대역폭 상한보다 작은 협대역 대역폭 상한 사이의 대응하는 협대역 대역폭 한계를 포함하고, 엔빌로프 신호를 선택하는 단계는 상기 미리 정해진 거리 범주에 따라, 등화된 음향 신호까지 최소의 거리를 갖는 협대역 엔빌로프 신호를 결정하는 단계와 상기 쌍의 대응하는 광대역 엔빌로프 신호를 선택하는 단계를 포함하는 것인 방법.
  8. 제 7항에 있어서, 엔빌로프 신호를 선택하는 단계에 앞서 상기 현재의 대역폭의 상한 및 하한에 적응되는 적응된 협대역 코드북 엔빌로프 신호를 제공하는 단계를 포함하는 것인 방법.
  9. 제 8항에 있어서, 상기 제공 단계는 상기 수신된 음향 신호의 롱-텀 파워 스펙트럼을 이용하여 광대역 코드북 엔빌로프 신호를 처리하는 단계를 포함하는 것인 방법.
  10. 제 2항 내지 4항 중 어느 한 항에 있어서, 상기 광대역 여기 신호를 결정하는 단계는 예측 에러 필터링 및/또는 비선형 특성에 기초하는 것인 방법.
  11. 제 2항 내지 4항 중 어느 한 항에 있어서, 적어도 하나의 상보적인 신호는 상기 결정된 광대역 스펙트럼 엔빌로프와 상기 결정된 광대역 여기 신호의 곱에 기초하고, 상기 단계 (c)는 상기 현재의 대역폭의 상한과 하한 사이의 상기 수신된 음향 신호와, 상기 광대역 대역폭 하한과 현재의 대역폭 하한 사이의 대역 및/또는 상기 현재의 대역폭 상한과 상기 광대역 대역폭 상한 사이의 대역에서 제한되는 적어도 하나의 상보적인 신호의 합을 포함하는 것인 방법.
  12. 제 1항 내지 4항 중 어느 한 항에 있어서, 상기 단계들의 적어도 하나는 켑스트럴 도메인에서 수행되는 것인 방법.
  13. 제 1항 내지 4항 중 어느 한 항에 있어서, 상기 단계 (a) 내지 (c)는 미리 결정된 시간 간격에서 반복되는 것인 방법.
  14. 제 1항 내지 4항 중 어느 한 항에 있어서, 상기 단계 (a) 내지 (c)는 음성 활동과 같이 원하는 신호 성분이 상기 수신된 음성 신호에서 검출되는 경우에만 반복되는 것인 방법.
  15. 제 1항 내지 4항 중 어느 한 항에 따른 방법을 수행하기 위한 컴퓨터-실행가능한 명령어를 갖는 컴퓨터 판독가능한 기록 매체.
  16. 수신된 음향 신호의 현재의 대역폭 상한 및 현재의 대역폭 하한을 자동으로 결정하기 위한 대역폭 결정 수단,
    적어도 하나의 상보적인 신호를 자동으로 결정하여, 미리 규정된 광대역 대역폭 하한과 상기 현재의 대역폭 하한 사이 및/또는 상기 현재의 대역폭 상한과 미 리 규정된 광대역 대역폭 상한 사이의 상기 수신된 음향 신호를 보충하기 위한 수단으로서, 상기 미리 규정된 광대역 대역폭 하한은 상기 현재의 대역폭 한계보다 작고, 상기 미리 규정된 광대역 대역폭 상한은 상기 현재의 대역폭 한계보다 큰 것인, 상기 수신된 음향 신호를 보충하기 위한 보충의 신호 수단,
    상기 적어도 하나의 상보적인 신호와 상기 수신된 음향 신호를 자동으로 어셈블링하여 확장된 대역폭을 갖는 음향 신호를 언기 위한 어셈블링 수단,
    을 포함하는 것인 확장된 대역폭을 갖는 음향 신호를 제공하기 위한 장치.
  17. 제 16항에 있어서, 스펙트럼 엔빌로프 신호와 여기 신호의 곱이 미리 정해진 표준에 따른 수신된 음향 신호에 대응하도록, 상기 상보적인 신호 수단은 광대역 대역폭의 상한과 하한 사이의 광대역 스펙트럼 엔빌로프 신호와 광대역 여기 신호를 결정하기 위한 수단을 포함하는 것인 장치.
  18. 제 17항에 있어서, 상기 대역폭 결정 수단은 미리 정해진 광대역 스펙트럼 엔빌로프 신호와 상기 수신된 음향 신호의 롱-텀 파워 스펙트럼을 비교하도록 구성되는 것인 장치.
  19. 제 18항에 있어서, 상기 대역폭 결정 수단은 롱-텀 파워 스팩트럼이 결정된 광대역 스펙트럼 엔빌로프 신호의 파워 스펙트럼과 미리 계산된 상수의 합보다 더 크거나 동일한 최소 및 최대의 주파수를 선택하도록 구성되는 것인 장치.
  20. 제 17항 내지 19항 중 어느 한 항에 있어서, 상기 광대역 스펙트럼 엔빌로프 신호를 결정하기 위한 수단은 미리 결정된 범주에 따라 코드북으로부터 엔빌로프 신호를 선택하기 위한 수단을 포함하는 것인 장치.
  21. 제 20항에 있어서, 상기 엔빌로프 신호를 선택하기 위한 수단은 상기 수신된 음향 신호를 등화하고, 특히 최소 켑스트럴 거리를 갖는 미리 계산된 거리 범주에 따라 상기 최소 거리를 갖는 코드북으로부터 상기 등화된 음향 신호에서 엔빌로프 신호를 선택하도록 구성되는 것인 장치.
  22. 제 21항에 있어서, 상기 코드북은 대응하는 엔빌로프 신호의 쌍들을 포함할 수 있고, 각각의 쌍은 광대역 대역폭의 상한과 하한 사이의 광대역 엔빌로프 신호와 상기 광대역 대역폭 하한보다 큰 협대역 대역폭 하한과 상기 광대역 대역폭 상한보다 작은 협대역 대역폭 상한 사이의 대응하는 협대역 대역폭 한계를 포함하고, 엔빌로프 신호를 선택하기 위한 수단은 상기 미리 계산된 거리 표준에 따라 등화된 음향 신호에서 최소의 거리를 갖는 협대역 엔빌로프 신호를 결정하고 상기 쌍의 대응하는 광대역 엔빌로프 신호를 선택하도록 구성되는 것인 장치.
  23. 제 22항에 있어서, 상기 광대역 스펙트럼 엔빌로프 신호를 결정하기 위한 수단은 상기 현재의 대역폭 상한 및 하한에 적응되는 적응된 협대역 코드북 엔빌로프 신호를 제공하기 위한 신호를 포함하는 것인 장치.
  24. 제 23항에 있어서, 상기 제공 수단은 상기 수신된 음향 신호의 롱-텀 파워 스펙트럼을 이용하여 상기 광대역 코드북 엔빌로프 신호를 처리하도록 구성되는 것인 장치.
  25. 제 17항 내지 19항 중 어느 한 항에 있어서, 광대역 여기 신호를 결정하기 위한 수단은 예측 에러 필터링 및/또는 비선형 특징에 기초한 상기 광대역 여기 신호를 결정하도록 구성되는 것인 장치.
  26. 제 17항 내지 19항 중 어느 한 항에 있어서, 상기 적어도 하나의 상보적인 신호는 상기 결정된 광대역 스펙트럼 엔빌로프와 상기 결정된 광대역 여기 신호의 곱에 기초할 수 있고, 상기 어셈블링 수단은 상기 광대역 대역폭 하한과 현재의 대역폭 하한 사이의 대역 및/또는 상기 현재의 대역폭 상한과 상기 광대역 대역폭 상한 사이의 대역에서 제한되는 적어도 하나의 상보적인 신호를 더하도록 구성되는 것인 장치.
  27. 제 16항 내지 19항 중 어느 한 항에 있어서, 상기 수단들 중 적어도 하나는 켑스트럴 도메인에서 그 기능 중 적어도 일부를 수행하도록 구성되는 것인 장치.
  28. 제 16항 내지 19항 중 어느 한 항에 있어서, 상기 수단은 미리 결정된 시간 간격에서 상기 수단들 각각의 기능을 수행하도록 구성되는 것인 장치.
  29. 제 16항 내지 19항 중 어느 한 항에 있어서, 상기 장치는 원하는 신호 검출기, 특히 음성 검출기를 더 포함할 수 있고, 상기 수단은 단지 원하는 신호 성분이 상기 수신된 음향 신호에서 검출되는 경우에만 그들 각각의 기능을 수행하도록 구성되는 것인 장치.
KR1020070084306A 2006-08-22 2007-08-22 음향 신호에 확장된 대역폭을 제공하기 위한 방법 및시스템 KR101433833B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP06017456A EP1892703B1 (en) 2006-08-22 2006-08-22 Method and system for providing an acoustic signal with extended bandwidth
EP06017456.2 2006-08-22

Publications (2)

Publication Number Publication Date
KR20080018132A KR20080018132A (ko) 2008-02-27
KR101433833B1 true KR101433833B1 (ko) 2014-08-27

Family

ID=37000103

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070084306A KR101433833B1 (ko) 2006-08-22 2007-08-22 음향 신호에 확장된 대역폭을 제공하기 위한 방법 및시스템

Country Status (7)

Country Link
EP (1) EP1892703B1 (ko)
JP (1) JP5150165B2 (ko)
KR (1) KR101433833B1 (ko)
CN (1) CN101141533B (ko)
AT (1) ATE446572T1 (ko)
CA (1) CA2596411A1 (ko)
DE (1) DE602006009927D1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200029260A (ko) * 2018-09-10 2020-03-18 한국과학기술연구원 음원 분리 장치 및 방법

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688441B2 (en) 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8463412B2 (en) 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
JP2010079275A (ja) * 2008-08-29 2010-04-08 Sony Corp 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
US8463599B2 (en) 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP5535241B2 (ja) * 2009-12-28 2014-07-02 三菱電機株式会社 音声信号復元装置および音声信号復元方法
US20130024191A1 (en) * 2010-04-12 2013-01-24 Freescale Semiconductor, Inc. Audio communication device, method for outputting an audio signal, and communication system
ES2659001T3 (es) * 2013-01-29 2018-03-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificadores de audio, decodificadores de audio, sistemas, métodos y programas informáticos que utilizan una resolución temporal aumentada en la proximidad temporal de inicios o finales de fricativos o africados
KR20180056032A (ko) 2016-11-18 2018-05-28 삼성전자주식회사 신호 처리 프로세서 및 신호 처리 프로세서의 제어 방법
CN107404625B (zh) * 2017-07-18 2020-10-16 海信视像科技股份有限公司 终端的音效处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002171588A (ja) 2000-11-30 2002-06-14 Kenwood Corp 信号補間装置、信号補間方法及び記録媒体
WO2005055645A1 (en) 2003-12-01 2005-06-16 Koninklijke Philips Electronics N.V. Selective audio signal enhancement
JP2006085176A (ja) 2004-09-17 2006-03-30 Harman Becker Automotive Systems Gmbh 帯域制限オーディオ信号の帯域拡大

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3483958B2 (ja) * 1994-10-28 2004-01-06 三菱電機株式会社 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法
US6236970B1 (en) 1997-04-30 2001-05-22 Nippon Hoso Kyokai Adaptive speech rate conversion without extension of input data duration, using speech interval detection
US6539355B1 (en) * 1998-10-15 2003-03-25 Sony Corporation Signal band expanding method and apparatus and signal synthesis method and apparatus
US6836739B2 (en) 2000-06-14 2004-12-28 Kabushiki Kaisha Kenwood Frequency interpolating device and frequency interpolating method
US6889182B2 (en) 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
JP4012506B2 (ja) * 2001-08-24 2007-11-21 株式会社ケンウッド 信号の周波数成分を適応的に補間するための装置および方法
KR20040035749A (ko) * 2001-08-31 2004-04-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 사운드 신호의 대역폭 확장 방법
JP4281349B2 (ja) * 2001-12-25 2009-06-17 パナソニック株式会社 電話装置
WO2005078707A1 (en) * 2004-02-16 2005-08-25 Koninklijke Philips Electronics N.V. A transcoder and method of transcoding therefore

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002171588A (ja) 2000-11-30 2002-06-14 Kenwood Corp 信号補間装置、信号補間方法及び記録媒体
WO2005055645A1 (en) 2003-12-01 2005-06-16 Koninklijke Philips Electronics N.V. Selective audio signal enhancement
JP2006085176A (ja) 2004-09-17 2006-03-30 Harman Becker Automotive Systems Gmbh 帯域制限オーディオ信号の帯域拡大

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200029260A (ko) * 2018-09-10 2020-03-18 한국과학기술연구원 음원 분리 장치 및 방법
KR102093819B1 (ko) * 2018-09-10 2020-03-26 한국과학기술연구원 음원 분리 장치 및 방법

Also Published As

Publication number Publication date
JP2008052277A (ja) 2008-03-06
EP1892703B1 (en) 2009-10-21
DE602006009927D1 (de) 2009-12-03
JP5150165B2 (ja) 2013-02-20
ATE446572T1 (de) 2009-11-15
EP1892703A1 (en) 2008-02-27
KR20080018132A (ko) 2008-02-27
CN101141533A (zh) 2008-03-12
CN101141533B (zh) 2013-09-04
CA2596411A1 (en) 2008-02-22

Similar Documents

Publication Publication Date Title
KR101433833B1 (ko) 음향 신호에 확장된 대역폭을 제공하기 위한 방법 및시스템
US5706394A (en) Telecommunications speech signal improvement by reduction of residual noise
CA2210490C (en) Spectral subtraction noise suppression method
EP1772855B1 (en) Method for extending the spectral bandwidth of a speech signal
KR101461774B1 (ko) 대역폭 확장기
AU656787B2 (en) Auditory model for parametrization of speech
US5706395A (en) Adaptive weiner filtering using a dynamic suppression factor
US8706497B2 (en) Speech signal restoration device and speech signal restoration method
US7035797B2 (en) Data-driven filtering of cepstral time trajectories for robust speech recognition
US6263307B1 (en) Adaptive weiner filtering using line spectral frequencies
KR101207670B1 (ko) 대역 제한 오디오 신호의 대역폭 확장
US8392184B2 (en) Filtering of beamformed speech signals
KR101424005B1 (ko) 음향 신호에 확장된 대역폭을 제공하는 방법 및 장치
CA2192397C (en) Method and system for performing speech recognition
US6996524B2 (en) Speech enhancement device
Puder Kalman‐filters in subbands for noise reduction with enhanced pitch‐adaptive speech model estimation
JP6333043B2 (ja) 音声信号処理装置
EP1944761A1 (en) Disturbance reduction in digital signal processing
CN115527550A (zh) 一种单麦克风子带域降噪方法及系统
Esch et al. An information theoretic view on Artificial Bandwidth Extension in noisy environments
Yu et al. An algorithm for finding line spectrum frequencies of added speech signals and its application to robust speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170809

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180808

Year of fee payment: 5