KR20130031849A - 대역폭 확장기 - Google Patents

대역폭 확장기 Download PDF

Info

Publication number
KR20130031849A
KR20130031849A KR1020127033422A KR20127033422A KR20130031849A KR 20130031849 A KR20130031849 A KR 20130031849A KR 1020127033422 A KR1020127033422 A KR 1020127033422A KR 20127033422 A KR20127033422 A KR 20127033422A KR 20130031849 A KR20130031849 A KR 20130031849A
Authority
KR
South Korea
Prior art keywords
audio signal
signal
subband
filter
feature vector
Prior art date
Application number
KR1020127033422A
Other languages
English (en)
Other versions
KR101461774B1 (ko
Inventor
빌 미카엘 밀릴라
로라 라크소넨
하누 주하니 풀라카
파보 일마리 알쿠
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=45003396&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20130031849(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20130031849A publication Critical patent/KR20130031849A/ko
Application granted granted Critical
Publication of KR101461774B1 publication Critical patent/KR101461774B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 신호의 대역폭을 확장하기 위한 장치로서, 상기 장치는 복수의 주파수 성분들을 포함하는 오디오 신호로부터 여기 신호를 생성하고; 상기 오디오 신호로부터 적어도 하나의 주파수 도메인 성분 특징 및 적어도 하나의 시간 도메인 성분 특징을 구비한 특징 벡터를 추출하고; 상기 특징 벡터로부터 다른 복수의 주파수 성분들에 속하는 주파수 성분들을 포함하는 부 대역 신호에 대응하는 적어도 하나의 스펙트럼 형상 파라미터를 결정하며; 필터 뱅크를 통해 상기 여기 신호를 필터링하며 상기 필터링된 여기 신호를 상기 적어도 하나의 스펙트럼 형상 파라미터로 가중함으로써 상기 부 대역 신호를 생성하도록 구성된다.

Description

대역폭 확장기{A BANDWIDTH EXTENDER}
본 발명은 오디오 신호의 품질을 향상시키기 위한 장치 및 방법에 관한 것이다. 특히, 본 발명은 오디오 신호의 대역폭을 확장시키기 위한 장치 및 방법에 관한 것이다.
말이나 음악과 같은 오디오 신호는 오디오 신호의 효율적인 전송 또는 저장을 가능하게 하기 위해 부호화될 수 있다.
오디오 신호는 전송 시스템이나 저장 매체의 가용 용량에 따라 통상적으로 결정되는 대역폭에 한정될 수 있다. 그러나, 일부 경우에는 오디오 신호가 원래 부호화되었던 대역폭보다 높은 대역폭으로 복호화된 오디오 신호를 인식하는 것이 바람직할 수 있다. 이러한 경우에, 인위적 대역폭 확장이 디코더에서 사용될 수 있으며, 그에 의해 복호화된 오디오 신호의 대역폭은 오직 복호화된 오디오 신호 자체로부터 결정된 정보를 이용함으로써 확장될 수 있다.
인위적 대역폭 확장의 응용의 그러한 예가 모바일 통신의 영역에 존재할 수 있다. 통상적으로, GSM(Global System for Mobile Communications)과 같은 모바일 통신 시스템에서, 음성 신호는 4kHz 미만의 대역폭, 즉 협대역 음성 신호로 제한될 수 있다. 그러나, 자연적으로 발생되는 음성은 10kHz에 이르는 상당한 주파수 성분들을 포함할 수 있다. 추가적인 더 높은 주파수들은 음성 신호의 전반적 품질 및 명료성에 기여하며, 등가적인 협대역 신호와 비교할 때 보다 분명하며 밝은 사운드를 발생시킬 수 있다.
인위적 대역폭 확장에 의한 협대역 음성의 품질 및 명료성을 향상시키기 위한 기존의 방법들은 추가적 고주파 성분들을 생성하기 위한 코드북을 적절히 이용할 수 있다. 코드북은 다양한 스펙트럼 특성들의 주파수 벡터들을 포함할 수 있으며, 그 주파수 벡터들 전체는 대응 주파수대의 범위를 커버한다. 최적 벡터를 선택하며 그것에 수신된 복호화 신호로부터의 스펙트럼 성분들을 추가함으로써 주파수 범위가 프레임 단위로 확장될 수 있다.
추가적인 인위적 대역폭 확장 방법들은 보다 높은 주파수 성분들에서 수신 신호의 앨리어스(alias) 사본들을 생성하기 위해 상향 샘플링 기법을 이용할 수 있다. 그런 다음, 음성 신호의 대표적 보다 높은 주파수들을 생성하기 위해, 앨리어싱된 주파수 성분들의 크기나 에너지 레벨들이 조정될 수 있다.
그러나, 인위적 대역폭 확장의 기존 방법들은 열악한 품질과 비효율성이라는 문제를 겪을 수 있다.
예를 들어, 인위적 대역폭 확장의 일부 방법들은 상위 대역 포락선을 결정하기 위해 그들의 발성 콘텐츠별로 입력 음성 프레임들을 분류하는 시스템을 채택할 수 있다. 그러면 그 포락선은 하위 주파수들의 앨리어싱을 통해 생성되는 주파수 스펙트럼을 형상화하는데 사용될 수 있다.
그러나, 이러한 접근방식을 이용하여 생성되는 상위 대역들이 항상 자연스러운 것은 아닐 수 있다. 이것은 부분적으로 음성 신호 안에서 서로 다른 음소들 사이의 전환이 당연히 완만하다는 사실에 기인할 수 있다. 반면 음소 등을 분류하는 시스템을 이용하는 것은 결정 경계에 불연속성을 도입하는 결과를 가질 수 있다.
입력 음성 프레임들의 부정확한 분류 및 높은 대역 스펙트럼 형태의 부적절한 추정과 같은 다른 요인들이 역시 상기 인위적 대역폭 확장 접근방식을 이용하여 부자연스러운 사운드에 기여할 수 있다.
본 발명은 기존의 인위적 대역폭 확장 방식들이 확장 오디오 신호의 전반적인 인지 자연스러움에 대한 저하를 가져올 수 있다는 고려로부터 기인한다. 이러한 저하는 특히 치찰음에 대한 전반적 인지에 있어 일반적일 수 있다.
실시예들은 상기 문제의 처리를 목적으로 한다.
일부 실시예들의 제1양태에 따라, 오디오 신호로부터 여기 신호를 생성하되, 오디오 신호는 복수의 주파수 성분을 포함하는 단계, 오디오 신호로부터 특징 벡터를 추출하되, 특징 벡터는 적어도 하나의 주파수 도메인 성분 특징 및 적어도 하나의 시간 도메인 성분 특징을 구비하는 단계, 특징 벡터로부터 적어도 하나의 스펙트럼 형상 파라미터를 결정하되, 적어도 하나의 스펙트럼 형상 파라미터는 또 다른 복수의 주파수 성분에 속하는 주파수 성분을 포함하는 부 대역 신호에 대응하는 단계, 및 필터 뱅크를 통해 여기 신호를 필터링하며 필터링된 여기 신호를 상기 적어도 하나의 스펙트럼 형상 파라미터로 가중함으로써 부 대역 신호를 생성하는 단계를 포함하는 방법이 제공된다.
일 실시예에 따라, 방법은 여기 신호를 생성할 때 오디오 신호를 역 선형 예측 필터를 이용하여 필터링함으로써 잔여 신호를 생성하는 단계; 선형 예측 필터에 기반하는 자동 역행 이동 평균 필터를 포함하는 포스트 필터단을 이용하여 잔여 신호를 필터링하는 단계; 및 포스트 필터단으로부터의 출력을 상향 샘플링하며 스펙트럼적으로 폴딩함으로써 여기 신호를 생성하는 단계를 포함할 수 있다.
상기 포스트 필터단은 스펙트럼 틸트 필터 및 고조파 필터를 더 포함할 수 있다.
부 대역 신호의 주파수 성분들은 복수의 중복 대역들을 포함하는 음향심리적 스케일에 따라 분포될 수 있으며, 필터 뱅크의 주파수 특성들은 부 대역 신호의 주파수 성분들의 분포에 대응할 수 있다.
중복 대역들은 멜 스케일에 따라 분포될 수 있으며, 부 대역 신호는 삼각 마스킹 함수를 이용하여 마스킹될 수 있다.
대안적으로, 중복 대역들은 멜 스케일에 따라 분포될 수 있으며, 부 대역 신호는 사다리꼴 마스킹 함수를 이용하여 마스킹될 수 있다.
상기 특징 벡터로부터 적어도 하나의 스펙트럼 형상 파라미터를 결정하는 단계는 특징 벡터로부터 적어도 하나의 스펙트럼 형상을 결정하기 위해 신경망을 이용하는 단계를 포함할 수 있고, 오디오 신호로부터 추출된 특징 벡터는 신경망에 대한 입력 타깃 벡터를 형성할 수 있으며, 신경망은 입력 타깃 벡터에 부 대역 스펙트럼 형상 파라미터를 제공하도록 트레이닝될 수 있다.
상기 스펙트럼 형상 파라미터는 부 대역 에너지 레벨 값일 수 있다.
상기 스펙트럼 형상 파라미터는 부 대역 에너지 레벨 값에 기반하는 부 대역 이득 계수일 수 있다.
상기 부 대역 에너지 레벨 값은 오디오 신호의 전력이 오디오 신호의 잡음 레벨 추정치에 접근할 때 감쇠될 수 있다.
상기 특징 벡터의 적어도 하나의 주파수 도메인 성분 특징은 각각 오디오 신호의 중복 대역의 에너지에 대응하는 오디오 신호의 복수의 에너지 레벨들의 그룹; 오디오 신호의 주파수 도메인 스펙트럼의 중심을 나타내는 값; 및 주파수 도메인 스펙트럼의 평탄도를 나타내는 값 중 적어도 하나를 포함할 수 있다.
상기 특징 벡터의 적어도 하나의 시간 도메인 성분 특징은 오디오 신호의 파형 방향의 변화를 가져오는 오디오 신호 내 지점들에서의 그래디언트(gradient)의 합에 기반하는 그래디언트 인덱스; 오디오 신호의 프레임의 에너지와 오디오 신호의 이전 프레임의 에너지의 비율; 및 오디오 신호의 프레임이 활성 또는 비활성으로 분류되는지의 여부를 나타내는 음성 활동 검출기 중 적어도 하나를 포함할 수 있다.
상기 방법은 대역폭 확장 오디오 신호를 제공하기 위해 부 대역 신호를 오디오 신호와 결합하는 단계를 더 포함할 수 있다.
일부 실시예들의 제2양태에 따라 제공되는 장치는 적어도 하나의 프로세서, 및 컴퓨터 코드를 포함하는 적어도 하나의 메모리를 포함하며, 적어도 하나의 메모리 및 컴퓨터 코드는 적어도 하나의 프로세서를 사용하여 장치가 적어도 복수의 주파수 성분들을 포함하는 오디오 신호로부터 여기 신호를 생성하는 것; 오디오 신호로부터 적어도 하나의 주파수 도메인 성분 특징 및 적어도 하나의 시간 도메인 성분 특징을 구비한 특징 벡터를 추출하는 것; 특징 벡터로부터 또 다른 복수의 주파수 성분들에 속하는 주파수 성분들을 포함하는 부 대역 신호에 대응하는 적어도 하나의 스펙트럼 형상 파라미터를 결정하는 것; 필터 뱅크를 통해 여기 신호를 필터링하고 필터링된 여기 신호를 적어도 하나의 스펙트럼 형상 파라미터로 가중함으로써 부 대역 신호를 생성하는 것을 수행하게 하도록 구성된다.
일 실시예에 따른 장치는 적어도 하나의 메모리 및 컴퓨터 코드가 적어도 하나의 프로세서를 사용하여 장치가 적어도 여기 신호를 생성하는 일을 수행하게 하도록 구성될 때 오디오 신호를 역 선형 예측 필터를 이용하여 필터링함으로써 잔여 신호를 생성하는 것; 선형 예측 필터에 기반하는 자동 역행 이동 평균 필터를 포함하는 포스트 필터단을 이용하여 잔여 신호를 필터링하는 것; 포스트 필터단으로부터의 출력을 상향 샘플링하며 스펙트럼적으로 폴딩함으로써 여기 신호를 생성하는 것을 수행하도록 더 구성될 수 있다.
상기 포스트 필터단은 스펙트럼 틸트 필터 및 고조파 필터를 더 포함할 수 있다.
부 대역 신호의 주파수 성분들은 복수의 중복 대역들을 포함하는 음향심리적 스케일에 따라 분포될 수 있으며, 필터 뱅크의 주파수 특성들은 부 대역 신호의 주파수 성분들의 분포에 대응할 수 있다.
중복 대역들은 멜 스케일에 따라 분포될 수 있으며, 부 대역 신호는 삼각 마스킹 함수를 이용하여 마스킹될 수 있다.
대안적으로, 중복 대역들은 멜 스케일에 따라 분포될 수 있으며, 부 대역 신호는 사다리꼴 마스킹 함수를 이용하여 마스킹될 수 있다.
상기 적어도 하나의 프로세서를 이용하여 장치가 적어도 특징 벡터로부터 적어도 하나의 스펙트럼 형상 파라미터를 결정하는 일을 수행하게 유도하도록 구성되는 적어도 하나의 메모리 및 컴퓨터 코드는 특징 벡터로부터 적어도 하나의 스펙트럼 형상을 결정하기 위해 신경망을 이용하는 일을 수행하도록 더 구성될 수 있고, 오디오 신호로부터 추출된 특징 벡터는 신경망에 대한 입력 타깃 벡터를 형성하며, 신경망은 입력 타깃 벡터에 부 대역 스펙트럼 형상 파라미터를 제공하도록 트레이닝된다.
상기 스펙트럼 형상 파라미터는 부 대역 에너지 레벨 값일 수 있다.
상기 스펙트럼 형상 파라미터는 부 대역 에너지 레벨 값에 기반하는 부 대역 이득 계수일 수 있다.
상기 부 대역 에너지 레벨 값은 오디오 신호의 전력이 오디오 신호의 잡음 레벨 추정치에 접근할 때 감쇠될 수 있다.
상기 특징 벡터의 적어도 하나의 주파수 도메인 성분 특징은 각각 오디오 신호의 중복 대역의 에너지에 대응하는 오디오 신호의 복수의 에너지 레벨들의 그룹; 오디오 신호의 주파수 도메인 스펙트럼의 중심을 나타내는 값; 및 주파수 도메인 스펙트럼의 평탄도를 나타내는 값 중 적어도 하나를 포함할 수 있다.
상기 특징 벡터의 적어도 하나의 시간 도메인 성분 특징은 오디오 신호의 파형 방향의 변화를 가져오는 오디오 신호 내 지점들에서의 그래디언트(gradient)의 합에 기반하는 그래디언트 인덱스; 오디오 신호의 프레임의 에너지와 오디오 신호의 이전 프레임의 에너지의 비율; 및 오디오 신호의 프레임이 활성 또는 비활성으로 분류되는지의 여부를 나타내는 음성 활동 검출기 중 적어도 하나를 포함할 수 있다.
상기 적어도 하나의 메모리 및 컴퓨터 코드는 대역폭 확장 오디오 신호를 제공하기 위해 부 대역 신호를 오디오 신호와 결합하는 것을 수행하도록 더 구성된다.
일부 실시예들의 제3양태에 따라, 소프트웨어 코드가 컴퓨터 판독 가능 매체 내에 저장되는 컴퓨터 프로그램 제품에서, 코드는 프로세서에 의해 실행될 때, 복수의 주파수 성분들을 포함하는 오디오 신호로부터 여기 신호를 생성하는 것; 오디오 신호로부터 적어도 하나의 주파수 도메인 성분 특징 및 적어도 하나의 시간 도메인 성분 특징을 구비한 특징 벡터를 추출하는 것; 특징 벡터로부터 또 다른 복수의 주파수 성분들에 속하는 주파수 성분들을 포함하는 부 대역 신호에 대응하는 적어도 하나의 스펙트럼 형상 파라미터를 결정하는 것; 및 필터 뱅크를 통해 여기 신호를 필터링하고 필터링된 여기 신호를 적어도 하나의 스펙트럼 형상 파라미터로 가중함으로써 부 대역 신호를 생성하는 것을 실현한다.
일 실시예에 따라, 컴퓨터 프로그램 제품에서, 코드가 프로세서에 의해 실행시 여기 신호를 생성할 때 코드는 오디오 신호를 역 선형 예측 필터를 이용하여 필터링함으로써 잔여 신호를 생성하는 것; 선형 예측 필터에 기반하는 자동 역행 이동 평균 필터를 포함하는 포스트 필터단을 이용하여 잔여 신호를 필터링하는 것; 및 포스트 필터단으로부터의 출력을 상향 샘플링하고 스펙트럼적으로 폴딩함으로써 여기 신호를 생성하는 것을 더 실현할 수 있다.
상기 포스트 필터단은 스펙트럼 틸트(tilt) 필터 및 고조파 필터를 더 포함할 수 있다.
부 대역 신호의 주파수 성분들은 복수의 중복 대역들을 포함하는 음향심리적 스케일에 따라 분포될 수 있으며, 필터 뱅크의 주파수 특성들은 부 대역 신호의 주파수 성분들의 분포에 대응할 수 있다.
중복 대역들은 멜 스케일(mel scale)에 따라 분포될 수 있으며, 부 대역 신호는 삼각 마스킹 함수를 이용하여 마스킹될 수 있다.
대안적으로, 중복 대역들은 멜 스케일(mel scale)에 따라 분포될 수 있으며, 부 대역 신호는 사다리꼴 마스킹 함수를 이용하여 마스킹될 수 있다.
프로세서에 의해 실행 시 특징 벡터로부터 적어도 하나의 스펙트럼 형상 파라미터를 결정하는 것을 실현하는 코드는 특징 벡터로부터 적어도 하나의 스펙트럼 형상을 결정하기 위해 신경망을 이용하는 것을 더 구현할 수 있고, 오디오 신호로부터 추출된 특징 벡터는 신경망에 대한 입력 타깃 벡터를 형성할 수 있으며, 신경망은 입력 타깃 벡터에 부 대역 스펙트럼 형상 파라미터를 제공하도록 트레이닝될 수 있다.
상기 스펙트럼 형상 파라미터는 부 대역 에너지 레벨 값일 수 있다.
상기 스펙트럼 형상 파라미터는 부 대역 에너지 레벨 값에 기반하는 부 대역 이득 계수일 수 있다.
상기 부 대역 에너지 레벨 값은 오디오 신호의 전력이 오디오 신호의 잡음 레벨 추정치에 접근할 때 감쇠될 수 있다.
상기 특징 벡터의 적어도 하나의 주파수 도메인 성분 특징은 각각 오디오 신호의 중복 대역의 에너지에 대응하는 오디오 신호의 복수의 에너지 레벨들의 그룹; 오디오 신호의 주파수 도메인 스펙트럼의 중심을 나타내는 값; 및 주파수 도메인 스펙트럼의 평탄도를 나타내는 값 중 적어도 하나를 포함할 수 있다.
상기 특징 벡터의 적어도 하나의 시간 도메인 성분 특징은 오디오 신호의 파형 방향의 변화를 가져오는 오디오 신호 내 지점들에서의 그래디언트의 합에 기반하는 그래디언트 인덱스; 오디오 신호의 프레임의 에너지와 오디오 신호의 이전 프레임의 에너지의 비율; 및 오디오 신호의 프레임이 활성 또는 비활성으로 분류되는지의 여부를 나타내는 음성 활동 검출기 중 적어도 하나를 포함할 수 있다.
상기 코드는 대역폭 확장 오디오 신호를 제공하기 위해 부 대역 신호를 오디오 신호와 결합하는 단계를 더 구현할 수 있다.
일부 실시예들의 제4양태에 따라, 복수의 주파수 성분들을 포함하는 오디오 신호로부터 여기 신호를 생성하도록 구성된 여기 신호 생성기; 오디오 신호로부터 적어도 하나의 주파수 도메인 성분 특징 및 적어도 하나의 시간 도메인 성분 특징을 구비한 특징 벡터를 추출하도록 구성된 특성 추출기; 또 다른 복수의 주파수 성분들에 속하는 주파수 성분들을 포함하는 부 대역 신호에 대응하는 적어도 하나의 스펙트럼 형상 파라미터를 특징 벡터로부터 결정하도록 구성된 스펙트럼 파라미터 결정기; 및 여기 신호를 필터링하고 필터링된 여기 신호를 적어도 하나의 스펙트럼 형상 파라미터를 사용하여 가중함으로써 부 대역 신호를 생성하도록 구성된 필터 뱅크를 포함하는 장치가 제공된다.
상기 여기 신호 생성기는 오디오 신호를 필터링함으로써 잔여 신호를 생성하도록 구성된 역 선형 예측 필터; 잔여 신호를 필터링하도록 구성되고 선형 예측 필터에 종속되는 자동 역행 이동 평균 필터를 포함하는 포스트 필터단; 및 포스트 필터단으로부터의 출력을 상향 샘플링하며 스펙트럼적으로 폴딩함으로써 여기 신호를 생성하도록 구성된 상향 샘플러를 포함할 수 있다.
상기 포스트 필터단은 스펙트럼 틸트 필터 및 고조파 필터를 더 포함할 수 있다.
부 대역 신호의 주파수 성분들은 복수의 중복 대역들을 포함하는 음향심리적 스케일에 따라 분포될 수 있으며, 필터 뱅크의 주파수 특성들은 부 대역 신호의 주파수 성분들의 분포에 대응할 수 있다.
중복 대역들은 멜 스케일(mel scale)에 따라 분포될 수 있으며, 부 대역 신호는 삼각 마스킹 함수 및 사다리꼴 마스킹 함수 중 적어도 하나를 이용하여 마스킹될 수 있다.
상기 스펙트럼 파라미터 결정기는 특징 벡터로부터 적어도 하나의 스펙트럼 형상을 결정하도록 구성된 신경망을 포함할 수 있고, 오디오 신호로부터 추출된 특징 벡터는 신경망에 대한 입력 타깃 벡터를 형성하며, 신경망은 입력 타깃 벡터에 부 대역 스펙트럼 형상 파라미터를 제공하도록 트레이닝된다.
상기 스펙트럼 형상 파라미터는 부 대역 에너지 레벨 값일 수 있다.
상기 스펙트럼 형상 파라미터는 부 대역 에너지 레벨 값에 기반하는 부 대역 이득 계수일 수 있다.
상기 필터 뱅크는 오디오 신호의 전력이 오디오 신호의 잡음 레벨 추정치에 접근할 때 부 대역 에너지 레벨 값을 감쇠시키도록 구성되는 감쇠기를 포함할 수 있다.
상기 특징 벡터의 적어도 하나의 주파수 도메인 성분 특징은 각각이 오디오 신호의 중복 대역의 에너지에 대응하는 오디오 신호의 복수의 에너지 레벨들의 그룹; 오디오 신호의 주파수 도메인 스펙트럼의 중심을 나타내는 값; 및 주파수 도메인 스펙트럼의 평탄도를 나타내는 값 중 적어도 하나를 포함할 수 있다.
상기 특징 벡터의 적어도 하나의 시간 도메인 성분 특징은 오디오 신호의 파형 방향의 변화를 가져오는 오디오 신호 내 지점들에서의 그래디언트(gradient)의 합에 기반하는 그래디언트 인덱스; 오디오 신호의 프레임의 에너지와 오디오 신호의 이전 프레임의 에너지의 비율; 및 오디오 신호의 프레임이 활성 또는 비활성으로 분류되는지의 여부를 나타내는 음성 활동 검출기 중 적어도 하나를 포함할 수 있다.
상기 장치는 대역폭 확장 오디오 신호를 제공하기 위해 부 대역 신호를 오디오 신호와 결합하도록 구성된 신호 결합기를 더 포함할 수 있다.
전자 기기는 상술한 바와 같은 장치를 포함할 수 있다.
칩셋은 상술한 바와 같은 장치를 포함할 수 있다.
본 발명에 대해 보다 잘 이해하기 위해서, 이제부터 예로서 첨부 도면에 대한 참조가 이루어질 것이다.
도 1은 본 발명의 실시예들을 이용하는 전자 기기를 개략적으로 도시한다.
도 2는 본 발명의 실시예들을 이용하는 디코더 시스템을 개략적으로 도시한다.
도 3은 본 발명의 제1실시예를 활용하는 디코더를 개략적으로 도시한다.
도 4는 본 발명의 일부 실시예들에 따른 대역폭 확장기를 개략적으로 도시한다.
도 5는 특성 추출을 촉진하기 위해 대역폭 확장기의 입력 오디오 신호에 임계 대역들 및 청각적 마스킹의 특성을 적용하는 것의 이점들을 도시한다.
도 6은 인위적으로 대역폭 확장된 신호의 생성을 촉진하기 위해 임계 대역들을 적용하는 것의 이점들을 도시한다.
도 7은 부 대역들이 임계 대역들에 의해 결정되는 필터 뱅크를 활용한 것의 이점들을 도시한다.
도 8은 본 발명의 일부 실시예들에 따른 대역폭 활장기의 동작을 예시한 흐름도를 도시한다.
도 9는 도 4에 도시된 바와 같은 대역폭 확장기의 일 실시예의 동작의 일부를 보다 상세히 예시한 흐름도이다.
도 10은 도 4에 도시된 바와 같은 대역폭 확장기의 일 실시예의 동작의 다른 일부를 보다 상세히 예시한 흐름도이다.
이하에서는 복호화된 오디오 신호의 대역폭을 인위적으로 확장하는 것을 제공하기 위한 가능한 메커니즘들을 보다 상세히 기술한다. 이와 관련하여, 본 발명의 일 실시예에 따라 코덱을 포함할 수 있는 전형적 전자 기기(10)나 장치의 개략적 블록도를 도시하는 도 1에 대한 참조가 먼저 이루어진다.
전자 기기나 장치(10)는 예컨대 무선 통신 시스템의 모바일 단말이나 사용자 기기일 수 있다. 일부 다른 실시예들에서, 장치(10)는 오디오 재생기(MP3 재생기들로도 알려진)나 미디어 재생기들(MP4 재생기들로도 알려진)과 같은 전자 기기 내의 어떤 적절한 오디오 또는 오디오-서브시스템 구성요소일 수 있다.
전자 기기(10)는 아날로그-디지털 컨버터(ADC)(14)를 거쳐 프로세서(21)에 연결되는 마이크로폰(11)을 포함한다. 프로세서(21)는 디지털-아날로그 컨버터(DAC)(32)를 거쳐 확성기(들)(33)에 더 연결된다. 프로세서(21)는 트랜시버(RX/TX)(13), 사용자 인터페이스(UI)(15) 및 메모리(22)에 더 연결된다.
프로세서(21)는 다양한 프로그램 코드들을 실행하도록 구성될 수 있다. 구현된 프로그램 코드들(23)은 오디오 디코딩 코드 또는 음성 디코딩 코드를 포함할 수 있다. 구현된 프로그램 코드들(23)은 필요할 때마다 프로세서(21)에 의해 검색되도록 예컨대 메모리(22)에 저장될 수 있다. 메모리(22)는 데이터, 예컨대 본 발명에 따라 부호화되었던 데이터를 저장하기 위한 섹션(24)을 더 제공할 수도 있을 것이다.
디코딩 코드는 본 발명의 실시예들에서 전기 기반 하드웨어나 펌웨어로 구현될 수 있다.
사용자 인터페이스(15)는 사용자가 예컨대 키패드를 통해 전자 기기(10)로 명령들을 입력하고/하거나 예컨대 디스플레이를 통해 전자 기기(10)로부터 정보를 획득하는 것을 가능하게 한다. 트랜시버(13)는 예컨대 무선 통신 네트워크를 통해 다른 전자 기기들과의 통신을 가능하게 한다.
전자 기기(10)의 구조는 많은 방식에 따라 보완 및 변형될 수 있을 것이라는 점이 또한 이해되어야 한다.
전자 기기(10)의 사용자는 일부 다른 전자 기기로 전송되어야 하거나 메모리(22)의 데이터 섹션(24)에 저장되어야 할 음성을 입력하기 위해 마이크로폰(11)을 사용할 수 있다. 이를 위해 사용자 인터페이스(15)를 통해 사용자에 의하여 대응 애플리케이션이 작동되었다. 프로세서(21)에 의해 실행될 수 있는 이러한 애플리케이션은 프로세서(21)가 메모리(22)에 저장된 인코딩 코드를 실행하게 한다.
아날로그-디지털 컨버터(14)는 입력된 아날로그 오디오 신호를 디지털 오디오 신호로 변환하고 디지털 오디오 신호를 프로세서(21)로 제공한다.
전자 기기(10)는 자신의 트랜시버(13)를 통해 다른 전자 기기로부터 상응하게 부호화된 데이터를 포함한 비트 스트림을 수신할 수 있을 것이다. 대안적으로, 부호화된 데이터는 같은 전자 기기(10)에 의해 예컨대 나중에 제공하기 위해 메모리(22)의 데이터 섹션(24)에 저장될 수 있을 것이다. 두 경우들에 있어서, 프로세서(21)는 메모리(22)에 저장된 디코딩 프로그램 코드를 실행할 수 있다. 프로세서(21)는 예컨대, 도 3 및 4를 참조하여 기술되는 바와 같은 방식으로 수신된 데이터를 복호화하고 복호화된 데이터를 디지털-아날로그 컨버터(32)로 제공한다. 디지털-아날로그 컨버터(32)는 디지털 복호화된 데이터를 아날로그 오디오 데이터로 변환하고 확성기(들)(33)을 통해 이들을 출력한다. 디코딩 프로그램 코드의 실행 역시 사용자 인터페이스(15)를 통해 사용자에 의해 호출되어 있던 애플리케이션에 의해 시작될 수 있을 것이다.
수신된 부호화된 데이터는, 확성기(들)(33)을 통한 즉각적 제공 대신에 예컨대 또 다른 전자 기기로의 전송이나 추후 제공을 가능하게 하기 위해 메모리(22)의 데이터 섹션(24)에 저장될 수도 있을 것이다.
도 3 및 4에 나타낸 개략적 구조들 및 도 8, 9, 및 10의 방법의 단계들은 전형적으로 도시된 바와 같이 도 1에 도시된 전자 기기 내에서 구현된 완전한 대역폭 확장기의 일부만을 나타낸 것임을 예상할 수 있을 것이다.
음성 및 오디오 코덱들의 일반적인 동작은 이 분야로부터 알려져 있으며, 본 발명의 실시예들의 동작에 대한 이해를 돕는 것이 아닌 그러한 코덱들의 특징은 상세히 설명되지 않는다.
애플리케이션의 실시예들이 이제 도 2 내지 10과 관련하여 보다 상세하게 기술된다.
애플리케이션의 실시예들에 의해 사용되는 것과 같은 음성 및 오디오 디코더들의 일반적 동작이 도 2에 도시된다. 일반적 디코딩 시스템(102)이 도 2에 개략적으로 개시된다. 시스템(102)은 저장 또는 미디어 채널(통신 채널로도 알려짐)(106) 및 디코더(108)를 포함할 수 있다.
디코더(108)는 비트스트림(112)을 압축해제하여 출력 오디오 신호(114)를 생성한다. 비트스트림(112)의 비트율 및 입력 신호(110)에 대한 출력 오디오 신호(114)의 품질이 코딩 시스템(102)의 성능을 규정하는 주요한 특징들이다.
도 3은 애플리케이션의 일부 실시예들에 따른 디코더(108)를 개략적으로 도시한다. 디코더(108)는 부호화된 스트림(112)이 미디어 채널(106)을 통해 수신될 수 있는 입력(302)을 포함한다. 일부 실시예들에서 입력(302)은 오디오 디코더(301)에 연결된다. 그러한 실시예들에서 오디오 디코더(301)는 미디어 또는 통신 채널로부터 부호화된 데이터를 수신하도록 구성되며, 그에 따라 수신된 데이터가 저장되고 언패킹될(unpacked) 수 있다. 그러한 실시예들에서 오디오 디코더(301)는 출력 샘플 기반 오디오 스트림(304)을 생성하기 위해 미디어 채널(106)로부터 부호화된 데이터를 복호화하도록 더 구성된다. 오디오 디코더(301)로부터 출력된 오디오 스트림은 인위적 대역폭 확장기9303)의 입력에 연결될 수 있다. 출력 대역폭 확장 오디오 신호(306)를 생성하기 위해, 대역폭 확장기(303)는 일부 실시예들에서 오디오 스트림 입력(304)의 대역폭을 확장하도록 구성될 수 있다.
대역폭 확장 오디오 신호(306)는 일부 실시예들에서 디코더(108)로부터의 출력 오디오 신호(114)를 형성할 수 있다.
일부 실시예들에서 오디오 디코더(301)는 특히 입력(302)에 의해 전달된 입력 부호화된 데이터를 복호화하도록 구성될 수 있다는 점이 이해되어야 한다. 즉, 오디오 디코더(301)에 의해 사용되는 오디오 디코딩 기술은 부호화된 데이터를 생성하는데 사용된 오디오 인코딩 기술에 의해 결정될 수 있다.
일부 실시예들에서 오디오 디코더(301)는 오디오나 음성 부호화된 데이터를 복호화하도록 구성될 수 있다는 점이 더 이해되어야 한다.
예를 들어, 일부 실시예들에서 오디오 디코더(301)는 적응적 멀티레이트(AMR) 음성 코딩 표준에 따라 부호화되었을 수 있는 음성 신호를 복호화하도록 구성될 수 있다.
AMR 코덱의 세부사항은 예컨대 3GPP TS 26.090 기술 표준에서 찾아볼 수 있다.
도 4를 참조할 때, 일부 실시예들에 따른 오디오 대역폭 확장기(303)가 보다 상세히 묘사된다.
인위적 대역폭 확장기(303)는 오디오 디코더(301)로부터 오디오 샘플 스트림 출력(304)을 수신하도록 구성될 수 있는 입력(401)을 포함한다.
대역폭 확장기(303)로 진입하는 복호화된 오디오 샘플 스트림은 저대역 신호로 간주될 수 있다는 점이 이해되어야 한다. 일부 실시예들에서 대역폭 확장기(303)는 이제 특정 특성들을 식별하기 위해 그 저대역 신호를 분석할 수 있다. 그러면 그러한 실시예들에서 식별된 특성들은 대역폭 확장 오디오 신호(306)를 생성하기 위해 이후 저대역 오디오 신호와 결합될 수 있는 고대역 오디오 신호를 생성하기 위해 사용될 수 있다.
대역폭 확장 오디오 신호의 고대역 성분은 이 실시예들에서 인코더로부터의 추가적 부차 정보에 대한 필요성 없이 형성될 수 있다는 점이 더 이해되어야 한다.
일부 실시예들에서 입력 저대역 신호는 8kHz의 샘플링 주파수를 가진 300 내지 3400Hz의 전화 대역폭을 가지도록 정해질 수 있다. 이러한 실시예들에서 대역폭 확장기(303)는 입력 오디오 신호를 16kHz의 샘플링 주파수 및 입력 주파수 대역보다 넓을 수 있는 주파수 범위를 가진 광대역 오디오 신호로 확장할 수 있다.
여기에서는 고대역이라는 용어의 사용이 대역폭 확장기(303)에 의해 생성된 것과 같은 확장된 주파수 성분들을 의미할 수 있다는 점이 이해되어야 한다.
본 발명의 이해를 돕기 위해, 대역폭 확장기(303)가 이제부터 도 8의 흐름도를 참조하여 보다 상세히 기술될 것이다.
일부 실시예들에서 오디오 대역폭 확장기(303)는 프레임 수집기(403)를 포함한다.
일부 실시예들에서 입력(401)은 프레임 수집기9403)에 연결되고, 그에 따라 입력 오디오 신호(다른 경우 오디오 샘플 스트림이라 알려짐)가 분할되어 계속적인 일련의 오디오 프레임들로 맞추어진다(collated).
일부 실시예들에서 한 프레임 안에 맞추어지는 오디오 샘플들의 개수는 입력 오디오 신호의 샘플링 주파수에 좌우될 수 있다.
예를 들어, 일부 실시예들에서 입력 오디오 신호(304)의 샘플링 주파수는 8kHz일 수 있다. 그러한 실시예들에서 프레임 수집기(403)는 입력 오디오 신호를 복수의 오디오 프레임들로 분할하도록 구성될 수 있으며, 각각의 오디오 프레임은 12ms의 시간에 걸쳐 있다. 즉, 그러한 실시예들에서 각각의 오디오 프레임은 8kHz의 샘플링 레이트에서 96 개의 오디오 샘플들을 포함한다.
게다가 프레임 수집기(403)는 일부 실시예들에서 중복 프레임들을 가지도록 구성될 수 있으며, 그에 따라 프레임이 업데이트되는 속도는 오디오 프레임의 길이보다 적다.
예를 들어 일부 실시예들에서 오디오 프레임은 프레임들 사이에 16 개의 샘플들의 중복이 있을 수 있도록 프레임 수집기(403)에 의해 10ms(80 샘플들) 마다 업데이트될 수 있다.
프레임 수집기(403)는 일부 실시예들에서 다량의 샘플링 주파수들 및 프레임 크기들로 동작할 수 있다는 것과, 대역폭 확장기(303)의 동작이 일부 실시예들에 의해 주어진 예에 한정되는 것이 아니라는 점이 이해되어야 한다.
프레임 수집기(403)에 의해 입력 오디오 샘플들을 하나의 오디오 신호 프레임(404) 안에 맞추는 단계가 도 8의 처리 단계(801)로서 보여진다.
일부 실시예들에서 인위적 대역폭 확장기(303)는 시간-주파수 변환기(405)를 포함한다.
프레임 수집기(403)로부터의 출력은 일부 실시예들에서 시간-주파수 변환기(405)로 보내질 수 있고, 그에 따라 시간 기반 오디오 신호 프레임(404)은 프레임 단위의 직교 기반 변환을 겪게 될 수 있다.
일부 실시예들에서 직교 기반 변환은 고속 푸리에 변환(FFT)으로서 구현될 수 있으며, 그에 따라 96 개의 샘플들의 시간 기반 오디오 신호 프레임(404)이 128 포인트 FFT를 이용하는 주파수 도메인으로 변환될 수 있다. 이러한 실시예들에서 128 포인트 FFT의 적용은 추가적 0 값의 샘플들로 오디오 신호 프레임(404)을 채움으로써 적용될 수 있다.
일부 실시예들에서 오디오 신호 프레임(404)을 주파수 계수들로 변환하는 것이 주파수 도메인 특성들의 추출을 조장한다는 점이 이해되어야 한다.
일부 실시예들에서 오디오 신호 프레임(404)에 대해 생성된 주파수 계수들이 저대역 주파수 도메인 오디오 신호로서 간주될 수 있다는 점이 더 이해되어야 한다.
오디오 신호 프레임(404)을 주파수 계수들을 포함하는 주파수 도메인 표현으로 변환하는 단계가 도 8의 프로세싱 단계(803)로서 보여진다.
일부 실시예들에서 인위적 대역폭 확장기(303)는 특성 추출기(407)를 포함한다.
오디오 신호 프레임(404)의 주파수 도메인 계수들은 이 실시예들에서 특성 추출기(407)의 입력으로 전달될 수 있다.
일부 실시예들에서 특성 추출기(407)는 또한 프레임 수집기(403)로부터 추가 입력을 수신하도록 구성될 수 있다. 이러한 추가 입력은 프레임 수집기(403)로부터 특성 추출기(407)까지 바로 오디오 신호 프레임(404)을 운반하는데 사용될 수 있으며, 그에 따라 시간-주파수 변환기(405)를 우회할 수 있다.
도 4를 참조할 때, 시간 도메인 오디오 신호 프레임(404)은 이 실시예들에서 연결(440)을 통해 프레임 수집기(403) 및 특성 추출기(407) 사이에서 전달될 수 있다.
특성 추출기(407)는 일부 실시예들에서 오디오 신호 프레임 및 오디오 신호 프레임의 주파수 도메인 변환 모두로부터 특성들을 추출하는데 사용될 수 있다. 특성 추출기(407)로부터 추출된 특성들은 일부 실시예들에서 오디오 신호 프레임의 확장된 주파수 영역의 일부를 생성하는데 사용될 수 있다.
여기에서, 오디오 신호 프레임의 확장된 주파수 영역은 고대역 신호라고 불려질 수 있다는 점이 이해되어야 한다.
여기에서, 오디오 신호 프레임의 주파수 도메인 변환은 일부 실시예들에서 주파수 도메인 신호라고 불려질 수 있다는 점이 이해되어야 한다.
일부 실시예들에서 주파수 도메인 및 시간 도메인 특성들 모두를 포함하는 9 차원 특징 벡터가 입력 오디오 신호 및 주파수 도메인 신호의 각각의 프레임마다 추출될 수 있다.
일부 다른 실시예들에서는 주파수 도메인 및 시간 도메인 특성들 모두를 포함하는 10 또는 다른 차원의 특징 벡터가 각각의 프레임마다 추출될 수 있다.
일부 실시예들에서, 주파수 도메인 신호를 여러 개의 중복 부 대역들로 분할하고 그런 다음 각각의 부 대역의 에너지를 결정함으로써 주파수 도메인 특성 성분들의 제1집합이 도출될 수 있다. 그러면 각각의 부 대역 에너지 값이 그러한 실시예들에서 특징 벡터의 주파수 도메인 성분을 형성할 수 있다.
일부 실시예들에서 각각의 부 대역의 에너지는 부 대역 내에 놓인 각각의 주파수 도메인 계수의 크기를 제곱함으로써 결정될 수 있다. 즉, 주파수 도메인 특성들은 이러한 실시예들에서, 입력 신호의 주파수 계수들의 전력 스펙트럼 밀도를 결정함으로써 적어도 일부 추출될 수 있다.
일부 실시예들에서 주파수 도메인 신호는 각각의 부 대역이 음향심리적으로 도출된 멜 스케일에 따라 동일한 대역폭을 가질 수 있는 복수의 중복 부 대역들로 분할될 수 있다.
예를 들어, 대역폭 확장기(303)로의 입력 오디오 신호가 8kHz의 샘플링 주파수를 가지는 일부 실시예들에서, 저대역 오디오 신호는 250에서 3500Hz까지의 유효 주파수 범위를 가질 수 있다. 이 실시예들에서 주파수 도메인 신호는 각각의 부 대역이 음향심리적으로 도출된 멜 스케일에 따라 동일한 대역폭을 가지는 5 개의 부 대역들로 분할될 수 있다.
일부 실시예들에서 Hz에서 멜 스케일로의 주파수 성분들의 매핑이
m = 2595log10(1+ f / 700)로 표현될 수 있으며,
여기서 f는 Hz 단위의 주파수이며, m은 주파수 성분 f에 대응하는 멜 스케일 매핑이다.
이 실시예들에서 동일하게 분할된 (멜 스케일) 중복 부 대역들 중 각각의 대역은 삼각 대역 통과 필터에 따라 필터링될 수 있다. 즉, 부 대역 에너지를 얻기 위해 부 대역 각각의 주파수 도메인 성분들에 삼각 형상 마스크가 인가될 수 있다.
삼각 형상 마스크는 일부 실시예들에서 인간 청각 시스템의 동일한 임계 대역 안에서 주파수들의 청각 마스킹 특성들을 모델링한다는 이점을 가질 수 있다.
다른 실시예들에서 동일하게 분할된 중복 부 대역들 중 각각의 대역은 사다리꼴 대역 통과 필터를 이용하여 필터링될 수 있다.
일부 실시예들에서 사다리꼴 또는 삼각 형상 마스킹 필터들은 그 필터가 인간 청각 시스템의 임계 대역보다 넓게 되도록 도출될 수 있다는 점이 이해되어야 한다.
일부 실시예들에서 필터는 주파수 도메인에서 번갈아 각각의 부 대역에 적용될 수 있고, 이것은 입력 오디오 신호의 폭에 걸쳐 인간 청각 시스템의 주파수 분해능을 모델링한다는 이점을 가질 수 있다는 점이 이해되어야 한다. 이러한 이점은 주파수 도메인에서 주파수 도메인 신호의 성분들에 대한 삼각 형상 필터들의 적용을 묘사하는 도 5에서 보여질 수 있다.
도 5를 참조할 때, 주파수 도메인에서 청각 필터들은 일부 실시예들에서 상위 주파수대에 놓인 청각 필터들보다, 하위 주파수대의 보다 좁은 대역폭을 가질 수 있다는 것이 추가로 보여질 수 있다. 또한, 일부 실시예들에서 각각의 후속 청각 필터의 대역폭은 멜 스케일에 따라 증가한다는 것 역시 보여질 수 있다.
일부 실시예들에서 입력 오디오 신호 프레임에 대한 전력 스펙트럼 밀도 값들이 멜 스케일에 따른 부 대역 필터들을 이용하여 필터링될 수 있다. 즉, 전력 스펙트럼 밀도 값들은 도 5에 따른 일련의 청각 기반 부 대역 필터들을 이용하여 필터링될 수 있다.
일부 실시예들에서 필터링 단계는 입력 오디오 신호 프레임의 전력 스펙트럼 밀도 표현을 멜 스케일 상에 일정하게 간격이 떨어진 여러 부 대역들로 분할한다는 이점을 가진다는 점이 더 이해되어야 한다.
입력 오디오 신호 프레임이 다수의 부 대역들로 필터링되었으면, 이 실시예들에서 각각의 부 대역에 대한 에너지는 부 대역 안에서 필터링된 전력 스펙트럼 밀도 값들의 합을 산출함으로써 결정될 수 있다.
일반적으로, 일부 실시예들에서 부 대역 에너지 레벨 값은 초기에, 전력 크기 값을 제곱함으로써 전력 스펙트럼이 결정될 수 있는 신호의 주파수 도메인 스펙트럼을 산출함으로써 결정될 수 있다는 점이 이해되어야 한다. 그런 다음 각각의 부 대역에 대해, 문제의 특정 부 대역을 이루는 전력 스펙트럼 값들이 위에서 언급된 삼각 윈도우와 같은 청각 필터를 이용하여 가중(또는 형상화)될 수 있다. 각각의 부 대역의 에너지는 이제 부 대역 내 가중된 전력 스펙트럼 성분들의 합에 의해 주어진다.
일부 실시예들에서 5 개의 부 대역 에너지 값들이 있을 수 있고, 여기서 각각의 부 대역 에너지 값은 5 개의 부 대역들 중 하나에 대응할 수 있다. 그러나, 일부 다른 실시예들에서 5 개를 넘거나 그 보다 적은 부 대역 에너지 값들이 결정될 수도 있다는 것을 알 수 있을 것이다.
부 대역 에너지 값들은 오디오 신호 프레임(404)에 대해 스펙트럼 형상 및 전력 레벨의 간결한 표현을 제공할 수 있다는 점이 이해되어야 한다.
일부 실시예들에서 최초 5 개의 부 대역들에 대응하는 부 대역 에너지들이 각각의 오디오 신호 프레임에 대해 추출된 특징 벡터의 최초 5 개의 특성들을 이룰 수 있다는 점이 더 이해되어야 한다.
일부 실시예들에서 5 개의 부 대역들에 대응하는 부 대역 에너지들은 데시벨 스케일에 따라 변환될 수 있다.
특성 추출기(407)는 일부 실시예들에서, 주파수 도메인 신호로부터 또 다른 주파수 도메인 특성들을 또한 추출할 수 있다. 이러한 또 다른 주파수 도메인 특성들은 주파수 도메인 신호의 스펙트럼의 다른 경우 중력의 중심이라고 알려진 중심에 기반할 수 있다.
일부 실시예들에서 주파수 도메인 신호의 스펙트럼의 중심 C는 시간-주파수 변환기(405)에 의해 산출되는 것과 같은 주파수 스펙트럼의 제곱 크기를 이용함으로써 결정될 수 있다.
일부 실시예들에 따르면 N 개의 샘플들의 주파수 도메인 신호 스펙트럼에 대한 중심 C는 다음과 같이 결정될 수 있다.
Figure pct00001
여기서 i는 저대역 오디오 신호 안의 주파수 성분을 나타내는 인덱스이고, p(i)는 주파수 성분 i에 대한 제곱 크기이며, f(i)는 인덱스 i에서의 주파수를 나타낸다.
일부 실시예들에서 주파수 도메인 신호 스펙트럼의 중심은 추출된 특성의 여섯 번째 성분을 이룰 수 있다.
일부 실시예들은 입력 오디오 신호 프레임의 스펙트럼 평탄성을 판단함으로써 일곱 번째 주파수 도메인 기반 특성을 도출할 수 있다. 이 특성은 입력 오디오 신호 프레임의 음조를 나타내는 데 사용될 수 있다.
이 실시예들에서 신호의 스펙트럼 평탄성은 신호의 전력 스펙트럼의 기하 평균 및 산술 평균 사이의 비를 결정함으로써 도출될 수 있다.
일부 실시예들에 따른 스펙트럼 평탄성 측정치는 다음과 같이 표현될 수 있다.
Figure pct00002
여기서 P(i)는 주파수 인덱스 i에서의 전력 스펙트럼 값을 나타내고, N i N h 는 스펙트럼 평탄성 측정치가 결정되는 최초 및 마지막 주파수 성분들의 인덱스들을 나타내며, N sf 는 이 범위 내 성분들의 개수를 나타낸다.
일부 실시예들에서 스펙트럼 평탄성 측정치는 300Hz에서 3.4kHz까지의 주파수 범위에 걸쳐 결정될 수 있다.
상술한 바와 같이 특성 추출기(407)는 일부 실시예들에서, 연결(440) 상으로 운반되는 시간 도메인 신호를 처리함으로써 오디오 신호 프레임(404)으로부터 시간 도메인 기반 특성들을 추출할 수도 있다.
일부 실시예들에서 특성 추출기(407)에 의해 추출된 최초 시간 도메인 기반 특성은 시간 도메인의 음성 신호의 그래디언트 크기들의 합에 기반하는 그래디언트 인덱스일 수 있다.
그러한 실시예들에서 그래디언트는 음성 신호 파형의 어느 지점에서나 결정될 수 있다는 점이 이해되어야 한다. 그러나, 이 실시예들에서 그래디언트 인덱스는 그래디언트 값의 부호 변화를 낳을 수 있는 음성 파형 내 지점들에 대해 결정될 수 있다. 즉, 그래디언트 인덱스는 일부 실시예들에서 음성 파형의 방향으로 변화를 가져오는 음성 파형 내 지점들에서의 그래디언트 크기의 합에 기반할 수 있다.
일부 실시예들에서 그래디언트 인덱스 xgi는 다음과 같이 결정될 수 있다.
Figure pct00003
여기서 s(n)은 시간 상의 순간 n에서 음성의 샘플을 나타내며, NT는 오디오 신호 프레임(404) 내 음성 샘플들의 개수를 나타낸다. 용어
Figure pct00004
는 시간 상의 순간 n에서의 그래디언트의 부호 변화를 나타낼 수 있으며, 다음과 같이 결정될 수 있다.
Figure pct00005
여기서
Figure pct00006
는 그래디언트 s(n)-s(n-1)의 부호를 나타내며 다음과 같이 결정될 수 있다.
Figure pct00007
일부 실시예들에서 그래디언트 인덱스 x gi 는 유성음들 도중의 낮은 값들과 무성음들 도중의 높은 값들을 가질 수 있다는 것이 관찰될 수 있다.
일부 실시예들은 또한 오디오 신호 프레임의 에너지 비율에 종속될 수 있는 제2시간 기반 특성을 추출할 수 있다.
이 실시예들에서 그 특성은 현재의 오디오 신호 프레임(404)의 에너지와 이전 오디오 신호 프레임의 에너지의 비율을 산출함으로써 결정될 수 있다. 이때 그 결과 값은 일부 실시예들에서 데시벨 범위에 따라 스케일링될 수 있다.
일부 실시예들에서 특성은 다른 무성 음성 사운드들로부터 무성 정지 상수(unvoiced stop constant) 사운드를 구별하는 추가 이점을 가질 수 있다는 것을 관찰할 수 있다.
일부 실시예들은 신호가 활성 영역을 보여주는지 비활성 영역들을 보여주는지 여부를 판단함으로써 오디오 신호 프레임에 대한 제3시간 기반 특성을 도출할 수 있다.
이 실시예들에서 오디오 신호 프레임(404)은 신호들을 활성 또는 비활성으로 분류하기 위해 음성 활성 검출기(VAD)에 의해 처리될 수 있다.
일부 실시예들에서 VAD는 FFT와 같은 적절한 직교 변환 수단을 통해 초기에 시간 도메인 신호(다른 경우 오디오 신호 프레임(404)이라 알려짐)를 주파수 도메인으로 변환함으로써 구현될 수 있다. VAD로의 입력 신호가 주파수 도메인으로 변환되었으면, 그것은 복수의 부 대역들로 그룹화될 수 있다. 통상적으로 일부 실시예들에서 이러한 그룹화는 보다 많은 주파수 성분들이 인지적으로 보다 중요한 하위 부 대역들에 할당되는 비 선형 스케일로 수행될 수 있다. 그런 다음 각각의 부 대역에 대한 신호 대 잡음비(SNR)가 각각의 부 대역 내 신호 및 배경 잡음의 에너지를 고려함으로써 산출될 수 있다. 이제 각각의 부 대역에 대한 SNR의 합을 적응적 문턱치에 대해 비교함으로써 VAD 결정이 도출될 수 있다.
통상적으로 일부 실시예들에서 각각의 부 대역에 대한 배경 잡음 에너지는 자동 역행 기반 방식을 이용하여 잡음이 있는 입력 프레임들 안에서 적응될 수 있다.
일부 실시예들은 잘못된 VAD 결정을 막기 위한 많은 기법들을 활용할 수 있다. 예를 들어, 일부 실시예들은 신호가 무성음 특징들을 표시하고 있을 때 잘못된 결정을 방지하기 위해 활성에서 비활성까지의 VAD 결정이 지연되게 하는 "행오버(미결) 기간"을 적절히 사용할 수 있다. 일부 실시예들에서 다른 기법들은 크게 변동하는 신호들일 때 VAD 결정 문턱치를 높이기 위해 순간적 프레임별 SNR들의 분산(variance)을 측정하는 동작을 포함할 수 있다.
일부 실시예들에서는 3세대 공동 프로젝트(3GPP) 표준 적응적 멀티 레이트(AMR) 음성 코덱 3GPP TS 26.090에 의해 특정된 바와 같은 음성 활동 검출 기법들이 사용될 수 있다.
일부 실시예들에서 위에서 강조된 것과 같은 세 개의 시간 기반 특성들이 특성 추출기(407)에 의해 추출된 추가 특성들을 구성할 수 있다는 점이 이해되어야 한다. 즉, 그래디언트 인덱스, 에너지 비율 및 이전 VAD 출력이 일부 실시예들에서, 특성 추출기(407)에 의해 생성된 특징 벡터의 세 개의 추가 성분들을 형성할 수 있다.
일부 실시예들에서 특성 추출기(407)에 의해 결정된 바와 같은 특징 벡터가 입력 오디오 신호(401)로부터 프레임 단위로 결정될 수 있다는 점이 더 이해되어야 한다.
특징 벡터를 추출하기 위해 오디오 신호 프레임(404)를 시간과 주파수 도메인들 모두에서 처리하는 단계가 도 8의 처리 단계(805)로서 보여질 수 있다.
일부 실시예들에서 인위적 대역폭 확장기(303)는 신경망 프로세서(409)를 포함한다.
일부 실시예들에서 특성 추출기(407)에 의해 결정된 것과 같은 특징 벡터가 신경망 프로세서(409)로 전달된다.
신경망 프로세서(409)는 일부 실시예들에서 인위적으로 생성된 고대역 신호(431)의 스펙트럼 형상을 부분적으로 생성하는 데 사용될 수 있다.
일부 실시예들에서, 신경망 프로세서(409)는 다양한 잡음 유형, 잡음 레벨, 또는 언어들과 같이 변화하는 환경 및 조건에서 신경망의 능력을 진화시키기 위해 가변 데이터를 이용하여 트레이닝될 수 있는 신경망을 포함할 수 있다.
일부 실시예들에서, 포괄적 알고리즘들에 기반하는 신경 진화(neuroevolution) 방법이 신경망을 진화시키는데 채택될 수 있다. 이렇게 진화된 신경망들은 회귀적(recurrent)일 수 있다. 다시 말하면, 그들은 진화 프로세서에 대한 이력 정보를 수집 및 이용할 수 있으며 특성 추출기(407)로부터의 입력 벡터의 특성들에 국한되지 않는다.
일부 실시예들에서, 증대하는 신경망 토폴로지들에 기반하는 신경 진화의 방법이 사용될 수 있다. 이 방법은 통상적으로 네트워크 노드들과 연관된 가중 요인들을 변경하는 것과 연계하여 추가 노드들 및 네트워크 링크들을 추가함으로써 점증적으로 개선될 수 있는 최소 네트워크 토폴로지로부터 시작할 수 있다.
통상적으로 일부 실시예들에서 증가 토폴로지들의 신경 진화(NEAT)에 기반하는 신경망은 입력 뉴런들 및 출력 뉴런들의 인지 유형 피드 포워드 네트워크를 이용하여 진화될 수 있다. 개별 단계들을 통하여 진화가 진행될 때, 새 뉴런을 연결 경로에 삽입하거나 (앞서 미연결된) 뉴런들 사이에 새로운 접속을 생성함으로써 네트워크의 토폴로지 복잡성이 증가될 것이다.
일부 실시예들에서 NEAT 신경망은 다수의 각종 스피커들의 복수의 오디오 샘플들을 포함하는 트레이닝 데이터베이스를 이용하여 오프라인 모드로 트레이닝될 수 있다.
일부 다른 실시예들에서 분류 및 패턴 인식 식별 동작들이 예컨대 어떤 적절한 인공 신경망, 자가 조직 맵 또는 자가 조직 특성 맵, 베이신(Baysean) 네트워크 등과 같은 어떤 적절한 패턴 인식 장치나 알고리즘에 의해 수행될 수 있다.
트레이닝 베이스로부터의 오디오 샘플들은 일부 실시예들에서, 모바일 스테이션의 입력 주파수 응답을 시뮬레이션하기 위해 우선 고대역 필터링될 수 있다. 일부 실시예들에서 그 필터링은 국제 전기통신 연합(ITU) 표준 G.191에 의해 특정된 바와 같은 모바일 스테이션 입력 필터(MSIN)에 따라 이행될 수 있다.
NEAT 신경망을 트레이닝하는데 사용하기 위해 트레이닝 데이터 베이스 안의 오디오 샘플들 각각에 대한 특징 벡터들이 일부 실시예들에서 상술한 바와 같이 추출될 수 있다.
추가로, 신경망에 대한 타깃 출력들의 집합이 일부 실시예들에서 생성될 수 있으며, 신경망의 각각의 타깃 출력은 트레이닝 베이스 안의 특정 오디오 샘플에 대응한다. 이 타깃 출력들은 이제 신경망의 트레이닝 단계 중에 신경망의 성능을 결정하는 데 사용될 수 있다. 즉, 신경망의 성능을 결정하기 위해, 트레이닝 베이스의 각각의 오디오 샘플에 대한 신경망의 출력이 대응하는 타깃 출력과 비교될 수 있다.
일부 실시예들에서 신경망에 대한 타깃 출력은 트레이닝 데이터 베이스의 각각의 대응하는 오디오 샘플에 대해 인위적으로 생성된 고대역 신호의 스펙트럼 형상과 연관된 파라미터들을 결정함으로써 생성될 수 있다.
따라서 신경망을 트레이닝시키기 위해 트레이닝 데이텅베이스의 각각의 오디오 트레이닝 샘플에 대한 타깃 출력의 생성이 요구될 수 있으며, 각각의 오디오 트레이닝 샘플은 광대역 오디오 신호를 포함할 수 있다는 점이 이해되어야 한다.
일부 실시예들에서 각각의 오디오 트레이닝 샘플과 연관된 타깃 출력은 각각의 광대역 오디오 트레이닝 샘플의 고대역 성분을 초기에 결정하고, 그런 다음 그 결정된 고대역 성분들 각각과 연관된 스펙트럼 형상 파라미터들을 생성함으로써 생성될 수 있다.
스펙트럼 형상 파라미터들의 각각의 집합은 일부 실시예들에서 신경망의 타깃 출력을 형성할 수 있고, 각각의 타깃 출력은 이 실시예들에서 트레이닝 데이터베이스로부터의 특정 오디오 트레이닝 샘플과 결부될 수 있다는 점이 이해되어야 한다.
일부 실시예들에 따르면 신경망에 대한 트레이닝 프로세스는 다음과 같은 형식을 취할 수 있다: 각각의 광대역 트레이닝 신호가 다수의 프레임들로 분할될 수 있고, 그 각각의 프레임 길이는 대역폭 추출기(303)의 동작 프레임 길이에 의해 결정될 수 있고; 각 프레임의 고대역 성분이 이제 결정될 수 있으며; 그런 다음 각각의 고대역 성분에 대해 (고대역 성분의) 각각의 부 대역의 에너지 레벨들로서 표현되는 스펙트럼 형상이 산출될 수 있다.
그것은 신경망 추정기에 대한 타깃 값들을 형성하는 고대역 성분의 부 대역들 각각의 에너지 레벨들이라는 점이 이해되어야 한다.
상술한 고대역 신호는 인위적으로 생성된 고대역 신호(431)와 비슷하다는 점이 더 이해되어야 한다. 즉 고대역 신호는 인위적으로 생성된 고대역 신호(431)에 대한 표현이며, 신경망 프로세서(409) 내 신경망을 트레이닝시키려는 목적으로 형성된다.
일부 실시예들에서 인위적으로 생성된 고대역 스펙트럼의 형상은 에너지 레벨들의 집합으로서 구현될 수 있으며, 여기서 각각의 에너지 레벨은 복수의 부 대역들 중 하나에 대응할 수 있다. 즉 인위적으로 생성된 고대역 스펙트럼의 스펙트럼 형상 파라미터들의 집합은 그러한 실시예들ㄹ에서 에너지 레벨들의 집합으로서 구현될 수 있다.
일부 실시예들에서 인위적으로 생성된 고대역 스펙트럼의 스펙트럼 형상은 음향심리적으로 도출된 멜 스케일로부터 추출된 네 개의 부분 중복 부 대역들의 에너지 레벨들에 의해 구현될 수 있다. 즉, 16kHz로 샘플링된 광대역 신호의 주파수 성분들은 4kHz 내지 8kHz의 주파수 범위에 걸쳐 로그 스케일 상에 균일하게 위치된 네 개의 부 대역들로서 모델링될 수 있다.
각각의 부 대역과 연관된 대역 통과 필터는 일부 실시예들에서 주파수 도메인 상에서 삼각 윈도우 함수로서 구현될 수 있으며, 그러면 각각의 부 대역의 에너지 레벨이 그 부 대역 안에 존재하는 주파수 성분들의 전력 스펙트럼을 산출함으로써 결정될 수 있다.
일부 실시예들에서 각각의 부 대역의 에너지는 필터링된 부 대역 내 주파수 성분들의 크기에 대한 제곱을 합산함으로써 결정될 수 있다.
고대역 신호에 삼각 윈도우 함수들을 적용하는 것의 이점이 주파수 도메인에서 인위적으로 생성된 고대역 신호(431)의 분포를 묘사한 도 6을 참조하여 보여질 수 있다.
더 나아가, 도 6을 참조하여 각각의 대역 통과 필터의 베이스, 즉 삼각 윈도우 함수가 대략적으로 두 개의 인접한 부 대역들의 중심 주파수들 사이에서 확장될 수 있다는 것 역시 보여질 수 있다.
따라서 각각의 중복 부 대역(다른 경우 스펙트럼 형상 파라미터들이라고 알려짐)의 에너지 레벨들을 결정하기 위한 프로세스는 각각의 트레이닝 데이터베이스 샘플에 대해 차례로 수행될 수 있다는 점이 이해되어야 한다.
일부 실시예들에서 이러한 중복 부 대역 에너지 레벨들이 오프라인 트레이닝 단계 중에 신경망에 대한 타깃 출력들을 형성할 수 있다는 점이 더 이해되어야 한다. 즉, 각각의 광대역 트레이닝 데이터베이스 샘플의 고대역과 연관된 중복 부 대역 에너지 레벨들의 각각의 집합이 NEAT 신경망에 대한 타깃 출력을 형성한다.
일부 실시예들에서 NEAT 신경망이 "온라인" 동작 모드로 실행 중일 때, 진화된 신경망의 게놈(genome)들이 특성 추출기(407)로부터의 각각의 특징 벡터를 처리하는 데 사용될 수 있다는 점이 이해되어야 한다. 이것은 다시, 인위적 고대역 신호(431)에 대한 스펙트럼 형상 파라미터들을 생성하기 위해 신경망 프로세서(409)에 의해 사용될 수 있다. 즉, (저 대역) 오디오 신호 프레임으로부터 추출된 것과 같은 특징 벡터가 신경망 프로세서(409)에 의해, 인위적으로 생성된 고대역 신호(431)에 대한 스펙트럼 형상 파라미터들의 대응 집합을 생성하는데 사용될 수 있다.
스펙트럼 형상 파라미터들의 생성은 오디오 프레임 단위로 수행될 수 있다.
일부 실시예들에서 "온라인" 모드로 동작할 때의 NEAT 신경망 프로세서(409)로부터의 출력은, 상술한 바와 같이 네 개의 멜 중복 부 대역들에 대응하는 네 개의 부 대역 에너지 레벨들을 형성할 수 있다는 점이 이해되어야 한다.
일부 실시예들에서 스펙트럼 형상 파라미터들, 즉 각각의 부 대역에 대한 부 대역 에너지 레벨들은 (저 대역) 오디오 신호 프레임(404)으로부터만 유일하게 추출된 특성들을 이용함으로써 결정될 수 있다는 점이 이해되어야 한다.
신경망 프로세서(409)에 의해 스펙트럼 형상 파라미터들을 결정하는 단계가 도 8의 처리 단계(807)로서 보여진다.
일부 실시예들에서 인위적 대역폭 확장기(303)는 대역 에너지 평활기(411)를 포함한다. 이때 신경망 프로세서(409)로부터의 출력은 대역 에너지 평활기(411)의 입력에 연결될 수 있다.
대역 에너지 평활기(411)는 일부 실시예들에서 현재 및 과거 값들에 걸친 각각의 부 대역의 에너지 레벨을 필터링할 수 있다. 이것은 일부 실시예들에서 너무 높을 수 있는 부 대역 에너지 레벨들을 선택하는 신경망 프로세서(409)의 결과로서 생성될 수 있는 성가신 결함들에 대해 반대 작용을 한다는 이점을 가질 수 있다. 즉, 각각의 부 대역 에너지 레벨의 필터링은 모든 급속한 변화들을 평활화하는 이점을 가질 수 있다.
일부 실시예들에서 대역 에너지 평활기(411)는 각각의 부 대역의 에너지 레벨을 일차 자동 역행 필터를 거치게 할 수 있다. 즉, 현재의 부 대역 에너지 레벨 및 과거의 필터링된 부 대역 에너지 레벨을 사용하여 각각의 부 대역 에너지 레벨에 대해 가중 평균 값이 산출될 수 있다.
일부 실시예들에서 각각의 부 대역 에너지 레벨에 적용되는 자동 역행 필터는 다음과 같이 표현될 수 있다.
Figure pct00008
여기서 E(n)E f (n)은 프레임 순간 n에서의 부 대역 에너지 레벨 및 필터링된 부 대역 에너지 레벨을 각각 나타낸다.
Figure pct00009
는 현재의 부 대역 에너지 레벨 E(n)에 인가된 가중 요인을 나타내고,
Figure pct00010
는 이전의 필터링된 부 대역 에니지 레벨 E f (n-1)에 인가된 가중 요인을 나타낸다.
일부 실시예들에서 자동 역행 필터는 이전의 필터링된 부 대역 에너지 레벨보다 높은 부 대역 에너지 레벨들에만 적용될 수 있다. 즉, 필터는 그러한 실시예들에서 E(n) > E f (n-1)일 때에만 적용될 수 있다.
상기 자동 역행 필터는 이 실시예들에서 각각의 부 대역의 에너지 레벨에 차례로 적용될 수 있다는 점이 이해되어야 한다.
상기 필터링 프로세스는 프레임 n 별로 수행될 수 있다는 점이 더 이해되어야 한다.
실시예들의 제1그룹에서,
Figure pct00011
Figure pct00012
의 값들은 각각 0.25 및 0.75로 결정될 수 있다.
일부 다른 실시예들에서
Figure pct00013
Figure pct00014
의 값들 위와 같은 값들에만 국한되지 않을 수 있다는 점이 이해되어야 한다. 예를 들어, 일부 다른 실시예들은 선택된 값들이 식
Figure pct00015
에 대응하도록
Figure pct00016
Figure pct00017
의 다른 값들을 적절히 활용할 수 있다.
일부 실시예들에서 대역 에너지 평활기(411)는 고대역 신호가 입력 오디오 신호(404)즉, 저대역 신호나 전화 대역 신호)의 전력이 적응적 잡음 레벨 추정치에 가까울 때 감쇠될 수 있게 하는 추가 프로세싱 단계를 포함할 수 있다.
이러한 추가 프로세싱 단계를 실시하기 위해 입력 오디오 신호(404)의 에너지가 각각의 프레임마다 산출될 수 있다. 일부 실시예들에서 이러한 산출은 프레임 수집기(403)에 대한 기능의 일부로서 수행될 수 있다.
프레임별로 입력 오디오 신호에 대한 에너지 윤곽선을 필터링함으로써 입력 오디오 신호의 잡음 바닥 추정치가 일부 실시예들에서 결정될 수 있다. 필터링은 예로서, 일차 회귀 필터를 이용하여 수행될 수 있다.
일부 실시예들에서 일차 회귀 필터는 에너지 윤곽 방향에서의 변화에 따라 변화하는 계수들을 가질 수 있다. 예를 들어 일부 실시예들에서, 에너지 윤곽 방향의 상향 변화가 있을 때 일차 회귀 필터는 에너지 윤곽 방향의 하향 변화가 있을 때 사용된 필터 계수에 비해 다른 값을 가질 수 있는 특정 계수를 채택할 수 있다.
필터 계수들의 값은 일부 실시예들에서, 잡음 레벨 추정치가 음성 구간들 안에서 점진적으로 상승하고 오디오 신호(404)의 중단이 있을 때 최소치를 향해 급속히 쇠퇴하도록 선택될 수 있다.
인위적으로 생성된 고 대역 신호(431)의 현재 프레임과 연관된 부 대역 에너지 레벨들은 일부 실시예들에서, 현재의 오디오 신호 프레임의 에너지 및 불연속 선형 매핑을 이용한 잡음 바닥 추정치 사이의 차이에 따라 감쇠될 수 있다.
상술한 적응적 감쇠 기법은 그 실시예들에서, 인위적으로 생성된 고대역 신호(431) 내 인지 잡음을 줄인다는 이점을 가질 수 있다.
인위적으로 생성된 고대역 신호(431)의 각각의 부 대역과 연관된 에너지 레벨들을 필터링하는 단계가 도 8의 프로세싱 단계(809)로서 보여진다.
일부 실시예들에서 인위적 대역폭 확장기(303)는 여기 신호 생성기(417), 상향 샘플러(418), 필터 뱅크(421) 및 대역 가중 및 합산 프로세서(415)를 포함한다.
인위적으로 생성된 고대역 신호(431)는 그 실시예들에서 적어도 일부, 시간 도메인 프레임들을 여기 신호 생성기(417)에 입력하고, 상향 샘플러(419)에서 여기 신호 생성기(417)의 출력을 상향 샘플링하고, 필터 뱅크(421)를 통해 상향 샘플링된 여기 신호를 필터링하며, 그런 다음 상응하는 멜 대역 에너지 레벨들로부터 도출된 이득 계수를 사용하여 각각의 부 대역 신호를 가중함으로써 생성될 수 있다. 즉, 필터 뱅크(421)로부터의 각각의 서브 대역은 일부 실시예들에서 대응하는 부 대역 이득 계수만큼 개별 가중될 수 있다. 이득 계수은 일부 실시예들에서, 대응 특정 부 대역과 연관된 부 대역 에너지 레벨 및 이웃하는 부 대역들과 연관된 부 대역 에너지 레벨들로부터도 도출될 수 있다. 인위적으로 생성된 고대역 신호(431)는 그러한 실시예들에서 이제, 가중된 부 대역 신호들을 대역 가중 및 합산 프로세서(415)에서 함께 합산함으로써 구성될 수 있다.
일부 실시예들에서 필터 뱅크(421)의 각각의 부 대역에 대한 부 대역 이득 계수은 에너지-이득 컨버터(413)에 의해 결정될 수 있으며, 그에 따라 필터 뱅크의 특정 부 대역과 연관된 에너지 레벨이 그 실시예들에서 적절한 이득 계수으로 변환될 수 있다.
일부 실시예들에서 신경망 프로세서(409)가 각각의 에너지 레벨을 결정하는 대역폭은 이어지는 필터 뱅크의 각각의 부 대역의 대역폭에 상응할 수 있다. 즉, 이어지는 필터 뱅크 역시, 고대역 에너지 레벨들을 결정하기 위해 신경망 프로세서(409)에 의해 사용된 것과 동일한 부분 중복 부 대역들을 이용할 수 있다.
일부 실시예들에서 필터 뱅크는 고대역 에너지 레벨들을 얻기 위해 사용된 네 개의 부 대역들에 상응할 수 있는 네 개의 부 대역들을 가질 수 있다. 그러나, 어떤 다른 실시예들에서는 넷을 넘거나 그보다 적은 부 대역들이 고대역 에너지 레벨들을 얻는데 사용될 수 있다.
실시예들의 제1그룹에서 사용되는 필터 뱅크(421)의 각각의 부 대역의 주파수 분포의 예가 도 7에 묘사된다.
도 7의 부 대역 주파수 분포를 도 6의 부 대역 분포와 비교함으로써, 필터 뱅크의 네 개의 부 대역들의 대역폭 및 주파수 분포들이 신경망 프로세서(409)에서 고대역 에너지 레벨들을 얻는데 사용되는 네 개의 부 대역들들에 상응한다는 것을 알 수 있을 것이다. 즉, 각각의 부 대역의 중심 주파수들 및 주파수 범위들은 두 필터 뱅크들의 집합들에서 동일하다.
도 4를 참조할 때, 에너지-이득 컨버터(413)로의 입력은 일부 실시예들에서 대역 에너지 평활기(411)의 출력에 연결될 수 있다는 것을 알 수 있을 것이다. 그러한 구성에서, 각각의 부 대역과 연관된 에너지 레벨이 대역 에너지 평활기(411)로부터 에너지-이득 컨버터(413)로 운반될 수 있다.
상술한 바와 같이, 에너지-이득 컨버터(413)는 일부 실시예들에서, 필터 뱅크의 각각의 부 대역에 대한 부 대역 이득 계수들을 결정하는 데 사용될 수 있다.
일부 실시예들의 동작에 대한 이해를 돕기 위해, 부 대역 에너지 레벨 E가 이제부터 부 대역 인덱스 k와 관련된 함수로서 쓰여질 수 있다.
일부 실시예들에서 필터 뱅크(421)의 각각의 부 대역 k에 대한 부 대역 이득 계수 g(k)를 결정하기 위해 회귀 기반 기법이 채택될 수 있다.
본 발명의 이해를 돕기 위해, 필터 뱅크(421)의 각각의 부 대역에 대한 부 대역 이득 계수를 결정하는 단계가 지금부터 도 9의 흐름도를 참조하여 기술될 것이다.
대역 에너지 평활기(411)의 출력으로부터 부 대역 에너지 레벨을 입력하는 단계가 도 9의 프로세싱 단계(901)로서 보여진다.
일부 실시예들에서, 음향심리적으로 도출된 윈도우 함수는 상술한 바와 같은 멜 스케일에 따른 삼각 기반 윈도우 함수일 수 있다는 점이 이해되어야 한다.
인위적으로 생성된 고대역 신호(431)에 대해 음향심리적으로 도출된 부 대역 구조는 이 실시예들에서, 하나의 부 대역으로부터의 에너지가 이웃하는 부 대역들 각각의 에너지에 이바지할 수 있는 복수의 중복 부 대역들을 포함할 수 있다는 점이 더 이해되어야 한다. 중복 부 대역들의 효과에 대한 예가 도 7에서 보여질 수 있는 바, 거기에서 제2부 대역의 에너지는 이웃하는 제1 및 제3서브 대역들의 에너지에 이바지한다는 것을 알 수 있다.
제1예에서, 이웃하는 부 대역들을 고려하지 않고 부 대역 k에 대한 부 대역 에너지 E를 제공할 수 있는 이득 값을 추정함으로써 각각의 부 대역에 대한 초기 이득 계수 g 0 (k)가 결정될 수 있다.
일부 실시예들에서 부 대역 k에 대한 초기 이득 계수 g 0 (k)는 다음과 같이 추정될 수 있다.
Figure pct00018
여기서 E(k)는 부 대역 k에 대한 부 대역 에너지 레벨이고, c k k 번째 합성 대역의 에너지를 나타내는 미리 계산된 상수이다.
부 대역 k에 대한 초기 이득 계수 g 0 (k)를 결정하는 단계가 도 9의 프로세싱 단계(903)로서 보여진다.
초기 이득 값 g 0 (k)가 특정 부 대역에 대해 결정되었으면, 이득 계수 g 1 (k)의 새 추정치가 특정 부 대역 k에 대한 초기 이득 계수 가중에 기반하여 산출될 수 있다. 부 대역 k에 대한 이득 계수 g 1 (k)의 새 추정치는 일부 실시예들에서 부 대역 이득 계수 g(k)에 대한 결정 알고리즘의 제1회귀라고 간주될 수 있다. 초기 이득 계수의 가중은 이 실시예들에서 부 대역 k에 대한 에너지 값 E(k)(다른 경우 부 대역 k에 대한 부 대역 에너지 레벨을 일컬음)과 인접 대역들로의 확산을 고려하는 부 대역 k의 에너지 레벨 값의 비율을 고려함으로써 수행될 수 있다. 부 대역 이득 계수 결정 프로세서의 제1회귀에 있어서, 부 대역 k에 대한 에너지 레벨 값은 E 0 (k)로 나타낼 수 있다. 그러한 실시예들에서 가중 요인은 에너지 비율에 제곱 근을 취함으로써 구해질 수 있다.
부 대역 k에 대한 에너지 값 E(k)는 일부 실시예들에서 프로세싱 단계(809) 중에 대역 에너지 평활기(411)의 출력에 의해 결정된 것과 같은 부 대역 에너지 값일 수 있다는 점이 이해되어야 한다.
가중 요인을 결정하는 단계가 도 9의 프로세싱 단계들(905 내지 907)로서 보여진다.
일부 실시예들에 따르면, 부 대역 k에 대한 제1회귀의 이득 계수에 대한 추정치는 다음과 같이 표현될 수 있다.
Figure pct00019
일반적인 경우 알고리즘의 회귀 i는 아래 식의 부 대역 k에 대한 이득 계수를 산출할 수 있다.
Figure pct00020
g i (k)i번째 회귀에 대응하는 부 대역 이득 계수를 나타내고, g i - 1 (k)는 이전 i-1 회귀에 대응하는 부 대역 이득 계수를 나타내며, E i - 1 (k)는 부 대역 k의 에너지 레벨 값에 대응한다. 일부 실시예들에서 E i -1 (k)의 값은 제곱 이득 계수들 g i -1 (k) 및 이웃하는 부 대역들로부터 인접하는 이득 계수들의 곱들, 즉 g i -1 (k-1)* g i -1 (k)g i -1 (k)* g i -1 (k+1)의 합이라고 결정될 수 있다.
이 실시예들은 E i -1 (k)의 값을 결정할 때 이웃하는 부 대역들로부터의 에너지를 고려한다는 이점을 가진다.
일부 실시예들에서, E i -1 (k)의 산출은 계수들을 가중함으로써 이득 계수들의 제곱 및 인접 이득 계수들의 곱을 가중하는 단계를 더 포함할 수 있다. 가중 계수들은 다음과 같이 결정될 수 있다: 필터 뱅크(421)의 최고 부 대역 필터의 중심점 위에 있는 주파수들은 단위 이득을 가지고; 필터 뱅크(421)의 최저 부 대역 필터의 중심 점 아래의 주파수들 역시 단위 이득을 가지도록 한다.
이득 계수에 대한 새 값을 생성하기 위해 이전 회귀로부터의 이득 계수를 가중하는 단계가 도 9의 프로세싱 단계(909)로서 보여진다.
이득 계수 결정 알고리즘이 종료 조건에 도달될 때까지 수 차례의 회귀(반복) 동안 실행될 수 있다.
종료 조건이 만족되었는지를 판단하는 단계가 도 9의 프로세싱 단계(911)로서 보여지며, 종료 조건에 도달되지 않았을 경우 추가 회귀 중에 프로세스를 반복하는 단계가 도 9의 프로세싱 단계(913)로서 보여진다.
예를 들어 일부 실시예들에서는 알고리즘의 두 번의 회귀가 부 대역 이득 계수를 추정하기 위해 충분하다고 판단되고 있다. 이 값은 경험적으로 유리한 결과를 도출한다고 판단되고 있다.
이득 계수의 현재의 회귀가 특정 부 대역에 대한 이득 계수를 산출한다고 판단하는 단계가 도 9의 프로세싱 단계(915)로서 도시된다.
일부 실시예들에서 이득 계수 결정 프로세스는 인위적으로 생성된 고대역 신호에 대한 각각의 중복 부 대역에 대해 반복될 수 있다는 점이 이해되어야 한다.
예를 들어, 일부 실시예들에서 이득 계수 결정 프로세스는 이웃하는 부 대역들의 영향을 참작하기 위해 동시에 각각의 부 대역에 대해 수행될 수 있다.
일부 실시예들에서 부 대역 이득 계수 결정 프로세스는 프레임 n 별로 수행될 수 있다는 점이 더 이해되어야 한다.
필터 뱅크(421)의 각각의 부 대역에 대한 부 대역 이득 계수를 결정하는 단계가 도 8의 프로세싱 단계(811)로서 보여진다.
그러면 그 부 대역 이득 계수들이 에너지-이득 컨버터(413)로부터 연결을 통해 대역 가중 및 합산 프로세서(415)로 보내질 수 있다.
앞서 언급한 바와 같이, 인위적으로 생성된 고 대역 신호는 신호를 필터 뱅크(421) 안에 보내고, 그런 다음 대응하는 부 대역 이득 계수에 따라 각각의 출력 부 대역 신호를 가중함으로써 생성될 수 있다.
일부 실시예들에서 필터 뱅크를 이용하여 여기 신호를 필터링하고 그 다음, 대응하는 부 대역 이득 계수를 가지고 각각의 후속 부 대역 신호를 가중하는 프로세스가 인위적으로 생성된 고대역 신호(431)의 고대역 스펙트럼 형상을 제공하는 것으로 보여질 수 있다는 점이 이해되어야 한다.
여기 신호는 일부 실시예들에서 인위적 대역폭 확장기(303)로의 입력 (협대역) 오디오 신호, 즉 신호(401)로부터 생성될 수 있다.
필터 뱅크를 위한 여기 신호의 생성을 촉진하기 위하여, 프레임 수집기(403)의 출력이 일부 실시예들에서 추가적으로 여기 신호 생성기(417)에 연결될 수 있다. 실질적으로 평탄한 스펙트럼을 가진 여기 신호를 생성하기 위해, 그러한 실시예들에서 선형 예측(LP) 분석 필터링이 입력 오디오 신호 프레임(404)에 대해 수행될 수 있다.
일부 실시예들에서 선형 예측 분석 필터링은 프레임 별로 수행될 수 있으며, 그에 따라 각각의 오디오 신호 프레임(404)에 대한 LP 분석 필터의 계수들이 산출될 수 있다.
여기 신호 생성 프로세스의 이해를 돕기 위해, 여기 신호 생성기(415)의 기능이 지금부터 도 10의 흐름도를 참조하여 기술될 것이다.
LP 분석 필터를 위한 필터 계수들을 결정하기 위해, 여기 신호 생성기(417)는 일부 실시예들에서, 프레임 수집기(403)에 의해 제공된 바와 같은 오디오 신호 프레임(404) 내 단기 상관들을 분석할 수 있다.
본 발명의 일부 실시예들에서, 오디오 프레임의 단기 상관들에 대한 분석은 선형 예측 코딩(LPC) 분석을 통해 이루어질 수 있다. 이 기법은 필터 차수에 의해 결정될 수 있는 다양한 샘플 지연들의 범위에 걸쳐 입력 오디오 프레임의 자기공분산(autocovariance)이나 자기 상관을 산출하는 것에 의존한다.
일부 실시예들에서 LPC 분석은 자기상관 방법을 이용하여 수행될 수 있고, 그에 따라 (필터 차수에 의해 결정되는 것과 같은) 다양한 지연들의 범위에 걸친 자기 상관들의 산출 결과가 토플리츠(Toeplitz) 행렬이라고 알려진 대칭적 정방 행렬 안에 형성될 수 있다. 토플리츠 행렬은 주 대각선에 대해 대칭적이고 어떤 주어진 대각선을 따라 모든 원소들이 동일하다는 특성을 가진다. LPC 필터 계수들을 결정하기 위해, 행렬은 일부 실시예들에서 레빈슨-더빈(Levinson-Durbin) 알고리즘을 이용하여 역치될 수 있다.
일부 다른 실시예들에서 LPC 분석은 자기공분산 방법을 사용하여 수행될 수 있다.
자기공분산 방법에서, 공분산 행렬을 형성하기 위해 오디오 프레임 내 샘플들의 다양한 지연의 범위가 정해질 수 있다. 행렬의 크기는 다양한 공분산 값들이 산출되는 지연의 범위에 의해 결정될 수 있다.
상기와 같이, 공분산 값들이 산출될 수 있는 지연의 범위는 LPC 계수들의 개수 및 그에 따른 후속 LP 분석 필터의 차수에 의해 결정된다는 점이 이해되어야 한다.
일부 실시예들에서 공분산 행렬은 선도(leading) 대각선에 대해 대칭적이다. 그러나, 토플리츠 행렬과는 달리, 주어진 대각선 내 값들이 반드시 같은 것은 아니다. 이 실시예들에서 LPC 필터 계수들을 도출하기 위해 콜레스키 분해(Cholesky Decomposition)를 이용하여 행렬이 역치될 수 있다.
이 실시예들에서, 공분산 방법은 자동 신호 프레임이 LPC 분석 전에 적절한 윈도우 함수를 이용하여 스케일링될 것을 요하지 않는다는 점이 이해되어야 한다. 결론적으로 그러한 실시예들에서 프레임 수집기(403) 내 윈도우 기능이 수행되지 않을 수 있다.
입력 오디오 신호 프레임(404)의 LPC 계수들을 결정하는 단계가 도 10의 처리 단계(1001) 안에서 보여진다.
LPC 필터 계수들이 여기 신호 생성기(417) 안에서 결정되었다면, LP 잔여 신호를 생성하기 위해 입력 오디오 신호 프레임(404)이 일부 실시예들에서 LP 분석 필터에 의해 필터링될 수 있다.
일부 실시예들에서 LP 분석 필터의 형상이 다음과 같은 식에 의해 표현될 수 있다.
Figure pct00021
여기서
Figure pct00022
는 LPC 필터 계수를 나타내고, z는 단위 샘플 지연이며, M은 LPC 필터 차수이다.
일부 실시예들에서 LPC 차수 M은 10으로 정해질 수 있다. 이 값은 경험적으로 유리한 결과를 도출한다고 판단되고 있다.
LPC 분석 필터에 의한 오디오 신호 프레임(404)의 필터링 단계가 도 10의 프로세싱 단계(1003)로서 보여진다.
LP 잔여 신호는 현재의 오디오 신호 프레임에 대해 산출된 LPC 필터 계수들로부터 형성된 자동 역행 이동 평균(ARMA) 필터를 통해 추가 필터링될 수 있다.
LP 분석 필터링은 일부 실시예들에서 결과적인 전반적 스펙트럼 형상이 대부분 평탄할 수 있는 정도까지 신호의 스펙트럼 계곡들(valleys)을 증폭한다는 효과를 가진다는 점이 더 이해되어야 한다. 그러나 스펙트럼 계곡은 통상적으로, 복호화된 오디오 신호 내 신호 대 잡음비의 구간들과 연관될 수 있다. 결과적으로 일부 실시예들에서 LP 분석 필터링은 LP 잔여 신호 내 잡음을 증폭한다는 치명적 결과를 가질 수 있다.
상기 결과들 중 일부에 반대로 작용하기 위해, ARMA 필터가 일부 실시예들에서 LP 잔여 신호에 적용될 수 있다. ARMA 필터의 적용은 일부 실시예들에서 포먼트(formant)들을 다소 증폭시키는 동시에 스펙트럼 계곡들을 다소 감쇠시킨다는 이점을 가진다. 이것은 LP 잔여 신호 내 잡음 레벨을 감소시키는 추가 이점을 가질 수 있다.
ARMA 필터의 형식은 일부 실시예들에서, 3세대 공동 프로젝트 기술 사양 3GPP TS 26.090에 의해 특정된 AMR 코덱과 같은 많은 음성 코덱들에서 보여지는 것과 같은 포스트 필터와 유사할 수 있다.
ARMA 필터의 형식은 다음과 같은 식에 의해 표현될 수 있다.
Figure pct00023
여기서 요인들
Figure pct00024
Figure pct00025
는 그 값들이 범위
Figure pct00026
안에 놓일 수 있는 가중 요인들로 간주될 수 있다. 요인
Figure pct00027
는 ARMA 필터의 극들을 단위 원의 중심을 향해 당기는 효과를 가지며, 마찬가지로 요인
Figure pct00028
는 대응하는 0들을 단위 원의 중심을 향해 당기는 효과를 가진다.
일부 실시예들에서 가중 요인들
Figure pct00029
Figure pct00030
의 값들은 각각 0.9 및 0.5로 결정될 수 있다. 이 값들은 경험적으로 유리한 결과를 도출한다고 판단되고 있다.
또 다른 실시예들은 실시예들의 제1그룹의 것들과 상이할 수 있는 가중 요인들을 가진 ARMA 필터들을 활용할 수 있다는 점이 이해되어야 한다.
LPC 분석 필터에 의해 도출된 잔여 신호를 포스트 필터링하는 단계가 도 10의 프로세싱 단계(1005)로서 보여진다.
LP 잔여의 품질을 향상시키기 위해 상술한 ARMA 필터를 이용하는 실시예에서, 스펙트럼 틸트(tilt) 필터를 적용하는 추가 프로세싱 단계가 적용될 수 있다.
이 실시예들에서 ARMA 필터를 이용하는 것의 결과가 필터링된 LP 잔여 신호의 주파수들의 스펙트럼 틸트를 파생할 수 있다는 점이 이해되어야 한다. 이러한 영향에 반대로 작용하기 위해, 스펙트럼 틸트 필터가 일부 실시예들에서 ARMA 필터링된 LP 잔여 신호에 적용될 수 있고, 그에 따라 결과적인 LP 잔여 신호를 대부분 평탄한 스펙트럼으로 리턴시키도록 감쇠된 주파수들을 다시 강조할 수 있다.
일부 실시예들에서 스펙트럼 틸트 필터는 이하의 식에 의해 결정될 수 있는 일차 극성 제로 필터의 형식을 가질 수 있다.
Figure pct00031
여기서 계수
Figure pct00032
는 ARMA 필터 H ff 의 제1반사 계수에 비례하며, 다음과 같이 결정될 수 있다.
Figure pct00033
여기서 R(0)R(1)은 각각 ARMA 필터 H ff 에 대한 잘린 임펄스 응답의 0 번째 및 첫 번째 자동상관 계수들이며, k i 는 필터에서 스펙트럼 틸트의 양을 조절하는 상수이다.
일부 실시예들에서 k i 는 0.6으로 정해질 수 있다. 이 값은 경험적으로 유리한 결과를 도출한다고 판단되고 있다.
ARMA 포스트 필터링 단계의 출력에 대한 스펙트럼 틸트 적용 단계가 도 10의 프로세싱 단계(1007)로서 보여진다.
일부 실시예들에서 LP 잔여 신호 내 고조파들이 감쇠될 수 있게 하는 추가 프로세싱 단계가 적용될 수 있다. 이 추가 프로세싱 단계는 특히, 입력 저대역 신호가 강한 고조파 특성을 보일 수 있는 동작의 경우들에 바람직할 수 있다. 예를 들어, 어떤 암(female) 스피커들은 확장된 신호 안에서 자연스럽지 않은 금속성의 울리는 잡음 안에 나타나는 특히 강한 유성음 구간들을 보일 수 있다.
이러한 효과에 반대로 작용하기 위해, 다음 식의 추가 고조파 필터가 일부 실시예들에서 LP 잔여 신호에 적용될 수 있다.
Figure pct00034
여기서 M은 LP 잔여 신호의 피치 구간(또는 랙(lag))이며 g는 대응하는 최적 피치 이득이다. 요인 k pf 는 일부 실시예들에서 각각의 피치 구간에 적용되는 감쇠량을 조절하는데 사용될 수 있다. 즉, 요인 k pf 는 LP 잔여 신호 내 고조파들을 통제하는데 사용될 수 있다.
일부 실시예들에서 k pf 는 0.65로 정해질 수 있다. 이 값은 경험적으로 유리한 결과를 도출한다고 판단되고 있다.
일부 실시예들에서 피치 구간(또는 랙) M 및 대응하는 최적 피치 이득 g는 여러 다양한 피치 지연들에 대해 오디오 신호 프레임의 상관들이 산출될 수 있는 오픈 루프 피치 랙 추정 방법을 이용하여 결정될 수 있다. 피치 구간 M 및 대응하는 최적 피치 이득 g는 그러한 실시예들에서, 오디오 신호 프레임의 상관들을 극대화하는 피치 랙 및 피치 이득으로 정해질 수 있다.
일부 다른 실시예들에서 피치 구간 및 최적 피치 랙은 입력 오디오 신호 프레임이 아닌 LP 잔여 신호의 상관들을 극대화함으로써 결정될 수 있다.
고조파 필터링 프로세스의 일부로서 사용될 수 있는 적절한 피치 결정 알고리즘의 예가 3세대 공동 프로젝트 기술 사양 3GPP TS 26.090에 의해 특정된 바와 같은 AMR 코덱에서 보여질 수 있다.
상기 고조파 필터 구조는 콤(comb) 필터로 간주될 수 있다는 점이 이해되어야 한다.
LPC 잔여 신호를 고조파 필터링하는 동작이 도 10의 프로세싱 단계(1009)로서 보여진다.
콤 필터로부터의 출력은 일부 실시예들에서 여기 신호를 형성할 수 있다는 점이 더 이해되어야 한다.
여기 신호 생성기(417)를 이용함으로써 여기 신호를 생성하는 동작이 도 8의 처리 단계(813)로서 보여진다.
일부 실시예들에서 여기 신호 생성기(417)로부터의 출력 여기 신호는 상향 샘플러(419)의 입력에 연결될 수 있다.
일부 실시예들에서 상향 샘플러(419)는 특정 요인만큼 입력 LP 잔여 신호를 상향 샘플링할 수 있다.
이러한 실시예들에서 상향 샘플링은 LP 잔여 신호의 각각의 샘플 사이에 0 값의 샘플들을 삽입함으로써 구현될 수 있다. 연속 시간 도메인 신호를 생성하기 위해 중복 및 추가가 이용될 수 있다.
LP 잔여 신호의 스펙트럼의 앨리어스들을 허용하기 위해 저대역 통과 필터링이 상향 샘플러(419)에서 사용되지 않을 수 있다는 점이 이해되어야 한다. 이것은 전체 대역에 걸쳐 확장되는 신호를 생성한다는 이점을 가진다.
일부 실시예들에서 LP 잔여 신호는 2라는 요인만큼 상향 샘플링될 수 있다. 즉, LP 잔여 신호는 각각의 샘플 값 사이에 0 값의 샘플을 삽입함으로써 8kHz 부터 16kHz까지 상향 샘플링될 수 있다.
필터 뱅크 여기 신호를 상향 샘플링하는 동작이 도 8의 프로세싱 단계(815)로서 보여진다.
상향 샘플링된 LP 잔여 신호는 이제 일부 실시예들에서, 필터 뱅크(421)에 대해 업 샘플링된 여기 신호를 형성할 수 있다.
상술한 바와 같이 필터 뱅크(421)는 일부 실시예들에서, 신경망 프로세서(409)로부터 부 대역 에너지 레벨들을 결정하는데 사용되는 것들과 유사한 주파수 특성들을 가질 수 있다. 즉, 필터 뱅크(421)는 그러한 실시예들에서, 인위적으로 생성된 고대역 신호(431)의 스펙트럼에 대한 부 대역 에너지 레벨들의 결정에 사용되는 것과 동일한 음향심리적으로 도출된 멜 스케일을 고수하는 복수의 중복 부 대역들로서 구현될 수 있다.
따라서, 필터 뱅크(421) 내 부 대역들의 분포는 일부 실시예들에서 인간의 청각 시스템의 임계 대역들에 대략적으로 일치할 수 있다.
일부 실시예들에서 필터 뱅크의 각각의 부 대역은 선형 위상 주파수 임펄스 응답(FIR) 필터를 이용함으로써 개별적으로 구현될 수 있다.
일부 실시예들에서 필터 뱅크(412)는 네 개의 부 대역들을 포함할 수 있고, 그 각각의 부 대역은 128 개의 탭 FIR 필터로서 구현된다.
각각의 부 대역 신호는 일부 실시예들에서 적절한 FIR 필터를 사용하여 여기 신호를 필터링함으로써 형성될 수 있다.
도 7을 참조할 때, 실시예들의 제1그룹에 따른 필터 뱅크(421) 내 부 대역들의 분포가 보여진다.
입력을 필터 대역(421)을 거치게 함으로써 복수의 부 대역 신호들을 여기 신호로 생성하는 동작이 도 8의 프로세싱 단계(817)로서 보여진다.
필터 뱅크(421)로부터의 출력 부 대역 신호들은 다음으로 대역 가중 및 합산 프로세서(415)의 입력으로 보내질 수 있다.
대역 가중 및 합산 프로세서(415)는 일부 실시예들에서 이제, 대응하는 부 대역 이득 계수를 사용하여 각각의 부 대역 신호를 개별적으로 가중할 수 있다.
상술한 바와 같이 부 대역 이득 계수들은 에너지-이득 컨버터(413)에 의해 각각의 부 대역에 대해 결정될 수 있다. 부 대역 이득 계수들은 에너지-이득 컨버터(413)로부터 추가 입력을 거쳐 가중 및 합산 프로세서(415)로 보내질 수 있다.
각각의 부 대역 신호가 대응하는 부 대역 이득 계수에 의해 개별적으로 가중되었다면, 가중된 부 대역 신호들은 일부 실시예들에서 함께 합해져서 인위적으로 생성된 고 대역 신호(431)를 형성할 수 있다.
대응하는 가중 요인을 사용하여 각각의 부 대역 신호를 가중하는 동작이 도 8의 프로세싱 단계(823)로서 보여진다.
일부 실시예들에서 각각의 부 대역에 대한 연속 프레임들 간에 부 대역 이득 계수들의 점진적 변화가 있을 수 있다. 즉, 특정 부 대역에 대한 부 대역 이득 계수은 현재의 프레임 및 다음 프레임에 대한 부 대역 이득 계수 사이를 보간함으로써 도출될 수 있다.
연속하는 프레임들에 걸친 부 대역 이득 계수들의 보간은 일부 실시예들에서 정현파 램프 함수를 이용함으로써 구현될 수 있다.
일부 실시예들에서 인위적으로 생성된 고대역 신호(431)의 샘플링 주파수는 확장된 오디오 신호(435)의 등가적 나이키스트 대역폭과 관련된다는 점이 이해되어야 한다.
예를 들어 만일 인위적으로 생성된 고대역 신호(431)가 입력 오디오 신호(401)의 나이키스트 대역폭과 같은 나이키스트 대역폭을 가지는 것으로 결정되면, 인위적으로 생성된 고대역 신호(431)의 샘플링 주파수는 입력 오디오 신호(401)의 샘플링 주파수의 두 배가 될 수 있다. 즉, 인위적 대역폭 확장 프로세스에 의해 생성된 추가적 주파수 성분들을 수용하기 위해, 인위적으로 생성된 고대역 신호(431)의 샘플링 주파수는 입력 오디오 신호(401)의 두 배가 될 수 있다.
인위적 대역폭 확장 오디오 신호(435)의 전체 샘플링 주파수 역시 일부 실시예들에서, 인위적으로 생성된 고대역 신호(431)와 동일한 샘플링 주파수를 가질 수 있다는 점이 더 이해되어야 한다.
일부 실시예들에서 입력 오디오 신호(404)의 나이키스트 대역폭은 4kHz일 수 있다. 인위적 대역폭 확장 프로세스는 그러한 실시예들에서 16kHz의 샘플링 주파수로 4kHz부터 8kHz까지의 주파수 범위에 걸쳐 인위적으로 생성된 고대역 신호를 생성할 수 있다.
일부 실시예들에서 인위적으로 생성된 고대역 신호(431)는 합산기(427)의 입력으로 보내질 수 있고, 거기서 신호(431)는 대역폭 확장된 신호(435)를 생성하기 위해 상향 샘플링된 입력 오디오 신호(433)와 결합된다.
일부 실시예들에서 입력 오디오 신호(433)의 샘플링 주파수는 인위적으로 생성된 고대역 신호(431)의 샘플링 주파수와 동일할 수 있다는 점이 이해되어야 한다.
오디오 신호의 상향 샘플링을 촉진하기 위해, 입력 오디오 신호(401)는 일부 실시예들에서 추가 상향 샘플러(423)의 입력에 추가 연결될 수 있다. 추가 상향 샘플러(423)는 그러한 실시예들에서, 잔여 신호 경로 상에서 활용되는 상향 샘플러(419)와 동일한 요인을 통해 입력 오디오 신호(401)를 상향 샘플링할 수 있다.
추가 상향 샘플러(423)는 입력 오디오 신호(401)의 각각의 샘플 사이에 0들을 유효하게 삽입하고 이후 원치않은 이미지 성분들을 제거하기 위해 그 결과에 따른 신호를 저대역 통과 필터링함으로써 적절히 사용될 수 있다는 점이 이해되어야 한다.
일부 실시예들에서 추가 상향 샘플러(423)는 2의 요인만큼 입력 오디오 신호(401)를 상향 샘플링할 수 있다. 이 실시예들에서 입력 오디오 신호(401)의 샘플링 주파수는 8kHz에서 16kHz까지 상향 샘플링될 수 있다.
인위적으로 생성된 고대역 신호(431)의 샘플링 주파수와 동일할 수 있도록 입력 오디오 신호(401)를 상향 샘플링하는 동작이 도 8의 프로세싱 단계(819)로서 보여진다.
상향 샘플러(423)의 출력은 일부 실시예들에서 신호 지연 기기(425)의 입력에 연결될 수 있다. 신호 지연 기기(425)는 그러한 실시예들에서 업 샘플링된 입력 오디오 신호에 대해 시간적 샘플 지연을 수행하도록 구성될 수 있다.
일부 실시예들에서 신호 지연 기기(425)는 인위적으로 생성된 고대역 신호(431)에 맞춰 시간 정렬되도록, 상향 샘플링된 입력 오디오 신호(401)를 지연시킬 수 있다.
상향 샘플링된 입력 오디오 신호를 지연시키는 동작이 도 8의 프로세싱 단계(821)로서 보여진다.
지연된 업 샘플링된 입력 오디오 신호는 그러한 실시예들에서 합산기(427)에 대한 입력 신호(433)를 형성하며, 합산기에서 입력 오디오 신호는 상술한 것과 같은 대역폭 확장된 신호(435)를 형성하기 위해 인위적으로 생성된 고대역 신호(431)과 결합된다.
대역폭 확장된 신호(435)를 형성하는 동작이 도 8의 프로세싱 단계(825)로서 보여진다.
대역폭 확장된 신호(435)는 이제 대역폭 확장기(303)의 출력(306)에 연결될 수 있다.
따라서 요약하면, 본 발명의 적어도 한 실시예는 복수의 주파수 성분들을 포함하는 오디오 신호로부터 여기 신호를 생성하는 단계; 오디오 신호로부터 적어도 하나의 주파수 도메인 성분 특징 및 적어도 하나의 시간 도메인 성분 특징을 구비한 특징 벡터를 추출하는 단계; 특징 벡터로부터 또 다른 복수의 주파수 성분들에 속하는 주파수 성분들을 포함하는 부 대역 신호에 대응하는 적어도 하나의 스펙트럼 형상 파라미터를 결정하는 단계; 필터 뱅크를 통해 여기 신호를 필터링하고 필터링된 여기 신호를 적어도 하나의 스펙트럼 형상 파라미터로 가중함으로써 부 대역 신호를 생성하는 단계를 포함하는 방법을 포함한다.
위의 예들은 전자 기기(10)나 장치 내 코덱 안에서 동작하는 본 발명의 실시예들을 기술하지만, 이하에 기술되는 것과 같이 본 발명은 모든 오디오 디코딩 프로세스의 일부로서 구현될 수 있다는 것을 알 수 있을 것이다. 따라서, 예를 들어 본 발명의 실시예들은 고정형 또는 유선 통신 경로들로부터 오디오 디코딩을 구현할 수 있는 오디오 디코더 내에서 구현될 수 있다.
그에 따라 사용자 기기는 본 발명의 실시예들에서 기술한 것들과 같은 대역폭 확장기를 포함할 수 있다.
사용자 기기라는 용어는 모바일 전화기, 휴대형 데이터 처리 장치나 휴대형 웹 브라우저와 같은 모든 적절한 유형의 무선 사용자 기기를 커버하는 것으로 의도된다는 점이 이해되어야 한다.
또한 공공 육상 모바일 네트워크(PLMN)의 구성요소들 역시 상술한 바와 같은 오디오 코덱들을 포함할 수 있다.
일반적으로 본 발명의 다양한 실시예들은 하드웨어나 특수 목적의 회로들, 소프트웨어, 로직 또는 이들의 모든 조합으로 구현될 수 있다. 예를 들어 일부 양태들은 하드웨어로 구현될 수 있지만, 다른 양태들은 제어기, 마이크로프로세서 또는 다른 컴퓨팅 장치에 의해 실행될 수 있는 펌웨어나 소프트웨어로 구현될 수 있다. 그러나 본 발명이 여기에 국한되는 것은 아니다. 본 발명의 다양한 양태들은 블록도, 흐름도, 또는 어떤 다른 묘사적 표현을 이용해 예시되고 기술될 수 있으나, 여기 기술된 블록, 장치, 시스템, 기법, 또는 방법은 비한정적 예들로서 하드웨어, 소프트웨어, 펌웨어, 특별 용도의 회로나 로직, 범용 하드웨어나 제어기 또는 기타 컴퓨팅 장치들, 혹은 이들의 어떤 조합을 통해 구현될 수 있다는 것을 잘 알 수 있다.
본 발명의 실시예들은 프로세서 개체와 같은 모바일 기기의 데이터 프로세서에 의해 실행가능한 컴퓨터 소프트웨어, 하드웨어, 또는 소프트웨어 및 하드웨어의 조합에 의해 구현될 수 있다. 또한 이와 관련하여 도면에서와 같은 로직 흐름의 어떤 블록들은 프로그램 단계들이나 산호연결된 로직 회로들, 블록들 및 함수들, 또는 프로그램 단계들 및 로직 회로들 및 함수들의 조합을 나타낼 수 있다는 점이 이해되어야 한다.
따라서 요약하면, 본 발명의 적어도 한 실시예는 복수의 주파수 성분들을 포함하는 오디오 신호로부터 여기 신호를 생성하고; 오디오 신호로부터 적어도 하나의 주파수 도메인 성분 특징 및 적어도 하나의 시간 도메인 성분 특징을 구비한 특징 벡터를 추출하고; 특징 벡터로부터 또 다른 복수의 주파수 성분들에 속하는 주파수 성분들을 포함하는 부 대역 신호에 대응하는 적어도 하나의 스펙트럼 형상 파라미터를 결정하고; 필터 뱅크를 통해 여기 신호를 필터링하고 필터링된 여기 신호를 적어도 하나의 스펙트럼 형상 파라미터로 가중함으로써 부 대역 신호를 생성하도록 구성된 장치를 포함한다.
메모리는 로컬 기술 환경에 적합한 어떤 유형을 가질 수 있고, 반도체 기반 메모리 기기, 자기 메모리 기기 및 시스템, 광 메모리 기기 및 시스템, 고정 메모리 및 착탈형 메모리와 같은 어떤 적절한 데이터 저장 기술을 이용하여 구현될 수 있다. 데이터 프로세서는 로컬 기술 환경에 적합한 어떤 유형을 가질 수 있고, 비한정적 예들로서 범용 컴퓨터, 특수용 컴퓨터, 마이크로프로세서, 디지털 신호 프로세서(DSP) 및 멀티 코어 프로세서 구조를 기반으로 하는 프로세서들 중 하나 이상을 포함할 수 있다.
본 발명의 실시예들은 집적 회로 모듈들과 같은 다양한 구성요소들 안에서 실시될 수 있다. 집적 회로들의 설계는 일반적으로 고도로 자동화된 프로세스이다. 복잡하고 강력한 소프트웨어 툴들이 로직 레벨 설계를 반도체 기판 상에서 에칭되고 형성될 준비가 된 반도체 회로 설계로 변환하는 데 사용될 수 있다.
캘리포니아주 마운틴 뷰에 있는 Synopsys 사, 캘리포니아 주 산 호세의 Cadence Design에 의해 제공되는 것들과 같은 프로그램들이 잘 설계된 설계 규칙들 및 사전 저장된 설계 모듈들의 라이브러리들을 이용하여 반도체 칩 상에서 전도체들을 자동으로 라우팅하고 구성요소들을 위치시킨다. 반도체 회로에 대한 설계가 완료되었다면, 그에 따른 표준화된 전자 포맷(가령, Opus, GDSII 등)의 설계가 반도체 제조 시설이나 제조를 위한 '연구소'로 보내질 수 있다.
상술한 설명은 예시적이며 비한정적 예들로서 본 발명의 예시적 실시예에 대한 완전하고 정보성을 가진 설명을 제공하였다. 그러나, 첨부 도면 및 첨부 청구범위와 함께 해독될 때 상술한 설명을 고려하여 다양한 변형과 적응이 당업자들에게 자명할 수 있을 것이다. 그러나, 본 발명의 가르침에 대한 그러한 모든 유사한 변형들은 여전히 첨부 청구범위에 규정된 바와 같은 본 발명의 범위 안에 속할 수 있을 것이다.

Claims (36)

  1. 오디오 신호로부터 여기 신호를 생성하는 단계 - 상기 오디오 신호는 복수의 주파수 성분을 포함함 - 와,
    상기 오디오 신호로부터 특징 벡터를 추출하는 단계 - 상기 특징 벡터는 적어도 하나의 주파수 도메인 성분 특징 및 적어도 하나의 시간 도메인 성분 특징을 포함함 - 와,
    상기 특징 벡터로부터 적어도 하나의 스펙트럼 형상 파라미터를 결정하는 단계 - 상기 적어도 하나의 스펙트럼 형상 파라미터는 다른 복수의 주파수 성분에 속하는 주파수 성분을 포함하는 부 대역 신호에 대응함 - 와,
    필터 뱅크를 통해 상기 여기 신호를 필터링하며 상기 필터링된 여기 신호를 상기 적어도 하나의 스펙트럼 형상 파라미터로 가중함으로써 상기 부 대역 신호를 생성하는 단계를 포함하는
    방법.
  2. 제1항에 있어서,
    상기 여기 신호를 생성하는 단계는
    상기 오디오 신호를 역 선형 예측 필터를 사용하여 필터링함으로써 잔여 신호를 생성하는 단계와,
    상기 선형 예측 필터에 기반하는 자동 역행 이동 평균 필터를 포함하는 포스트 필터단을 사용하여 상기 잔여 신호를 필터링하는 단계와,
    상기 포스트 필터 단으로부터의 상기 출력을 상향 샘플링하며 스펙트럼적으로 폴딩(spectrally folding)함으로써 상기 여기 신호를 생성하는 단계를 포함하는
    방법.
  3. 제2항에 있어서,
    상기 포스트 필터단은 스펙트럼 틸트(tilt) 필터 및 고조파 필터를 더 포함하는
    방법.
  4. 제1항 내지 제3항에 있어서,
    상기 부 대역 신호의 상기 주파수 성분은 복수의 중복 대역을 포함하는 음향심리적 스케일(psychoacoustic scale)에 따라 분포되며, 상기 필터 뱅크의 상기 주파수 특성은 상기 부 대역 신호의 주파수 성분의 상기 분포에 대응하는
    방법.

  5. 제4항에 있어서,
    상기 중복 대역은 멜 스케일(mel scale)에 따라 분포되며, 상기 부 대역 신호는 삼각 마스킹 함수 및 사다리꼴 마스킹 함수 중 적어도 하나를 이용하여 마스킹되는
    방법.
  6. 제1항 내지 제5항에 있어서,
    상기 특징 벡터로부터 적어도 하나의 스펙트럼 형상 파라미터를 결정하는 단계는
    상기 특징 벡터로부터 상기 적어도 하나의 스펙트럼 형상을 결정하기 위해 신경망을 이용하는 단계를 포함하되, 상기 오디오 신호로부터 추출된 상기 특징 벡터는 상기 신경망에 대한 입력 타깃 벡터를 형성하며, 상기 신경망은 상기 입력 타깃 벡터에 부 대역 스펙트럼 형상 파라미터를 제공하도록 트레이닝되는
    방법.
  7. 제1항 내지 제6항에 있어서,
    상기 스펙트럼 형상 파라미터는 부 대역 에너지 레벨 값인
    방법.
  8. 제7항에 있어서,
    상기 스펙트럼 형상 파라미터는 상기 부 대역 에너지 레벨 값에 기반하는 부 대역 이득 계수인
    방법.
  9. 제7항 및 제8항에 있어서,
    상기 부 대역 에너지 레벨 값은 상기 오디오 신호의 전력이 상기 오디오 신호에서의 잡음 레벨 추정치에 접근할 때 감쇠되는
    방법.
  10. 제1항 내지 제9항에 있어서,
    상기 특징 벡터의 상기 적어도 하나의 주파수 도메인 성분 특징은
    각각이 상기 오디오 신호의 중복 대역의 에너지에 대응하는 상기 오디오 신호의 복수의 에너지 레벨의 그룹과,
    상기 오디오 신호의 주파수 도메인 스펙트럼의 중심을 나타내는 값과,
    상기 주파수 도메인 스펙트럼의 평탄도를 나타내는 값 중 적어도 하나를 포함하는
    방법.
  11. 제1항 내지 제10항에 있어서,
    상기 특징 벡터의 상기 적어도 하나의 시간 도메인 성분 특징은
    상기 오디오 신호의 파형 방향으로 변화를 가져오는 상기 오디오 신호 내 지점에서의 그래디언트(gradient)의 합에 기반하는 그래디언트 인덱스와,
    상기 오디오 신호의 이전 프레임의 에너지에 대한 상기 오디오 신호의 프레임의 에너지의 비율과,
    상기 오디오 신호의 프레임이 활성 또는 비활성으로 분류되는지 여부를 나타내는 음성 활동 검출기 중 적어도 하나를 포함하는
    방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    대역폭 확장 오디오 신호를 제공하기 위해 상기 부 대역 신호를 상기 오디오 신호와 결합하는 단계를 더 포함하는
    방법.
  13. 적어도 하나의 프로세서, 및 컴퓨터 코드를 포함하는 적어도 하나의 메모리를 포함하는 장치로서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 코드는 상기 적어도 하나의 프로세서와 함께 상기 장치로 하여금 적어도
    오디오 신호로부터 여기 신호를 생성하는 것 - 상기 오디오 신호는 복수의 주파수 성분을 포함함 - 과,
    상기 오디오 신호로부터 특징 벡터를 추출하는 것 - 상기 특징 벡터는 적어도 하나의 주파수 도메인 성분 특징 및 적어도 하나의 시간 도메인 성분 특징을 포함함 - 과,
    상기 특징 벡터로부터 적어도 하나의 스펙트럼 형상 파라미터를 결정하는 것 - 상기 적어도 하나의 스펙트럼 형상 파라미터는 다른 복수의 주파수 성분에 속하는 주파수 성분을 포함하는 부 대역 신호에 대응함 - 과,
    필터 뱅크를 통해 상기 여기 신호를 필터링하며 상기 필터링된 여기 신호를 상기 적어도 하나의 스펙트럼 형상 파라미터로 가중함으로써 상기 부 대역 신호를 생성하는 것을 수행하게 하도록 구성되는
    장치.
  14. 제13항에 있어서,
    상기 적어도 하나의 프로세서와 함께 상기 장치로 하여금 적어도 상기 여기 신호를 생성하는 것을 수행하게 하도록 구성된 상기 적어도 하나의 메모리 및 상기 컴퓨터 코드는
    상기 오디오 신호를 역 선형 예측 필터를 이용하여 필터링함으로써 잔여 신호를 생성하는 것,
    상기 선형 예측 필터에 기반하는 자동 역행 이동 평균 필터를 포함하는 포스트 필터단을 이용하여 상기 잔여 신호를 필터링하는 것,
    상기 포스트 필터단으로부터의 출력을 상향 샘플링하며 스펙트럼적으로 폴딩함으로써 상기 여기 신호를 생성하는 것을 수행하도록 더 구성되는
    장치.
  15. 제14항에 있어서,
    상기 포스트 필터단은 스펙트럼 틸트 필터 및 고조파 필터를 더 포함하는
    장치.
  16. 제13항 내지 제15항에 있어서,
    상기 부 대역 신호의 상기 주파수 성분은 복수의 중복 대역들을 포함하는 음향심리적 스케일에 따라 분포되며, 상기 필터 뱅크의 상기 주파수 특성은 상기 부 대역 신호의 주파수 성분의 상기 분포에 대응하는
    장치.
  17. 제16항에 있어서,
    상기 중복 대역은 멜 스케일에 따라 분포되며, 상기 부 대역 신호는 삼각 마스킹 함수 및 사다리꼴 마스킹 함수 중 적어도 하나를 이용하여 마스킹되는
    장치.
  18. 제13항 내지 제17항에 있어서,
    상기 적어도 하나의 프로세서와 함께 상기 장치로 하여금 적어도 상기 특징 벡터로부터 적어도 하나의 스펙트럼 형상 파라미터를 결정하는 것을 수행하게 하도록 구성된 상기 적어도 하나의 메모리 및 상기 컴퓨터 코드는
    상기 특징 벡터로부터 상기 적어도 하나의 스펙트럼 형상을 결정하기 위해 신경망을 이용하는 것을 수행하도록 더 구성되고, 상기 오디오 신호로부터 추출된 상기 특징 벡터는 상기 신경망에 대한 입력 타깃 벡터를 형성하며, 상기 신경망은 상기 입력 타깃 벡터에 부 대역 스펙트럼 형상 파라미터를 제공하도록 트레이닝되는
    장치.
  19. 제13항 내지 제18항에 있어서,
    상기 스펙트럼 형상 파라미터는 부 대역 에너지 레벨 값인
    장치.
  20. 제19항에 있어서,
    상기 스펙트럼 형상 파라미터는 상기 부 대역 에너지 레벨 값에 기반하는 부 대역 이득 계수인
    장치.
  21. 제19항 및 제20항에 있어서,
    상기 부 대역 에너지 레벨 값은 상기 오디오 신호의 전력이 상기 오디오 신호의 잡음 레벨 추정치에 접근할 때 감쇠되는
    장치.
  22. 제13항 내지 제21항에 있어서,
    상기 특징 벡터의 상기 적어도 하나의 주파수 도메인 성분 특징은
    각각이 상기 오디오 신호의 중복 대역의 에너지에 대응하는 상기 오디오 신호의 복수의 에너지 레벨의 그룹과,
    상기 오디오 신호의 주파수 도메인 스펙트럼의 중심을 나타내는 값과,
    상기 주파수 도메인 스펙트럼의 평탄도를 나타내는 값 중 적어도 하나를 포함하는
    장치.
  23. 제13항 내지 제22항에 있어서,
    상기 특징 벡터의 상기 적어도 하나의 시간 도메인 성분 특징은
    상기 오디오 신호의 파형 방향으로 변화를 가져오는 상기 오디오 신호 내 지점에서의 그래디언트(gradient)의 합에 기반하는 그래디언트 인덱스와,
    상기 오디오 신호의 이전 프레임의 에너지에 대한 상기 오디오 신호의 프레임의 에너지의 비율과,
    상기 오디오 신호의 프레임이 활성 또는 비활성으로 분류되는지의 여부를 나타내는 음성 활동 검출기 중 적어도 하나를 포함하는
    장치.
  24. 제13항 내지 제23항 중 어느 한 항에 있어서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 코드는 대역폭 확장 오디오 신호를 제공하기 위해 상기 부 대역 신호를 상기 오디오 신호와 결합하는 것을 수행하도록 더 구성되는
    장치.
  25. 소프트웨어 코드가 컴퓨터 판독 가능 매체 내에 저장되는 컴퓨터 프로그램 제품으로서, 상기 코드는 프로세서에 의해 실행될 때,
    오디오 신호로부터 여기 신호를 생성하는 것 - 상기 오디오 신호는 복수의 주파수 성분을 포함함 - 과,
    상기 오디오 신호로부터 특징 벡터를 추출하는 것 - 상기 특징 벡터는 적어도 하나의 주파수 도메인 성분 특징 및 적어도 하나의 시간 도메인 성분 특징을 포함함 - 과,
    상기 특징 벡터로부터 적어도 하나의 스펙트럼 형상 파라미터를 결정하는 것 - 상기 적어도 하나의 스펙트럼 형상 파라미터는 다른 복수의 주파수 성분에 속하는 주파수 성분을 포함하는 부 대역 신호에 대응함 - 과,
    필터 뱅크를 통해 상기 여기 신호를 필터링하며 상기 필터링된 여기 신호를 상기 적어도 하나의 스펙트럼 형상 파라미터로 가중함으로써 상기 부 대역 신호를 생성하는 것을 실현하는
    컴퓨터 프로그램 제품.
  26. 제25항에 있어서,
    프로세서에 의해 실행시 상기 여기 신호를 생성하는 것을 실현하는 상기 코드는
    상기 오디오 신호를 역 선형 예측 필터를 이용하여 필터링함으로써 잔여 신호를 생성하는 것과,
    상기 선형 예측 필터에 기반하는 자동 역행 이동 평균 필터를 포함하는 포스트 필터단을 이용하여 상기 잔여 신호를 필터링하는 것과,
    상기 포스트 필터단으로부터의 출력을 상향 샘플링하고 스펙트럼적으로 폴딩함으로써 상기 여기 신호를 생성하는 것을 더 실현하는
    컴퓨터 프로그램 제품.
  27. 제25항에 있어서,
    상기 포스트 필터단은 스펙트럼 틸트 필터 및 고조파 필터를 더 포함하는
    컴퓨터 프로그램 제품.
  28. 제25항 내지 제27항에 있어서,
    상기 부 대역 신호의 상기 주파수 성분은 복수의 중복 대역들을 포함하는 음향심리적 스케일에 따라 분포되며, 상기 필터 뱅크의 상기 주파수 특성은 상기 부 대역 신호의 주파수 성분의 상기 분포에 대응하는
    컴퓨터 프로그램 제품.
  29. 제28항에 있어서,
    상기 중복 대역은 멜 스케일(mel scale)에 따라 분포되며, 상기 부 대역 신호는 삼각 마스킹 함수 및 사다리꼴 마스킹 함수 중 적어도 하나를 이용하여 마스킹되는
    컴퓨터 프로그램 제품.
  30. 제25항 내지 제29항에 있어서,
    프로세서에 의해 실행시 상기 특징 벡터로부터 적어도 하나의 스펙트럼 형상 파라미터를 결정하는 것을 실현하는 상기 코드는
    상기 특징 벡터로부터 상기 적어도 하나의 스펙트럼 형상을 결정하기 위해 신경망을 이용하는 것을 더 실현하되, 상기 오디오 신호로부터 추출된 상기 특징 벡터는 상기 신경망에 대한 입력 타깃 벡터를 형성하며, 상기 신경망은 상기 입력 타깃 벡터에 부 대역 스펙트럼 형상 파라미터를 제공하도록 트레이닝되는
    컴퓨터 프로그램 제품.
  31. 제25항 내지 제30항에 있어서,
    상기 스펙트럼 형상 파라미터는 부 대역 에너지 레벨 값인
    컴퓨터 프로그램 제품.
  32. 제31항에 있어서,
    상기 스펙트럼 형상 파라미터는 상기 부 대역 에너지 레벨 값에 기반하는 부 대역 이득 계수인
    컴퓨터 프로그램 제품.
  33. 제31항 및 제32항에 있어서,
    상기 부 대역 에너지 레벨 값은 상기 오디오 신호의 전력이 상기 오디오 신호의 잡음 레벨 추정치에 접근할 때 감쇠되는
    컴퓨터 프로그램 제품.
  34. 제25항 내지 제33항에 있어서,
    상기 특징 벡터의 상기 적어도 하나의 주파수 도메인 성분 특징은
    각각이 상기 오디오 신호의 중복 대역의 에너지에 대응하는 상기 오디오 신호의 복수의 에너지 레벨의 그룹과,
    상기 오디오 신호의 주파수 도메인 스펙트럼의 중심을 나타내는 값과,
    상기 주파수 도메인 스펙트럼의 평탄도를 나타내는 값 중 적어도 하나를 포함하는
    컴퓨터 프로그램 제품.
  35. 제25항 내지 제34항에 있어서,
    상기 특징 벡터의 상기 적어도 하나의 시간 도메인 성분 특징은
    상기 오디오 신호의 파형 방향으로 변화를 가져오는 상기 오디오 신호 내 지점에서의 그래디언트(gradient)의 합에 기반하는 그래디언트 인덱스와,
    상기 오디오 신호의 이전 프레임의 에너지에 대한 상기 오디오 신호의 프레임의 에너지의 비율과,
    상기 오디오 신호의 프레임이 활성 또는 비활성으로 분류되는지의 여부를 나타내는 음성 활동 검출기 중 적어도 하나를 포함하는
    컴퓨터 프로그램 제품.
  36. 제25항 내지 제35항 중 어느 한 항에 있어서,
    상기 코드는 대역폭 확장 오디오 신호를 제공하기 위해 상기 부 대역 신호를 상기 오디오 신호와 결합하는 것을 더 실현하는
    컴퓨터 프로그램 제품.
KR1020127033422A 2010-05-25 2010-05-25 대역폭 확장기 KR101461774B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2010/052315 WO2011148230A1 (en) 2010-05-25 2010-05-25 A bandwidth extender

Publications (2)

Publication Number Publication Date
KR20130031849A true KR20130031849A (ko) 2013-03-29
KR101461774B1 KR101461774B1 (ko) 2014-12-02

Family

ID=45003396

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127033422A KR101461774B1 (ko) 2010-05-25 2010-05-25 대역폭 확장기

Country Status (8)

Country Link
US (1) US9294060B2 (ko)
EP (1) EP2577656A4 (ko)
KR (1) KR101461774B1 (ko)
CN (1) CN103026407B (ko)
CA (1) CA2800208C (ko)
RU (1) RU2552184C2 (ko)
SG (1) SG185606A1 (ko)
WO (1) WO2011148230A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200085148A (ko) * 2019-01-04 2020-07-14 삼성전자주식회사 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013066244A1 (en) * 2011-11-03 2013-05-10 Telefonaktiebolaget L M Ericsson (Publ) Bandwidth extension of audio signals
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
JP5949379B2 (ja) * 2012-09-21 2016-07-06 沖電気工業株式会社 帯域拡張装置及び方法
BR112015018023B1 (pt) 2013-01-29 2022-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Aparelho e método para sintetizar um sinal de áudio, decodificador, codificador e sistema
RU2608447C1 (ru) * 2013-01-29 2017-01-18 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
US9336789B2 (en) 2013-02-21 2016-05-10 Qualcomm Incorporated Systems and methods for determining an interpolation factor set for synthesizing a speech signal
US9396734B2 (en) * 2013-03-08 2016-07-19 Google Technology Holdings LLC Conversion of linear predictive coefficients using auto-regressive extension of correlation coefficients in sub-band audio codecs
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
CN105761723B (zh) 2013-09-26 2019-01-15 华为技术有限公司 一种高频激励信号预测方法及装置
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
US20150170655A1 (en) * 2013-12-15 2015-06-18 Qualcomm Incorporated Systems and methods of blind bandwidth extension
US9672843B2 (en) 2014-05-29 2017-06-06 Apple Inc. Apparatus and method for improving an audio signal in the spectral domain
EP2980801A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
RU2582050C1 (ru) * 2015-01-28 2016-04-20 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Пензенский государственный университет" (ФГБОУ ВПО "Пензенский государственный университет") Способ адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9571786B1 (en) * 2015-10-15 2017-02-14 Eth Zurich Systems and methods for interpolating frames of a video
CN105679312B (zh) * 2016-03-04 2019-09-10 重庆邮电大学 一种噪声环境下声纹识别的语音特征处理方法
US10157621B2 (en) * 2016-03-18 2018-12-18 Qualcomm Incorporated Audio signal decoding
US10460747B2 (en) * 2016-05-10 2019-10-29 Google Llc Frequency based audio analysis using neural networks
JP6759898B2 (ja) * 2016-09-08 2020-09-23 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
US9911215B1 (en) 2016-11-04 2018-03-06 Disney Enterprises, Inc. Systems and methods for propagating edits through a video
KR20180056032A (ko) 2016-11-18 2018-05-28 삼성전자주식회사 신호 처리 프로세서 및 신호 처리 프로세서의 제어 방법
US10381020B2 (en) * 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
CN111164682A (zh) * 2017-10-24 2020-05-15 三星电子株式会社 使用机器学习的音频重建方法和设备
EP3775821A1 (en) * 2018-04-11 2021-02-17 Dolby Laboratories Licensing Corporation Perceptually-based loss functions for audio encoding and decoding based on machine learning
US10650806B2 (en) * 2018-04-23 2020-05-12 Cerence Operating Company System and method for discriminative training of regression deep neural networks
CN110570874B (zh) * 2018-06-05 2021-10-22 中国科学院声学研究所 一种用于监测野外鸟类鸣声强度及分布的系统及其方法
EP3624113A1 (en) * 2018-09-13 2020-03-18 Nxp B.V. Apparatus for processing a signal
KR102605961B1 (ko) * 2019-01-13 2023-11-23 후아웨이 테크놀러지 컴퍼니 리미티드 고해상도 오디오 코딩
CN110556123B (zh) 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN110556122B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN112530446B (zh) * 2019-09-18 2023-10-20 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN117975976A (zh) * 2019-09-18 2024-05-03 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
WO2021158531A1 (en) * 2020-02-03 2021-08-12 Pindrop Security, Inc. Cross-channel enrollment and authentication of voice biometrics
US20240087586A1 (en) * 2021-01-29 2024-03-14 Hewlett-Packard Development Company, L.P. Acoustic pattern determination
US11837244B2 (en) * 2021-03-29 2023-12-05 Invictumtech Inc. Analysis filter bank and computing procedure thereof, analysis filter bank based signal processing system and procedure suitable for real-time applications

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455888A (en) 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
DE69619284T3 (de) 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
US6539355B1 (en) * 1998-10-15 2003-03-25 Sony Corporation Signal band expanding method and apparatus and signal synthesis method and apparatus
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
JP2003044098A (ja) * 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
WO2003085644A1 (en) * 2002-04-11 2003-10-16 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device
US20050267739A1 (en) 2004-05-25 2005-12-01 Nokia Corporation Neuroevolution based artificial bandwidth expansion of telephone band speech
US8712768B2 (en) * 2004-05-25 2014-04-29 Nokia Corporation System and method for enhanced artificial bandwidth expansion
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
KR101375582B1 (ko) * 2006-11-17 2014-03-20 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
CN101548316B (zh) * 2006-12-13 2012-05-23 松下电器产业株式会社 编码装置、解码装置以及其方法
US7912729B2 (en) * 2007-02-23 2011-03-22 Qnx Software Systems Co. High-frequency bandwidth extension in the time domain
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8484020B2 (en) * 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
CN102870156B (zh) * 2010-04-12 2015-07-22 飞思卡尔半导体公司 音频通信设备、输出音频信号的方法和通信系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200085148A (ko) * 2019-01-04 2020-07-14 삼성전자주식회사 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법

Also Published As

Publication number Publication date
WO2011148230A1 (en) 2011-12-01
US20130144614A1 (en) 2013-06-06
SG185606A1 (en) 2012-12-28
KR101461774B1 (ko) 2014-12-02
US9294060B2 (en) 2016-03-22
RU2012151035A (ru) 2014-06-27
EP2577656A4 (en) 2014-09-10
CA2800208C (en) 2016-05-17
EP2577656A1 (en) 2013-04-10
CA2800208A1 (en) 2011-12-01
CN103026407B (zh) 2015-08-26
RU2552184C2 (ru) 2015-06-10
CN103026407A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
KR101461774B1 (ko) 대역폭 확장기
AU2009278263B2 (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
EP1638083B1 (en) Bandwidth extension of bandlimited audio signals
EP1252621B1 (en) System and method for modifying speech signals
JP5127754B2 (ja) 信号処理装置
US7734462B2 (en) Method and apparatus for extending the bandwidth of a speech signal
JP4818335B2 (ja) 信号帯域拡張装置
EP1995723A1 (en) Neuroevolution training system
JP5443547B2 (ja) 信号処理装置
JP6333043B2 (ja) 音声信号処理装置
BRPI0911932A2 (pt) equipamento e método para processamento de um sinal de áudio para intensificação de voz utilizando uma extração de característica

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee