KR101701759B1 - 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체 - Google Patents

입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체 Download PDF

Info

Publication number
KR101701759B1
KR101701759B1 KR1020147002353A KR20147002353A KR101701759B1 KR 101701759 B1 KR101701759 B1 KR 101701759B1 KR 1020147002353 A KR1020147002353 A KR 1020147002353A KR 20147002353 A KR20147002353 A KR 20147002353A KR 101701759 B1 KR101701759 B1 KR 101701759B1
Authority
KR
South Korea
Prior art keywords
analysis
factor
time
potential
domain
Prior art date
Application number
KR1020147002353A
Other languages
English (en)
Other versions
KR20140027533A (ko
Inventor
퍼 에크스트란드
라르스 팔크 빌레모에스
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Priority claimed from PCT/EP2010/053222 external-priority patent/WO2010086461A1/en
Publication of KR20140027533A publication Critical patent/KR20140027533A/ko
Application granted granted Critical
Publication of KR101701759B1 publication Critical patent/KR101701759B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 신호들을 시간 및/또는 주파수적으로 전위하는 것에 관한 것이며, 특히, 오디오 신호들의 코딩에 관한 것이다. 특히, 본 발명은 주파수 도메인 고조파 전위기를 포함하는 고 주파수 재구성(HFR) 방법들에 관한 것이다. 전위 인자(transposition factor) T를 사용하여 입력 신호로부터 전위된 출력 신호를 생성하기 위한 방법 및 시스템이 설명된다. 이 시스템은 입력 신호의 프레임을 추출하는 길이 La의 분석 윈도우 및 샘플들을 M 개의 복소 계수들로 변환하는 차수(order) M의 분석 변환 유닛을 포함한다. M은 전위 인자 T의 함수이다. 이 시스템은 전위 인자 T를 사용하여 복소 계수들의 위상을 변화시키는 비선형 처리 유닛, 변경된 계수들을 M 개의 변경된 샘플들로 변환하는 차수 M의 합성 변환 유닛, 및 출력 신호의 프레임을 생성하는 길이 Ls의 합성 윈도우를 추가로 포함한다.

Description

입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체{A SYSTEM AND METHOD FOR TRANSPOSING AN INPUT SIGNAL, AND A COMPUTER-READABLE STORAGE MEDIUM HAVING RECORDED THEREON A COPUTER PROGRAM FOR PERFORMING THE METHOD}
본 발명은 주파수적으로 신호들을 전위하는 것 및/또는 시간적으로 신호를 스트레칭하는 것/압축하는 것에 관한 것이며, 특히, 오디오 신호들을 코딩하는 것에 관한 것이다. 즉, 본 발명은 시간-스케일 및/또는 주파수-스케일 변경에 관한 것이다. 보다 구체적으로, 본 발명은 주파수 도메인 고조파 전위기(frequency domain harmonic transposer)를 포함하는 고 주파수 재구성(HFR: high frequency reconstruction)에 관한 것이다.
SBR(Spectral Band Replication) 기술과 같은 HFR 기술들은 전통적인 지각적 오디오 코덱들의 코딩 효율을 상당히 개선시킨다. MPEG-4 AAC(Advanced Audio Coding)와 조합하여, SBR은 XM 위성 라디오 시스템 및 DRM(Digital Radio Mondiale) 내에서 이미 사용되고 또한 3GPP, DVD 포럼 등에서 표준화된, 매우 효율적인 오디오 코덱을 형성한다. ACC와 SBR의 조합은 aacPlus로 불린다. 그것은 MPEG-4 표준의 일부분이며, MPEG 표준에서 그것은 HE-AAC(High Efficiency AAC Profile)로 불린다. 일반적으로, HFR 기술은 역방향 및 순방향 호환가능 방식으로 임의의 지각적 오디오 코덱과 조합될 수 있어서, 유레카 DAB 시스템에서 사용되는 MPEG 계층-2와 같은 이미 구축된 방송 시스템들을 업그레이드할 가능성을 제공한다. HFR 전위 방법들은 또한 음성 코덱들과 조합되어, 초저 비트 레이트들(ultra low bit rates)에서의 광대역 음성을 가능하게 할 수 있다.
HRF의 기본 아이디어는, 한 신호의 고 주파수 범위의 특성들과, 같은 신호의 저 주파수 범위의 특성들 간에 강한 상관관계가 대체로 존재한다는 관찰이다. 따라서, 저 주파수 범위에서 고 주파수 범위로의 신호 전위에 의해, 한 신호의 원래 입력된 고 주파수 범위의 표현에 대한 양호한 근사(good approximation)가 얻어질 수 있다.
전위(transposition)라는 개념은, 이 명세서에 참고문헌으로 포함되는 WO 98/57436에서, 오디오 신호의 보다 낮은 주파수 대역으로부터 고 주파수 대역을 재생하기 위한 방법으로서 확립되어 있다. 오디오 코딩 및/또는 음성 코딩에서 이 개념을 사용함으로써, 비트-레이트의 상당한 절약이 얻어질 수 있다. 이하에서 오디오 코딩이 참조될 것이지만, 설명되는 방법들 및 시스템들은 음성 코딩과, 병합된 음성 및 오디오 코딩(USAC)에 동일하게 적용가능하다는 것을 주목하여야 한다.
HFR 기반 오디오 코딩 시스템에서, 저 대역폭 신호가 인코딩을 위한 코어 파형 코더(core waveform coder)에 제공되고, 보다 높은 주파수들이 저 대역폭 신호의 전위 및 추가적인 여분의 정보(additional side information)를 이용하여 디코더 측에서 다시 생성되는데, 여기서 추가적인 여분의 정보는 전형적으로 매우 낮은 비트-레이트들에서 인코딩되고 타겟 스펙트럼 모양(target spectrum shape)을 기술(describe)한다. 코어 코딩된 신호의 대역폭이 좁은 낮은 비트-레이트들에 대하여, 지각적으로 기분 좋은 특성들을 갖는 고대역, 즉, 오디오 신호의 고 주파수 범위를 다시 생성하거나 합성하는 것이 점차적으로 중요해지고 있다.
종래 기술에는, 예를 들어, 고조파 전위(harmonic transposition), 또는 시간-스트레칭을 사용하는 고 주파수 재구성을 위한 몇몇 방법들이 존재한다. 하나의 방법은, 충분히 높은 주파수 해상도로 주파수 분석을 수행하는 원리 하에서 동작하는 위상 보코더들(phase vocoders)에 기초한다. 신호 수정은 신호를 재-합성하기 전에 주파수 도메인에서 수행된다. 이 신호 수정은 시간-스트레칭 또는 전위 동작일 수 있다.
이 방법들에 존재하는 근본적인 문제점들 중 하나는, 정상 사운드들(stationary sounds)에 대한 고품질 전위를 얻기 위해 의도된 고 주파수 해상도와, 순간적인 또는 퍼큐시브한(transient or percussive sounds) 사운드들에 대한 시스템의 시간 응답이라는 반대되는 제약들이다. 즉, 고 주파수 해상도의 사용이 정상 신호들의 전위를 위해 유익하지만, 이러한 고 주파수 해상도는 신호의 순간적인 부분들을 처리할 때 불리한 큰 윈도우 크기들을 대개 요구한다. 이 문제점을 처리하기 위한 하나의 방식은, 입력 신호 특성들의 함수로서 전위기(transposer)의 윈도우들을 적응적으로, 예를 들어, 윈도우-스위칭을 사용하여, 바꾸는 것일 수 있다. 전형적으로는, 긴 윈도우들은 고 주파수 해상도를 달성하기 위해 신호의 정상 부분들에 대하여 사용될 것이고, 짧은 윈도우들은 전위기의 양호한 순간적인 응답, 즉, 양호한 임시 해상도를 구현하기 위해, 신호의 순간적인 부분들에 대하여 사용될 것이다. 그러나, 이 방식은, 순간적인 탐지 등과 같은 신호 분석 수단들이 전위 시스템에 통합되어야 한다는 단점을 갖는다. 이러한 신호 분석 수단들은 종종 결정 단계, 예를 들어, 신호 처리의 스위칭을 트리거링하는 순간의 존재에 대한 결정을 수반한다. 또한, 이러한 수단들은 전형적으로 시스템의 신뢰도에 영향을 미치고, 그들은 신호 처리를 스위칭할 때, 예를 들어, 윈도우 크기들 간에 스위칭할 때 신호 아티펙트들(signal artifacts)을 도입시킬 수 있다.
본 발명은 윈도우 스위칭을 필요로 하지 않으면서 고조파 전위의 순간적인 수행에 대한 앞서 설명된 문제점들을 해결한다. 또한, 개선된 고조파 전위가 낮은 추가적인 복잡도에서 이루어진다.
본 발명은 고조파 전위에 대한 알려진 방법들에 대한 여러가지 개선들뿐만 아니라, 고조파 전위에 대한 개선된 순간적인 수행의 문제점에 관한 것이다. 또한, 본 발명은 제안된 개선들을 유지하면서, 추가적인 복잡도를 최소한으로 유지하는 방법을 개략적으로 설명한다.
무엇보다, 본 발명은 다음의 양태들 중 적어도 하나를 포함할 수 있다:
- 전위기의 동작 포인트의 전위 인자(transposition factor)의 함수인 인자(factor)에 의해 주파수적으로 오버샘플링하는 것;
- 분석 및 합성 윈도우들의 조합의 적절한 선택; 및
- 다른 전위된 신호들이 조합되는 경우에 대하여, 이러한 신호들의 시간-얼라인먼트(time-alignment)를 보장하는 것.
본 발명의 한 양태에 따라, 전위 인자 T를 사용하여 입력 신호로부터 전위된 출력 신호를 생성하기 위한 시스템이 설명된다. 전위된 출력 신호는 입력 신호의 시간-스트레칭된 및/또는 주파수-시프트된 버전일 수 있다. 입력 신호에 관련하여, 전위된 출력 신호는 전위 인자 T에 의해 시간적으로 스트레칭될 수 있다. 대안적으로, 전위된 출력 신호의 주파수 성분들은 전위 인자 T만큼 상향 시프트될 수 있다.
이 시스템은 입력 신호의 L 샘플들을 추출하는 길이 L의 분석 윈도우를 포함할 수 있다. 전형적으로, 입력 신호들의 L 샘플들은 시간 도메인 내의 입력 신호, 예를 들어, 오디오 신호의 샘플들이다. 추출된 L 샘플들은 이 입력 신호의 한 프레임으로 참조된다. 이 시스템은, L 시간-도메인 샘플들을 M 개의 복소 계수들(M complex coefficients)로 변환시키는, 차수(order) M=F*L의 분석 변환 유닛을 더 포함하며, 여기서 F는 주파수 오버샘플링 인자(frequency oversampling factor)이다. M 개의 복소 계수들은 전형적으로 주파수 도메인 내의 계수들이다. 분석 변환은 푸리에 변환(Fourier transform), 고속 푸리에 변환, 이산 푸리에 변환, 웨이브렛(Wavelet) 변환, 또는 (변조가능한) 필터 뱅크(filter bank)의 분석 단(stage)일 수 있다. 오버샘플링 인자 F는 전위 인자 T에 기초하거나 전위 인자 T의 함수이다.
오버샘플링 동작은 또한 추가적인 (F-1)*L 제로들(zeros)에 의한 분석 윈도우의 제로 패딩(zero padding)으로 불릴 수 있다. 이는 또한 분석 윈도우의 크기보다 인자 F만큼 큰 분석 변환 M의 크기를 선택하는 것으로도 볼 수 있다.
이 시스템은 또한 전위 인자 T를 사용하여, 복소 계수들의 위상을 변화시키는 비선형 처리 유닛을 포함할 수 있다. 위상의 변화는 복소 계수들의 위상에 전위 인자 T를 곱하는 것을 포함할 수 있다. 추가로, 이 시스템은, 변경된 계수들을 M 개의 변경된 샘플들로 변환시키는 차수 M의 합성 변환 유닛, 및 출력 신호를 생성하기 위한 길이 L의 합성 윈도우를 포함할 수 있다. 이 합성 변환은 역 푸리에 변환, 역 고속 푸리에 변환, 역 이산 푸리에 변환, 역 웨이브렛 변환, 또는 (가능하면) 변조된 필터 뱅크의 합성 단일 수 있다. 전형적으로, 분석 변환 및 합성 변환은, 예를 들어, 전위 인자 T=1일 때 입력 신호의 완벽한 재구성을 이루기 위해 서로 관련된다.
본 발명의 다른 양태에 따라, 오버샘플링 인자 F는 전위 인자 T에 비례한다. 특히, 오버샘플링 인자 F는 (T+1)/2 이상일 수 있다. 이 오버샘플링 인자 F의 선택은, 전위에 의해 발생될 수 있는 원하지 않는 신호 아티펙트들, 예를 들어, 사전- 및 사후-에코들이 합성 윈도우에 의해 제거된다는 것을 보증한다.
보다 일반적으로, 분석 윈도우의 길이는 La이고, 합성 윈도우의 길이는 Ls일 수 있다는 것이 주목되어야 한다. 또한, 이러한 경우들에서, 전위 인자 T에 기초하여, 즉, 전위 인자 T의 함수로서 변환 유닛 M의 차수를 선택하는 것이 유익할 수 있다. 또한, 분석 윈도우 및 합성 윈도우의 평균 길이보다 크도록, 즉, (La+Ls)/2 보다 크도록 M을 선택하는 것이 이로울 수 있다. 일 실시예에서, 변환 유닛 M의 차수와 평균 윈도우 길이 간의 차는 (T-I)에 비례한다. 추가의 실시예에서, M은 (TLa+Ls)/2 이상이 되도록 선택된다. 분석 윈도우와 합성 윈도우의 길이가 동일한 경우, 즉, La=Ls=L인 경우는 상기의 일반적인 경우의 특별한 경우라는 것이 주의되어야 한다. 이 일반적인 경우에 대하여, 오버샘플링 인자 F는,
Figure 112014008704783-pat00001
일 수 있다.
이 시스템은 입력 신호를 따라서 Sa개의 샘플들의 분석 폭(analysis stride)만큼 분석 윈도우를 시프트하는(shift) 분석 폭 유닛을 더 포함할 수 있다. 분석 폭 유닛의 결과, 입력 신호의 프레임들의 연속이 생성된다. 이외에, 이 시스템은 Ss개의 샘플들의 합성 폭(synthesis stride)만큼 합성 윈도우 및/또는 출력 신호의 연속적인 프레임들을 시프트하는 합성 폭 유닛을 포함할 수 있다. 그 결과, 오버랩-더하기 유닛(overlap-add unit) 내에서 오버래핑되고 더해질 수 있는 출력 신호의 시프트된 프레임들의 연속이 생성된다.
즉, 분석 윈도우는, 예를 들어, 입력 신호의 L 샘플들의 세트에 제로가 아닌 윈도우 계수들을 곱함으로써, 입력 신호의 L 또는 보다 일반적으로 La 샘플들을 추출하거나 격리시킬 수 있다. 이러한 L 샘플들의 세트는 입력 신호 샘플 또는 입력 신호의 샘플로 불릴 수 있다. 분석 폭 유닛은 입력 신호를 따라 분석 윈도우를 시프트하여 입력 신호의 다른 프레임을 선택하는데, 즉, 그것은 입력 신호의 프레임들의 시퀀스(sequence)를 생성한다. 연속적인 프레임들 간의 샘플 거리는 분석 폭에 의해 주어진다. 유사한 방법으로, 합성 폭 유닛은 합성 윈도우 및/또는 출력 신호의 프레임들을 시프트하는데, 즉, 그것은 출력 신호의 시프트된 프레임들의 시퀀스를 생성한다. 출력 신호의 연속적인 프레임들 간의 샘플 거리는 합성 폭에 의해 주어진다. 출력 신호의 프레임들의 시퀀스를 오버래핑하고 시간적으로 동시에 일어나는 샘플 값들을 더함으로써, 출력 신호가 결정될 수 있다.
본 발명의 추가의 양태에 따라, 합성 폭은 분석 폭의 T배이다. 이러한 경우들에서, 출력 신호는 입력 신호에 대응하고, 전위 인자 T에 의해 시간적으로 스트레칭된다. 즉, 합성 폭를 분석 폭 보다 T배 크게 선택함으로써, 입력 신호에 관련한 출력 신호의 시간 시프트 또는 시간 스트레칭이 얻어질 수 있다. 이 시간 시프트의 차수는 T이다.
즉, 앞서 언급된 시스템은 다음처럼 설명될 수 있다: 분석 윈도우 유닛, 분석 변환 유닛, 및 분석 폭 Sa를 갖는 분석 폭 유닛을 사용하여, M 개의 복소 계수들의 세트들의 모음 또는 시퀀스가 입력 신호로부터 결정될 수 있다. 분석 폭은, 분석 윈도우가 입력 신호를 따라 앞으로 움직이는, 샘플들의 수를 정의한다. 2개의 연속적인 샘플들 사이의 경과 시간이 샘플링 레이트에 의해 주어지므로, 분석 폭은 또한 입력 신호의 2개의 프레임들 사이의 경과 시간을 정의한다. 그 결과, M 개의 복소 계수들의 2개의 연속적인 세트들 사이의 경과 시간은 분석 폭 Sa에 의해 주어진다.
복소 계수들의 위상이, 예를 들어, 그 위상에 전위 인자 T를 곱함으로써, 변경될 수 있는 비선형 처리 유닛을 통과한 후, M 개의 복소 계수들의 세트들의 모음 또는 시퀀스는 시간-도메인으로 재-변환(re-converted)될 수 있다. M 개의 변경된 복소 계수들의 각각의 세트는 합성 변환 유닛을 사용하여 M 개의 변경된 샘플들로 변환될 수 있다. 합성 윈도우 유닛 및 합성 폭 Ss를 갖는 합성 폭 유닛을 포함하는 후속하는 오버랩-더하기 동작(overlap-add opperation)에서, M 개의 변경된 샘플들의 세트들의 모음이 출력 신호를 형성하기 위해 오버래핑되고 더해질 수 있다. 이 오버랩-더하기 동작에서, M 개의 변경된 샘플들의 연속적인 세트들은, 출력 신호를 산출하기 위해 합성 윈도우가 곱해지고 연이어 더해지기 전에, 서로에 대하여 Ss 샘플들만큼 시프트될 수 있다. 그 결과, 합성 폭 Ss가 분석 폭 Sa의 T배이면, 신호는 인자 T에 의해 시간 스트레칭될 수 있다.
본 발명의 추가의 양태에 따라, 합성 윈도우는 분석 윈도우 및 합성 폭으로부터 유도된다. 특히, 합성 윈도우는 다음 공식에 의해 주어질 수 있으며:
Figure 112014008704783-pat00002
여기서,
Figure 112014008704783-pat00003
은 합성 윈도우이고,
Figure 112014008704783-pat00004
은 분석 윈도우이고, Δt는 합성 폭 Ss이다. 분석 및/또는 합성 윈도우는 가우시안 윈도우, 코사인 윈도우, 해밍 윈도우(Hamming window), 한 윈도우(Hann window), 사각형 윈도우, 바클렛 윈도우들(Bartlett windows), 블랙맨 윈도우들(Blackman windows), 함수
Figure 112014008704783-pat00005
이고, 여기서, 분석 윈도우와 합성 윈도우가 길이가 다른 경우, L은 각각 La 또는 Ls일 수 있는 상기 함수를 갖는 윈도우 중 하나일 수 있다.
본 발명의 다른 양태에 따라, 이 시스템은, 예를 들어, 전위 인자 T에 의해 출력 신호의 레이트 컨버전을 수행하여, 전위된 출력 신호를 산출하는 축소 유닛(contraction unit)을 더 포함한다. 합성 폭을 분석 폭의 T배가 되도록 선택함으로써, 앞서 개략적으로 설명된 바와 같이, 시간-스트레칭된 출력 신호가 얻어질 수 있다. 시간-스트레칭된 신호의 샘플링 레이트가 인자 T에 의해 증가하거나 시간-스트레칭된 신호가 인자 T에 의해 다운-샘플링되면, 입력 신호에 대응하는 전위된 출력 신호가 생성되고, 전위 인자 T에 의해 주파수-시프트될 수 있다. 다운샘플링 동작은 출력 신호의 샘플들의 한 하위 세트만을 선택하는 단계를 포함할 수 있다. 전형적으로, 출력 신호의 매 T번째 샘플만이 보유될 수 있다. 대안적으로, 샘플링 레이트가 인자 T에 의해 증가될 수 있는데, 즉, 샘플링 레이트는 T배 높은 것으로 해석된다. 즉, 재-샘플링 또는 샘플링 레이트 컨버전은 샘플링 레이트가 보다 높은 값 또는 낮은 값으로 바뀌는 것을 의미한다. 다운샘플링은 보다 낮은 값으로의 레이트 컨버전을 의미한다.
본 발명의 추가의 양태에 따라, 이 시스템은 입력 신호로부터 제 2 출력 신호를 생성할 수 있다. 이 시스템은, 제 2 전위 인자 T2을 사용하여 복소 계수들의 위상을 변화시키는 제 2 비선형 처리 유닛 및 제 2 합성 폭만큼 합성 윈도우 및/또는 제 2 출력 신호의 프레임들을 시프트시키는 제 2 합성 폭 유닛을 포함할 수 있다. 위상을 변화시키는 것은 위상에 인자 T2를 곱하는 것을 포함할 수 있다. 제 2 전위 인자를 사용하여 복소 계수들의 위상을 변화시키고, 제 2 변경된 계수들을 M 개의 제 2 변경된 샘플들로 변환시키고, 합성 윈도우를 적용함으로써, 입력 신호의 프레임으로부터 제 2 출력 신호의 프레임들이 생성될 수 있다. 제 2 출력 신호의 프레임들의 시퀀스에 제 2 합성 폭을 적용함으로써, 제 2 출력 신호가 오버랩-더하기 유닛에서 생성될 수 있다.
제 2 출력 신호는, 예를 들어, 제 2 전위 인자 T2에 의해 제 2 출력 신호의 레이트 컨버전을 수행하는 제 2 축소 유닛에서 축소될 수 있다. 이것인 제 2 전위된 출력 신호를 산출한다. 요약하여, 제 1 전위된 출력 신호는 제 1 전위 인자 T를 사용하여 생성될 수 있고, 제 2 전위된 출력 신호는 제 2 전위 인자 T2를 사용하여 생성될 수 있다. 그 후, 이들 2개의 전위된 출력 신호들은 전체 전위된 신호를 산출하기 위해 결합 유닛에서 병합될 수 있다. 병합 동작은 2개의 전위된 출력 신호들을 더하는 것을 포함할 수 있다. 복수의 전위된 출력 신호들의 이러한 생성 및 조합은 합성되는 고 주파수 신호 성분의 양호한 근사들을 얻기 위해 유익할 수 있다. 임의의 수의 전위된 출력 신호들이 복수의 전위 인자들을 사용하여 생성될 수 있다는 것이 주의되어야 한다. 이 복수의 전위된 출력 신호들은 그 후 전체 전위된 출력 신호를 산출하기 위해 결합 유닛에서 병합, 예를 들어, 더해질 수 있다.
병합하기 전에, 결합 유닛이 제 1 및 제 2 전위된 출력 신호들을 가중하는 것은 유익할 수 있다. 가중하는 것은, 제 1 및 제 2 전위된 출력 신호들의 에너지 또는 대역폭 당 에너지가 각각 입력 신호의 에너지 또는 대역폭 당 에너지에 대응하도록 수행될 수 있다.
본 발명의 추가의 양태에 따라, 이 시스템은, 결합 유닛에 들어가기 전에, 제 1 및 제 2 전위된 출력 신호들에 시간 오프셋을 적용하는 얼라인먼트 유닛(alignment unit)을 포함할 수 있다. 이러한 시간 오프셋은 시간 도메인에서, 다른 것들에 관하여 2개의 전위된 출력 신호들을 시프트하는 것을 포함할 수 있다. 시간 오프셋은 전위 인자 및/또는 윈도우의 길이의 함수일 수 있다. 특히, 시간 오프셋은,
Figure 112014008704783-pat00006
으로 결정될 수 있다.
본 발명의 또다른 양태에 따라, 앞서 설명된 전위 시스템은 오디오 신호를 포함하는 수신된 멀티미디어 신호를 디코딩하기 위한 시스템에 임베딩될 수 있다. 디코딩 시스템은 앞서 개략적으로 설명된 시스템에 대응하는 전위 유닛을 포함할 수 있으며, 여기서, 입력 신호는 전형적으로 오디오 신호의 저 주파수 성분이고, 출력 신호는 오디오 신호의 고 주파수 성분이다. 즉, 입력 신호는 전형적으로 특정 대역폭을 갖는 저역 통과 신호이고, 출력 신호는 전형적으로 보다 높은 대역폭의 대역통과 신호이다. 또한, 그것은 수신된 비트스트림으로부터의 오디오 신호의 저 주파수 성분을 디코딩하기 위한 코어 디코더를 포함할 수 있다. 이러한 코어 디코더는 돌비(Dolby) E, 돌비 디지털, 또는 AAC와 같은 코딩 방식에 기초할 수 있다. 특히, 이러한 디코딩 시스템은 오디오 신호 및 비디오와 같은 다른 신호들을 포함하는 수신된 멀티미디어 신호를 디코딩하기 위한 셋-톱 박스일 수 있다.
본 발명은 또한 전위 인자 T에 의해 입력 신호를 전위하기 위한 방법을 설명한다는 것이 주의되어야 한다. 이 방법은 앞서 개략적으로 설명된 시스템에 대응하고, 앞서 설명된 양태들의 임의의 조합을 포함할 수 있다. 그것은 길이 L의 분석 윈도우를 사용하여 입력 신호의 샘플들을 추출하는 단계와 전위 인자 T의 함수로서 오버샘플링 인자 F를 선택하는 단계를 포함할 수 있다. 그것은 L 샘플들을 시간 도메인에서 주파수 도메인으로 변환하여 F*L 복소 계수들을 산출하는 단계와 전위 인자 T로 복소 계수들의 위상을 변화시키는 단계를 더 포함할 수 있다. 추가의 단계들에서, 이 방법은 F*L 변경된 복소 계수들을 시간 도메인으로 변환하여, F*L 변경된 샘플들을 산출할 수 있고, 그것은 길이 L의 합성 윈도우를 사용하여 출력 신호를 생성할 수 있다. 이 방법은 또한 분석 및 합성 윈도우의 일반적인 길이들, 즉, 앞서 개략적인 설명에서의 일반적인 La 및 Ls에 적응될 수 있다.
본 발명의 추가의 양태에 따라, 이 방법은 입력 신호를 따라 Sa 샘플들의 분석 폭만큼 분석 윈도우를 시프트하는 단계 및/또는 Ss 샘플들의 합성 폭에 의해 출력 신호의 프레임들 및/또는 합성 윈도우를 시프트하는 단계를 포함할 수 있다. 합성 폭을 분석 폭의 T배가 되도록 선택함으로써, 출력 신호는 인자 T에 의해 입력 신호에 대하여 시간-스트레칭될 수 있다. 전위 인자 T에 의해 출력 신호의 레이트 컨버전을 수행하는 추가의 단계가 실행될 때, 전위된 출력 신호가 얻어질 수 있다. 이러한 전위된 출력 신호는 입력 신호의 대응하는 주파수 성분들에 관하여 인자 T만큼 상향 시프트된 주파수 성분들을 포함할 수 있다.
이 방법은 제 2 출력 신호를 생성하기 위한 단계들을 더 포함할 수 있다. 이는, 제 2 합성 폭만큼 제 2 출력 신호의 프레임들 및/또는 합성 윈도우를 시프트시킴으로써, 제 2 전위 인자 T2를 사용하여 복소 계수들의 위상을 변화시켜 구현될 수 있다. 제 2 출력 신호는 제 2 전위 인자 T2 및 제 2 합성 폭을 사용하여 생성될 수 있다. 제 2 전위 인자 T2에 의해 제 2 출력 신호의 레이트 컨버전을 수행함으로써, 제 2 전위된 출력 신호가 생성될 수 있다. 결국, 제 1 및 제 2 전위된 출력 신호들을 병합함으로써, 상이한 전위 인자들을 갖는 2개 이상의 전위들에 의해 생성된 고 주파수 신호 성분들을 포함하는 병합된 또는 전체 전위된 출력 신호가 얻어질 수 있다.
본 발명의 다른 양태들에 따라, 본 발명은 프로세서상에서의 실행을 위해 적응된 및 컴퓨팅 장치상에서 수행될 때 본 발명의 방법 단계들을 수행하도록 적응된 소프트웨어 프로그램을 기술한다. 본 발명은 또한 프로세서상에서의 실행을 위해 적응된 및 컴퓨팅 장치상에서 수행될 때 본 발명의 방법 단계들을 수행하도록 적응된 소프트웨어 프로그램을 포함하는 저장 매체를 기술한다. 또한, 본 발명은 컴퓨터상에서 실행될 때 본 발명의 방법을 수행하기 위한 실행가능 명령어들을 포함하는 컴퓨터 프로그램 제품을 설명한다.
추가의 양태에 따라, 전위 인자 T에 의해 입력 신호를 전위하기 위한 다른 방법 및 시스템이 설명된다. 이 방법 및 시스템은 홀로 사용되거나, 앞서 개략적으로 설명된 방법들 및 시스템들과 조합하여 사용될 수 있다. 본 명세서에서 개략적으로 설명된 특징들 중 어느 것도 이 방법/시스템에 적용될 수 있고, 반대일 수도 있다.
이 방법은, 길이 L의 분석 윈도우를 사용하여 입력 신호의 샘플들의 프레임을 추출하는 단계를 포함할 수 있다. 그 후, 입력 신호의 프레임은 시간 도메인에서 주파수 도메인으로 변환되어, M 개의 복소 계수들을 산출한다. 복소 계수들의 위상은 전위 인자 T에 의해 변경될 수 있고, M 개의 변경된 복소 계수들은 시간 도메인으로 변환되어, M 개의 변경된 샘플들을 산출한다. 결국, 출력 신호의 프레임은 길이 L의 합성 윈도우를 사용하여 생성될 수 있다. 이 방법 및 시스템은 서로 다른 분석 윈도우 및 합성 윈도우를 사용할 수 있다. 분석 및 합성 윈도우는 그들의 모양, 그들의 길이, 윈도우들을 정의하는 계수들의 수, 및/또는 윈도우들을 정의하는 계수들의 값들에 대하여 서로 다를 수 있다. 이렇게 함으로써, 분석 및 합성 윈도우들의 선택에의 추가적인 자유도가 얻어질 수 있어, 전위된 출력 신호의 앨리어싱(aliasing)이 줄거나 제거될 수 있다.
다른 양태에 따라, 분석 윈도우와 합성 윈도우는 서로에 대하여 배직교(bi-orthogonal)한다. 합성 윈도우
Figure 112014008704783-pat00007
Figure 112014008704783-pat00008
에 의해 주어지며, 여기서 c는 상수이고,
Figure 112014008704783-pat00009
은 분석 윈도우(311)이고,
Figure 112014008704783-pat00010
는 합성 윈도우의 시간-폭이고, s(m)는
Figure 112014008704783-pat00011
에 의해 주어진다. 합성 윈도우의 시간 폭
Figure 112014008704783-pat00012
은 전형적으로 합성 폭 Ss에 대응한다.
다른 양태에 따라, 분석 윈도우는 그것의 z 변환이 단위원 상에서 이중 제로들을 갖도록 선택될 수 있다. 분석 윈도우의 z 변환은 단위원 상에서 단지 이중 제로들만을 갖는 것이 바람직하다. 예를 들어, 분석 윈도우는 스퀘어 사인 윈도우(squared sine window)일 수 있다. 다른 예에서, 길이 L의 분석 윈도우는 길이 L의 2개의 사인 윈도우들을 컨볼빙하여(convolve) 결정될 수 있으며, 길이 2L-1의 스퀘어 사인 윈도우를 산출한다. 추가의 단계에서, 제로가 스퀘어 사인 윈도우에 부가되어, 길이 2L의 기본 윈도우가 산출된다. 결국, 기본 윈도우는 선형 보간법을 사용하여 다시 샘플링될 수 있고, 이에 따라, 분석 윈도우로서 길이 L의 매우 대칭적인 윈도우를 산출할 수 있다.
본 명세서에 설명된 이 방법들 및 시스템들은 소프트웨어, 펌웨어, 및/또는 하드웨어로서 구현될 수 있다. 특정 요소들이, 예를 들어, 디지털 신호 프로세서 또는 마이크로프로세서 상에서 실행되는 소프트웨어로서 구현될 수 있다. 다른 요소는, 예를 들어, 하드웨어로서 및/또는 애플리케이션 특정 집적 회로들로서 구현될 수 있다. 설명된 방법들 및 시스템들에서 접한 신호들은 RAM 또는 광학 저장 매체와 같은 매체 상에 저장될 수 있다. 그들은 라디오 네트워크들, 위성 네트워크들, 무선 네트워크들, 또는 유선 네트워크들, 예를 들어, 인터넷과 같은 네트워크들을 통해 전송될 수 있다. 본 명세서에 설명된 방법 및 시스템을 사용하는 전형적인 장치들은 오디오 신호들을 디코딩하는 셋-톱 박스들 또는 다른 고객 댁내 장치(customer premise equipment)이다. 인코딩 측 상에서, 이 방법 및 시스템은 방송국들에서, 예를 들어, 비디오 또는 TV 헤드 엔드 시스템들(head end systems)에서 사용될 수 있다.
본 명세서에 설명된 본 발명의 실시예들 및 양태들은 임의적으로 조합될 수 있다는 것이 주목되어야 한다. 특히, 시스템에 대하여 개략적으로 설명된 양태들은 또한 본 발명에 의해 포함된 대응하는 방법에 적용가능하다는 것이 주목되어야 한다. 또한, 본 발명의 개시물은 또한 종속 청구항들 내의 역 참조들에 의해 명시적으로 주어진 청구항 조합들 이외의 다른 청구항 조합들을 커버한다는 것이, 즉, 청구항들 및 그들의 기술적 특징들이 임의의 순서로 및 임의의 구성으로 조합될 수 있다는 것이 주목되어야 한다.
본 발명은 윈도우 스위칭을 필요로 하지 않으면서 고조파 전위의 순간적인 수행에 대한 앞서 설명된 문제점들을 해결한다.
도 1은 고조파 전위기의 분석 및 합성 윈도우들 내에 나타난, 특정 포지션에의 디락(Dirac)을 나타내는 도면.
도 2는 고조파 전위기의 분석 및 합성 윈도우들 내에 나타난, 다른 포지션에의 디락을 나타내는 도면.
도 3은 본 발명에 따라 나타날, 도 2의 포지션에 대한 디락을 나타내는 도면.
도 4는 HFR 개선된 오디오 디코더의 동작을 나타내는 도면.
도 5는 몇몇의 차수들을 사용하는 고조파 전위기의 동작을 나타내는 도면.
도 6은 주파수 도메인(FD) 고조파 전위기의 동작을 나타내는 도면.
도 7은 분석 합성 윈도우들의 연속을 나타내는 도면.
도 8은 다른 폭들에의 분석 및 합성 윈도우들을 나타내는 도면.
도 9는 윈도우들의 합성 폭 상에서 다시-샘플링하는 효과를 나타내는 도면.
도 10 및 도 11은 본 명세서에서 개략적으로 설명된 개선된 고조파 전위 방법들을 사용하는 인코더 및 디코더의 실시예들을 각각 나타내는 도면들.
도 12는 도 10 및 도 11에 나타낸 전위 유닛의 일 실시예를 나타내는 도면.
본 발명은 이제 첨부된 도면들을 참조하여, 본 발명의 취지 및 영역을 제한하지 않으면서, 나타낸 예들의 방식으로 설명될 것이다.
아래 설명된 실시예들은 단지 개선된 고조파 전위에 대한 본 발명의 원리들을 나타낸다. 여기서 설명된 구성들 및 세부사항들의 변경 및 수정은 당업자들에게 자명할 것임이 이해된다. 따라서, 여기의 실시예들에 대한 기술 및 설명으로 나타내진 상세한 세부사항들에 의해서가 아니라 다음의 특허 청구항들의 범위에 의해서만 제한되도록 의도된다.
다음에서, 주파수 도메인에서의 고조파 전위의 원리 및 본 발명에 의해 교시된 제안된 개선들이 개략적으로 설명된다. 고조파 전위의 핵심 요소는 사인곡선들의 주파수를 보존하는 정수 전위 인자 T에 의한 시간 스트레칭이다. 즉, 고조파 전위는 인자 T에 의한 기본 신호의 시간 스트레칭에 기초한다. 시간 스트레칭은, 입력 신호를 구성하는 사인 곡선들의 주파수들이 유지되도록 수행된다. 이러한 시간 스트레칭은 위상 보코더(phase vocoder)를 사용하여 수행될 수 있다. 위상 보코더는 분석 윈도우 va(n) 및 합성 윈도우 vs(n)을 갖는 윈도우잉된 DFT 필터 뱅크(windowed DFT filter bank)에 의해 제공되는 주파수 도메인 표현에 기초한다. 이러한 분석/합성 변환은 또한 단-구간 푸리에 변환(STFT; short-time Fourier Transform)으로 불린다.
단-구간 푸리에 변환은, 오버래핑된 스팩트럼 프레임들의 연속을 얻기 위해 시간-도메인 입력 신호 상에서 수행된다. 가능한 측파대 영향들(side-band effects)을 최소화하기 위해, 적절한 분석/합성 윈도우들, 예를 들어, 가우시안 윈도우들, 코사인 윈도우들, 해밍 윈도우들, 한 윈도우들, 사각형 윈도우들, 바틀렛 윈도우들, 블랙맨 윈도우들, 및 다른 것들이 선택되어야 한다. 입력 신호로부터 모든 스펙트럼 프레임이 픽업(pick up)되는 시간 지연이 홉 크기(hop size) 또는 폭으로 불린다. 입력 신호의 STFT는 분석 단으로 불리며, 입력 신호의 주파수 도메인 표현을 이끌어 낸다. 주파수 도메인 표현은 복수의 하위대역 신호들을 포함하고, 여기서 각각의 하위대역 신호는 입력 신호의 특정 주파수 성분을 표현한다.
그 후, 입력 신호의 주파수 도메인 표현은 원하는 방식으로 처리될 수 있다. 입력 신호의 시간-스트레칭의 목적을 위해, 각각의 하위대역 신호는, 예를 들어, 하위대역 신호 샘플들을 지연시킴으로써 시간-스트레칭될 수 있다. 이것은 분석 홉-크기보다 큰 합성 홉-크기를 사용하여 이루어질 수 있다. 시간 도메인 신호는 프레임들의 연속적인 누적이 뒤따르는 모든 프레임들 상에서 역 (고속) 푸리에 변환을 수행함으로써 다시 구축될 수 있다. 합성 단의 이 동작은 오버랩-더하기 동작으로 불린다. 결과의 출력 신호는 입력 신호로서 같은 주파수 성분들을 포함하는 입력 신호의 시간-스트레칭된 버전이다. 즉, 결과의 출력 신호는 입력 신호와 같은 스펙트럼 요소를 갖지만, 입력 신호보다 느린데, 즉, 그것의 진행이 시간적으로 스트레칭된다.
보다 높은 주파수들로의 전위가 그 후 스트레칭된 신호들의 다운샘플링을 통해 연이어, 또는 통합된 방식으로, 얻어질 수 있다. 그 결과, 전위된 신호는 시간적으로 초기 신호의 길이를 갖지만, 미리-정의된 전위 인자에 의해 상향 시프트된 주파수 성분들을 포함한다.
수학적으로, 위상 보코더는 다음과 같이 설명될 수 있다. 입력 신호 x(t)는 이산 입력 신호 x(n)를 산출하기 위해 샘플링 레이트 R에서 샘플링된다. 분석 단 동안, 연속적인 값들 k에 대한 특정 분석 시간 인스턴트들
Figure 112014008704783-pat00013
에서의 입력 신호 x(n)에 대한 STFT가 결정된다. 분석 시간 인스턴트들은
Figure 112014008704783-pat00014
를 통해 고유하게 선택되는 것이 바람직하며, 여기서
Figure 112014008704783-pat00015
는 분석 홉 인자(analysis hop factor) 또는 분석 폭이다. 이들 분석 시간 인스턴트들
Figure 112014008704783-pat00016
의 각각에서, 본래의(original) 신호 x(n)의 윈도우잉된 부분에 대하여 푸리에 변환이 계산되는데, 여기서 분석 윈도우 va(t)는
Figure 112014008704783-pat00017
주변에서 집중화된다, 즉,
Figure 112014008704783-pat00018
이다. 입력 신호 x(n)의 이 윈도우잉된 부분은 프레임으로 불린다. 그 결과는 입력 신호 x(n)의 STFT 표현이며, 이는 다음처럼 나타내질 수 있으며:
Figure 112014008704783-pat00019
여기서,
Figure 112014008704783-pat00020
는 STFT 분석의 m번째 하위대역 신호의 중앙 주파수이고, M은 이산 푸리에 변환(DFT)의 크기이다. 실제로, 윈도우 함수
Figure 112014008704783-pat00021
는 제한된 기간을 갖는데, 즉, 그것은 샘플들 L의 제한된 수만을 커버하는데, 이는 전형적으로 DFT의 크기 M과 동일하다. 그 결과, 앞의 합은 유한한 수의 인자들을 갖는다. 하위대역 신호들
Figure 112014008704783-pat00022
은 모두 색인 k를 통한 시간 및 하위대역 중앙 주파수
Figure 112014008704783-pat00023
을 통한 주파수의 함수이다.
합성 단은 전형적으로
Figure 112014008704783-pat00024
에 따라 똑같이 분산된, 합성 시간 인스턴트들
Figure 112014008704783-pat00025
에서 수행될 수 있는데, 여기서
Figure 112014008704783-pat00026
는 합성 홉 인자 또는 합성 폭이다. 이들 합성 시간 인스턴트들의 각각에서, 단-구간 신호
Figure 112014008704783-pat00027
이 합성 시간 인스턴트들
Figure 112014008704783-pat00028
에서,
Figure 112014008704783-pat00029
와 동일할 수 있는, STFT 하위대역 신호
Figure 112014008704783-pat00030
를 역-푸리에 변환함으로써 얻어진다. 그러나, 전형적으로 STFT 하위대역 신호들은 수정되어, 예를 들어, 시간-스트레칭되고 및/또는 위상 변조되고 및/또는 진폭 변조되어, 분석 하위대역 신호
Figure 112014008704783-pat00031
는 합성 하위대역 신호
Figure 112014008704783-pat00032
와 다르게 된다. 바람직한 실시예에서, STFT 하위대역 신호들은 위상 변조되는데, 즉, STFT 하위대역 신호들의 위상이 수정된다. 단-구간 합성 신호
Figure 112014008704783-pat00033
는 다음과 같이 나타내질 수 있다:
Figure 112014008704783-pat00034
단-구간 신호
Figure 112014008704783-pat00035
는 합성 시간 인스턴트
Figure 112014008704783-pat00036
에서의 m = 0,...,M - 1에 대한 합성 하위대역 신호들
Figure 112014008704783-pat00037
을 포함하는 전체 출력 신호 y(n)의 성분으로서 보여질 수 있다. 즉, 단-구간 신호
Figure 112014008704783-pat00038
는 특정한 신호 프레임에 대한 역 DFT이다. 전체 출력 신호 y(n)는 모든 합성 시간 인스턴트들
Figure 112014008704783-pat00039
에서 윈도우잉된 단-구간 신호들
Figure 112014008704783-pat00040
을 오버래핑하고 더하여 얻어질 수 있다. 즉, 출력 신호 y(n)는 다음과 같이 나타내질 수 있고,
Figure 112014008704783-pat00041
여기서,
Figure 112015084453442-pat00042
는 합성 시간 인스턴트
Figure 112015084453442-pat00043
주변으로 집중화된 합성 윈도우이다. 합성 윈도우는 전형적으로 제한된 수의 샘플들 L을 가지므로, 앞서 설명된 합은 제한된 수의 인자들만을 포함한다는 것이 주목되어야 한다.
다음에서, 주파수 도메인에서의 시간-스트레칭의 구현이 개략적으로 설명된다. 시간 스트레처(stretcher)의 양태들을 설명하기에 적절한 시작 포인트는 T=1인 경우, 즉, 전위 인자 T가 1과 동일한 경우 및 아무런 스트레칭도 일어나지 않았을 때를 고려하는 것이다. DFT 필터 뱅크의 분석 시간 폭
Figure 112014008704783-pat00044
및 합성 시간 폭
Figure 112014008704783-pat00045
가 동일하다고, 즉,
Figure 112014008704783-pat00046
=
Figure 112014008704783-pat00047
= Δt라고 가정하면, 합성이 뒤따르는 분석의 조합된 효과는 Δt-주기 함수
Figure 112014008704783-pat00048
를 갖는 진폭 변조의 효과이며, 여기서 q(n)=
Figure 112014008704783-pat00049
은 2개의 윈도우들의 점별 프로덕트(point-wise product), 즉, 분석 윈도우 및 합성 윈도우의 점별 프로덕트이다. K(n)=1 또는 다른 상수 값이 되도록 윈도우들을 선택하는 것이 유익한데, 이는, 그에 따라 윈도우잉된 DFT 필터 뱅크가 완벽한 재구성을 얻기 때문이다. 분석 윈도우
Figure 112014008704783-pat00051
이 주어지고 분석 윈도우가 폭 Δt에 비해 충분히 긴 지속이면,
Figure 112014008704783-pat00052
에 따라 합성 윈도우를 선택함으로써 완벽한 재구성이 얻어질 수 있다.
T>1에 대하여, 즉, 1 보다 큰 전위 인자에 대해서, 시간 스트레치는 폭
Figure 112014008704783-pat00053
에서 분석이 수행됨으로써 얻어질 수 있고, 한편 합성 폭은
Figure 112014008704783-pat00054
에서 유지된다. 즉, 인자 T에 의한 시간 스트레치는 합성 단에서의 홉 인자 또는 폭보다 T배 작은 분석 단에서의 홉 인자 또는 폭을 적용함으로써 얻어질 수 있다. 앞서 제공된 공식들로부터 알 수 있는 바와 같이, 분석 폭보다 T배 큰 합성 폭을 사용함으로써, 오버랩-더하기 동작에서 T배 큰 인터벌들(intervals)만큼 단-구간 합성 신호들
Figure 112014008704783-pat00055
이 시프트된다. 이것은 결국 출력 신호 y(n)의 시간-스트레치를 결과로 낸다.
인자 T에 의한 시간 스트레치는 분석과 합성 사이에 인자 T에 의한 위상 증가(multiplication)를 더 포함할 수 있다는 것이 주목되어야 한다. 즉, 인자 T에 의한 시간 스트레칭은 하위대역 신호들의 인자 T에 의한 위상 증가를 포함할 수 있다.
다음에, 앞서 설명된 시간-스트레칭 동작이 어떻게 고조파 전위 동작으로 해석될 수 있는지에 대하여 간략하게 설명된다. 시간 스트레칭된 출력 신호 y(n)의 샘플-레이트 컨버전을 수행하여, 피치-스케일 수정 또는 고조파 전위가 얻어질 수 있다. 인자 T에 의한 고조파 전위를 수행하기 위해, 입력 신호 x(n)의 인자 T에 의한 시간-스트레칭된 버전인 출력 신호 y(n)가 앞서 설명된 위상 보코딩 방법을 사용하여 얻어질 수 있다. 고조파 전위는 그 후 인자 T에 의해 출력 신호 y(n)을 다운샘플링하거나 샘플링-레이트를 R에서 TR로 컨버전하여 얻어질 수 있다. 즉, 출력 신호 y(n)을 입력 신호 x(n)와 같은 샘플링 레이트를 갖지만 지속시간이 T배인 것으로 해석하는 대신, 출력 신호 y(n)은 지속시간이 같고 샘플링 레이트가 T배인 것으로 해석될 수 있다. T의 다음의 다운샘플링은 그 후 출력 샘플링 레이트가 입력 샘플링 레이트와 동일한 것으로 해석되어, 신호들은 결국 더해질 수 있다. 이들 동작들 동안, 앨리어싱이 일어나지 않도록, 전위된 신호를 다운샘플링할 때 주의를 기울여야 한다.
입력 신호 x(n)를 사인 곡선이라고 가정할 때 및 대칭적인 분석 윈도우들
Figure 112014008704783-pat00056
을 가정할 때, 앞서 설명된 위상 보코더에 기초한 시간 스트레칭 방법은 홀수 값들의 T에 대하여 완벽하게 동작할 것이고, 이것은 같은 주파수를 갖는 입력 신호 x(n)의 시간 스트레칭된 버전을 결과로 낸다. 다음의 다운샘플링와 조합하여, 입력 신호 x(n)의 주파수의 T배의 주파수를 갖는 사인 곡선 y(n)이 얻어질 것이다.
양수 값의 T에 대하여, 앞서 대략적으로 설명된 시간 스트레칭/고조파 전위 방법은 보다 양호한 근사일 것인데, 이는 분석 윈도우
Figure 112014008704783-pat00057
의 주파수 응답의 음의 값 측의 로브들(lobes)이 위상 증가에 의해 다른 정확도(fidelity)로 표현될 것이기 때문이다. 음의 측의 로브들은 전형적으로, 대부분의 실제 윈도우들(또는 프로토타입 필터들(prototype filters))이 단위원 상에 위치하는 다수의 이산적인 제로들을 갖는다는 사실로부터 생성되며, 그 결과 180도 위상 시프트된다. 짝수의 전위 인자들을 사용하여 위상 각도들을 곱하면, 위상 시프트들은 전형적으로 사용된 전위 인자에 따라 0(또는 정확히 말하면 다수의 360)도로 이동된다. 즉, 짝수의 전위 인자들을 사용하면, 위상 시프트들이 없어진다. 이는 전형적으로 전위된 출력 신호 y(n) 내의 앨리어싱에 증가를 가져다줄 것이다. 사인 곡선이 분석 필터의 제 1 측 로브의 탑(top)에 대응하는 주파수에 위치할 때, 특히 불리한 시나리오가 일어날 수 있다. 크기 응답 내의 이 로브의 거절에 따라, 앨리어싱이 출력 신호 내에서 보다 많이 또는 적게 가청가능할 것이다. 짝수 인자들 T에 대하여, 전체 폭 Δt를 줄이면, 전형적으로 보다 높은 컴퓨터적인 복잡성의 댓가로 시간 스트레칭처의 수행이 개선된다.
참조에 의해 통합된, 발명의 명칭이 "스펙트럼 대역 복제를 사용하는 소스 코딩 개선"인 EP0940015B1 / WO98/57436에서, 짝수 전위 인자들을 사용할 때 고조파 전위기로부터 앨리어싱이 발생하는 것을 어떻게 피하는지에 대한 방법이 설명된다. 상대적인 위상 잠금(relative phase locking)으로 불리는 이 방법은 인접하는 채널들 간의 상대적인 위상 차를 평가하고, 사인곡선이 둘 중 하나의 채널에서 위상 반전됐는지 여부를 결정한다. 검출은 EP0940015B1의 등식(32)을 사용하여 수행된다. 위상 각도들에 실제 전위 인자가 곱해진 후, 위상 반전된 것으로 검출된 채널들이 정정된다.
다음에, 짝수 및/또는 홀수 전위 인자들 T을 사용할 때 앨리어싱을 피하기 위한 새로운 방법이 설명된다. EP0940015B1의 상대적인 위상 잠금 방법과 반대로, 이 방법은 위상 각도들의 탐지 및 정정을 요구하지 않는다. 상기 문제점에 대한 이 새로운 해결법은 동일하지 않은 분석 및 합성 변환 윈도우들을 사용한다. 완벽한 재구성(PR) 경우에, 이것은 직교 변환/필터 뱅크보다는 오히려 배직교 변환/필터 뱅크에 대응한다.
특정 분석 윈도우
Figure 112014008704783-pat00058
가 주어진 배직교 변환을 얻기 위해, 합성 윈도우
Figure 112014008704783-pat00059
가 다음을 따르도록 선택되며,
Figure 112014008704783-pat00060
여기서, c는 상수이고,
Figure 112014008704783-pat00061
는 합성 시간 폭이고, L은 윈도우 길이이다. 시퀀스 s(m)이 다음과 같이 정의되면,
Figure 112014008704783-pat00062
즉,
Figure 112014008704783-pat00063
이 분석 및 합성 윈도우잉 모두에 대하여 사용되면, 직교 변환에 대한 조건은 다음과 같다
Figure 112014008704783-pat00064
그러나, 다음에, 다른 시퀀스 w(n)이 도입되고, 여기서 w(n)은 합성 윈도우
Figure 112015084453442-pat00065
이 분석 윈도우
Figure 112015084453442-pat00066
으로부터 얼마나 많이 벗어나 있는지, 즉, 배직교 변환이 직교의 경우와 얼마나 차이가 나는지에 대한 측정이다. 이 시퀀스 w(n)는 다음과 같이 주어진다
Figure 112014008704783-pat00067
완벽한 재구성을 위한 조건은 다음과 같이 주어진다
Figure 112014008704783-pat00068
가능한 해결방법에 대하여, w(n)은 합성 시간 폭
Figure 112015084453442-pat00069
로 주기적이도록 제한될 수 있는데, 즉,
Figure 112015084453442-pat00070
이다. 그 후, 다음이 얻어진다.
Figure 112014008704783-pat00071
합성 윈도우
Figure 112014008704783-pat00072
에 대한 조건은 다음과 같다.
Figure 112014008704783-pat00073
앞서 개략적으로 설명한 바와 같이 합성 윈도우들
Figure 112014008704783-pat00074
을 유도함으로써, 분석 윈도우
Figure 112014008704783-pat00075
를 설계할 때 훨씬 큰 자유가 주어진다. 이 추가적인 자유는, 전위된 신호의 앨리어싱을 나타내지 않는 한 쌍의 분석/합성 윈도우들을 설계하는데 사용될 수 있다.
짝수 전위 인자들에 대한 앨리어싱을 억제하는 분석/합성 윈도우 쌍을 얻기 위해, 다음에 몇몇의 실시예들이 개략적으로 설명될 것이다. 제 1 실시예에 따라, 윈도우들 또는 프로토타입 필터들은 주파수 응답 내의 제 1 측 로브의 레벨을 특정 "앨리어싱" 레벨 이하로 약화시키기에 충분하도록 길게 만들어진다. 이 경우에, 분석 시간 폭
Figure 112015084453442-pat00076
는 단지 윈도우 길이 L의 (작은) 단편일 것이다. 이것은, 예를 들어, 퍼큐시브한 신호들(percussive signals) 내의 순간들(transients)의 스미어링(smearing)이라는 결과를 나타낸다.
제 2 실시예에 따라, 분석 윈도우
Figure 112015084453442-pat00077
은 단위원(the unit circuit) 상에서 이중 제로들을 갖도록 선택된다. 이중 제로로부터의 결과인 위상 응답은 360도 위상 시프트이다. 전위 인자들이 홀수 또는 짝수인지에 상관없이, 위상 각도들에 전위 인자들이 곱해질 때, 이들 위상 시프트들은 유지된다. 단위원 상에 이중 제로들을 갖는, 적절하고 자연스러운 분석 필터
Figure 112015084453442-pat00078
이 얻어지면, 앞서 개략적으로 설명된 등식들로부터 합성 윈도우가 얻어진다.
제 2 실시예의 예에서, 분석 필터/윈도우
Figure 112014008704783-pat00079
는 "스퀘어 사인 윈도우", 즉,
Figure 112014008704783-pat00080
로서 자신과 컨벌빙된 사인 윈도우
Figure 112014008704783-pat00081
이다. 그러나, 결과적인 필터/윈도우
Figure 112015084453442-pat00082
는 길이 La=2L-1을 갖는 홀수 대칭적일 것이고, 즉, 홀수의 필터/윈도우 계수들이라는 것을 주목해야 한다. 짝수 길이를 갖는 필터/윈도우가 보다 적절하면, 특히 짝수 대칭적인 필터가 길이 L의 2개의 사인 윈도우들을 먼저 컨벌빙함으로써 얻어질 수 있다. 그 후, 결과적인 필터의 끝에 제로가 부가된다. 그 후, 2L 길이 필터가 여전히 단위원 상에 이중 제로들을 갖는 길이 L 짝수 대칭 필터에 대한 선형 보간을 사용하여 다시 샘플링된다.
전체적으로, 전위된 출력 신호 내의 앨리어싱이 회피되거나 상당히 감소될 수 있도록 한쌍의 분석 및 합성 윈도우들이 어떻게 선택될 수 있는지가 개략적으로 설명됐다. 이 방법은 특히 짝수 전위 인자들을 사용할 때 적절하다.
보코더 기반 고조파 전위기들의 문맥에서 고려할 다른 양태는 위상 언래핑(unwrapping)이다. 범용 위상 보코더들 내에서 위상 언래핑 이슈들에 관련하여 큰 주의가 기울려지고 있는 반면, 고조파 전위기는 정수 전위 인자들 T이 사용될 때의 위상 동작들을 확실하게 정의한다는 것이 주목되어야 한다. 따라서, 바람직한 실시예에서, 전위 인자 T는 정수 값이다. 한편, 위상 언래핑 기술들이 적용될 수 있는데, 여기서 위상 언래핑은, 그에 의해 2개의 연속한 프레임들 간의 위상 증분이 각각의 채널 내의 근접한 사인 곡선의 순간적인 주파수를 평가하기 위해 사용되는 처리이다.
오디오 및/또는 보이스(voice) 신호들의 전위를 다룰 때, 고려해야 할 또 다른 양태는 정상 및/또는 순간 신호 섹션들의 처리이다. 전형적으로, 상호 변조 아티팩트들 없이 정상 오디오 신호들을 전위하기 위해, DFT 필터 뱅크의 주파수 분해능은 보다 높아야 하며, 따라서 윈도우들은 입력 신호들 x(n), 특히, 오디오 및/또는 보이스 신호들 내의 순간들에 비해 길다. 그 결과, 전위기는 열악한 순간 응답을 갖는다. 그러나, 다음에 설명될 바와 같이, 이 문제점은 윈도우 설계, 변환 크기, 및 시간 폭 매개변수들의 수정에 의해 해결될 수 있다. 따라서, 위상 보코더 순간 응답 향상을 위한 기술 방법들의 많은 상태들과 달리, 제안된 해결방법은 순간 검출과 같은 임의의 신호 적응적인 동작에 의존하지 않는다.
다음에서, 보코더들을 사용하는 순간 신호들의 고조파 전위가 개략적으로 설명된다. 시작 포인트로서, 프로토타입 순간 신호, 시간 인스턴트 t=t0에의 이산 시간 디락 펄스(discrete time Dirac pulse)가 고려된다
Figure 112014008704783-pat00083
이러한 디락 펄스의 푸리에 변환은 단위 크기 및 t0에 비례하는 기울기를 갖는 선형 위상을 갖는다:
Figure 112014008704783-pat00084
이러한 푸리에 변환은 앞서 설명된 위상 보코더의 분석 단으로서 고려될 수 있는데, 여기서 무한한 지속시간의 평편한 분석 윈도우 va(n)가 사용된다. 인자 T에 의해 시간-스트레칭된 출력 신호 y(n), 즉, 시간 인스턴트 t=Tt0에서의 디락 펄스
Figure 112014008704783-pat00085
를 생성하기 위해, 역 푸리에 변환의 출력으로서 원하는 디락 펄스
Figure 112014008704783-pat00086
를 산출하는 합성 하위대역 신호
Figure 112014008704783-pat00087
를 얻도록, 분석 하위대역 신호들의 위상에 인자 T가 곱해져야 한다.
이것은, 인자 T에 의한 분석 하위대역 신호들의 위상 증가의 동작이 디락 펄스, 즉, 순간 입력 신호의 원하는 시간-시프트를 이끈다. 2개 이상의 제로가 아닌 샘플을 포함하는 보다 현실적인 순간 신호들에 대하여, 인자 T에 의한 분석 하위대역 신호들의 시간-스트레칭의 추가의 동작들이 수행되야 한다. 즉, 분석 및 합성 측에서 다른 홉 크기들이 사용되야 한다.
그러나, 상기의 고려사항들은 무한한 길이들의 분석 및 합성 윈도우들을 사용하는 분석/합성 단을 참조한다는 것이 주목되어야 한다. 실제로, 무한한 지속시간의 윈도우를 갖는 이론적인 전위기는 디락 펄스
Figure 112015084453442-pat00088
의 올바른 스트레치를 줄 것이다. 유한한 지속시간의 윈도우잉된 분석을 위하여, 각각의 분석 블럭이 DFT의 크기와 동일한 주기를 갖는 주기적인 신호의 하나의 기간 인터벌로 해석되어야하는 사실에 의해 상황이 스크램블링(scrambling)된다.
이것은, 디락 펄스
Figure 112014008704783-pat00089
의 분석 및 합성(100)을 나타내는 도 1에 예시된다. 도 1의 윗 부분은 분석 단(110)에의 입력을 나타내고, 도 1의 아래 부분은 합성 단(120)의 출력을 나타낸다. 윗 그래프 및 아래 그래프는 시간 도메인을 나타낸다. 양식화된 분석 윈도우(111) 및 합성 윈도우(121)는 삼각형(바틀렛) 윈도우들로서 표현한다. 시간 인스턴트 t=t0에서의 입력 펄스
Figure 112014008704783-pat00090
(112)가 세로 화살표로서 윗 그래프(110) 상에 나타내진다. DFT 변환 블럭의 크기 M=L로 가정되는데, 즉, DFT 변환의 크기는 윈도우들의 크기와 같도록 선택된다. 인자 T에 의한 하위대역 신호들의 위상 증가는 t=Tt0에서의 디락 펄스
Figure 112014008704783-pat00091
의 DFT 분석이 생성할 것이지만, 주기 L을 갖는 디락 펄스 트레인으로 주기화된다. 이것은 적용된 윈도우 및 푸리에 변환의 유한한 길이 때문이다. 주기 L을 갖는 주기화된 펄스 트레인은 아래 그래프 상에서 점선 화살표들(123, 124)에 의해 나타내진다.
분석 및 합성 윈도우들 모두가 유한한 길이인, 실제 시스템에서, 펄스 트레인은 (전위 인자에 따라) 실제로 몇몇의 펄스들, 하나의 메인 펄스, 즉, 원하는 인자, 및 몇몇의 사전-펄스 및 사후-펄스, 즉, 원하지 않는 인자들만을 포함한다. DFT가 (L로) 주기적이므로, 사전- 및 사후-펄스들은 나타난다. 펄스가 분석 윈도우 내에 위치할 때, 복잡한 위상이 T가 곱해질 때 래핑되도록(즉, 펄스가 윈도우의 끝 밖으로 시프트되고 시작에 다시 래핑됨), 원하지 않는 펄스가 나타난다. 합성 윈도우 내의 위치 및 전위 인자에 따라, 원하지 않는 펄스들은 입력 펄스와 같은 극성을 갖거나, 또는 갖지 않을 수 있다.
t=0 주변으로 중앙집중화된 길이 L을 갖는 DFT를 사용하여, 인터벌
Figure 112014008704783-pat00092
인 디락 펄스 δ(t-t0)를 변환할 때, 수학적으로 이것이 보여질 수 있다.
Figure 112014008704783-pat00093
합성 하위 대역 신호들
Figure 112014008704783-pat00094
를 얻도록, 분석 하위대역 신호들에 인자 T가 위상 곱셈된다. 주기적인 합성 신호
Figure 112014008704783-pat00095
,즉, 주기 L를 갖는 디락 펄스 트레인을 얻기 위해, 역 DFT가 적용된다.
도 1의 예에서, 합성 윈도우잉은 유한한 윈도우
Figure 112014008704783-pat00096
(121)를 사용한다. 유한한 합성 윈도우(121)는 실선 화살표(122)로 나타낸 t=Tt0에의 원하는 펄스
Figure 112014008704783-pat00097
를 고르고, 점선 화살표들(123, 124)로 나타낸 다른 기여들은 없앤다.
분석 및 합성 단이 홉 인자 또는 시간 폭 Δt에 따라 시간 축을 따라 움직이므로, 펄스
Figure 112014008704783-pat00098
(112)는 각각의 분석 윈도우(111)의 중앙에 관련한 다른 위치를 가질 것이다. 앞서 개략적으로 설명된 바와 같이, 시간-스트레칭을 얻기 위한 동작은, 펄스(112)를 윈도우의 중앙에 관련하여 그것의 위치를 T배로 움직이는 것을 포함한다. 이 위치가 윈도우(121) 내에 있는한, 이 시간-스트레치 동작은, 모든 기여들이 t=Tt0에서의 단일 시간 스트레칭된 합성된 펄스
Figure 112014008704783-pat00099
로 더해진다는 것을 보증한다.
그러나, 도 2의 상황에 대하여, 펄스
Figure 112015084453442-pat00100
(212)가 DFT 블럭의 가장자리를 향해 더 움직이는 문제점이 발생한다. 도 2는, 도 1과 유사한 분석/합성 구성(200)을 나타낸다. 윗 그래프(210)는 분석 단 및 분석 윈도우(211)에의 입력을 나타내고, 아래 그래프(220)는 합성 단 및 합성 윈도우(221)의 출력을 나타낸다. 입력 디락 펄스(212)를 인자 T로 시간-스트래칭하면, 시간 스트래칭된 디락 펄스(222), 즉,
Figure 112015084453442-pat00101
는 합성 윈도우(221) 밖에 있게 된다. 동시에, 시간 인스턴트
Figure 112015084453442-pat00102
에서 펄스 트레인의 다른 디락 펄스(224), 즉,
Figure 112015084453442-pat00103
가 합성 윈도우에 의해 선택된다. 즉, 입력 디락 펄스(212)는 T배의 이후 시간 인스턴트(time instant)로 지연되지 않고, 입력 디락 펄스(212) 이전에 있는 시간 인스턴트로 순방향 이동된다. 오디오 신호 상의 마지막 영향은, 보다 긴 전위기 윈도우들의 스케일의 시간 거리에서의, 즉, 입력 디락 펄스(212)보다
Figure 112015084453442-pat00104
이른 시간 인스턴트
Figure 112015084453442-pat00105
에서의, 사전-에코의 발생(occurrence of a pre-echo)이다.
본 발명에 의해 제안된 해결 방법의 원리가 도 3을 참조하여 설명된다. 도 3은 도 2와 유사한 분석/합성 시나리오(300)를 나타낸다. 윗 그래프(310)는 분석 윈도우(311)를 갖는 분석 단에의 입력을 나타내고, 아래 그래프(320)는 합성 윈도우(321)를 갖는 합성 단의 출력을 나타낸다. 본 발명의 기본 아이디어는 사전-에코들을 피하도록 DFT 크기를 적응시키는 것이다. 이는, 결과적인 펄스 트레인으로부터 원하지 않는 디락 펄스 이미지들이 합성 윈도우에 의해 선택되지 않도록, DFT의 크기 M을 설정함으로써 이루어질 수 있다. DFT 변형(301)의 크기는 M=FL으로 증가되는데, 여기서 L은 윈도우 함수(302)의 길이이고, 인자 F는 주파수 도메인 오버래핑 인자이다. 즉, DFT 변형(301)의 크기는 윈도우 크기(302)보다 크게 선택된다. 특히, DFT 변환(301)의 크기는 합성 윈도우의 윈도우 크기(302)보다 크게 선택될 수 있다. DFT 변환의 증가된 길이(301)로 인해, 디락 펄스들(322, 324)을 포함하는 펄스 트레인의 주기는 FL이다. 충분히 큰 값의 F를 선택함으로써, 즉, 충분히 큰 주파수 도메인 오버래핑 인자를 선택함으로써, 펄스 스트레치에 대한 원하지 않는 기여들이 없어질 수 있다. 이는 도3에 도시되어 있는데, 도3에서 시간 인스턴트 t=Tt0-FL에서의 디락 펄스(324)는 합성 윈도우(321) 밖에 놓여 있다. 따라서, 디락 펄스(324)는 합성 윈도우(321)에 의해 선택되지 않고, 이에 따라, 사전-에코들이 회피될 수 있다.
바람직한 실시예에서, 합성 윈도우 및 분석 윈도우는 동일한 "명목상(nominal)" 길이들을 갖는다는 것이 주목되어야 한다. 그러나, 필더 뱅크 또는 변환의 주파수 대역들 내에 샘플들을 삭제 또는 삽입함으로써, 출력 신호의 암시적인 재샘플링을 사용하면, 이 재샘플링 또는 전위 인자에 따라, 합성 윈도우 크기가 분석 크기와 전형적으로는 달라질 것이다.
F의 최소 값, 즉, 최소 주파수 도메인 오버래핑 인자가 도 3으로부터 유추될 수 있다. 원하지 않는 디락 펄스 이미지들을 선택하지 않기 위한 조건은 다음과 같은 공식화될 수 있다: 위치
Figure 112015084453442-pat00106
에서의 임의의 입력 펄스
Figure 112015084453442-pat00107
에 대하여, 즉, 분석 윈도우(311) 내에 포함된 임의의 입력 펄스에 대하여, 시간 인스턴트 t=Tt0-FL에서의 원하지 않는 이미지
Figure 112015084453442-pat00108
Figure 112015084453442-pat00109
에서의 합성 윈도우의 좌측 가장자리의 좌측에 위치되어야 한다. 동일하게, 조건
Figure 112015084453442-pat00110
이 만족되야 하며, 이는 규칙
Figure 112014008704783-pat00111
을 이끌어낸다.
공식(3)으로부터 알 수 있는 바로서, 최소의 주파수 도메인 오버래핑 인자 F는 전위/시간-스트레칭 인자 T의 함수이다. 보다 구체적으로, 최소의 주파수 도메인 오버래핑 인자 T는 전위/시간-스트레칭 인자 T에 비례한다.
분석 및 합성 윈도우들이 길이가 서로 다른 경우에 대하여 앞서의 사고방식을 반복함으로써, 보다 일반적인 공식이 얻어진다. LA 및 LS가 각각 분석 및 합성 윈도우들의 길이이고, M이 사용된 DFT 크기라고 하자. 공식 (3)을 확장한 규칙은 다음과 같다
Figure 112014008704783-pat00112
(4)에서 M=FL 및 LA=LS=L을 삽입하고 결과의 방정식의 양측 상에서 L로 나누면, 이 규칙이 실제로 (3)의 확장이라는 것이 검증될 수 있다.
앞서의 분석은 보다 특별한 순간 모델, 즉, 디락 펄스에 대하여 수행된다. 그러나, 앞서 설명된 시간-스트레칭 방법을 사용하면, 거의 평탄한 스펙트럼 엔벨로프(envelope)를 갖고 시간 인터벌 [a,b] 외부를 버린 입력 신호들이 인터벌 [Ta,Tb] 외부에서 작은 신호들을 출력하도록 스트레칭될 것임을 보여주기 위해, 이 추론은 확장될 수 있다. 이것은 또한, 적절한 주파수 도메인 오버샘플링 인자를 선택하기 위한 앞서 설명된 규칙이 지켜질 때, 스트레칭된 신호들 내에서 사전-에코들이 사라진 실제 오디오 및/또는 음성 신호들의 스펙트럼도를 검사하여 확인될 수 있다. 보다 양적인 분석은 또한, 공식(3)의 조건에 의해 부과된 값보다 약간 열등한 주파수 도메인 오버샘플링 인자들을 사용할 때, 사전-에코들이 여전히 줄었음을 나타낸다. 이것은, 전형적인 윈도우 함수들 vs(n)이 그들의 가장자리 근처에서 작고, 이에 따라 윈도우 함수들의 가장자리들 근처에 위치하는 원하지 않는 사전-에코들을 감쇄시키기 때문이다.
요약하면, 본 발명은 오버샘플링된 변환을 도입하여 주파수 도메인 고조파 전위기들 또는 시간-스트레처들의 순간 응답을 개선시키는 새로운 방법을 교시하는데, 여기서 오버샘플링의 양은 선택된 전위 인자의 함수이다.
다음에서, 오디오 디코더들 내에서의 본 발명에 따른 고조파 전위의 적용은 다음에 상세하게 설명된다. 고조파 전위기는 통상 소위 대역폭 확장 또는 고 주파수 표현성(HFR)을 사용하는 오디오/음성 코덱 시스템 내에서 사용된다. 오디오 코딩을 참조하였지만, 설명된 발명들 및 시스템들은 음성 코딩에 및 통합된 음성 및 오디오 코딩(USAC)에서 동일하게 적용가능하다는 것이 주의되어야 한다.
이러한 HFR 시스템들에서, 전위기는 소위 코어 디코더에 의해 제공되는 저 주파수 신호 성분으로부터 고 주파수 신호 성분을 생성하는데 사용될 수 있다. 고 주파수 성분의 엔벨로프는 비트 스트림 내에서 전달되는 부수적인 정보에 기초하여 시간 및 주파수적으로 성형될 수 있다.
도 4는 HFR 향상된 오디오 디코더의 동작을 나타낸다. 코어 오디오 디코더(401)는 저 대역폭 오디오 신호를 출력하고, 이 저 대역폭 오디오 신호는 원하는 풀(full) 샘플링 레이트에서 최종 오디오 출력 기여를 생성하기 위해 필요할 수 있는 업-샘플러(404)에 공급된다. 이러한 업-샘플링은 이중 레이트 시스템들에 대하여 필요로 되는데, 여기서 HFR 부분은 풀 샘플링 주파수에서 처리되는 반면, 대역 제한된 코어 오디오 코덱은 외부 오디오 샘플링 레이트의 반에서 동작한다. 그 결과, 단일 레이트 시스템에서, 이 업-샘플러(404)는 생략된다. 코어 오디오 디코더(401)의 저 대역폭 출력은 또한, 전위된 신호, 즉, 원하는 고 주파수 범위를 포함하는 신호를 출력하는 전위기 또는 전위 유닛(402)에 송신된다. 이 전위된 신호는 엔벨로프 조정기(403)에 의해 시간 및 주파수적으로 성형될 수 있다. 최종 오디오 출력은 저 대역폭 코어 신호와 엔벨로프 조정된 전위된 신호의 합이다.
도 4의 문맥에서 개략적으로 설명된 바와 같이, 코어 디코더 출력 신호는 전위 유닛(402) 내에서 인자 2에 의해 사전-처리 단계로서 업-샘플링될 수 있다. 시간-스트레칭의 경우, 인자 T에 의한 전위는 전위되지 않은 신호의 T 배의 길이를 갖는 신호로 된다. T배 높은 주파수들로의 주파수 전위 또는 원하는 피치-시프트를 이루기 위해, 시간-스트레칭된 신호의 레이트-컨버전 또는 다운-샘플링이 연이어 수행된다. 앞서 설명된 바와 같이, 이 동작은 위상 보코더에서 서로 다른 분석 및 합성 폭들을 사용함으로써 이루어질 수 있다.
전체 전위 인자는 다른 방법들로 얻어질 수 있다. 제 1 가능성은, 앞서 지적된 바와 같이 전위기에 들어올 때 디코더 출력 신호를 인자 2로 업-샘플링하는 것이다. 이러한 경우들에서, 인자 T에 의해 주파수 전위된 원하는 출력 신호를 얻기 위해, 시간-스트레칭된 신호는 인자 T에 의해 다운-샘플링될 필요가 있을 것이다. 제 2 가능성은, 사전-처리 단계를 생략하고 코어 디코더 출력 신호 상에서 시간-스트레칭 동작들을 바로 수행하는 것일 것이다. 이러한 경우들에서는, 2의 포괄적인 업-샘플링 인자를 유지하고 인자 T에 의한 주파수 전위를 이루기 위해, 전위된 신호들이 인자 T/2에 의해 다운-샘플링되야 한다. 즉, T 대신 T/2의 전위기(402)의 출력 신호의 다운-샘플링을 수행할 때, 코어 디코더 신호의 업-샘플링이 생략될 수 있다. 그러나, 코어 신호는 여전히 코어 신호가 전위된 신호와 조합되기 전에 업-샘플러(404) 내에서 업-샘플링될 필요가 있다는 것이 주목되어야 한다.
고 주파수 성분을 생성하기 위해, 전위기(402)는 몇몇의 상이한 정수 전위 인자들을 사용할 수 있다는 것도 또한 주목되어야 한다. 이것은, 도 4의 전위기(402)에 대응하고, 상이한 전위 차수 또는 전위 인자 T의 몇몇의 전위기들을 포함하는 고조파 전위기(501)의 동작을 나타내는 도 5에 나타내진다. 전위될 신호는 전위 인자들 T=2, 3, ..., Tmax를 각각 갖는 개별적인 전위기들(501-2, 501-3, ..., 501-Tmax)의 뱅크에 전달된다. 전형적으로 전위 인자 Tmax=4는 대부분의 오디오 코딩 애플리케이션들에 대해서 충분하다. 상이한 전위기들(501-2, 501-3, ..., 501-Tmax)의 기여들은 502에서 합산되어, 조합된 전위기 출력을 산출한다. 제 1 실시예에서, 이 합산 동작은 개별적인 기여들을 더하는 것을 포함할 수 있다. 다른 실시예에서는, 기여들이 상이한 가중치들로 가중되어, 특정 주파수들에 대한 복수의 기여들을 더하는 것의 영향이 경감된다. 예를 들어, 제 3 차수 기여는 제 2 차수 기여보다 낮은 이득(gain)에 더해질 수 있다. 마지막으로, 합산 유닛(502)은 출력 주파수에 따라 선택적으로 기여들을 더할 수 있다. 예를 들어, 제 2 차수 전위는 제 1의 보다 낮은 목표 주파수 범위에 대하여 사용될 수 있고, 제 3 차수 전위는 제 2의 보다 낮은 목표 주파수 범위에 대하여 사용될 수 있다.
도 6은 501의 개별적인 블럭들 중 하나, 즉, 전위 인자 T의 전위기들(501-T) 중 하나와 같은, 고조파 전위기의 동작을 나타낸다. 분석 폭 유닛(601)은 전위될 입력 신호의 연속적인 프레임들을 선택한다. 이들 프레임들은 분석 윈도우를 갖는 분석 윈도우 유닛(602) 내에서 겹쳐진다, 예를 들어, 곱해진다. 입력 신호의 프레임들을 선택하고 입력 신호의 샘플들에 분석 윈도우 함수로 곱하는 동작들은, 예를 들어, 분석 폭에 의해 입력 신호를 따라 시프트되는 윈도우 함수를 사용하여, 고유한 단계에서 수행될 수 있다는 것이 주목되어야 한다. 분석 변환 유닛(603)에서, 입력 신호의 윈도우잉된 프레임들은 주파수 도메인으로 변환된다. 분석 변환 유닛(603)은, 예를 들어, DFT를 수행할 수 있다. DFT의 크기는 분석 윈도우의 크기 L보다 F배 크므로, M=F*L 복소 주파수 도메인 계수들이 생성된다. 이 복소 계수들은 비선형 처리 유닛(604)에서, 예를 들어, 그들의 위상에 전위 인자 T를 곱함으로써 변경된다. 복소 주파수 도메인 계수들, 즉, 입력 신호의 프레임들의 시퀀스의 복소 계수들의 시퀀스는 하위대역 신호들로 보여질 수 있다. 분석 폭 유닛(601), 분석 윈도우 유닛(602), 및 분석 변환 유닛(603)의 조합은 조합된 분석 단 또는 분석 필터 뱅크로서 보여질 수 있다.
변경된 계수들 또는 변경된 하위대역 신호들은 합성 변환 유닛(605)을 사용하여 시간 도메인으로 다시 변환된다. 변경된 복소 계수들의 각각의 세트에 대하여, 이것은 변경된 샘플들의 프레임, 즉, M 개의 변경된 샘플들의 세트를 산출한다. 합성 윈도우 유닛(606)을 사용하여, 변경된 샘플들의 각각의 세트로부터 L 샘플들이 추출될 수 있으며, 이에 따라, 출력 신호의 프레임이 산출된다. 전체적으로, 입력 신호의 프레임들의 시퀀스에 대하여 출력 신호의 프레임들의 시퀀스가 생성될 수 있다. 프레임들의 이 시퀀스는 합성 폭 유닛(607) 내에서 합성 폭에 의해 다른 것에 관련하여 시프트된다. 합성 폭은 분석 폭의 T 배 만큼 더 클 수 있다. 오버랩-더하기 유닛(608)에서 출력 신호가 생성되는데, 오버랩-더하기 유닛(608)에서 출력 신호의 시프트된 프레임들이 오버래핑되고 동일한 시간 인스턴트에서의 샘플들이 더해진다. 위의 시스템을 통과(traverse)하면서, 입력 신호가 인자 T에 의해 시간-스트레칭될 수 있다. 즉, 출력 신호가 입력 신호의 시간-스트레칭된 버전일 수 있다.
마지막으로, 출력 신호가 축소 유닛(contraction unit)(609)을 사용하여 시간적으로 축소될 수 있다. 축소 유닛(609)은 차수 T의 샘플링 레이트 컨버전을 수행할 수 있는데, 즉, 샘플들의 수를 그대로 유지하면서, 인자 T에 의해 출력 신호의 샘플링 레이트를 증가시킬 수 있다. 이는 입력 신호와 시간적으로 같은 길이를 갖지만 입력 신호에 관련하여 인자 T에 의해 상향-시프트된 주파수 성분들을 포함하는 전위된 출력 신호를 산출한다. 결합 유닛(609)은 인자 T에 의한 다운-샘플링 동작을 또한 수행할 수 있는데, 즉, 그것은 오직 매 T번째 샘플만을 남기고 다른 샘플들은 없앨 수 있다. 이 다운-샘플링 동작은 또한 저역 통과 필터 동작에 의해 수행될 수 있다. 전체 샘플링 레이트가 바뀌지않고 유지되면, 전위된 출력 신호는 입력 신호의 주파수 성분들에 관련하여 인자 T에 의해 상향-시프트된 주파수 성분들을 포함한다.
축소 유닛(609)은 레이트-컨버전 및 다운-샘플링의 조합을 수행할 수 있다는 것이 주목되어야 한다. 예로서, 샘플링 레이트는 인자 2에 의해 증가될 수 있다. 동시에, 신호는 인자 T/2에 의해 다운-샘플링될 수 있다. 전체적으로, 레이트-컨버전 및 다운-샘플링의 이러한 조합은 또한, 인자 T에 의한 입력 신호의 고조파 전위인 출력 신호를 이끌어낸다. 일반적으로, 축소 유닛(609)은 레이트 컨버전 및/또는 다운-샘플링의 조합을 수행하여, 전위 인자 T에 의한 고조파 전위를 산출한다고 언급될 수 있다. 이것은 코더 오디오 디코더(401)의 저 대역폭 출력의 고조파 전위를 수행할 때 특히 유용하다. 앞서 개략적으로 설명된 바와 같이, 이러한 저 대역폭 출력이 인코더에서 인자 2에 의해 다운-샘플링될 수 있고, 이에 따라, 그것이 재구성된 고 주파수 성분과 병합되기 전에 업-샘플링 유닛(404) 내에서 업-샘플링하는 것이 요구될 수 있다. 그럼에도 불구하고, 그것은 "업-샘플링되지 않은" 저 대역폭 출력을 사용하여 전위 유닛(402) 내에서 고조파 전위를 수행하기 위한 계산 복잡성을 낮추기 위해 유익할 수 있다. 이러한 경우들에서, 전위 유닛(402)의 축소 유닛(609)은 인자 2의 레이트-컨버전을 수행하고, 이에 따라, 고 주파수 성분의 요구된 업-샘플링 동작을 암시적으로 수행할 수 있다. 그 결과, 인자 T의 전위된 출력 신호들은 축소 유닛(609) 내에서 인자 T/2에 의해 다운-샘플링된다.
도 5에 도시된 바와 같은 상이한 전위 인자들의 복수의 평행한 전위기들의 경우, 몇몇의 전위 또는 필터 뱅크 동작들은 상이한 전위기들(501-2, 501-3, ..., 501-Tmax) 간에 공유될 수 있다. 필터 뱅크 동작들의 공유는, 전위 유닛들(402)의 보다 효율적인 구현들을 얻기 위해 분석에 대하여 수행되는 것이 바람직하다. 상이한 전위기들로부터 출력들을 다시 샘플링하기 위한 선호되는 방법은 합성 단 이전에 DFT-빈들(bins) 또는 하위대역 채널들을 없애는 것임이 주목되어야 한다. 필터들을 다시 샘플링하는 이 방법은 생략될 수 있고, 크기가 보다 작은 역 DFT/합성 필터 뱅크를 수행할 때 복잡도가 낮아질 수 있다.
설명된 바와 같이, 분석 윈도우는 상이한 전위 인자들의 신호들에 대하여 공동일 수 있다. 공동 분석 윈도우를 사용할 때, 저 대역 신호에 적용되는 윈도우들(700)의 폭의 예가 도 7에 도시된다. 도 7은, 서로에 대해 분석 홉 인자 또는 분석 시간 폭
Figure 112014008704783-pat00113
만큼 변위된 분석 윈도우들(701, 702, 703, 704)의 폭을 도시한다.
저 대역 신호, 예를 들어, 코어 디코더의 출력 신호에 적용된 윈도우들의 폭의 예가 도 8(a)에 도시된다. 길이 L의 분석 윈도우가 각각의 분석 변환에 대하여 움직인 폭이
Figure 112014008704783-pat00114
로 나타내진다. 입력 신호의 각각의 이러한 분석 변환 및 윈도우잉된 부분은 또한 프레임으로 불린다. 분석 변환은 입력 샘플들의 프레임을 복소 FFT 계수들의 세트로 변환시킨다. 분석 변환 이후, 복소 FFT 계수들은 데카르트 좌표(Cartesian coordinates)에서 극 좌표로 변환될 수 있다. 연이은 프레임들에 대한 FFT 계수들의 모음은 분석 하위대역 신호들을 구성한다. 사용된 전위 인자들 T=2, 3, ..., Tmax의 각각에 대하여, FFT 계수들의 위상 각도들에 각각의 전위 인자 T가 곱해지고, 테카르트 좌표들로 다시 변환된다.
따라서, 모든 전위 인자 T에 대한 한 특정 프레임을 나타내는 복소 FFT 계수들의 상이한 세트가 있을 것이다. 즉, 각각의 전위 인자들 T=2, 3, ..., Tmax 및 각각의 프레임에 대하여, FFT 계수들에 대한 개별적인 세트가 결정된다. 그 결과, 모든 전위 인자 T에 대하여, 합성 하위대역 신호들
Figure 112014008704783-pat00115
의 상이한 세트가 생성된다.
합성 단들 내에서, 합성 윈도우들의 합성 폭들
Figure 112014008704783-pat00116
이 각각의 전위기 내에서 사용되는 전위 인자 T의 함수로서 결정된다. 앞서 개략적으로 설명된 바와 같이, 시간-스트레치 동작은 또한 하위대역 신호들의 시간 스트레칭, 즉, 프레임들의 모음의 시간 스트레칭을 수반한다. 이 동작은, 분석 폭
Figure 112014008704783-pat00117
에 대하여 인자 T에 의해 증가된 합성 홉 인자 또는 합성 폭
Figure 112014008704783-pat00118
을 선택함으로써 수행될 수 있다. 그 결과, 차수 T의 전위기에 대한 합성 폭 ΔtsT
Figure 112014008704783-pat00119
에 의해 주어진다. 도 8(b) 및 도 8(c)는 각각 전위 인자들 T=2 및 T=3에 대한 합성 윈도우들의 합성 폭 ΔtsT을 나타내고, 여기서
Figure 112014008704783-pat00120
Figure 112014008704783-pat00121
이다.
도 8은 또한 도 8(a)에 비해 각각 도 8(b) 및 도 8(c)에서 인자 T=2 및 T=3에 의해 "스트레칭된" 기준 시간 tr을 나타낸다. 그러나, 출력들에서, 이 기준 시간 tr은 2개의 전위 인자들에 대하여 얼라인먼트될(aligned) 필요가 있다. 출력을 얼라인먼트(align)하기 위하여, 제 3 차수 전위된 신호, 즉, 도 8(c)는 인자 3/2로 레이트-컨버전되거나 다운-샘플링될 필요가 있다. 이 다운-샘플링은 제 2 차수 전위된 신호에 관련하여 고주파 전위를 이끌어낸다. 도 9는 T=3에 대한 윈도우들의 합성 폭 상에서의 재-샘플링의 효과를 나타낸다. 분석된 신호가 업-샘플링되지 않은 코어 디코더의 출력 신호라고 가정하면, 도 8(b)의 신호는 인자 2에 의해 효율적으로 주파수 전위되고, 도 8(c)의 신호는 인자 3에 의해 효율적으로 주파수 전위된 것이다.
다음에, 공동 분석 윈도우들을 사용할 때 상이한 전위 인자들의 전위된 시퀀스의 시간 얼라인먼트(time alignment)의 양태가 처리된다. 즉, 다른 전위 인자를 사용하는 주파수 전위기들의 출력 신호들을 얼라인먼트하는 것의 양태가 다뤄진다. 앞서 개략적으로 설명된 방법들을 사용하면, 디락-함수들
Figure 112014008704783-pat00122
이 시간-스트레칭되는데, 즉, 적용된 전위 인자 T에 의해 주어진 시간의 양만큼 시간 축을 따라 움직인다. 시간-스트레칭 동작을 주파수 시프팅 동작으로 전환하기 위해, 같은 전위 인자 T를 사용하는 데시메이션(decimation) 또는 다운-샘플링이 수행된다. 전위 인자 또는 전위 인자 T를 사용하는 이러한 데시메이션이 시간-스트레칭된 디락-함수
Figure 112014008704783-pat00123
상에서 수행되면, 다운-샘플링된 디락 펄스가 제 1 분석 윈도우(701)의 중간에서 제로-기준 시간(710)에 관련하여 시간 얼라인먼트될 것이다. 이것은 도 7에 나타나있다.
그러나, 상이한 전위 인자 T들을 사용할 때, 제로-기준이 입력 신호의 "제로" 배로 얼라인먼트되지 않는 한, 데시메이션은 제로-기준에 대하여 상이한 오프셋들을 결과로 낼 것이다. 그 결과, 데시메이션된 전위된 신호들이 합산 유닛(502) 내에서 합산될 수 있기 전에, 데시메이션된 전위된 신호들의 시간 오프셋 조정이 수행될 필요가 있다. 예를 들어, 인자 T=3의 제 1 전위기 및 인자 T=4의 제 2 전위기가 가정된다. 또한, 코어 디코더의 출력 신호는 업-샘플링되지 않았다고 가정된다. 그 후 전위기가 인자 3/2로 제 3 차수 시간-스트레칭된 신호를 데시메이션하고, 인자 2로 제 4 차수 시간-스트레칭된 신호를 데시메이션한다. 제 2 차수 시간-스트레칭된 신호(즉, T=2)는 입력 신호에 비해 높은 샘플링 주파수, 즉, 인자 2 큰 샘플링 주파수를 갖고, 따라서 효율적으로 출력 신호를 인자 2에 의해 피치 시프팅시킨다고 해석될 것이다.
전위된 및 다운-샘플링된 신호들을 얼라인먼트하기 위해,
Figure 112015084453442-pat00124
에 의한 시간 오프셋들이 데시메이션 전에 전위된 신호들에 적용될 필요가 있는데, 즉, 제 3 및 제 4 차수 전위들에 대하여,
Figure 112015084453442-pat00125
Figure 112015084453442-pat00126
의 오프셋이 각각 적용되어야 한다. 구체적인 예에서 이것을 검증하기 위해, 제 2 차수 시간-스트레칭된 신호에 대한 제로-기준이 시간 인스턴트 또는 샘플
Figure 112015084453442-pat00127
에, 즉, 도 7의 제로-기준(710)에 대응한다고 가정될 것이다. 이것은, 어떠한 데시메이션도 사용되지 않기 때문이다. 제 3 차수 시간-스트레칭된 신호에 대하여,
Figure 112015084453442-pat00128
의 인자에 의한 다운-샘플링 때문에, 기준이
Figure 112015084453442-pat00129
으로 해석될 것이다. 데시메이션 전에, 앞서 설명된 규칙에 따른 시간 오프셋이 더해지면, 기준은
Figure 112015084453442-pat00130
으로 해석될 것이다. 이것은, 다운-샘플링된 전위된 신호의 기준이 제로-기준(710)에 맞추어 얼라인먼트된다는 것을 의미한다. 유사한 방법으로, 오프셋 없는 제 4 차수 전위에 대하여, 제로-기준은
Figure 112015084453442-pat00131
에 대응하지만, 제안된 오프셋을 사용하면, 기준은
Figure 112015084453442-pat00132
으로 해석되는데, 이것은 제 2 차수 제로-기준(710), 즉, T=2를 사용하는 전위된 신호에 대한 제로-기준에 맞추어 얼라인먼트된다.
전위의 복수의 인자들을 동시에 사용할 때 고려되는 다른 양태는 상이한 전위 인자들의 전위된 시퀀스들에 적용되는 이득들에 관련된다. 즉, 상이한 전위 인자의 전위기들의 출력 신호들을 조합하는 양태가 처리될 수 있다. 상이한 이론적인 접근법들 하에서 고려될 수 있는, 전위된 신호들의 이득을 선택할 때의 2개의 원리가 있다. 또는, 전위된 신호들이 에너지 보호한다고 추측되는데, 이는 인자-T 전위된 고대역 신호를 구성하도록 연이어 전위된 저 대역 신호 내의 총 에너지가 보호된다는 것을 의미한다. 이 경우, 대역폭 당 에너지가 전위 인자 T에 의해 감소되야 하는데, 이는, 신호가 주파수적으로 같은 양 T에 의해 스트레칭되기 때문이다. 그러나, 매우 작은 대역폭 내에 그들의 에너지를 갖는 사인곡선들이 전위 후에 그들의 에너지를 유지할 것이다. 이것은, 디락 펄스가 시간-스트레칭할 때 전위기에 의해 시간적으로 움직이는 것과 같은 방법에서, 즉, 펄스의 시간적인 지속시간이 시간-스트레칭 동작에 의해 바뀌지 않는 것과 같은 방법에서, 전위할 때 사인곡선이 주파수적으로 움직인다는, 즉, 주파수(즉 대역폭)적인 지속이 주파수 전위 동작에 의해 바뀌지 않는다는 사실 때문이다. 즉, 대역폭 당 에너지가 T 만큼 감소되더라도, 사인곡선은 주파수 내 한 포인트에서 그것의 모든 에너지를 가짐으로써, 그 점별 에너지(point-wise energy)가 보존될 것이다.
전위된 신호들의 이득을 선택할 때의 다른 옵션은 전위 이후 대역폭 당 에너지를 유지하는 것이다. 이 경우, 광대역 백색 잡음 및 순간들이 전위 이후 평탄한 주파수 응답을 디스플레이할 것이고, 사인곡선들의 에너지는 인자 T에 의해 증가할 것이다.
본 발명의 추가의 양태는 공동 분석 윈도우들을 사용할 때의 분석 및 합성 위상 보코더 윈도우들의 선택이다. 그것은 분석 및 합성 위상 보코더 윈도우들, 즉,
Figure 112015084453442-pat00133
Figure 112015084453442-pat00134
을 신중하게 선택하는데 유익하다. 완벽한 재구성을 위해, 합성 윈도우
Figure 112015084453442-pat00135
이 앞의 공식 (2)를 준수해야할 뿐만이 아니다. 또한, 분석 윈도우
Figure 112015084453442-pat00136
가 사이드 로브 레벨들의 적절한 거절을 가져야 한다. 이와 달리, 원하지 않는 "앨리어싱" 인자들이 주파수 가변 사인곡선들에 대한 메인 인자들과의 간섭으로서 전형적으로 가청가능해질 것이다. 이러한 원하지 않는 "앨리어싱" 인자들은 또한 앞서 설명된 바와 같은 짝수 전위 인자들의 경우에 정상 사인곡선들에 대한 나타날 수 있다. 본 발명은 사인 윈도우들의 사용을 제안하는데, 이는 그들의 양호한 사이드 로브 거절비(side lobe rejection ratio) 때문이다. 따라서, 분석 윈도우는 다음과 같도록 제안된다.
Figure 112014008704783-pat00137
합성 윈도우
Figure 112015084453442-pat00138
는, 합성 홉-크기
Figure 112015084453442-pat00139
가 분석 윈도우 길이 L의 인자가 아니면, 즉, 분석 윈도우 길이 L이 합성 홉-크기로 나눠질 수 있는 정수가 아니면 앞의 공식 (2)에 의해 주어지거나 또는 분석 윈도우
Figure 112015084453442-pat00140
와 동일할 수 있다. 예로서, L=1024이고
Figure 112015084453442-pat00141
=384이면, 1024/384=2.667는 정수가 아니다. 앞서 개략적으로 설명된 바와 같이 배직교 분석 및 합성 윈도우들의 쌍이 선택될 수 있다는 것이 주목되어야 한다. 이는 출력 신호 내의 앨리어싱의 감소를 위해, 특히 짝수 전위 인자들 T를 사용할 때, 유익할 수 있다.
다음에서, 각각 고유 음성 및 오디오 코딩(USAC)용 예시적인 인코더(1000) 및 예시적인 디코더(1100)를 나타내는 도 10 및 도 11을 참조하자. USAC 인코더(1000) 및 디코더(1100)의 일반적인 구조가 다음과 같이 설명된다: 첫번째는, 스테레오 또는 멀티-채널 처리를 다루기 위한 MPEG 서라운드(MPEGS) 기능 유닛 및 각각 입력 신호 내의 보다 높은 오디오 주파수들의 매개변수적 표현을 다루고 본 명세서 내에서 개략적으로 설명된 고조파 전위 방법들을 사용할 수 있는 개선된 스펙트럼 대역 복제(eSBR) 유닛(1001, 1101)으로 이루어진 공동 사전/사후 처리가 있을 수 있다. 그 후, 2개의 갈래들이 있는데, 하나는 수정된 개선된 오디오 코딩(AAC) 툴 경로로 이루어진 것이고, 다른 것은 선형 예측 코딩(LP 또는 LPC 도메인) 기반 경로로 이루어진 것으로서, 이 다른 것은 LPC 잔유물의 주파수 도메인 표현 또는 시간 도메인 표현을 차례로 특징짓는다. AAC 및 LPC 모두에 대한 모든 전송된 스펙트럼은 MDCT 도메인으로 표현될 수 있고, 다음에 양자화 및 수학적인 코딩이 뒤따라진다. 시간 도메인 표현은 ACELP 여기 코딩 방식을 사용할 수 있다.
인코더(1000)의 개선된 스펙트럼 대역 복제(eSBR) 유닛(1001)은 본 명세서에서 개략적으로 설명된 고 주파수 재구성 요소들을 포함할 수 있다. 몇몇의 실시예들에서, eSBR 유닛(1001)은 도 4, 도 5, 도 6의 문맥에서 개략적으로 설명된 전위 유닛을 포함할 수 있다. 고조파 전위에 관련된 인코딩된 데이터, 예를 들어, 사용되는 전위의 차수, 필요한 주파수 도메인 오버래핑 양, 또는 사용되는 이득들은 인코더(1000)에서 유도되고, 비트스트림 멀티플렉서 내에서 다른 인코딩된 정보와 병합되고, 인코딩된 오디오 스트림으로서 대응하는 디코더(1100)에 전송될 수 있다.
도 11에 도시된 디코더(1100)는 또한 개선된 스펙트럼 대역폭 복제(eSBR) 유닛(1101)을 포함한다. 이 eSBR 유닛(1101)은 인코더(1000)로부터 인코딩된 오디오 비트스트림 또는 인코딩된 신호를 수신하고, 본 명세서에 개략적으로 설명된 방법들을 사용하여, 디코딩된 저 주파수 성분 또는 저 대역과 병합된 고 주파수 성분 또는 신호의 고 대역을 생성하여, 디코딩된 신호를 산출한다. eSBR 유닛(1101)은 본 명세서에서 개략적으로 설명된 상이한 성분들을 포함할 수 있다. 특히, 도 4, 도 5, 도 6의 문맥에서 개략적으로 설명된 전위 유닛을 포함할 수 있다. eSBR 유닛(1101)은 비트스트림을 통해 인코더(1000)에 의해 제공되는 고 주파수 성분에 대한 정보를 사용하여, 고 주파수 재구성을 수행할 수 있다. 이러한 정보는, 사용된 전위의 차수, 필요한 주파수 도메인 오버샘플링의 양, 또는 사용되는 이득들뿐만 아니라, 합성 하위대역 신호들을 생성하기 위한 본래의 고 주파수 성분 및 궁극적으로 디코딩된 신호의 고 주파수 성분의 스펙트럼 엔벨로프일 수 있다.
또한, 도 10 및 도 11은 다음과 같은, USAC 인코더/디코더의 가능한 추가적인 요소들을 나타낸다:
·비트스트림 페이로드를 각각의 툴에 대한 부분들로 나누고, 툴들 각각에 그 툴에 관련된 비트스트림 페이로드 정보를 제공하는, 비트스트림 페이로드 디멀티플렉서 툴;
·비트스트림 페이로드 디멀티플렉서로부터 정보를 취하고, 그 정보를 파싱하고, 호프만 및 DPCM 코딩된 스케일인자들을 디코딩하는, 스케일인자 무잡음 디코딩 툴;
·비트스트림 페이로드 디멀티플렉서로부터 정보를 취하고, 그 정보를 파싱하고, 수학적으로 코딩된 데이터를 디코딩하고, 양자화된 스펙트럼을 재구성하는, 스펙트럼 무잡음 디코딩 툴;
·스펙트럼에 대한 양자화된 값들을 취하고 정수 값들을 비-스케일링된, 재구성된 스펙트럼으로 전환하는, 역 양자화기 툴로서, 이 양자화기는, 바람직하게는 그것의 압산(companding) 인자가 선택된 코어 코딩 모드에 따르는 압산 양자화기인, 상기 역 양자화기 툴;
·예를 들어, 인코더 내의 비트 요구사항에 대한 강력한 제한 때문에, 스펙트럼 값들이 제로로 양자화될 때 일어나는, 디코딩된 스펙트럼 내의 스펙트럼 갭들(gaps)을 채우는데 사용되는, 잡음 채움 툴(noise filling tool);
·스케일인자들의 정수 표현을 실제 값들로 전환하고, 비-스케일링된 역으로 양자화된 스펙트럼에 관련 스케일인자들을 곱하는, 재스케일링 툴;
·ISO/IEC 14496-3에 설명된 것과 같은 M/S 툴;
·ISO/IEC 14496-3에 설명된 것과 같은 일시적인 잡음 성형(TNS) 툴;
·인코더에서 수행되는 주파수 매핑(mapping)의 역을 적용시키는 필터 뱅크/블럭 스위칭 툴로서, 역 수정된 이산 코사인 변환(IMDCT)은 바람직하게는 필터 뱅크 툴을 위해 사용되는, 상기 필터 뱅크/블럭 스위칭 툴;
·시간 와핑 모드(time warping mode)가 가능할(enabled) 때, 통상의 필터 뱅크/블럭 스위칭 툴을 대체하는 시간-와핑된 필터 뱅크/블럭 스위칭 툴로서, 이 필터 뱅크는 통상의 필터 뱅크에 대해서 IMDCT와 같고, 추가적으로 윈도우잉된 시간 도메인 샘플들은 시간-가변 재샘플링에 의해 와핑된 시간 도메인에서 선형 시간 도메인으로 매핑되는, 상기 시간-와핑된 필터 뱅크/블럭 스위칭 툴;
·적절한 공간 매개변수들에 의해 제어되는 입력 신호(들)에 정교한 업믹스 절차를 적용함으로써 하나 이상의 입력 신호들로부터 복수의 신호들을 생성하는, MPEG 서라운드(MPEGS) 툴로서, USAC 문맥에서, MPEGS는 바람직하게는 전송되는 다운믹스된 신호와 함께 매개변수 측 정보를 전송함으로써, 멀티채널 신호를 코딩하기 위해 사용되는, 상기 MPEG 서라운드(MPEGS) 툴;
·본래의 입력 신호를 분석하고 그것으로부터 상이한 코딩 모드들의 선택을 개시하는 제어 정보를 생성하는, 신호 분류기 툴로서, 입력 신호의 분석은 전형적으로 구현 종속적이고 주어진 입력 신호 프레임에 대한 최적의 코어 코딩 모드를 선택하기 위해 시도할 것이며, 신호 분류기의 출력은 선택적으로 다른 툴들, 예를 들어, MPEG 서라운드, 개선된 SBR, 시간-와핑된 필터뱅크, 및 다른 것들의 거동에 영향을 주기 위해 사용될 수 있는, 상기 신호 분류기 툴;
·선형 추측 합성 필터를 통해 재구성된 여기 신호를 필터링함으로써, 여기 도메인 신호로부터 시간 도메인 신호를 생성하는, LPC 필터 툴; 및
·긴 구간 예측자(적응적인 코드워드(codeword))를 펄스-형 시퀀스(획기적인 코드워드)와 조합하여 시간 도메인 여기 신호를 효율적으로 나타내기 위한 방법을 제공하는, ACELP 툴.
도 12는 도 10 및 도 11에 도시된 eSBR 유닛들의 실시예를 나타내다. eSBR 유닛(1200)은 다음에 디코더의 문맥에서 설명될 것이며, eSBR 유닛(1200)으로의 입력은, 신호의 저 대역이라고도 알려진, 신호의 저 주파수 성분이다.
도 12에서, 저 주파수 성분(1213)은 QMF 필터 뱅크로 공급되어, QMF 주파수 대역들이 생성된다. 이들 QMF 주파수 대역들은 본 명세서에서 개략적으로 설명된 분석 하위대역들에 대해서 잘못 판단되지 않는다. QMF 주파수 대역들은 시간 도메인보다는, 오히려 주파수 도메인에서 신호의 저 및 고 주파수 성분을 조작 및 병합하는 목적을 위해 사용된다. 저 주파수 성분(1214)은 본 명세서에서 개략적으로 설명된 고 주파수 재구성을 위한 시스템에 대응하는 전위 유닛(1204)에 공급된다. 전위 유닛(1204)은 또한 고대역으로 알려진 신호의 고 주파수 성분(1212)을 생성하고, 이것은 QMF 필터 뱅크(1203)에 의해 주파수 도메인으로 변환된다. QMF 변환된 저 주파수 성분 및 QMF 변환된 고 주파수 성분 모두는 조작 및 병합 유닛(1205)으로 공급된다. 이 유닛(1205)은 고 주파수 성분의 엔벨로프 조정을 수행하고, 조정된 고 주파수 성분 및 저 주파수 성분을 조합할 수 있다. 조합된 출력 신호는 역 QMF 필터 뱅크(1201)에 의해 시간 도메인으로 다시-변환된다.
전형적으로, QMF 필터 뱅크(1202)는 32 QMF 주파수 대역들을 포함한다. 이러한 경우들에서, 저 주파수 성분(1213)은
Figure 112014008704783-pat00142
의 대역폭을 가지며,
Figure 112014008704783-pat00143
는 신호(1213)의 샘플링 주파수이다. 고 주파수 성분(1212)은 전형적으로
Figure 112014008704783-pat00144
의 대역폭을 가지며, 64 QMF 주파수 대역들을 포함하는 QMF 뱅크(1203)를 통해 필터링된다.
본 명세서에서, 고조파 전위를 위한 방법이 개략적으로 설명되었다. 고조파 전위의 이 방법은 특히 순간 신호들의 전위에 대하여 적절할 것이다. 그것은, 보코더들을 사용하는 고조파 전위와 주파수 도메인 오버래핑의 조합을 포함한다. 전위 동작은 분석 윈도우, 분석 윈도우 폭, 변환 크기, 합성 윈도우, 합성 윈도우 폭, 분석된 신호의 위상 조정들의 조합에 따른다. 이 방법을 통해, 사전- 및 사후-에코들과 같은 원하지 않는 영향들이 회피될 수 있다. 또한, 이 방법은 전형적으로 신호 처리 내의 비연속에 기인한 신호 왜곡들을 도입시키는 순간 검출과 같은 신호 분석 수단들을 사용하지 않는다. 이외에, 제안된 방법은 감소된 계산 복잡도만을 갖는다. 본 발명에 따른 고조파 전위 방법은 분석/합성 윈도우들, 이득 값들, 및/또는 시간 얼라인먼트의 적절한 선택에 의해 더욱 개선될 수 있다.
110: 분석 단 111: 분석 윈도우
112: 펄스 120: 합성 단
121: 합성 윈도우

Claims (15)

  1. 전위 인자(transposition factor) T를 사용하여 입력 신호(312)의 고조파 전위를 수행하기 위한 시스템에 있어서,
    상기 입력 신호(312)의 L개의 시간-도메인 샘플들의 프레임을 추출하고, 크기 M의 분석 변환 유닛을 이용하여 상기 L개의 시간-도메인 샘플들을 M개의 복소 주파수-도메인 계수들로 변환하기 위한 분석 단(601, 602, 603);
    상기 전위 인자 T를 사용하여 상기 주파수-도메인 복소 계수들을 변경하기 위한 비선형 처리 유닛(604);
    상기 변경된 주파수-도메인 계수들을 M개의 변경된 시간-도메인 샘플들로 변환하기 위한 크기 M의 합성 변환 유닛(605); 및
    상기 M 개의 변경된 시간-도메인 샘플들로부터 L개의 시간-도메인 출력 샘플들을 추출하기 위한 합성 윈도우 유닛(synthesis window unit)(606)을 포함하고;
    M=F*L이고, F는 상기 전위 인자 T에 기초한 주파수-도메인 오버샘플링 인자인, 입력 신호의 고조파 전위를 수행하기 위한 시스템.
  2. 제 1 항에 있어서,
    상기 오버샘플링 인자 F는 (T+1)/2 이상인, 입력 신호의 고조파 전위를 수행하기 위한 시스템.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 비선형 처리 유닛(604)은 상기 전위 인자 T를 사용하여 상기 복소 주파수-도메인 계수들의 위상을 변경하도록 구성되는, 입력 신호의 고조파 전위를 수행하기 위한 시스템.
  4. 제 3 항에 있어서,
    상기 위상의 변경은 상기 위상을 상기 전위 인자 T로 승산하는 것을 포함하는, 입력 신호의 고조파 전위를 수행하기 위한 시스템.
  5. 제 1 항 또는 제 2 항에 있어서,
    상기 분석 단(601, 602, 603)은 상기 입력 신호(312)에 분석 윈도우(311)를 적용하기 위한 분석 윈도우 유닛(602)을 포함하고, 상기 분석 윈도우(311)는 부가적인 (F-1)*L 제로들(zeros)에 의한 제로 패딩을 갖는 길이 L을 갖는, 입력 신호의 고조파 전위를 수행하기 위한 시스템.
  6. 제 5 항에 있어서,
    상기 합성 윈도우 유닛(606)은 합성 윈도우(321)를 적용하고, 상기 분석 윈도우(311)와 상기 합성 윈도우(321)는 동일한 길이를 갖는, 입력 신호의 고조파 전위를 수행하기 위한 시스템.
  7. 삭제
  8. 제 5 항에 있어서,
    - 상기 분석 윈도우를 상기 입력 신호를 따라 Sa 샘플들의 분석 폭 만큼 시프트하여, 상기 입력 신호의 연속 프레임들(a succession of frames)을 생성하기 위한, 분석 폭 유닛(601);
    - L개의 시간-도메인 출력 샘플들의 연속적인 프레임들을 Ss 샘플들의 합성 폭 만큼 시프트 하기 위한, 합성 폭 유닛(607);
    - L개의 시간-도메인 출력 샘플들의 연속적인 시프트된 프레임들을 오버래핑 및 더하기(overlapping and adding) 하여 출력 신호를 생성하기 위한 오버랩-더하기 유닛(608)을 더 포함하는, 입력 신호의 고조파 전위를 수행하기 위한 시스템.
  9. 제 8 항에 있어서,
    상기 전위 인자 T에 의해 상기 출력 신호의 샘플링 레이트를 증가시켜 전위된 출력 신호를 산출하는 축소 유닛(609)을 더 포함하는, 입력 신호의 고조파 전위를 수행하기 위한 시스템.
  10. 제 9 항에 있어서,
    - 상기 합성 폭은 상기 분석 폭의 T 배이고;
    - 상기 전위된 출력 신호는, 상기 전위 인자 T에 의해 피치-시프트된(pitch-shifted) 상기 입력 신호에 대응하는, 입력 신호의 고조파 전위를 수행하기 위한 시스템.
  11. 전위 인자 T에 의해 입력 신호(312)를 전위시키기 위한 방법에 있어서,
    - 상기 입력 신호(312)의 L개의 시간-도메인 샘플들의 프레임을 추출하는 단계;
    - 크기 M의 분석 변환 유닛을 이용하여, 상기 L개의 시간-도메인 샘플들을 M개의 복소 주파수-도메인 계수들로 변환하는 단계;
    - 상기 전위 인자 T를 사용하여 상기 주파수-도메인 복소 계수들을 변경하는 단계;
    - 크기 M의 합성 변환 유닛을 이용하여, 변경된 상기 주파수-도메인 계수들을 M개의 변경된 시간-도메인 샘플들로 변환하는 단계; 및
    - 상기 M개의 변경된 시간-도메인 샘플들로부터 L개의 시간-도메인 출력 샘플들을 추출하는 단계를 포함하고;
    M=F*L이고, F는 상기 전위 인자 T에 기초한 주파수-도메인 오버샘플링 인자인, 입력 신호를 전위시키는 방법.
  12. 제 11 항에 있어서,
    상기 L개의 시간-도메인 샘플들을 M개의 복소 주파수-도메인 계수들로 변환하는 단계는 푸리에 변환, 고속 푸리에 변환, 이산 푸리에 변환, 및 웨이브렛 변환 중 어느 하나를 수행하는 것을 포함하는, 입력 신호를 전위시키는 방법.
  13. 제 11 항 또는 제 12 항에 있어서,
    상기 오버샘플링 인자 F는 (T+1)/2 이상인, 입력 신호를 전위시키는 방법.
  14. 제 11 항 또는 제 12 항에 있어서,
    상기 입력 신호(312)는 오디오 신호의 저 주파수 성분을 포함하는, 입력 신호를 전위시키는 방법.
  15. 컴퓨팅 디바이스에서 실시될 때, 프로세서에 의해 실행되어 제 11 항 또는 제 12 항의 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독 가능 저장 매체.
KR1020147002353A 2009-09-18 2010-03-12 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체 KR101701759B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US24362409P 2009-09-18 2009-09-18
US61/243,624 2009-09-18
PCT/EP2010/053222 WO2010086461A1 (en) 2009-01-28 2010-03-12 Improved harmonic transposition

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020117020041A Division KR101405022B1 (ko) 2009-09-18 2010-03-12 입력 신호를 전위시키기 위한 시스템 및 방법, 상기 방법을 수행하는 소프트웨어 프로그램 및 컴퓨터 프로그램 제품을 포함하는 저장 매체

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020157023715A Division KR101697497B1 (ko) 2009-09-18 2010-03-12 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체

Publications (2)

Publication Number Publication Date
KR20140027533A KR20140027533A (ko) 2014-03-06
KR101701759B1 true KR101701759B1 (ko) 2017-02-03

Family

ID=45429422

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020157023715A KR101697497B1 (ko) 2009-09-18 2010-03-12 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체
KR1020117020041A KR101405022B1 (ko) 2009-09-18 2010-03-12 입력 신호를 전위시키기 위한 시스템 및 방법, 상기 방법을 수행하는 소프트웨어 프로그램 및 컴퓨터 프로그램 제품을 포함하는 저장 매체
KR1020147002353A KR101701759B1 (ko) 2009-09-18 2010-03-12 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020157023715A KR101697497B1 (ko) 2009-09-18 2010-03-12 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체
KR1020117020041A KR101405022B1 (ko) 2009-09-18 2010-03-12 입력 신호를 전위시키기 위한 시스템 및 방법, 상기 방법을 수행하는 소프트웨어 프로그램 및 컴퓨터 프로그램 제품을 포함하는 저장 매체

Country Status (5)

Country Link
US (3) US11594234B2 (ko)
JP (10) JP5433022B2 (ko)
KR (3) KR101697497B1 (ko)
CN (2) CN102318004B (ko)
HK (1) HK1190224A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR122019023709B1 (pt) 2009-01-28 2020-10-27 Dolby International Ab sistema para gerar um sinal de áudio de saída a partir de um sinal de áudio de entrada usando um fator de transposição t, método para transpor um sinal de áudio de entrada por um fator de transposição t e meio de armazenamento
KR101697497B1 (ko) 2009-09-18 2017-01-18 돌비 인터네셔널 에이비 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체
RU2596033C2 (ru) * 2010-03-09 2016-08-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ получения улучшенной частотной характеристики и временного фазирования способом расширения полосы аудио сигналов в фазовом вокодере
CN103197143A (zh) * 2013-02-28 2013-07-10 哈尔滨工业大学 基于汉宁窗fft算法与遍历滤波的谐波、间谐波检测方法
FR3025923A1 (fr) * 2014-09-12 2016-03-18 Orange Discrimination et attenuation de pre-echos dans un signal audionumerique
TW202242853A (zh) 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
CN110062945B (zh) * 2016-12-02 2023-05-23 迪拉克研究公司 音频输入信号的处理
CN108198571B (zh) * 2017-12-21 2021-07-30 中国科学院声学研究所 一种基于自适应带宽判断的带宽扩展方法及系统
KR20210005164A (ko) * 2018-04-25 2021-01-13 돌비 인터네셔널 에이비 고주파 오디오 재구성 기술의 통합
CN109243485B (zh) * 2018-09-13 2021-08-13 广州酷狗计算机科技有限公司 恢复高频信号的方法和装置
CN109655665A (zh) * 2018-12-29 2019-04-19 国网安徽省电力有限公司 基于布莱克曼窗的全相位傅里叶谐波分析方法
CN113283157A (zh) * 2021-04-02 2021-08-20 殷强 智能冲压压力机部件生命周期预测系统、方法、终端、介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998057436A2 (en) 1997-06-10 1998-12-17 Lars Gustaf Liljeryd Source coding enhancement using spectral-band replication
US20070027679A1 (en) 2005-07-29 2007-02-01 Texas Instruments Incorporated System and method for optimizing the operation of an oversampled discrete fourier transform filter bank

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4246617A (en) 1979-07-30 1981-01-20 Massachusetts Institute Of Technology Digital system for changing the rate of recorded speech
RU2256293C2 (ru) 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
JP3442974B2 (ja) 1997-07-30 2003-09-02 本田技研工業株式会社 吸収式冷凍機の精留装置
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
DE60026189T2 (de) 1999-03-25 2006-09-28 Yamaha Corp., Hamamatsu Verfahren und Vorrichtung zur Wellenformkomprimierung und Erzeugung
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
AUPR141200A0 (en) 2000-11-13 2000-12-07 Symons, Ian Robert Directional microphone
EP1536582B1 (en) * 2001-04-24 2009-02-11 Nokia Corporation Methods for changing the size of a jitter buffer and for time alignment, communications system, receiving end, and transcoder
US6963842B2 (en) 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
EP1438673B1 (en) 2001-09-26 2012-11-21 Interact Devices Inc. System and method for communicating media signals
US6912495B2 (en) 2001-11-20 2005-06-28 Digital Voice Systems, Inc. Speech model and analysis, synthesis, and quantization methods
JP3870193B2 (ja) * 2001-11-29 2007-01-17 コーディング テクノロジーズ アクチボラゲット 高周波再構成に用いる符号器、復号器、方法及びコンピュータプログラム
AU2003236382B2 (en) * 2003-08-20 2011-02-24 Phonak Ag Feedback suppression in sound signal processing using frequency transposition
WO2005078707A1 (en) 2004-02-16 2005-08-25 Koninklijke Philips Electronics N.V. A transcoder and method of transcoding therefore
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
KR100590561B1 (ko) 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
EP1810281B1 (en) * 2004-11-02 2020-02-26 Koninklijke Philips N.V. Encoding and decoding of audio signals using complex-valued filter banks
US7386445B2 (en) 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
AU2005201813B2 (en) * 2005-04-29 2011-03-24 Phonak Ag Sound processing with frequency transposition
JP5032314B2 (ja) 2005-06-23 2012-09-26 パナソニック株式会社 オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
CN101233506A (zh) * 2005-07-29 2008-07-30 德克萨斯仪器股份有限公司 优化过采样离散傅立叶变换滤波器组的操作的系统和方法
US7565289B2 (en) 2005-09-30 2009-07-21 Apple Inc. Echo avoidance in audio time stretching
US20070083377A1 (en) 2005-10-12 2007-04-12 Steven Trautmann Time scale modification of audio using bark bands
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
JP4950210B2 (ja) 2005-11-04 2012-06-13 ノキア コーポレイション オーディオ圧縮
TWI339991B (en) * 2006-04-27 2011-04-01 Univ Nat Chiao Tung Method for virtual bass synthesis
US7818079B2 (en) 2006-06-09 2010-10-19 Nokia Corporation Equalization based on digital signal processing in downsampled domains
EP1879293B1 (en) * 2006-07-10 2019-02-20 Harman Becker Automotive Systems GmbH Partitioned fast convolution in the time and frequency domain
US8135047B2 (en) 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
ES2631906T3 (es) * 2006-10-25 2017-09-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la generación de valores de subbanda de audio, aparato y procedimiento para la generación de muestras de audio en el dominio temporal
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
AU2008203351B2 (en) * 2007-08-08 2011-01-27 Oticon A/S Frequency transposition applications for improving spatial hearing abilities of subjects with high frequency hearing loss
ES2823560T3 (es) * 2007-08-27 2021-05-07 Ericsson Telefon Ab L M Análisis/síntesis espectral de baja complejidad utilizando resolución temporal seleccionable
US8121299B2 (en) 2007-08-30 2012-02-21 Texas Instruments Incorporated Method and system for music detection
US8706496B2 (en) 2007-09-13 2014-04-22 Universitat Pompeu Fabra Audio signal transforming by utilizing a computational cost function
DE102008015702B4 (de) * 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
RU2565008C2 (ru) 2008-03-10 2015-10-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал
US8060042B2 (en) 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
CA3162807C (en) 2009-01-16 2024-04-23 Dolby International Ab Cross product enhanced harmonic transposition
EP2214165A3 (en) 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
EP2237266A1 (en) * 2009-04-03 2010-10-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
CO6440537A2 (es) 2009-04-09 2012-05-15 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio
US8971551B2 (en) 2009-09-18 2015-03-03 Dolby International Ab Virtual bass synthesis using harmonic transposition
KR101697497B1 (ko) * 2009-09-18 2017-01-18 돌비 인터네셔널 에이비 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998057436A2 (en) 1997-06-10 1998-12-17 Lars Gustaf Liljeryd Source coding enhancement using spectral-band replication
US20070027679A1 (en) 2005-07-29 2007-02-01 Texas Instruments Incorporated System and method for optimizing the operation of an oversampled discrete fourier transform filter bank

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NAGEL, F. et al. A HARMONIC BANDWIDTH EXTENSION METHOD FOR AUDIO CODECS. ICASSP 2009. 2009.04. (제145면 내지 제148면)

Also Published As

Publication number Publication date
KR20150104229A (ko) 2015-09-14
US20240105191A1 (en) 2024-03-28
JP2014052659A (ja) 2014-03-20
JP2016001329A (ja) 2016-01-07
JP7271616B2 (ja) 2023-05-11
CN102318004A (zh) 2012-01-11
CN103559891B (zh) 2016-05-11
JP6926273B2 (ja) 2021-08-25
JP6638110B2 (ja) 2020-01-29
JP5433022B2 (ja) 2014-03-05
JP2017122945A (ja) 2017-07-13
JP2020118996A (ja) 2020-08-06
US11837246B2 (en) 2023-12-05
US20230027660A1 (en) 2023-01-26
JP2018185539A (ja) 2018-11-22
JP2012516464A (ja) 2012-07-19
KR20140027533A (ko) 2014-03-06
JP6381727B2 (ja) 2018-08-29
JP2019207434A (ja) 2019-12-05
US20230197089A1 (en) 2023-06-22
JP2023083608A (ja) 2023-06-15
CN102318004B (zh) 2013-10-23
KR101697497B1 (ko) 2017-01-18
JP6573703B2 (ja) 2019-09-11
KR20110134395A (ko) 2011-12-14
JP6132885B2 (ja) 2017-05-24
HK1190224A1 (en) 2014-06-27
US11594234B2 (en) 2023-02-28
JP2020042315A (ja) 2020-03-19
JP2021177259A (ja) 2021-11-11
CN103559891A (zh) 2014-02-05
KR101405022B1 (ko) 2014-06-10
JP6008830B2 (ja) 2016-10-19
JP6701429B2 (ja) 2020-05-27

Similar Documents

Publication Publication Date Title
US11100937B2 (en) Harmonic transposition in an audio coding method and system
US11594234B2 (en) Harmonic transposition in an audio coding method and system
US11562755B2 (en) Harmonic transposition in an audio coding method and system
AU2021204779B2 (en) Improved Harmonic Transposition
AU2023282303B2 (en) Improved Harmonic Transposition

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 4