KR101203348B1 - 가중 오버랩 애드 방법 - Google Patents

가중 오버랩 애드 방법 Download PDF

Info

Publication number
KR101203348B1
KR101203348B1 KR1020077020043A KR20077020043A KR101203348B1 KR 101203348 B1 KR101203348 B1 KR 101203348B1 KR 1020077020043 A KR1020077020043 A KR 1020077020043A KR 20077020043 A KR20077020043 A KR 20077020043A KR 101203348 B1 KR101203348 B1 KR 101203348B1
Authority
KR
South Korea
Prior art keywords
samples
signal
frames
subsequences
window
Prior art date
Application number
KR1020077020043A
Other languages
English (en)
Other versions
KR20080002756A (ko
Inventor
소렌 방 안데르센
Original Assignee
스카이프
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=59285473&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR101203348(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 스카이프 filed Critical 스카이프
Publication of KR20080002756A publication Critical patent/KR20080002756A/ko
Application granted granted Critical
Publication of KR101203348B1 publication Critical patent/KR101203348B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/18Automatic or semi-automatic exchanges with means for reducing interference or noise; with means for reducing effects due to line faults with means for protecting lines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Dc Digital Transmission (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Telephonic Communication Services (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Communication Control (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Superconductors And Manufacturing Methods Therefor (AREA)
  • Noise Elimination (AREA)

Abstract

본 발명은 샘플들의 제1 및 제2 서브시퀀스에 응답하여 샘플들의 출력 시퀀스를 생성하는 방법을 제공하며, 상기 방법은-상기 샘플들의 출력 시퀀스를 생성하도록 상기 제1 및 제2 서브시퀀스들에 가중 오버랩 애드 절차를 적용하는 단계와, -상기 샘플들의 출력 시퀀스와 샘플들의 하나 이상의 타겟 시퀀스들 사이에 매칭의 측정에 응답하여 상기 가중 오버랩 애드 절차에 포함된 가중 함수를 최적화하는 단계를 포함한다.

Description

가중 오버랩 애드 방법{METHOD FOR WEIGHTED OVERLAP-ADD}
본 발명은 신호의 프로세싱에 관한 것이다. 더욱 구체적으로, 본 발명은 신호 서브시퀀스(subsequence)들의 가중 오버랩 애드에서 발생하는 신호 아티팩트(artefact)들을 줄이는 방법, 디바이스, 및 장치에 관한 것이다. 애플리케이션들은 잡음제거(denoising), 향상(enhancement), 코딩, 은닉, 및 합성과 같은 신호 조작을 포함한다. 예시로서, 음성 및 오디오 잡음제거, 향상, 코딩, 은닉, 및 합성 애플리케이션들은 본 발명에 의해 개선된다. 본 발명은 통신 시스템 및 무선 통신 시스템을 통한 신호 전송의 품질을 개선하기 위해 신호 패킷들의 클럭 스큐(clock skew) 및/또는 지연 지터(delay jitter) 및/또는 손실의 영향을 완화하는 시스템과 관련하여 유리하게 적용된다.
본 발명의 동기는 전기통신 시스템들에 응용하기 위한 것이며, 특히 신호 패킷들의 손실 및/또는 지연 지터 및/또는 클럭 스큐의 영향을 완화하는 데 있어서의 응용에 관한 것이다. 본 발명의 상세한 설명, 바람직한 실시예들, 도면들 및 청구범위를 숙독함으로써 기술분야의 당업자에게 명백한 바와 같이, 본 발명은 일반적으로 가중된 오버랩 애드 절차가 신호들의 디지털 프로세싱에 적용되는 경우에 유리한 응용들을 갖는다.
최신 전기통신들은 신호의 디지털 전송을 토대로한다. 예를 들어, 도1에서, 전송기(200)는 소스(100)로부터 소리(sound) 신호를 수집한다. 이 소스는 마이크에 의해 수집된 한 명 이상의 사람들의 음성 및 다른 음향파 소스(acoustic wave source)의 결과이거나, 또는 이 소스는 문자음성변환기(text-to-speech synthesis) 또는 다이얼로그 시스템과 같은 소리 신호 저장 또는 생성 시스템일 수 있다. 만약 소스 신호가 아날로그라면, 소스 신호는 아날로그-디지털 변환기에 의해 디지털 표현으로 변환된다. 디지털 표현은 후속적으로 인코딩(encoded)되고 디지털 채널(300)에 적합한 포맷을 따라 패킷들 내에 배치된다. 이 패킷들은 디지털 채널을 통해 전송된다. 디지털 채널은 전형적으로 다수의 추상화 계층들(multiple layers of abstraction)을 포함한다.
도1의 추상화 계층에서, 상기 디지털 채널은 일련의 패킷들을 입력으로서 취하고 일련의 패킷들을 출력으로서 전달한다. 채널에서의 과부하, 결점 및 노이즈에 의해 전형적으로 야기되는 채널의 열화(degradation)로 인해, 출력 패킷 시퀀스는 전형적으로 패킷들 중 일부의 손실과 다른 패킷들에 대한 도착 시간 지연 및 지연 지터에 의해 오염된다. 더욱이, 전송기와 수신기의 클럭 차이가 클럭 스큐를 야기할 수 있다. 수신된 데이터 패킷들을 디코딩(decode)하고 그리고 패킷 스트림으로부터 상기 디코딩된 디지털 표현들을 변환하여 이를 디지털 신호 표현들로 디코딩하고 또다시 이들 표현들을 신호 싱크(500)에 대한 출력에 적당한 포맷의 디코딩된 소리신호로 변환하는 것이 수신기(400)의 임무이다. 이 신호 싱크는 예컨대 하나 이상의 확성기에 의해 디코딩된 소리 신호를 제공받는 하나 이상의 사람들일 수 있다. 대안적으로, 신호 싱크는 음성 또는 오디오 저장 시스템 또는 음성 또는 오디오 대화 시스템 또는 인식장치(recognizer) 수 있다.
싱크에 제공될 수 있는 신호를 정확하게 재생하는 것이 수신기의 임무이다. 싱크가 직간접적으로 인간 청취자들(human listener)을 포함한다면, 수신기의 목적은, 인간 청취자들에게 제공될 때 소스 또는 소스들로부터 음향 신호의 정보 및 인간적으로 지각된 인상을 정확하게 재생하는 소리 신호의 표현을 획득하는 것이다. 손실, 지연, 지연 지터 및 클럭 스큐를 갖는 일련의 수신된 패킷들과 같은 채널 저하가 또한 존재하는 일반적인 경우에 이 임무를 보증하기 위해, 효율적인 은닉이 상기 수신기 서브시스템의 일부로서 필수적이다.
예로서, 이 임무를 달성하기 위한 수신기 서브시스템의 가능한 일 실시예가 도2에 도시되어 있다. 상기 도면에 표시된 바와 같이, 착신되는 패킷들은 지터 버퍼(410) 내에 저장되며, 디코딩 및 은닉 유닛(420)은 상기 지터 버퍼(410)로부터 수신된 인코딩된 신호 표현들을 획득하여, 이들 인코딩된 신호 표현들을 디코딩하고 은닉하여 플레이아웃 버퍼(playout buffer)(430) 및 후속 플레이아웃에서 저장하기에 적합한 신호 표현들을 획득한다. 은닉을 언제 초기화하는지 및 은닉 신호의 길이와 같은 상기 은닉 파라미터들의 특정 제어가 예를 들어 제어 유닛(440)에 의해 수행될 수 있으며, 상기 제어 유닛(440)은 상기 지터 버퍼 및 플레이아웃 버퍼의 내용(contents)를 모니터링하고 상기 디코딩 및 은닉 유닛(420)의 동작을 제어한다.
은닉은 또한 채널 서브시스템의 일부로서 달성될 수 있다. 도3은 채널 서브시스템의 일예를 도시하며, 이 채널 서브시스템에서는 패킷들이 서브시스템(320)을 통해서 채널(310)로부터 채널(330)로 포워딩되며, 서브시스템(320)은 추후 본 명세서에서 중계기(relay)로 지칭된다. 실제 시스템에서, 중계기 기능은 환경에 따라 다양한 명칭을 가질 수 있는 유닛들에 의해 달성될 수 있는바, 예컨대 다양한 종류의 라우터(router), 프록시 서버, 에지 서버(edge server), 네트워크 액세스 제어기, 무선 LAN 제어기(wireless local area network controller), VoIP(voice over IP) 게이트웨이, 미디어 게이트웨이, 무면허 네트워크 제어기, 및 다른 명칭을 가질 수 있다. 본 명세서에서 이 모든 명칭들은 중계기 시스템들의 예시이다.
오디오 은닉을 할 수 있는 중계기 시스템의 일례가 도4에 도시되어 있다. 이 도면에 도시된 바와 같이, 패킷들은 패킷 교환 서브시스템들(320 및 350)을 통해 입력 버퍼(310)로부터 출력 버퍼(360)로 포워딩된다. 제어 유닛(370)은 입력 버퍼와 출력 버퍼를 모니터링하고, 모니터링의 결과로서, 트랜스코딩(transcoding) 및 은닉이 필요한지에 관한 결정을 한다. 만약 필요하다면, 스위치들은 패킷들이 트랜스코딩 및 은닉 유닛(330)을 통하도록 한다. 만약 필요하지 않다면, 스위치들은 패킷들이 최소 프로토콜 실행 서브시스템(minimal protocol action subsystem)(340)을 통하도록 하며, 이는 패킷 헤더들에 대한 최소의 동작들이 적용된 프로토콜들에 순응하여 남아있도록 한다. 이는 패킷들의 순서 번호 및 시간 스탬프(time-stamp)를 변경하는 단계들을 포함한다.
상기 설명들로 제한되는 것은 아니지만, 상기 설명들에 의해 예시된 시스템들을 사용하는 오디오 신호들의 전송에서, 소리 신호를 표시하는, 또는 부분적으로 표시하는 신호들에서 손실, 지연, 지연 지터, 및/또는 클록 스큐의 은닉이 필요하다.
종종 발진기 모델에서 구현되는 피치 반복 방법(pitch repetition method)은 발성된 음성(voiced speech)에서의 피치 주기(period)의 추정(estimate), 또는 대안적으로 상기 발성된 음성 신호의 상응하는 기본 주파수의 추정에 근거한다. 상기 피치 주기가 주어지면, 최종 피치 주기의 반복적인 판독(readout)에 의해 은닉 프레임이 획득된다. 상기 피치 주기의 각 반복 사이 그리고 상기 은닉 프레임의 시작 및 끝에서의 불연속성은 윈도우 오버랩 애드(windowed overlap-add) 절차에 의해 스무딩(smoothing)될 수 있다. 피치 반복 방법의 예를 위해서 특허 번호 WO 0148736호 및 국제전기통신연합(International Telecommunications Union) 제안 ITU-T G.711 부록 1을 보자.
종래 기술 시스템들은 선형 예측적 코딩 원리에 기반하여 피치 반복 기반 은닉을 디코더들과 통합한다. 이러한 시스템들에서, 상기 피치 반복은 장기간 예측자(long term predictor) 또는 적응 코드북 루프(adaptive codebook loop)로부터 판독에 의해 선형 예측적 여기 도메인에서 전형적으로 달성된다. 선형 예측적 여기 도메인에서의 피치 반복 기반 은닉의 예는 특허 번호 US 5699481, 국제전기통신 연합 제안 ITU-T G.729, 및 인터넷 엔지니어링 태스크 포스 리퀘스트포코멘 츠(Internet Engineering Task Force Request For Comments) 3951에서 찾아볼 수 있다. 상기 방법들은 손실 또는 증가하는 지연, 즉 양의 지연 지터, 그리고 예컨대 클럭 스큐로 인한 입력 또는 지터 버퍼 언더플로(underflow) 또는 근사(near) 언더플로의 상황들을 은닉하는데 적용된다. 감소하는 지연, 음의 지연 지터, 또는 입력 또는 지터 버퍼 오버플로(overflow) 또는 근사 오버플로를 은닉하기 위해서, 단축된 은닉 신호의 생성이 필요하다. 피치 기반 방법들은 피치 주기와 이전의 피치 주기 사이에 오버랩 애드 절차에 의해 이를 달성한다. 이 방법의 예는 특허 번호 WO0148736에서 찾아볼 수 있다.
다시 이는 선형 예측적 디코더들에 존재하는 편이점들(facilities)을 이용하면서 달성될 수 있다. 예로서, 특허번호 US 5699481은 재생 신호에서의 피치 주기성을 보장하도록 적응 코드북의 상태에 의존하여, 상기 재생 신호로부터 고정 코드북 기여 벡터들이 단순히 폐기되는 방법을 개시한다. 피치 반복 방법들과 관련하여 하나의 목적은 상기 은닉 프레임으로부터 후속 프레임으로의 끊김 없는(seamless) 신호 연속성이다. 특허 번호 WO 0148736은 이 목적을 달성하는 방법을 개시한다. 상기 WO 0148736에 개시된 발명에 의해, 상기 목적은 시변(time varying) 및 가능하게 신호 의존 길이의 은닉 프레임들에 의해 달성된다. 이는 효과적으로 지연 지터 및 클럭 스큐의 은닉과 관련하여 끊김 없는 신호 연속성을 보장할 수 있는 반면, 상기 솔루션은 도4에 도시된 유형의 시스템과 관련하여 결함을 발생시킨다: 이러한 유형의 은닉을 따르면, 상기 최소 프로토콜 실행(340)을 통해 바람직하게 중계되는 이전에 이미 인코딩된 프레임들에 끊김 없이 연결되는, 은닉의 고정된 기설정 길이의 프레임들로의 인코딩은 보장될 수 없다.
따라서, 중요한 목적은 정기적인(regular) 신호 프레임들의 길이와 동일한 기설정된 길이의 은닉 프레임들을 획득하는 것이다. 기설정된 길이를 갖는 은닉의 한가지 방법은 은닉 프레임들을 따르는 프레임으로부터 샘플들의 마지막 부분집합을 갖는 은닉 프레임들을 수를 타임스(time)한 기설정된 프레임 길이를 능가하는 샘플들 사이에 스무스 오버랩 애드를 달성하는 것이다. 이 방법은 예컨대 국제 전기통신 연합 제안 ITU-T G. 711 부록1에서 사용되는 것 및 종래 기술상태로부터 공지된 것이다. 본질적으로, 상기 방법은 프레임을 다른 프레임과 연결할 때 적용될 수 있으며, 여기서 상기 두 개의 프레임들은 본래의 오디오 신호에서 비연속적인 프레임들에 관한 것이다. 따라서, 기술분야의 당업자는 제1 프레임의 계속성으로서 은닉 프레임을 획득하고 그리고 이 은닉 프레임을 제2 프레임과의 오버랩 애드 절차로 도입시킴으로써 달성될 수 있고, 이에 의해 상기 제1 프레임의 마지막 샘플과 상기 제2 프레임의 제1 샘플 사이의 경계에서 기인하는 불연속성을 부분적으로 줄일 수 있다.
이들 시나리오에 대한 상기 해법들은 문제가 있다. 이는 상기 오버랩 애드 절차로 들어가는 상기 두 개의 신호들의 실제 파형의 형상에 따라 결과적인 오디오 신호에서 현저한 불연속성이 남을 것이기 때문이다. 이러한 불연속성은 신호에서 "범프(bump)" 또는 "페이드(fade)"로서 청취자에게 관찰된다.
하나 이상의 은닉 프레임들이 포함된 제1 시나리오에서, 이들 은닉 프레임들의 재샘플링은 문헌에 제시되어 있으며, 예컨대 이러한 방법을 위한 IEEE 1989 발렌주엘라(Valenzuela) 및 아니마루(Animalu)의 "A new voice packet reconstruction technique"를 참조하자. 이 방법은 은닉 프레임과의 연결보다 두 개의 기존 프레임들의 연결이 목적일 때는 해답을 제공하지 않으며, 더욱이 은닉 프레임과 후속하는 프레임의 연결에 대해, 이 방법은 여전히 문제가 있다. 이는 청취자에 의해 지각되는 불연속성을 완화하도록 필요한 리샘플링이 대신에, 역시 귀찮은 아티팩트로서 청취자에게 지각되는, 상당한 주파수 왜곡, 즉 주파수 쉬프트를 도입할 것이기 때문이다.
개시된 본발명, 또는 이의 실시예들은 공지된 해법에서 식별된 상기 한정사항들뿐만 아니라, 상기 공지된 해법들, 그리고 디지털 프로세싱을 위한 다른 시스템들에서 관련된 문제점들에 대한 해법들에서의 다른 특정되지 않은 결함들을 효과적으로 완화한다. 본 발명에 따르면, 이들 목적들은 첨부된 청구항에 정의된 특징들을 갖는, 본 발명의 서로 다른 모든 양상들, 방법, 프로그램 저장 디바이스, 및 장치에 의해 달성된다.
개시된 본 발명은 서브시퀀스들 사이에 가중 오버랩 애드를 사용함으로써 신호 서브시퀀스들의 스무스한 연결을 수행하는 기술을 제공한다. 항상은 아니지만, 전형적으로 이들 서브시퀀스들은 유사성의 관련된 측정치 또는 왜곡 측정치에 따라 동일하지는 않지만 유사하다. 특히, 소정의 신호 독립 가중 윈도우 함수(given signal independent weighting window function)을 이용하는 공지된 오버랩 애드 방법들과 비교할 때, 본 발명은 종래 기술에서부터 알려진 것보다 훨씬 적은 지각되는 아티팩트들을 가지고, 본질적으로 디시밀래러티(de-similarity)를 갖는 신호 프레임들을 연결하는 기술을 제공한다. 이에 따라 본 발명은 결과적으로 직접적으로 개선된 지각되는 품질을 갖는 종래 기술 시스템들의 제한사항을 경감한다.
하기의 정의들이 본 출원의 명세서 전반에 걸쳐 사용될 것이다. "샘플(sample)"은 디지털화된 오디오 신호 또는 이로부터 유도된 신호, 또는 이러한 신호를 나타내는 계수들 또는 파라미터들로부터 기인하는 샘플로 이해되며, 이들 계수들 또는 파라미터들은 스칼라 또는 벡터값이다. "프레임(frame)"은 상기 샘플의 정의를 사용하여, 한 세트의 연속적인 샘플들로 이해된다. "서브시퀀스"는 상기 샘플의 정의를 사용하여, 하나 이상의 연속적인 샘플들의 세트로 이해된다. 따라서, 특별한 경우에 서브시퀀스는 샘플과 동일하다. 예컨대, 오버랩 애드를 사용하는 경우에, 두 개의 연속적인 서브시퀀스들은 오버랩되는 샘플들을 포함할 수 있다. 프레임의 선택에 의존하여, 서브시퀀스는 2개의 연속하는 프레임 사이에서 확장될 수 있다.
제1양상에서, 본 발명은 샘플들의 제1 및 제2 서브시퀀스에 응답하여 샘플들의 출력 시퀀스를 생성하는 방법을 제공하며, 상기 방법은:
-상기 샘플들의 출력 시퀀스를 생성하도록 상기 제1 및 제2 서브시퀀스들에 가중 오버랩 애드 절차를 적용하는 단계와,
-상기 샘플들의 출력 시퀀스와 샘플들의 하나 이상의 타겟 시퀀스들 사이에 매칭의 측정에 응답하여 상기 가중 오버랩 애드 절차에 포함된 가중 함수를 최적화하는 단계를 포함한다.
상기 가중 함수(weighting function)는 샘플들의 두 개 이상의 타겟 시퀀스들에 응답하여 최적화될 수 있다.
바람직하게, 상기 최적화는 상기 가중 오버랩 애드 절차에 포함된 두 개 이상의 가중 함수들을 조정하는 것과 같이, 상기 가중 오버랩 애드 절차에서 포함된 적어도 하나의 가중 함수를 조정하는 단계를 포함한다.
상기 가중 오버랩 애드 절차에 포함된 적어도 하나의 가중 함수는 일 세트의 파라미터에 의해 표현될 수 있다. 상기 파라미터들의 세트는 기본적인 윈도우 형상들의 선형 결합으로 적어도 하나의 가중 함수의 시간적 형상(temporal shape)의 분해(decomposition)에 근거할 수 있다. 상기 파라미터들의 세트는 두 개 이상의 기본 윈도우 형상들의 선형 결합으로 적어도 하나의 가중 함수의 시간적 형상의 분해에 근거한다. 상기 파라미터들의 세트의 생성은 상기 샘플들의 제1 및 제2 서브시퀀스들 중 적어도 하나로 적어도 하나에 탭 지연 라인(tapped delay line)을 적용하는 것을 포함한다. 상기 파라미터들의 세트의 생성은 상기 샘플들의 제1 및 제2 서브시퀀스에 2개의 탭 지연 라인을 적용하는 것을 포함할 수 있다. 상기 파라미터들의 세트의 생성은 3 개의 탭 지연 라인들을 적용하는 것을 포함할 수 있다.
상기 가중 오버랩 애드 절차에 포함된 가중된 함수는 샘플들의 출력 시퀀스와 상기 샘플들의 적어도 하나의 타겟 시퀀스 사이의 거리(distance)의 측정치에 응답하여 수정될 수 있다. 거리의 이러한 측정은 가중된 합산된 제곱 에러와 같은 합산된 제공 에러에 근거할 수 있다. 상기 거리의 측정은 가중된 최소 제곱절차와 같은 최소 제곱 절차에 따라 최소화될 수 있다.
상기 제1 및 제2 서브시퀀스들의 샘플들은 음성을 포함하는 오디오 신호와 같은 디지털화된 오디오 샘플들을 나타낸다.
상기 샘플들의 제1 및 제2 서브시퀀스들 중 하나는 은닉 샘플들의 시퀀스일 수 있다.
따라서, 본 발명은 두 개 이상의 신호 서브시퀀스들을 연결하는 가중 오버랩 애드 절차를 적용하는 방법을 제공한다. 상기 오버랩 애드에서의 가중 함수들은 상기 오버랩 애드 절차의 출력과 하나 이상의 타겟 서브시퀀스들 사이에 왜곡 측정치에 응답하여 최적화된다. 상기 타겟 서브시퀀스들은 필요한, 또는 부분적으로 필요한 오버랩 애드 절차의 출력의 어프록시메이션(approximation)들을 구성한다. 유리하게 상기 왜곡 측정은 이들 타겟들을 가중한다. 본 발명에서 상기 가중 함수들은 플랫 또는 넌플랫(non-flat) 시간 및/또는 주파수 응답들의 일반적인 함수일 수 있다. 본 발명의 단순한 실시예는 타겟 신호와 상기 오버랩 애드 절차의 출력 사이에 유사성을 최적화하도록 기설정된 윈도우 형상의 최적화된 스칼라 가중치를 구성한다. 더욱 개선된 실시예들은 유리하게 더 많은 타겟 신호들과 더욱 유리한 가중치 함수들의 파라미터화를 제공한다. 이러한 유리한 파라미터화는 하나보다 많은 가중치 함수에 대해 스칼라 가중치를 적용하는 것을 포함하고; 기본적인 윈도우 형상들의 선형 결합으로 하나 이상의 가중치 함수들의 분해를 포함하고; 및/또는 상기 가중치 함수의 하나 이상에서 탭 지연 라인을 포함한다. 유리하게, 합산된 제곱 에러 또는 가중된 합산된 제곱 에러 측정은 최적화에서 최소화되고, 그리고 유리하게 최소 제곱 또는 가중된 최소 제곱 방법이 이 최소화에 대해 적용된다.
제2 양상에서, 본 발명은 제1양상에 따른 방법을 수행하도록 된 컴퓨터 실행가능한 프로그램 코드를 제공한다. 이러한 프로그램 코드는 머신 의존적 또는 머신 독립적 형태로 작성되고 머신 코드와 같은 프로그램 언어 또는 보다 고차원의 프로그램 언어로 작성될 수 있다.
제3의 양상에서, 본 발명은 제1 양상의 방법을 수행하도록, 범용 마이크로프로세서와 같은 마이크로프로세서에 대한 명령어들의 시퀀스를 포함하는 프로그램 저장 장치를 제공한다. 상기 저장 장치는 디스크, 메모리 카드, 메모리 스틱, 및 하드디스크등과 같은 모든 유형의 데이터 저장 수단일 수 있다.
제4 양상에서, 본 발명은 디지털화된 오디오 신호를 수신하는 디바이스 또는 장치와 같은 어레인지먼트(arrangement)을 제공한다. 상기 어레인지먼트는:
-수신된 디지털화된 오디오 신호를 나타내는 샘플들을 저장하는 메모리 수단과, 그리고
- 상기 제1 양상의 방법을 수행하는 프로세서 수단을 포함한다.
이하에서 바람직한 실시예로서 기술된 것들과 같이, 적당한 수단으로 본 발명을 구현하는 것은 최신 가중 오버랩 애드 기술로부터 알려진 아티팩트들을 완화하면서, 유사하지만 동일하지 않은 서브시퀀스들을 효과적으로 연결할 수 있게 한다. 이에 의해 본 발명은 특히 심각한 클록 스큐, 채널 손실, 및/또는 지연 지터를 갖는 상황에서 고품질의 양방향 음성 통신을 가능하게 한다.
이하에서 본 발명은 다음의 도면들을 참조하여 자세하게 설명된다.
도1은 손실, 지연, 지연 지터, 및/또는 클럭 스큐의 영향을 받는 공지된 단대단(end-to-end) 패킷 교환 소리 전송 시스템을 도시하는 블록 다이어그램이다;
도2는 제어 유닛의 제어하에서 지터-버퍼링, 디코딩 및 은닉, 그리고 플레이 아웃 버퍼링을 수행하는 수신기 서브시스템을 예시한다;
도3은 클럭 스큐, 손실, 지연, 및 지연 지터의 영향을 받는 패킷 교환 채널의 중계기 서브시스템을 도시하는 블록 다이어그램이다.
도4는 제어 유닛의 제어하에서 입력 버퍼링, 출력 버퍼링, 그리고 필요시에 트랜스코딩 및 은닉을 수행하는 중계기 서브시스템을 예시한다;
도5는 본 발명의 바람직한 실시예들의 한세트를 도시하는 블록 다이어그램이다;
도5A는 역시간순서의 최종 버퍼링된 서브시퀀스(subsequence)에 근거하는 서브시퀀스로 시작하는 은닉 프레임들의 서브시퀀스를 도시한다;
도5B는 역시간 순서의 최종 두 개의 버퍼링된 서브시퀀스들로 시작하는 은닉 프레임들의 최대 서브시퀀스의 시퀀스의 다른 예를 도시한다;
도5C는 스텝백(step back) 및 판독 길이에 의해 포맷된 인덱싱 패턴에서 샘플 카운트 인덱스들을 예시한다;
도6은 인덱싱 및 보간 함수에 포함된 신호들을 도시한다;
도7은 정지 기준에 대한 결정 로직(decision-logic)을 구현하는 한가지 방법을 예시하는 흐름도이다;
도8은 스무딩 및 이퀄라이제이션(equalization), 정지 기준 및 허용된 반복의 수의 반복적인 공동 최적화를 달성하는 한가지 가능한 방법을 도시하는 흐름도이다;
도9는 위상 조정 필터를 초기화하고 피딩(feed)하는 것과 관련하여 원형의 쉬프트(circular shift) 및 오버랩 애드의 사용을 예시한다; 그리고
도10은 개시된 가중 오버랩 애드 절차의 실시예를 도시한다.
본 발명은 다양한 수정 및 변경 형태가 가능하지만, 특정 실시예들만이 도면에서 예로서 도시되며 이하에서 상세하게 설명될 것이다. 그러나, 본 발명은 개시된 특정 형태로 제한되도록 의도되지 않음을 이해해야 한다. 이에 반해, 본 발명은 첨부된 청구항에 의해 정의된 발명의 사상 및 범위 내의 모든 수정물, 균등물, 및 치환물들을 포괄하도록 의도된다.
이하에서는 은닉 프레임의 생성과 관련하여 본 발명을 기술한다. 그러나, 청구항들의 범주로부터 이해될 바와 같이, 본 발명의 연결 방법은 이보다 훨씬 광범위한 응용들을 가진다.
본원의 방법은 도2에서의 수신기와 같은 수신기의 디코딩 및 은닉 유닛(420)에서 활성화되거나, 도4에서의 중계기와 같은 중계기의 트랜스코딩 및 은닉 유닛(330)에서 활성화되거나, 또는 그 행동이 적절한 통신 시스템에서의 다른 모든 위치에서 활성화될 수 있다. 이들 위치들에서, 수많은 버퍼링된 신호 프레임들이 이용가능하고 그리고 수많은 은닉 프레임들이 필요하다. 상기 이용가능한 신호 프레임들 및 필요한 은닉 프레임들은 예컨대 음성 신호와 같은 오디오 신호의 시간 도메인 샘플들로 구성될 수 있거나, 또는 선형 예측 여기 샘플들과 같은 이로부터 유도된 샘플들로 구성될 수 있거나, 또는 소리 신호의 프레임들을 부분적으로 또는 완전히 나타내는 오디오 신호로부터 유도된 다른 계수들로 구성될 수 있다. 이러한 계수들의 예들은 주파수 도메인 계수들, 사인형 모델 계수들, 선형 예측적 코딩 계수들, 파형 보간 계수들, 및 상기 오디오 신호 샘플들을 완전히 또는 부분적으로 나타내는 다른 계수들 세트이다.
도5는 본 발명의 바람직한 실시예를 예시한다. 도5에서, 이용가능한 신호 프레임들(595)이 프레임 버퍼(600) 내에 저장되며, 여기서 상기 이용가능한 신호 프레임들은 은닉 프레임들 또는 전술한 유형의 신호 프레임들의 조합을 생성하도록 상기 또는 다른 방법들의 이전 동작으로부터 수신되어 디코딩 또는 트랜스코딩된 신호 프레임들 또는 은닉 프레임들일 수 있다. 상기 프레임 버퍼 내의 신호는 인덱스 패턴 생성기(660)에 의해 분석된다. 상기 인덱스 패턴 생성기는 신호 피치(596) 및 보이싱(597)의 추정을 유리하게 사용할 수 있다. 전체 시스템 설계에 의존하여, 이들 개산들은 인코딩, 디코딩, 또는 트랜스코딩 프로세스와 같은 다른 프로세스들로부터의 입력으로 이용가능할 수 있거나, 또는 이들은 신호 분석을 위한 최신 기술을 바람직하게 사용하는 다른 수단들에 의해 연산된다. 더욱이, 상기 인덱스 패턴 생성기는 생성할 은닉 신호 프레임들의 수(598)와 그리고 상기 은닉 프레임 또는 프레임들이 대체하는 프레임 버퍼 내의 특정 신호 프레임들의 시작 및 끝에 대한 포인터(pointer)들(599)을 입력으로 취한다. 예시로서, 이들 버퍼들은 프레임 버퍼의 끝을 지시하며, 이는 은닉 프레임 또는 프레임들이 프레임 버퍼 내에 저장된 신호를 따르는데 적당하게 만들어져야 함을 의미한다. 다른 예로서, 만약 이들 포인터들이 프레임 버퍼 내의 연속적인 프레임들의 비지않은(non-empty) 부분집합을 지시하며, 이는 상기 은닉 프레임 또는 프레임들이 소리 신호를 나타내는 또는 부분적으로 나타내는 프레임 시퀀스에서 이들 프레임들을 대체하도록 만들어져야 함을 의미한다.
이를 더 설명하기 위해, 프레임 버퍼(600)가 신호 프레임들(A, B, C, D, E)을 포함하고, 그리고 은닉 프레임들(598)의 수가 2라고 가정하자. 그러면, 만약 대체할 프레임들에 대한 상기 포인터들(599)이 상기 프레임 버퍼의 끝을 지시한다면, 이는 2개의 은닉 신호 프레임들이 신호 프레임(E) 후에 연달아 뒤따라야 함을 의미한다. 반대로, 만약 포인터들(599)이 신호 프레임들(B, C, D)를 지시한다면, 상기 두 개의 은닉 프레임들은 신호 프레임들(B, C, D)을 대체하고 그리고 신호 프레임(A) 후에 연달아 뒤따라야 하고, 그리고 신호 프레임(E)이 연달아 뒤따르도록 만들어져야 함을 의미한다.
은닉 프레임들의 수(598) 및 상기 은닉 프레임들이 궁극적으로 대체해야 하는 프레임들의 부분집합을 결정하는 방법들, 즉, 포인터들(599),에 관하여, 최신 기술이 바람직하게 사용되어야 한다. 따라서, 데이터(596, 597, 598 및 599)는 신호 프레임들(595)과 함께 본 발명의 방법 디바이스 및 장치로의 입력들을 구성한다.
특정 전체 시스템 디자인에서, 신호 프레임의 길이 또는 치수는 유리하게 은닉 유닛의 실행 동안에 일정하게 유지된다. 특히, 은닉의 결과가 기설정된 길이의 시간 간격 내에 소리 신호를 나타내는 패킷들로 놓여야 하는 중계기 시스템에 상기 은닉 유닛이 통합되는 경우가 전형적이며, 여기서 상기 기설정된 길이는 어디에서라도 결정된다. 예로서, 상기 기설정된 길이는 VOIP에서 콜 설정 동안에 프로토콜 협상 중에 결정될 수 있고, 그리고 예컨대, 네트워크 폭주 제어 메커니즘들에 응답하여 대화(conversation) 중에 변경될 수 있다. 이후에 명확해지는 바와 같이, 본 발명의 일부 실시예들은 유리한 방법으로 신호 프레임의 기설정된 길이를 갖는 작업의 요구사항을 충족한다. 그러나, 이와 같은 기술혁신은 이들 시스템 요구들에 한정되지 않으며; 본 발명의 다른 실시예들은 정수가 아닌 프레임 수인 은닉들과 시변(time-varying) 길이를 갖는 은닉 프레임들을 사용하여 동작할 수 있으며, 그리고 여기서 이들 길이들은, 가능하게는 다른 인자들과 결합하여, 프레임 버퍼 내의 특정 내용의 함수들일 수 있다.
본 발명의 실시예들은 프레임 버퍼로부터의 신호(605)에 대해 작용하는 스무딩 및 이퀄라이제이션 작업(610)을 유리하게 사용할 수 있다. 상기 스무딩 및 이퀄라이제이션은 신호(615)를 생성하며, 여기서 상기 은닉 프레임 또는 프레임들에 대해 시간에 있어 앞선 프레임들은 상기 은닉 프레임 또는 프레임들이 대체하는 신호 프레임 또는 프레임들, 또는 상기 프레임 바로 이전의 프레임과 증대된 유사성을 갖는다. 대안적으로, 만약 은닉 프레임 또는 프레임들이 대체없이 기존의 프레임들에 이어서 삽입된다면, 상기 유사성은 상기 은닉 프레임 또는 프레임들의 의도된 위치 바로 이전의 프레임 또는 프레임들과 있다. 추후의 참조를 위해, 이 두 경우 모두를 유사성으로 지칭한다. 유사성은 청취자(human listener)에 의해 해석된다. 상기 스무딩 및 이퀄라이제이션은 개선된 유사성을 갖는 신호를 획득하며, 동시에 상기 신호(615)의 자연적으로 사운딩(sounding)하는 전개를 보존한다. 상기 스무딩 및 이퀄라이제이션(610)에 의해 유리하게 수행되는 유사성 증대 작업들의 예는 에너지 포락선(envelope), 피치 컨투어(pitch contour), 보이싱 등급(grade), 보이싱 컷오프, 및 스펙트럼 포락선, 및 다른 인식되는 중요한 파라미터들과 같은 파라미터들에서 개선된 스무스니스 및 유사성을 포함한다.
이들 파라미터들 각각과 관련하여, 스무딩되고 이퀄라이제이션될 프레임들 내의 파라미터의 전개에 있어서의 갑작스러운 천이(abrupt transient)가 필터링되고 이들 프레임들에서 상기 파라미터의 평균 레벨이 스무스하게 수정되어 위에 정의된 유사성의 의미에서 더욱 유사성을 띄게된다. 유리하게, 유사성은 상기 신호의 자연적으로 사운딩하는 진화를 여전히 보존할 정도로만 도입된다. 상기 인덱스 패턴 생성기(660)의 제어하에서, 상기 스무딩 및 이퀄라이제이션은 다른 경우였다면 후속하는 인덱싱 및 보간 동작(620)에서 발생했을 천이 및 불연속성을 유리하게 완화할 수 있다. 더욱이, 왜곡을 최소화하는 방식으로 상기 피치 컨투어의 스무딩 및 이퀄라이제이션은 유리하게 상기 인덱스 패턴 생성기(660)에 의해 제어될 수 있으며, 그렇지 않으면 상기 왜곡은 결국 상기 위상 필터(650)에 의해 은닉 프레임들로 추후에 도입된다. 상기 스무딩 및 이퀄라이제이션 작업은 유리하게 신호 또는 파라미터 치환, 혼합, 보간 및/또는 상기 프레임 버퍼(600) 내에 시간에 있어 이전에 발견되는 신호 프레임들(또는 이로부터 유도되는 파라미터들)과의 병합을 사용한다. 상기 스무딩 및 이퀄라이제이션 작업(610)은 본 발명의 일반적인 범위로부터 벗어남이 없이 상기 시스템으로부터 제거될 수 있다. 이러한 경우에, 상기 신호(615)는 상기 신호(605)와 동일시(equate)되며, 상기 인덱스 패턴 생성기(660)의 상기 신호 입력(656) 및 제어 출력(665)은 이러한 경우에 상기 시스템 설계로부터 생략될 수 있다.
상기 인덱싱 및 보간 작업(620)은 가능하게 스무딩 및 이퀄라이제이션된 신호(615) 및 인덱스 패턴(666)을 입력으로서 취한다. 더욱이, 본 발명의 일부 유리한 실시예들에서, 상기 인덱싱 및 보간 작업은 매칭 품질 표시자(667)를 입력으로 서 취한다. 상기 매칭 품질 표시자(matching quality indicator)는 시간 순간(time instant) 당 스칼라 값이거나 시간 및 주파수 양자 모두의 함수일 수 있다. 상기 매칭 품질 표시자의 목적은 본 명세서 내에서 추후에 명백해질 것이다. 상기 인덱스 패턴(666)은 인덱싱 및 보간 기능의 작업을 파라미터로 나타낸다.
도5A는 하나 이상의 은닉 프레임들의 합성에서 시간에 있어 점진적으로 뒤로가는 버퍼링된 샘플들(BS1, BS2, BS3, BS4)에서 서브시퀀스들을 인덱스 패턴이 어떻게 인덱싱하는지를 예시한다. 이러한 예시에서, 은닉 프레임들(CF1, CF2, CF3)에서 연속적인 서브시퀀스들(CS1, CS2, CS3, CS4, CS5, CS6, CS7)은 프레임들(BF1, BF2)에서 샘플들의 버퍼링된 서브시퀀스들(BS1, BS2, BS3, 및 BS4)에 근거한다. 도면에서 알 수 있는 바와 같이, 상기 은닉 서브시퀀스들(CS1-CS7)은 시간에 있어 점진적으로 뒤로향하고 그 다음 점진적으로 전진하는 위치 표시자와 함께 상기 버퍼링된 서브시퀀스들(BS1-BS4)로부터 인덱싱되며, 여기서 CS1은 BS4에 근거하는 등의 의미를 갖는, 함수적 표기법 CS1(BS4), CS2(BS3), CS3(BS2)에 의해 표현된다. 따라서, 도5A는 시간에 있어 재배열된 연속적인 버퍼링된 서브시퀀스들에 근거하여, 은닉 프레임들에서 연속적인 서브시퀀스들이 어떻게 서로 따르는지를 도시하는 예로서 기능한다. 도시된 바와 같이, 상기 제1의 네 개의 은닉 서브시퀀스들(CS1(BS4), CS2(BS3), CS3(BS2) 및 CS4(BS1))은 버퍼링된 샘플들의 마지막 네 개의 서브시퀀스들(BS1, BS2, BS3, BS4)에 근거하여, 역의 시간 순서이지만 연속적인 순서로 선택되며, 따라서 상기 마지막 버퍼링된 서브시퀀스(BS1)부터 시작한다. 역의 시간 순서에서 제1의 네 개의 서브시퀀스들 후에, 시간 순서로 연속적인 버퍼링된 서브시퀀스들, 즉 BS2, BS3 및 BS4에 각각 근거하는 세 개의 서브시퀀스들(CS5, CS6, CS7)이 뒤따른다. 상기 바람직한 인덱스 패턴은 인덱스 패턴 생성기(660)의 결과로서 상기 블록으로의 입력들(656, 596, 597, 598, 및 599)에 따라 크게 변할 수 있다. 도5A의 표기법을 따르는, 도5B는 어떻게 은닉 서브시퀀스들(CS1-Cs11)이 시간 재배열에서 버퍼링된 서브시퀀스들(BS1-BS4)에 근거할 수 있는지에 관한 다른 예를 도시한다. 도시된 바와 같이, 이후의 은닉 서브시퀀스들은 시간에 있어 이전의 버퍼링된 서브시퀀스들에 점진적으로 근거하며, 즉 상기 제1 두 개의 연속적인 은닉 서브시퀀스들(CS1 및 CS2)은 역시간 순서로 마지막 두 개의 버퍼링된 서브시퀀스들(BS3 및BS4)에 근거하며, 반면에 이후의 은닉 서브시퀀스, 예컨대 CS1은 BS1, 즉 CS1 및CS2를 연산하는데 사용되는 것보다 시간에 있어 더 앞선 버퍼링된 서브시퀀스를 근거로 한다. 따라서, 도5B는 연속적인 은닉 서브시퀀스들이 인덱싱이 시간에 있어 뒤로향하여 전개하도록 시간에 있어 뒤를향해 및 앞을 향해 인덱싱된 버퍼링된 서브시퀀스들에 근거한다.
본 발명의 유리한 실시예들에서, 시간에 있어 후방으로의 이러한 점진적인 전개는 본 명세서의 목적을 위해 "스텝백"으로 지칭하는 것의 시퀀스 및 본 명세서의 목적을 위해 판독 길이로 지칭되는 시퀀스로 형식화된다. 인덱스 패턴의 이러한 포맷이 단순한 실시예들에서, 신호 샘플들에 대한 표시자, 또는 이를 나타내는 파라미터들 또는 계수들은 샘플들의 양, 또는 이를 나타내는 파라미터들 또는 계수들이 은닉 프레임 내에 삽입된 후에 제1 스텝백에 동일한 양만큼 후방으로 이동되며, 여기서 상기 양은 제1 판독 길이와 동일하다. 이후에, 상기 표시자는 제2 스텝백과 동일한 양만큼 후방으로 이동되고 그리고 제2 판독 길이와 동일한 샘플들, 또는 이를 나타내는 파라미터들 또는 계수들의 양이 판독된다. 그 이후도 그러하다.
도5C는 인덱싱된 샘플들의 제1 이뉴머레이션(enumeration)을 재배열하는 것에 의한 상기 프로세스의 예를 도시한다. 상기 제1 이뉴머레이션은 신호 시간 축상에 리스트되고 상기 도5C의 은닉 시간 축상의 이뉴머레이션 리스트는 은닉 프레임에 위치되는 것과 같이 본래 샘플들의 재배열에 대응한다. 이러한 도시된 예시를 위해서, 상기 제1, 제2 및 제3 스텝백들은 임의적으로 각각 5, 6, 5로 선택되었고, 그리고 상기 제1, 제2, 및 제3 판독 길이들도 유사하게 임의적으로 각각 3, 4, 3으로 선택되었다. 이러한 예에서, 시간 인덱스 집합들 {6, 7, 8}, {3, 4, 5, 6}, 및 {2, 3, 4}를 각각 갖는 서브시퀀스들은 시간에 있어 점진적으로 후방으로 전개되는 서브시퀀스들이다. 상기 스텝백들 및 판독 길이들의 시퀀스들은 여기서 예시의 목적으로만 단순히 선택된다. 예로서 16kHz로 샘플링된 음성 잔존 샘플들에서, 스텝백들의 전형적인 값들은 40 내지 240의 범위에 있으나 이 범위로 제한되는 것은 아니며, 상기 판독 길이들에 대한 전형적인 값들은 5 내지 1000 샘플들의 범위를 가지지만 역시 이 범위에 제한되는 것은 아니다. 이러한 포맷의 더욱 진보된 실시예들에서, 순방향 시퀀스(예컨대, 본래 시간 또는 인덱싱된 시간에 있어 이전의 서브시퀀스)로부터 또 다른 순방향 시퀀스로의 천이(transition)는, 시간에 있어 또 다시 일 스텝백, 점진적 쉬프팅 보간함으로써 점진적으로 만들어진다.
도6은 일 스텝백 및 대응하는 판독길이 및 매칭 품질 표시자에 응답하여 인덱싱 및 보간 기능의 단순한 실시예의 동작을 예시한다. 예시의 목적으로, 여기서 신호 프레임들은 시간 도메인 오디오 샘플들로 구성된다. 상기 점진적 쉬프팅 보간은 본 명세서에서 사용되는 "샘플"의 일반적인 정의에 적용되며, 즉 유사하게 및 이에 의해 직접적인 방식으로 시간 도메인 오디오 샘플들을 나타내는 스칼라 또는 벡터 값을 갖는 계수들 또는 파라미터들을 포함한다. 이 도면에서, 700은 신호(615)의 세그멘트를 예시한다. 상기 표시자(705)는 인덱싱 및 보간 출력 신호(625)에서 최종적으로 생성된 샘플의 샘플 시각을 따르는 샘플 시각이다. 상기 시간 간격(750)은 판독 길이와 동등한 길이를 가진다. 상기 시간 간격(770)은 상기 판독 길이와 동일한 길이를 가진다. 상기 시간 간격(760)은 또한 상기 스텝백과 동일한 길이를 가진다. 700에서 시간(705)으로부터 시작하는 신호 샘플들 및 시간에 있어 순방향의 판독 길이는 윈도우 함수(720)에 의해 하나씩(one-by-one) 곱해진다. 또한 700에서 위치(706) 전 스텝백 이후 위치 하나의 샘플에서 시작하는 신호 샘플들 및 그 앞의 판독 길이 샘플들이 윈도우 함수(710)와 하나씩 곱해진다. 윈도우(710) 및 윈도우(720)과의 곱으로부터의 상기 결과적인 샘플들은 730에서 하나씩 가산되어 샘플들(740)이 상기 인덱싱 및 보간 동작으로부터의 출력(625)을 위한 새로운 샘플들 군을 구성하도록 된다. 이러한 동작이 완료되면, 상기 표시자(705)는 상기 위치(706)로 이동한다.
본 발명의 단순한 실시예에서, 상기 윈도우 함수들(710 및 720)은 판독 길이(750)의 단순한 함수들이다. 이러한 단순한 함수는 각각 판독 길이의 두 배의 길이의 해닝 윈도우(Hanning window)의 제1 및 제2 반(half)으로서 상기 윈도우(710)와 윈도우(720)를 선택하도록 한다. 광범위한 함수들이 여기서 선택될 수 있지만, 이러한 함수들이 본 발명의 환경에서 의미있게 되기 위해서는 이들은 750에 의해 표시된 세그먼트에서의 샘플들과 770에 의해 표시된 샘플들 사이에서 가중된 보간을 달성해야만 함이 관찰되며, 여기서 반드시 단조적일 필요는 없지만 점진적으로 750에 의해 표시된 세그먼트 상에서 높은 가중치로부터 770에 의해 표시된 세그먼트 상에서 높은 가중치로 이동된다.
본 발명의 다른 실시예들에서, 상기 윈도우 함수들(710 및 720)은 매칭 품질 표시자의 함수들이다. 이러한 함수의 단순한 예는 시간 간격들(750 및 770)에 의해 표시된 신호(700)의 세크멘트들 상에서 정규화(normalized)된 코릴레이션 상에서 임계치(threshold)에 따라, 보간 동작이 선택되어 진폭(amplitude) 또는 파워(power)에서 단일하게 합산된다. 이러한 함수의 다른 예는 크기 또는 파워를 하나로 합산하는 강제를 회피하며, 대신에 윈도우 가중치를 매칭 측정만의 함수로서 최적화한다. 이 방법의 추가의 세부사항은 표준화된 코릴레이션의 실제 값을 취하고, 예컨대 전형적인 선형 개산 방법들을 사용하여 이에 응답하여 보간 동작을 최적화한다. 그러나, 바람직한 방법들의 예들은 이하에서 설명된다. 이들 예들에서, 임계치, 정규화된 코릴레이션의 실제값 각각은 매칭 품질 표시자(667)에 의해 운반되는 유리한 정보의 예들을 제공한다. 이하에서 설명되는 바람직한 실시예에 따르면, 보간 동작은 서로 다른 주파수에서 서로 다른 가중치들을 구현하도록 만들어질 수 있다. 이러한 경우에, 매칭 품질 표시자(667)는 매칭의 측정치들을 주파수의 함수로서 운반할 수 있다. 유리한 실시예에서, 주파수의 함수로서의 이러한 가중치는 상기 매칭 기준을 최대화하도록 최적화될 수 있는 다른 파라미터 필터 또는 탭 지연 라인(tapped delay line)으로서 구현된다.
도6에서, 신호(615)(그리고 이에 따라 신호 세그먼트(700))가 소리 신호의 시간 도메인 샘플들 또는 이로부터 유도되는 타임 도메인 신호를 나타내는 샘플들을 포함할 때 인덱싱 및 보간의 동작을 예시한다. 전술한 바와 같이, 프레임들(595) 및 이에 따라 신호들(605 및 615) 내의 샘플들은 각 샘플이 벡터(벡터 값 샘플들)가 되도록 유리하게 존재하며, 여기서 이러한 벡터는 소리 신호를 나타내는 또는 부분적으로 나타내는 계수들 또는 파라미터들을 포함한다. 이러한 계수들의 예들은 선스펙트럼 주파수, 주파수 도메인 계수들, 또는 진폭, 주파수 및 위상의 세트와 같은 사인형 신호 모델을 정의하는 계수들이다. 본 발명의 바람직한 실시예들의 상세한 설명에 근거하면, 벡터값 샘플들에 유리하게 적용되는 보간 동작의 설계는 기술분야의 당업자에게는 실행될 수 있으며, 나머지 상세한 설명은 이러한 벡터값 샘플들의 특정 경우들 각각에 대한 일반적인 문헌들에서 찾을 수 있다.
인덱싱 및 보간 동작이 스텝백보다 작은 판독 길이로 반복적으로 적용되면, 결과적으로 신호(625) 내의 샘플들은 신호(515)에서 점진적으로 더욱더 뒤에 있는 신호 샘플들을 나타내게될 것을 관찰하는 것이 본발명의 이해를 돕는데 유리하다. 상기 판독 길이가 스텝백보다 크게 되도록 상기 스텝백 및/또는 판독 길이가 변경되면, 이 프로세스는 변화될 것이고 상기 신호(625) 내의 샘플들은 이제 신호(615) 내에서 점진적으로 더욱더 앞에 있는 신호 샘플들을 나타낼 것이다. 스텝백들의 시퀀스 및 판독 길이 시퀀스의 유리한 선택에 의해, 풍부하고 자연스러운 변화를 갖는 긴 은닉 신호는 프레임 버퍼(600) 내에서 가장 늦게 수신된 신호 프레임으로부터 시간에 있어 앞선 샘플들을 호출함이 없이, 또는 프레임 버퍼(600) 내의 가장 늦게 수신된 프레임에서 가장 늦은 샘플보다 앞서서 위치될 수 있는 또 다른 기설정된 시각의 앞의 샘플들을 호출함이 없이도 획득될 수 있다. 이에 의해 저지연 플레이아웃 또는 출력 버퍼 스케줄링을 갖는 시스템에서 지연 스파이크들의 은닉이 본 발명에서 가능해진다. 본 설명의 형식화에서, 본 발명의 단순한 실시예에서 요소로서 생각하기에 유용할 수 있는, 신호의 단순한 정밀한 후방 시간적 전개는 하나의 샘플의 판독 길이, 두 개의 샘플들의 스텝백, 그리고 0값의 단일 샘플로 구성된 윈도우(720) 및 1.0값의 단일 샘플로 구성된 윈도우(710)의 반복된 사용에 의해 구현된다.
인덱스 패턴 생성기(660)의 제1 목적은 인덱싱 및 보간 동작(620)의 행동을 제어하는 것이다. 바람직한 실시예들의 집합에서, 이러한 제어는 스텝백들의 시퀀스 및 판독 길이들의 시퀀스로 구성될 수 있는 인덱싱 패턴(666)에서 형식화된다. 이러한 제어는 매칭 품질 표시들의 시퀀스로 더욱 증대될 수 있으며, 이들 각각은 예컨대 주파수의 함수일 수 있다. 인덱스 패턴 생성기로부터 출력될 수 있는, 그리고 그 사용이 본 명세서에서 이후에 명확해질 추가적인 특징은 반복 카운트(668)이다. 반복 카운트의 의미는 은닉 프레임 또는 프레임들의 구성에서 시간에서 후방으로 전개가 개시되는 횟수이다. 상기 인덱스 패턴 생성기는 정보 기지(basis in information)로부터 이들 시퀀스들을 획득하며, 이는 스무딩 및 이퀄라이제이션 동작(610)으로부터 스무딩되고 이퀄라이제이션된 신호(656) 출력과, 피치 개산(596), 보이싱 개산(597), 생성할 은닉 프레임들의 수(598) 및 대체할 프레임들에 대한 표시자들(599)를 포함한다. 인덱스 패턴 생성기의 일 실시예에서, 이는 보이싱 표시 자에 의존하여 서로 다른 모드들에 들어간다. 이러한 모드들은 이하에서 예시된다.
선형 예측적 여기 도메인에서 유리하게 사용되는 예로서, 만약 보이싱 표시자가 신호가 언보이싱(unvoiced)된 음성이라고 로버스트하게 표시하거나 또는 상기 신호에서 어떠한 활성 음성이 존재하지 않는다고 즉, 상기 신호가 백그라운드 노이즈로 구성된다고 표시한다면, 상기 인덱스 패턴 생성기는 신호 샘플들의 시간적 전개의 단순한 역전이 초기화되는 모드로 들어갈 수 있다. 이전에 설명한 바와 같이, 이는 예컨대, 2와 동일한 스텝백 값들의 시퀀스 및 1과 동일한 판독길이 값의 시퀀스를 제출함으로써 달성될 수 있다 (본 명세서는 인덱싱 및 보간 작업이 그 자체로 이들 값들을 식별하고 전술한 바와 같이 적당한 윈도우 함수을 적용하는 디자인 선택에 근거한다). 일부 경우에, 이 시퀀스는 상기 신호의 역 시간 전개가 은닉 프레임 또는 프레임들에서 필요한 새로운 샘플들의 수의 절반에 대해서 구현될 때까지 계속되며, 상기 스텝백 시퀀스에서 상기 값들이 0으로 변한 후, 이에 의해 상기 신호의 순방향 시간 전개가 시작되고, 그리고 상기 표시자(706)가 상기 스텝백의 제1 적용에서 상기 표시자(705)에 대한 출발 지점으로 효과적으로 되돌려질때까지 계속된다. 그러나, 이 단순한 절차가 높은 품질 은닉 프레임들에 대해서 언제나 충분한 것은 아닐 것이다. 상기 인덱스 패턴 생성기의 중요한 업무는 적당한 정지 기준의 모니터링이다. 상기 예시에서, 상기 역방향 시간 전개는 상기 표시자(706)를 상기 신호 내의 위치로 되돌려지며, 여기서 청취자에 의해 해석되는 바와 같이, 상기 소리는 시작점으로부터는 상당히 다르다. 이것이 일어나기 전에 상기 시간 전개는 변경되어야만 한다.
본 발명의 바람직한 실시예들은 측정치 세트에 근거한 정지 기준 세트를 적용할 수 있다. 이하에서는 이들 측정치들 및 정지 기준 중 일부를 에시한다. 만약 표시자(706)에서의 신호가 보이싱된다고 보이싱이 표시한다면, 언보이싱된것으로부터 시작하는 상기 예시에서, 시간 전개 방향은 유리하게 변경되고, 또한 만약 상기 표시자(706)의 주위의 영역에서 상기 신호 에너지가 상기 표시자(705)에 대한 출발 지점에서의 신호 에너지와 다르다면 (절대 또는 상대 임계치에 의해 결정되는 바와 같이), 상기 시간 전개 방향은 유리하게 변경될 수 있다. 제3 예시로서, 상기 표시자(705)에 대한 출발 지점 주변의 영역과 상기 표시자(706)의 현재 위치 사이의 스펙트럼 차이가 임계치를 초과하면 상기 시간 전개 방향은 변경되어야 한다.
모드의 제2 예시는 상기 신호가 언보이싱된것으로 또는 어떠한 활성 음성을 가지지 않는 것으로 로버스트하게 결정될 수 없을 때 발생된다. 이 모드에서, 상기 피치 개산(596)은 인덱스 패턴을 결정하기 위한 근본을 구성한다. 이를 하기 위한 일 절차는 시간에 있어 한 피치 사이클 앞선 표시자(705)로부터의 신호와 그리고 한 피치 사이클 앞선 표시자(705) 보다 이른 스텝백 지점으로부터의 신호 사이에 최대 정규화된 코릴레이션을 제공하도록 각 스텝백이 검색된다. 스텝백의 잠재적인 값들에 대한 검색은 유리하게 임의의 영역으로 제한된다. 이 영역은 이전에 발견된 스텝백 주변으로 플러스 마이너스 10퍼센트 또는 이전에 어떠한 스텝백도 발견되지 않는다면 피치 래그(pitch lag)로 설정된다. 일단 상기 스텝백이 결정되었다면 판독 길이의 값은 시간 신호 전개가 시간에 있어 순방향 또는 역방향으로 전개하는지, 및 얼마나 빨리 이 전개가 일어나야 하는지를 결정할 것이다. 느린 전개는 스텝백의 상기 식별된 값에 가까운 판독 길이를 선택함으로써 획득된다. 빠른 전개는 역방향 및 순방향 전개 각각의 경우의 스텝백보다 훨씬 작거나 훨씬 큰 판독 길이를 선택함으로써 획득된다. 인덱스 패턴 생성기의 목적은 청취자에 의해 이해되는 바와 같은 소리 품질을 최적화하도록 판독 길이를 선택하는 것이다. 충분하게 주기적이지 않은 신호들과 같은 일부 신호들에서 상기 스텝백에 너무 가까운 판독 길이를 선택하는 것은 스트링 사운드와 같은 귀찮은 아티팩트들이 인식되도록 할 수 있다. 상기 스텝백으로부터 너무 먼 판독 길이를 선택하는 것은 은닉 프레임 또는 프레임들의 시간 전개 동안을 통해 상기 프레임 버퍼 내의 보다 큰 시간 간격이 궁극적으로 지나가는 것을 함축하며, 대안적으로 은닉 프레임 또는 프레임들의 충분한 양의 샘플들이 생성되기 전에 시간 전개의 방향이 더욱더 많이 변경되어야 함을 함축한다.
충분히 정상상태가 아닌 신호들(대안적으로 충분히 스무딩 또는 이퀄라이제이션되지 않은 신호들)과 같은 일부 신호들에서 제1 경우는 은닉 프레임 또는 프레임들의 소리에서 스터터링(stuttering)과 특정 유사점을 갖는 일종의 지각되는 귀찮은 아태팩트들을 야기한다. 제2 경우에 스트링 사운드와 같은 아티팩트들이 발생한다. 본 발명의 유리한 실시예들의 특징은 판독 길이가 스텝백 및 정규화된 코릴레이션의 함수로서 결정될 수 있다는 것이며, 이는 최적의 스텝백에 대한 검색에서 최적화된다. 신호 프레임들이 16KHz에서 샘플링된 선형 예측적 여기 신호의 20ms를 포함할 때 그리고 음성 신호들에 대해서 작업하는 본 발명의 실시예들에서 이 함수의 단순한, 하지만 유리한, 선택은 다음 함수에 의해 예시된다
판독길이=[(0.2 + 정규화된코릴레이션/3)*스텝백]
여기서, 사각 괄호 []는 가장 근접한 정수로의 반올림을 표시하도록 사용되며, 여기서 판독길이(ReadLength), 정규화된코릴레이션(Normalized Correlation), 및 스텝백(StepBack)은 최적의 스텝백에 대해서 획득되는 판독길이와 정규화된 코릴레이션 및 대응하는 스텝백을 각각 나타내도록 사용된다. 상기 함수는 본 발명의 몇몇 실시예들에서 유리한 하나의 선택을 전달하도록 예시로서만 포함된다. 이러한 판독 길이를 획득하기 위해 임의의 함수적 관계를 포함하는 판독 길이의 모든 선택이 본 발명의 사상을 벗어남이 없이 가능하다. 특히, 상기 판독 길이를 선택하는 유리한 방법들은 중간 은닉 프레임(625)에서 스터터링-유사 및 스트링-유사 아태픽트들의 공동 최소화에 도달하도록 하기 위한 것과 같이 스무딩 및 이퀄라이제이션 동작(610)을 파라미터로 나타내도록 제어(665)를 사용하는 것을 포함한다. 이는 왜 인덱스 패턴 생성기(660)가 스무딩 및 이퀄라이제이션 동작으로부터의 출력(615) 대신에 입력으로서 상기 중간 신호(656)를 취하는지를 설명하며; 상기 신호(656)는 제어(665) 하에서 상기 최종 신호(615)의 잠재적인 버젼들을 나타내며, 그리고 상기 인덱스 패턴 생성기로 하여금 반복 수단에 의해 상기 최적화 업무를 달성하도록 한다. 상기 언보이싱된 및 비활성화 음성 모드에서의 경우와 같이, 이 모드에서도 정지 기준이 필수적이다. 상기 전술한 모드에서 나열된 정지 기준의 모든 예시들은 이 모드에도 또한 적용한다. 추가적으로, 이 모드에서 피치 및 정규화된 코릴레이션에 대한 측정으로부터의 정지 기준은 유리하게 본 발명의 실시예들의 일부가될 수 있다.
도7는 정지 기준의 조합에 대한 유리한 결정 로직을 예시로서 도시한다. 도7에서, 참조 부호들은 다음을 나타낸다:
800: 신호가 높은 코릴레이션 유형인지, 낮은 코릴레이션 유형인지, 또는 이들 중 어느 것도 아닌지를 식별한다. 초기 에너지 레벨을 결정한다
801: 후속 스텝백 및 정규화된 코릴레이션 그리고 판독 길이를 결정한다
802: 신호가 낮은 코릴레이션 유형으로 들어갔는지를 결정한다
803: 신호가 높은 코릴레이션 유형으로 들어갔는지를 결정한다
804: 신호가 높은 코릴레이션 유형인가?
805: 신호가 낮은 코릴레이션 유형인가?
806: 에너지가 상대적인 최소 임계치 이하인가 또는 상대적인 최대 임계치 이상인가?
807: 정규화된 코릴레이션이 높은 코릴레이션 유형에 대한 임계치 이하인가?
808: 정규화된 코릴레이션이 낮은 코릴레이션 유형에 대한 임계치 이상인가?
809: 충분한 샘플들이 생성되었는가?
16kHz에서 샘플링된 음성의 선형 예측적 여기 도메인에서 동작하는 경우이다. 도7에 기재된 임계치들은 유리하게 다음과 같이 선택될 수 있다: 정규화된 코릴레이션이 0.8보다 커지면 높은 코릴레이션 유형에 들어간다; 높은 코릴레이션 유형에 남게하는 임계치는 정규화된 코릴레이션에서 0.5로 설정될 수 있다; 정규화된 코릴레이션이 0.5보다 낮아지게되면 낮은 코릴레이션 유형에 들어간다; 낮은 코릴레이션 유형에 남아있게 하는 임계치는 정규화된 코릴레이션에서 0.8로 설정될 수 있다;최소 상대 에너지는 0.3으로 설정될 수 있다; 그리고 최대 상대 에너지는 3.0으로 설정될 수 있다. 더욱이, 본 발명의 사상 및 범위를 벗어남이 없이 다른 로직들이 사용될 수 있고 그리고 다른 정지 기준이 본 발명의 환경에서 사용될 수 있다.
정지 기준의 적용은 충분한 샘플들이 생성되기 전까지 또는 정지 기준이 충족되기 전까지 시간에 있어 후방으로 그리고 그 다음 다시 전방으로의 단일 전개가 은닉 프레임들에 대해 필요한 수의 샘플들을 제공하도록 보장되지 않는 것을 의미한다. 따라서, 시간에 있어 후방 및 전방의 더 많은 전개들이 인덱스 패턴 생성기에 의해 적용될 수 있다. 그러나, 너무 많은 후방 및 전방 전개들은 몇몇 신호들에서 신소리 같은 아티팩트들을 생성할 것이다. 따라서, 본 발명의 바람직한 실시예들은 정지 기준, 상기 판독 길이들의 연산에 적용되는 함수, 스무딩 및 이퀄라이제이션 제어(665), 그리고 전방 및 후방 전개들의 수, 즉 반복 카운트(668)를 공동으로 최적화할 수 있고, 그리고 대체할 프레임들에 대한 지시자들(599)에 의해 가능하게 된다면 또한 시간에 있어 각각의 새로운 후방 전개들이 초기화 되기 전에 시간에 있어 전방으로 전개할 샘플들의 수를 최적화할 수 있다. 이 경우에, 상기 스무딩 및 이퀄라이제이션 동작은 유리하게 제어되어 상기 신호의 피치 컨투어를 가볍게 수정할 수 있다. 더욱이, 공동 최적화는 위상 필터(650)의 동작을 고려할 수 있고, 그리고 피치 컨투어가 다소 변경되도록 하여 인덱스 패턴이 전술한 다른 파라미터들과 공동으로 위상 필터에 유도되는 왜곡이 최소화된다. 본 발명의 바람직한 실시예들의 설명에 근거하며, 기술분야의 당업자는 다양한 일반적인 최적화 툴들이 이 업무에 적용될 수 있음을 이해할 것이며, 이러한 최적화 툴들은 반복적 최적화(Iterative Optimazation), 마코브 결정 프로세스(Markov decision process), 비터비 방법들(Viterbi methods) 및 다른 것들을 포함할 수 있다. 이들 모두는 본 발명의 범위를 벗어나지 않는 범위 내에서 이 업무에 적용된다.
도8은 단순하지만, 효율적인 이들 파라미터들의 최적화를 달성하기 위한 반복적인 절차의 일 예를 플로우 그래프에 의해 예시한다. 도8에서 참조 부호들은 다음을 나타낸다:
820: 스무딩 및 이퀄라이제이션(665)에 대한 제어를 초기화한다
821: 새로운 스무딩 신호(656)를 획득한다
822: 정지 기준을 초기화한다
823: 허용된 반복 횟수를 초기화한다
824: 표시자(599)에 의해 표시된 이용가능한 프레임들에 대해 균일하게 분포되는 역방향 및 순방향 전개들 또는 이용가능한 프레임들의 끝에 대해 표시한다면 순방향 전개에 이어 직접 뒤따르는 역방향 전개들의 시퀀스에 대한 인덱스 패턴을 식별한다.
825: 은닉 프레임들의 수(598)에 대한 충분한 양의 샘플들이 생성되었는가?
826: 최대 반복 횟수에 도달했는가?
827: 허용된 반복 횟수를 증가시킨다
828: 정지 기준에 대한 가장 느슨한 임계치에 도달했는가?
829: 정지 기준에 대한 임계치들을 느슨하게 한다
830: 스무딩 및 이퀄라이제이션의 영향력을 증대시키도록 제어를 변경한다
이전의 시간에 있어 역방향 및 순방향 전개 또는 전개들에서 충분한 신호가 합성되지 않은 경우에, 시간에 있어 한번의 역방향 및 순방향 전개 그리고 후속하는 역방향 및 순방향 전개는 유리하게 다를 수 있다. 예로서, 스텝백들, 판독 길이들, 및 보간 함수들의 시퀀스들, 그리고 시간에 있어 역방향 및 순방향 전개 후에 종단 위치 표시자(end location pointer)는 그렇지 않으면 유사한 인덱스 패턴들의 반복으로부터 야기되는 주기적인 아티팩트들을 최소화하도록 고안되어야만 한다. 예시로서 16kHz에서 보이싱된 음성 잔존 도메인 샘플들에서, 대략적으로 320 샘플들을 생성하는 시간에 있어 한번의 역방향 및 순방향 전개는 시간에 있어 이전의 역방향 및 순방향 전개 보다 신호에 있어 더 앞선 100 샘플들의 끝에 있을 수 있다.
지금까지 개시된 실시예들은 종래 기술 방법들로부터 공지된 인공적으로 소리나는 스트링 사운드들의 문제점을 효율적으로 완화하며, 동시에 갑작스런 지연 지터 스파이크 및 갑작스럽게 일어나는 반복되는 패킷 손실들이 효율적으로 은닉되도록 한다. 그러나, 예컨대, 일부 무선 시스템들, 유선 애드혹 네트워크, 그리고 최선 네트워크들 및 다른 전송 시나리오에서 조우할 수 있는 반대의 네트워크 환경에서도, 본 방법은 은닉 프레임들에서 미미한 음색 성분들을 일부 경우에 도입할 수 있다. 사소한 노이즈 혼합 동작(630)과 적당한 감쇄 필터(640)는 따라서 본 발명의 일부 실시예들에서 적용될 수 있다. 노이즈 혼합 및 감쇄의 일반적인 기술은 기술분야의 당업자에게 공지되어 있다. 이는 노이즈 성분의 전력의 주파수 의존 시간 전개 및 감쇄 함수의 주파수 의존 시간 전개의 유리한 사용을 포함한다. 본 발명의 환경에서 노이즈 혼합 및 감쇄의 사용에 특정한 특징은 노이즈 혼합 및 감쇄 동작을 적응적으로 파라미터화하기 위해 인덱스 패턴(666), 매칭 품질 측정(667) 및/또는 반복 카운트(668)의 명시적인 사용이다. 특히, 대체되지 않은 신호 샘플들이 은닉 프레임 내에 위치하고 그리고 은닉 프레임의 샘플들이 보간 동작의 결과인 경우에 인덱싱 패턴은 인덱싱한다. 더욱이, 매칭 품질 측정과 결합하여 판독 길이에 상대적인 스텝백의 비율은 보간 동작으로부터 야기되는 지각되는 품질을 나타낸다. 따라서, 유리하게 주파수 차동 방식에서(frequency differentiated manner), 유리하게 본래 샘플들로 노이즈가 거의 혼합되지 않거나 전혀 혼합되지 않을 수 있으며, 보간 프로세스의 결과들인 샘플들로 더 많은 노이즈가 유리하게 혼합될 수 있고, 그리고 이들 샘플들에 혼합되는 노이즈의 양은 유리하게 매칭 품질 측정치의 함수일 수 있다. 더욱이, 상기 스텝백에 상대적인 상기 판독 길이의 값은 또한 일어날 주기성의 양을 나타내며, 상기 노이즈 혼합은 은닉 신호로 혼합되는 노이즈의 양의 결정에서ml이 측정치를 포함할 수 있다. 상기 동일한 원리가 감쇄에 적용되고; 적당한 감쇄가 유리하게 사용되지만, 본래 신호 샘플들을 나타내는 샘플들에 대해서 보다 적은 감쇄가 일어날 수 있고 그리고 보간 동작으로부터의 결과인 샘플들에 보다 많은 감쇄가 일어날 수 있다. 더욱이, 이들 샘플들에서 감쇄의 양은 매칭 품질 표시의 함수일 수 있고 그리고 유리하게 주파수 차동 방식에 있을 수 있다. 또 다시, 상기 스텝백에 상대적인 상기 판독 길이의 값은 일어날 수 있는 주기성의 양을 나타낼 수 있고; 상기 감쇄 동작은 유리하게 상기 감쇄의 디자인에서 이 측정치를 포함할 수 있다.
본 발명의 배경기술에서 언급된 바와 같이, 본 발명의 실시예들의 일부의 중요한 목적은 규칙적인 신호 프레임들의 길이와 동일한 기설정된 길이의 은닉 프레임들을 획득한다. 시스템 견지에서 이것이 필요하면, 이러한 관점에서의 수단은 유리하게 위상 필터(650)일 수 있다. 연산적으로 간단하고 대략적이지만 이 블록에 대해서 종종 충분한 동작은 은닉 프레임들을 따르는 프레임으로부터 샘플들의 마지막 부분집합을 갖는 은닉 프레임들의 수보다 몇배의 기설정된 프레임 길이보다 우수한 샘플들 사이에서 스무스 오버랩 애드를 달성하는 것이다. 격리된 것으로 예시된, 이 방법은 기술분야의 상태로부터 잘 알려진 것이고 국제 전기통신 연합 제안 ITU-T G.711 부록1에서 사용된다. 시스템 견지로부터 실용적인 경우, 단순한 오버랩 애드 절차는 이것이 오버랩 애드 영역에서 코릴레이션을 증대할때마다 후속 프레임들을 -1과 곱함으로서 개선될 수 있다. 그러나, 다른 방법들은 예컨대 보이싱된 신호 프레임들 사이에서 천이에서 유리하게 사용되어 프레임 경계들에서 불연속성의 효과를 더욱 완화시킨다. 이러한 하나의 방법은 상기 은닉 프레임들의 재샘플링(resampling)이다. 격리된 방법으로서 예시된, 이는 기술분야의 상태에로부터 잘 알려진 것이다. 예컨대 IEEE 1989, 발렌주엘라(Valenzuela) 및 아니말루(Animalu)의 "A new voice-packet reconstruction technique"을 참조하자. 따라서, 프레임 경계들에서 불연속성을 완화시키는 것은 기술분야의 당업자에게 수행될 수 있다. 그러나, 본 명세서에서 개시된 본 발명의 바람직한 실시예들에서, 상기 재샘플링은 유리하게 최종 은닉 프레임을 따르는 프레임들로 계속될 수 있다. 재샘플링 기술의 결과인 시간 변화 및 이에 따른 주파수 쉬프트의 경사는 청취자에 의해 해석될 때 지각되지 않도록 될 수 있다. 더욱이, 재샘플링보다는, 프레임 경계에서 불연속성을 완화하도록 시변 전역 통과 필터(all pass filter)의 사용은 본 발명에서 개시된다. 이의 일 실시예는 다음의 필터 방정식에 의해 주어진다.
H_L(z,t)=(alpha_1(t) + alpha_2(t)*z(-L))/(alpha_2(t)+alpha_1(t)*z(-L))
상기 함수는 이하에서 설명된다. L 샘플들의 지연으로부터 0샘플들의 지연으로의 스윕(sweep)이 스윕 간격을 통해 필요하다고 가정하자, 이는 은닉 프레임들; 은닉 프레임들 전의 프레임들; 그리고 은닉 프레임들 후의 프레임들에서의 모두 또는 부분에서 샘플들의 모두 또는 일부를 포함할 수 있다. 스윕 간격의 시작에서, alpha-1(t)는 0으로 설정되고 그리고 alpha_2(t)는 1.0으로 설정되어 L 샘플들의 지연을 구현한다. t에 걸쳐 스윕이 시작되면, alpha_1(t)는 0.5를 향해 점진적으로 증가하고 그리고 alpha_2(t)는 0.5를 향해 점진적으로 증가해야 한다. 스윕 간격의 끝에서, alpha_1(t)는 alpha_2(t)와 균등하고, 필터 H_L(z,t)는 0의 지연을 도입한다. 반대로, 만약 0샘플들의 지연으로부터 L 샘플들의 지연으로의 스윕이 스윕 간격 동안에 필요하다면, 이는 은닉 프레임들의 전부 또는 일부에서; 은닉 프레임들 이전의 프레임들에서; 그리고 은닉 플임들 이후의 프레임들에서 샘플들이 전부 또는 일부를 포함할 수 있다. 스윕 간격의 시작에서, alpha-1(t)는 0.5로 설정되고 그리고 alpha_2(t)는 0.5로 설정되어 0 샘플들의 지연을 구현한다. t에 걸쳐 스윕이 시작되면, alpha_1(t)는 0을 향해 점진적으로 감소하고 그리고 alpha_2(t)는 1.0을 향해 점진적으로 증가해야 한다. 스윕 간격의 끝에서, alpha_1(t)는 0과 같 고 alpha_2(t)는 1.0과 같고, 필터 H_L(z,t)는 L 샘플들의 지연을 도입한다.
전술한 필터링은 연산적으로 단순하지만, 비선형적 위상 응답을 갖는다. 지각적인 이유로, 이 비선형 위상은 그 이용을 상대적으로 작은 L로 제한한다. 유리하게 16kHz의 샘플 레이트의 음성에 대해 L<10이다. 초기 L의 보다 큰 값들에 대해서 필터링을 달성하는 한가지 방법은 필요한 총합 L 값으로 합산되는 보다 작은 L 값들에 대한 수개의 필터들을 초기화하는 것이며, 이들 수개의 필터들은 서로 다른 시간 순간들에서 개시되고 서로 다른 시간 간격들에 걸쳐 그들의 alpha의 범위를 스윕할 수 있다. 이 필터가 적용될 수 있는 L 범위를 증가시키는 다른 방법은 이하에서 개시된다. 전술한 것중 하나와 같게 기능적으로 동일한 필터링을 구현하는 구조는 신호를 L 폴리-페이즈들로 분할하며 이들 폴리-페이지들 각각에서 하기의 필터링을 수행한다
H_1(z,t)=(alpha_1(t) + alpha_2(t)*z(-1))/(alpha_2(t)+alpha_1(t)*z(-1))
본 발명에 의해, 폴리-페이즈 필터링은 업샘플링(up-sampling)을 사용함으로써 유리하게 구현된다. 이를 수행하는 한가지 방법은 팩터 K로 다운 샘플링하고 상기 폴리 페이즈들로부터 페이즈 수정된 신호의 재건을 하기 전에, 팩터(factor) K로 각 폴리-페이즈를 업샘플링하고 각 업샘플링된 폴리 페이즈에서 필터링 H_1(z,t)를 K번 수행하는 것이다. 상기 팩터 K는 유리하게 K=2로 선택될 수 있다. 업샘플링 절차에 의해, 선형에 가까운 위상 응답이 획득된다. 이로써 청취자에 의해 해석되는 것으로서 지각된 품질이 개선된다.
다중 프레임들에 걸친 전술한 위상 조정은 은닉 프레임들이 수신된 프레임들의 시퀀스에서 손실 없이 삽입될 때 적용된다. 또한 후속 프레임들의 플레이백 지연을 줄이기 위해 프레임들이 신호 시퀀스의 밖으로 나가게 된때 이용가능하다. 그리고 이는 프레임들이 분실되고 0 또는 그 이상의 은닉 프레임들이 상기 분실 이전에 수신된 프레임들과 상기 분실 이후에 수신된 프레임들 사이에 삽입될 때 응용가능하다. 이들 경우에, 이러한 필터에 대한 입력 신호를 얻고 지연 L을 구하는 유리한 방법은 다음과 같다:
1) 불연속 지점보다 시간에 있어 앞선 프레임들에 대해서, 여기에서 또는 다른 곳에서 개시된 은닉 방법이 계속되거나 개시된다.
2) 상기 불연속보다 시간에 있어 느린 프레임들에 대해서, 여기에서 또는 다른 곳에서 개시된 은닉 방법에 의해 수 L-테스트 샘플들이 프레임 시작에서 삽입되지만, 시간 샘플들의 역의 인덱싱을 구비한다.
3) 정규화된 코릴레이션과 같은 매칭 측정이 헤딩 L-테스트 샘플들을 포함하는 2)로부터의 은닉 프레임 또는 프레임들과 1)로부터의 은닉 프레임 또는 프레임들 사이에 적용된다.
4) 상기 매칭 측정을 최대화하는 상기 L-테스트가 L로서 선택된다.
5) 2)로부터의 은닉 프레임 또는 프레임들과 3)으로부터의 프레임 또는 프레임들은 이제 가중 오버랩 애드 절차를 사용하여 애드된다. 상기 가중 오버랩 애드가 기술분야의 당업자에게 알려진 것과 같이 수행될 수 있는 반면, 본 명세서에서 이후에 개시되는 바와같이 이는 바람직하게 최적화될 수 있다.
6) 결정된 값L로 초기화된, 상기 설명된 페이즈 피팅 필터링에 대한 입력으로서 상기 결과적인 프레임 또는 프레임들이 사용된다. 만약 L이 임계치보다 크다면, 수개의 필터들이 개시되며 이들의 L 값들은 결정된 값L로 합산되며, 서로 다른 시간 순간들 및 시간 간격들에서 계수 스윕된다.
유리하게, 8 또는 16kHz에서 샘플링된 음성 또는 잔류 음성에서, 상기 임계치는 5 내지 50의 범위 내의 값으로 선택될 수 있다. 더욱 유리하게, 보이싱된 음성 또는 잔류 보이싱된 음성에서, 상기 은닉 샘플들 L_테스트 및 후속하는 프레임으로의 이의 계속성은 상기 프레임의 제1 피치 기간의 샘플들을 순환 쉬프팅(circular shift)함으로써 획득된다. 이에 의해 완전한 피치 기간을 코릴레이팅하는, 정규화없는 코릴레이션 측정치는 유리하게 매칭 측정치로서 사용되어 바람직한 순환 쉬프트 L을 발견할 수 있다.
도9는 이러한 방법의 일 실시예를 예시한다. 이 도면에서, 위상 조정은 신호 프레임(900)과 후속하는 프레임들 사이에 스무스한 천이를 생성한다. 이는 다음과 같이 달성된다: 신호 프레임(900) 및 이전의 프레임들로부터, 은닉 신호(910)가 생성된다. 이 은닉 신호는 본 명세서에 개시된 방법들, 또는 최신기술로부터 잘 알려진 다른 방법들을 사용함으로써 생성될 수 있다. 상기 은닉 신호는 윈도우(920)와 곱해지고 다른 윈도우(930)와 애드(925)되며, 이는 다음과 같이 생성된 신호와 곱해진다: 본 명세서에 개시된 것과 같은 은닉 방법 또는 기술 상태로부터 잘 알려진 다른 방법들을 효과적으로 사용함으로써 후속하는 샘플들(950) 및 가능한 960으로부터 은닉 신호(940)가 생성되며, 그리고 후속하는 샘플들(950)과 연결된다. 은닉(940)에서 샘플들의 수는 은닉(910) 그리고 940 및 후속하는 샘플들(950)의 연결 사이에 매칭을 최대화하는 것과 같이 최적화된다.
유리하게, 정규화된 코릴레이션은 이 매칭의 측정치로서 사용될 수 있다. 또한, 연산의 복잡성을 줄이기 위해, 상기 매칭은 보이싱된 음성 또는 보이싱된 음성 잔류(voiced speech residual)를 위해 하나의 피치 주기포함하도록 제한될 수 있다. 이러한 경우에, 상기 은닉 샘플들(940)은 한 피치 주기의 순환 쉬프트의 제1 부분으로서 획득될 수 있으며, 그리고 상기 일 피치 주기에 걸친 코릴레이션 측정은 이제 정규화될 필요가 없다. 이에 의해 정규화 팩터의 계산을 위한 연산이 회피된다. 바람직한 실시예들의 상세한 설명에서 이전에 설명한 인덱싱 및 보간 동작을 위한 것과 같이, 상기 윈도우들은 다시 유리하게 매칭 품질 표시자의 함수일 수 있고 및/또는 주파수의 함수일 수 있고 그리고 유리하게 탭 지연 라인으로서 구현될 수 있다. 상기 필터(970)의 동작은 다음과 같다. 상기 오버랩 애드 절차로부터 야기되는 처음 L 샘플들은 그의 출력으로 직접 통과되고, 그리고 상기 필터의 초기 상태를 설정하도록 사용된다. 이후 상기 필터 계수들은 전술한 바와 같이 초기화되고, 그리고 상기 필터가 샘플 L+1로부터 필터링하고 그리고 이들 계수들을 포워딩함에 따라 점진적으로 조정되는바, 예컨대 전술한 바와 같이 지연의 L 샘플들을 점진적으로 제거한다.
다시, 상기 전술한 절차에서, 전술한 바와 같이 매칭 기준을 최대화함에 따라 윈도우들의 가중치를 최적화하는 방법은 적용되고, 그리고 상기 윈도우의 생성은 주파수 의존 가중치들에 대해서 및 탭 지연 라인들의 형태 또는 다른 파라미터 필터 형태들에서 매칭된 필터들에 대해서 기능한다. 유리한 실시에들에서, 상기 주파수 의존 필터 가중치의 시간적 전개는 3개의 오버랩 애드 시퀀스들의 시퀀스에 의해 획득되며, 첫번째는 이전의 프레임들로부터 은닉 프레임 또는 프레임들을 페이드 다운하고, 두번째는 역으로 인덱스된 시간에서 획득된 이후의 프레임들로부터 은닉 프레임들을 매칭하도록 필터로 이들의 필터링된 버젼을 페이드업하고 그 다음 이를 다시 페이드 다운하며, 세번째는 시간에 있어 이후의 프레임 또는 프레임들을 페이드업한다. 유리한 실시예들의 다른 집합에서, 주파수 의존 필터 가중치의 시간적 전개는 네 개의 오버랩 애드 시퀀스들의 시퀀스에 의해 획득되며, 첫번째는 이전의 프레임들로부터 은닉 프레임 또는 프레임들을 페이드다운하고, 두번째는 역으로 인덱스된 시간에서 획득된 보다 늦은 프레임들로부터 은닉 프레임들을 매칭하도록 필터로 이들의 필터링된 버젼을 페이드업하고 그 다음 이를 다시 페이드다운하며, 세번째는 이러한 매칭을 더욱 개선하도록 시간에 있어 보다 늦은 프레임들의 필터링된 버젼을 페이드업하고 그리고 이를 다시 페이드다운하며, 그리고 마지막으로 네번째 윈도우는 시간에 있어 보다 늦은 프레임 또는 프레임들을 페이드업한다. 가중 오버랩 애드 방법들의 또 다른 유리한 실시예들은 본 명세서에서 이후에 개시된다.
잔류 도메인 샘플들이 음성 신호를 나타내는 정보의 일부로서 사용되는 실시예들에서 스무딩 및 이퀄라이제이션 동작(610)에 관해서, 스무딩 및 이퀄라이제이션은 콤필터(comb filter) 또는 주기적 노치 필터(periodic notch filter)와 같은 피치 적응 필터를 사용하여 이러한 잔류 신호에 유리하게 적용될 수 있다. 더욱이, 필터링되지 않은 잔류를 위한 모델로서 장기간 코릴레이션 필터 플러스 노이즈와 함께 웨이너 또는 카르멘 필터링(Wiener or Kalman)이 유리하게 적용될 수 있다. 웨이너 또는 카르멘 필터를 적용하는 이러한 방식에서, 상기 모델에서 노이즈의 변화는 스무딩 및 이퀄라이제이션의 양을 조정하도록 적용된다. 이는 다소 반직관적인 사용인바, 이는 이 성분이 전형적으로 필요하지 않은 노이즈 성분의 존재를 모델링하기 위해 적용되는 웨이너 및 카르멘 필터링 이론에서 존재하기 때문이다. 본 발명에 적용될 때, 상기 목적은 스무딩 및 이퀄라이제이션의 레벨을 설정하기 위한 것이다. 피치 적응 콤 또는 노치 필터링 및 웨이너 또는 카르멘 유형의 필터링에 대한 대안물로서, 세번째 방법이 본 발명의 환경에서 잔류 신호들의 스무딩 및 이퀄라이제이션을 위해서 적용된다. 상기 세번째 방법에 의해, 예컨대 언보이싱된 음성에 대해 유리하게 적용되는 바와 같은 샘플 진폭들, 또는 예컨대 보이싱된 음성에 대해 유리하게 적용되는 바와 같은 샘플들의 연속적인 벡터들은 더욱 유사하게 만들어진다. 이를 달성하기 위한 가능한 절차들은 보이싱된 음성의 벡터들에 대해서 및 언보이싱된 음성의 샘플들에 대해서 각각 이하에서 개관된다.
보이싱된 음성에 대해서, 음성 또는 잔류물의 연속적인 샘플들은 하나의 피치 피리어드(period)와 동일한 각 벡터에서 수많은 샘플들과 함께 벡터들로 집합된다. 설명의 편의를 위해 우리는 상기 벡터를 v(k)로 표시한다. 이제 상기 방법은 일부 수단에 의해 주변(surrounding) 벡터들 v(k-L1), v(k-L1+1),...,v(k-1) 및 v(k+1), v(k+2),...,v(k+L2)에서 발견될 수 없는 v(k)의 성분으로서 잔존 벡터 r(k)를 획득한다. 설명의 편의를 위해 주변 벡터들에서 발견되는 성분은 a(k)로 표 시된다. 상기 잔존 벡터 r(k)는 가청도를 줄이기 위해 다소 선형적이거나 비선형적인 방식으로 후속적을 조작되며, 동시에 상기 조작된 r(k)의 버전에 성분 a(k)를 재삽입함으로써 획득되는, 결과적인 재구성된 벡터의 자연스러움을 보존한다. 이는 보이싱된 음성 또는 보이싱된 잔존 음성의 스무딩 및 이퀄라이제이션된 버젼을 야기한다. 편리함을 위해 매트릭스-벡터 표시와 그리고 예의 간단함을 위해 a(k)를 정의하도록 선형 결합 및 최소 제곱의 개념을 사용하는, 상기 전술한 원리의 간단한 실시예는 다음과 같이 주어진다. 이는 단지 스무딩 및 이퀄라이제이션에 대한 전술한 일반적인 원리의 단순한 실시예의 일 예로서 기능할 뿐이다.
이 예의 목적으로, 매트릭스 M(k)는 다음과 같이 정의된다.
M(k)=[v(k-L1)v(k-L1+1)...v(k-1)v(k+1)v(k+2)...v(k+L2)]
이로부터 a(k)는 예컨대, 주어진 M(k)에 대해서 v(k)의 최소제곱개산(least squares estimate)으로서 계산될 수 있다.
a(k)=M(k)inv(trans(M(k))M(k))v(k)
여기서 inv()는 역매트릭스(matrix inversion) 또는 의사 반전(pseudo inversion)을 나타내고 그리고 trans()는 전치 매트릭스(matrix transposition)을 나타낸다. 이제 상기 잔류 벡터 r(k)는 예컨대 감산에 의해 계산된다.
r(k)=v(k)-a(k)
r(k)를 조작하는 일 예는, 예컨대 역방향-순방향 은닉 절차의 시작 포인트와 가장 가까운 r(k) 벡터의 최대 진폭과 동일한 레벨로, 또는 벡터 하지만 상기 역방향-순방향 은닉 절차의 시작 포인트에 가장 가까운 벡터 내의 동일 위치에서 샘플 의 진폭의 몇 팩터 배수와 동일한 레벨로 샘플의 최대 절대값을 제한하도록 상기 벡터에서 피크들을 제거하는 것이다. 상기 조작된 잔류 rm(k)는 후속적으로 a(k) 벡터와 결합되어 v(k)의 이퀄라이제이션된 버젼, 편의를 위해 여기서 ve(k)로 표시되는 것을 재구성한다. 이러한 결합은 일예로서 단순한 합산에 의해 달성될 수 있다.
ve(k)=alpha*rm(k) + a(k)
상기 예에서 파라미터 alpha는 1.0으로 설정될 수 있거나 유리하게 1.0보다 작게 선택될 수 있으며, alpha에 대한 하나의 유리한 선택은 0.8이다.
언보이싱된 음성에 대해서, 다른 스무딩 및 이퀄라이제이션 방법이 이점을 가지고 사용될 수 있다. 언보이싱된 음성에 대한 스무딩 및 이퀄라이제이션의 일 예는 로그 도메인에서 잔류 신호의 진폭들에 대한 다항식 피트(polynomial fit)를 계산한다. 예로서, 2차 다항식 및 log10 도메인이 사용될 수 있다. 로그 도메인으로부터 다항식 피트를 다시 선형 도메인으로 변환한 후에, 상기 피팅 곡선은 유리하게 역방향-순방향 절차에 대해 시작 포인트에 대응하는 지점에서 1.0으로 정규화된다. 후속적으로, 상기 피팅 곡선은 0.5로 하한이 정해지고, 여기서 이후에 상기 잔류 신호의 진폭들이 피팅 곡선으로 분할되어 상기 언보이싱된 잔류 신호의 진폭에서의 변화들을 스무스하게 이퀄라이제이션하도록 할 수 있다.
가중 오버랩 애드 절차를 고려하여, 본 명세서에서 이전에 개시된 실시예들의 전부는 아니지만 일부, 즉 인덱싱 및 보간 동작(620) 및 위상 조정 필터링(970)을 위한 입력 신호를 개시하는 방법은 기술분야의 당업자에게 알려진 바대로 수행될 수 있다. 그러나, 가중 오버랩 애드 절차들의 실시예들에서, 이하에서 개시된 방법들이 유리하게 사용된다.
매칭 품질 표시자에 응답하여 수정된 가중 오버랩 애드 절차의 단순한 실시예에서, 제1 서브시퀀스와 곱해진 제1 윈도우와 제2 서브시퀀스와 곱해진 제2 윈도우를 고려하며, 그리고 이들 두 곱(product)은 오버랩 애드 동작에 진입한다. 이제, 예로서, 제1 윈도우는 단조적으로 감소하는 함수와 같이 테이퍼 다운 윈도우(taper down window)가 되도록 하며, 그리고 제2 윈도우는 단조적으로 증가하는 함수와 같이 테이퍼 업 윈도우가 되도록 한다. 둘째로, 단순한 예시의 목적으로, 상기 제2 윈도우는 기본적인 윈도우 형상과 스칼라멀티플라이어(scalar multiplier)의 곱으로 파라미터화된다. target은 제1 서브시퀀스로; w_target은 테이퍼 다운 윈도우와 샘플바이샘플(sample-by-sample)로 곱해진 제1 서브시퀀스로; w_regressor은 테이퍼 업 윈도우에 대한 기본 윈도우 형상으로 샘플바이샘플로 곱해진 제2 서브시퀀스로; 그리고 coef는 스칼라 멀리플라이어로 정의된다. 이제 제2 윈도우의 스칼라 멀티플라이어 성분은 타겟(target)과 오버랩 애드 동작의 결과 사이에 합산된 제곱 오차(summed squared error)를 최소화하도록 최적화될 수 있다. 편의를 위해, 매트릭스-벡터 표시가 사용되며, 문제는 타겟과 양(quantity) 사이에 합산된 제곱 차이를 최소화하도록 공식화될 수 있다.
w_target + w_regressor*coef
여기서 벡터들 T와 H는 다음과 같이 정의된다.
T=target-w_target
H=w_regressor
이를 최적화하는 해법은 다음과 같다.
coef=inv(trans(H)*H)*trans(H)*T
여기서, inv()는 역 매트릭스 또는 스칼라를 나타내며, trans()는 전치 매트릭tm또는 벡터를 나타내고, 그리고 *는 매트릭스 또는 벡터 곱셈을 나타낸다. 이제, 여기서 개시된 발명들에서 중심 요소로서, 이 방법은 윈도우의 실제 형상을 최적화되도록 확장될 수 있다. 이를 획득하는 방법은 다음과 같다. 형상들의 집합을 정의하여 이 집합에서 상기 필요한 윈도우가 요소들의 선형 결합으로서 획득되도록 한다. 이제 H의 각 컬럼(column)이 상기 제2 서브시퀀스로 샘플바이샘플로 곱해진 상기 집합으로부터의 형상(shape)이도록 H를 정의하며, 그리고 최적화된 윈도우 함수에서 이들 형상들의 공지되지 않은 가중치들을 포함하는 컬럼 벡터로서 coef를 정의한다. 이들 정의들을 가지고, 상기 문제를 형식화하는 상기 방정식들 및 그 솔루션은 이제 더욱 일반적인 윈도우 형상에 대해서 해결하기 위해서 적용된다. 자연적으로, 이제 최적화가 일어나도록 하는 것이 제1 윈도우가 되도록 제1 및 제2 윈도우의 역할은 상기에서 교환될 수 있다.
본 발명의 더욱 진보된 실시예는 공동으로 양 윈도우 형상들을 최적화한다. 이는 가능하다면 사기 제1 세트의 윈도우 쉐이프들과 균등하게, 그리고 상기 제1 세트의 윈도우 쉐이프들에서 윈도우 형상들 각각에서 샘플들의 역 시간 인덱싱으로 유리하게 선택된, 기본적인 제2 윈도우 쉐이프들을 정의함으로써 만들어진다. 이제 w_target은 매트릭스로 정의되며, 여기서 각 컬럼은 제1 서브시퀀스로 샘플바이샘플로 곱해진 제2 세트의 윈도우 형상들로부터 기본적인 윈도우 형상이며, 그리고 coef는 상기 제1 윈도우에 대한 제1 가중치와 상기 제2 윈도우에 대한 제2 가중치를 포함하는 컬럼 벡터로서 정의된다. 그 다음, 더욱 일반적인 문제가 타겟과 상기 퀀티티(quantity) 사이에 합산된 제곱 차이를 최소화함으로써 형식화될 수 있다.
[w_target w_regressor]*coef
여기서 사각괄호[]는 서브매트릭스(sub-matrices) 또는 벡터들로부터 매트릭스를 형성하는데 사용된다. 이제, 벡터들 T 및 H는 다음과 같이 정의된다.
T=target
H=[w_target w_regressor]
상기 최적화에 대한 해법은 다음과 같다.
coef=inv(trans(H)*H)*trans(H)*T
또한, 본원 발명의 더욱 진보된 실시예는 순간적인 윈도우 형상들만을 최적화하지 않고 윈도우들이 최적화된 주파수 의존 가중치를 갖도록 한다. 본 발명의 일 실시예는 탭 지연 라인의 형태를 적용하지만, 일반적인 방법은 이 형태로 제한되는 것이 아니다. 상기 w_target 과 w_regressor의 정의에서, 이러한 일반화를 달성하는 한가지 방법은 각 컬럼을 대체할 컬럼에 대응하는 기본적인 윈도우 형상과 각각 샘플바이샘플로 곱한 수 많은 컬럼들로 대체하는 것이지만, 상기 기본적인 윈도우 형상은 탭 지연 라인에서 특정 위치에 대응하는 관련된 지연된 서브시퀀스로 샘플바이샘플로 곱해져 있다.
유리하게, 이들 방법들에서 계수들의 최적화들은 본 명세서에서 개시된 발명으로부터 디퍼링(defer)함이 없이 가중치(weighting), 제약들(constraint), 또는 계수들의 순차적인 계산을 고려한다. 이러한 가중치들은 낮은 절대적인 지연 값들에 대응하는 계수들에 대해서 더욱 가중되는 가중치를 포함한다. 이러한 순차적인 계산은 낮은 절대 지연 값들에 대해서 우선 계수들을 유리하게 계산하여, 상기 계수들만을 사용하여 제곱 에러의 값을 최소화하고, 그리고 후속적으로, 상기 프로세스에서 이전의 스텝들로부터의 잔존 에러만에 대한, 지연 값들을 증대하도록 이 프로세스를 반복한다.
일반적으로, 본 발명의 실시예들은 최적화의 타겟들로서 수개의 서브시퀀스들을 취한다. 일반적인 용어로서 상기 최적화는 왜곡 함수를 최소화한다, 이는 가중 오버랩 애드 시스템으로부터의 출력과 이들 타겟 서브시퀀스들의 함수이다. 이 최적화는 본 발명으로부터 벗어남이 없이 전체적인 오버랩 애드에서의 가중치와 지연들 및 기본적인 쉐이프들의 선택에서의 다양한 제약들을 적용한다. 형상들의 정확한 선택에 따라, 상기 오버랩 애드의 효과는 유리하게 시간에서 오버랩 애드 영역을 따라는 서브시퀀스들로부터 점진적으로 페이드아웃된다.
도10은 개시된 오버랩 애드 방법의 일 실시예를 도시한다. 이 도면은 본 발명의 일 실시예를 예시하는 목적으로서만 사용되며, 본 발명은 이 도면의 정확한 구조로 제한되지 않는다. 도10에서, 일 서브시퀀스(1000)는 다른 서브시퀀스(1010)와 시간 및 주파수 형상 최적화된 오버랩 애드에 들어간다. 이들 서브시퀀스들 각각은 각각의 지연 라인으로 들어가며, 도면에서, z는 하나의 샘플의 시간 어드밴스(advance)를 나타내며, z-1은 하나의 샘플의 시간 지연을 나타내며, 그리고 여기서 선택된 1, -1, 및 0의 지연들은 순수하게 예시의 목적이며: 다른, 보다 크거나 작은, 지연들이 본 발명과 관련하여 사용될 수 있다. 각 서브시퀀스의 지연 버젼은 수많은 베이스 윈도우 형상들과 곱해지고, 그리고 이들 각각의 결과는 최적화의 과정에서 다른 계수들과 함께 공동으로 발견될 계수와 곱해진다. 이들 계수들과의 곱셈 이후에, 상기 결과적인 서브시퀀스들은 시간 및 주파수 형상 최적화된 오버랩 애드로부터 출력 1020을 야기하도록 합산된다. 도10의 예시에서, 상기 계수들이 최적화(1030)는 입력으로서 서브시퀀스들(1040 및 1050)을 취하고, 그리고 왜곡 함수을 최소화하며, 이는 출력(1020)과 1040 및 1050의 함수이다.
청구범위 내에서 도면들에 대한 참조부호는 단순히 명확성을 위해서만 포함된다. 도면들에서 예시적인 실시예들에 대한 이들 참조부호들은 어떠한 방식으로든 본 발명의 청구범위를 제한하도록 해석되어서는 안된다.

Claims (20)

  1. 샘플들의 제1 및 제2 서브시퀀스(subsequences of samples)에 응답하여 출력 샘플 시퀀스(output sequence of samples)를 생성하는 방법에 있어서,
    상기 출력 샘플 시퀀스를 생성하기 위하여 상기 제 1 및 제 2 서브시퀀스에 가중 오버랩 애드 절차(weighted overlap-add procedure)를 적용하는 단계와;
    상기 출력 샘플 시퀀스와 하나 이상의 타겟 샘플 시퀀스들 간의 매칭(matching)의 측정(measure)에 응답하여 상기 가중 오버랩 애드 절차에 관련된 가중 함수(weighting function)를 최적화하는 단계를 포함하며,
    상기 가중 오버랩 애드 절차는 상기 제1 서브시퀀스를 제1 윈도우와 샘플바이샘플(sample-by-sample)로 곱하는 것과 상기 제2 서브시퀀스를 제2 윈도우와 샘플바이샘플로 곱하는 것을 포함하며, 그리고 상기 제1 윈도우 및 제2 윈도우 중 적어도 하나의 형상(shape)은 매칭의 측정(measure)에 응답하여 최적화되는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  2. 제 1 항에 있어서,
    상기 가중 함수는 두개 또는 세개의 타겟 샘플 시퀀스들에 응답하여 최적화되는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  3. 제 1 항 또는 2 항에 있어서,
    상기 최적화하는 단계는 상기 가중 오버랩 애드 절차에 관련된 적어도 하나의 가중 함수를 조정하는 단계를 포함하는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  4. 제 3 항에 있어서,
    상기 최적화하는 단계는 상기 가중 오버랩 애드 절차에 관련된 두개 또는 세개의의 가중 함수들을 조정하는 단계를 포함하는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  5. 제 3 항에 있어서,
    상기 가중 오버랩 애드 절차에 관련된 상기 적어도 하나의 가중 함수는 파라미터들의 세트에 의해 표현되는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  6. 제 5 항에 있어서,
    상기 파라미터들의 세트는 적어도 하나의 가중 함수의 시간적 형상(temporal shape)을 기본 윈도우 형상들의 선형 조합(linear combination)으로 분해한 것에 근거하는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  7. 제 6 항에 있어서,
    상기 파라미터들의 세트는 적어도 하나의 가중 함수의 시간적 형상을 두개 또는 세개의 기본 윈도우 형상들의 선형 조합으로 분해한 것에 근거하는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  8. 제 5 항에 있어서,
    상기 파라미터들의 세트를 생성하는 단계는 적어도 하나의 탭 지연 라인(tapped delay line)을 상기 샘플들의 제1 및 제2 서브시퀀스 중 적어도 하나에 적용하는 단계를 포함하는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  9. 제 8 항에 있어서,
    상기 파라미터들의 세트를 생성하는 단계는 두 개의 탭 지연 라인들을 상기 샘플들의 제 1 및 제 2 서브시퀀스에 적용하는 단계를 포함하는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  10. 제 8 항에 있어서,
    상기 파라미터들의 세트를 생성하는 단계는 세 개의 탭 지연 라인들을 적용하는 단계를 포함하는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  11. 제 1 항에 있어서,
    상기 가중 오버랩 애드 절차에 관련된 가중 함수는 상기 출력 샘플 시퀀스와 상기 적어도 하나의 타겟 샘플 시퀀스 사이의 거리의 측정에 응답하여 변경되는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  12. 제 11 항에 있어서,
    상기 거리의 측정은 합산 제곱 에러(summed squared error)에 근거하는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  13. 제 12 항에 있어서,
    상기 거리의 측정은 가중 합산 제곱 오차에 근거하는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  14. 제 11 항에 있어서,
    상기 거리의 측정은 최소 자승 절차(least-squares procedure)에 따라 최소화되는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  15. 제 14 항에 있어서,
    상기 거리의 측정은 가중 최소 자승 절차에 따라 최소화되는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  16. 제 1 항에 있어서,
    상기 제 1 및 제 2 서브시퀀스의 샘플들은 디지털 음성 샘플을 나타내는 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  17. 제 1 항에 있어서,
    상기 샘플들의 제 1 및 제 2 서브시퀀스 중 하나는 은닉(concealment) 샘플들의 시퀀스인 것을 특징으로 하는 출력 샘플 시퀀스를 생성하는 방법.
  18. 제 1 항에 따른 방법을 수행하도록 된 컴퓨터로 실행 가능한 프로그램 코드가 수록된 컴퓨터 판독가능 기록 매체.
  19. 제 1 항에서 청구된 방법을 수행하기 위한 범용 마이크로프로세서와 같은 마이크로프로세서용 명령 시퀀스를 포함하는 것을 특징으로 하는 프로그램 저장 디바이스.
  20. 디지털 음성 신호를 수신하는 장치로서,
    수신된 디지털 음성 신호를 나타내는 프레임들을 저장하기 위한 메모리 수단; 그리고
    제 1 항에서 청구된 방법을 수행하기 위한 프로세서 수단을 포함하는 것을 특징으로 하는 디지털 음성 신호를 수신하는 장치.
KR1020077020043A 2005-01-31 2006-01-31 가중 오버랩 애드 방법 KR101203348B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DKPA200500146 2005-01-31
DKPA200500146 2005-01-31
PCT/DK2006/000054 WO2006079349A1 (en) 2005-01-31 2006-01-31 Method for weighted overlap-add

Publications (2)

Publication Number Publication Date
KR20080002756A KR20080002756A (ko) 2008-01-04
KR101203348B1 true KR101203348B1 (ko) 2012-11-20

Family

ID=59285473

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020077020043A KR101203348B1 (ko) 2005-01-31 2006-01-31 가중 오버랩 애드 방법
KR1020077020044A KR101237546B1 (ko) 2005-01-31 2006-01-31 통신 시스템에서 프레임들을 연결하는 방법
KR1020077020042A KR101203244B1 (ko) 2005-01-31 2006-01-31 통신 시스템에서 은닉 프레임들을 발생시키는 방법

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020077020044A KR101237546B1 (ko) 2005-01-31 2006-01-31 통신 시스템에서 프레임들을 연결하는 방법
KR1020077020042A KR101203244B1 (ko) 2005-01-31 2006-01-31 통신 시스템에서 은닉 프레임들을 발생시키는 방법

Country Status (15)

Country Link
US (5) US9047860B2 (ko)
EP (3) EP1846920B1 (ko)
JP (4) JP5420175B2 (ko)
KR (3) KR101203348B1 (ko)
CN (3) CN101120399B (ko)
AU (3) AU2006208528C1 (ko)
BR (3) BRPI0607247B1 (ko)
CA (3) CA2596338C (ko)
ES (1) ES2625952T3 (ko)
HK (1) HK1108760A1 (ko)
IL (3) IL184864A (ko)
NO (3) NO338798B1 (ko)
RU (3) RU2405217C2 (ko)
WO (3) WO2006079349A1 (ko)
ZA (3) ZA200706261B (ko)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006079349A1 (en) * 2005-01-31 2006-08-03 Sonorit Aps Method for weighted overlap-add
TWI285568B (en) * 2005-02-02 2007-08-21 Dowa Mining Co Powder of silver particles and process
WO2007086380A1 (ja) * 2006-01-26 2007-08-02 Pioneer Corporation 高音質化装置及び方法、並びにコンピュータプログラム
JP2007316254A (ja) * 2006-05-24 2007-12-06 Sony Corp オーディオ信号補間方法及びオーディオ信号補間装置
RU2437170C2 (ru) * 2006-10-20 2011-12-20 Франс Телеком Ослабление чрезмерной тональности, в частности, для генерирования возбуждения в декодере при отсутствии информации
JP4504389B2 (ja) * 2007-02-22 2010-07-14 富士通株式会社 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
US8280539B2 (en) * 2007-04-06 2012-10-02 The Echo Nest Corporation Method and apparatus for automatically segueing between audio tracks
CN101207665B (zh) * 2007-11-05 2010-12-08 华为技术有限公司 一种衰减因子的获取方法
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
CN101437009B (zh) * 2007-11-15 2011-02-02 华为技术有限公司 丢包隐藏的方法及其系统
CN102881294B (zh) 2008-03-10 2014-12-10 弗劳恩霍夫应用研究促进协会 操纵具有瞬变事件的音频信号的方法和设备
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
EP2301015B1 (en) * 2008-06-13 2019-09-04 Nokia Technologies Oy Method and apparatus for error concealment of encoded audio data
US8620660B2 (en) * 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
JP5664291B2 (ja) * 2011-02-01 2015-02-04 沖電気工業株式会社 音声品質観測装置、方法及びプログラム
CN103620672B (zh) 2011-02-14 2016-04-27 弗劳恩霍夫应用研究促进协会 用于低延迟联合语音及音频编码(usac)中的错误隐藏的装置和方法
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
AU2012217158B2 (en) 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
AU2012217156B2 (en) 2011-02-14 2015-03-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Linear prediction based coding scheme using spectral domain noise shaping
CA2827249C (en) 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
TWI479478B (zh) 2011-02-14 2015-04-01 Fraunhofer Ges Forschung 用以使用對齊的預看部分將音訊信號解碼的裝置與方法
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
EP3239978B1 (en) 2011-02-14 2018-12-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of pulse positions of tracks of an audio signal
SG192745A1 (en) * 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Noise generation in audio codecs
WO2012110481A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio codec using noise synthesis during inactive phases
US9008170B2 (en) 2011-05-10 2015-04-14 Qualcomm Incorporated Offset type and coefficients signaling method for sample adaptive offset
FR2977439A1 (fr) * 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
US8935308B2 (en) * 2012-01-20 2015-01-13 Mitsubishi Electric Research Laboratories, Inc. Method for recovering low-rank matrices and subspaces from data in high-dimensional matrices
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
KR102173422B1 (ko) 2012-11-15 2020-11-03 가부시키가이샤 엔.티.티.도코모 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
CN103888630A (zh) * 2012-12-20 2014-06-25 杜比实验室特许公司 用于控制声学回声消除的方法和音频处理装置
RU2625561C2 (ru) 2013-01-29 2017-07-14 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип для компенсации переключения режима кодирования
CN110223704B (zh) 2013-01-29 2023-09-15 弗劳恩霍夫应用研究促进协会 对音频信号的频谱执行噪声填充的装置
US9478221B2 (en) 2013-02-05 2016-10-25 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced audio frame loss concealment
WO2014123470A1 (en) 2013-02-05 2014-08-14 Telefonaktiebolaget L M Ericsson (Publ) Audio frame loss concealment
ES2603827T3 (es) * 2013-02-05 2017-03-01 Telefonaktiebolaget L M Ericsson (Publ) Método y aparato para controlar la ocultación de pérdida de trama de audio
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
US9406308B1 (en) 2013-08-05 2016-08-02 Google Inc. Echo cancellation via frequency domain modulation
US10728298B2 (en) * 2013-09-12 2020-07-28 Qualcomm Incorporated Method for compressed sensing of streaming data and apparatus for performing the same
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
CN104751851B (zh) * 2013-12-30 2018-04-27 联芯科技有限公司 一种基于前后向联合估计的丢帧差错隐藏方法及系统
WO2015102452A1 (en) 2014-01-03 2015-07-09 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding
EP3090574B1 (en) * 2014-01-03 2019-06-26 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding
US10157620B2 (en) 2014-03-04 2018-12-18 Interactive Intelligence Group, Inc. System and method to correct for packet loss in automatic speech recognition systems utilizing linear interpolation
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
NO2780522T3 (ko) 2014-05-15 2018-06-09
FR3023646A1 (fr) * 2014-07-11 2016-01-15 Orange Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame
GB2547877B (en) * 2015-12-21 2019-08-14 Graham Craven Peter Lossless bandsplitting and bandjoining using allpass filters
RU2711108C1 (ru) * 2016-03-07 2020-01-15 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Блок маскирования ошибок, аудиодекодер и соответствующие способ и компьютерная программа, подвергающие затуханию замаскированный аудиокадр согласно разным коэффициентам затухания для разных полос частот
RU2712093C1 (ru) 2016-03-07 2020-01-24 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Блок маскирования ошибок, аудиодекодер и соответствующие способ и компьютерная программа, использующие характеристики декодированного представления надлежащим образом декодированного аудиокадра
US9679578B1 (en) 2016-08-31 2017-06-13 Sorenson Ip Holdings, Llc Signal clipping compensation
JP6652469B2 (ja) * 2016-09-07 2020-02-26 日本電信電話株式会社 復号装置、復号方法及びプログラム
US9934785B1 (en) 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
CN108922551B (zh) * 2017-05-16 2021-02-05 博通集成电路(上海)股份有限公司 用于补偿丢失帧的电路及方法
EP3984026A1 (en) * 2019-06-13 2022-04-20 Telefonaktiebolaget LM Ericsson (publ) Time reversed audio subframe error concealment
EP3901950A1 (en) * 2020-04-21 2021-10-27 Dolby International AB Methods, apparatus and systems for low latency audio discontinuity fade out
JP7524678B2 (ja) 2020-08-28 2024-07-30 沖電気工業株式会社 信号処理装置および信号処理方法並びに信号処理方法のプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143526A1 (en) 2000-09-15 2002-10-03 Geert Coorman Fast waveform synchronization for concentration and time-scale modification of speech

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2102254B (en) * 1981-05-11 1985-08-07 Kokusai Denshin Denwa Co Ltd A speech analysis-synthesis system
EP0123616B1 (en) * 1983-04-20 1987-03-04 Nippon Telegraph And Telephone Corporation Interframe coding method and apparatus therefor
FR2606239A1 (fr) * 1986-10-30 1988-05-06 Bull Sa Procede et dispositif de transmission de donnees numeriques
US5007094A (en) * 1989-04-07 1991-04-09 Gte Products Corporation Multipulse excited pole-zero filtering approach for noise reduction
US5371853A (en) 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
JP2779886B2 (ja) 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5434947A (en) * 1993-02-23 1995-07-18 Motorola Method for generating a spectral noise weighting filter for use in a speech coder
US5995539A (en) * 1993-03-17 1999-11-30 Miller; William J. Method and apparatus for signal transmission and reception
SE503547C2 (sv) 1993-06-11 1996-07-01 Ericsson Telefon Ab L M Anordning och förfarande för döljande av förlorade ramar
JP3520555B2 (ja) * 1994-03-29 2004-04-19 ヤマハ株式会社 音声符号化方法及び音声音源装置
US5602959A (en) 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
ZA9510509B (en) * 1994-12-23 1996-05-30 Qualcomm Inc Dual-mode digital FM communication system
US5699481A (en) * 1995-05-18 1997-12-16 Rockwell International Corporation Timing recovery scheme for packet speech in multiplexing environment of voice with data applications
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6028890A (en) * 1996-06-04 2000-02-22 International Business Machines Corporation Baud-rate-independent ASVD transmission built around G.729 speech-coding standard
JP3623056B2 (ja) * 1996-09-10 2005-02-23 ソニー株式会社 動画像圧縮装置
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6766300B1 (en) * 1996-11-07 2004-07-20 Creative Technology Ltd. Method and apparatus for transient detection and non-distortion time scaling
JP3596841B2 (ja) 1997-01-24 2004-12-02 株式会社ルネサステクノロジ 受信データ伸長装置
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
CA2249792C (en) * 1997-10-03 2009-04-07 Matsushita Electric Industrial Co. Ltd. Audio signal compression method, audio signal compression apparatus, speech signal compression method, speech signal compression apparatus, speech recognition method, and speech recognition apparatus
FI980132A (fi) * 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
US6415253B1 (en) 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
SE513520C2 (sv) * 1998-05-14 2000-09-25 Ericsson Telefon Ab L M Förfarande och anordning för maskering av fördröjda paket
US6292454B1 (en) 1998-10-08 2001-09-18 Sony Corporation Apparatus and method for implementing a variable-speed audio data playback system
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
WO2000060576A1 (en) * 1999-04-05 2000-10-12 Hughes Electronics Corporation Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system
US6765931B1 (en) * 1999-04-13 2004-07-20 Broadcom Corporation Gateway with voice
EP1088303B1 (en) * 1999-04-19 2006-08-02 AT & T Corp. Method and apparatus for performing frame erasure concealment
US7117156B1 (en) 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6324503B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
US6691082B1 (en) 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US6665317B1 (en) * 1999-10-29 2003-12-16 Array Telecom Corporation Method, system, and computer program product for managing jitter
US6931370B1 (en) * 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
JP2001142477A (ja) 1999-11-12 2001-05-25 Matsushita Electric Ind Co Ltd 有声音形成装置とそれを用いた音声認識装置
FI116643B (fi) 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
SE517156C2 (sv) 1999-12-28 2002-04-23 Global Ip Sound Ab System för överföring av ljud över paketförmedlade nät
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
US6661842B1 (en) 2000-09-22 2003-12-09 General Dynamics Decision Systems, Inc. Methods and apparatus for error-resilient video coding
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US6968309B1 (en) * 2000-10-31 2005-11-22 Nokia Mobile Phones Ltd. Method and system for speech frame error concealment in speech decoding
EP1217613A1 (fr) 2000-12-19 2002-06-26 Koninklijke Philips Electronics N.V. Reconstitution de trames manquantes ou mauvaises en téléphonie cellulaire
US7069208B2 (en) * 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
FR2820227B1 (fr) * 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
KR100591350B1 (ko) 2001-03-06 2006-06-19 가부시키가이샤 엔.티.티.도코모 오디오 데이터 보간장치 및 방법, 오디오 데이터관련 정보작성장치 및 방법, 오디오 데이터 보간 정보 송신장치 및방법, 및 그 프로그램 및 기록 매체
JP2004519736A (ja) * 2001-04-09 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 位相スメアリング及び位相デスメアリングフィルタを有するadpcm音声コーディングシステム
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
JP4426186B2 (ja) 2001-05-22 2010-03-03 富士通株式会社 音声信号処理装置
FI20011392A (fi) * 2001-06-28 2002-12-29 Nokia Corp Mekanismi multicast-jakelua varten tietoliikennejärjestelmässä
US7006511B2 (en) 2001-07-17 2006-02-28 Avaya Technology Corp. Dynamic jitter buffering for voice-over-IP and other packet-based communication systems
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7711563B2 (en) * 2001-08-17 2010-05-04 Broadcom Corporation Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6681842B2 (en) * 2001-12-03 2004-01-27 Agilent Technologies, Inc. Cooling apparatus
SE521600C2 (sv) * 2001-12-04 2003-11-18 Global Ip Sound Ab Lågbittaktskodek
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP4022427B2 (ja) 2002-04-19 2007-12-19 独立行政法人科学技術振興機構 エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置
US7496086B2 (en) * 2002-04-30 2009-02-24 Alcatel-Lucent Usa Inc. Techniques for jitter buffer delay management
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP4089347B2 (ja) 2002-08-21 2008-05-28 沖電気工業株式会社 音声復号装置
WO2004054225A2 (en) * 2002-12-04 2004-06-24 Thomson Licensing S.A. Encoding of video cross-fades using weighted prediction
CN100576318C (zh) 2003-05-14 2009-12-30 冲电气工业株式会社 用于隐藏被擦除的周期信号数据的装置与方法
JP4233931B2 (ja) 2003-06-17 2009-03-04 日本電信電話株式会社 音声・音響信号再生調整方法、装置、および音声・音響信号再生調整プログラム、そのプログラムを記録した記録媒体
US7356748B2 (en) * 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
JP2005315973A (ja) 2004-04-27 2005-11-10 Seiko Epson Corp 半導体集積回路
TWI273562B (en) * 2004-09-01 2007-02-11 Via Tech Inc Decoding method and apparatus for MP3 decoder
US7676362B2 (en) 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
WO2006079349A1 (en) * 2005-01-31 2006-08-03 Sonorit Aps Method for weighted overlap-add
US7359409B2 (en) * 2005-02-02 2008-04-15 Texas Instruments Incorporated Packet loss concealment for voice over packet networks
US9160382B2 (en) * 2013-10-08 2015-10-13 Blackberry Limited Phase noise mitigation for wireless communications

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143526A1 (en) 2000-09-15 2002-10-03 Geert Coorman Fast waveform synchronization for concentration and time-scale modification of speech

Also Published As

Publication number Publication date
AU2006208530B2 (en) 2010-10-28
EP1846921B1 (en) 2017-10-04
US20080154584A1 (en) 2008-06-26
ZA200706261B (en) 2009-09-30
ZA200706307B (en) 2008-06-25
US8068926B2 (en) 2011-11-29
CN101120400A (zh) 2008-02-06
NO340871B1 (no) 2017-07-03
JP2008529072A (ja) 2008-07-31
JP2008529074A (ja) 2008-07-31
CN101120400B (zh) 2013-03-27
JP2008529073A (ja) 2008-07-31
RU2007132729A (ru) 2009-03-10
BRPI0607246B1 (pt) 2019-12-03
US20080275580A1 (en) 2008-11-06
CN101120399B (zh) 2011-07-06
CA2596341A1 (en) 2006-08-03
RU2007132728A (ru) 2009-03-10
EP1846921A1 (en) 2007-10-24
KR20080002757A (ko) 2008-01-04
NO338798B1 (no) 2016-10-24
AU2006208529B2 (en) 2010-10-28
WO2006079350A1 (en) 2006-08-03
NO20074418L (no) 2007-08-29
US20150207842A1 (en) 2015-07-23
ES2625952T3 (es) 2017-07-21
AU2006208528C1 (en) 2012-03-01
RU2417457C2 (ru) 2011-04-27
IL184864A (en) 2011-01-31
US9270722B2 (en) 2016-02-23
JP5925742B2 (ja) 2016-05-25
US9047860B2 (en) 2015-06-02
BRPI0607251A2 (pt) 2017-06-13
AU2006208529A1 (en) 2006-08-03
BRPI0607247B1 (pt) 2019-10-29
HK1108760A1 (en) 2008-05-16
CN101120399A (zh) 2008-02-06
US20120158163A1 (en) 2012-06-21
NO338702B1 (no) 2016-10-03
IL184948A (en) 2012-07-31
CA2596338A1 (en) 2006-08-03
CN101120398B (zh) 2012-05-23
JP2014038347A (ja) 2014-02-27
BRPI0607246A2 (pt) 2010-03-23
BRPI0607247A2 (pt) 2010-03-23
EP1846920A1 (en) 2007-10-24
WO2006079348A1 (en) 2006-08-03
IL184948A0 (en) 2007-12-03
US20100161086A1 (en) 2010-06-24
US8918196B2 (en) 2014-12-23
RU2407071C2 (ru) 2010-12-20
KR20080002756A (ko) 2008-01-04
KR101203244B1 (ko) 2012-11-20
JP5202960B2 (ja) 2013-06-05
EP1849156B1 (en) 2012-08-01
CA2596337C (en) 2014-08-19
IL184927A0 (en) 2007-12-03
WO2006079349A1 (en) 2006-08-03
IL184927A (en) 2016-06-30
NO20074348L (no) 2007-10-21
RU2007132735A (ru) 2009-03-10
KR20080001708A (ko) 2008-01-03
RU2405217C2 (ru) 2010-11-27
CA2596341C (en) 2013-12-03
EP1846920B1 (en) 2017-04-19
EP1849156A1 (en) 2007-10-31
KR101237546B1 (ko) 2013-02-26
AU2006208530A1 (en) 2006-08-03
CN101120398A (zh) 2008-02-06
JP5420175B2 (ja) 2014-02-19
CA2596338C (en) 2014-05-13
AU2006208528B2 (en) 2011-08-18
ZA200706534B (en) 2008-07-30
NO20074349L (no) 2007-10-18
AU2006208528A1 (en) 2006-08-03
IL184864A0 (en) 2007-12-03
CA2596337A1 (en) 2006-08-03

Similar Documents

Publication Publication Date Title
KR101203348B1 (ko) 가중 오버랩 애드 방법

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151016

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161019

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171018

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181018

Year of fee payment: 7