KR20080001708A

KR20080001708A - 통신 시스템에서 은닉 프레임들을 발생시키는 방법

Info

Publication number: KR20080001708A
Application number: KR1020077020042A
Authority: KR
Inventors: 소렌 방 안데르센
Original assignee: 소노리트 에이피에스
Priority date: 2005-01-31
Filing date: 2006-01-31
Publication date: 2008-01-03
Also published as: JP2014038347A; KR20080002757A; ZA200706261B; CN101120398B; CA2596341A1; WO2006079350A1; JP5420175B2; IL184864A0; NO20074349L; NO340871B1; CN101120400B; CA2596337A1; KR101203244B1; EP1846921A1; EP1849156B1; AU2006208528B2; CN101120400A; HK1108760A1; RU2007132728A; US9047860B2

Abstract

디지털화된 오디오 신호의 전송과 관련하여 은닉 샘플들의 시퀀스를 생성하는 방법이 제공되며, 여기서 상기 방법은 샘플 시간 순서에서 오디오 신호의 디지털화된 표현의 버퍼링된 샘플들의 상기 은닉 샘플들의 시퀀스를 생성하는 단계를 포함하며, 여기서 상기 은닉 샘플들의 시퀀스 내에 샘플들의 적어도 두 개의 연속적인 부분열들은 버퍼링된 샘플들의 부분열들에 근거하며, 여기서 상기 버퍼링된 샘플들의 부분열들은 재배열된 시간에서 연속적이다.

Description

통신 시스템에서 은닉 프레임들을 발생시키는 방법 {METHOD FOR GENERATING CONCEALMENT FRAMES IN COMMUNICATION SYSTEM}

본 발명은 전기통신(telecommunication) 시스템에 관한 것이다. 더욱 구체적으로, 본 발명은 패킷 교환망 및 무선 전기통신 시스템을 통한 신호 전송의 품질을 개선하기 위해 신호 패킷들의 클럭 스큐(clock skew) 및/또는 지연 지터(delay jitter) 및/또는 손실을 보상하는 방법, 디바이스 및 장치에 관한 것이다.

현대 전기통신들은 신호의 디지털 전송에 근거한다. 예를 들어, 도1에서, 전송기(200)는 소스(100)로부터 소리(sound) 신호를 수집한다. 상기 소스는 한 명 이상의 사람들의 말소리의 결과 및 마이크에 의해 수집된 다른 음향파 소스(acoustic wave source)일 수 있고, 또는 상기 소스는 문자음성변환기(text-to-speech synthesis) 또는 다이얼로그 시스템과 같은 소리 신호 발생 시스템 또는 소리 신호 저장부일 수 있다. 만약 상기 소스 신호가 아날로그라면, 상기 소스 신호는 아날로그-디지털 변환기에 의해 디지털 표현으로 변환된다. 상기 디지털 표현은 후속하여 인코딩(encoded)되고 디지털 채널(300)에 대해 적당한 포맷을 따라 패킷들 내에 배치된다. 상기 패킷들은 상기 디지털 채널을 통해 전송된다. 상기 디지털 채널은 전형적으로 다수의 추상화 계층들(multiple layers of abstraction)을 포함한다.

도1의 추상화 계층에서, 상기 디지털 채널은 일련의 패킷들을 입력으로서 취하고 일련의 패킷들을 출력으로서 전달한다. 채널에서의 과부하, 결점 및 노이즈에 의해 전형적으로 야기되는 채널의 저하로 인해, 상기 출력 패킷 시퀀스는 전형적으로 상기 패킷들 중 일부의 손실과 다른 패킷들에 대한 도착 시간 지연 및 지연 지터에 의해 오염된다. 더욱이, 전송기와 수신기의 클럭 차이는 클럭 스큐를 야기할 수 있다. 수신된 데이터 패킷들을 디코딩(decode)하고 그리고 상기 패킷 스트림으로부터 상기 디코딩된 디지털 표현들을 변환하여 이를 디지털 신호 표현들로 디코딩하고 또다시 이들 표현들을 상기 신호 싱크(500)에 대한 출력에 적당한 포맷의 디코딩된 소리신호로 변환하는 것이 수신기(400)의 업무이다. 이 신호 싱크는 예컨대 하나 이상의 확성기에 의해 디코딩된 소리 신호를 제시하는 하나 이상의 사람들일 수 있다. 대안적으로, 상기 신호 싱크는 음성 또는 오디오 저장 시스템 또는 음성 또는 오디오 다이얼로그 시스템 또는 익힐 수 있다.

상기 싱크에 제공될 수 있는 신호를 정확하게 재생하는 것이 수신기의 업무이다. 상기 싱크가 직간접적으로 인간 청취자들(human listener)을 포함한다면, 사이 수신기의 목적은 상기 인간 청취자들에게 제공될 때 상기 소스 또는 소스들로부터의 음향 신호의 정보 및 인간적으로 지각된 인상을 정확하게 재생하는 소리 신호의 표현을 획득하는 것이다. 손실, 지연, 지연 지터 및 클럭 스큐를 갖는 일련의 수신된 패킷들과 같은 채널 저하가 또한 존재하는 일반적인 경우에 이 업무를 안전하게 하기 위해, 효율적인 은닉이 상기 수신기 서브시스템의 일부로서 필수적이다.

예로서, 이 업무를 달성하기 위한 수신기 서브시스템의 가능한 일 실시예가 도2에 도시되어 있다. 상기 도면에 표시된 바와 같이, 들어오는 패킷들은 지터 버퍼(410) 내에 저장되며, 디코딩 및 은닉 유닛(420)은 상기 지터 버퍼(410)로부터 수신된 인코딩된 신호 표현들을 획득하여, 이들 인코딩된 신호 표현들을 디코딩하고 은닉하여 플레이아웃 버퍼(playout buffer)(430) 및 후속 플레이아웃에서 저장하기에 적합한 신호 표현들을 획득한다. 은닉을 언제 초기화하는지 및 은닉 신호의 길이와 같은 상기 은닉 파라미터들의 특정 제어가 예를 들어 제어 유닛(440)에 의해 수행될 수 있으며, 상기 제어 유닛(440)은 상기 지터 버퍼 및 플레이아웃 버퍼의 콘텐츠(contents)를 모니터하고 상기 디코딩 및 은닉 유닛(420)의 행동을 제어한다.

은닉은 또한 채널 서브시스템의 일부로서 달성될 수 있다. 도3은 채널 서브시스템의 일예를 도시하며, 상기 채널 서브시스템에서는 패킷들이 서브시스템(320)을 통해서 채널(310)로부터 채널(330)로 포워딩되며, 상기 서브시스템(320)은 추후에 중계기(relay)로 지칭된다. 실질적인 시스템에서, 상기 중계기 기능은 환경에 따라 다양한 명칭을 가질 수 있는 유닛들에 의해 달성될 수 있는바, 예컨대 다양한 종류의 라우터(router), 프록시 서버, 에지 서버(edge server), 네트워크 액세스 제어기, 무선 LAN 제어기(wireless local area network controller), VoIP(voice over IP) 게이트웨이, 미디어 게이트웨이, 무면허 네트워크 제어기, 및 다른 명칭을 가질 수 있다. 본 명세서에서 상기 모든 명칭들은 중계기 시스템들의 예시이다.

오디오 은닉을 할 수 있는 중계기 시스템의 일예가 도4에 도시되어 있다. 상 기 도면에 도시된 바와 같이, 패킷들은 패킷 교환 서브시스템들(320 및 350)을 통해 입력 버퍼(310)로부터 출력 버퍼(360)로 포워딩된다. 제어 유닛(370)은 상기 입력 버퍼와 출력 버퍼를 모니터하며, 상기 모니터링의 결과로서 트랜스코딩(transcoding) 및 은닉이 필요한지에 관한 결정을 한다. 만약 필요하다면, 상기 스위치들은 패킷들이 상기 트랜스코딩 및 은닉 유닛(330)을 통하도록 한다. 만약 필요하지 않다면, 상기 스위치들은 상기 패킷들이 최소 프로토콜 실행 서브시스템(minimal protocol action subsystem)(340)을 통하도록 하며, 이는 패킷 헤더들에 대한 최소의 동작들이 적용된 프로토콜들에 순응하여 남아있도록 한다. 이는 상기 패킷들의 순서 번호 및 시간 스탬프(time-stamp)를 변경하는 단계들을 포함한다.

상기 설명들로 제한되는 것은 아니지만, 상기 설명들에 의해 예시된 시스템들을 사용하는 오디 신호들의 전송에서, 소리 신호를 표시하는, 또는 부분적으로 표시하는 신호들에서 손실, 지연, 지연 지터, 및/또는 클록 스큐의 은닉이 필요하다. 이러한 은닉 업무를 해결하는 종래 기술들은 피치 반복 방법들 및 시간 스케일 수정 방법들로 분류된다.

종종 발진기 모델에서 구현되는 피치 반복 방법(pitch repetition method)은 보이스 음성(voiced speech)에서의 피치 주기(period)의 개산(estimate), 또는 대안적으로 상기 보이스 음성 신호의 상응하는 기본 주파수의 개산에 근거한다. 상기 피치 주기가 주어지면, 최종 피치 주기의 반복적인 판독(readout)에 의해 은닉 프레임이 획득된다. 상기 피치 주기의 각 반복 사이 그리고 상기 은닉 프레임의 시작 및 끝에서의 불연속성은 윈도우 오버랩 애드(windowed overlap-add) 절차에 의해 스무딩(smooth)될 수 있다. 피치 반복 방법의 예를 위해서 특허 번호 WO 0148736호 및 국제전기통신연합(International Telecommunications Union) 제안 ITU-T G.711 부록 1을 보자.

종래 기술 시스템들은 선형 예측적 코딩 원리에 기반하여 피치 반복 기반 은닉을 디코더들과 통합한다. 이러한 시스템들에서, 상기 피치 반복은 장기간 예측자(long term predictor) 또는 적응 코드북 루프(adaptive codebook loop)로부터 판독에 의해 선형 예측적 여기 도메인에서 전형적으로 달성된다. 선형 예측적 여기 도메인에서의 피치 반복 기반 은닉의 예는 특허 번호 US 5699481, 국제전기통신 연합 제안 ITU-T G.729, 및 인터넷 엔지니어링 태스크 포스 리퀘스트포코멘츠(Internet Engineering Task Force Request For Comments) 3951에서 찾아볼 수 있다. 상기 방법들은 손실 또는 증가하는 지연, 즉 양의 지연 지터, 그리고 예컨대 클럭 스큐로 인한 입력 또는 지터 버퍼 언더플로(underflow) 또는 근사(near) 언더플로의 상황들을 은닉하는데 적용된다. 감소하는 지연, 음의 지연 지터, 또는 입력 또는 지터 버퍼 오버플로(overflow) 또는 근사 오버플로를 은닉하기 위해서, 단축된 은닉 신호의 생성이 필요하다. 피치 기반 방법들은 피치 주기와 이전의 피치 주기 사이에 오버랩 애드 절차에 의해 이를 달성한다. 이 방법의 예는 특허 번호 WO0148736에서 찾아볼 수 있다.

다시 이는 선형 예측적 디코더들에 존재하는 편의점들을 이용하면서 달성될 수 있다. 예로서, 특허번호 US 5699481은 재생 신호에서의 피치 주기성을 보장하도 록 적응 코드북의 상태에 의존하여, 상기 재생 신호로부터 고정 코드북 기여 벡터들이 단순히 폐기되는 방법을 개시한다. 피치 반복 방법들과 관련하여 하나의 목적은 상기 은닉 프레임으로부터 후속 프레임으로의 심리스(seamless) 신호 연속성이다. 특허 번호 WO 0148736은 이 목적을 달성하는 방법을 개시한다. 상기 WO 0148736에 개시된 발명에 의해, 상기 목적은 시변(time varying) 및 가능하게 신호 의존 길이의 은닉 프레임들에 의해 달성된다. 이는 효과적으로 지연 지터 및 클럭 스큐의 은닉과 관련하여 심리스 신호 연속성을 보장할 수 있는 반면, 상기 솔루션은 도4에 도시된 유형의 시스템과 관련하여 결함을 발생시킨다: 이러한 유형의 은닉을 따르면, 상기 최소 프로토콜 실행(340)을 통해 바람직하게 중계되는 이전에 이미 인코딩된 프레임들에 심리스하게 연결되는, 은닉의 고정된 기설정 길이의 프레임들로의 인코딩은 보장될 수 없다.

손실 및 갑자기 증가하는 지연의 은닉을 위한 피치 반복 기반 방법들에서의 정기적으로 발생하는 문제는 피치 사이클들의 반복이 상기 재생 신호 소리를 부자연스럽게 만든다는 것이다. 더욱 구체적으로, 이 오디오 신호는 너무 주기적으로 된다. 최악의 경우에, 재생 소리 신호에서 소위 실소리(string sound)가 인식된다. 이러한 문제를 경감하기 위해, 종래 기술에는 다양한 방법들이 존재한다. 이들 방법들은 개산된 피치 주기의 두배 또는 세배인 반복 주기를 사용하는 것을 포함한다. 일예로서, 인터넷 엔지니어링 테스크 포스 리퀘스트포코멘츠 3951은 만약 개산된 피치 주기가 10ms 이하라면 상기 개산된 피치 주기의 2배를 사용하는 방법을 개시한다. 다른 예로서, 국제 전기통신 연합 제안 ITU-T G.711 부록 1은 단일 피치 주기를 반복하기보다는 2 및 이후에 3 피치 사이클들을 반복하기 위해 상기 반복 주기의 2배증(doubling) 및 이후에 3배증(tripling)을 도입하는 방법을 개시한다. 이 방법에 대한 구체적인 설명을 위해 국제 전기통신 연합 제안 ITU-T G.711 부록 1을 참조하라. 더욱이, 은닉 신호를 음성의 보이스 레벨에 의존하는 레벨을 갖는 램던 또는 랜덤 유사 신호(random or random like signal) 성분고 혼합하는 것, 그리고 상기 은닉 신호의 점진적인 감쇄(gradual attenuation)가 실소리를 경감하기 위해 전형적으로 도입된다. 때때로, 상기 랜덤 유사 신호는 버퍼링된 신호에 대한 작용들에 의해 또는 이미 디코더에서 이용가능한 랜덤 코드북들과 같은 기능들의 사용에 의해 야기된다. 이러한 특성들을 사용하는 예에 대해서는 특허 번호 US 5699481호, 국제 전기통신 연합 제안 ITU-T G.729, 및 인터넷 엔지니어링 태스크 포스 리퀘스트포코멘츠 3951를 참조하자. 또한, 유도된 인공물(artefacts)을 억압하기 위해 점진적인 감쇄가 사용된다. 이에 반하여, 소정의 근본적인 은닉 방법에서, 이는 근단 청자(near end listener)에 의해 해석될 때 최선의 선택일 수 있다. 에코 귀환 및이 에코를 소거하기 위한 적응 필터를 가진 시나리오에서, 원단 청자(far end listner)는 이 감쇄 효과를 지배적으로 부정적으로 해석할 것이다. 이는 상기 감쇄는 상기 적응 에코 소거기의 여기의 존속을 감소시키기 때문이다. 이에 의해, 실제 에코 경로로의 이의 트랙킹(tracking)은 저하되고, 그리고 상기 원단 청자는 더 큰 에코 귀환을 경험할 수 있다.

2003년 12월, IEEE 멀티미디어상의 트랜잭션, 5권, 532-543 페이지, 리나그(Linag), 파베(Farber) 및 지로드(Girod)의 "Adaptive Playout Scheduling and Loss Concealment for Voice Communication over IP Networks"에 개시된 유형의 타임스케일 수정 방법들은 매칭된(matched) 스무스 오버랩애드 절차를 통해 기능한다. 이러한 절차에서, 신호 세그먼트는 버퍼링되지만 아직 플레이 안된 신호는 스무스하게 윈도우되고 템플릿(template) 세그먼트로 식별되고, 후속적으로 다른 스무스하게 윈도우된 세크먼트들이 유사한 세크먼트를 식별하기 위해 검색되며, 여기서 유사성은 예컨대 코릴레이션(correlation) 측정에 있을 수 있다. 상기 스무스하게 윈도우된 템플릿 세그먼트와 상기 스무스하게 윈도우된 유사한 세그먼트는 후속적으로 오버랩되고 애드되어 타임스케일 수정된 신호를 생산한다. 상기 플레이아웃 타임 스케일이 확장되면, 상기 유사한 세크먼트에 대한 검색 영역은 샘플 시간에서 상기 템플릿 세그먼트 전에 위치한다. 반대로, 상기 플레이아웃 타임 스케일이 압축되면, 상기 유사한 세그먼트에 대한 검색 영역은 샘플 시간에서 상기 템플릿 세그먼트의 앞쪽에 위치된다. 공지된 타임스케일 수정 방법들에서, 상기 템플릿 및 유사한 세그먼트의 길이 및 이들에 적용되는 윈도우들은 타임스케일 수정의 실행 전에 미리 정의되며, 이들 양들은 타임 스케일 수정이 적용되는 특정 신호의 특성들에 응답하여 적응되지 않는다. 2003년 12얼, IEEE 멀티미디어상의 트랜잭션, 5권, 532-543 페이지, 리나그(Linag), 파베(Farber) 및 지로드(Girod)의 "Adaptive Playout Scheduling and Loss Concealment for Voice Communication over IP Networks"에서 제시되는 바와 같이: 종래 타임 스케일 수정에서, 패킷 네트워크들을 통한 실시간 양방향 보이스 통신에서 필요한 바와 같은 낮은 지연 플레이아웃 스케쥴링에서 스파이크 지연(spike delay)이 시작 포인트로부터 효과적으로 경감될 수 없다.

타임 스케일 수정 및 피치 반복 방법들에 유사한 점들을 갖는 다른 방법들이 공지되어 있다. 이러한 관계에 있어서 언급되어야만 하는 하나의 유형은 사인형태 기반 은닉 방법들이다. 예컨대, 2002년 음성 코딩(speech coding)에 관한 워크숍, IEEE 회보 71-73페이지, 로드브로(Rodbro) 및 젠센(Jensen)의 "Time-scaling of Sinusoids for Intelligent Jitter Buffer in Packet Based Telephony"를 참조하자. 보간(interpolation)의 양에 따라, 각각의 피치 반복은 이들 방법에 의해 사인형 모델 도메인을 통해 달성되며, 이들 방법들은 전술한 피치 반복 및 타임스케일 수정 방법들에 대해 식별된 동일한 한정사항의 영향을 받는다.

개시된 본발명, 또는 이의 실시예들은 공지된 해법에서 식별된 상기 한정사항들, 예컨대 가청 인공물뿐만 아니라 상기 공지된 해법들에서의 다른 특정되지 않은 결함들을 효과적으로 완화한다.

공지된 피치 반복 기반 방법들과 구체적으로 비교하면, 개시된 본발명은소리 신호를 나타내는 은닉 신호들을 생성하는 기술을 제공하며, 여기서 상기 은닉 신호들은 실소리와 같은 실질적으로 덜 지각되는 성가신 인공물들을 포함한다. 이에 의해 결과로서 직접 개선된 인식 소리 물질을 갖는 이들 시스템들의 한정사항을 경감한다. 동시에, 이는 은닉 신호들에서 상당히 작은 감쇄를 도입하면서 획득된다. 이에 의해 피치 반복 기반 시스템들의 제2 한정사항을 경감한다. 제2 한정사항의 경감은 또한 통신의 근단측에서 은닉 신호의 직접적으로 개선된 인식 품질을 제공한다. 더욱이, 상기 제2 제한의 경감은 근단에서 음향 에코 및 적응 필터를 구비한 시스템에서 원단에 의해 인식되는 음향 에코의 효과를 완화한다. 상기 두번째 효과는 상기 개시된 본 발명의 은닉 신호들이, 더 적은 감쇄를 나타내기 때문에, 적응 에코 소거 필터의 적응 과정에 대한 연속적인 여기를 제공하기 때문에 획득할 수 있다. 또한, 음향 백그라운드 노이즈에 대한 상기 개시된 기술의 강건함(robustness)은 공지된 피치 반복 기반 방법들의 그것보다 우수하다.

또한, 구체적으로 공지된 타임 스케일 수정 방법들과 비교하면, 개시된 본 발명은 패킷 네트워크들을 통한 실시간 양방향 보이스 통신에서 필요한 바와 같이, 저지연 플레이아웃 또는 출력 버퍼 스케줄링을 구비한 시스템에서 스파이크 지연들을 은닉할 수 있다. 이에 의해, 공지된 타임 스케일 수정에서 최대의 제한사항을 완화할 수 있다.

제1 양상에서, 본 발명은 디지털화된 오디오 신호의 전송과 관련된 일련의 은닉 샘플들을 생성하는 방법을 제공하며, 여기서 상기 방법은 샘플 시간 순서에서 오디오 신호의 디지털화된 표현의 버퍼링된 샘플들로부터 상기 일련의 은닉 샘플들을 생성하는 단계를 포함하며, 여기서 상기 일련의 은닉 샘플들에서 적어도 두 개의 연속적인 샘플들의 부분열들이 버퍼링된 샘플들의 부분열들에 근거하며, 여기서 상기 버퍼링된 샘플들의 부분열들은 재배열된 시간에서 연속적이다.

하기의 정의들이 제1 양상에 적용되며 그리고 본 출원의 명세서 전반에 걸쳐 사용될 것이다. "샘플(sample)"은 디지털화된 오디오 신호 또는 이로부터 유도된 신호, 또는 이러한 신호를 나타내는 계수들 또는 파라미터들로부터 기인하는 샘플로 이해되며, 이들 계수들 또는 파라미터들은 스칼라 또는 벡터값이다. "프레임(frame)"은 상기 샘플의 정의를 사용하여, 한 세트의 연속적인 샘플들로 이해된다. "부분열(subsequence)"은 상기 샘플의 정의 사용하여, 하나 이상의 연속적인 샘플들의 세트로 이해된다. 따라서, 특별한 경우에 부분열은 샘플과 동일하다. 예컨대, 오버랩 애드를 사용하는 경우에, 두 개의 연속적인 부분열들은 오버랩되는 샘플들을 포함할 수 있다.

프레임들의 선택에 따라, 부분열은 두 개의 연속적인 프레임들 사이에서 연장할 수 있다. 바람직한 실시예들에서, 하나의 부분열이 다른 부분열의 부분집합이 되지 않을 수 있도록 부분열들이 구성된다.

바람직하게, 상기 일련의 은닉 샘플들에서 상기 샘플들의 적어도 두개의 연속적인 부분열들은 버퍼링된 샘플들의 부분열들에 근거하며, 여기서 상기 버퍼링된 샘플들의 부분열들은 역시간 순서에서 연속적이다. 다라서, 바람직한 실시예들에서, 일련의 은닉 샘플들은 역시간 순서에서 연속적인 버퍼링된 샘플들에 근거하는, 연속적인 샘플들과 같은 연속적인 부분열들을 포함한다. 예컨대, 상기 일련의 은닉 샘플들에서 샘플들의 두 개, 세 개, 네 개, 또는 혹은 더 큰 수의 부분열들이 역시간 순서에서 연속적인 버퍼링된 샘플들의 부분열들에 근거할 수 있다. 즉, 상기 생성된 은닉 시퀀스는 바람직하게 버퍼링된 샘플들의 다소 다이렉트(direct) 리버스(reverse) 플레이백에 근거하는 부분들을 포함한다. 바람직한 실시예에서, 상기 일련의 은닉 샘플들은 역 시간 순서에서 버퍼링된 샘플들의 한 세트의 연속적인 샘플들을 포함한다. 이러한 재배열 또는 역 순서화 스킴(scheme)을 사용하여 버퍼링된 샘플들에 근거하는 일련의 은닉 샘플들의 적어도 일부를 계산하는 것은 종래 기술의 실소리 효과를 없애면서 보다 자연스러운 사운딩 은닉 시퀀스를 제공하고 수 개의 다른 인공산물(artefact)들을 또한 제거하거나 줄인다.

전술한 방법은 예컨대 VoIP 시스템들과 같은 통신 시스템과 관련하여 엄청난 이점을 갖는다. 여기서 디지털화된 음성 신호들은 프레임들로 전송되고 그리고 통신은 프레임 손실 및 지터를 겪고 그리고 매우 잘 들리는 귀찮은 신호의 어브럽션(abruption)을 적어도 부분적으로 줄이기 위해 샘플들의 은닉 시퀀스를 필요로 한다.

바람직한 실시예에서, 상기 버퍼링된 샘플들의 위치는 상기 일련의 은닉 샘플들을 생성하는 동안에 샘플 시간에서 역방향 및 순방향으로 점진적으로 전개(evolve)하는 지점에 위치한다. 이는 이러한 시간적 전개를 제어하는 인덱스 패턴 생성기에 의해 구현될 수 있다. 버퍼링된 샘플들을 분석함으로써, 상기 인덱스 패턴 생성기는 역방향 시간 전개 이동(passage)의 시작, 정지 및 속도들을 선택하며, 이는 또한 순방향 전개 시작, 정지 및 속도들을 제어하며, 그리고 패턴에 의해 역방향 시간 전개 및 순방향 시간 전개가 자연적으로 사운딩하는 은닉 시퀀스를 생성하도록 나열된다.

상기 일련의 은닉 샘플들은 시간 순서에서 마지막인 버퍼링된 샘플들의 부분열에 근거하는 부분열로 시작할 수 있다.

부분열들의 시간에 있어서의 재배열은 시간에 있어 순방향으로 샘플들을 인덱싱 및 판독하고 그리고 시간에 있어 역방향으로 스텝핑하는 연속적인 프로세스에 근거할 수 있다. 바람직하게, 샘플들을 인덱싱하고 판독하는 연속적인 프로세스는 다음의 단계들을 포함한다.

a) 시간 순서에 있어 역방향으로 수많은 버퍼링된 샘플들을 스텝핑함으로써 버퍼링된 샘플을 인덱싱하는 단계와, 상기 단계가 뒤따른다

b) 단계 a)에서 인덱싱된 버퍼링된 샘플들로 시작하여, 시간 순서에서 순방향으로 수많은 버퍼링된 샘플들을 판독하는 단계와, 그리고 상기 일련의 은닉 샘플들의 부분열을 계산하기 위해 상기 판독 샘플들을 사용하는 단계.

여기서, 순방향으로 판독되는 버퍼링된 샘플들의 수는 역방향으로 스텝핑되는 버퍼링된 샘플들의 수와 다르다. 서로 다른 이 수를 가지고, 자연스럽지 않은 실소리들을 야기하는 주기성이 회피된다. 상기 방법은 이하에서 실시예들의 상세한 설명에서 "백스텝(backstep) 및 "판독 길이"로 지칭된다.

순방향으로 판독되는 버퍼링된 샘플들의 수는 역방향으로 스태핑되는 버퍼링된 샘플들의 수보다 크거나 작을 수 있다. 바람직하게, 순방향으로 판독되는 버퍼링된 샘플들의 수는 역방향으로 스텝핑되는 버퍼링된 샘플들의 수보다 작다. 이 선택은 상기 버퍼링된 샘플들에서 시간에 있어 점진적으로 더 뒤로 전개하는 방법을 제공할 것이고 그리고 이에 따라 부분열 샘플들이 순방향 전개가 개시된 것보다 더 오래된 버퍼링된 샘플들에 점진적으로 근거하는 은닉 시퀀스를 제공할 것이다.

상기 일련의 은닉 샘플들의 부분열들은 가중된 오버랩 애드 프로시저를 포함함으로써 버퍼링된 샘플들의 부분열들로부터 계산될 수 있다. 상기 가중된 오버랩 애드 절차에서 가중치 함수들은 추가적으로 주파수의 함수일 수 있다. 상기 가중된 오버랩 애드 절차는 매칭 품질 표시자에 응답하여 수정될 수 있고, 이 매칭품질 표시자는 가중된 오버랩 애드 절차로 들어가는 샘플들의 두 개 이상의 부분열들에 대한 측정치이다.

시간에 있어 재배열은 위치 표시자의 역방향 및 순방향 전개에 의해 부분적으로 설명될 수 있다. 바람직하게, 상기 위치 표시자의 역방향 전개는 정지 기준의 사용에 의해 제한된다. 상기 역방향 전개에 대한 상기 정지 기준, 상기 순방향 및 상기 역방향 전개의 페이스(pace)(또는 속도), 그리고 개시된 상기 역방향 전개의 수는 청취자에 의해 해석될 때 소리 품질을 최적화하도록 공동으로 최적화될 수 있다.

바람직하게, 스무딩 및 이퀄라이제이션 작업이 버퍼링된 샘플들에 적용된다. 이는 상기 샘플들이 버퍼링되기 전에, 버퍼링 중에, 또는 상기 샘플들이 은닉 샘플들을 계산하는데 사용되기 직전에 수행될 수 있다. 상기 역방향 전개에 대한 정지 기준은, 상기 순방향 전개 및 상기 역방향 전개의 페이스, 개시된 상기 역방향 전개의 수, 및 상기 스무딩 및 이퀄라이제이션 작업은 청취자에 의해 해석될 때 소리 품질을 최적화하도록 공동으로 최적화될 수 있다.

상기 위치 표시자의 역방향 및 순방향 전개들은 청취자에 의해 해석될 때 소리 품질을 최적화하도록 공동으로 최적화될 수 있다.

바람직하게, 위상 필터링이 상기 일련의 은닉 샘플들과 샘플들의 연속적인 프레임 사이의 경계들에서 불연속성을 최소화하도록 적용된다. 위상 필터링을 도입하는 것은 은닉 시퀀스를 도입할 때 공지된 불연속성을 줄이는데 도움을 준다. 이러한 위상 필터링이 적용되는 경우에, 상기 언급된 공동 최적화는 청취자에게 지각될 때 소리 품질을 최적화하도록 상기 위상 필터링에 의해 도입된 신호 왜곡을 또한 포함할 수 있다.

노이즈 믹싱(mixing)이 상기 일련의 은닉 샘플들에 도입될 수 있다. 특히, 노이즈 믹싱은 상기 일련의 은닉 샘플들에 도입될 수 있고, 그리고 여기서 상기 노이즈 믹싱은 시간에 있어 순방향으로 샘플들을 인덱싱하고 시간에 있어 역방향으로 스테핑하는 연속적인 프로세스에 응답하여 수정된다. 이러한 경우에들에, 상기 시간에 있어 순방향으로 샘플들을 인덱싱하고 시간에 있어 역방향으로 스테핑하는 상기 연속적인 프로세스 및 이에대한 응답은 매칭 품질 표시를 사용하는 것을 포함한다.

상기 일련의 은닉 샘플들은 하나의 은닉 프레임 내에 포함될 수 있다. 상기 방법은 상기 제1 은닉 프레임에 연속적인 적어도 제2 은닉 프레임을 생성하는 단계를 포함하며, 상기 제2 은닉 프레임은 은닉 샘플들의 제2 시퀀스를 포함한다. 상기 제1 및 제2 은닉 프레임들 내의 상기 은닉 샘플들의 시퀀스들은 서로 다르다, 즉 은닉 프레임들의 연속적인 복사는 바람직하게 회피된다. 서로 다른 은닉 시퀀스들을 포함하는 프레임들을 사용함으로써 더욱 자연스러운 사운딩 은닉이 초래된다. 바람직하게, 상기 제1 및 제2 은닉 프레임들은 동일한 수의 샘플들을 포함한다.

바람직하게 상기 제2 은닉 프레임 내의 샘플들의 적어도 하나의 부분열은 상기 제1 은닉 프레임에 포함된 샘플들의 부분열들 중 어떠한 것보다도 시간에 있어 더욱 뒤에 있는 버퍼링된 샘플들의 부분열들에 적어도 부분적으로 근거한다. 따라서, 후속적인 은닉 프레임들은 더 오래된 버퍼링된 샘플들에 바람직하게 근거한다.

제2 양상에서, 본 발명은 제1양상에 따른 방법을 수행하도록 된 컴퓨터 실행가능한 프로그램 코드를 제공한다. 이러한 프로그램 코드는 머신 의존적 또는 머신 독립적 형태로 작성되고 머신 코드와 같은 프로그램 언어 또는 보다 고차원의 프로그램 언어로 작성될 수 있다.

제3의 양상에서, 본 발명은 제1 양상의 방법을 수행하도록, 범용 마이크로프로세서와 같은 마이크로프로세서에 대한 명령어들의 시퀀스를 포함하는 프로그램 저장 장치를 제공한다. 상기 저장 장치는 디스크, 메모리 카드, 메모리 스틱, 및 하드디스크등과 같은 모든 유형의 데이터 저장 수단일 수 있다.

제4 양상에서, 본 발명은 디지털화된 오디오 신호를 수신하는 디바이스 또는 장치와 같은 어레인지먼트(arrangement)을 제공한다. 상기 어레인지먼트는:

-수신된 디지털화된 오디오 신호를 나타내는 샘플들을 저장하는 메모리 수단과, 그리고

- 상기 제1 양상의 방법을 수행하는 프로세서 수단을 포함한다.

이하에서 바람직한 실시예로서 기술된 것들과 같이, 적당한 수단으로 본 발명을 구현하는 것은 디코더 및 은닉 시스템 및/또는 트랜스코더 및 은닉 시스템으로 하여금 지각되는 귀찮은 인공산물을 생성함이 없이 분실 또는 지연된 패킷들의 시퀀스들을 효과적으로 은닉하도록 한다. 더욱이, 이는 빠른 페이딩(fast fading)을 생성함이 없이 음향적 배경 노이즈 및 다중 스피커들에 대해 로버스트하게 달성될 수 있다. 증가된 로버스트니스는 상기 방법 컨시스턴시(consistency)가 시간 전개를 통해 실소리 주기성에 덜 의존하고, 반복 기반 방법들이기 때문이다. 이에 의해 본 발명은 음향적 배경 노이즈, 음향적 에코, 및/또는 심각한 클록 스큐, 채널 손실, 및/또는 지연 지터를 갖는 상황에서 고품질의 양방향 음성 통신을 가능하게 한다.

이하에서 본 발명은 다음의 도면들을 참조하여 자세하게 설명된다.

도1은 손실, 지연, 지연 지터, 및/또는 클럭 스큐의 효과를 갖는 공지된 단대단(end-to-end) 패킷 교환 소리 전송 시스템을 도시하는 블록 다이어그램이다;

도2는 제어 유닛의 제어하에서 지터-버퍼링, 디코딩 및 은닉, 그리고 플레이아웃 버퍼링을 수행하는 수신기 서브시스템을 예시한다;

도3은 클럭 스큐, 손실, 지연, 및 지연 지터의 효과들을 갖는 패킷 교환 채널의 중계기 서브시스템을 도시하는 블록 다이어그램이다.

도4는 제어 유닛의 제어하에서 입력 버퍼링, 출력 버퍼링, 그리고 필요시에 트랜스코딩 및 은닉을 수행하는 중계기 서브시스템을 예시한다;

도5는 본 발명의 바람직한 실시예들의 한세트를 도시하는 블록 다이어그램이다;

도5A는 역시간순서의 최종 버퍼링된 부분열(subsequence)에 근거하는 부분열로 시작하는 은닉 프레임들의 부분열을 도시한다;

도5B는 역시간 순서의 최종 두 개의 버퍼링된 부분열들로 시작하는 은닉 프레임들의 최대 부분열의 시퀀스의 다른 예를 도시한다;

도5C는 스텝백(step back) 및 판독 길이에 의해 포맷된 인덱싱 패턴에서 샘플 카운트 인덱스들을 예시한다;

도6은 인덱싱 및 보간 함수에 포함된 신호들을 도시한다;

도7은 정지 기준에 대한 결정 로직(decision-logic)을 구현하는 ks가지 방법을 예시하는 흐름챠트이다;

도8은 스무싱 및 이퀄라이제이션(equalization), 정지 기준 및 허용된 반복의 수의 반복적인 공동 최적화를 달성하는 이레를 도시하는 흐름챠트이다;

도9는 위상 조정 필터를 초기화하고 피딩(feed)하는 것과 관련하여 원형의 쉬프트(circular shift) 및 오버랩 애드의 사용을 예시한다; 그리고

도10은 개시된 가중 오버랩 애드 절차의 실시예를 도시한다.

본 발명은 다양한 수정 및 변경 형태가 가능하지만, 특정 실시예들만이 도면에서 예로서 도시되며 이하에서 상세하게 설명될 것이다. 그러나, 본 발명은 개시된 특정 형태로 제한되도록 의도되지 않음을 이해해야 한다. 이에 반해, 본 발명은 첨부된 청구항에 의해 정의된 발명의 사상 및 범위 내의 모든 수정물, 균등물, 및 치환물들을 포괄하도록 의도된다.

본원의 방법은 도2에서의 수신기와 같은 수신기의 디코딩 및 은닉 유닛(420)에서 활성화되거나, 도4에서의 중계기와 같은 중계기의 트랜스코딩 및 은닉 유닛(330)에서 활성화되거나, 또는 그 행동이 적절한 통신 시스템에서의 다른 모든 위치에서 활성화될 수 있다. 이들 위치들에서, 수많은 버퍼링된 신호 프레임들이 이용가능하고 그리고 수많은 은닉 프레임들이 필요하다. 상기 이용가능한 신호 프레임들 및 필요한 은닉 프레임들은 예컨대 음성 신호와 같은 오디오 신호의 시간 도메인 샘플들로 구성될 수 있거나, 또는 선형 예측 여기 샘플들과 같은 이로부터 유도된 샘플들로 구성될 수 있거나, 또는 소리 신호의 프레임들을 부분적으로 또는 완전히 나타내는 오디오 신호로부터 유도된 다른 계수들로 구성될 수 있다. 이러한 계수들의 예들은 주파수 도메인 계수들, 사인형 모델 계수들, 선형 예측적 코딩 계수들, 파형 보간 계수들, 및 상기 오디오 신호 샘플들을 완전히 또는 부분적으로 나타내는 다른 계수들 세트이다.

도5는 본 발명의 바람직한 실시예를 예시한다. 도5에서, 이용가능한 신호 프레임들(595)이 프레임 버퍼(600) 내에 저장되며, 여기서 상기 이용가능한 신호 프레임들은 은닉 프레임들 또는 전술한 유형의 신호 프레임들의 조합을 생성하도록 상기 또는 다른 방법들의 이전 동작으로부터 수신되어 디코딩 또는 트랜스코딩된 신호 프레임들 또는 은닉 프레임들일 수 있다. 상기 프레임 버퍼 내의 신호는 인덱스 패턴 생성기(660)에 의해 분석된다. 상기 인덱스 패턴 생성기는 신호 피치(596) 및 보이싱(597)의 개산들을 유리하게 사용할 수 있다. 전체 시스템 설계에 의존하여, 이들 개산들은 인코딩, 디코딩, 또는 트랜스코딩 프로세스와 같은 다른 프로세스들로부터의 입력으로 이용가능할 수 있거나, 또는 이들은 신호 분석을 위한 기술(art) 방법들의 상태를 바람직하게 사용하는 다른 수단들에 의해 연산된다. 더욱이, 상기 인덱스 패턴 생성기는 생성할 은닉 신호 프레임들의 수(598)와 그리고 상기 은닉 프레임 또는 프레임들이 대체하는 프레임 버퍼 내의 특정 신호 프레임들의 시작 및 끝에 대한 포인터(pointer)들(599)을 입력으로 취한다. 예시로서, 이들 버퍼들은 프레임 버퍼의 끝을 지시하며, 이는 은닉 프레임 또는 프레임들이 프레임 버퍼 내에 저장된 신호를 따르는데 적당하게 만들어져야 함을 의미한다. 다른 예로서, 만약 이들 포인터들이 플임 버퍼 내의 연속적인 프레임들의 비지않은(non-empty) 부분집합을 지시하며, 이는 상기 은닉 프레임 또는 프레임들이 소리 신호를 나타내는 또는 부분적으로 나타내는 프레임 시퀀스에서 이들 프레임들을 대체하도록 만들어져야 함을 의미한다.

이를 더 설명하기 위해, 프레임 버퍼(600)가 신호 프레임들(A, B, C, D, E)을 포함하고, 그리고 은닉 프레임들의 수가 2라고 가정하자. 그러면, 만약 대체할 프레임들에 대한 상기 포인터들(599)이 상기 프레임 버퍼의 끝을 지시한다면, 이는 2개의 은닉 신호 프레임들이 신호 프레임(E) 후에 연달아 뒤따라야 함을 의미한다. 반대로, 만약 포인터들(599)이 신호 프레임들(B, C, D)를 지시한다면, 상기 두 개의 은닉 프레임들은 신호 프레임들(B, C, D)을 대체하고 그리고 신호 프레임(A) 후에 연달아 뒤따라야 하고, 그리고 신호 프레임(E)이 연달아 뒤따르도록 만들어져야 함을 의미한다.

은닉 프레임들의 수(598) 및 상기 은닉 프레임들이 궁극적으로 대체해야 하는 프레임들의 부분집합을 결정하는 방법들, 즉, 포인터들(599),에 관하여, 상기 기술 방법들의 상태가 바람직하게 사용되어야 한다. 따라서, 데이터(596, 597, 598 및 599)는 신호 프레임들(595)과 함께 본 발명의 방법 디바이스 및 장치로의 입력들을 구성한다.

특정 전체 시스템 디자인에서, 신호 프레임의 길이 또는 치수는 유리하게 은닉 유닛의 실행 동안에 일정하게 유지된다. 특히, 은닉의 결과가 기설정된 길이의 시간 간격 내에 소리 신호를 나타내는 패킷들로 놓여야 하는 중계기 시스템에 상기 은닉 유닛이 집적되는 경우가 전형적이며, 여기서 상기 기설정된 길이는 어디에서라도 결정된다. 예로서, 상기 기설정된 길이는 VOIP에서 콜 설정 동안에 프로토콜 협상 중에 결정될 수 있고, 그리고 예컨대, 네트워크 폭주 제어 메커니즘들에 응답하여 대화(conversation) 중에 변경될 수 있다. 이후에 명확해지는 바와 같이, 본 발명의 일부 실시예들은 유리한 방법으로 신호 프레임의 기설정된 길이를 갖는 작업의 요구사항을 충족한다. 그러나, 이와 같은 기술혁신은 이들 시스템 요구들에 제한되지 않으며; 본 발명의 다른 실시예들은 정수가 아닌 프레임 수인 은닉들과 시간변화 길이를 갖는 은닉 프레임들로 작업할 수 있으며, 그리고 여기서 이들 길이들은, 가능하게는 다른 요인들과 결합한, 프레임 버퍼 내의 특정 콘텐트의 함수들일 수 있다.

본 발명의 실시예들은 프레임 버퍼로부터의 신호(605)에 대해 작용하는 스무딩 및 이퀄라이제이션 작업(610)을 유리하게 사용할 수 있다. 상기 스무딩 및 이퀄라이제이션은 신호(615)를 생성하며, 여기서 상기 은닉 프레임 또는 프레임들에 대해 시간에 있어 앞선 프레임들은 상기 은닉 프레임 또는 프레임들이 대체하는 신호 프레임 또는 프레임들, 또는 상기 프레임 바로 이전의 프레임과 증대된 유사성을 갖는다. 대안적으로, 만약 은닉 프레임 또는 프레임들이 대체없이 기존의 프레임들에 이어서 삽입된다면, 상기 유사성은 상기 은닉 프레임 또는 프레임들의 의도된 위치 바로 이전의 프레임 또는 프레임들과 있다. 추후의 참조를 위해, 이 두 경우 모두를 유사성으로 지칭한다. 유사성은 청취자(human listener)에 의해 해석된다. 상기 스무딩 및 이퀄라이제이션은 개선된 유사성을 갖는 신호를 획득하며, 동시에 상기 신호(615)의 자연적으로 사운딩(sounding)하는 진화를 보존한다. 상기 수무딩 및 이퀄라이제이션(610)에 의해 유리하게 수행되는 유사성 증대 작업들의 예는 에너지 포락선(envelope), 피치 컨투어(pitch contour), 보이싱 등급(grade), 보이싱 컷오프, 및 스펙트럼 포락선, 및 다른 인식되는 중요한 파라미터들과 같은 파라미터들에서 개선된 스무스니스 및 유사성을 포함한다.

이들 파라미터들 각각에 관해서, 스무싱되고 이퀄라이제이션될 프레임들 내의 상기 파라미터의 진화에서 갑작스러운 과도 현상은 필터링되고 이들 프레임들에서 상기 파라미터의 평균 레벨은 스무딩하게 수정되어 상기 정의된 유사성의 의미에서 더욱 유사성을 띄게된다. 유리하게, 유사성은 상기 신호의 자연적으로 사운딩하는 진화를 여전히 보존할 정도로만 도입된다. 상기 인덱스 패턴 생성기(660)의 제어하에서, 상기 스무딩 및 이퀄라이제이션은 과도현상 및 불연속성을 유리하게 완화할 수 있으며, 그렇지 않으면 상기 과도현상 및 불연속성을 후속하는 인덱싱 및 보간 작업(620)에서 일어날 것이다. 더욱이, 왜곡을 최소화하는 방식으로 상기 피치 컨투어의 스무딩 및 이퀄라이제이션은 유리하게 상기 인덱스 패턴 생성기(660)에 의해 제어될 수 있으며, 그렇지 않으면 상기 왜곡은 결국 상기 위상 필터(650)에 의해 은닉 프레임들로 추후에 도입된다. 상기 스무딩 및 이퀄라이제이션 작업은 유리하게 신호 또는 파라미터 대체, 믹싱, 보간 및/또는 상기 프레임 버 퍼(600) 내에 시간에 있어 이전에 발견되는 신호 프레임들(또는 이로부터 유도되는 파라미터들)과의 병합을 사용한다. 상기 스무딩 및 이퀄라이제이션 작업(610)은 본 발명의 일반적인 범위로부터 벗어남이 없이 상기 시스템으로부터 제거될 수 있다. 이러한 경우에, 상기 신호(615)는 상기 신호(605)를 이큐에이트(equate)하며, 상기 인덱스 패턴 생성기(660)의 상기 신호 입력(656) 및 제어 출력(665)은 이러한 경우에 상기 시스템 설계로부터 제거될 수 있다.

상기 인덱싱 및 보간 작업(620)은 가능하게 스무딩 및 이퀄라이제이션된 신호(615) 및 인덱스 패턴(666)을 입력으로서 취한다. 더욱이, 본 발명의 일부 유리한 실시예들에서, 상기 인덱싱 및 보간 작업은 매칭 품질 표시자(667)를 입력으로서 취한다. 상기 매칭 품질 표시자(matching quality indicator)는 시간 순간(time instant) 당 스칼라 값이거나 시간 및 주파수 양자 모두의 함수일 수 있다. 상기 매칭 품질 표시자의 목적은 본 명세서 내에서 추후에 명백해질 것이다. 상기 인덱스 패턴(666)은 인덱싱 및 보간 기능의 작업을 파라미터로 나타낸다.

도5A는 하나 이상의 은닉 프레임들의 합성에서 시간에 있어 점진적으로 뒤로가는 버퍼링된 샘플들(BS1, BS2, BS3, BS4)에서 부분열들을 인덱스 패턴이 어떻게 인덱싱하는지를 예시한다. 이러한 예시에서, 은닉 프레임들(CF1, CF2, CF3)에서 연속적인 부분열들(CS1, CS2, CS3, CS4, CS5, CS6, CS7)은 프레임들(BF1, BF2)에서 샘플들의 버퍼링된 부분열들(BS1, BS2, BS3, 및 BS4)에 근거한다. 볼 수 있는 바와 같이, 상기 은닉 부분열들(CS1-CS7)은 시간에 있어 점진적으로 뒤로향하고 그 다음 점진적으로 전진하는 위치 표시자와 함께 상기 버퍼링된 부분열들(BS1-BS4)로부터 인덱싱되며, 여기서 CS1은 BS4에 근거하는 등의 의미를 갖는, 기능적 표시 CS1(BS4), CS2(BS3), CS3(BS2)에 의해 표현된다. 따라서, 도5A는 시간에 있어 재배열된 연속적인 버퍼링된 부분열들에 근거하여, 은닉 프레임들에서 연속적인 부분열들이 어떻게 서로 따르는지를 도시하는 예로서 기능한다. 도시된 바와 같이, 상기 제1의 네 개의 은닉 부분열들(CS1(BS4), CS2(BS3), CS3(BS2) 및 CS4(BS1))은 버퍼링된 샘플들(BS1, BS2, BS3, BS4)의 마지막 네 개의 부분열들에 근거하여, 역의 시간 순서이지만 연속적인 순서로 선택되며, 따라서 상기 마지막 버퍼링된 부분열(BS1)부터 시작한다. 역의 시간 순서에서 제1의 네 개의 부분열들 후에, 시간 순서로 연속적인 버퍼링된 부분열들, 즉 BS2, BS3 및 BS4에 각각 근거하는 세 개의 부분열들(CS5, CS6, CS7)이 뒤따른다. 상기 바람직한 인덱스 패턴은 인덱스 패턴 생성기(660)의 결과로서 상기 블록으로의 입력들(656, 596, 597, 598, 및 599)에 따라 크게 변할 수 있다. 도5A의 기호를 따르는, 도5B는 어떻게 은닉 부분열들(CS1-Cs11)이 시간 재배열에서 버퍼링된 부분열들(BS1-BS4)에 근거할 수 있는지에 관한 다른 예를 도시한다. 도시된 바와 같이, 이후의 은닉 부분열들은 시간에 있어 이전의 버퍼링된 부분열들에 점진적으로 근거하며, 즉 상기 제1 두 개의 연속적인 은닉 부분열들(CS1 및 CS2)은 역시간 순서로 마지막 두 개의 버퍼링된 부분열들(BS3 및BS4)에 근거하며, 반면에 이후의 은닉 부분열, 예컨대 CS1은 BS1, 즉 CS1 및CS2를 연산하는데 사용되는 것보다 시간에 있어 더 앞선 버퍼링된 부분열으르 근거로 한다. 따라서, 도5B는 연속적인 은닉 부분열들이 인덱싱이 시간에 있어 뒤로향하여 전개하도록 시간에 있어 뒤를향해 및 앞을 향해 인덱싱된 버퍼링된 부분열 들에 근거한다.

본 발명의 유리한 실시예들에서, 시간에 있어 후방으로의 이러한 점진적인 전개는 본 명세서의 목적을 위해 "스텝백"으로 지칭하는 것의시퀀스 및 본 명세서의 목적을 위해 판독 길이로 지칭되는 시퀀스로 형식화된다. 인덱스 패턴의 이러한 포맷이 단순한 실시예들에서, 신호 샘플들에 대한 표시자, 또는 이를 나타내는 파라미터들 또는 계수들은 샘플들의 양, 또는 이를 나타내는 파라미터들 또는 계수들이 은닉 프레임 내에 삽입된 후에 제1 스텝백에 동일한 양만큼 후방으로 이동되며, 여기서 상기 양은 제1 판독 길이와 동일하다. 이후에, 상기 표시자는 제2 스텝백과 동일한 양만큼 후방으로 이동되고 그리고 제2 판독 길이와 동일한 샘플들, 또는 이를 나타내는 파라미터들 또는 계수들의 양이 판독된다. 그 이후도 그러하다.

도5C는 인덱싱된 샘플들의 제1 이뉴머레이션(enumeration)을 재배열하는 것에 의한 상기 프로세스의 예를 도시한다. 상기 제1 이뉴머레이션은 신호 시간 축상에 리스트되고 상기 도5C의 은닉 시간 축상의 이뉴머레이션 리스트는 은닉 프레임에 위치되는 것과 같이 본래 샘플들의 재배열에 대응한다. 이러한 도시된 예시를 위해서, 상기 제1, 제2 및 제3 스텝백들은 임의적으로 각각 5, 6, 5로 선택되었고, 그리고 상기 제1, 제2, 및 제3 판독 길이들도 유사하게 임의적으로 각각 3, 4, 3으로 선택되었다. 이러한 예에서, 시간 인덱스 집합들 {6, 7, 8}, {3, 4, 5, 6}, 및 {2, 3, 4}를 각각 갖는 부분열들은 시간에 있어 점진적으로 후방으로 전개되는 부분열들이다. 상기 스텝백들 및 판독 길이들의 시퀀스들은 여기서 예시의 목적으로만 단순히 선택된다. 예로서 16kHz로 샘플링된 음성 잔존 샘플들에서, 스텝백들의 전형적인 값들은 40 내지 240의 범위에 있으나 이 범위로 제한되는 것은 아니며, 상기 판독 길이들에 대한 전형적인 값들은 5 내지 1000 샘플들의 범위를 가지지만 역시 이 범위에 제한되는 것은 아니다. 이러한 포맷의 더욱 진보된 실시예들에서, 순방향 시퀀스(예컨대, 본래 시간 또는 인덱싱된 시간에 있어 이전의 부분열)로부터 또 다른 순방향 시퀀스로의 천이(transition)는, 시간에 있어 또 다시 일 스텝백, 점진적 쉬프팅 보간함으로써 점진적으로 만들어진다.

도6은 일 스텝백 및 대응하는 판독길이 및 매칭 품질 표시자에 응답하여 인덱싱 및 보간 기능의 단순한 실시예의 동작을 예시한다. 예시의 목적으로, 여기서 신호 프레임들은 시간 도메인 오디오 샘플들로 구성된다. 상기 점진적 쉬프팅 보간은 본 명세서에서 사용되는 "샘플"의 일반적인 정의에 적용되며, 즉 유사하게 및 이에 의해 직접적인 방식으로 시간 도메인 오디오 샘플들을 나타내는 스칼라 또는 벡터 값을 갖는 계수들 또는 파라미터들을 포함한다. 이 도면에서, 700은 신호(615)의 세그멘트를 예시한다. 상기 표시자(705)는 인덱싱 및 보간 출력 신호(625)에서 최종적으로 생성된 샘플의 샘플 시간 순간을 따르는 샘플 시간 순간이다. 상기 시간 간격(750)은 판독 길이와 동등한 길이를 가진다. 상기 시간 간격(770)은 상기 판독 길이와 동일한 길이를 가진다. 상기 시간 간격(760)은 또한 상기 스텝백과 동일한 길이를 가진다. 700에서 시간(705)으로부터 시작하는 시간 샘플들 및 시간에 있어 순방향의 판독 길이는 윈도윙 펑션(720)에 의해 1대1 멀티플(multiple)된다. 또한 700에서 위치(706) 전 스텝백 이후 위치 하나의 샘플에서 시작하는 신호 샘플들 및 판독 길이는 윈도윈 펑션(710)으로 1대1 멀티플된 것에 앞서 샘플링한다. 윈도우(710) 및 윈도우(720)과 멀티플함으로부터의 상기 결과적인 샘플들은 730에서 1대1로 애드되어 샘플들(740)이 상기 인덱싱 및 보간 동작으로부터의 출력(625)을 위한 새로운 샘플들 군을 구성하도록 된다. 이러한 동작이 완료되면, 상기 표시자(705)는 상기 위치(706)로 이동한다.

본 발명의 단순한 실시예에서, 상기 윈도우 펑션들(710 및 720)은 판독 길이(750)의 단순한 함수들이다. 이러한 단순한 함수는 각각 판독 길이의 두 배의 길이의 해닝 윈도우(Hanning window)의 제1 및 제2 반(half)으로서 상기 윈도우(710)와 윈도우(720)를 선택하도록 한다. 광범위한 함수들이 여기서 선택될 수 있지만, 이러한 함수들이 본 발명의 환경에서 의미있게 되기 위해서는 이드은 750에 의해 표시된 세그먼트에서의 샘플들과 770에 의해 표시된 샘플들 사이에서 가중된 보간을 달성해야만 함이 관찰되며, 여기서 반드시 단조적일 필요는 없지만 점진적으로 750에 의해 표시된 세그먼트 상에서 높은 가중치로부터 770에 의해 표시된 세그먼트 상에서 높은 가중치로 이동된다.

본 발명의 다른 실시예들에서, 상기 윈도우 함수들(710 및 720)은 매칭 품질 표시자의 함수들이다. 이러한 함수의 단순한 예는 시간 간격들(750 및 770)에 의해 표시된 신호(700)의 세크멘트들 상에서 정규화(normalized)된 코릴레이션 상에서 임계치(threshold)에 따라, 보간 동작이 선택되어 진폭(amplitude) 또는 파워(power)에서 단일하게 합산된다. 이러한 함수의 다른 예는 크기 또는 파워를 하나로 합산하는 강제를 회피하며, 대신에 윈도우 가중치를 매칭 측정만의 함수로서 최적화한다. 이 방법의 추가의 세부사항은 표준화된 코릴레이션의 실제 값을 취하 고, 예컨대 전형적인 선형 개산 방법들을 사용하여 이에 응답하여 보간 동작을 최적화한다. 그러나, 바람직한 방법들의 예들은 이하에서 설명된다. 이들 예들에서, 임계치, 정규화된 코릴레이션의 실제값 각각은 매칭 품질 표시자(667)에 의해 운반되는 유리한 정보의 예들을 제공한다. 이하에서 설명되는 바람직한 실시예에 따르면, 보간 동작은 서로 다른 주파수에서 서로 다른 가중치들을 구현하도록 만들어질 수 있다. 이러한 경우에, 매칭 품질 표시자(667)는 매칭의 측정치들을 주파수의 함수로서 운반할 수 있다. 유리한 실시예에서, 주파수의 함수로서의 이러한 가중치는 상기 매칭 기준을 최대화하도록 최적화될 수 있는 다른 파라미터 필터 또는 탭 지연 라인(tapped delay line)으로서 구현된다.

도6에서, 신호(615)(그리고 이에 따라 신호 세그먼트(700))가 소리 신호의 시간 도메인 샘플들 또는 이로부터 유도되는 타임 도메인 신호를 나타내는 샘플들을 포함할 때 인덱싱 및 보간의 동작을 예시한다. 전술한 바와 같이, 프레임들(595) 및 이에 따라 신호들(605 및 615) 내의 샘플들은 각 샘플이 벡터(벡터 값 샘플들)가 되도록 유리하게 존재하며, 여기서 이러한 벡터는 소리 신호를 나타내는 또는 부분적으로 나타내는 계수들 또는 파라미터들을 포함한다. 이러한 계수들의 예들은 선스펙트럼 주파수, 주파수 도메인 계수들, 또는 진폭, 주파수 및 위상의 세트와 같은 사인형 신호 모델을 정의하는 계수들이다. 본 발명의 바람직한 실시예들의 상세한 설명에 근거하면, 벡터값 샘플들에 유리하게 적용되는 보간 동작의 설계는 기술분야의 당업자에게는 실행될 수 있으며, 나머지 상세한 설명은 이러한 벡터값 샘플들의 특정 경우들 각각에 대한 일반적인 문헌들에서 찾을 수 있다.

인덱싱 및 보간 동작이 스텝백보다 작은 판독 길이로 반복적으로 적용되면, 결과적으로 신호(625) 내의 샘플들은 신호(515)에서 점진적으로 더욱더 뒤에 있는 신호 샘플들을 나타내게될 것을 관찰하는 것이 본발명의 이해를 돕는데 유리하다. 상기 판독 길이가 스텝백보다 크게 되도록 상기 스텝백 및 또는 판독 길이가 변경되면, 이 프로세스는 변화될 것이고 상기 신호(625) 내의 샘플들은 이제 신호(615) 내에서 점진적으로 더욱더 앞에 있는 신호 샘플들을 나타낼 것이다. 스텝백들의 시퀀스 및 판독 길이 시퀀스의 유리한 선택에 의해, 풍부하고 자연스러운 변화를 갖는 긴 은닉 신호는 프레임 버퍼(600) 내에서 가장 늦게 수신된 신호 프레임으로부터 시간에 있어 앞선 샘플들을 호출함이 없이, 또는 프레임 버퍼(600) 내의 가장 늦게 수신된 프레임에서 가장 늦은 샘플보다 앞서서 위치될 수 있는 또 다른 기설정된 시간 순간의 앞의 샘플들을 호출함이 없이도 획득될 수 있다. 이에 의해 저지연 플레이아웃 또는 출력 버퍼 스케줄링을 갖는 시스템에서 지연 스파이크들의 은닉이 본 발명에서 가능해진다. 본 설명의 형식화에서, 본 발명의 단순한 실시예에서 요소로서 생각하기에 유용할 수 있는, 신호의 단순한 정밀한 후방 시간적 전개는 하나의 샘플의 판독 길이, 두 개의 샘플들의 스텝백, 그리고 0값의 단일 샘플로 구성된 윈도우(720) 및 1.0값의 단일 샘플로 구성된 윈도우(710)의 반복된 사용에 의해 구현된다.

인덱스 패턴 생성기(660)의 제1 목적은 인덱싱 및 보간 동작(620)의 행동을 제어하는 것이다. 바람직한 실시예들의 집합에서, 이러한 제어는 스텝백들의 시퀀스 및 판독 길이들의 시퀀스로 구성될 수 있는 인덱싱 패턴(666)에서 형식화된다. 이러한 제어는 매칭 품질 표시들의 시퀀스로 더욱 증대될 수 있으며, 이들 각각은 예컨대 주파수의 함수일 수 있다. 인덱스 패턴 생성기로부터 출력될 수 있는, 그리고 그 사용이 본 명세서에서 이후에 명확해질 추가적인 특징은 반복 카운트(668)이다. 반복 카운트의 의미는 은닉 프레임 또는 프레임들의 구성에서 시간에서 후방으로 전개가 개시되는 횟수이다. 상기 인덱스 패턴 생성기는 정보 기지(basis in information)로부터 이들 시퀀스들을 획득하며, 이는 스무딩 및 이퀄라이제이션 동작(610)으로부터 스무딩되고 이퀄라이제이션된 신호(656) 출력과, 피치 개산(596), 보이싱 개산(597), 생성할 은닉 프레임들의 수(598) 및 대체할 프레임들에 대한 표시자들(599)를 포함한다. 인덱스 패턴 생성기의 일 실시예에서, 이는 보이싱 표시자에 의존하여 서로 다른 모드들에 들어간다. 이러한 모드들은 이하에서 예시된다.

선형 예측정 여기 도메인에서 유리하게 사용되는 예로서, 만약 보이싱 표시자가 신호가 언보이싱(unvoiced)된 음성이라고 로버스트하게 표시하거나 또는 상기 신호에서 어떠한 활성 음성이 존재하지 않는다고 즉, 상기 신호가 백그라운드 노이즈로 구성된다고 표시한다면, 상기 인덱스 패턴 생성기는 신호 샘플들의 시간적 전개의 단순한 역전이 초기화되는 모드로 들어갈 수 있다. 이전에 설명한 바와 같이, 이는 예컨대, 2와 동일한 스텝백 값들의 시퀀스 및 1과 동일한 판독길이 값의 시퀀스를 제출함으로써 달성될 수 있다 (본 명세서는 인덱싱 및 보간 작업이 그 자체로 이들 값들을 식별하고 전술한 바와 같이 적당한 윈도우 펑션을 적용하는 디자인 선택에 근거한다). 일부 경우에, 이 시퀀스는 상기 신호의 역 시간 전개가 은닉 프레임 또는 프레임들에서 필요한 새로운 샘플들의 수의 절반에 대해서 구현될 때까지 계속되며, 상기 스텝백 시퀀스에서 상기 값들이 0으로 변한 후, 이에 의해 상기 신호의 순방향 시간 전개가 시작되고, 그리고 상기 표시자(706)가 상기 스텝백의 제1 적용에서 상기 표시자(705)에 대한 출발 지점에서 효과적으로 이전일때까지 계속된다. 그러나, 이 단순한 절차가 높은 품질 은닉 프레임들에 대해서 언제나 충분한 것은 아닐 것이다. 상기 인덱스 패턴 생성기의 중요한 업무는 적당한 정지 기준의 모니터링이다. 상기 예시에서, 상기 역방향 시간 전개는 상기 표시자(706)를 상기 신호 내의 위치 이전에 가져오며, 여기서 청취자에 의해 해석되는 바와 같이, 상기 소리는 시작점으로부터는 상당히 다르다. 이것이 일어나기 전에 상기 시간 전개는 변경되어야만 한다.

본 발명의 바람직한 실시예들은 측정치 세트에 근거한 정지 기준 세트를 적용할 수 있다. 이하에서는 이들 측정치들 및 정지 기준 중 일부를 에시한다. 만약 표시자(706)에서의 신호가 보이싱된다고 보이싱이 표시한다면, 언보이싱된것으로부터 시작하는 상기 예시에서, 시간 전개 방향은 유리하게 변경되고, 또한 만약 상기 표시자(706)의 주위의 영역에서 상기 신호 에너지가 상기 표시자(705)에 대한 출발 지점에서의 신호 에너지와 다르다면 (절대 또는 상대 임계치에 의해 결정되는 바와 같이), 상기 시간 전개 방향은 유리하게 변경될 수 있다. 제3 예시로서, 상기 표시자(705)에 대한 출발 지점 주변의 영역과 상기 표시자(706)의 현재 위치 사이의 스펙트럼 차이가 임계치를 초과하면 상기 시간 전개 방향은 변경되어야 한다.

모드의 제2 예시는 상기 신호가 언보이싱된것으로 또는 어떠한 활성 음성을 가지지 않는 것으로 로버스트하게 결정될 수 없을 때 발생된다. 이 모드에서, 상기 피치 개산(596)은 인덱스 패턴을 결정하기 위한 근본을 구성한다. 이를 하기 위한 일 절차는 시간에 있어 앞선 한 피치 사이클과 표시자(705)로부터의 신호와, 그리고 앞선 한 피치 사이클과 표시자(705) 보다 스텝백 빠른 지점으로부터의 신호 사이에 최대 정규화된 코릴레이션을 제공하도록 각 스텝백이 검색된다. 스텝백의 잠재적인 값들에 대한 검색은 유리하게 임의의 영역으로 속박된다. 이 영역은 이전에 발견된 스텝백 주변으로 플러스 마이너스 10퍼센틀 또는 이전에 어떠한 스텝백도 발견되지 않는다면 피치 래그(pitch lag)로 설정된다. 일단 상기 스텝백이 결정되었다면 판독 길이의 값은 시간 신호 전개가 시간에 있어 순방향 또는 역방향으로 전개하는지, 및 얼마나 빨리 이 전개가 일어나야 하는지를 결정할 것이다. 느린 전개는 스텝백의 상기 식별된 값에 가까운 판독 길이를 선택함으로써 획득된다. 빠른 전개는 역방향 및 순방향 전개 각각의 경우에 스텝백보다 훨씬 작거나 훨씬 큰 판독 길이를 선택함으로써 획득된다. 인덱스 패턴 생성기의 목적은 청취자에 의해 이해되는 바와 같은 소리 품질을 최적화하도록 판독 길이를 선택하는 것이다. 충분하게 주기적이지 않은 신호들과 같은 일부 신호들에서 상기 스텝백에 너무 가까운 판독 길이를 선택하는 것은 실소리들과 같은 귀찮은 인공물들이 인식되도록 할 수 있다. 상기 스텝백으로부터 너무 먼 판독 길이를 선택하는 것은 은닉 프레임 또는 프레임들의 시간 전개 동안을 통해 상기 프레임 버퍼 내의 보다 큰 시간 간격이 궁극적으로 지나가는 것을 함축하며, 대안적으로 은닉 프레임 또는 프레임들의 충분한 양의 샘플들이 생성되기 전에 시간 전개의 방향이 더욱더 많이 변경되어야 함을 함축한다.

충분히 정상상태가 아닌 신호들(대안적으로 충분히 스무딩 또는 이퀄라이제이션되지 않은 신호들)과 같은 일부 신호들에서 제1 경우는 은닉 프레임 또는 프레임들의 소리에서 스터터링(stuttering)과 특정 유사점을 갖는 일종의 지각되는 귀찮은 인공물들을 야기한다. 제2 경우에 실소리같은 인공물들이 발생한다. 본 발명의 유리한 실시예들의 특징은 판독 길이가 스텝백 및 정규화된 코릴레이션의 함수로서 결정될 수 있다는 것이며, 이는 최적의 스텝백에 대한 검색에서 최적화된다. 심호 프레임들이 16KHz에서 샘플링된 선형 예측정 여기 신호의 20ms를 포함할 때 그리고 음성 신호들에 대해서 작업하는 본 발명의 실시예들에서 이 함수의 단순한, 하지만 유리한, 선택은 다음 함수에 의해 예시된다

판독길이=[(0.2 + 정규화된코릴레이션/3)*스텝백]

여기서, 사각 괄호 []는 가장 근접한 정수로의 반올림을 표시하도록 사용되며, 여기서 판독길이(ReadLength), 정규화된코릴레이션(Normalized Correlation), 및 스텝백(StepBack)은 최적의 스텝백에 대해서 획득되는 판독길이와 정규화된 코릴레이션 및 대응하는 스텝백을 각각 나타내도록 사용된다. 상기 함수는 본 발명의 몇몇 실시예들에서 유리한 하나의 선택을 전달하도록 예시로서만 포함된다. 이러한 판독 길이를 획득하기 위해 임의의 함수적 관계를 포함하는 판독 길이의 모든 선택이 본 발명의 사상을 벗어남이 없이 가능하다. 특히, 상기 판독 길이를 선택하는 유리한 방법들은 간헐적인 은닉 프레임(625)에서 스터터링-유사 및 실소리-유사 인공물들의 공동 최소화에 도달하도록 하기 위한 것과 같이 스무딩 및 이퀄라이제이션 동작(610)을 파라미터로 나타내도록 제어(665)를 사용하는 것을 포함한다. 이는 왜 인덱스 패턴 생성기(660)가 스무딩 및 이퀄라이제이션 동작으로부터의 출력(615) 대신에 입력으로서 상기 간헐적인 신호(656)를 취하는지를 설명하며; 상기 신호(656)는 제어(665) 하에서 상기 최종 신호(615)의 잠재적인 버젼들을 나타내며, 그리고 상기 인덱스 패턴 생성기로 하여금 반복 수단에 의해 상기 최적화 업무를 달성하도록 한다. 상기 언보이싱된 및 비활성화 음성 모드에서의 경우와 같이, 이 모드에서도 정지 기준이 필수적이다. 상기 전술한 모드에서 나열된 정지 기준의 모든 예시들은 이 모드에도 또한 적용한다. 추가적으로, 이 모드에서 피치 및 정규화된 코릴레이션에 대한 측정으로부터의 정지 기준은 유리하게 본 발명의 실시예들의 일부가될 수 있다.

도7는 정지 기준의 조합에 대한 유리한 결정 로직을 예시로서 도시한다. 도7에서, 참조 부호들은 다음을 나타낸다:

800: 신호가 높은 코릴레이션 유형인지, 낮은 코릴레이션 유형인자, 또는 이들 중 어느 것도 아닌지를 식별한다. 초기 에너지 레벨을 결정한다

801: 후속 스텝백 및 정규화된 코릴레이션 그리고 판독 길이를 결정한다

802: 신호가 낮은 코릴레이션 유형으로 들어갔는지를 결정한다

803: 신호가 높은 코릴레이션 유형으로 들어갔는지를 결정한다

804: 신호가 높은 코릴레이션 유형인가?

805: 신호가 낮은 코릴레이션 유형인가?

806: 에너지가 상대적인 최소 임계치 이하인가 또는 상대적인 최대 임계치 이상인가?

807: 정규화된 코릴레이션이 높은 코릴레이션 유형에 대한 임계치 이하인가?

808: 정규화된 코릴레이션이 낮은 코릴레이션 유형에 대한 임계치 이상인가?

809: 충분한 샘플들이 생성되었는가?

16kHz에서 샘플링된 음성의 선형 예측적 여기 도메인에서 동작하는 경우이다. 도7에 기재된 임계치들은 유리하게 다음과 같이 선택될 수 있다: 정규화된 코릴레이션이 0.8보다 커지면 높은 코릴레이션 유형에 들어간다; 높은 코릴레이션 유형에 남게하는 임계치는 정규화된 코릴레이션에서 0.5로 설정될 수 있다; 정규화된 코릴레이션이 0.5보다 낮아지게되면 낮은 코릴레이션 유형에 들어간다; 낮은 코릴레이션 유형에 남아있게 하는 임계치는 정규화된 코릴레이션에서 0.8로 설정될 수 있다;최소 상대 에너지는 0.3으로 설정될 수 있다; 그리고 최대 상대 에너지는 3.0으로 설정될 수 있다. 더욱이, 본 발명의 사상 및 범위를 벗어남이 없이 다른 로직들이 사용될 수 있고 그리고 다른 정지 기준이 본 발명의 환경에서 사용될 수 있다.

정지 기준의 적용은 충분한 샘플들이 생성되기 전까지 또는 정지 기준이 충족되기 전까지 시간에 있어 후방으로 그리고 그 다음 다시 전방으로의 단일 전개가 은닉 프레임들에 대해 필요한 수의 샘플들을 제공하도록 보장되지 않는 것을 의미한다. 따라서, 시간에 있어 후방 및 전방의 더 많은 전개들이 인덱스 패턴 생성기에 의해 적용될 수 있다. 그러나, 너무 많은 후방 및 전방 전개들은 몇몇 신호들에서 신소리 같은 인공물들을 생성할 것이다. 따라서, 본 발명의 바람직한 실시예들은 정지 기준, 상기 판독 길이들의 연산에 적용되는 함수, 스무딩 및 이퀄라이제이 션 제어(665), 그리고 전방 및 후방 전개들의 수, 즉 반복 카운트(668)를 공동으로 최적화할 수 있고, 그리고 대체(599)할 프레임들에 대한 지시자들에 의해 가능하게 된다면 또한 시간에 있어 각각의 새로운 후방 전개들이 초기화 되기 전에 시간에 있어 전방으로 전개할 샘플들의 수를 최적화할 수 있다. 이 경우에, 상기 스무딩 및 이퀄라이제이션 동작은 유리하게 제어되어 상기 신호의 피치 컨투어를 가볍게 수정할 수 있다. 더욱이, 공동 최적화는 위상 필터(650)의 동작을 고려할 수 있고, 그리고 피치 컨투어가 다소 변경되도록 하여 인덱스 패턴이 전술한 다른 파라미터들과 공동으로 위상 필터에 유도되는 왜곡이 최소화된다. 본 발명의 바람직한 실시예들의 설명에 근거하며, 기술분야의 당업자는 다양한 일반적인 최적화 툴들이 이 업무에 적용될 수 있음을 이해할 것이며, 이러한 최적화 툴들은 반복적 최적화(Iterative Optimazation), 마코브 결정 프로세스(Markov decision process), 비터비 방법들(Viterbi methods) 및 다른 것들을 포함할 수 있다. 이들 모두는 본 발명의 범위를 벗어나지 않는 범위 내에서 이 업무에 적용된다.

도8은 단순하지만, 효율적인 이들 파라미터들의 최적화를 달성하기 위한 반복적인 절차의 일 예를 플로우 그래프에 의해 예시한다. 도8에서 참조 부호들은 다음을 나타낸다:

820: 스무딩 및 이퀄라이제이션(665)에 대한 제어를 초기화한다

821: 새로운 스무딩 신호(656)를 획득한다

822: 정지 기준을 초기화한다

823: 허용된 반복 횟수를 초기화한다

824: 표시자(599)에 의해 표시된 이용가능한 프레임들에 대해 균일하게 분포되는 역방향 및 순방향 전개들 또는 이용가능한 프레임들의 끝에 대해 표시한다면 순방향 전개에 이어 직접 뒤따르는 역방향 전개들의 시퀀스에 대한 인덱스 패턴을 식별한다.

825: 은닉 프레임들(598)의 수에 대한 충분한 양의 샘플들이 생성되었는가?

826: 최대 반복 횟수에 도달했는가?

827: 허용된 반복 횟수를 증가시킨다

828: 정지 기준에 대한 가장 느슨한 임계치에 도달했는가?

829: 정지 기준에 대한 임계치들을 느슨하게 한다

830: 스무딩 및 이퀄라이제이션의 영향력을 증대시키도록 제어를 변경한다

이전의 시간에 있어 역방향 및 순방향 전개 또는 전개들에서 충분한 신호가 합성되지 않은 경우에, 시간에 있어 한번의 역방향 및 순방향 전개 그리고 후속하는 역방향 및 순방향 전개는 유리하게 다를 수 있다. 예로서, 스텝백들, 판독 길이들, 및 보간 함수들의 시퀀스들, 그리고 시간에 있어 역방향 및 순방향 전개 후에 종단 위치 표시자(end location pointer)는 그렇지 않으면 유사한 인덱스 패턴들의 반복으로부터 야기되는 주기적인 인공물들을 최소화하도록 고안되어야만 한다. 예시로서 16kHz에서 보이싱된 음성 잔존 도메인 샘플들에서, 대략적으로 320 샘플들을 생성하는 시간에 있어 한번의 역방향 및 순방향 전개는 시간에 있어 이전의 역방향 및 순방향 전개 보다 신호에 있어 더 앞선 100 샘플들의 끝에 있을 수 있다.

지금까지 개시된 실시예들은 종래 기술 방법들로부터 공지된 인공적으로 소 리나는 실소리들의 문제점을 효율적으로 완화하며, 동시에 갑작스런 지연 지터 스파이크 및 갑작스럽게 일어나는 반복되는 패킷 손실들이 효율적으로 은닉되도록 한다. 그러나, 예컨대, 일부 무선 시스템들, 유선 애드혹 네트워크, 그리고 최선 네트워크들 및 다른 전송 시나리오에서 조우할 수 있는 반대의 네트워크 환경에서도, 본 방법은 은닉 프레임들에서 미미한 음색 성분들을 일부 경우에 도입할 수 있다. 사소한 노이즈 혼합 동작(630)과 적당한 감쇄 필터(640)는 따라서 본 발명의 일부 실시예들에서 적용될 수 있다. 노이즈 혼합 및 감쇄의 일반적인 기술은 기술분야의 당업자에게 공지되어 있다. 이는 노이즈 성분의 전력의 주파수 의존 시간 전개 및 감쇄 함수의 주파수 의존 시간 전개의 유리한 사용을 포함한다. 본 발명의 환경에서 노이즈 혼합 및 감쇄의 사용에 특정한 특징은 노이즈 혼합 및 감쇄 동작을 적응적으로 파라미터화하기 위해 인덱스 패턴(666), 매칭 품질 측정(667) 및/또는 반복 카운트(668)의 명시적인 사용이다. 특히, 대체되지 않은 신호 샘플들이 은닉 프레임 내에 위치하고 그리고 은닉 프레임의 샘플들이 보간 동작의 결과인 경우에 인덱싱 패턴은 인덱싱한다. 더욱이, 매칭 품질 측정과 결합하여 판독 길이에 상대적인 스텝백의 비율은 보간 동작으로부터 야기되는 지각되는 품질을 나타낸다. 따라서, 유리하게 주파수 차동 방식에서(frequency differentiated manner), 유리하게 본래 샘플들로 노이즈가 거의 혼합되지 않거나 전혀 혼합되지 않을 수 있으며, 보간 프로세스의 결과들인 샘플들로 더 많은 노이즈가 유리하게 혼합될 수 있고, 그리고 이들 샘플들에 혼합되는 노이즈의 양은 유리하게 매칭 품질 측정치의 함수일 수 있다. 더욱이, 상기 스텝백에 상대적인 상기 판독 길이의 값은 또한 일어날 주기성의 양을 나타내며, 상기 노이즈 혼합은 은닉 신호로 혼합되는 노이즈의 양의 결정에서ml이 측정치를 포함할 수 있다. 상기 동일한 원리가 감쇄에 적용되고; 적당한 감쇄가 유리하게 사용되지만, 본래 신호 샘플들을 나타내는 샘플들에 대해서 보다 적은 감쇄가 일어날 수 있고 그리고 보간 동작으로부터의 결과인 샘플들에 보다 많은 감쇄가 일어날 수 있다. 더욱이, 이들 샘플들에서 감쇄의 양은 매칭 품질 표시의 함수일 수 있고 그리고 유리하게 주파수 차동 방식에 있을 수 있다. 또 다시, 상기 스텝백에 상대적인 상기 판독 길이의 값은 일어날 수 있는 주기성의 양을 나타낼 수 있고; 상기 감쇄 동작은 유리하게 상기 감쇄의 디자인에서 이 측정치를 포함할 수 있다.

본 발명의 배경기술에서 언급된 바와 같이, 본 발명의 실시예들의 일부의 중요한 목적은 규칙적인 신호 프레임들의 길이와 동일한 기설정된 길이의 은닉 프레임들을 획득한다. 시스템 견지에서 이것이 필요하면, 이러한 관점에서의 수단은 유리하게 위상 필터(650)일 수 있다. 연산적으로 간단하고 대략적이지만 이 블록에 대해서 종종 충분한 동작은 은닉 프레임들을 따르는 프레임으로부터 샘플들의 마지막 부분집합을 갖는 은닉 프레임들의 수보다 몇배의 기설정된 프레임 길이보다 우수한 샘플들 사이에서 스무스 오버랩 애드를 달성하는 것이다. 격리된 것으로 예시된, 이 방법은 기술분야의 상태로부터 잘 알려진 것이고 국제 전기통신 연합 제안 ITU-T G.711 부록1에서 사용된다. 시스템 견지로부터 실용적인 경우, 단순한 오버랩 애드 절차는 이것이 오버랩 애드 영역에서 코릴레이션을 증대할때마다 후속 프레임들을 -1과 곱함으로서 개선될 수 있다. 그러나, 다른 방법들은 예컨대 보이싱 된 신호 프레임들 사이에서 변천에서 유리하게 사용되어 프레임 경계들에서 불연속성의 효과를 더욱 완화시킨다. 이러한 하나의 방법은 상기 은닉 프레임들의 재샘플링(resampling)이다. 격리된 방법으로서 예시된, 이는 기술분야의 상태에로부터 잘 알려진 것이다. 예컨대 IEEE 1989, 발렌주엘라(Valenzuela) 및 아니말루(Animalu)의 "A new voice-packet reconstruction technique"을 참조하자. 따라서, 프레임 경계들에서 불연속성을 완화시키는 것은 기술분야의 당업자에게 수행될 수 있다. 그러나, 본 명세서에서 개시된 본 발명의 바람직한 실시예들에서, 상기 재샘플링은 유리하게 최종 은닉 프레임을 따르는 프레임들로 계속될 수 있다. 재샘플링 기술의 결과인 시간 변화 및 이에 따른 주파수 쉬프트의 경사는 청취자에 의해 해석될 때 지각되지 않도록 될 수 있다. 더욱이, 재샘플링보다는, 프레임 경계에서 불연속성을 완화하도록 시변 전역 통과 필터(all pass filter)의 사용은 본 발명에서 개시된다. 이의 일 실시예는 다음의 필터 방정식에 의해 주어진다.

H_L(z,t)=(alpha_1(t) + alpha_2(t)*z^∧(-L))/(alpha_2(t)+alpha_1(t)*z^∧(-L))

상기 함수는 이하에서 설명된다. L 샘플들의 지연으로부터 0샘플들의 지연으로의 스윕(sweep)이 스윕 간격을 통해 필요하다고 가정하자, 이는 은닉 프레임들; 은닉 프레임들 전의 프레임들; 그리고 은닉 프레임들 후의 프레임들에서의 모두 또는 부분에서 샘플들의 모두 또는 일부를 포함할 수 있다. 스윕 간격의 시작에서, alpha-1(t)는 0으로 설정되고 그리고 alpha_2(t)는 1.0으로 설정되어 L 샘플들의 지연을 구현한다. t에 걸쳐 스윕이 시작되면, alpha_1(t)는 0.5를 향해 점진적으로 증가하고 그리고 alpha_2(t)는 0.5를 향해 점진적으로 증가해야 한다. 스윕 간격의 끝에서, alpha_1(t)는 alpha_2(t)와 균등하고, 필터 H_L(z,t)는 0의 지연을 도입한다. 반대로, 만약 0샘플들의 지연으로부터 L 샘플들의 지연으로의 스윕이 스윕 간격 동안에 필요하다면, 이는 은닉 프레임들의 전부 또는 일부에서; 은닉 프레임들 이전의 프레임들에서; 그리고 은닉 플임들 이후의 프레임들에서 샘플들이 전부 또는 일부를 포함할 수 있다. 스윕 간격의 시작에서, alpha-1(t)는 0.5로 설정되고 그리고 alpha_2(t)는 0.5로 설정되어 0 샘플들의 지연을 구현한다. t에 걸쳐 스윕이 시작되면, alpha_1(t)는 0을 향해 점진적으로 감소하고 그리고 alpha_2(t)는 1.0을 향해 점진적으로 증가해야 한다. 스윕 간격의 끝에서, alpha_1(t)는 0과 같고 alpha_2(t)는 1.0과 같고, 필터 H_L(z,t)는 L 샘플들의 지연을 도입한다.

전술한 필터링은 연산적으로 단순하지만, 비선형적 위상 응답을 갖는다. 지각적인 이유로, 이 비선형 위상은 그 이용을 상대적으로 작은 L로 제한한다. 유리하게 16kHz의 샘플 레이트의 음성에 대해 L<10이다. 초기 L의 보다 큰 값들에 대해서 필터링을 달성하는 한가지 바법은 필요한 총합 L 값으로 합산되는 보다 작은 L 값들에 대한 수개의 필터들을 초기화하는 것이며, 이들 수개의 필터들은 서로 다른 시간 순간들에서 개시되고 서로 다른 시간 간격들에 걸쳐 그들의 alpha의 범위를 스윕할 수 있다. 이 필터가 적용될 수 있는 L 범위를 증가시키는 다른 방법은 이하에서 개시된다. 전술한 것중 하나와 같과 기능적으로 동일한 필터링을 구현하는 구조는 신호를 L 폴리-페이즈들로 분할하며 이들 폴리-페이지들 각각에서 하기의 필터링을 수행한다

H_1(z,t)=(alpha_1(t) + alpha_2(t)*z^∧(-1))/(alpha_2(t)+alpha_1(t)*z^∧(-1))

본 발명에 의해, 폴리-페이즈 필터링은 업샘플링(up-sampling)을 사용함으로써 유리하게 구현된다. 이를 수행하는 한가지 방법은 팩터 K로 다운 샘플링하고 상기 폴리 페이즈들로부터 페이즈 수정된 신호의 재건을 하기 전에, 팩ㅌ터(factor) K로 각 폴리-페이즈를 업샘플링하고 각 업샘플링된 폴리 페이즈에서 필터링 H_1(z,t)를 K번 수행하는 것이다. 상기 팩터 K는 유리하게 K=2로 선택될 수 있다. 업샘플링 절차에 의해, 선형에 가까운 위상 응답이 획득된다. 이로써 청취자에 의해 해석되는 것으로서 지각된 품질이 개선된다.

다중 프레임들에 걸친 전술한 위상 조정은 은닉 프레임들이 수신된 프레임들의 시퀀스에서 손실 없이 삽입될 때 적용된다. 또한 후속 프레임들의 플레이백 지연을 줄이기 위해 프레임들이 신호 시퀀스의 밖으로 나가게 된때 이용가능하다. 그리고 이는 프레임들이 분실되고 0 또는 그 이상의 은닉 프레임들이 상기 분실 이전에 수신된 프레임들과 상기 분실 이후에 수신된 프레임들 사이에 삽입될 때 응용가능하다. 이들 경우에, 이러한 필터에 대한 입력 신호를 얻고 지연 L을 발견하는 유리한 방법은 다음과 같다:

1) 불연속 지점보다 시간에 있어 앞선 프레임들에 대해서, 여기에서 또는 다른 곳에서 개시된 은닉 방법이 계속되거나 개시된다.

2) 상기 불연속보다 시간에 있어 느린 프레임들에 대해서, 여기에서 또는 다른 곳에서 개시된 은닉 방법에 의해 수 L-테스트 샘플들이 프레임 시작에서 삽입되 지만, 시간 샘플들의 역의 인덱싱을 구비한다.

3) 정규화된 코릴레이션과 같은 매칭 측정이 헤딩 L-테스트 샘플들을 포함하는 2)로부터의 은닉 프레임 또는 프레임들과 1)로부터의 은닉 프레임 또는 프레임들 사이에 적용된다.

4) 상기 매칭 측정을 최대화하는 상기 L-테스트가 L로서 선택된다.

5) 2)로부터의 은닉 프레임 또는 프레임들과 3)으로부터의 프레임 또는 프레임들은 이제 가중 오버랩 애드 절차를 사용하여 애드된다. 상기 가중된 오버랩 애드가 기술분야의 당업자에게 알려진 것과 같이 수행될 수 있는 반면, 본 명세서에서 이후에 개시되는 바와같이 이는 바람직하게 최적화될 수 있다.

6) 결정된 값L로 초기화된, 상기 설명된 페이즈 피팅 필터링에 대한 입력으로서 상기 결과적인 프레임 또는 프레임들이 사용된다. 만약 L이 임계치보다 크다면, 수개의 필터들이 개시되며 이들의 L 값들은 결정된 값L로 합산되며, 서로 다른 시간 순간들 및 시간 간격들에서 계수 스윕된다.

유리하게, 8 또는 16kHz에서 샘플링된 음성 또는 잔류 음성에서, 상기 임계치는 5 내지 50의 범위 내의 값으로 선택될 수 있다. 더욱 유리하게, 보이싱된 음성 또는 잔류 보이싱된 음성에서, 상기 은닉 샘플들 L_테스트 및 후속하는 프레임으로의 이의 계속성은 상기 프레임의 제1 피치 기간의 샘플들을 순환 쉬프팅(circular shift)함으로써 획득된다. 이에 의해 완전한 피치 기간을 코릴레이팅하는, 정규화없는 코릴레이션 측정치는 유리하게 매칭 측정치로서 사용되어 바람직한 순환 쉬프트 L을 발견할 수 있다.

도9는 이러한 방법의 일 실시예를 예시한다. 이 도면에서, 위상 조정은 신호 프레임(900)과 후속하는 프레임들 사이에 스무스한 변천을 생성한다. 이는 다음과 같이 달성된다: 신호 프레임(900) 및 이전의 프레임들로부터, 은닉 신호(910)가 생성된다. 이 은닉 신호는 본 명세서에 개시된 방법들, 또는 기술분야의 상태로부터 잘 알려진 다른 방법들을 사용함으로써 생성될 수 있다. 상기 은닉 신호는 윈도우(920)와 멀티플되고 다른 윈도우(930)와 애드(925)되며, 이는 다음과 같이 생성된 신호와 멀티플된다: 본 명세서에 개시된 것과 같은 은닉 방법 또는 기술 상태로부터 잘 알려진 다른 방법들을 효과적으로 사용함으로써 후속하는 샘플들(950) 및 가능한 960으로부터 은닉 신호(940)가 생성되며, 그리고 후속하는 샘플들(950)과 연결된다. 은닉(940)에서 샘플들의 수는 은닉(910) 그리고 940 및 후속하는 샘플들(950)의 연결 사이에 매칭을 최대화하는 것과 같이 최적화된다.

유리하게, 정규화된 코릴레이션은 이 매칭의 측정치로서 사용될 수 있다. 또한, 연산의 복잡성을 줄이기 위해, 상기 매칭은 보이싱된 음성 또는 보이싱된 음성 잔류(voiced speech residual)를 위해 하나의 피치 피리어드를 포함하도록 제한될 수 있다. 이러한 경우에, 상기 은닉 샘플들(940)은 한 피치 주기의 순환 쉬프트의 제1 부분으로서 획득될 수 있으며, 그리고 상기 일 피치 주기에 걸친 코릴레이션 측정은 이제 정규화될 필요가 없다. 이에 의해 정규화 팩터의 계산을 위한 연산이 회피된다. 바람직한 실시예들의 상세한 서명에서 이전에 설명한 인덱싱 및 보간 동작을 위한 것과 같이, 상기 윈도우들은 다시 유리하게 매칭 품질 표시자의 함수일 수 있고 및/또는 주파수의 함수일 수 있고 그리고 유리하게 탭드 지연 라인으로서 구현될 수 있다. 상기 필터(970)의 동작은 다음과 같다. 상기 오버랩 애드 절차로부터 야기되는 처음 L 샘플들은 그의 출력으로 직접 통과되고, 그리고 상기 필터의 초기 상태를 설정하도록 사용된다. 이후 상기 필터 계수들은 전술한 바와 같이 초기화되고, 그리고 상기 필터가 샘플 L+1로부터 필터링하고 그리고 이들 계수들을 포워딩함에 따라 점진적으로 조정되는바, 예컨대 전술한 바와 같이 지연의 L 샘플들을 점진적으로 제거한다.

다시, 상기 전술한 절차에서, 전술한 바와 같이 매칭 기준을 최대화함에 따라 윈도우들의 가중치를 최적화하는 방법은 적용되고, 그리고 상기 윈도우의 생성은 주파수 의존 가중치들에 대해서 및 탭드 지연 라인들의 형테 또는 다른 파라미터 필터 형태들에서 매칭된 필터들에 대해서 기능한다. 유리한 실시에들에서, 상기 주파수 의존 필터 가중치의 시간적 전개는 3개의 오버랩 애드 시퀀스들의 시퀀스에 의해 획득되며, 첫번째는 이전의 프레임들로부터 은닉 프레임 또는 프레임들을 페이드 다운하고, 두번째는 역으로 인덱스된 시간에서 획득된 이후의 프레임들로부터 은닉 프레임들을 매칭하도록 필터로 이들의 필터링된 버젼을 페이드업하고 그 다음 이를 다시 페이드 다운하며, 세번째는 시간에 있어 이후의 프레임 또는 프레임들을 페이드업한다. 유리한 실시예들의 다른 집합에서, 주파수 의존 필터 가중치의 시간적 전개는 네 개의 오버랩 애드 시퀀스들의 시퀀스에 의해 획득되며, 첫번째는 이전의 프레임들로부터 은닉 프레임 또는 프레임들을 페이드다운하고, 두번째는 역으로 인덱스된 시간에서 획득된 보다 늦은 프레임들로부터 은닉 프레임들을 매칭하도록 필터로 이들의 필터링된 버젼을 페이드업하고 그 다음 이를 다시 페이드다운하 며, 세번째는 이러한 매칭을 더욱 개선하도록 시간에 있어 보다 늦은 프레임들의 필터링된 버젼을 페이드업하고 그리고 이를 다시 페이드다운하며, 그리고 마지막으로 네번째 윈도우는 시간에 있어 보다 늦은 프레임 또는 프레임들을 페이드업한다. 가중된 오버랩 애드 방법들의 또 다른 유리한 실시예들은 본 명세서에서 이후에 개시된다.

잔류 도메인 샘플들이 음성 신호를 나타내는 정보의 일부로서 사용되는 실시예들에서 스무딩 및 이퀄라이제이션 동작(610)에 관해서, 스무딩 및 이퀄라이제이션은 콤필터(comb filter) 또는 주기적 노치 필터(periodic notch filter)와 같은 피치 적응 필터를 사용하여 이러한 잔류 신호에 유리하게 적용될 수 있다. 더욱이, 필터링되지 않은 잔류를 위한 모델로서 장기간 코릴레이션 필터 플러스 노이즈와 함께 웨이너 또는 카르멘 필터링(Wiener or Kalman)이 유리하게 적용될 수 있다. 웨이너 또는 카르멘 필터를 적용하는 이러한 방식에서, 상기 모델에서 노이즈의 변화는 스무딩 및 이퀄라이제이션의 양을 조정하도록 적용된다. 이는 다소 반직관적인 사용인바, 이는 이 성분이 전형적으로 필요하지 않은 노이즈 성분의 존재를 모델링하기 위해 적용되는 웨이너 및 카르멘 필터링 이론에서 존재하기 때문이다. 본 발명에 적용될 때, 상기 목적은 스무딩 및 이퀄라이제이션의 레벨을 설정하기 위한 것이다. 피치 적응 콤 또는 노치 필터링 및 웨이너 또는 카르멘 유형의 필터링에 대한 대안물로서, 세번째 방법이 본 발명의 환경에서 잔류 신호들의 스무딩 및 이퀄라이제이션을 위해서 적용된다. 상기 세번째 방법에 의해, 예컨대 언보이싱된 음성에 대해 유리하게 적용되는 바와 같은 샘플 진폭들, 또는 예컨대 보이싱된 음성 에 대해 유리하게 적용되는 바와 같은 샘플들의 연속적인 벡터들은 더욱 유사하게 만들어진다. 이를 달성하기 위한 가능한 절차들은 보이싱된 음성의 벡터들에 대해서 및 언보이싱된 음성의 샘플들에 대해서 각각 이하에서 개관된다.

보이싱된 음성에 대해서, 음성 또는 잔류물의 연속적인 샘플들은 하나의 피치 피리어드(period)와 동일한 각 벡터에서 수많은 샘플들과 함께 벡터들로 집합된다. 설명의 편의를 위해 우리는 상기 벡터를 v(k)로 표시한다. 이제 상기 방법은 일부 수단에 의해 주변(surrounding) 벡터들 v(k-L1), v(k-L1+1),...,v(k-1) 및 v(k+1), v(k+2),...,v(k+L2)에서 발견될 수 없는 v(k)의 성분으로서 잔존 벡터 r(k)를 획득한다. 설명의 편의를 위해 주변 벡터들에서 발견되는 성분은 a(k)로 표시된다. 상기 잔존 벡터 r(k)는 가청도를 줄이기 위해 다소 선형적이거나 비선형적인 방식으로 후속적을 조작되며, 동시에 상기 조작된 r(k)의 버전에 성분 a(k)를 재삽입함으로써 획득되는, 결과적인 재구성된 벡터의 자연스러움을 보존한다. 이는 보이싱된 음성 또는 보이싱된 잔존 음성의 스무딩 및 이퀄라이제이션된 버젼을 야기한다. 편리함을 위해 매트릭스-벡터 표시와 그리고 예의 간단함을 위해 a(k)를 정의하도록 선형 결합 및 최소 제곱의 개념을 사용하는, 상기 전술한 원리의 간단한 실시예는 다음과 같이 주어진다. 이는 단지 스무딩 및 이퀄라이제이션에 대한 전술한 일반적인 원리의 단순한 실시예의 일 예로서 기능할 뿐이다.

이 예의 목적으로, 매트릭스 M(k)는 다음과 같이 정의된다.

M(k)=[v(k-L1)v(k-L1+1)...v(k-1)v(k+1)v(k+2)...v(k+L2)]

이로부터 a(k)는 예컨대, 주어진 M(k)에 대해서 v(k)의 최소제곱개산(least squares estimate)으로서 계산될 수 있다.

a(k)=M(k)inv(trans(M(k))M(k))v(k)

여기서 inv()는 역매트릭스(matrix inversion) 또는 유사 반전(pseudo inversion)을 나타내고 그리고 tran()는 전치 매트릭스(matrix transposition)을 나타낸다. 이제 상기 잔류 벡터 r(k)는 예컨대 감산에 의해 계산된다.

r(k)=v(k)-a(k)

r(k)를 조작하는 일 예는, 예컨대 역방향-순방향 은닉 절차의 시작 포인트와 가장 가까운 r(k) 벡터의 최대 진폭과 동일한 레벨로, 또는 벡터 하지만 상기 역방향-순방향 은닉 절차의 시작 포인트에 가장 가까운 벡터 내의 동일 위치에서 샘플의 진폭의 몇 팩터 배수와 동일한 레벨로 샘플의 최대 절대값을 제한하도록 상기 벡터에서 피크들을 제거하는 것이다. 상기 조작된 잔류 rm(k)는 후속적으로 a(k) 벡터와 결합되어 v(k)의 이퀄라이제이션된 버젼, 편의를 위해 여기서 ve(k)로 표시되는 것을 재구성한다. 이러한 결합은 일예로서 단순한 합산에 의해 달성될 수 있다.

ve(k)=alpha*rm(k) + a(k)

상기 예에서 파라미터 alpha는 1.0으로 설정될 수 있거나 유리하게 1.0보다 작게 선택될 수 있으며, alpha에 대한 하나의 유리한 선택은 0.8이다.

언보이싱된 음성에 대해서, 다른 스무딩 및 이퀄라이제이션 방법이 이점을 가지고 사용될 수 있다. 언보이싱된 음성에 대한 스무딩 및 이퀄라이제이션의 일 예는 로그 도메인에서 잔류 신호의 진폭들에 대한 다항식 피트(polynomial fit)를 계산한다. 예로서, 2차 다항식 및 log10 도메인이 사용될 수 있다. 로그 도메인으로부터 다항식 피트를 다시 선형 도메인으로 변환한 후에, 상기 피팅 곡선은 유리하게 역방향-순방향 절차에 대해 시작 포인트에 대응하는 지점에서 1.0으로 정규화된다. 후속적으로, 상기 피팅 곡선은 0.5로 하한이 정해지고, 여기서 이후에 상기 잔류 신호의 진폭들이 피팅 곡선으로 분할되어 상기 언보이싱된 잔류 신호의 진폭에서의 변화들을 스무스하게 이퀄라이제이션하도록 할 수 있다.

가중된 오버랩 애드 절차를 고려하여, 본 명세서에서 이전에 개시된 실시예들의 전부는 아니지만 일부, 즉 인덱싱 및 보간 동작(620) 및 위상 조정 필터링(970)을 위한 입력 신호를 개시하는 방법은 기술분야의 당업자에게 알려진 바대로 수행될 수 있다. 그러나, 가중된 오버랩 애드 절차들의 실시예들에서, 이하에서 개시된 방법들이 유리하게 사용된다.

매칭 품질 표시자에 응답하여 수정된 가중된 오버랩 애드 절차의 단순한 실시예에서, 제1 부분열과 멀티플된 제1 윈도우와 제2 부분열과 멀티플된 제2 윈도우를 고려하며, 그리고 이들 두 프러덕트(product)는 오버랩 애드 동작으로 돌입한다. 이제, 예시로서, 제1 윈도우는 단조적을 감소하는 함수와 같이 테이퍼 다운 윈도우(taper down window)가 되도록 하며, 그리고 제2 윈도우는 단조적으로 증가하는 함수와 같이 테이퍼 업 윈도우가 되도록 한다. 둘째로, 단순한 예시의 목적으로, 상기 제2 윈도우는 기본적인 윈도우 형상 타임즈 머 스칼라멀티플라이어(times a scalar multiplier)에 의해 파라미터화된다. target은 제1 부분열로; w_target은 상기 테이퍼 다운 윈도우로 샘플바이샘플 멀티플된 상기 제1 부분열로; w_regressor은 상기 테이퍼업 윈도우에 대한 상기 기본적인 윈도우 형상으로 샘플바이샘플 멀티플된 상기 제2 부분열로; 그리고 coef는 상기 스칼라 멀리플라이어로 정의된다. 이제 상기 제2 윈도우의 스칼라 멀티플라이어 성분은 타겟(target)과 상기 오버랩 애드 동작의 결과 사이에 합산된 제곱 오차(summed squared error)를 최소화하도록 최적화될 수 있다. 편의를 위해, 매트릭스-벡터 표시가 사용되며, 상기 문제는 타겟과 양(quantity) 사이에 합산된 제곱 차이를 최소화하도록 공식화될 수 있다.

w_target + w_regressor*coef

여기서 벡터들 T와 H는 다음과 같이 정의된다.

T=target-w_target

H=w_regressor

이를 최적화하는 해법은 다음과 같다.

coef=inv(trans(H)*H)*trans(H)*T

여기서, inv()는 역 매트릭스 또는 스칼라를 나타내며, trans()는 전치 매트릭tm또는 벡터를 나타내고, 그리고 *는 매트릭스 또는 벡터 곱셈을 나타낸다. 이제, 여기서 개시된 발명들에서 중심 요소로서, 이 방법은 윈도우의 실제 형상을 최적화되도록 확장될 수 있다. 이를 획득하는 방법은 다음과 같다. 형상들의 집합을 정의하여 이 집합에서 상기 필요한 윈도우가 요소들의 선형 결합으로서 획득되도록 한다. 이제 H의 각 컬럼(column)이 상기 제2 부분열로 샘플바이샘플 멀티플된 상기 집합으로부터 쉐이프(shape)이도록 H를 정의하며, 그리고 최적화된 윈도우 펑션에 서 이들 형상들의 공지되지 않은 가중치들을 포함하는 컬럼 벡터로서 coef를 정의한다. 이들 정의들을 가지고, 상기 문제를 형식화하는 상기 방정식들 및 그 솔루션은 이제 더욱 일반적인 윈도우 형상에 대해서 해결하기 위해서 적용된다. 자연적으로, 이제 최적화가 일어나도록 하는 것이 제1 윈도우가 되도록 제1 및 제2 윈도우의 역할은 상기에서 교환될 수 있다.

본 발명의 더욱 진보된 실시예는 공동으로 양 윈도우 형상들을 최적화한다. 이는 가능하다면 사기 제1 세트의 윈도우 쉐이프들과 균등하게, 그리고 상기 제1 세트의 윈도우 쉐이프들에서 윈도우 형상들 각각에서 샘플들의 역 시간 인덱싱으로 유리하게 선택된, 기본적인 제2 윈도우 쉐이프들을 정의함으로써 만들어진다. 이제 w_target은 매트릭스로 정의되며, 여기서 각 컬럼은 제1 부분열로 샘플바이샘플 멀티플된 제2 세트의 윈도우 형상들로부터 기본적인 윈도우 형상이며, 그리고 coef는 상기 제1 윈도우에 대한 제1 가중치와 상기 제2 윈도우에 대한 제2 가중치를 포함하는 컬럼 벡터로서 정의된다. 그 다음, 더욱 일반적인 문제가 타겟과 상기 퀀티티(quantity) 사이에 합산된 제곱 차이를 최소화함으로써 형식화될 수 있다.

[w_target w_regressor]*coef

여기서 사각괄호[]는 서브매트릭스(sub-matrices) 또는 벡터들로부터 매트릭스를 형성하는데 사용된다. 이제, 벡터들 T 및 H는 다음과 같이 정의된다.

T=target

H=[w_target w_regressor]

상기 최적화에 대한 해법은 다음과 같다.

coef=inv(trans(H)*H)*trans(H)*T

또한, 본원 발명의 더욱 진보된 실시예는 순간적인 윈도우 형상들만을 최적화하지 않고 윈도우들이 최적화된 주파수 의존 가중치를 갖도록 한다. 본 발명의 일 실시예는 탭드 지연 라인의 형태를 적용하지만, 일반적인 방법은 이 형태로 제한되는 것이 아니다. 상기 w_target 과 w_regressor의 정의에서, 이러한 일반화를 달성하는 한가지 방법은 각 컬럼을 대체할 컬럼에 대응하는 기본적인 윈도우 형상과 각각 샘플바이샘플 멀티플한 수 많은 컬럼들로 대체하는 것이지만, 상기 기본적인 윈도우 형상은 탭드 지연 라인에서 특정 위치에 대응하는 관련된 지연된 부분열로 샘플바이샘플 멀티플되어 있다.

유리하게, 이들 방법들에서 계수들의 최적화들은 본 명세서에서 개시된 발명으로부터 디퍼링(defer)함이 없이 가중치(weighting), 제약들(constraint), 또는 계수들의 순차적인 계산을 고려한다. 이러한 가중치들은 낮은 절대적인 지연 값들에 대응하는 계수들에 대해서 더욱 가중되는 가중치를 포함한다. 이러한 순차적인 계산은 낮은 절대 지연 값들에 대해서 우선 계수들을 유리하게 계산하여, 상기 계수들만을 사용하여 제곱 에러의 값을 최소화하고, 그리고 후속적으로, 상기 프로세스에서 이전의 스텝들로부터의 잔존 에러만에 대한, 지연 값들을 증대하도록 이 프로세스를 반복한다.

일반적으로, 본 발명의 실시예들은 최적화의 타겟들로서 수개의 부분열들을 취한다. 일반적인 용어로서 상기 최적화는 왜곡 함수를 최소화한다, 이는 가중된 오버랩 애드 시스템으로부터의 출력과 이들 타겟 부분열들의 함수이다. 이 최적화 는 본 발명으로부터 벗어남이 없이 전체적인 오버랩 애드에서의 가중치와 지연들 및 기본적인 쉐이프들의 선택에서의 다양한 제약들을 적용한다. 형상들의 정확한 선택에 따라, 상기 오버랩 애드의 효과는 유리하게 시간에서 오버랩 애드 영역을 따라는 부분열들로부터 점진적으로 페이드아웃된다.

도10은 개시된 오버랩 애드 방법의 일 실시예를 도시한다. 이 도면은 본 발명의 일 실시예를 예시하는 목적으로서만 사용되며, 본 발명은 이 도면의 정확한 구조로 제한되지 않는다. 도10에서, 일 부분열(1000)은 다른 부분열(1010)과 시간 및 주파수 형상 최적화된 오버랩 애드에 들어간다. 이들 부분열들 각각은 각각의 지연 라인으로 들어가며, 도면에서, z는 하나의 샘플의 시간 어드밴스(advance)를 나타내며, z-1은 하나의 샘플의 시간 지연을 나타내며, 그리고 여기서 선택된 1, -1, 및 0의 지연들은 순수하게 예시의 목적이며: 다른, 보다 크거나 작은, 지연들이 본 발명과 관련하여 사용될 수 있다. 각 부분열의 지연 버젼은 수많은 베이스 윈도우 형상들과 멀티플되고, 그리고 이들 각각의 결과는 최적화의 과정에서 다른 계수들과 함께 공동으로 발견될 계수와 멀티플된다. 이들 계수들과의 멀티플 이후에, 상기 결과적인 부분열들은 시간 및 주파수 형상 최적화된 오버랩 애드로부터 출력 1020을 야기하도록 합산된다. 도10의 예시에서, 상기 계수들이 최적화(1030)는 입력으로서 부분열들(1040 및 1050)을 취하고, 그리고 왜곡 펑션을 최소화하며, 이는 출력(1020)과 1040 및 1050의 함수이다.

청구범위 내에서 도면들에 대한 참조부호는 단순히 명확성을 위해서만 포함된다. 도면들에서 예시적인 실시예들에 대한 이들 참조부호들은 어떠한 방식으로든 본 발명의 청구범위를 제한하도록 해석되어서는 안된다.

Claims

디지털화된 오디오 신호의 전송과 관련하여 은닉 샘플들의 시퀀스를 생성하는 방법으로써:

샘플 시간 순서에서 오디오 신호의 디지털화된 표현의 버퍼링된 샘플들의 상기 은닉 샘플들의 시퀀스를 생성하는 단계를 포함하며,

여기서 상기 은닉 샘플들의 시퀀스 내에 샘플들의 적어도 두 개의 연속적인 부분열들은 버퍼링된 샘플들의 부분열들에 근거하며, 여기서 상기 버퍼링된 샘플들의 부분열들은 재배열된 시간에서 연속적인 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제1항에 있어서, 상기 은닉 샘플들의 시퀀스에서 상기 적어도 두 개의 연속적인 부분열들은 버퍼링된 샘플들의 부분열들에 근거하며, 여기서 상기 버퍼링된 샘플들의 부분열들은 역시간순서에서 연속적인 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제1항 또는 제2항에 있어서, 상기 버퍼링된 샘플들의 부분열들의 위치는 상기 은닉 샘플들의 시퀀스의 생성 동안에 샘플 시간에서 점진적으로 역방향 및 순방향으로 전개하는 지점에서 위칭하는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제2항 또는 제3항에 있어서, 상기 은닉 샘플들의 시퀀스에서 상기 적어도 두 개의 연속적인 부분열들은 역시간순서에서 버퍼링된 샘플들의 적어도 두개의 연속적인 부분열들에 근거하는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제4항에 있어서, 상기 은닉 샘플들의 시퀀스에서 적어도 세 개의 연속적인 부분열들은 역시간순서에서 상기 버퍼링된 샘플들의 적어도 세개의 연속적인 부분열들에 근거하는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 은닉 샘플들의 시퀀스는 시간 순서에서 최종의 상기 버퍼링된 샘플들의 부분열에 근거하는 부분열로 시작하는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제1항 내지 제6항 중 어느 한 항에 있어서, 상기 부분열들을 시간에 있어 재배열하는 것은 시간에 있어 순방향으로 샘플들을 인덱싱하고 판독하는 연속적인 프로세스 및 시간에 있어 역방향으로 스테핑하는 것에 근거하는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제7항에 있어서, 상기 샘플들을 인덱싱하고 판독하는 연속적인 프로세스는:

a) 시간 순서에서 역방향으로 수많은 버퍼링된 샘플들을 스테핑함으로써 버 퍼링된 샘플을 인덱싱하는 단계와, 그리고

b) 상기 단계 a)에서 인덱싱된 버퍼링된 샘플로 시작하여, 시간 순서에서 순방향으로 수많은 버퍼링된 샘플들을 판독하고, 그리고 상기 은닉 샘플들의 시퀀스의 부분열을 계산하기 위해 상기 판독된 샘플들을 사용하는 단계를 포함하며,

여기서 상기 순방향으로 판독된 버퍼링된 샘플들의 수는 역방향으로 스테핑된 버퍼링된 샘플들의 수와 다른 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제8항에 있어서, 상기 순방향으로 판독된 버퍼링된 샘플들의 수는 상기 역방향으로 스테핑된 버퍼링된 샘플들의 수보다 큰 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제8항에 있어서, 상기 순방향으로 판독된 버퍼링된 샘플들의 수는 상기 역방향으로 스테핑된 버퍼링된 샘플들의 수보다 작은 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제1항 내지 제10항 중 어느 한 항에 있어서, 상기 은닉 샘플들의 시퀀스의 부분열들은 가중된 오버랩 애드 절차를 포함하여 상기 버퍼링된 샘플들의 부분열들로부터 계산되는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제11항에 있어서, 상기 가중된 오버랩 애드 절차에서 상기 가중 함수(function)는 추가적으로 주파수의 함수인 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제11항 또는 제12항에 있어서, 상기 가중된 오버랩 애드 절차는 매칭 품질 표시자에 응답하여 수정되는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제13항에 있어서, 상기 매칭 품질 표시자는 상기 가중된 오버랩 애드 절차에 들어가는 샘플들의 두 개 이상의 부분열들에 응답하는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제1항 내지 제14항 중 어느 한 항에 있어서, 상기 재배열은 위치 표시자의 역방향 및 순방향 전개에 의해 부분적으로 기술되는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제15항에 있어서, 상기 위치 표시자의 역방향 전재는 정지 기준의 사용에 의해 제한되는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제1항 내지 제16항 중 어느 한 항에 있어서, 상기 버퍼링된 샘플들에 ㅅ무딩 및 이퀄라이제이션 동작이 적용되는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생 성방법.
제16항에 있어서, 상기 역방향 전개에 대한 상기 정지 기준, 상기 순방향 및 역방향 전개의 페이스, 및 상기 개시된 역방향 전개들의 수는 청취자에 의해 해석될 때 소리 품질을 최적화하도록 공동으로 최적화되는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제16항 내지 제18항 중 어느 한 항에 있어서, 상기 역방향 전개에 대한 정지 기준과, 상기 순방향 전개 및 상기 역방향 전개의 페이스, 상기 개시된 역방향 전개들의 개수, 및 상기 스무딩 및 이퀄라이제이션 동작은 청취자에 의해 해석될 때 소리 품질을 최적화하도록 공동으로 최적화되는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제16항 내지 제19항 중 어느 한 항에 있어서, 상기 위치 표시자의 상기 역방향 및 순방향 전개들은 청취자에 의해 해석될 때 소리 품질을 최적화하도록 공동으로 최적화되는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제1항 내지 제20항 중 어느 한 항에 있어서, 상기 은닉 샘플들의 시퀀스와 샘플들의 연속적인 프레임 사이의 경계에서 불연속성을 최소화하도록 위상 필터가 적용되는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제18항 내지 제20항 중 어느 한 항에 있어서, 상기 은닉 샘플들의 시퀀스와 샘플들의 연속적인 프레임 사이의 경게들에서 불연속성을 최소화하도록 위상 필터링이 적용되고, 그리고 여기서 상기 공동 최적화는 청취자에 의해 지각될 때 상기 소리 품질을 최적화하도록 상기 위상 필터링에 의해 도입되는 신호 왜곡을 더 포함하는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제1항 내지 제22항 중 어느 한 항에 있어서, 상기 은닉 샘플들의 시퀀스에 노이즈 믹싱이 도입되는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제7항에 있어서, 상기 은닉 샘플들의 시퀀스에 노이즈 믹싱이 도입되며, 그리고 여기서 상기 노이즈 믹싱은 시간에 있어 순방향으로 샘플들을 인덱싱하고 시간에 있어 역방향으로 스테핑하는 연속적인 프로세스에 응답하여 수정되는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제24항에 있어서, 상기 시간에 있어 순방향으로 샘플들을 인덱싱하고 시간에 있어 역방향으로 스테핑하는 연속적인 프로세스와 이에 대한 상기 응답은 매칭 품질 표시자의 사용을 포함하는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제1항 내지 제25항 중 어느 한 항에 있어서, 감쇄 함수가 상기 은닉 샘플들 의 시퀀스에 적용되는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제7항에 있어서, 감쇄 함수가 상기 은닉 샘플들의 시퀀스에 적용되며, 그리고 여기서 상기 감쇄 함수는 상기 시간에 있어 순방향으로 샘플들을 인덱싱하고 시간에 있어 역방향으로 스테핑하는 연속적인 프로세스에 응답하여 수정되는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제27항에 있어서, 상기 시간에 있어 순방향으로 샘플들을 인덱싱하고 시간에 있어 역방향으로 스테핑하는 연속적인 프로세스와 이에 대한 상기 응답은 매칭 품질 표시자의 사용을 포함하는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제1항 내지 제28항 중 어느 한 항에 있어서, 상기 은닉 샘플들의 시퀀스에서 샘플들의 결과적인 수는 기설정되어 있는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제29항에 있어서, 상기 기설정된 샘플들의 수는 상기 디지털화된 오디오 신호의 특성들에 독립적인 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제29항 또는 제30항에 있어서, 상기 기술정된 샘플들의 수는 20-500과 같은 5-1000 범위의 기설정된 정수 값을 갖는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제1항 내지 제31항 중 어느 한 항에 있어서, 상기 은닉 샘플들의 시퀀스는 제1 은닉 프레임에 포함되는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제32항에 있어서, 상기 제1 은닉 프레임에 연속적인 적어도 제2 은닉 프레임을 생성하는 단계를 더 포함하며, 여기서 상기 제2 프레임을 은닉 샘플들의 제2 시퀀스를 포함하는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제33항에 있어서, 상기 제1 및 제2 은닉 프레임들에서 은닉 샘플들이 시퀀스는들은 서로 다른 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제33항 또는 제34항에 있어서, 상기 제1 및 제2 은닉 프레임들은 동일한 수의 샘플들을 포함하는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제35항에 있어서, 상기 제2 은닉 프레임에서 샘플들의 적어도 하나의 부분열들은 상기 제1 은닉 프레임에 포함된 샘플들의 부분열들 중 어떠한 것보다도 시간에 있어 더욱 뒤에 있는 버퍼링된 샘플들의 부분열들에 적어도 부분적으로 근거하는 것을 특징으로 하는 은닉 샘플들의 시퀀스 생성방법.
제1항 내지 제36항 중 어느 한 항에 따른 방법을 수행하도록 된 컴퓨터 실행가능한 프로그램 코드.
제1항 내지 제36항 중 어느 한 항에 따른 방법을 수행하도록 하는, 범용 마이크로프로세서와 같은 마이크로프로세서에 대한 명령어 시퀀스를 포함하는 프로그램 저장 장치.
디지털화된 오디오 신호를 수신하는 어레인지먼트로서:

-수신된 디지털화된 오디오 신호를 나타내는 샘플들을 저장하는 메모리 수단과, 그리고

- 청구항 제1항 내지 제36항 중 어느 한 항에 따른 방법을 수행하는 프로세싱 수단을 포함하는 것을 특징으로 하는 디지털화된 오디오 신호를 수신하는 어레인지먼트.