KR102550424B1 - 채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램 - Google Patents

채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램 Download PDF

Info

Publication number
KR102550424B1
KR102550424B1 KR1020207031943A KR20207031943A KR102550424B1 KR 102550424 B1 KR102550424 B1 KR 102550424B1 KR 1020207031943 A KR1020207031943 A KR 1020207031943A KR 20207031943 A KR20207031943 A KR 20207031943A KR 102550424 B1 KR102550424 B1 KR 102550424B1
Authority
KR
South Korea
Prior art keywords
signal
channel
time
cross
value
Prior art date
Application number
KR1020207031943A
Other languages
English (en)
Other versions
KR20200140864A (ko
Inventor
엘레니 포토파울로우
얀 부테
엠마누엘 라벨리
팔라비 마벤
마틴 디에츠
프란츠 레우텔후버
스테판 될라
스리칸스 코르제
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20200140864A publication Critical patent/KR20200140864A/ko
Application granted granted Critical
Publication of KR102550424B1 publication Critical patent/KR102550424B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)

Abstract

제1 채널 신호와 제2 채널 신호 간의 채널 간 시간 차를 추정하기 위한 장치가 제공되며, 이 장치는 상기 제1 채널 신호 또는 상기 제2 채널 신호 또는 두 신호 또는 상기 제1 채널 신호 또는 상기 제2 채널 신호로부터 도출된 신호의 신호 특성(1038)을 추정하기 위한 신호 분석기(1037); 시간 블록의 상호 상관 스펙트럼을 상기 시간 블럭의 상기 제1 채널 신호 및 상기 시간 블록의 상기 제2 채널 신호로부터 계산하기 위한 계산기(1020); 신호 분석기(1037)에 의해 추정된 신호 특성에 따라 제1 가중 절차(1036a)를 사용하거나 제2 가중 절차(1036b)를 사용하여, 가중 상호 상관 스펙트럼을 얻기 위해 평활화 또는 평활화되지 않은 상호 상관 스펙트럼에 가중치를 부여하기 위한 가중기(1036) - 상기 제1 가중 절차는 상기 제2 가중 절차와 상이함 -; 및 상기 채널 간 시간 차를 얻기 위해 상기 가중된 상호 상관 스펙트럼을 처리하는 프로세서(1040)를 포함한다.

Description

채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램
본 출원은 스테레오 처리 또는 일반적으로 다중 채널 처리에 관한 것이며, 여기서 다중 채널 신호는 스테레오 신호의 경우 좌측 채널과 우측 채널과 같은 두 개의 채널을 갖거나 3 개, 4 개, 5 개 또는 그 외 채널 개수와 같이 2 개 이상의 채널을 갖는다.
스테레오 음성 및 특히 대화형 스테레오 음성은 스테레오 음악의 저장 및 방송보다 과학적 관심을 덜 받는다. 실제로 음성 통신에서 모노 전송은 오늘날에도 여전히 대부분 사용된다. 그러나 네트워크 대역폭과 용량이 증가함에 따라, 스테레오 기술에 기반한 통신이 더 대중화되어 더 나은 청취 경험을 제공할 것으로 예상된다.
스테레오 오디오 자료의 효율적인 코딩은 효율적인 저장 또는 방송을 위해 음악의 지각적인 오디오 코딩을 오랫동안 연구해 왔다. 파형 보존이 중요한 높은 비트 전송률에서는, 중간/측면 (M/S) 스테레오로 알려진, 합-차 스테레오가 오랫동안 사용되어 왔다. 낮은 비트 전송률을 위해, 강도 스테레오 및 더 최근에는 매개변수 스테레오 코딩이 도입되었다. 최신 기술은 HeAACv2 및 Mpeg USAC와 같은 다른 표준에서 채택되었다. 이것은 2 채널 신호의 다운-믹스를 생성하고 컴팩트한 공간 측면 정보를 연관시킨다.
공동 스테레오 코딩은 일반적으로 신호의 고주파 해상도, 예를 들어, 저 시간 해상도의 시간-주파수 변환을 통해 구축되어, 대부분의 음성 코더에서 수행되는 저 지연 및 시간 영역 처리와 호환 가능하지 않다. 더욱이, 결과된 비트 전송률은 일반적으로 높다.
반면에, 매개변수 스테레오는 인코더의 프런트-엔드에 위치된 추가 필터-뱅크를 사전 프로세서로서 디코더의 백-엔드에 위치된 추가 필터 뱅크를 사후 프로세서로서 이용한다. 따라서 매개변수 스테레오는 MPEG USAC에서처럼 ACELP와 같은 기존 음성 코더와 함께 사용할 수 있다. 또한, 청각 장면의 매개변수화는 최소량의 측면 정보로 달성될 수 있으며, 이는 낮은 비트율에 적합하다. 그러나 파라 메트릭 스테레오는 예를 들어 낮은 지연을 위해 특별히 설계되지 않은 MPEG USAC에서와 같으며 다양한 대화 시나리오에 대해 일관된 품질을 제공하지 않는다. 공간 장면의 기존 매개변수 표현에서, 스테레오 이미지의 너비는 합성된 두 채널에 적용되는 역 상관기에 의해 인위적으로 재생되고 인코더에 의해 계산 및 전송되는 채널간 간섭(IC) 매개변수에 의해 제어된다. 대부분의 스테레오 음성의 경우, 스테레오 이미지를 넓히는 이러한 방법은 (때로는 방에서 나오는 반향음을 갖는) 공간의 특정 위치에 있는 단일 소스에 의해 생성되기 때문에 매우 직접적인 사운드인 음성의 자연스러운 앰비언스(ambience)를 재현하는 데 적합하지 않다. 대조적으로, 음악 악기는 음성 보다 훨씬 자연스러운 너비를 가지며, 이는 채널을 상관 해제하는 것으로 더욱 모방될 수 있다.
마이크폰이 서로 멀리 떨어져 있거나 또는 스테레오 기록이나 렌더링을 위한 A-B 구성에서와 같이, 동시 발생이 아닌 마이크로폰을 사용하여 음성을 녹음할 때 문제가 또한 발생한다. 이러한 시나리오는 원격 회의에서 음성을 캡처하거나 멀티포인트 제어부(MCU)에서 멀리 떨어진 스피커로 가상 청각 장면을 만들기 위해 구상될 수 있다. 신호 도착 시간은 X-Y (강도 녹음) 또는 M-S (중간-측면 녹음)와 같이 일치하는 마이크로폰에서 수행되는 녹음과 달리, 한 채널과 다른 채널이 다르다. 시간 정렬되지 않은 두 채널의 일관성 계산이 잘못 추정될 수 있고 이는 인공적인 앰비언스 합성을 실패로 만든다.
스테레오 처리과 관련된 선행 기술 참조로는 미국 특허 5,434,948 또는 미국 특허 8,811,621이 있다.
문서 WO 2006/089570 A1은 거의 투명하거나 투명한 다중 채널 인코더/디코더 방식을 개시한다. 다중 채널 인코더/디코더 방식은 추가로 파형 유형의 잔차 신호를 생성한다. 이 잔차 신호는 하나 이상의 다중 채널 매개변수와 함께 디코더로 전송된다. 순수 매개변수 다중 채널 디코더와 달리, 향상된 디코더는 추가의 잔차 신호로 인해 향상된 출력 품질을 갖는 다중 채널 출력 신호를 생성한다. 인코더 측에서 좌측 채널과 우측 채널은 모두 분석 필터 뱅크에 의해 필터링된다. 그리고, 각 부대역 신호에 대해, 부대역에 대한 정렬 값과 이득 값이 계산된다. 그 다음에 이런 정렬이 추가 처리 전에 수행된다. 디코더 측에서는 정렬 해제 및 이득 처리가 수행되고, 디코딩된 좌측 신호 및 디코딩된 우측 신호를 생성하기 위해 합성 필터 뱅크에 의해 대응 신호가 합성된다.
이러한 스테레오 처리 애플리케이션에서, 제1 채널 신호와 제2 채널 신호 사이의 채널 간 또는 채널 간 시간 차의 계산은 일반적으로 광대역 시간 정렬 절차를 수행하기 위해 유용하다. 그러나, 제1 채널과 제2 채널 사이의 채널 간 시간 차를 사용하는 다른 응용 프로그램이 존재하는데, 여기서 이들 애플리케이션은 매개변수 데이터를 저장 또는 전송하며, 스테레오/다중 채널 처리는 몇 가지만 말하자면, 두 채널의 시간 정렬, 실내 스피커의 위치 결정을 위한 도착 시간 차 추정, 빔 형성 공간 필터링, 전경/배경 분리 또는 예를 들어, 삼각 측량에 의한, 음원의 위치 결정을 포함한다.
이러한 모든 응용 분야에서, 제1 및 제2 채널 신호 간의 채널 간 시간 차를 효율적이고 정확하며 강력하게 결정하는 것이 필요하다.
용어 "GCC-PHAT" 하에서 알려지거나, 또는 달리 말해서, 일반화된 상호 상관 위상 변환으로 알려진 결정이 이미 존재하고 있다. 일반적으로 상호 상관 스펙트럼은 시간 영역 표현을 찾기 위해서, 두 채널 신호 사이에서 계산된 다음에, 역 DFT와 같은 역 스펙트럼 변환을 일반화된 상호 상관 스펙트럼으로 수행하기 전에 소위 일반화된 상호 상관 스펙트럼을 얻기 위한 상호 상관 스펙트럼에 가중치 함수가 적용된다. 이 시간 영역 표현은 특정 시간 지연에 대한 값을 나타내고, 시간 영역 표현의 최고의 피크는 일반적으로 시간 지연 또는 시간 차, 즉 두 채널 신호 사이의 차이인 채널 간 시간 지연에 해당한다.
그러나, 특히, 예를 들어 잔향음이나 배경 잡음이 없는 깨끗한 음성과 다른 신호에서는, 이 일반적인 기술의 견고성은 최적이 아닌 것으로 나타났다.
따라서, 본 발명의 목적은 두 채널 신호 사이의 채널 간 시간 차를 추정하기 위한 개선된 개념을 제공하는 것이다.
본 목적은 청구항 제1항에 따른 채널 간 시간 차를 추정하기 위한 장치, 제28항에 따른 채널 간 시간 차를 추정하는 방법, 또는 제30항에 따른 컴퓨터 프로그램에 의해 성취된다.
본 발명은 가중된 상호 상관 스펙트럼을 얻기 위해 평활화 또는 평활화되지 않은 상호 상관 스펙트럼에 가중치를 부여하는 단계는 신호 분석기에 의해 추정된 신호 특성에 따라 제1 가중 절차를 사용하거나 제2 가중 절차를 사용하여 수행되어야 한다는 사실에 기초하며, 이 때 제1 가중 절차는 제2 가중 절차와 상이하다.
추가 실시 예에서, 제1 채널 신호 또는 제2 채널 신호의 스펙트럼의 특성에 의해 제어되는, 시간 경과에 따른 상호 상관 스펙트럼의 평활화는 채널 간 시간 차 결정의 견고성과 정확성을 크게 향상시킨다.
바람직한 실시 예에서, 스펙트럼의 음조/잡음 특성이 결정되고, 잡음 유사 신호의 경우, 평활화가 더 강한 반면, 잡음 신호의 경우 평활화는 덜 강해진다.
바람직하게, 스펙트럼 평탄도 측정이 사용되며, 음조과 같은 신호의 경우, 스펙트럼 평탄도 측정 값이 낮아지고 평활화는 더 강해지며, 잡음과 같은 신호의 경우, 스펙트럼 평탄도 측정 값은 약 1 또는 1에 가까울만큼 높고 평활도는 약하다.
따라서, 본 발명에 따르면, 제1 채널 신호와 제2 채널 신호 간의 채널 간 시간 차를 추정하는 장치는 시간 블럭에 대한 상호 상관 스펙트럼을 이 시간 블록의 제1 채널 신호 및 시간 블록의 제2 채널 신호에 대해서 계산하기 위한 계산기를 포함한다. 장치는 시간 블록에 대한 제1 채널 신호 및 제2 채널 신호의 스펙트럼의 특성을 추정하기 위한 스펙트럼 특성 추정기를 더 포함하고, 평활화된 상호 상관 스펙트럼을 얻기 위해 스펙트럼 특성을 사용하여 시간이 지남에 따라 상호 상관 스펙트럼을 평활화하기 위한 평활화 필터를 더 포함한다. 그런 다음, 평활화된 상호 상관 스펙트럼은 채널 간 시간 차 매개변수를 얻기 위해 프로세서에 의해 추가로 처리된다.
평활화된 상호 상관 스펙트럼의 추가 처리와 관련된 바람직한 실시 예의 경우, 적응형 임계 값 결정 동작이 수행되고, 이 때 평활화된 일반화 상호 상관 스펙트럼의 시간 영역 표현은 시간 영역 표현에 따라 달라지는 가변 임계 값을 결정하기 위해 분석되고, 시간 영역 표현의 피크가 이 가변 임계 값과 비교된다. 채널 간 시간 차는 임계 값보다 큰 것과 같이 임계 값과 미리 결정된 관계에 있는 피크와 관련된 시간 지연으로 결정된다.
일 실시 예에서, 가변 임계 값은 가장 큰 값 중 하나의 값의 정수배와 동일한 값, 예를 들어 시간 영역 표현 값의 10 %로 결정되거나, 또는 대안적으로, 변수 결정을 위한 다른 실시예에서, 가변 임계 값은 가변 임계 값과 상기 값의 곱에 의해 계산되고, 여기서 이 값은 제1 및 제2 채널 신호의 신호 대 잡음비 특성에 따라 달라지고, 높은 신호 대 잡음 비율이 높을수록 더 높아지고 신호 대 잡음 비율이 낮을록 더 낮아진다.
앞서 언급했듯이, 빔 형성, 공간 필터링, 전경/배경 분리 또는 예를 들어, 2 개 또는 3 개의 신호의 시간 차를 기반으로 하는 음향 삼각 측량에 의한 음원의 위치 결정을 위해서, 채널 간 시간 차 계산은 매개변수 데이터의 저장 또는 전송, 스테레오/다중 채널 처리/인코딩, 두 채널의 시간 정렬, 두 개의 마이크로폰 및 알려진 마이크로폰 셋업을 구비한 방 내의 스피커 위치의 결정을 위한 도착 시간 차 추정에서 사용할 수 있다.
그러나, 이하에서는 적어도 2 개의 채널을 갖는 다중 채널 신호를 인코딩하는 과정에서 2 개의 스테레오 신호의 광대역 시간 정렬을 목적으로 채널 간 시간 차 계산의 바람직한 구현 및 사용이 설명된다.
적어도 2 개의 채널을 갖는 다중 채널 신호를 인코딩하는 장치는 한편으로는 광대역 정렬 매개변수를 결정하기 위한 매개변수 결정기 및 다른 한편으로는 복수의 협대역 정렬 매개변수를 포함한다. 이러한 매개변수는 정렬된 채널을 얻기 위해 이들 매개변수를 사용하여 적어도 두 개의 채널을 정렬하기 위한 신호 정렬기에 의해 사용된다. 그런 다음, 신호 프로세서는 정렬된 채널을 사용하여 중간 신호와 측면 신호를 계산하고, 이 중간 신호 및 측면 신호는 이후에 매개변수 측면 정보로서 광대역 정렬 매개변수 및 복수의 협대역 정렬 매개변수를 추가로 갖는 인코딩된 출력 신호로 인코딩되고 포워딩된다.
디코더 측에서, 신호 디코더는 인코딩된 중간 신호 및 인코딩된 측면 신호를 디코딩하여 디코딩된 중간 및 측면 신호를 획득한다. 이러한 신호는 디코딩된 제1 채널 및 디코딩된 제2 채널을 계산하기 위해 신호 프로세서에 의해 처리된다. 이들 디코딩된 채널은 디코딩된 다중 채널 신호를 획득하기 위해 인코딩된 다중 채널 신호에 포함된 복수의 협대역 매개변수에 대한 정보 및 광대역 정렬 매개변수에 대한 정보를 사용하여 정렬 해제된다.
특정 구현에서, 광대역 정렬 매개변수는 채널 간 시간 차 매개변수가고 복수의 협대역 정렬 매개변수는 채널 간 위상 차이다.
본 발명은 특히 하나 이상의 스피커가 있는 음성 신호 뿐만 아니라 여러 오디오 소스가 있는 다른 오디오 신호에 대해서도, 다중 채널 신호의 두 채널로 매핑되는 오디오 소스의 서로 다른 위치가 한쪽 채널 또는 두 채널의 전체 스펙트럼에 적용되는 채널 간 시간 차 매개변수와 같은 광대역 정렬 매개변수를 사용하기 위해 고려될 수 있다는 발견에 기초한다. 이 광대역 정렬 매개변수 외에도, 부대역마다 다른 몇 개의 협대역 정렬 매개변수가 추가적으로 두 채널에서 신호의 더 나은 정렬을 가져온다는 것이 밝혀졌다.
따라서, 서로 다른 부대역에 대한 서로 다른 위상 회전에 해당하는 위상 정렬과 함께 각 부대역에서 동일한 시간 지연에 해당하는 광대역 정렬은 이 두 채널이 중간/측면 표현으로 변환된 다음에 더욱 인코딩되기 전에 결과적으로 두 채널의 최적의 정렬을 가져온다. 최적의 정렬을 얻었다는 사실로 인해, 중간 신호의 에너지는 가능한 한 높은 반면 측면 신호의 에너지는 가능한 한 작아서, 가능한 가장 낮은 비트 전송률이나 특정 비트 전송률에 대해 가능한 가장 높은 오디오 품질을 갖는 최적의 코딩 결과를 얻을 수 있다.
상세하게 설명하면, 대화형 음성 자료의 경우, 일반적으로 두 개의 다른 장소에서 활동중인 화자가 있다고 한다. 부가하여, 일반적으로 이러한 상황은 첫 번째 위치에서 하나의 화자가 말하고 있고 두 번째 위치에서 두 번째 화자가 말하고 있다. 첫 번째 또는 좌측 채널과 두 번째 또는 우측 채널과 같이 두 채널에서 서로 다른 위치의 영향은 서로 다른 도착 시간에 의해 반영되므로, 서로 다른 위치로 인한 두 채널 간의 특정 시간 지연이 발생하게 되고, 이 시간 지연은 수시로 변경된다. 일반적으로 이 영향은 광대역 정렬 매개변수로 해결될 수 있는 광대역 정렬 해제로서 두 채널 신호에 반영된다.
다른 한편으로, 특히 잔향음 또는 추가 잡음원에서 생기는 다른 효과는 광대역 여러 도착 시간에 중첩되는 개별 대역에 대한 개별 위상 정렬 매개변수 또는 두 채널의 광대역 정렬 해제에 의해 설명될 수 있다.
그 점을 감안할 때, 광대역 정렬 매개변수 및 광대역 정렬 매개변수 위에 있는 복수의 협대역 정렬 매개변수 둘 다를 이용하게 되면, 훌륭하고 매우 간결한 중간/측면 표현을 얻기 위해 인코더 측에서 최적의 채널 정렬을 초래하는 반면, 디코더 측에서의 디코딩 이후의 대응하는 정렬 해제는 특정 비트 전송률에 대해서는 양호한 오디오 품질을 특정 요구되는 오디오 품질에 대해서는 작은 비트 전송률을 결과되게 한다.
본 발명의 장점은 기존의 스테레오 코딩 방식 보다 스테레오 음성 변환에 훨씬 더 적합한 새로운 스테레오 코딩 방식을 제공한다는 점이다. 본 발명에 따르면, 매개변수 스테레오 기술과 공동 스테레오 코딩 기술은 특히 음성 소스의 경우뿐만 아니라 다른 오디오 소스의 경우에도 다중 채널 신호의 채널에서 발생하는 채널 간 시간 차를 이용하여 결합된다.
몇 실시 예는 나중에 논의되는 유용한 이점을 제공한다.
새로운 방법은 기존의 M/S 스테레오와 매개변수 스테레오의 요소를 혼합하는 하이브리드 접근 방식입니다. 기존 M/S에서는, 채널이 수동적으로 다운믹스되어 중간 및 측면 신호를 생성한다. 채널을 합산하고 차분하기 전에 주 성분 분석 (principal component analysis)라고도 하는 Karhunen-Loeve 변환 (KLT)을 사용하여 채널을 회전하여 프로세스를 더욱 확장할 수 있다. 중간 신호는 기본 코드 코딩으로 코딩되고 측면 신호는 보조 코더로 전달된다. 개선된 M/S 스테레오는 현재 또는 이전 프레임에 코딩된 중간 채널에 의한 측면 신호의 예측을 추가로 사용할 수 있다. 회전 및 예측의 주요 목표는 측면 신호의 에너지를 최소화하면서 중간 신호의 에너지를 최대화하는 것이다. M/S 스테레오는 파형을 보존하고 있어 이 측면에서는 모든 스테레오 시나리오에 매우 견고하지만, 비트 소모 측면에서 비용이 많이 들어갈 수 있다.
낮은 비트 전송률에서 최고의 효율성을 위해, 매개변수 스테레오는 채널 간 레벨 차이(ILD), 채널 간 위상 차이(IPD), 채널 간 시간 차이(ITD) 및 채널 간 코히런스(IC)와 같은 매개변수를 계산하고 코딩한다. 이들은 스테레오 이미지를 간결하게 표현하며 청각 장면의 단서들 (소스 위치 파악, 패닝(panning), 스테레오의 폭 등)이 된다. 목표는 스테레오 장면을 매개변수화하고 디코더에 있을 수 있고 전송된 스테레오 단서들에 의해 다시 공간화될 수 있는 다운믹스 신호를 코딩하는 것이다.
우리의 접근 방식은 두 가지 개념을 혼합했다. 첫째, 스테레오 단서들 ITD와 IPD를 계산하여 두 채널에 적용한다. 목표는 광대역의 시간 차이와 여러 주파수 대역의 위상을 나타내는 것이다. 다음에 이 두 채널이 시간과 위상으로 정렬되고 M/S 코딩이 수행된다. ITD와 IPD는 스테레오 음성을 모델링하는 데 유용하므로 M/S에서 KLT 기반 회전을 대체하는 좋은 방법이 된다. 순수한 매개변수 코딩과 달리, 엠비언스는 IC에 의해 더 이상 모델링되지 않고 코딩 및/또는 예측되는 측면 신호에 의해 직접 모델링된다. 이 접근법은 특히 음성 신호를 처리할 때 더 강력하다고 알려졌다.
ITD의 계산 및 처리는 본 발명의 중요한 부분이다. ITD는 이미 선행 기술의 양귀 단서 코딩(Binaural Cue Coding)에서 활용되었지만 일단 ITD가 시간이 지남에 따라 변경되면 비효율적이 된다. 이러한 단점을 피하기 위해서, 두 개의 서로 다른 ITD 간의 전환을 원활하게 하고 서로 다른 위치에 있는 한 스피커에서 다른 스피커로 원활하게 전환할 수 있도록 하기 위한 특정 창을 설계했다.
추가 실시 예는 인코더 측에서, 복수의 협대역 정렬 매개변수를 결정하기 위한 매개변수 결정이 이전에 결정된 광대역 정렬 매개변수로 이미 정렬된 채널을 사용하여 수행되는 절차에 관련된다.
이에 상응하여, 디코더 측에서의 협대역 정렬 해제는 통상적으로 단일 광대역 정렬 매개변수를 사용하여 광대역 정렬 해제가 수행되기 전에 수행된다.
추가 실시 예에서, 인코더 측에서 그러나 더욱 중요하게는 디코더 측에서, 일부 종류의 윈도우화 및 중첩-가산 연산 또는 한 블록에서 다음 블록으로의 크로스페이딩(crossfading)이 모든 정렬에 이어서 수행되며, 특히 광대역 정렬 매개변수를 사용하는 시간 정렬 이후에 수행된다. 이에 의하면, 시간 또는 광대역 정렬 매개변수가 블록간에 변경될 때 클릭과 같은 가청 인공물을 방지한다.
다른 실시 예에서, 상이한 스펙트럼 해상도가 적용된다. 특히, 채널 신호는 DFT 스펙트럼과 같은 고주파 해상도를 갖는 시간 스펙트럼 변환을 거치고, 협대역 정렬 매개변수와 같은 매개변수는 스펙트럼 해상도가 낮은 매개변수 대역에 대해 결정된다. 일반적으로, 매개변수 대역에는 신호 스펙트럼 보다 하나 더 많은 스펙트럼 라인이 있으며 DFT 스펙트럼으로부터의 스펙트럼 라인 세트가 있다. 또한 음향 심리학적인 문제를 설명하기 위해 매개변수 대역이 저주파에서 고주파로 증가한다.
추가 실시 예는 레벨 간 차이와 같은 레벨 매개변수의 추가 사용 또는 스테레오 충전 매개변수 등과 같은 측면 신호를 처리하기 위한 다른 절차에 관한 것이다. 인코딩된 측면 신호는 실제 측면 신호 자체에 의해, 또는 현재 프레임 또는 임의의 다른 프레임의 중간 신호를 사용하여 수행되는 예측 잔차 신호에 의해, 또는 대역의 서브세트에서는 측면 신호 또는 측면 예측 잔차 신호 및 나머지 대역에 대해서는 예측 매개변수에 의해, 또는 고주파 해상도 측면 신호 정보 없이 모든 대역에 대한 예측 매개변수에 의해 표현될 수 있다. 따라서, 상기 마지막 대안에서, 인코딩된 측면 신호는 각 매개변수 대역에 대한 예측 매개변수 또는 매개변수 대역의 서브세트에 의해서만 표현되므로, 나머지 매개변수 대역의 경우 원래의 측면 신호에 대한 정보가 존재하지 않는다.
또한, 광대역 신호의 전체 대역폭을 반영하는 모든 매개변수 대역이 아니라 매개변수 대역의 하위 50 %와 같은 하위 대역 세트에 대해서만 복수의 협대역 정렬 매개변수를 갖는 것이 바람직하다. 반면에, 스테레오 충전 매개변수는 두 개의 하위 대역에 대해 사용되지 않는데, 왜냐하면 이러한 대역의 경우, 측면 신호 자체 또는 예측 잔차 신호가 전송되어 최소한 하위 대역에 대해, 정확한 파형 표현이 가능한 것을 확실하게 하기 때문이다. 반면에, 측면 신호는 비트 전송률을 더 낮추기 위해 더 높은 대역에 대해 정확한 파형 표현으로 전송되는 것이 아니라, 일반적으로 스테레오 충전 매개변수로 표시된다.
또한, 동일한 DFT 스펙트럼을 기반으로 하나의 동일한 주파수 영역 내에서 전체 매개변수 분석 및 정렬을 수행하는 것이 좋다. 이를 위해, 채널 간 시간 차 결정을 위해 일반화된 위상 변환을 가지는 상호 상관 (Generalized Cross Correlation with Phase transform; GCC-PHAT) 기술을 사용하는 것이 더욱 바람직하다. 이 절차의 바람직한 실시 예에서, 스펙트럼 형상 정보 (바람직하게는, 스펙트럼 평탄도 값)를 기반으로 하는 상관 스펙트럼의 평활화는 잡음와 같은 신호의 경우 평활화가 약해지도록 수행되고, 음조과 같은 신호의 경우에는 강해지도록 수행된다.
또한, 채널 진폭을 고려하는 특수 위상 회전을 수행하는 것이 좋다. 특히, 위상 회전은 인코더 측에서 정렬을 목적으로, 그리고 물론 디코더 측에서 정렬 해제 목적으로 두 채널 사이에 분산되며, 이 때 진폭이 더 높은 채널은 선행 채널로 간주되어, 위상 회전의 영향을 덜 받는데, 즉, 진폭이 낮은 채널보다 덜 회전한다.
또한, 합-차 계산은 두 채널의 에너지에서 도출된 스케일링 계수와 함께 에너지 스케일링을 사용하여 수행되고, 추가적으로 중간/측면 계산이 에너지에 너무 많은 영향을 주지 않도록 하기 위해 특정 범위로 제한된다. 한편, 본 발명의 목적 상, 시간과 위상이 미리 정렬되었기 때문에 이러한 종류의 에너지 절약은 종래의 절차 만큼 중요하지 않다. 따라서 (인코더 측) 좌측 및 우측에서의 중간 신호 및 측면 신호의 계산으로 인한 에너지 변동 또는 (디코더측) 중간 및 측면에서의 좌측 및 우측 신호 계산으로 인한 에너지 변동은 선행 기술에서 만큼 중요하지 않다.
이어서, 본 발명의 바람직한 실시 예가 첨부된 도면과 관련하여 논의된다.
도 1은 다중 채널 신호를 인코딩하기 위한 장치의 바람직한 구현의 블록도이다.
도 2는 인코딩된 다중 채널 신호를 디코딩하기 위한 장치의 바람직한 실시 예이다.
도 3은 특정 실시 예에 대한 여러 주파수 해상도 및 다른 주파수 관련 양상의 예시이다.
도 4a는 채널 정렬을 위해 인코딩 장치에서 수행되는 절차의 흐름도를 도시한다.
도 4b는 주파수 영역에서 수행되는 절차의 실시 예를 도시한다.
도 4c는 제로 패딩(zero padding) 부분 및 중첩(overlap) 범위를 갖는 분석 창을 사용하는 인코딩 장치에서 수행되는 절차의 실시 예를 도시한다.
도 4d는 인코딩 장치 내에서 수행되는 추가 절차에 대한 흐름도를 도시한다.
도 4e는 채널 간 시간 차 추정의 구현을 나타내는 흐름도를 도시한다.
도 5는 인코딩 장치에서 수행되는 절차의 다른 실시 예를 예시하는 흐름도를 도시한다.
도 6a는 인코더의 실시 예의 블록 차트를 예시한다.
도 6b는 디코더의 대응하는 실시 예의 흐름도를 도시한다.
도 7은 스테레오 시간-주파수 분석 및 합성을 위한 제로 패딩의 저 중첩 사인 창을 갖는 바람직한 창 시나리오를 예시한다.
도 8은 상이한 매개변수 값의 비트 소비를 보여주는 표를 예시한다.
도 9a는 바람직한 실시 예에서 인코딩된 다중 채널 신호를 디코딩하기 위한 장치에 의해 수행되는 절차를 도시한다.
도 9b는 인코딩된 다중 채널 신호를 디코딩하기 위한 장치의 구현을 예시한다.
도 9c는 인코딩된 다중 채널 신호의 디코딩과 관련하여 광대역 정렬 해제의 맥락에서 수행되는 절차를 도시한다.
도 10a는 채널 간 시간 차를 추정하기 위한 장치의 실시 예를 도시한다.
도 10b는 채널 간 시간 차가 적용되는 신호 추가 처리의 개략도를 도시한다.
도 10c는 본 발명의 일 실시 예에 따른 잡음 추정기로 구현된 신호 분석기와 실시예들에 따른 및 가중기를 개략적으로 도시한다.
도 10d는 본 발명의 실시 예에 따른 가중기의 개략도를 도시한다.
도 10e는 본 발명의 실시 예에 따른 프로세서의 개략적인 표현을 도시한다.
도 10f는 본 발명의 실시 예에 따른 잡음 추정기의 개략적인 표현을 도시한다.
도 11a는 도 10a의 프로세서에 의해 수행되는 절차를 도시한다.
도 11b는 도 10a의 프로세서에 의해 수행되는 추가 절차를 예시한다.
도 11c는 시간 영역 표현의 분석에서 가변 임계 값의 계산 및 가변 임계 값의 사용의 추가 구현을 예시한다.
도 11d는 가변 임계 값을 결정하기 위한 제1 실시 예를 도시한다.
도 11e는 임계 값 결정의 추가 구현을 예시한다.
도 11f는 본 발명의 실시 예에 따른 프로세서의 개략적인 표현을 도시한다.
도 12는 깨끗한 음성 신호에 대해 평활화된 상호 상관 스펙트럼의 시간 영역 표현을 도시한다.
도 13은 잡음 및 앰비언스를 갖는 음성 신호에 대해 평활화된 상호 상관 스펙트럼의 시간 영역 표현을 도시한다.
도 10a는 좌측 채널과 같은 제1 채널 신호와 우측 채널과 같은 제2 채널 신호 간의 채널 간 시간 차를 추정하기 위한 장치의 일 실시 예를 도시한다. 이들 채널은 도 4e의 도면 부호 451와 관련하여, 추가로 도시된 시간-스펙트럼 변환기(150)에 입력된다.
또한, 좌측 및 우측 채널 신호의 시간 영역 표현은 시간 블록에 대한 상호 상관 스펙트럼을 이 시간 블록의 제1 채널 신호와 시간 블록의 제2 채널 신호로부터 계산하기 위한 계산기(1020)에 입력된다. 더욱이, 장치는 시간 블록에 대한 제1 채널 신호 또는 제2 채널 신호의 스펙트럼의 특성을 추정하기 위한 스펙트럼 특성 추정기(1010)를 포함한다. 장치는 평활화된 상호 상관 스펙트럼을 얻기 위해 스펙트럼 특성을 사용하여 시간 경과에 따라 상호 상관 스펙트럼을 평활화하기 위한 평활화 필터(1030)를 더 포함한다. 장치는 채널 간 시간 차를 얻기 위해 평활화된 상관 스펙트럼을 처리하기 위한 프로세서(1040)를 더 포함한다.
이와 다르게, 다른 실시 예에서는, 요소(1030)가 존재하지 않으므로, 점선(1035)으로 표시된 바와 같이 요소(1010)도 필요하지 않다. 장치는 잡음 추정치(1038)와 같은 신호 특성 추정치를 계산하는 신호 분석기(1037)를 더 포함한다. 이 추정치는 신호 특성 추정치에 따라 상이한 가중 연산을 수행하도록 구성된 가중기(1036)로 전달된다. 신호 특성 추정치는 예를 들어 프로세서(1040)가 피크 선택(peak picking) 동작을 수행 할 때 프로세서(1040)를 제어하기 위해 사용되는 것이 바람직하다. 도 10c는 신호 분석기(1037) 및 제어 가능 가중기(1036)를 더 도시한다.
특히, 본 발명의 실시 예들에 따른 장치는 제1 채널 신호와 제2 채널 신호 사이의 채널 간 시간 차를 추정하기 위한 것이다. 이 장치는 도 10a의 신호 분석기(1037), 도 10a의 상호 상관 스펙트럼 계산기(1020), 도 10a의 평활화 또는 평활화되지 않은 상호 상관 스펙트럼을 가중하기 위한 가중기(1036), 및 가중된 상호 상관 스펙트럼을 처리하기 위해 후속적으로 연결된 프로세서(1040)를 포함한다.
시간 스펙트럼 변환기(150), 스펙트럼 특성 추정기(1010), 평활화 필터(1030)는 본 발명의 기본적인 구현에 반드시 필요한 것은 아니지만, 본 발명의 바람직한 실시 예에 바람직하다. 신호 분석기(1037)는 제1 채널 신호 또는 제2 채널 신호 또는 두 신호, 또는 제1 채널 신호 또는 제2 채널 신호로부터 도출된 신호의 잡음 레벨(1038)과 같은 신호 특성을 추정하도록 구성된다. 따라서, 가중기(1036)에 의해 나중에 사용되며 바람직하게는 프로세서(1040)에서도 사용되는 잡음 추정과 같은 신호 특성 또는 신호 특성 추정치는 좌측 또는 제1 채널 신호, 또는 제2 또는 우측 채널 신호, 또는 두 신호 모두에서 도출될 수 있다. 두 신호로부터 신호 특성의 도출은 예를 들어, 제1 채널 신호의 개별 신호 특성의 도출, 또는 제2 또는 우측 채널 신호의 추가적인 개별 신호 특성으로부터 도출된 것일 수 있고, 최종 신호 특성(1038)은, 예를 들어 양 채널 간의 평균 또는 가중 평균일 수 있다. 여기서, 예를 들어, 가중은 진폭에 따라 수행될 수 있으므로, 예를 들어 채널의 프레임에서 상이한 진폭이 최종 잡음 레벨(1038)로의 대응하는 개별 잡음 추정치가 서로 다른 영향을 초래하게 된다. 또한, 제1 채널 신호 및 제2 채널 신호로부터 도출된 신호는 예를 들어, 결합된 신호를 얻기 위해 좌측 또는 제1 채널 신호와 제2 또는 우측 채널 신호를 함께 더하여 얻은 조합 신호이며, 이 때 신호 특성(1038)은 이 조합된 신호로부터 계산된다.
바람직한 실시 예에서, 신호 분석기(1036)는 잡음 추정기 또는 분석기로서 구현된다. 그러나, 매칭 가중 절차를 선택하도록 신호가 제1 특성을 갖는지 또는 제2 특성을 갖는지를 결정하기 위해서, 음조 분석, 음성 활동 감지, 과도 분석, 스테레오 분석, 음성/음악 분석, 간섭 화자 분석, 배경 음악 분석, 깨끗한 음성 분석 또는 기타 신호 분석과 같은 다른 신호 분석의 방법도 수행할 수 있다.
이 조합은 동일한 가중치 요소의 조합, 즉 가중치 없는 좌측 채널과 가중치 없는 우측 채널의 조합일 수 있으며, 이는 1.0의 가중 계수에 해당하거나 이와 다르게 다른 가중 계수가 적용될 수 있다. 또한, 제1 채널에서 도출된 신호 또는 제2 채널에서 도출된 신호는 고역 통과 필터링 또는 저역 통과 필터링을 수행하여 얻을 수 있거나, 진폭 압축 또는 진폭 역 압축 함수를 사용하여 처리를 수행하여 도출될 수 있다. 진폭 압축 함수는 로그 함수 또는 거듭 제곱 값이 1 보다 작은 함수이다. 역 압축 함수는 로그 함수 또는 거듭 제곱 값이 1 보다 큰 함수이다. 따라서, 특정 구현에 따라, 상이한 처리 동작이 상이한 좌측 및 우측 채널 신호에 적용될 수 있고, 두 채널 모두가 결합되거나 결합되지 않을 수도 있다. 바람직한 실시 예에서, 좌측 및 우측 채널은 바람직하게 특정 가중치 없이 함께 부가되고 다음에 신호 특성 추정치는 결합 계산의 결과로부터 계산된다.
시간 블록의 제1 채널 신호와 시간 블록의 제2 채널 신호로부터 시간 블록에 대한 상호 상관 스펙트럼을 계산하는 계산기(1020)는 여러 가지 방법으로 구현 될 수 있다. 한 가지 방법은 시간 영역 프레임의 시간 영역 신호로부터 상호 상관이 계산되고 그 결과가 시간 영역에서 스펙트럼 영역으로 변환되는 것이다. 다른 방법은 예를 들어 DFT 또는 그 외 다른 시간-스펙트럼 변환을 사용하여, 제1 채널 신호의 후속 프레임과 제2 채널 신호의 후속 프레임이 스펙트럼 표현으로 변환하는 것으로, 이 때 후속 프레임은 중첩하거나 중첩하지 않을 수 있다. 따라서, 제1 채널 신호의 각 시간 블록에 대해, 스펙트럼 표현이 획득되고, 이에 따라 제2 채널 신호의 각 시간 블록에 대해 스펙트럼 표현이 획득된다. 상호 상관 계산은 특정 주파수 빈 k 및 특정 시간 블록 또는 시간 샘플 지수 s의 스펙트럼 값에 제2 채널의 동일한 시간 블록의 스펙트럼 표현과 동일한 지수 k 및 동일한 지수 s를 갖는 스펙트럼 값의 켤레 복소수 값을 곱하여 수행된다. 시간 블록에 대한 상호 상관 스펙트럼을 계산하기 위해 위에서 설명한 것과 다른 다른 상호 상관 계산 절차가 또한 사용될 수 있다.
가중기(1036)는 계산기에 의해 획득된 상호 상관 스펙트럼을 가중하도록 구성된다. 일 구현에서, 상호 상관 스펙트럼은 평활화되지 않은 상호 상관 스펙트럼이며, 다른 실시 예에서 상호 상관 스펙트럼이 평활화될 수 있는데, 이 때 평활화는 시간에 대한 평활화이다. 따라서 평활화된 상호 상관 스펙트럼을 계산하기 위해, 마지막 블록의 상호 상관 스펙트럼을 현재 블록의 (원래의) 상호 상관 스펙트럼과 함께 사용할 수 있으며, 구현에 따라, 예를 들어 도 10a의 스펙트럼 특성 추정기(1010)에 의해 제공되는 바와 같이 평활화 제어 정보가 사용될 수 있다. 그러나, 평활화는 미리 결정된, 즉 일정하거나 시간 불변의 평활화 설정을 사용하여 수행 할 수 있다. 본 발명의 실시 예들에 따르면, 가중된 상호 상관 스펙트럼은 제1 가중 절차(1036a)를 사용하거나 또는 예를 들어 도 10d에 도시된 제2 가중 절차(1036b)를 사용하여 계산된다. 특히, 가중 상호 상관 스펙트럼이 제1 또는 제2 절차를 사용하여 유도되는지의 여부는 신호 분석기(1037)에 의해 추정된 신호 특성에 따라 수행된다. 따라서, 본 발명에 따르면, 제1 가중 특성을 갖는 가중 절차는 제1 채널 또는 제2 채널의 특정 신호 특성 또는 결합된 신호에 대해 사용되는 반면, 제2 가중 절차는 신호 분석기(1037)에 의해 결정된 다른 신호 특성에 따라 적용된다. 가중기(1036)의 결과는 제1 채널 신호와 제2 채널 신호 사이의 채널 간 시간 차를 얻기 위해 프로세서(1040)에 의해 추가로 처리되는 가중 및 평활화 또는 평활화되지 않은 상호 상관 스펙트럼이다.
도 10d는 본 발명의 실시 예에 따른 프로세서(1040)와 관련하여 잡음 추정기 및 가중기로서의 신호 분석기의 구현을 도시한다. 특히, 잡음 추정기(1037)는 잡음 추정 계산기(1037a) 및 잡음 추정 분류기(1037b)를 포함한다. 잡음 추정 분류기(1037b)는 도 10a의 블록(1037)에 의해 생성된 잡음 추정 출력(1038)에 대응하는 제어 신호(1050)를 출력한다. 이 제어 신호는 제1 스위치(1036c) 또는 제2 스위치(1036d)에 적용될 수 있다. 이 구현에서, 제1 가중 절차를 구현하는 처리 커널(1036a) 및 제2 가중 절차를 구현하기 위한 다른 계산 커널(1036b)이 제공된다. 구현에 따라 스위치(1036c)가 제공되며, 제어 신호(1050)에 따라, 스위치(1036c)에 의해 결정된 가중 절차만이 선택되며, 즉, 계산기(1020)에 의해 결정된 상호 상관 스펙트럼은 스위치(1036c)에 입력되고, 스위치 설정에 따라 커널(1036a) 또는 커널(1036b)로 전달한다. 또 다른 구현에서, 스위치(1036c)는 존재하지 않고 블록(1020)에 의해 결정되는 상호 상관 스펙트럼이 처리 커널(1036a 및 1036b) 모두에 공급되고, 출력 스위치(1036d)의 제어에 따라, 블록(1036a)의 출력 또는 블록(1036b)의 출력이 선택되어 프로세서(1040)로 전달된다. 따라서, 구현에 따라, 하나의 가중된 상호 상관 스펙트럼 만이 계산되며, 이 때 선택은 제어 신호(1050) 및 입력 스위치에 의해 수행된다. 다르게, 두 가중된 상호 상관 스펙트럼이 계산되고 출력 스위치(1036d)에 의해 선택된 상호 상관 스펙트럼 만이 프로세서(1040)로 전달된다. 또한, 입력/출력 스위치없이 단일 처리 커널 만이 있을 수 있으며 제어 신호에 따라 해당 시간 블록에 대해 올바른 가중치 절차가 설정된다. 따라서, 각각의 시간 블록에 대해, 잡음 추정 또는 제어 신호(1050)가 계산될 수 있고, 각각의 시간 블록에 대해, 하나의 가중 절차에서 다른 가중 절차로 전환될 수 있다. 이러한 맥락에서, 경우에 따라 3 개 이상의 상이한 잡음 추정치에 따라 3 개 이상의 상이한 가중 절차가 구현될 수도 있다는 점에 유의해야 한다. 따라서, 본 발명은 두 개의 서로 다른 가중 절차 사이의 선택을 유발할 뿐만 아니라, 제1 및 제2 채널 신호의 잡음 특성으로부터 도출된 제어 신호에 따라 3 개 이상의 가중 절차 중 선택을 포함할 수 있다.
바람직한 구현에서, 제1 가중 절차는 진폭이 정규화되고 위상이 유지되도록 하는 가중을 포함하고, 제2 가중 절차는 1 보다 작거나 0보다 큰 거듭 제곱을 갖는 거듭 제곱 연산을 사용하여 평활화되거나 평활화되지 않은 상호 상관 스펙트럼으로부터 도출된 가중 계수를 포함한다. 또한, 제1 가중 절차는 제2 가중 절차가 0과 1 사이의 거듭 제곱, 즉 0보다 크고 1 보다 작은 거듭 제곱을 사용한다는 점을 제외하면 제2 가중 절차와 대부분 동일한 반면, 제1 가중 절차는 어느 거듭제곱도 적용하지 않는데, 다시 말해서 1의 거듭 제곱을 적용한다. 따라서, 제2 가중 절차에 의해 수행된 정규화는 압축되어, 제1 가중 절차에 의해 적용된 정규화 계수는 일정 값을 가지며 제2 가중 절차를 통해 동일한 스펙트럼 상호 상관 값에 적용되는 정규화 계수는 더 작은 크기를 갖는다. 이것은 상호 상관 스펙트럼의 더 높은 스펙트럼 값에 적용된다. 그러나 상호 상관 스펙트럼의 작은 스펙트럼 값의 경우, 상호 상관 스펙트럼의 동일한 스펙트럼 값에 관련해서 제2 가중 절차에 대한 정규화 값은 제1 가중 절차에 대한 정규화 값 보다 크다. 이는 1/2 거듭 제곱을 갖는 제곱근 연산과 같이 1보다 작은 거듭 제곱 연산을 하면 작은 값을 증가시키고 큰 값은 저하시킨다. 따라서, 제2 가중 절차에 대한 추가 가중 계수 계산은 로그 함수와 같은 압축 함수를 포함할 수도 있다. 바람직한 실시 예에서, 제1 가중 절차는 위상 변환 (PHAT)에 적용된 가중에 기초하여 동작하고, 제2 가중 절차는 수정된 상호 전력 스펙트럼 위상 절차(MCSP)에 적용되는 계산을 기반으로 작동한다.
또한, 제2 가중 절차는 제2 정규화 절차의 출력 범위가 제1 정규화 절차의 출력 범위가 위치하고 있는 범위 내에 있거나, 제2 정규화 절차의 출력 범위가 제1 정규화 절차의 출력 범위와 동일하도록, 정규화를 포함하게 구현되는 것이 바람직하다. 이것은, 예를 들어, MCSP 가중 상호 상관 스펙트럼의 모든 스펙트럼 값의 절대 값을 계산하고, 하나의 시간 블록에 해당하는 하나의 스펙트럼 표현의 모든 크기를 더한 다음에, 그 결과를 시간 블록의 스펙트럼 값으로 나누어, 구현될 수 있다.
일반적으로, 도 10a의 프로세서(1040)는 가중된 상호 상관 스펙트럼에 대해 일부 처리 단계를 수행하도록 구성되고, 이 때 특히, 채널 간 시간 차를 최종적으로 얻기 위해 특정 피크 선택 작업이 수행된다. 바람직하게는, 이 피크 선택 작업은 시간 영역에서 발생하는데, 즉, 가중 및 평활화 또는 평활화되지 않은 상호 상관 스펙트럼은 스펙트럼 표현에서 시간 영역 표현으로 변환된 다음에, 시간 영역 표현이 분석되고, 특히 임계 값을 기반으로 하나의 피크 또는 여러 피크가 선택된다. 잡음 추정치의 설정에 따라, 제1 피크 선택 동작 또는 제2 피크 선택 동작이 수행되고, 이 때 바람직하게, 두 피크 선택 동작은 피크 선택 동작에 사용되는 임계 값에 대해 서로 다르다.
도 10e는 입력 스위치(1040) 및 출력 스위치(1043)에 대해 도 10d의 절차와 유사한 상황을 도시한다. 도 10e에 예시된 구현에서, 두 피크 선택 작업이 모두 적용될 수 있고, "정확한" 피크 선택 작업의 결과가 출력 스위치(1043)에 의해 선택 될 수 있다. 다르게, 입력 스위치가 있고 제어 신호(1050)에 따라, 정확한 피크 선택 절차, 즉 1041 또는 1042가 선택된다. 따라서, 일 구현에서, 두 스위치가 모두 존재하는 것은 아니지만, 일 구현에서 도 10d와 관련하여 이전에 도출된 것과 유사하게 입력 스위치(1040) 또는 출력 스위치(1043)가 있을 수 있다. 추가 구현에서는, 가변 임계 값으로 피크 선택 동작을 적용하는 단일 처리 커널만이 존재하며, 제어 신호(1050)는 단일 처리 커널 내에서 정확한 임계 값을 설정하기 위해 사용된다. 바람직한 실시 예에서, 임계 값 설정은 제2 임계 값이 제1 임계 값보다 크도록 수행되며, 이 때 제2 임계 값은 블록 1036b에서의 제2 가중 절차가 적용되었을 때 사용되고, 제1 임계 값은 블록 1036a의 제1 가중 절차가 적용되었을 때 사용된다. 따라서, 높은 레벨의 배경 잡음이 감지되면, 0과 1 사이의 거듭 제곱이나 로그 연산의 제2 가중 절차, 즉 압축 절차가 적용되고, 이 때 피크 선택을 위한 임계값은 낮은 레벨의 배경 잡음이 감지될 때, 즉 로그 함수와 같은 압축 함수 또는 1 보다 작은 거듭 제곱을 가진 거듭 제곱 함수에 의존하지 않는 정규화 계수로 정규화를 수행하는 제1 가중 절차가 적용될 때, 사용되는 피크 선택 임계 값에 비해 낮아야 한다.
이어서, 잡음 추정기(1037)로서 신호 분석기의 바람직한 구현이 도 10f에 도시된다. 기본적으로, 잡음 추정기(1037)는 도 10d에 도시되고 또한 도 10f에 나타낸 바와 같이 잡음 추정 계산기(1037a) 및 잡음 추정 분류기(1037b)로 구성된다. 잡음 추정 계산기(1037a)는 배경 잡음 추정기(1060) 및 예를 들어 IIR 필터로서 구현될 수 있는 후속 연결된 (시간) 평활기(1061)를 포함한다.
잡음 추정 계산기(1037a) 또는 특히 배경 잡음 추정기(1060)에 입력되는 것은 좌측 또는 제1 채널 신호의 프레임, 제2 또는 우측 채널 신호의 프레임 또는 이러한 채널 신호에서 도출된 신호, 또는 예를 들어, 동일한 시간 블록에서 제1 채널 신호의 시간 영역 표현과 제2 채널 신호의 시간 영역 표현을 더하여 획득한 결합 신호이다.
잡음 추정 분류기(1037b)와 관련하여, 입력 신호는 선택기(1071)를 제어하는 신호 활동 검출기(1070)로 전달된다. 신호 활동 검출기(1070)의 결과에 기초하여, 선택기(1071)는 활성 프레임만을 선택한다. 또한, 신호 레벨 계산기(1072)는 선택기(1071) 다음에 연결된다. 계산된 신호 레벨은 예를 들어 IIR 필터로서 구현되는 (시간) 평활기(1073)로 전달된다. 그런 다음, 블록 1074에서 신호 대 잡음비 계산이 발생하고, 그 결과는 비교기(1075) 내에서 예를 들어 25dB와 45dB 사이, 바람직하게 30 내지 40dB 사이, 더욱 바람직하게는 35dB인 미리 결정된 임계 값과 비교된다.
비교기(1075)의 출력은 높은 잡음 레벨 또는 낮은 잡음 레벨을 나타내거나 특정 방식의 임계 값 설정이 단일 가중 절차 프로세서에 의해 수행되어야 하는 것을 나타내는 검출 결과이고, 도 10d와 같이 두 개의 가중 절차 프로세서가 있는 경우, 비교기(1075)로부터의 판정 결과, 즉 신호(1050)는 정확하게 가중된 상호 상관 스펙트럼을 프로세서(1040)로 전달하기 위해 입력 스위치(1036c) 또는 출력 스위치(1036d)를 제어한다.
검출 결과(1050)는 바람직하게 각 시간 블록 또는 프레임에 대해 계산된다. 따라서, 예를 들어 특정 프레임에 대하여, 신호 활동 검출기(1070)가 이것이 비활성 프레임이라는 것을 나타내면, 선택기(1071)는 활성 프레임만 선택하기 때문에, 이 프레임에 대해 신호 레벨 계산이나 시간 평활화는 수행되지 않는다. 따라서, 비활성 프레임에 대해서는, SNR 비율 계산이 일 실시 예에서는 수행되지 않으므로, 이 실시 예에서, 이 비활성 프레임의 경우 검출 결과가 전혀 제공되지 않는다. 따라서, 일 구현에서, 마지막 활성 프레임에 대해 이전에 결정된 것과 동일한 가중 절차가 사용되거나, 아니면, 비활성 프레임의 경우, 제1 가중 절차 또는 제2 가중 절차 또는 심지어 제3 가중 절차가 차선택으로 적용된다. 대안적으로, SNR 비율 계산기(1074)는 비활성 프레임에 대해 마지막 또는 가장 최근에 발생한 활성 프레임의 시간 평활 신호 레벨을 사용하도록 구현될 수 있다. 따라서, 비활성 프레임에 대해서도 탐지 결과를 얻거나 비활성 프레임의 경우 특정 (대체) 가중 절차를 사용하거나, 비활성 프레임의 경우 비활성 프레임 이전의 마지막 활성 프레임에 대해 결정된 것과 동일한 가중 절차가 경우에 따라 계속 사용된다.
종래의 특허 출원 참고문헌 [1]에서는, 채널 간 시간 차(ITD) 추정기가 도입되었다. 이 추정기는 TDOA 문헌(초기 논문은 [2], 또 다른 참조는 [3])에서 널리 사용되는 기술인 위상 변환 일반 상호 상관(generalized cross-correlation with phase transform; GCC-PHAT)를 기반으로 한다 . 두 채널 간의 시간 차는 GCC의 출력의 피크를 선택하여 찾을 수 있다. 긴 분석 창 길이를 사용하거나 시간이 지남에 따라 상호 상관 스펙트럼을 평활화하여 더 나은 견고성을 얻을 수 있다. [1]의 주된 기여는 이 평활화에 스펙트럼 평활도 측정에 따른 평활 계수가 적용되게 하는 것이다.
[1]의 ITD 추정기 단계는 다음과 같이 설명할 수 있다:
1. 이산 푸리에 변환: 좌측 채널
Figure 112020118003234-pct00001
의 신호와 우측 채널
Figure 112020118003234-pct00002
의 신호는 DFT를 사용하여 프레이밍되고, 윈도잉되고 주파수 영역으로 변환된다.
Figure 112020118003234-pct00003
Figure 112020118003234-pct00004
이 때, n은 시간 샘플 지수, s는 프레임 지수, k는 주파수 지수, N은 프레임 길이, NDFT는 DFT 길이, w(n)은 분석 창이다.
2. 상호 상관 스펙트럼: 두 채널 간의 상관 관계는 주파수 영역에서 계산된다.
Figure 112020118003234-pct00005
3. 평활화: 상호 상관 스펙트럼은 스펙트럼 평탄도 측정에 따라 평활 계수를 사용하여 시간이 지남에 따라 평활화된다. 더 강력한 평활화는 스펙트럼 평탄도가 ITD 추정기를 고정된 음조 신호에 대해 더 견고하게 하도록 하기 위해 낮을 때 사용된다. 약한 평활화는 스펙트럼 평탄도가 ITD 추정기를 과도 신호에 더 빠르게 적응 하도록 하기 위해 높을 때, 즉 신호가 빠르게 변하고 있을 때 사용된다.
평활화는
Figure 112020118003234-pct00006
를 사용하여 수행되고, 이 때,
Figure 112020118003234-pct00007
Figure 112020118003234-pct00008
이다.
4. 가중: 평활화된 상호 상관 스펙트럼은 그 크기의 역으로 가중된다. 이 가중치는 진폭을 정규화하고 위상만 유지하는데, 이것이 바로 위상 변환 (PHAT)이라고 불리는 이유이다.
Figure 112020118003234-pct00009
5. 역변환: 최종 GCC는 상호 상관 스펙트럼
Figure 112020118003234-pct00010
를 다시 시간 영역으로 변환하여 획득된다.
Figure 112020118003234-pct00011
6. 피크 선택: 가장 간단한 방법은 단계 5에서 찾은 GCC의 절대 값의 전역 최대 값을 검색하는 것이다. 이 최대 값이 일부 임계 값보다 큰 값이면, ITD는 이 최대 값에 해당하는 지연값 n으로 추정된다. 보다 개선된 접근 방식은 시간이 지남에 따라 보다 원활한 ITD 추정을 얻기 위해 추가 히스테리시스 및/또는 행오버(hangover) 기반 메커니즘을 사용한다.
GGC-PHAT는 저 소음, 반향 환경에서 매우 잘 작동한다 (예를 들어,[3] 참조). 그러나, 배경 소음 레벨이 높거나 다른 신호 구성 요소 (예를 들어, 음악, 과도 현상, 복잡한 스테레오 장면, 비활성으로 분류된 프레임, 화자의 간섭)가 있는 경우, GCC-PHAT 성능이 크게 떨어진다. 그러면 GCC 출력은 잡음이 있고 하나의 강력한 피크를 포함하지 않는다. 결과적으로 피크 선택은 종종 정확한 ITD를 찾는 데 실패하게 된다. 이는 위상 변환이 신호 대 잡음비에 관계 없이 모든 주파수를 동일하게 처리하기 때문이다. 그런 다음 GCC는 신호 대 잡음비가 낮은 빈의 위상에 의해 오염된다.
이 문제를 피하기 위해, 다른 많은 GCC 가중이 참고 문헌에서 제안되었다. 그중 하나는 문제가 되는 테스트 신호에 매우 효과적인 것으로 밝혀졌다. 이는 처음에 [4]에서 제안되었으며 당시 "수정된 상호 전력 스펙트럼 위상 (MCSP)"이라고 불렸다. 잡음이 심한 환경에서 우수한 성능은 나중에 다른 여러 논문에서 확인되었다 (예를 들어, [5] 참조). 가중치 (종래 기술의 단계 4)는 다음과 같이 수정된다:
Figure 112020118003234-pct00012
여기서
Figure 112020118003234-pct00013
는 0과 1 사이의 매개변수이다.
Figure 112020118003234-pct00014
는 정상적인 상호 상관의 경우에 해당하고
Figure 112020118003234-pct00015
는 GCC-PHAT의 경우에 해당한다. 일반적으로 1에 가까운 값이 사용되며, 이는 일반적으로 신호에 해당하는, 상관 관계가 높은 빈은 신호에 보통 해당하지만 낮은 상관 관계를 갖는 빈은 잡음에 해당한다는 점을 강조함으로써 GCC-PHAT을 수정 가능하게 한다. 보다 정확하게는, 값
Figure 112020118003234-pct00016
은 최상의 성능을 제공한다는 것을 알아내었다 ([4]에서는 0.75, [5]에서는 0.78이었음).
바람직하지 않게도, 이 새로운 가중 절차는 높은 레벨의 배경 잡음이 있는 경우에만 GCC-PHAT 보다 더 잘 수행된다. 새로운 가중이 GCC-PHAT보다 더 잘 수행될 수 있는 대체 시나리오로, 비활성 프레임 (예를 들어, 음성 활동 감지가 비활성을 감지하여 낮은 음성 레벨을 나타낼 수 있음), 과도의 존재, 복잡한 스테레오 시나리오, 음악, 화자의 간섭, 배경 음악의 존재로, 깨끗하지 않음 음성이 있다. 배경 잡음이나 음악 또는 깨끗한 음성에서 벗어나는 기타 신호 구성 요소가 전혀 없거나 미미한 음성과 같은, 깨끗한 환경에서 GCC-PHAT은 여전히 더 잘 수행된다. 항상 최상의 결과를 얻으려면 신호 내용에 따라 두 가지 접근 방식을 전환해야 할 필요가 있다.
신호에 높은 레벨의 배경 잡음이 있는지 감지하기 위해, 신호 활동 감지기 (SAD)와 함께 잡음 추정기가 사용된다. 신호
Figure 112020118003234-pct00017
의 레벨은 SAD가 신호를 감지한 프레임에서 추정될 수 있고, 잡음
Figure 112020118003234-pct00018
의 레벨은 잡음 추정기에 의해 추정된다. 높은 레벨의 배경 잡음의 존재는 신호 대 잡음 비율
Figure 112020118003234-pct00019
(dB 단위)을 임계 값과 비교하여 간단히 감지되는데, 예를 들어,
Figure 112020118003234-pct00020
이면, 높은 잡음 레벨이 감지된다.
신호에 높은 레벨의 배경 잡음이 포함되어 있는지 여부가 확인되면, GCC를 계산하기 위해 PHAT 가중 또는 MCSP 가중을 선택하기 위한 결정이 내려진다 (종래 기술의 단계 4). 피크 선택 (종래 기술의 단계 6)은 임계 값을 낮춤으로써 예를 들어 높은 배경 잡음 레벨이 검출되었는지 여부에 따라 수정될 수도 있다.
이어서, 바람직한 실시 예가 단계별 방식으로 설명된다.
0. 높은 배경의 소음 레벨 감지:
a. 잡음 추정기 (예를 들어, [6]에서)는 배경 잡음
Figure 112020118003234-pct00021
의 레벨을 추정하는 데 사용된다. IIR 평활화 필터는 시간이 지남에 따라 잡음 레벨을 평활화하는 데 사용된다.
b. 신호 활동 감지기 (예를 들어 [6]에서)는 프레임을 활성 또는 비활성으로 분류하는 데 사용된다. 활성 프레임은 간단히 신호 에너지를 계산하고 이것을 IIR 평활 필터를 사용하여 시간에 따라 평활화함으로써, 신호 레벨
Figure 112020118003234-pct00022
를 계산하는 데 사용된다.
c. 신호 대 잡음비
Figure 112020118003234-pct00023
(dB 단위)가 임계 값 (예를 들어, 35dB) 미만이면, 높은 배경 소음 레벨이 감지된다.
1. 이산 푸리에 변환: 종래 기술과 동일
2. 상호 상관 스펙트럼: 종래 기술과 동일
3. 평활화: 임의의 종래 기술에서 또는 스펙트럼 특성을 기반으로 본 명세서에서 설명된 것과 동일
4. 가중화:
낮은 레벨의 배경 잡음이 감지되면, 종래 기술과 동일한 가중치가 사용된다 (GCC-PHAT).
높은 레벨의 배경 소음이 감지되면, MCSP 가중이 사용된다.
Figure 112020118003234-pct00024
이 때
Figure 112020118003234-pct00025
(예를 들어,
Figure 112020118003234-pct00026
)이다. GCC-MCSP 출력을 GCC-PHAT 출력과 동일한 범위로 유지하기 위해, 추가 정규화 단계가 수행된다.
Figure 112020118003234-pct00027
5. 역 변환: 종래 기술과 동일
6. 피크 선택: 높은 레벨의 배경 잡음이 감지되고 MCSP 가중치가 사용되는 경우 피크 선택을 조정할 수 있다. 특히, 낮은 임계 값이 바람직하다는 것이 밝혀졌다.
또한, 도 10a는 도 10c의 구현과 다른 구현을 예시한다. 도 10c의 가중기(1036)에서, 가중기는 제1 또는 제2 가중 절차를 수행한다. 그러나, 도 10a에 도시된 가중기(1036)에서, 가중기는 도 10d 또는 10c의 표기와 관련하여 제2 가중 절차만을 수행한다. 이 구현은 예를 들어, 단일의 수치적 또는 하드웨어적 연산에서 평활화 이후 또는 평활화와 함께 제1 가중 절차를 이미 수행한 블럭 1030에 예시된 평활화 필터가 사용될 때 유용하다. 따라서, 평활화 필터에서 압축없이 정규화 연산인 제1 가중 절차를 수행하는 경우, 한편의 평활화 필터(1030) 및 다른 편의 실제 가중기(1036)가 평활화 또는 평활화되지 않은 또는 평활화되지 않은 상호 상관 스펙트럼을 가중하기 위한 실제 가중기에 대응한다. 따라서, 도 10a의 구현에서, 잡음 추정치(1038)가 별도의 가중치(1036)에 제공되고, 가중기(1036)가 출력 신호를 제공하지 않을 때, 가중 절차에 따라 이미 가중된 평활화 필터(1030)의 출력과 도 10a의 실제 가중기(1036)의 출력 사이의 선택은 평활화 필터(1030)로부터의 출력을 자동으로 사용하는 특정 프로세서(1040)에 의해 수행되며, 가중기(1036)가 출력을 제공할 때 평활화 필터(1030)의 출력 보다 가중기(1036)의 출력을 자동으로 우선시한다. 그 후, 잡음 추정치(1038) 또는 다른 도면에서 논의된 바와 같이, 제어 신호(1050)는 가중기(1036)를 활성화 또는 비활성화하기 위해 사용된다. 따라서 1차 가중 절차를 사용하여 평활화 또는 평활화되지 않은 상호상관 스펙트럼에 가중치를 부여하는 실제 가중기는 여러 가지 방법으로 구현될 수 있는데, 입력 또는 출력 스위치로 또는 제어 신호에 따라 하나 또는 다른 가중 절차를 선택하거나 일반 가중 처리기를 적용하여 제1 또는 제2 가중 절차를 수행하도록 하는 단일 가중 절차 커널에 따라서, 도 10a의 특정 활성화/비활성화 모드 또는 도 10d의 2-커널 모드에서와 같은 방법이 있다.
이어서, 가중치 부여 전에 평활화가 수행되는 바람직한 실시 예가 설명된다. 이러한 맥락에서, 스펙트럼 특성 추정기의 기능은 또한 바람직한 실시 예에서 도 4e에서 도면 부호 453, 454에 의해 반영된다.
더욱이, 상호 상관 스펙트럼 계산기(1020)의 기능은 또한 바람직한 실시 예에서 후술하는 도 4e의 도면 부호 452에 의해 반영된다.
이에 상응하여, 평활화 필터(1030)의 기능은 또한 후술하는 도 4e의 맥락에서 도면 부호 453에 의해 반영된다. 추가로, 프로세서(1040)의 기능은 또한 도면 부호 456 내지 459로서 바람직한 실시 예에서 도 4e의 맥락에서 설명된다.
프로세서(1040)의 바람직한 실시 예는 또한 도 10c에 설명되어 있다.
바람직하게, 스펙트럼 특성 추정에서는 선호되는 구현이 음조 또는 비잡음 신호의 경우 0에 가까운 스펙트럼 평탄도 측정 값을 계산하고 잡음이 있거나 잡음형 신호의 경우 1에 가까운, 스펙트럼의 잡음 또는 음조가 계산된다.
특히, 평활화 필터는 제1 저 잡음 특성 또는 제1 고 음조 특성의 경우 시간이 지남에 따라 제1 평활화 정도를 갖는 강한 평활화를 적용하거나, 제2 고 잡음 또는 제2 저 음조 특성의 경우 시간이 지남에 따라 제2 평활화 정도를 갖는 약한 평활화를 적용하도록 구성된다.
특히, 제1 평활화는 제2 평활화 정도 보다 크며, 이 때 제1 잡음 특성은 제2 잡음 특성 보다 잡음이 적거나 제1 음조 특성은 제2 음조 특성 보다 음조가 더 크다. 바람직한 구현은 스펙트럼 평탄도 측정이다.
또한, 도 11a에 도시된 바와 같이, 프로세서는 바람직하게 도 4e의 실시 예에서 단계 457 및 458에 대응하는 단계 1031에서 시간 영역 표현의 계산을 수행하기 전에, 도 4e 및 11a의 456에 예시된 바와 같이 평활화된 상호 상관 스펙트럼을 정규화하도록 구현된다. 그러나, 또한 도 11a에 개략적으로 설명된 바와 같이, 프로세서는 도 4e의 단계 456에서 정규화 없이도 동작할 수 있다. 그 후, 프로세서는 채널 간 시간 차를 구하기 위해 도 11a의 블록 1032에 도시된 바와 같이 시간 영역 표현을 분석하도록 구성된다. 이 분석은 알려진 방법으로 수행될 수 있으며 결과적으로 견고성이 향상되게 되는데, 이 분석이 스펙트럼 특성에 따라 평활화된 상호 상관 스펙트럼을 기반으로 수행되기 때문이다.
도 11b에 도시된 바와 같이, 시간 영역 분석(1032)의 바람직한 구현은 도 4e의 도면 부호 458에 대응하는 도 11b의 458에 예시된 바와 같이 시간 영역 표현의 저역 통과 필터링이고, 저역 통과 필터링된 시간 영역 표현 내에서 피크 검색/피크 선택 동작을 사용하는 후속 추가 처리(1033)를 포함한다.
도 11c에 도시된 바와 같이, 피크 선택 또는 피크 검색 동작의 바람직한 구현은 가변 임계 값을 사용하여 이 동작을 수행하는 것이다. 특히, 프로세서는 시간 영역 표현에서 가변 임계 값을 결정하고(1034) (스펙트럼 정규화를 사용하거나 사용하지 않고 획득된) 시간 영역 표현의 하나의 피크 또는 여러 피크를 가변 임계 값과 비교함으로써, 평활화된 상호 상관 스펙트럼에서 도출된 시간 영역 표현 내에서 피크 검색/피크 선택 작업을 수행하도록 구성된다. 이 때 채널 간 시간 차이는 가변 임계 값보다 큰 것과 같이 임계 값과 미리 결정된 관계에 있는 피크와 관련된 시간 지연으로서 결정된다.
도 11d에 도시된 바와 같이, 나중에 설명되는 도 4e-b와 관련된 의사 코드에 설명되는 바람직한 일 실시 예는 그 크기에 따른 값들의 정렬 단계(1034a)로 구성된다. 그 후, 도 11d의 도면 부호 1034b에 예시된 바와 같이, 이 값의 최대 예들 들어, 10 또는 5 %가 결정된다.
그 후, 단계 1034c에 도시된 바와 같이, 가변 임계 값을 얻기 위해서 3과 같은 숫자를 최대 10 또는 5 % 중 가장 낮은 값에 곱한다.
언급된 바와 같이, 바람직하게, 최대 10 또는 5 %가 결정되지만, 이것은 또한 이 값의 최대 50% 중 최소의 수를 결정하고 10과 같은 더 큰 수를 사용하는 것도 유용할 수 있다. 당연히, 이 값의 최대 3 %와 같은 더 작은 양도 결정되고 이 값의 최대 3 %의 값 중 가장 낮은 값을 예를 들어 2.5 또는 2, 즉 3보다 작은 숫자와 곱한다. 따라서, 숫자와 백분율의 다른 조합이 도 11d에 예시된 실시 예에서 사용될 수 있다. 백분율과 달리, 숫자는 변형될 수 있으며, 1.5보다 큰 숫자가 선호된다.
도 11e에 예시된 추가 실시 예에서, 시간 영역 표현은 블록 1101에 예시된 바와 같이 서브 블록으로 분할되고, 이들 서브 블록은 도 13에서 도면 부호 1300으로 표시된다. 여기서, 유효 범위에 대해 약 16개의 서브 블록이 사용되므로 각 서브 블록은 20의 시간 지연 시간을 갖는다. 그러나, 서브 블록의 수는 이 값보다 크거나 작을 수 있으며 바람직하게는 3 보다 크고 50보다 작을 수 있다.
도 11e의 단계 1102에서, 각 서브 블록의 피크가 결정되고, 단계 1103에서 모든 서브 블록의 평균 피크가 결정된다. 그 다음, 단계 1104에서, 한 편으로는 신호 대 잡음비에 의존하는 곱셈 값 a가 결정되고, 추가 구현예에서, 블록(1104)의 좌측에 표시된 바와 같이 임계 값과 최대 피크 사이의 차이에 의존한다. 이러한 입력 값에 따라, 바람직하게는 3 개의 상이한 곱셈 값 중 하나가 결정되며, 여기서 곱셈 값은 alow, ahigh 및 alowest와 동일할 수 있다.
그 다음, 단계 1105에서, 블록 1106의 비교 연산에서 사용되는 가변 임계 값을 얻기 위해서 블록 1104에서 결정된 곱셈 값 a에 평균 임계 값을 곱한다. 비교 연산을 위해, 다시 한 번 블록(1101)에 입력된 시간 영역 표현을 사용할 수 있거나, 블록(1102)에 설명된 바와 같이 각각의 서브블록에서 이미 결정된 피크가 사용될 수 있다.
다음에, 시간 영역 상호 상관 함수 내에서 피크의 평가 및 검출에 관한 추가 실시 예가 설명된다.
채널 간 시간 차(ITD)를 추정하기 위해 일반 상호 상관(GCC-PHAT)으로부터 결과된 시간 영역 상호 상관 함수 내 피크의 평가 및 검출은 다른 입력 시나리오에 의해서는 항상 간단한 것은 아니다. 깨끗한 음성 입력은 강한 피크를 갖는 낮은 편차의 상호 상관 함수를 생성할 수 있는 반면, 잡음이 많은 반향음 환경에서의 음성은 ITD의 존재를 나타내는 더 낮지만 여전히 두드러진 크기를 갖는 피크와 높은 편차를 가진 벡터를 생성 할 수 있다. 다양한 입력 시니리오를 수용할 수 있도록 적응적이고 유연한 피크 감지 알고리즘이 설명된다.
지연 제약으로 인해, 전반적인 시스템은 특정 제한, 즉 ITD_MAX까지 채널 시간 정렬을 처리할 수 있다. 제안된 알고리즘은 다음과 같은 경우 유효한 ITD가 존재하는지의 여부를 감지하도록 설계된다.
* 두드러진 피크로 인한 유효 ITD. 상호 상관 함수의 [-ITD_MAX, ITD_MAX] 경계 내에 두드러진 피크가 있다.
* 상관 관계가 없음. 두 채널간에 상관 관계가 없는 경우, 두드러진 피크가 없다. 임계 값을 정의해야 하며, 그 위의 피크는 유효한 ITD 값으로 간주할 수 있을만큼 강하다. 그렇지 않으면, ITD 처리의 신호를 보내지 않는데, 이는 ITD가 0으로 설정되고 시간 정렬이 수행되지 않은 것을 의미한다.
* 범위 밖 ITD. [-ITD_MAX, ITD_MAX] 영역 외부의 상호 상관 함수의 강력한 피크는 시스템의 처리 능력 밖에 있는 ITD가 존재하는지를 확인하기 위해 평가되어야 한다. 이 경우 ITD 처리를 신호로 보내서는 안되므로 시간 정렬은 수행되지 않는다.
피크의 크기가 시간 차 값으로 간주될 만큼 충분히 큰지 확인하려면, 적절한 임계 값을 정의해야 한다. 다른 입력 시나리오의 경우, 상호 상관 함수 출력은 다른 매개변수, 예를 들어, 환경 (잡음, 반향음 등), 마이크로폰 설정 (AB, M/S 등)에 따라 달라진다. 따라서 임계 값을 적응적으로 정의하는 것이 필수적이다.
제안된 알고리즘에서, 임계 값은 먼저 [-ITD_MAX, ITD_MAX] 영역 내에서 상호 상관 함수의 크기의 엔벨로프의 대략적인 평균을 계산하여 정의되고 (도 13). 다음에 이 평균은 SNR 추정에 따라 가중된다.
알고리즘에 대한 단계별 설명은 아래에 설명되어 있다.
시간 영역 상호 상관을 나타내는 GCC-PHAT의 역 DFT 출력은 음의 시간 지연에서 양의 시간 지연으로 재배열된다 (도 12).
상호 상관 벡터는 세 주요 영역으로 나뉜다: 관심 영역 즉 [-ITD_MAX, ITD_MAX] 및 ITD_MAX 경계 밖 영역, 즉 -ITD_MAX(max_low)보다 작고 ITD_MAX(max_high) 보다 큰 시간 지연. "범위 밖" 영역의 최대 피크가 감지되고 저장되어 관심 영역에서 감지된 최대 피크와 비교된다.
유효한 ITD가 존재하는지 여부를 판단하기 위해 상호 상관 함수의 서브 벡터 영역 [-ITD_MAX, ITD_MAX]을 고려한다. 서브 벡터는 N 개의 서브 블록으로 나뉜다 (도 13).
각 서브 블록에 대해 최대 피크 크기 peak_sub 및 등가의 시간 지연 위치 index_sub를 찾아 저장한다.
국부적 최대 값 peak_max이 결정되고 임계 값과 비교되어 유효한 ITD 값이 있는지 확인한다.
최대 값 peak_max는 max_low 및 max_high와 비교된다. peak_max가 둘 중 하나 보다 낮으면 itd 처리를 신호 보내지 않고 시간 정렬은 수행되지 않는다. 시스템의 ITD 처리 한계로 인해, 범위 밖 피크의 크기를 평가할 필요가 없다.
피크 크기의 평균이 계산된다:
Figure 112020118003234-pct00028
임계 값 thres는 SNR 의존 가중 계수 aw로 peakmean을 가중하여 계산된다.
Figure 112020118003234-pct00029
SNR≪SNRthreshold 및 |thres-peak_max| <ε인 경우, 피크 크기는 높은 인접 피크들을 갖는 두드러진 피크의 거부를 방지하기 위해, 약간 더 완화된 임계값 (aw = alowest) 과도 비교된다. 가중치 요인은 예를 들어 ahigh = 3, alow = 2.5 및 alowest = 2 일 수 있는 반면, SNRthreshold는 예를 들어 20dB이고 경계 ε = 0.05 일 수 있다.
바람직한 범위는 ahigh에 대해서는 2.5 내지 5; alow에 대해서는 1.5 to 4; alowest에 대해서는 1.0 to 3; SNRthreshold에 대해서는 10 to 30 dB; 및 ε에 대해서는 0.01 to 0.5이고, 이 때 ahigh 는 alow 보다 크고, 이는 alowest보다 크다.
peak_max > thres이면 동등한 시간 지연이 추정된 ITD로 반환되고, 그렇지 않으면 itd 처리는 신호 보내지지 않는다(ITD = 0). 추가적인 실시 예는 도 4e와 관련하여 나중에 설명된다.
도 11f는 유효한 ITD (채널 간 시간 차) 출력을 결정하는 바람직한 구현을 예시한다.
가중 및 평활화 또는 평활화되지 않은 상호 상관 스펙트럼의 시간 영역 표현의 서브 블록은 프로세서(1040) 내의 결정 단계에 입력된다. 이 결정 단계(1120)는 가중된 및 평활화 또는 평활화되지 않은 상호 상관 스펙트럼으로부터 도출된 시간 영역 표현 내의 유효 범위 및 무효 범위를 결정한다. 단계 1121에서, 무효 범위 내에서 최대 피크를 결정하고, 단계 1122에서 유효 범위 내에서 최대 피크를 결정한다. 특히, 무효 범위 내에서 적어도 하나의 최대 피크가 결정되고 유효 범위 내에서 적어도 하나의 최대 피크가 결정된다. 블록 1123에서, 유효 범위와 유효하지 않은 범위의 최대 피크가 비교된다. 유효 피크, 즉 유효 범위의 최대 피크가 "무효 피크", 즉 무효 범위의 최대 피크보다 큰 경우, 실제로 ITD 결정(1124)이 수행되고 유효한 ITD 출력이 제공된다. 그러나 "유효하지 않은 피크"가 "유효한 피크" 보다 크거나 유효하지 않은 피크가 유효한 피크와 동일한 크기라고 감지되면, 유효한 출력이 제공되지 않으며 오류 메시지 또는 유사한 조치가 수행되어 프로세서가 조치하도록 하는 것이 바람직하다.
그 후, 신호 추가 프로세서를 위해 도 10b의 블록(1050) 내에서 본 발명의 바람직한 구현은 도 1 내지 도 9e와 관련하여, 즉, 스테레오/다중 채널 처리/인코딩 및 두 채널의 시간 정렬의 맥락에서 설명된다.
그러나, 언급되고 도 10b에서 도시된 바와 같이, 결정된 채널 간 시간 차를 사용하여 추가 신호 처리가 또한 수행될 수 있는 다른 많은 영역이 존재한다.
도 1은 적어도 2 개의 채널을 갖는 다중 채널 신호를 인코딩하기 위한 장치를 예시한다. 다중 채널 신호(10)는 한편으로는 매개변수 결정기(100)로 입력되고 다른 한편으로는 신호 정렬기(200)로 입력된다. 매개변수 결정기(100)는 한편으로는 광대역 정렬 매개변수를 결정하고, 다른 한편으로는 다중 채널 신호로부터 복수의 협대역 정렬 매개변수를 결정한다. 이러한 매개변수는 매개변수 라인(12)를 통해 출력된다. 더욱이, 이들 매개변수는 또한 예시된 바와 같이 추가 매개변수 라인(14)을 통해 출력 인터페이스(500)로 출력된다. 매개변수 라인(14)에서, 레벨 매개변수와 같은 추가 매개변수는 매개변수 결정기(100)로부터 출력 인터페이스(500)로 전달된다. 신호 정렬기(200)는 신호 정렬기(200)의 출력에서 정렬된 채널(20)을 획득하기 위해서 광대역 정렬 매개변수 및 매개변수 라인(10)을 통해 수신된 복수의 협대역 정렬 매개변수를 사용하여 다중 채널 신호(10)의 적어도 2 개 채널을 정렬하기 위해 구성된다. 이러한 정렬된 채널(20)은 라인(20)을 통해 수신된 정렬 채널로부터 중간 신호(31) 및 측면 신호(32)를 계산하도록 구성된 신호 프로세서(300)로 전달된다. 인코딩 장치는 라인(41) 상의 인코딩된 중간 신호 및 라인(42) 상의 인코딩된 측면 신호를 획득하기 위해 라인(31)으로부터의 중간 신호 및 라인(32)으로부터의 측면 신호를 인코딩하기 위한 신호 인코더(400)를 더 포함한다. 이들 신호는 모두 출력 라인 (50)에서 인코딩된 다중 채널 신호를 생성하기 위해 출력 인터페이스(500)로 전달된다. 출력 라인(50)에서의 인코딩된 신호는 라인(41)의 인코딩된 중간 신호, 라인(42)의 인코딩된 측면 신호, 라인(14)의 협대역 정렬 매개변수 및 광대역 정렬 매개변수, 및 선택적으로, 라인(14)로부터의 레벨 매개변수, 및 더욱 선택적으로 신호 인코더(400)에 의해 생성되고 매개변수 라인(43)을 통해 출력 인터페이스(500)로 전달되는 스테레오 충전 매개변수를 포함한다.
바람직하게, 신호 정렬기는 매개변수 결정기(100)가 실제로 협대역 매개변수를 계산하기 전에, 광대역 정렬 매개변수를 사용하여 다중 채널 신호로부터 채널을 정렬하도록 구성된다. 따라서, 이 실시 예에서, 신호 정렬기(200)는 광대역 정렬 채널을 연결 라인(15)을 통해 매개변수 결정기(100)로 다시 전송한다. 이후, 매개변수 결정기(100)는 광대역 특성 정렬 다중 채널 신호에 대하여 복수의 협대역 정렬 매개변수를 결정한다. 그러나, 다른 실시 예에서, 매개변수는 이러한 특정 절차 순서없이 결정된다.
도 4a는 연결 라인(15)을 발생시키는 단계의 특정 시퀀스가 수행되는 바람직한 구현을 예시한다. 단계 16에서는, 두 개의 채널을 이용하여 광대역 정렬 매개변수를 결정하고 채널 간 시차 또는 ITD 매개변수와 같은 광대역 정렬 매개변수를 획득한다. 그 다음, 단계 21에서, 2 개의 채널은 광대역 정렬 매개변수를 사용하여 도 1의 신호 정렬기(200)에 의해 정렬된다. 그 다음, 단계 17에서, 다중 채널 신호의 상이한 대역에 대한 복수의 채널 간 위상차 매개변수와 같은 복수의 협대역 정렬 매개변수를 결정하기 위해, 협대역 매개변수는 매개변수 결정기(100) 내의 정렬 채널을 사용하여 결정된다. 그 다음, 단계 22에서, 각 매개변수 대역의 스펙트럼 값은 이 특정 대역에 대해 대응하는 협대역 정렬 매개변수를 사용하여 정렬된다. 협대역 정렬 매개변수를 사용할 수 있는 각 대역에 대해, 단계 22의 절차를 수행하면, 그 다음 정렬된 제1 및 제2 또는 좌측/우측 채널은 도 1의 신호 프로세서(300)에 의한 추가 신호 처리를 위해 이용 가능하다.
도 4b는 주파수 영역에서 여러 절차가 수행되는 도 1의 다중 채널 인코더의 추가 구현을 예시한다.
구체적으로, 다중 채널 인코더는 시간 영역 다중 채널 신호를 주파수 영역 내의 적어도 2 개의 채널의 스펙트럼 표현으로 변환하기 위한 시간 스펙트럼 변환기(150)를 더 포함한다.
또한, 152에 도시된 바와 같이, 도 1의 100, 200 및 300에 도시된 매개변수 결정기, 신호 정렬기 및 신호 프로세서는 모두 주파수 영역에서 동작한다.
또한 다중 채널 인코더, 특히 신호 프로세서는 적어도 중간 신호의 시간 영역 표현을 생성하기 위한 스펙트럼-시간 변환기(154)를 더 포함한다.
바람직하게는, 스펙트럼 시간 변환기는 또한 블록(152)에 의해 표현된 절차에 의해 결정된 측면 신호의 스펙트럼 표현을 시간 영역 표현으로 추가로 변환하고, 도 1의 신호 인코더(400)는 도 1의 신호 인코더(400)의 특정 구현에 따라 중간 신호 및/또는 측면 신호를 시간 영역 신호로서 추가로 인코딩하도록 구성된다.
바람직하게는, 도 4b의 시간-스펙트럼 변환기(150)는 도 4c의 단계 155, 156 및 157을 구현하도록 구성된다. 구체적으로, 단계 155는 예를 들어, 나중에 도 7에 설명된 바와 같이, 그 한쪽 끝에 적어도 하나의 제로 패딩(zero padding) 부분, 특히 초기 창 부분에 제로 패딩 부분 및 종료 창 부분에 제로 패딩 부분을 갖는 분석 창을 제공하는 것을 포함한다. 더욱, 분석 창은 추가적으로 창의 전반부와 창의 후반부에 중첩 범위 또는 중첩 부분을 가지며, 추가적으로 바람직하게는 경우에 따라 비중첩 범위인 중간 부분을 갖는다.
단계 156에서, 각 채널은 중첩 범위를 갖는 분석 윈도우를 사용하여 윈도우화된다. 특히, 각 채널은 채널의 제1 블록이 얻어지도록 분석 창을 사용하여 윈도우화된다. 그 후, 제1 블록과 일정한 중첩 범위를 갖는 동일한 채널의 제2 블록이 획득되어, 예를 들어, 5 개의 윈도우화 작업 이후에, 각 채널의 5 개의 윈도우화 샘플의 블록이 이용 가능하며, 다음에 도 4c의 157에 예시된 바와 같이 개별적으로 스펙트럼 표현으로 변환된다. 다른 채널에 대해서도 동일한 절차가 수행되어 단계 157의 종료시, 스펙트럼 값의 블록 시퀀스, 및 특히 DFT 스펙트럼 값 또는 복잡한 부대역 샘플과 같은 복잡한 스펙트럼 값을 사용 가능하게 한다.
도 1의 매개변수 결정기(100)에 의해 수행되는 단계 158에서, 광대역 정렬 매개변수가 결정되고, 도 1의 신호 정렬(200)에 의해 수행되는 단계 159에서, 광대역 정렬 매개변수를 사용하여 원형 시프트가 수행된다. 다시 도 1의 매개변수 결정기(100)에 의해 수행되는 단계 160에서, 협대역 정렬 매개변수는 개별 대역/부대역에 대해 결정되고, 단계 161에서, 정렬된 스펙트럼 값은 특정 대역에 대해 결정된 대응하는 협대역 정렬 매개변수를 사용하여 각 대역에 대해 회전된다.
도 4d는 신호 프로세서(300)에 의해 수행되는 추가 절차를 예시한다. 구체적으로, 신호 프로세서(300)는 단계 301에서 예시된 바와 같이 중간 신호 및 측면 신호를 계산하도록 구성된다. 단계 302에서, 측면 신호의 어떤 종류의 추가 처리가 수행될 수 있고, 단계 303에서 중간 신호 및 측면 신호의 각 블록이 다시 시간 영역으로 변환되고, 304 단계에서는 단계 303에서 얻은 각 블록에 합성 창이 적용되고, 단계 305에서, 한편으로는 중간 신호에 대한 중첩 가산 연산과 다른 한편으로는 측면 신호에 대한 중첩 가산 연산이 수행되어 시간 영역 중간/측면 신호를 최종적으로 획득한다.
구체적으로, 단계 304 및 305의 동작은 중간 신호의 한 블록 또는 중간 신호의 다음 블록의 측면 신호로부터 일종의 크로스페이딩을 발생시키고, 측면 신호는, 채널 간 시간 차 매개변수 또는 채널 간 위상차 매개변수와 같은 임의의 매개변수 변경이 발생하더라도 도 4d의 단계 305에 의해 획득된 시간 영역 중간/측면 신호에서 가청 불가능하게 되도록 수행된다.
새로운 저 지연 스테레오 코딩은 일부 공간 단서를 이용하는 공동 M/S (중간/측면) 스테레오 코딩으로, 이 때 중간 채널은 기본 모노 코어 코더로 코딩되고 측면 채널은 보조 코어 코더에서 코딩된다. 인코더와 디코더의 원리는 도 6a 및 6b에 도시된다.
스테레오 처리는 주로 주파수 영역(FD)에서 수행된다. 선택적으로 일부 스테레오 처리는 주파수 분석 전에 시간 영역(TD)에서 수행될 수 있다. 그것은 스테레오 분석 및 처리를 추구하기 전에 채널을 정렬하기 위해 주파수 분석 전에 계산 및 적용할 수 있는 ITD 계산의 경우이다. 다르게, ITD 처리는 주파수 영역에서 직접 수행될 수 있다. ACELP와 같은 일반적인 음성 코더는 내부 시간-주파수 분해를 포함하지 않으므로, 스테레오 코딩은 코어 인코더 이전의 분석 및 합성 필터 뱅크와 코어 디코더 이후의 또 다른 분석 합성 필터 뱅크 단계를 통해 복잡한 변조 필터 뱅크를 추가한다. 바람직한 실시 예에서, 낮은 중첩 영역을 갖는 오버샘플링 DFT가 사용된다. 그러나, 다른 실시 예에서, 유사한 시간 해상도를 갖는 임의의 복잡한 값의 시간-주파수 해상도가 사용될 수 있다.
스테레오 처리는 공간 단서를 계산하는 것으로 구성된다: 채널 간 시간 차(ITD), 채널 간 위상 차(IPD) 및 채널 간 레벨 차(ILD). ITD 및 IPD는 입력 스테레오 신호에 사용되어 두 채널 L 및 R을 시간과 위상으로 정렬한다. ITD는 광대역 또는 시간 영역에서 계산되는 반면 IPD 및 ILD는 주파수 공간의 불균일한 분해에 해당하는 매개변수 대역의 각각 또는 일부에 대해 계산된다. 두 채널이 정렬되면 조인트 M/S 스테레오가 적용되고, 이 때 측면 신호는 중간 신호로부터 더욱 예측된다. 예측 이득은 ILD에서 도출된다.
중간 신호는 기본 코어 코더에 의해 더욱 코딩된다. 바람직한 실시 예에서, 1차 코어 코더는 3GPP EVS 표준이거나, 이로부터 파생된 코딩일 수 있으며 이는 MDCT 변환을 기반으로 하는 음성 코딩 모드, ACELP 및 음악 모드 사이를 전환할 수 있다. 바람직하게, ACELP 및 MDCT 기반 코더는 각각 시간 영역 대역폭 확장(TD-BWE) 또는 지능 갭 충전(IGF) 모듈에 의해 지원된다.
측면 신호는 먼저 ILD에서 도출된 예측 이득을 사용하여 중간 채널에 의해 예측된다. 잔차는 중간 신호의 지연된 버전에 의해 추가로 예측되거나 MDCT 영역의 바람직한 실시 예에서 수행되는 보조 코어 코더에 의해 직접 코딩될 수 있다. 인코더에서의 스테레오 처리는 나중에 설명하는 바와 같이 도 5에서 요약될 수 있다.
도 2는 입력 라인(50)에서 수신된 인코딩된 다중 채널 신호를 디코딩하기 위한 장치의 일 실시 예의 블록도를 도시한다.
특히, 신호는 입력 인터페이스(600)에 의해 수신된다. 입력 인터페이스(600)에는 신호 디코더(700) 및 신호 정렬 해제기(900)가 연결된다. 더욱이, 신호 프로세서(800)는 한편으로는 신호 디코더(700)에 연결되고 다른 한편으로는 신호 정렬 해제기에 연결된다.
특히, 인코딩된 다중 채널 신호는 인코딩된 중간 신호, 인코딩된 측면 신호, 광대역 정렬 매개변수에 대한 정보 및 복수의 협대역 매개변수에 대한 정보를 포함한다. 따라서, 라인(50)상의 인코딩된 다중 채널 신호는 도 1의 출력 인터페이스(500)에 의해 출력되는 것과 정확히 동일한 신호일 수 있다.
그러나 중요한 점은 도 1에 예시된 것과는 대조적으로, 특정 형태로 인코딩 된 신호에 포함된 광대역 정렬 매개변수 및 복수의 협대역 정렬 매개변수는 정확하게 도 1의 신호 정렬기(200)에 의해 사용되는 정렬 매개변수가 될 수 있지만, 대안적으로, 또한 정렬 해제가 성취되도록 그 역값, 즉 정렬 해제가 성취되도록 신호 정렬기(200)에 의해 수행되는 정확히 동일한 동작에 의해 사용될 수 있는 매개변수일 수 있다.
따라서, 정렬 매개변수에 대한 정보는 도 1의 신호 정렬기(200)에 의해 사용되는 정렬 매개변수일 수 있거나, 역값, 즉 실제 "정렬 해제 매개변수"일 수 있다. 추가적으로, 이들 매개변수는 일반적으로 도 8과 관련하여 나중에 논의되는 바와 같이 특정 형태로 양자화될 것이다.
도 2의 입력 인터페이스(600)는 광대역 정렬 매개변수 및 복수의 협대역 정렬 매개변수에 대한 정보를 인코딩된 중간/측면 신호로부터 분리하고 매개변수 라인(610)을 통해 이 정보를 신호 정렬 해제기(900)로 전달한다. 한편, 인코딩된 중간 신호는 라인(601)을 통해 신호 디코더(700)로 전달되고 인코딩된 측면 신호는 신호 라인(602)을 통해 신호 디코더(700)로 전달된다.
신호 디코더는 인코딩된 중간 신호를 디코딩하고 인코딩된 측면 신호를 디코딩하여 라인(701)에서 디코딩된 중간 신호를 획득하고 라인(702)에서 디코딩된 측면 신호를 획득하도록 구성된다. 이들 신호는 디코딩된 제1 채널 신호 또는 디코딩된 좌측 신호를 계산하고 디코딩된 중간 신호 및 디코딩된 측면 신호로부터 디코딩된 제2 채널 또는 디코딩된 우측 채널 신호를 계산하기 위해 신호 프로세서(800)에 의해 사용되고 디코딩된 제1 채널 및 디코딩된 제2 채널은 각각 라인(801, 802)상에서 출력된다. 신호 정렬 해제기(900)는 디코딩된 다중 채널 신호, 즉 라인(901 및 902)상에서 적어도 2 개의 디코딩 및 정렬 해제된 채널을 갖는 디코딩된 신호를 획득하기 위해서 광대역 정렬 매개변수에 대한 정보를 사용하고 복수의 협대역 정렬 매개변수에 대한 정보를 추가로 사용하여 라인(801) 상의 디코딩된 제1 채널 및 디코딩된 우측 채널(802)을 정렬 해제하도록 구성된다.
도 9a는 도 2의 신호 정렬 해제기(900)에 의해 수행되는 바람직한 일련의 단계를 도시한다. 특히, 단계(910)는 도 2의 라인(801, 802)에서 이용 가능한 정렬 된 좌측 및 우측 채널을 수신한다. 단계 910에서, 신호 정렬 해제기(900)는 911a 및 911b에서 위상 정렬 해제된 디코딩된 제1 및 제2 또는 좌측 및 우측 채널을 얻기 위해 협대역 정렬 매개변수에 대한 정보를 사용하여 개별의 부대역를 정렬 해제한다. 단계 912에서, 채널은 913a 및 913b에서 위상 및 시간 정렬 해제된 채널이 획득되도록 광대역 정렬 매개변수를 사용하여 정렬 해제된다.
단계 914에서, 한편으로는 광대역을 위해 그리고 다른 한편으로는 복수의 협대역을 위해 일반적으로 시간에 따른 정렬 해제 매개변수가 있긴 하지만, 915a 또는 915b에서 인공물 감소 또는 인공물 없는 디코딩 신호를 얻기 위해, 즉 인공물이 없는 채널을 디코딩하기 위해서, 윈도우화 또는 임의의 중첩 가산 연산 또는 일반적으로 임의의 상호 페이드 연산을 사용하는 것을 포함하는 추가 처리가 수행된다.
도 9b는 도 2에 예시된 다중 채널 디코더의 바람직한 구현을 예시한다.
특히, 도 2의 신호 프로세서(800)는 시간-스펙트럼 변환기(810)를 포함한다. 신호 프로세서는 또한 중간 신호 M 및 측면 신호 S로부터 좌측 신호 L 및 우측 신호 R을 계산하기 위해 중간/측면에서 좌측/우측으로의 변환기(820)를 포함한다.
그러나, 중요한 것은 블록 820에서 중간/측면-좌측/우측 변환에 의해 L과 R을 계산하기 위해, 측면 신호(S)가 반드시 사용될 필요는 없다. 대신에, 나중에 논의되는 바와 같이, 좌측/우측 신호는 처음에 채널 간 레벨 차이 매개변수 ILD로부터 도출된 이득 매개변수를 사용하여 초기에 계산된다. 일반적으로 예측 이득은 ILD의 한 형태로 간주될 수도 있다. 이득은 ILD에서 도출될 수 있지만 직접 계산될 수도 있다. 더 이상 ILD를 계산하지 않고 예측 이득을 직접 계산하고 ILD 매개변수보다는 디코더에서 예측 이득을 전송하고 사용하는 것이 바람직하다.
따라서, 본 구현에서 측면 신호(S)는 바이패스 라인(821)으로 도시된 바와 같이 전송된 측면 신호(S)를 이용하여 더 나은 좌측/우측 신호를 제공하기 위해 동작하는 채널 갱신기(830)에서만 사용된다.
따라서, 변환기(820)는 레벨 매개변수 입력(822)을 통해 획득된 레벨 매개변수를 사용하고 실제로 측면 신호(S)를 사용하지 않고 동작하지만, 채널 갱신기(830)는 측면(821)을 사용하고 특정 구현에 따라 라인(831)을 통해 수신된 스테레오 충전 매개변수를 사용하여 동작한다. 신호 정렬기(900)는 위상 정렬 해제기 및 에너지 스케일러(910)를 포함한다. 에너지 스케일링은 스케일링 계수 계산기(940)에 의해 도출된 스케일링 계수에 의해 제어된다. 스케일링 계수 계산기(940)는 채널 갱신기(830)의 출력에 의해 공급된다. 입력(911)을 통해 수신된 협대역 정렬 매개변수에 기초하여, 위상 정렬 해제가 수행되고, 블록 920에서 라인(921)을 통해 수신된 광대역 정렬 매개변수에 기초하여 시간 정렬 해제가 수행된다. 마지막으로, 디코딩된 신호를 최종적으로 획득하기 위해 스펙트럼-시간 변환(930)이 수행된다.
도 9c는 바람직한 실시 예에서 도 9b의 블록(920 및 930) 내에서 전형적으로 수행되는 단계들의 추가 시퀀스를 도시한다.
특히, 협대역 정렬 해제된 채널은 도 9b의 블록 920에 대응하는 광대역 정렬 해제 기능에 입력된다. DFT 또는 다른 변환은 블록 931에서 수행된다. 시간 영역 샘플의 실제 계산에 이어, 합성 창을 사용하는 선택적 합성 창을 수행한다. 합성 창은 바람직하게는 분석 창과 정확히 동일하거나 분석 창 (예를 들어, 보간 또는 데시메이션)에서 도출되지만 분석 창과는 특정 방식으로 다르다. 이러한 의존성은 바람직하게 2 개의 중첩 창에 의해 정의된 곱셈 계수가 중첩 범위의 각 지점에 대해 일이 되게 합산되게 된다. 따라서, 블록 932의 합성 창에 이어서, 중첩 연산 및 후속 가산 연산이 수행된다. 다르게, 도 9a의 맥락에서 이미 논의된 바와 같이, 인공물 감소 디코딩된 신호를 획득하기 위해서, 합성 윈도우화 및 중첩/가산 연산 대신에, 각 채널에 대한 후속 블록 간의 크로스페이드가 수행된다.
도 6b를 고려하면, 중간 신호에 대해서는, 실재 디코딩 연산, 즉 "EVS 디코더"가, 측면 신호에 대해서는 역 벡터 양자화 VQ-1 및 역 MDCT 연산(IMDCT)이 도 2의 신호 디코더(700)에 대응한다는 것을 알 수 있다.
더욱이, 블록(810)에서의 DFT 연산은 도 9b의 요소(810)에 대응하고 역 스테레오 처리 및 역 시간 이동의 기능은 도 2의 블록(800, 900)에 대응하고, 도 6b의 역 DFT 연산(930)은 도 9b의 블록(930)에서의 대응 동작에 대응한다.
그 후, 도 3에 대해 더 자세히 설명한다. 특히, 도 3은 개별 스펙트럼 라인을 갖는 DFT 스펙트럼을 예시한다. 바람직하게, DFT 스펙트럼 또는 도 3에 예시된 다른 스펙트럼은 복합 스펙트럼이고, 각 라인은 크기와 위상을 갖거나 실수 부분과 허수 부분을 갖는 복잡한 스펙트럼 라인이다.
또한 스펙트럼은 여러 다른 매개변수 대역으로 나뉜다. 각 매개변수 대역은 적어도 하나, 바람직하게는 하나 이상의 스펙트럼 라인을 가지고 있다. 또한 매개변수 대역은 낮은 주파수에서 높은 주파수로 증가한다. 일반적으로, 광대역 정렬 매개변수는 전체 스펙트럼, 즉 도 3의 예시적인 실시 예에서 모든 대역 1 내지 6을 포함하는 스펙트럼에 대한 단일 광대역 정렬 매개변수가다.
더욱이, 복수의 협대역 정렬 매개변수는 각 매개변수 대역에 대해 단일 정렬 매개변수가 있도록 제공된다. 이는 대역의 정렬 매개변수가 항상 해당 대역 내의 모든 스펙트럼 값에 적용됨을 의미한다.
또한, 협대역 정렬 매개변수 외에도, 각 매개변수 대역에 대해 레벨 매개변수도 제공된다.
대역 1에서 대역 6까지의 각각의 모든 매개변수 대역에 대해 제공되는 레벨 매개변수와 달리, 대역 1, 2, 3 및 4와 같은 제한된 수의 하위 대역에 대해서만 복수의 협대역 정렬 매개변수를 제공하는 것이 바람직하다.
또한, 예시적인 실시 예에서 대역 4, 5 및 6에 대해서와 같이 하위 대역을 제외한 특정 수의 대역에 대해 스테레오 충전 매개변수가 제공되는 반면, 하위 매개변수 대역 1, 2 및 3에 대해서는 측면 신호 스펙트럼 값이 있으므로, 결과적으로, 파형 매칭이 측면 신호 자체 또는 측면 신호를 나타내는 예측 잔차 신호를 사용하여 획득되는 이들 하위 대역에 대한 스테레오 충전 매개변수는 존재하지 않는다.
이미 언급한 바와 같이, 도 3의 실시 예에서 매개변수 대역 2의 3 개의 스펙트럼 라인에 비해 매개변수 대역 6의 7 개의 스펙트럼 라인과 같이, 고위 대역에 더 많은 스펙트럼 라인이 존재한다. 그러나 당연히 매개변수 대역의 수, 스펙트럼 라인의 수, 매개변수 대역 내의 스펙트럼 라인의 수 및 특정 매개변수에 대한 다른 한계도 다르게 된다.
그럼에도 불구하고, 도 8은 도 3과 달리 실제로 12 개의 대역이 있는 특정 실시 예에서 매개변수가 제공되는 대역의 수 및 매개변수의 분포를 도시한다.
예시된 바와 같이, 레벨 매개변수 ILD는 12 개의 대역 각각에 대해 제공되고 대역 당 5 비트로 표현되는 양자화 정확도로 양자화된다.
또한, 협대역 정렬 매개변수 IPD는 2.5kHz의 경계 주파수까지 낮은 대역에 대해서만 제공된다. 또한, 채널 간 시간 차 또는 광대역 정렬 매개변수는 전체 스펙트럼에 대해 단일 매개변수로만 제공되지만 전체 대역에 대해서는 8 비트로 표현되는 매우 높은 양자화 정확도가 제공된.
또한, 매우 대략적으로 양자화된 스테레오 충전 매개변수는 1 Hz 미만의 하위 대역을 제외하고 대역 당 3 비트로 표시되는데, 왜냐하면, 하위 대역의 경우, 실제로 인코딩된 측면 신호 또는 측면 신호 잔차 스펙트럼 값이 포함되기 때문이다.
그 후, 인코더 측에서 선호되는 처리가 도 5와 관련하여 요약된다. 제1 단계에서는 좌측 및 우측 채널의 DFT 분석이 수행된다. 이 절차는 도 4c의 단계 155 내지 157에 대응한다. 단계 158에서, 광대역 정렬 매개변수, 특히 선호되는 광대역 정렬 매개변수가 채널 간 시간 차(ITD)로 계산된다. 170에서 설명되는 바와 같이, 주파수 영역에서 L과 R의 시간 이동이 수행된다. 또는 이 시간 이동은 시간 영역에서도 수행될 수 있다. 그런 다음 역 DFT가 수행되고, 시간 영역에서 시간 이동이 수행되고, 광대역 정렬 매개변수를 사용하여 정렬 이후에 스펙트럼 표현을 다시 한 번 갖기 위해 추가적인 정 DFT가 수행된다.
ILD 매개변수, 즉 레벨 매개변수 및 위상 매개변수(IPD 매개변수)는 단계 171에 예시된 바와 같이 이동된 L 및 R 표현상의 각 매개변수 대역에 대해 계산된다. 이 단계는 예를 들어 도 4c의 단계 160에 대응한다. 시간 이동된 L 및 R 표현은 도 4c 또는 도 5의 단계 161에 예시된 바와 같이 채널 간 위상차 매개변수의 함수로서 회전된다. 그 후, 중간 및 측면 신호는 단계 301에서 설명된 바와 같이 계산되고, 바람직하게는 나중에 논의되는 에너지 대화 동작과 함께 추가로 계산된다. 다음 단계 174에서, ILD의 함수로서 M으로 선택적으로 이전 M 신호, 즉 이전 프레임의 중간 신호로 S를 예측하는 것이 수행된다. 이어서, 바람직한 실시 예에서 도 4d의 단계 303, 304, 305에 대응하는 중간 신호 및 측면 신호의 역 DFT가 수행된다.
최종 단계 175에서, 시간 영역 중간 신호 m 및 선택적으로 잔차 신호가 단계 175에 예시된 바와 같이 코딩된다. 이 절차는 도 1의 신호 인코더 (400)에 의해 수행되는 것에 대응한다.
역 스테레오 처리의 디코더에서 측면 신호는 DFT 영역에서 생성되며 먼저 중간 신호에서 다음과 같이 예측된다:
Figure 112020118003234-pct00030
여기서, g는 각 매개변수 대역에 대해 계산된 이득이며 전송된 채널간 레벨 차(ILD)의 함수이다.
그런 다음 예측 Side-g·Mid의 잔차가 다음 두 가지 방법으로 개선될 수 있다.
- 잔차 신호의 이차 코딩에 의해:
Figure 112020118003234-pct00031
여기서, gcod는 전체 스펙트럼에 대해 전송된 전역 이득이다.
- 스테레오 필링으로 알려진 잔차 신호 예측에 의해, 이전 DFT 프레임에서 이전에 디코딩된 중간 신호 스펙트럼으로 잔차 측면 스펙트럼을 예측:
Figure 112020118003234-pct00032
여기서, gpred는 매개변수 대역별로 전송되는 예측 이득이다.
두 가지 유형의 코딩 세분화는 동일한 DFT 스펙트럼 내에서 혼합될 수 있다. 바람직한 실시 예에서, 잔차 신호 코딩은 하위 매개변수 대역에 적용되는 반면, 잔차 신호 예측은 나머지 대역에 적용된다. 잔차 신호 코딩은 도 1에 도시된 바와 같이 바람직한 실시 예에서 시간 영역에서 잔차 측면 신호를 합성하고 이를 MDCT에 의해 변환한 후 MDCT 영역에서 수행한다. DFT와 달리, MDCT는 중요 샘플링되며 오디오 코딩에 더욱 적합하다. MDCT 계수는 격자 벡터 양자화로 양자화되는 벡터이지만 다르게 엔트로피 코더가 후속되는 스칼라 양자화기에 의해 코딩될 수도 있다. 다르게는, 잔차 신호는 음성 코딩 기술에 의해 시간 영역에서 또는 DFT 영역에서 직접 코딩될 수도 있다.
1. 시간-주파수 분석: DFT
DFT에 의해 수행되는 스테레오 처리에서 추가 시간-주파수 분해가 코딩 시스템의 전체 지연을 크게 증가시키지 않으면서 양호한 청각 장면 분석을 허용하는 것이 중요하다. 기본적으로, 10ms (코어 코더의 20ms 프레이밍의 두 배)의 시간 분해능이 사용된다. 분석 및 합성 창은 동일하며 대칭이다. 이 창은 도 7에서 16kHz의 샘플링 속도로 표시된다. 발생하는 지연을 줄이기 위해 중첩 영역이 제한되어 있고, 이후 설명할 주파수 영역에서 ITD를 적용할 때 순환 이동의 균형을 맞추기 위해 제로 패딩도 추가된다는 것을 알 수 있다.
2. 스테레오 매개변수
스테레오 매개변수는 스테레오 DFT의 시간 해상도에서 최대로 전송될 수 있다. 최소한 코어 코더의 프레이밍 해상도 (예 : 20ms)로 줄일 수 있다. 기본적으로 과도 현상이 감지되지 않으면, 매개변수는 2 개의 DFT 창에서 20ms 마다 계산된다. 매개변수 대역은 등가 직사각형 대역폭(ERB)의 약 2 배 또는 4 배가 이어지는 스펙트럼의 불균일 및 비중첩 분해를 구성한다. 기본적으로, 16kHz (32kbps 샘플링 속도, 슈퍼 광대역 스테레오)의 주파수 대역폭에 대해 총 12 대역에 대해 ERB 스케일의 4배가 사용된다. 도 8은 스테레오 측면 정보가 약 5kbps로 전송되는 구성의 예를 요약한 것이다.
3. ITD 계산 및 채널 시간 정렬
ITD는 위상 변환 일반 상호 상관(CC-PHAT)를 사용하여 도착 시간 지연(TDOA)를 추정하여 계산된다.
Figure 112020118003234-pct00033
여기서, L 및 R은 각각 좌측 및 우측 채널의 주파수 스펙트럼이다. 주파수 분석은 후속 스테레오 처리에 사용되는 DFT와 독립적으로 수행되거나 공유될 수 있다. ITD를 계산하기 위한 의사 코드는 다음과 같다.
L =fft(window(l));
R =fft(window(r));
tmp = L .* conj( R );
sfm_L = prod(abs(L).^(1/length(L)))/(mean(abs(L))+eps);
sfm_R = prod(abs(R).^(1/length(R)))/(mean(abs(R))+eps);
sfm = max(sfm_L,sfm_R);
h.cross_corr_smooth =(1-sfm)*h.cross_corr_smooth+sfm*tmp;
tmp = h.cross_corr_smooth ./ abs( h.cross_corr_smooth+eps );
tmp = ifft( tmp );
tmp = tmp([length(tmp)/2+1:length(tmp) 1:length(tmp)/2+1]);
tmp_sort = sort( abs(tmp) );
thresh = 3 * tmp_sort( round(0.95*length(tmp_sort)) );
xcorr_time=abs(tmp(- ( h.stereo_itd_q_max - (length(tmp)-1)/2 - 1 ):- ( h.stereo_itd_q_min - (length(tmp)-1)/2 - 1 )));
%smooth output for better detection
xcorr_time=[xcorr_time 0];
xcorr_time2=filter([0.25 0.5 0.25],1,xcorr_time);
[m,i] = max(xcorr_time2(2:end));
if m > thresh
itd = h.stereo_itd_q_max - i + 1;
else
itd = 0;
end
도 4e는 광대역 정렬 매개변수에 대한 예로서 채널 간 시간 차의 강력하고 효율적인 계산을 획득하기 위해서 앞서 설명한 의사 코드를 구현하기 위한 흐름도를 도시한다.
블록 451에서, 제1 채널(l) 및 제2 채널(r)에 대한 시간 영역 신호의 DFT 분석이 수행된다. 이 DFT 분석은 일반적으로 예를 들어 도 5 또는 도 4c의 단계 155 내지 157의 맥락에서 논의된 것과 동일한 DFT 분석일 것이다.
그 다음 블록 452에 도시된 바와 같이 각 주파수 빈에 대해 상호 상관이 수행된다.
따라서 좌측 및 우측 채널의 전체 스펙트럼 범위에 대해 상호 상관 스펙트럼이 획득된다.
단계 453에서, 스펙트럼 평탄도 측정은 L 및 R의 크기 스펙트럼으로부터 계산되고, 단계 454에서, 더 큰 스펙트럼 평탄도 측정이 선택된다. 그러나, 단계 454의 선택은 반드시 더 큰 것의 선택일 필요는 없지만, 두 채널로부터의 단일 SFM의 결정은 좌측 채널만 또는 우측 채널만 선택하고 계산하거나 두 SFM 값의 가중 평균의 계산일 수도 있다.
단계 455에서, 상호 상관 스펙트럼은 스펙트럼 평탄도 측정에 따라 시간이 지남에 따라 평활화된다.
바람직하게는, 스펙트럼 평탄도 측정은 크기 스펙트럼의 기하학적 평균을 크기 스펙트럼의 산술 평균으로 나눔으로써 계산된다. 따라서 SFM의 값은 0과 1 사이로 제한된다.
단계 456에서 평활화된 상호 상관 스펙트럼은 그 크기로 정규화되고 단계 457에서 정규화되고 평활화된 상호 상관 스펙트럼의 역 DFT가 계산된다. 단계 458에서, 특정 시간 영역 필터가 바람직하게 수행되지만 이 시간 영역 필터링은 구현에 따라 무시될 수 있지만 나중에 설명할 것처럼 선호된다.
단계 459에서, ITD 추정은 필터 일반화된 상호 상관 함수의 피크를 선택하고 특정 임계 값 연산을 수행함으로써 수행된다.
임계 값을 초과하는 피크가 없으면, ITD가 0으로 설정되고 해당 블록에 대해 시간 정렬이 수행되지 않는다.
ITD 계산은 다음과 같이 요약할 수도 있다. 상호 상관은 스펙트럼 평탄도 측정에 따라 평활화되기 전에 주파수 영역에서 계산된다. SFM은 0과 1 사이로 제한된다. 잡음과 같은 신호의 경우, SFM이 높고 (즉, 약 1) 평활화는 약하다. 음조과 같은 신호의 경우, SFM은 낮아지고 평활화는 더 강해진다. 평활화된 상호 상관은 시간 영역으로 다시 변환되기 전에 진폭에 의해 정규화된다. 정규화는 상호 상관의 위상 변환에 해당하며 저 잡음 및 상대적으로 높은 반향음 환경에서 정상적인 상호 상관보다 더 나은 성능을 보여주는 것으로 알려져 있다. 이렇게 얻은 시간 영역 함수는 더 강력한 피크 선택을 달성하기 위해 먼저 필터링된다. 최대 진폭에 해당하는 지수는 좌측 및 우측 채널(ITD) 간의 시간 차이 추정치에 해당한다. 최대 진폭이 주어진 임계 값보다 낮으면 추정된 ITD는 신뢰할 수 있는 것으로 간주되지 않고 0으로 설정된다.
시간 정렬이 시간 영역에 적용되면, ITD는 별도의 DFT 분석시 계산된다. 이동은 다음과 같이 수행된다:
Figure 112020118003234-pct00034
인코더에서 추가 지연이 필요하며, 이는 처리될 수 있는 최대 절대 값 ITD와 최대 동일하다. 시간에 따른 ITD의 변화는 DFT의 분석 창을 통해 평활화된다.
대안적으로 시간 정렬은 주파수 영역에서 수행될 수 있다. 이 경우 ITD 계산과 순환 이동은 동일한 DFT 영역에 있으며 다른 스테레오 처리와 공유되는 영역이다. 순환 이동은 다음과 같이 제공된다:
Figure 112020118003234-pct00035
순환 이동으로 시간 이동을 시뮬레이션하려면 DFT 창의 제로 패딩이 필요하다. 제로 패딩의 크기는 처리할 수 있는 최대 절대 ITD에 해당한다. 바람직한 실시 예에서, 제로 패딩은 양쪽 끝에 제로의 3.125ms를 추가함으로써 분석 창의 양쪽에서 균일하게 분할된다. 가능한 최대 절대 ITD는 6.25ms이다. A-B 마이크로폰 설정에서, 최악의 경우 두 마이크로폰 사이의 최대 거리는 약 2.15 미터이다. 시간 경과에 따른 ITD의 변화는 DFT의 합성 창 및 중첩 가산을 통해 평활화된다.
타임 이동 이후 이동된 신호의 윈도우화가 이어지는 것이 중요하다. 이것이 종래 기술의 양귀 단서 코딩(binaural cue coding: BCC)과의 주요 차이점으로, 이 코딩에서는 시간 이동이 윈도우화 신호에 적용되지만 합성 단계에서는 더 이상 윈도우화되지 않는다. 결과적으로 시간이 지남에 따라 ITD가 변경되면 디코딩된 신호에 인위적인 과도 현상/클릭이 발생한다.
4. IPD의 계산 및 채널 회전
IPD는 두 채널을 시간 정렬한 후 계산되며 이는 각 매개변수 대역에 대해 또는 적어도 스테레오 구성에 따른 임의의 ipd_max_band 까지에 대한 것이다.
Figure 112020118003234-pct00036
다음에 IPD는 이들의 상을 정렬하기 위해 두 채널에 적용된다.
Figure 112020118003234-pct00037
여기서,
Figure 112020118003234-pct00038
,
Figure 112020118003234-pct00039
및 b는 주파수 지수 k에 속하는 매개변수 대역 지수이다. 매개변수 β는 두 채널 사이의 위상 회 전량을 분배하는 동시에 위상을 정렬되게 하는 것이다. β는 IPD에 의존하지만 채널의 상대적인 진폭 레벨 ILD에도 의존하다. 채널의 진폭이 더 높으면, 이는 리딩 채널로 간주되며 진폭이 낮은 채널보다 위상 회전의 영향을 덜 받게 된다.
5. 합-차 및 측면 신호 코딩
합산 차이 변환은 에너지가 중간 신호에서 보존되는 방식으로 두 채널의 시간 및 위상 정렬 스펙트럼에서 수행된다.
Figure 112020118003234-pct00040
여기서,
Figure 112020118003234-pct00041
는 1/1.2 및 1.2 사이, 즉 -1.58 및 +1.58dB 사이에 제한된다. 이 제한으로 M과 S의 에너지를 조정할 때 인공물이 방지된다. 이 에너지 보존은 시간 및 위상이 미리 정렬되었을 때 덜 중요하다는 점에 주목할 가치가 있다. 다르게 이 경계는 늘리거나 줄일 수 있다.
측면 신호 S는 M으로 더 예측된다:
Figure 112020118003234-pct00042
여기서,
Figure 112020118003234-pct00043
Figure 112020118003234-pct00044
이다. 다르게, 최적의 예측 이득 g는 이전 방정식에 의해 추론된 잔차 및 ILD의 평균 제곱 오차(MSE)를 최소화하여 구할 수 있다.
잔류 신호 S'(f)는 M의 지연된 스펙트럼으로 예측하거나 이를 MDCT 영역에서 직접 코딩하는 것으로, 두 가지 방법으로 모델링할 수 있다.
6. 스테레오 디코딩
중간 신호 X 및 측면 신호 S는 다음과 같이 좌측 및 우측 채널 L 및 R로 먼저 변환된다.
Figure 112020118003234-pct00045
Figure 112020118003234-pct00046
여기서, 매개변수 대역 당 이득 g는 ILD 매개변수로부터 도출된다.
Figure 112020118003234-pct00047
, 여기서,
Figure 112020118003234-pct00048
cod_max_band 이하의 매개변수 대역의 경우, 두 채널이 디코딩된 측면 신호로 갱신된다.
Figure 112020118003234-pct00049
Figure 112020118003234-pct00050
더 높은 매개변수 대역의 경우, 측면 신호가 예측되고 채널은 다음과 같이 갱신된다.
Figure 112020118003234-pct00051
Figure 112020118003234-pct00052
마지막으로, 채널에는 스테레오 신호의 원래 에너지와 채널 간 위상을 복원하기 위한 목적의 복합 값이 곱해진다.
Figure 112020118003234-pct00053
Figure 112020118003234-pct00054
여기서
Figure 112020118003234-pct00055
여기서 a는 이전에 정의 된대로 정의되고 경계가 지정되고,
Figure 112020118003234-pct00056
, atan2(x,y) 는 4 사분면 y분의 x의 역 탄젠트이다.
마지막으로, 채널은 전송된 ITD에 따라 시간 또는 주파수 영역에서 시간이 이동된다. 시간 영역 채널은 역 DFT 및 중첩 가산에 의해 합성된다.
본 발명의 특정 특징은 공간적 단서 및 합-차 공동 스테레오 코딩의 조합에 관한 것이다. 특히, 공간 단서 IDT 및 IPD가 계산되어 스테레오 채널 (좌측 및 우측)에 적용된다. 또한, 합-차 (M/S 신호)가 계산되고 바람직하게는 M으로 S에 대한 예측이 적용된다.
디코더 측에서는, 광대역 및 협대역 공간 신호가 합-차 공동 스테레오 코딩과 함께 결합된다. 특히, ILD와 같은 적어도 하나의 공간적 단서를 사용하여 중간 신호로 측면 신호를 예측하고, 좌측 및 우측 채널을 얻기 위해 역 합-차가 계산되고, 추가적으로, 광대역 및 협대역 공간 신호는 좌측 및 우측 채널에 적용된다.
바람직하게는, 인코더는 ITD를 사용하여 처리한 후 시간 정렬된 채널에 대해 윈도우 및 중첩 가산을 갖는다. 또한, 디코더는 채널 간 시간 차를 적용한 후 채널의 이동 또는 정렬 해제된 버전의 윈도우화 및 중첩 가산 동작을 추가로 갖는다.
GCC-Phat 방법을 사용한 채널 간 시간 차이 계산은 매우 강력한 방법이다.
새로운 절차는 낮은 지연에서 스테레오 오디오 또는 다중 채널 오디오의 비트율 코딩을 달성하기 때문에 유리한 종래 기술이다. 이는 입력 신호의 다양한 특성과 다중 채널 또는 스테레오 녹음의 다양한 설정에 견고하도록 특별히 설계되었다. 특히, 본 발명은 낮은 비트율의 스테레오 음성 코딩에 좋은 품질을 제공한다.
선호되는 절차는 임의의 낮은 비트 전송률에서 일정한 지각 품질로 음성 및 음악과 같은 모든 유형의 스테레오 또는 다중 채널 오디오 콘텐츠의 방송 배포에 사용된다. 이러한 응용 분야로는 디지털 라디오, 인터넷 스트리밍 또는 오디오 통신 응용 프로그램이 있다.
본 발명이 여러 실시 예의 관점에서 설명되었지만, 본 발명의 범위 내에 속하는 변경, 순열 및 등가물이 있을 수 있다. 또한, 본 발명의 방법 및 구성을 구현하는 많은 대안적인 방법이 있음을 주목해야 한다. 따라서, 다음의 첨부된 청구 범위는 본 발명의 진정한 사상 및 범위 내에 있는 이러한 모든 변경, 순열 및 등가물을 포함하는 것으로 해석되는 것이다.
일부 측면이 장치의 맥락에서 설명되었지만, 이러한 측면이 해당 방법에 대한 설명을 나타내는 것이며, 이 때 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 해당한다. 유사하게, 방법 단계의 맥락에서 설명된 측면은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계의 일부 또는 전부는 예를 들어 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 사용하여) 실행될 수 있다. 일부 실시 예들에서, 가장 중요한 방법 단계들 중 일부인 하나 이상이 그러한 장치에 의해 실행될 수 있다.
본 발명의 인코딩된 이미지 신호는 디지털 저장 매체에 저장되거나 무선 전송 매체와 같은 전송 매체나 인터넷과 같은 유선 전송 매체를 통해 전송될 수 있다.
특정 구현 요구 사항에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 이 구현은 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는 (또는 협력할 수 있는) 전자적으로 판독 가능한 제어 신호가 저장되어 있는, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리와 같은 디지털 저장 매체를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
본 발명에 따른 일부 실시 예는 본 명세서에서 설명된 방법 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 이 때 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때의 방법 중 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어 기계 판독 가능 캐리어에 저장될 수 있다.
다른 실시 예는 기계 판독 가능 캐리어에 저장된 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 본 발명의 방법의 실시 예는 컴퓨터 프로그램이 컴퓨터에서 실행될 때 본 명세서에 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 추가 실시 예는 데이터 캐리어 (또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)에 기록되며, 컴퓨터 프로그램은 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 것이다. 데이터 매체, 디지털 저장 매체 또는 기록 매체는 일반적으로 유형적 및/또는 비과도적이다.
따라서, 본 발명의 방법의 추가 실시 예는 본 명세서에 설명 된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호 시퀀스이다. 데이터 스트림 또는 신호 시퀀스는 예를 들어 데이터 통신 연결, 예를 들어 인터넷을 통해 전송되도록 구성 될 수 있다. 추가 실시 예는 본 명세서에서 설명 된 방법 중 하나를 수행하도록 구성되거나 적응된, 처리 수단, 예를 들어 컴퓨터, 또는 프로그램 가능한 논리 장치를 포함한다.
추가 실시 예는 여기에 설명 된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가 실시 예는 본 명세서에서 설명 된 방법 중 하나를 수신기로 수행하기 위한 컴퓨터 프로그램을 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어 컴퓨터, 모바일 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함 할 수 있다.
일부 실시 예에서, 프로그램 가능 논리 장치 (예를 들어, 필드 프로그램 가능 게이트 어레이)는 본 명세서에 설명된 방법의 일부 또는 모든 기능을 수행하는 데 사용될 수 있다. 일부 실시 예에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
본 명세서에 설명된 장치는 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현 될 수 있다.
본 명세서에 설명된 방법은 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.
전술한 실시 예는 본 발명의 원리에 대한 예시일 뿐이다. 본 명세서에 설명 된 배열 및 세부 사항의 수정 및 변경은 당업자에게 명백할 것임이 이해된다. 따라서, 본 명세서의 실시 예의 설명에 의해 제시된 특정 세부 사항이 아니라 본 특허 청구 범위의 영역에 의해서만 제한하고자 한다.
참고 문헌
[1] 특허 출원 "채널 간 시간 차를 추정하는 장치 및 방법" 국제 출원 번호 PCT/EP2017/051214.
[2] Knapp, Charles 및 Glifford Carter의 "시간 지연 추정을 위한 일반 상관 방법" 음향, 음성, 및 신호 처리 IEEE Transactions 24.4(1976): 320-327.
[3] Zhang, Cha, Dinel Florencio 및 Zhengyou Zhang의 "PHAT가 저소음, 반향 환경에서 잘 작동하는 이유는 무엇인가?" 음향, 음성, 및 신호 처리, 2008. ICASSP 2008. IEEE International Conference on. IEEE, 2008.
[4] Rabinkin, Daniel V 등의 "마이크로폰 어레이를 사용한 소스 위치의 DSP 구현" 고급 신호 처리 알고리즘, 아키텍처 및 구현 VI. Vol. 2846. International Society for Optics and Photonics, 1996.
[5] Shen, Miao 및 Hong Liu의 "음향 소스 위치 파악을위한 마이크 어레이 기반의 수정된 상호 전력 스펙트럼 위상 방법", 시스템, 사람, 및 사이버네틱스, 2009. SMC 2009. IEEE International Conference on. IEEE, 2009.
[6] 3GPP TS 26.445, Enhanced Voice Services (EVS)용 코덱; 상세한 알고리즘 설명.

Claims (31)

  1. 제1 채널 신호와 제2 채널 신호의 채널 간 시간 차를 추정하는 장치에 있어서,
    상기 제1 채널 신호, 상기 제2 채널 신호, 상기 제1 채널 신호와 상기 제2 채널 신호, 및 상기 제1 채널 신호 또는 상기 제2 채널 신호로부터 도출된 신호 중 적어도 하나의 신호 특성(1038)을 추정하기 위한 신호 분석기(1037);
    시간 블록에 대한 상호 상관 스펙트럼을 상기 시간 블럭의 상기 제1 채널 신호 및 상기 시간 블록의 상기 제2 채널 신호로부터 계산하기 위한 계산기(1020);
    신호 분석기(1037)에 의해 추정된 신호 특성에 따라 제1 가중 절차(1036a)를 사용하거나 제2 가중 절차(1036b)를 사용하여, 가중 상호 상관 스펙트럼을 얻기 위해 평활화된 상호 상관 스펙트럼 또는 평활화되지 않은 상호 상관 스펙트럼에 가중치를 부여하기 위한 가중기(1036) - 상기 제1 가중 절차(1036a)는 상기 제2 가중 절차(1036b)와 상이하며, 상기 제1 가중 절차(1036a)는 진폭이 정규화되고 위상이 유지되도록 하는 가중을 포함하거나, 또는 상기 제2 가중 절차(1036b)는 거듭 제곱이 1보다 작거나 0보다 큰 거듭 제곱 연산이나 로그 함수를 사용하여 평활화 또는 평활화되지 않은 상호 상관 스펙트럼으로부터 도출된 가중 계수를 포함함 -; 및
    상기 채널 간 시간 차를 얻기 위해 상기 가중된 상호 상관 스펙트럼을 처리하는 프로세서(1040)
    를 포함하는, 장치.
  2. 제1항에 있어서,
    상기 신호 분석기(1037)는 상기 제1 채널 신호 또는 상기 제2 채널 신호 또는 상기 제1 채널과 상기 제2 채널 또는 상기 제1 채널 신호 또는 상기 제2 채널 신호에서 도출된 신호의 잡음 레벨(1038)을 추정하기 위한 잡음 추정기(1037)로서 구성되고,
    제1 신호 특성은 상기 잡음 레벨(1038)의 제1 잡음 레벨이고 제2 신호 특성은 상기 잡음 레벨(1038)의 제2 잡음 레벨이며, 또는 상기 신호 분석기(1037)는 신호가 제1 특성을 갖는지 또는 제2 특성을 갖는지를 결정하기 위해서, 음성/음악 분석, 간섭하는 화자 분석, 배경 음악 분석, 깨끗한 음성 분석 또는 기타 신호 분석을 수행하도록 구성되는, 장치.
  3. 제1항에 있어서, 상기 제1 가중 절차(1036a)는 제1 신호 특성에 대해 선택되고 상기 제2 가중 절차(1036b)는 제2 신호 특성에 대해 선택되며, 상기 제1 신호 특성은 상기 제2 신호 특성과 상이한, 장치.
  4. 제1항에 있어서,
    상기 제2 가중 절차(1036b)는 진폭이 정규화되고 위상이 유지되도록 하는 가중을 포함하고, 거듭 제곱이 1 보다 작거나 0보다 큰, 또는 0.79와 0.82 사이인 거듭 제곱 연산을 사용하여 상기 평활화 또는 평활화되지 않은 상호 상관 스펙트럼으로부터 도출된 가중 계수로 가중하는 단계를 더 포함하는, 장치.
  5. 제1항에 있어서,
    상기 제1 가중 절차(1036a)는 다음 방정식에 따라 작동하고;
    Figure 112023038056618-pct00094

    Figure 112023038056618-pct00101
    는 제1 가중 절차(1036a)를 적용하여 얻은 시간 지수 s 및 주파수 지수 k에 대한 가중 평활화 또는 평활화되지 않은 상호 상관 스펙트럼 값이고,
    Figure 112023038056618-pct00102
    는 제2 가중 절차를 적용하여 얻은 주파수 지수 k 및 시간 지수 s에 대한 가중 평활화 또는 평활화되지 않은 상호 상관 스펙트럼 값인,
    장치.
  6. 제1항에 있어서,
    제2 가중 절차(1036b)는 다음 방정식에 따라 작동하고:
    Figure 112023038056618-pct00095

    Figure 112023038056618-pct00097
    는 제2 가중 절차를 적용하여 얻은 시간 지수 s 및 주파수 지수 k 에 대한 가중 평활화 또는 평활화되지 않은 상호 상관 스펙트럼 값이고,
    Figure 112023038056618-pct00098
    는 제2 가중 절차를 적용하여 얻은 주파수 지수 k 및 시간 지수 s에 대한 가중 평활화 또는 평활화되지 않은 상호 상관 스펙트럼 값이고,
    Figure 112023038056618-pct00099
    는 1이 아닌 거듭 제곱 값이며,
    Figure 112023038056618-pct00103
    는 상기 가중 계수인,
    장치.
  7. 제1항에 있어서,
    상기 제2 가중 절차(1036b)는 상기 제2 가중 절차(1036b)의 출력 범위가 상기 제1 가중 절차(1036a)의 출력 범위가 위치하는 범위 내에 있거나, 상기 제2 가중 절차(1036b)의 출력 범위가 상기 제1 가중 절차(1036a)의 출력 범위와 동일하도록 하는 정규화를 포함하는, 장치.
  8. 제1항에 있어서, 상기 제2 가중 절차(1036b)는 다음 방정식
    Figure 112023038056618-pct00100
    .
    에 기초한 정규화를 포함하며,
    상기 방정식의 좌측의
    Figure 112023038056618-pct00104
    는 특정 k 및 특정 s에 대한 정규화 상호 상관 스펙트럼이며, 상기 방정식의 우측의
    Figure 112023038056618-pct00105
    는 특정 k 및 특정 s에 대한 정규화 이전의 상호 상관 결과이며, 또한 s는 프레임 지수이며, k는 주파수 지수, 또한
    Figure 112023038056618-pct00106
    는 DFT 길이인,
    장치.
  9. 제1항에 있어서, 상기 프로세서(1040)는 제1 가중 절차(1036a) 또는 제2 가중 절차(1036b)가 사용되었는지에 따라 제1 피크 선택 동작(1041) 또는 제2 피크 선택 동작(1042)을 수행하도록 구성되며, 상기 제1 피크 선택 동작은 상기 제2 피크 선택 동작과 다른, 장치.
  10. 제9항에 있어서, 상기 제2 피크 선택 동작(1042)은 상기 제2 가중 절차(1036b)가 사용될 때 사용되고, 상기 제2 피크 선택 동작(1042)은 상기 제1 피크 선택 동작(1041)에 의해 사용되는 제1 임계 값보다 낮은 제2 임계 값을 적용하도록 구성되는, 장치.
  11. 제2항에 있어서, 상기 잡음 추정기(1037)는 배경 잡음의 레벨을 추정(1060)하도록 구성되거나 시간에 따라 추정된 잡음 레벨을 평활화(1061)하도록 구성되거나 IIR 평활화 필터를 사용하도록 구성되는, 장치.
  12. 제2항에 있어서, 상기 잡음 추정기(1037)는 상기 시간 블록을 활성 또는 비활성으로 분류하기 위한 신호 활성 검출기(1070)를 더 포함하고, 상기 잡음 추정기(1037)는 하나 이상의 활성 시간 블록을 사용하여 신호 레벨을 계산(1072)하도록 구성되거나, 상기 잡음 추정기(1037)는 신호 대 잡음 비율이 임계 값 미만일 때, 높은 배경 잡음 레벨을 신호 보내도록(1050) 구성되고, 상기 임계 값은 45 내지 25dB 사이의 범위에 있는, 장치.
  13. 제1항에 있어서,
    상기 시간 블록에 대한 상기 제1 채널 신호 또는 상기 제2 채널 신호의 스펙트럼 특성을 추정하기 위한 스펙트럼 특성 추정기(1010); 및
    상기 평활화된 상호 상관 스펙트럼을 얻기 위해 상기 스펙트럼 특성을 사용하여 시간 경과에 따라 상기 상호 상관 스펙트럼을 평활화하기 위한 평활화 필터(1030)
    를 더 포함하고,
    상기 가중기(1036)는 상기 평활화된 상호 상관 스펙트럼을 가중하도록 구성되는, 장치.
  14. 제1항에 있어서, 상기 프로세서(1040)는 상기 평활화된 상호 상관 스펙트럼의 크기를 사용하여 상기 평활화된 상호 상관 스펙트럼을 정규화(1036a)하도록 구성되는, 장치.
  15. 제1항에 있어서, 상기 프로세서(1040)는:
    상기 평활화된 상호 상관 스펙트럼 또는 정규화 평활화된 상호 상관 스펙트럼의 시간 영역 표현을 계산하고(1031);
    상기 채널 간 시간 차를 결정하기 위해 상기 시간 영역 표현을 분석하도록(1032)
    구성되는, 장치.
  16. 제15항에 있어서, 상기 프로세서(1040)는 상기 시간 영역 표현을 저역 통과 필터링하고(458) 상기 저역 통과 필터링의 결과를 추가로 처리하도록(1033) 구성되는, 장치.
  17. 제1항에 있어서, 상기 프로세서(1040)는 상기 평활화된 상호 상관 스펙트럼으로부터 결정된 시간 영역 표현 내에서 피크 검색 또는 피크 선택 동작(1041, 1042)을 수행함으로써 채널 간 시간 차 결정을 수행하도록 구성되는, 장치.
  18. 제13항에 있어서, 상기 스펙트럼 특성 추정기(1010)는 상기 스펙트럼 특성으로서 상기 스펙트럼의 잡음 또는 음조를 결정하도록 구성되고,
    상기 평활화 필터(1030)는 제1 잡음 특성 또는 제1 음조 특성의 경우 제1 평활도로 시간이 지남에 따라 더 강한 평활화를 적용하거나, 제2 잡음 특성 또는 제2 음조 특성의 경우 제2 평활도로 시간이 지남에 따라 더 약한 평활화를 적용하도록 구성되고,
    상기 제1 평활도는 상기 제2 평활도 보다 크고, 상기 제1 잡음 특성은 상기 제2 잡음 특성보다 잡음이 적거나, 상기 제1 음조 특성은 상기 제2 음조 특성보다 음조가 높은, 장치.
  19. 제13항에 있어서,
    상기 스펙트럼 특성 추정기(1010)는 상기 제1 채널 신호의 스펙트럼의 제1 스펙트럼 평탄도 측정 값 및 상기 제2 채널 신호의 제2 스펙트럼의 제2 스펙트럼 평탄도 측정 값을, 상기 스펙트럼 특성으로서 계산하고,
    상기 제1 스펙트럼 평탄도 측정 값및 상기 제2 스펙트럼 평탄도 측정 값으로부터 최대 값을 선택하거나, 상기 제1 스펙트럼 평탄도 측정 값 및 상기 제2 스펙트럼 평탄도 측정 값 간의 가중 평균 또는 비가중 평균을 결정하거나, 또는 상기 제1 스펙트럼 평탄도 측정 값및 상기 제2 스펙트럼 평탄도 측정 값으로부터 최소값을 선택하여 상기 제1 스펙트럼 평탄도 측정 값및 상기 제2 스펙트럼 평탄도 측정 값으로부터 상기 스펙트럼 특성을 결정하도록 구성되는, 장치.
  20. 제13항에 있어서,
    상기 평활화 필터(1030)는 주파수에 대해 평활화된 상호 상관 스펙트럼 값을, 상기 시간 블록으로부터의 상기 주파수에 대한 상기 상호 상관 스펙트럼 값과 적어도 하나의 과거 시간 블록으로부터의 상기 주파수에 대한 상호 상관 스펙트럼 값의 가중 조합에 의해 계산하도록 구성되고, 상기 가중 조합에 대한 가중 계수는 상기 스펙트럼의 상기 특성에 의해 결정되는, 장치.
  21. 제1항에 있어서,
    상기 프로세서(1040)는 상기 가중 상호 상관 스펙트럼으로부터 도출된 시간 도메인 표현 내의 유효 범위를 결정하고(1120) 또한 상기 가중 상호 상관 스펙트럼으로부터 도출된 시간 영역 표현 내에서 무효 범위를 결정하고(1120),
    상기 무효 범위 내의 적어도 하나의 최대 피크를 감지하고(1121),
    상기 무효 범위 내의 감지된 적어도 하나의 최대 피크를 상기 유효 범위 내의 최대 피크와 비교하고(1123), 또한
    상기 유효 범위 내의 상기 최대 피크가 상기 무효 범위 내의 감지된 상기 적어도 하나의 최대 피크 보다 클 때 상기 채널 간 시간 차를 결정(1124)하도록 구성된,
    장치.
  22. 제1항에 있어서,
    상기 프로세서(1040)는
    상기 평활화된 상호 상관 스펙트럼으로부터 도출된 시간 영역 표현 내에서 피크 검색 연산을 수행하고(1102),
    상기 시간 영역 표현으로부터 가변 임계 값을 결정하고(1105);
    피크를 상기 가변 임계 값과 비교(1106, 1035)
    하도록 구성되고,
    상기 채널 간 시간 차이는 상기 가변 임계 값과 미리 결정된 관계에 있는 피크와 관련된 시간 지연으로 결정되는, 장치.
  23. 제22항에 있어서, 상기 프로세서(1040)는 상기 가변 임계 값을 상기 시간 영역 표현의 값의 10 %와 같이 가장 큰 부분의 값의 정수 배인 값으로 결정(1105)하도록 구성되는, 장치.
  24. 제1항에 있어서,
    상기 프로세서(1040)는 상기 평활화 된 상호 상관 스펙트럼으로부터 도출된 시간 영역 표현의 복수의 서브 블록의 각 서브 블록에서 최대 피크 크기를 결정(1102)하도록 구성되며,
    상기 프로세서(1040)는 상기 복수의 서브 블록의 상기 최대 피크 크기로부터 도출(1103)된 평균 피크 크기를 기반으로 하는 가변 임계 값을 계산(1105, 1034)하도록 구성되며,
    상기 프로세서(1040)는 상기 복수의 서브 블록의 상기 최대 피크 크기들 중에서 특정 최대 피크 크기에 대응하는 시간 지연 값으로 상기 채널 간 시간 차를 결정하도록 구성되며,
    상기 특정 최대 피크 크기는 상기 가변 임계 값 보다 큰,
    장치.
  25. 제24항에 있어서,
    상기 프로세서(1040)는 복수의 서브 블록의 상기 최대 피크 크기들의 상기 평균 피크 크기로 결정된 평균 임계 값과 곱셈 값을 곱하여 상기 가변 임계 값을 계산(1105)하도록 구성되고,
    상기 곱셈 값은 상기 제1 채널 신호 및 제2 채널 신호의 SNR (신호 대 잡음비) 특성에 의해 결정되며, 제1 곱셈 값은 제1 SNR 값과 연관되고 제2 곱셈 값(alow)은 제2 SNR 값과 연관되며, 상기 제1 곱셈 값은 상기 제2 곱셈 값(alow)보다 크고, 상기 제1 SNR 값은 상기 제2 SNR 값보다 큰,
    장치.
  26. 제25항에 있어서,
    상기 프로세서(1040)는 제3 SNR 값이 상기 제2 SNR 값 보다 작은 경우, 상기 평균 임계 값과 상기 복수의 서브 블록 내의 최대 피크 크기 간 차이가 미리 정해진 값보다 작을 때, 상기 제2 곱셈 값(alow) 보다 낮은 제3 곱셈 값(alowest)을 사용(1104)하도록 구성되는, 장치.
  27. 제2항에 있어서,
    상기 잡음 추정기(1037)는 배경 잡음 추정기(1060) 및 배경 잡음 추정치를 제공하기 위한 시간 평활기(1061)를 포함하거나,
    상기 잡음 추정기(1037)는 신호 활성 검출기(1070), 상기 신호 활성 검출기(1070)의 제어 하에서만 활성 프레임을 선택하기 위한 프레임 선택기(1071), 및 상기 활성 프레임에서 신호 레벨을 계산하기 위한 신호 레벨 계산기(1072), 및 신호 레벨 추정치를 제공하기 위해 시간이 경과함에 따라 상기 신호 레벨 계산기(1072)의 결과를 평활화하기 위한 시간 평활기(1073)를 포함하거나,
    상기 잡음 추정기(1037)는 프레임에 대해 평활화 또는 평활화되지 않은 신호 레벨 및 평활화되거나 평활화되지 않은 배경 잡음 레벨로부터 신호 대 잡음비를 계산(1074)하도록 구성되며, 상기 프레임에 대한 상기 잡음 레벨(1038)을 제공하기 위해 상기 프레임에 대한 임계 값과 상기 신호 대 잡음 비율 값을 비교하는 비교기(1075)를 포함하는, 장치.
  28. 제1항에 있어서, 상기 장치는
    상기 추정된 채널 간 시간 차의 저장 또는 전송을 수행하거나,
    상기 추정된 채널 간 시간 차를 사용하여 상기 제1 채널 신호 및 제2 채널 신호의 스테레오 처리를 수행하거나,
    상기 채널 간 시간 차를 사용하여 상기 제1 채널 신호 및 제2 채널 신호의 시간 정렬을 수행하거나,
    상기 추정된 채널 간 시간 차를 사용하여 도착 시간 차 추정을 수행하거나,
    두 개의 마이크로폰과 알려진 마이크로폰 셋업을 구비한 방 내의 스피커 위치를 결정하기 위해 상기 채널 간 시간 차이를 사용하여 도착 시간 차 추정을 수행하거나,
    상기 추정된 채널 간 시간 차를 사용하여 빔 형성을 수행하거나,
    상기 추정된 채널 간 시간 차를 사용하여 공간 필터링을 수행하거나,
    상기 추정된 채널 간 시간 차를 사용하여 전경 또는 배경 분해를 수행하거나,
    상기 추정된 채널 간 시간 차를 사용하여 음원의 위치 연산을 수행하거나,
    상기 제1 채널 신호와 상기 제2 채널 신호 간 또는 상기 제1 채널 신호, 상기 제2 채널 신호 및 적어도 하나의 추가 채널 간의 시간 차에 기초하여 음향 삼각 측량을 수행함으로써 상기 추정된 채널 간 시간 차를 사용하여 음원의 위치 찾기를 수행하도록 구성되는, 장치.
  29. 제1 채널 신호와 제2 채널 신호 사이의 채널 간 시간 차를 추정하는 방법에 있어서,
    상기 제1 채널 신호, 상기 제2 채널 신호, 상기 제1 채널 신호와 상기 제2 채널 신호, 및 상기 제1 채널 신호 또는 상기 제2 채널 신호로부터 도출된 신호 중 적어도 하나의 신호 특성(1038)을 추정하는 단계;
    시간 블록에 대한 상호 상관 스펙트럼을 상기 시간 블록의 상기 제1 채널 신호 및 상기 시간 블록의 상기 제2 채널 신호로부터 계산하는 단계;
    제1 가중 절차(1036a)를 사용하거나 제2 가중 절차(1036b)를 사용하여 가중된 상호 상관 스펙트럼을 얻기 위해 평활화 또는 평활화되지 않은 상호 상관 스펙트럼을 가중하는 단계 - 상기 제1 가중 절차(1036a) 또는 상기 제2 가중 절차(1036b)의 사용은 신호 특성을 추정하는 단계에서 추정된 신호 특성에 따르며, 상기 제1 가중 절차(1036a)는 제2 가중 절차(1036b)와 상이하며, 상기 제1 가중 절차(1036a)는 진폭이 정규화되고 위상이 유지되도록 하는 가중을 포함하거나, 또는 상기 제2 가중 절차(1036b)는 거듭 제곱이 1보다 작거나 0보다 큰 거듭 제곱 연산이나 로그 함수를 사용하여 평활화 또는 평활화되지 않은 상호 상관 스펙트럼으로부터 도출된 가중 계수를 포함함 - ; 및
    가중 상호 상관 스펙트럼을 처리하여 상기 채널 간 시간 차를 얻는 단계를 포함하는,
    방법.
  30. 제29항에 있어서,
    상기 시간 블록에 대한 상기 제1 채널 신호 또는 상기 제2 채널 신호의 스펙트럼 특성을 추정하는 단계;
    평활된 상호 상관 스펙트럼을 얻기 위해 상기 스펙트럼 특성을 사용하여 시간 경과에 따라 상기 상호 상관 스펙트럼을 평활화하는 단계를 더 포함하고,
    상기 평활화 또는 평활화되지 않은 상호 상관 스펙트럼을 가중하는 단계는 상기 평활화된 상호 상관 스펙트럼에 가중치를 부여하는,
    방법.
  31. 컴퓨터 판독가능 저장 매체로서,
    컴퓨터 또는 프로세서에서 실행될 때 제29항 또는 제30항의 방법을 수행하기위한 컴퓨터 프로그램이 저장되는,
    컴퓨터 판독가능 저장 매체.
KR1020207031943A 2018-04-05 2019-04-03 채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램 KR102550424B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18165882.4 2018-04-05
EP18165882 2018-04-05
PCT/EP2019/058434 WO2019193070A1 (en) 2018-04-05 2019-04-03 Apparatus, method or computer program for estimating an inter-channel time difference

Publications (2)

Publication Number Publication Date
KR20200140864A KR20200140864A (ko) 2020-12-16
KR102550424B1 true KR102550424B1 (ko) 2023-07-04

Family

ID=61965696

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207031943A KR102550424B1 (ko) 2018-04-05 2019-04-03 채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램

Country Status (18)

Country Link
US (2) US11594231B2 (ko)
EP (3) EP3776541B1 (ko)
JP (2) JP7204774B2 (ko)
KR (1) KR102550424B1 (ko)
CN (2) CN118283489A (ko)
AR (1) AR117567A1 (ko)
AU (1) AU2019249872B2 (ko)
BR (1) BR112020020457A2 (ko)
CA (1) CA3095971C (ko)
ES (1) ES2909343T3 (ko)
MX (1) MX2020010462A (ko)
PL (1) PL3776541T3 (ko)
PT (1) PT3776541T (ko)
RU (1) RU2762302C1 (ko)
SG (1) SG11202009801VA (ko)
TW (1) TWI714046B (ko)
WO (1) WO2019193070A1 (ko)
ZA (1) ZA202006125B (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11418879B2 (en) * 2020-05-13 2022-08-16 Nxp B.V. Audio signal blending with beat alignment
CN113948098A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 一种立体声音频信号时延估计方法及装置
CN116075889A (zh) * 2020-08-31 2023-05-05 弗劳恩霍夫应用研究促进协会 依赖混合噪声信号的多声道信号产生器、音频编码器及相关方法
CN112242150B (zh) * 2020-09-30 2024-04-12 上海佰贝科技发展股份有限公司 一种检测立体声的方法及其系统
CN117501361A (zh) * 2021-06-15 2024-02-02 瑞典爱立信有限公司 用于重合立体声捕获的声道间时差(itd)估计器的提高的稳定性
WO2023038637A1 (en) * 2021-09-13 2023-03-16 Luminous Computing, Inc. Optical filter system and method of operation
CN114324972B (zh) * 2022-01-10 2022-09-13 浙江大学 一种适用于流体互相关测速的自适应广义互相关时延估计方法
WO2024053353A1 (ja) * 2022-09-08 2024-03-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 信号処理装置、及び、信号処理方法
WO2024202972A1 (ja) * 2023-03-29 2024-10-03 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ チャネル間時間差推定装置、及び、チャネル間時間差推定方法
WO2024202997A1 (ja) * 2023-03-29 2024-10-03 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ チャネル間時間差推定装置、及び、チャネル間時間差推定方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016632A1 (en) 2009-03-25 2012-01-19 Wu Wenhai Method for estimating inter-channel delay and apparatus and encoder thereof
US20120300945A1 (en) 2010-02-12 2012-11-29 Huawei Technologies Co., Ltd. Stereo Coding Method and Apparatus
US20130182852A1 (en) 2011-09-13 2013-07-18 Jeff Thompson Direct-diffuse decomposition
WO2017125563A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for estimating an inter-channel time difference

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US7573912B2 (en) 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
KR20080066537A (ko) * 2007-01-12 2008-07-16 엘지전자 주식회사 부가정보를 가지는 오디오신호의 부호화/복호화 방법 및장치
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
MX2010004220A (es) 2007-10-17 2010-06-11 Fraunhofer Ges Forschung Codificacion de audio usando mezcla descendente.
KR101405956B1 (ko) * 2007-12-28 2014-06-12 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
BRPI0908630B1 (pt) 2008-05-23 2020-09-15 Koninklijke Philips N.V. Aparelho de 'upmix' estéreo paramétrico, decodificador estéreo paramétrico, método para a geração de um sinal esquerdo e de um sinal direito a partir de um sinal de 'downmix' mono com base em parâmetros espaciais, dispositivo de execução de áudio, aparelho de 'downmix' estéreo paramétrico, codificador estéreo paramétrico, método para a geração de um sinal residual de previsão para um sinal de diferença a partir de um sinal esquerdo e de um sinal direito com base nos parâmetros espaciais, e, produto de programa de computador
WO2010037426A1 (en) * 2008-10-03 2010-04-08 Nokia Corporation An apparatus
CN102292767B (zh) * 2009-01-22 2013-05-08 松下电器产业株式会社 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法
KR101433701B1 (ko) * 2009-03-17 2014-08-28 돌비 인터네셔널 에이비 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
PL2671222T3 (pl) * 2011-02-02 2016-08-31 Ericsson Telefon Ab L M Określanie międzykanałowej różnicy czasu wielokanałowego sygnału audio
JP5692006B2 (ja) * 2011-11-02 2015-04-01 トヨタ自動車株式会社 音源推定装置、方法、プログラム、及び移動体
JP2015517121A (ja) * 2012-04-05 2015-06-18 ホアウェイ・テクノロジーズ・カンパニー・リミテッド インターチャネル差分推定方法及び空間オーディオ符号化装置
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
EP3165000A4 (en) * 2014-08-14 2018-03-07 Rensselaer Polytechnic Institute Binaurally integrated cross-correlation auto-correlation mechanism
CN106033671B (zh) * 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016632A1 (en) 2009-03-25 2012-01-19 Wu Wenhai Method for estimating inter-channel delay and apparatus and encoder thereof
US20120300945A1 (en) 2010-02-12 2012-11-29 Huawei Technologies Co., Ltd. Stereo Coding Method and Apparatus
US20130182852A1 (en) 2011-09-13 2013-07-18 Jeff Thompson Direct-diffuse decomposition
WO2017125563A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for estimating an inter-channel time difference
WO2017125559A1 (en) 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Bertrand Fatus. Parametric Coding for Spatial Audio. Master’s Thesis, KTH, Stockholm, Sweden. 2015.12.
ETSI TS 103 190-2 V1.1.1, Digital Audio Compression (AC-4) Standard Part 2: Immersive and personalized audio, 2015.09.

Also Published As

Publication number Publication date
JP7204774B2 (ja) 2023-01-16
WO2019193070A1 (en) 2019-10-10
AU2019249872B2 (en) 2021-11-04
EP3985665A1 (en) 2022-04-20
TWI714046B (zh) 2020-12-21
JP2021519949A (ja) 2021-08-12
PL3776541T3 (pl) 2022-05-23
CN112262433A (zh) 2021-01-22
ZA202006125B (en) 2022-07-27
AU2019249872A1 (en) 2020-11-12
CA3095971C (en) 2023-04-25
PT3776541T (pt) 2022-03-21
JP2023036893A (ja) 2023-03-14
CN112262433B (zh) 2024-03-01
SG11202009801VA (en) 2020-11-27
US20210012784A1 (en) 2021-01-14
US11594231B2 (en) 2023-02-28
MX2020010462A (es) 2020-10-22
TW202004734A (zh) 2020-01-16
US20230169985A1 (en) 2023-06-01
CN118283489A (zh) 2024-07-02
KR20200140864A (ko) 2020-12-16
EP4435783A2 (en) 2024-09-25
CA3095971A1 (en) 2019-10-10
EP3776541A1 (en) 2021-02-17
ES2909343T3 (es) 2022-05-06
RU2762302C1 (ru) 2021-12-17
AR117567A1 (es) 2021-08-18
EP3776541B1 (en) 2022-01-12
BR112020020457A2 (pt) 2021-01-12
EP3985665B1 (en) 2024-08-21

Similar Documents

Publication Publication Date Title
JP7161564B2 (ja) チャネル間時間差を推定する装置及び方法
KR102550424B1 (ko) 채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant