KR20240031117A - 지연 판단 시스템 및 그 방법 - Google Patents

지연 판단 시스템 및 그 방법 Download PDF

Info

Publication number
KR20240031117A
KR20240031117A KR1020230113313A KR20230113313A KR20240031117A KR 20240031117 A KR20240031117 A KR 20240031117A KR 1020230113313 A KR1020230113313 A KR 1020230113313A KR 20230113313 A KR20230113313 A KR 20230113313A KR 20240031117 A KR20240031117 A KR 20240031117A
Authority
KR
South Korea
Prior art keywords
delay
spectrum
matrix
similarity
waveform
Prior art date
Application number
KR1020230113313A
Other languages
English (en)
Inventor
포웬 루
덩 누엔
엔드류 카만스키
Original Assignee
누보톤 테크놀로지 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 누보톤 테크놀로지 코포레이션 filed Critical 누보톤 테크놀로지 코포레이션
Publication of KR20240031117A publication Critical patent/KR20240031117A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Complex Calculations (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

본 발명은 원본 신호 및 대응하는 캡처 신호 사이의 지연을 추정하는 방법을 개시한다. 일 실시예에서, 신호는 유사도를 측정하기 위해 2세트의 스펙트럼 디스크립터로 변환 및 버퍼링된다. 본 발명의 방법에 의하면, 불일치 지연 및 스펙트럼 왜곡에 대해 신뢰성 있는 지연 평가를 효과적으로 제공할 수 있다.

Description

지연 판단 시스템 및 그 방법{DELAY DETERMINING SYSTEM AND METHOD THEREOF}
본 발명은 오디오 시스템에 관한 것이다. 본 실시예들은 신호 지연 추정을 위한 시스템 및 방법에 관한 것으로서, 더 구체적으로, 본 발명은 불일치 지연 및 왜곡이 존재하는 시스템에 대해 스펙트럼 디스크립터를 사용하는 지연 추정 방법에 관한 것이다.
오디오 시스템에서 불일치 지연(고정 또는 드리프트 지연)을 경험할 수 있다. 이러한 지연은 대부분의 적응형 필터가 처리할 수 있는 지연보다 길 수 있다. 예컨대, 일반적인 음향 반향 제거(acoustic echo cancellation; AEC) 방식은 16 블록(16-block) 적응형 필터를 채택하며, 각 블록(block)의 길이는 8 밀리초이고, 오디오 콘텐츠와 마이크가 캡처한 신호 사이의 공칭 지연을 유효 블록 수, 즉, 4개 미만의 블록인 32 밀리초로 제한한다. 또한, 지연이 공지된 경우에는 더 긴 반향 후단부의 제로 응답 지연 영역을 줄이도록 버퍼 제어를 지원할 수도 있다.
기존의 지연 추정 방식은 단순히 상호 상관이 가장 크거나 오디오 콘텐츠와 캡처된 신호 사이의 거리가 가장 작은 후보 지연을 찾는 것이었다. 기존의 또 다른 진보적인 방식은 스펙트로그램의 일반 상호 상관(generalized cross-correlation; GCC)을 이용하여 지연을 결정하는 것이다. 그러나, 사용자가 스피커 또는 청취 환경을 변경할 수 있기 때문에, 캡처된 신호의 스펙트로그램에는 불확실성의 영향이 많은 정보가 포함될 수 있다. 예컨대, 불확실성에는 상이한 스피커 이퀄라이저(EQ) 설정, 상이한 스피커 주파수 응답, 상이한 공간 응답, 근거리 음성, 배경 소음이 포함된다.
후자의 2가지는 부차적인 것으로서, 사용자는 배경 소음을 극복할 수 있을 정도로 음량을 높일 수 있으며, 그에 따라, 마이크로폰으로 캡처한 오디오 신호는 예상되는 오디오 콘텐츠가 지배적이게 된다. 그러나, 전자의 3가지는 복잡한 응답을 발생시키기 때문에, 캡처된 신호의 스펙트로그램에서 분리하기가 용이하지 않다.
그러므로, 지연을 결정할 수 있는 신뢰성 있는 시스템 및 방법이 필요하다.
본 발명은 원본 신호 및 대응하는 캡처 신호 사이의 지연을 추정하는 방법으로서, 신호는 유사도를 측정하기 위해 두 세트의 스펙트럼 디스크립터로 변환 및 버퍼링되는 방법을 개시한다.
실시예에 의하면, 본 발명은 공지된 파형을 제공하는 호스트 장치; 채널을 통해 상기 호스트 장치로부터 상기 공지된 파형을 수신하고, 상기 공지된 파형에 해당하는 신호를 송신하는 신호 송신기; 및 상기 신호를 수신 파형으로 변환하고, 상기 수신 파형을 상기 호스트 장치로 발송하는 신호 수신기를 포함하며, 상기 호스트 장치는 프로세서를 포함하고, 상기 프로세서는 상기 공지된 파형을 기준 스펙트럼 디스크립터 행렬(reference spectral descriptor matrix) 및 기준 진폭 표시 행렬(reference magnitude representation matrix)로 변환하고; 상기 신호 수신기를 통해 수신된 상기 수신 파형을 수신 스펙트럼 디스크립터 행렬로 변환하고; 상기 기준 스펙트럼 디스크립터 행렬 및 상기 수신 스펙트럼 디스크립터 행렬 사이의 유사도(similarity measure)를 획득하고; 상기 기준 진폭 표시 행렬의 적어도 하나의 통계 데이터에 기초하여 상기 유사도를 누적함으로써, 누적 유사도를 획득하고; 누적된 상기 누적 유사도에 기초하여 지연을 판단하며; 상기 지연을 특징으로 나타내는 정보를 출력하도록 구성되는, 지연 판단 시스템을 제공한다.
실시예에 의하면, 본 발명은 공지된 파형을 기준 스펙트럼 디스크립터 행렬로 변환하고 상기 기준 스펙트럼 디스크립터 행렬을 제1 버퍼에 저장하는 단계; 파형을 수신하고, 상기 수신된 파형을 수신 스펙트럼 디스크립터 행렬로 변환하고, 상기 수신 스펙트럼 디스크립터 행렬을 제2 버퍼에 저장하는 단계; 상기 공지된 파형을 기준 진폭 표시 행렬로 변환하고, 상기 기준 진폭 표시 행렬을 제3 버퍼에 저장하는 단계; 상기 기준 스펙트럼 디스크립터 행렬 및 상기 수신 스펙트럼 디스크립터 행렬 사이의 유사도를 획득하는 단계; 상기 기준 진폭 표시 행렬의 적어도 하나의 통계 데이터에 기초하여 상기 유사도를 누적함으로써, 누적 유사도를 획득하는 단계; 및 상기 누적 유사도를 기초로 지연을 결정하는 단계를 포함하는, 지연 판단 방법을 제공한다.
상기 방법은 불일치 지연 및 스펙트럼 왜곡에 대한 신뢰성 있는 지연 추정을 지원할 수 있다.
도 1은 외부 송신기를 통해 신호 콘텐츠를 재생하고, 내장 수신기를 통해 발송 신호를 캡쳐하는 시스템을 도시하는 도면.
도 2의 (a) 내지 (c)는 본 발명의 송수신 신호 및 지연 추정/결정을 도시하는 스펙트로그램.
도 3의 (a) 내지 (d)는 본 발명의 송수신 신호 및 지연 추정/결정을 도시하는 또 다른 세트의 스펙트로그램.
도 4는 본 발명의 지연 추정 방법을 도시하는 블록도.
도 5는 본 발명의 스펙트럼 디스크립터를 생성하는 방법을 나타내는 흐름도.
도 6은 본 발명의 지연 결정을 발생시키기 위한 방법을 도시하는 흐름도.
도 7은 본 발명의 신호를 나타내는 소정 세트의 스펙트럼 디스크립터를 도시하는 도면.
도 8은 본 발명의 장기적인 상이한 특징들에 의해 결정되는 상관성을 도시하는 도면.
도 9는 본 발명의 단기적인 상이한 특징들에 의해 결정되는 상관성을 도시하는 도면.
도 10은 본 발명의 각 스펙트럼 디스크립터의 지연 결정 효율을 도시하는 도면.
도 11은 본 발명의 지연 결정에 기초한 지원 가중 누적 상관성을 예시적으로 도시하는 도면.
도 12는 본 발명의 두 오디오 신호 사이의 지연을 결정하기 위한 방법을 도시하는 흐름도.
도 13은 본 발명을 구현하기 위한 장치를 도시하는 블록도.
도 1은 본 발명의 실시예에 따른 외부 스피커를 통해 오디오 콘텐츠를 재생하기 위한 단순화된 예시로서의 오디오 시스템을 도시한다. 상기 외부 스피커는 유선 방식(예: HDMI, USB) 또는 무선 방식(예: 블루투스, WiFi)으로 연결될 수 있다. 도 1에 도시된 바와 같이, 오디오 시스템(100)은 원본 오디오 신호 및 해당 캡처 신호 사이의 지연을 결정하기 위한 시스템을 나타낸다. 도 1의 예에서, 상기 오디오 시스템(100)은 공지된 파형(111)을 제공하기 위해 오디오 콘텐츠가 재현되는 호스트 장치(110)를 포함한다. 상기 오디오 콘텐츠는 음성 또는 음악이거나 기타 오디오 신호일 수 있다. 상기 오디오 시스템(100)은 신호 송신기(130)를 더 포함한다. 상기 예에서, 상기 신호 송신기(130)는 채널(120)을 통해 상기 호스트 장치(110)로부터 상기 공지된 파형(111)을 수신하고 신호(131)를 전송하는 스피커이며, 상기 신호는 상기 공지된 파형(111)에 해당하는 오디오 신호이다. 도 1에서, 상기 채널(120)은 HDMI, USB, 동축 케이블 등의 유선 채널일 수 있다; 또는, 상기 채널(120)은 블루투스, WiFi 등의 무선일 수도 있다. 상기 오디오 시스템(100)은 상기 신호(131)를 수신 파형(141)으로 변환하고 상기 수신 파형(141)을 상기 호스트 장치(110)로 송신하기 위한 신호 수신기(140)를 더 포함한다. 일 실시예에서, 상기 호스트 장치(110)는 프로세서를 포함하며, 상기 프로세서는 상기 수신 파형(141) 및 상기 공지된 파형(111) 사이의 지연을 결정하도록 구성된다. 상기 호스트 장치(110)의 일례에 대해서는 도 13을 참조하여 후술한다.
도 2의 (a) 내지 (c)는 본 발명의 실시예에 따른 송수신 신호 및 지연 추정/결정을 도시하는 스펙트로그램으로서, 이는 블루투스 스피커에 의해 재생되는 예시로서의 음악에 대해 송수신된 음악 신호의 스펙트로그램을 각각 도시하며, 상기 음악 신호의 대역폭은 비교적 좁다. (a) 부분은 발송 신호의 스펙트로그램을 도시한다. (b) 부분은 수신 신호의 스펙트로그램을 도시하며, 스피커의 대역폭이 제한적이므로 상기 수신 신호에는 고주파 요소가 존재하지 않는다. (c) 부분은 실시예에 따른 지연 추정 시스템 및 방법에 의해 결정된 예시로서의 음악에 대한 지연 추정/결정을 나타낸다. 도면에서 알 수 있는 바와 같이, 드리프트 지연은 분당 1 프레임(128개 샘플)이다. 도면에서 원은 초당 2개의 샘플에 해당하며, 예컨대, 샘플링 속도 15999와 16001 Hz 사이의 차이가 존재한다.
도 3의 (a) 내지 (d)는 본 발명의 일 실시예에 따른 송수신 신호 및 지연 추정/결정을 도시하는 또 다른 세트의 스펙트로그램이다. (a) 및 (b) 부분은 송수신된 음성 신호의 스펙트로그램을 각각 도시한다. (a) 부분은 발송 신호의 스펙트로그램을 도시한다. (b) 부분은 HDMI/TV 스피커에서 재생되는 수신 음성을 예시적으로 도시하는 스펙트로그램으로서, 이는 스피커 주파수 응답으로 인해 왜곡되고 공간 응답에 심각한 영향을 받는다. 예컨대, 도면에서 가로 백색 줄무늬에 해당한다. 도 3의 (c) 및 (d) 부분은 후술하는 실시예에 따른 지연 추정 시스템 및 방법에 의해 결정되는 상이한 샘플링 주기의 음악 지연 추정/결정의 예를 도시한다. (c) 및 (d) 부분에 도시된 바와 같이, 지연은 전반적인 녹음 과정 중에 고정적이지만 상이한 녹음 시간 중에 일관적이지는 않다. 예컨대, (c) 부분의 샘플링 기간에서, 지연은 약 168 밀리초로 추정되며; (d) 부분의 샘플링 기간에서, 지연은 약 136 밀리초로 추정된다.
실험 결과에 의하면, 전반적으로, 본 발명에서 설명하는 지연 추정 방법은 다양한 상황에 적용 가능하며, 상이한 스펙트럼 왜곡, 상이한 콘텐츠, 불일치 지연 또는 드리프트 지연을 포함하되 이에 제한되지 않는다.
도 4는 본 발명의 실시예에 따른 도 1의 오디오 시스템(100)의 지연을 결정하기 위한 방법을 도시한다. 도 4는 도 1의 호스트 장치(110)를 사용한 방법(400)을 도시한다. 상기 방법(400)에서, 공지된 파형(예: 오디오 콘텐츠) s_0[n;m]으로 표시되는 디지털 샘플링 신호(예: 16kHz 오디오 신호)를 수신하되, 상기 파형은 신호 송신기(예: 스피커)를 통해 발송된다; 또한, 신호 수신기(예: 마이크)에 의해 프레임 단위(예: 128개 샘플, 즉 8 밀리초)로 캡처된 파형 s_1[n;m]을 수신하되, 정수 m은 프레임의 인덱스이고, 정수 n은 디지털 데이터의 인덱스이다. 제1 윈도우 모듈(401) 및 제2 윈도우 선택 모듈(402)은 윈도우 함수 w[n](예: 256 포인트의 해닝 윈도우)을 적용하여, 프레임 신호 및 그에 따른 메모리 데이터(예: 이전 프레임의 데이터)로 변조함으로써, 하기와 같은 윈도우 기준 신호(x_0[n;m]) 및 윈도우 수신 신호(x_1[n;m])를 생성한다:
도 4에서, 도면을 단순화 하기 위해 신호의 인덱스([n;m])는 생략하였다.
상기 방법(400)은 진폭 모듈(413)을 사용하여 윈도우 기준 신호(x_0[n;m])의 진폭 표시(g_0)를 계산하고 이를 기준 진폭 행렬에 저장하는 것을 포함하되, 상기 진폭 표시(g_0)는 윈도우 기준 신호(x_0)의 RMS(제곱평균제곱근)이다. 상기 진폭 표시는 상기 윈도우 기준 신호의 최대 진폭, 평균 진폭, 공률 또는 음압 레벨(sound pressure level; SPL) 등을 더 포함할 수 있다. 상기 기준 진폭 표시 행렬은 진폭 표시의 복수의 프레임을 포함한다. 진폭 표시의 새 프레임을 업데이트하기 전에, 상기 진폭 표시의 가장 오래된 프레임이 폐기된다. 상기 기준 진폭 표시 행렬(g0)은 기준 진폭 버퍼(433)에 물리적으로 저장된다.
상기 방법(400)에서, 제1 변환 모듈(411) 및 제2 변환 모듈(412)은 푸리에 변환(FFT)을 통해 각각 윈도우 신호(x_0[n;m] 및 x_1[n;m])를 해당 주파수 표시(X_0[k;m] 및 X_1[k;m])으로 변환하되, k=1, ..., K이고, 예컨대 K=256 구간(bin)이다.
상기 주파수 표시는 이전 K/2개의 값(즉, 128개 구간)을 이용하여 해당 특성을 나타낼 수 있다. 일 실시예에서, 상기 방법(400)은 이전 K/2개의 값만 처리할 수 있다. 상기 방법(400)은 스펙트럼(X_0[k;m] 및 X_1[k;m])의 진폭을 각각 두 세트의 스펙트럼 디스크립터(C0 및 C1)로 변환하여 이를 기준 스펙트럼 디스크립터 행렬 및 수신 스펙트럼 디스크립터 행렬에 저장하기 위한 제1 스펙트럼 디스크립터 모듈(421) 및 제2 스펙트럼 디스크립터 모듈(422)을 더 포함한다. 각각의 행렬은 스펙트럼 디스크립터의 여러 프레임을 포함한다. 스펙트럼 디스크립터의 새 프레임을 업데이트하기 전에, 스펙트럼 디스크립터의 가장 오래된 프레임이 폐기된다. 상기 기준 스펙트럼 디스크립터 행렬은 기준 스펙트럼 디스크립터 버퍼(431)에 물리적으로 저장되며, 상기 수신 스펙트럼 디스크립터 행렬은 수신 스펙트럼 디스크립터 버퍼(432)에 물리적으로 저장된다. 상기 방법(400)은 지연 결정 모듈(441)을 사용하여 상기 기준 스펙트럼 디스크립터 행렬, 상기 수신 스펙트럼 디스크립터 행렬 및 상기 기준 진폭 행렬의 데이터에 기초하여 지연 결정(443)을 수행하는 단계를 더 포함한다. 이하, 스펙트럼 디스크립터에 관한 추가적인 세부 사항은 도 5를 참조하여 설명한다.
도 5는 스펙트럼 디스크립터 모듈의 단순화된 블록도를 도시하며, 스펙트럼 디스크립터를 생성하는 방법을 나타낸다. 스펙트럼 디스크립터 모듈(500)은 도 4에서의 상기 제1 스펙트럼 디스크립터 모듈(421) 및 상기 제2 스펙트럼 디스크립터 모듈(422)을 예시적으로 사용할 수 있다. 도 5에 도시된 바와 같이, 상기 스펙트럼 디스크립터 모듈(500)은 하기의 공정을 수행하도록 구성된다.
단계 510에서, log(0)을 방지하기 위해 노이즈 플로어(noise floor)를 추가한다.
단계 520에서, 추가 플로어 스펙트럼을 로그 스펙트럼으로 변환하여 동형(homomorphic) 처리를 수행한다.
단계 530에서, 변환 방식을 통해, 로그 스펙트럼을 일련의 스펙트럼 형상 계수로 변환한다(적절한 스펙트럼 형상 분해). 예컨대, 상기 변환 방식은 이산 코사인 변환(DCT), 이산 사인 변환(DST), 켑스트럼, 주성분 분석(PCA), 웨이블릿 변환(WT) 등이 될 수 있다.
단계 540에서, 한 세트의 스펙트럼 디스크립터로서 일부 스펙트럼 형상 계수를 선택하되, 이는 C로 표시된다. 선택된 계수에 대한 자세한 내용은 도 10을 참조하여 후술한다.
도 6은 지연 판단 모듈의 단순화된 블록도를 도시하며, 본 발명의 실시예에 따른 지연 결정을 발생시키기 위한 방법을 나타낸다. 도 6에 도시된 바와 같이, 지연 결정 모듈(600)은 지연 판단 모듈의 일례로서, 도 4에서의 지연 결정 모듈(441)을 구현하기 위해 사용될 수 있다. 도 6을 참조하면, 상기 지연 결정 모듈(600)은 유사도 측정 모듈(610), 가중 누적 모듈(620) 및 지연 픽업 모듈(630)을 포함하며, 이들 모듈들은 하기의 기능을 수행하도록 구성된다.
상기 유사도 측정 모듈(610)은 기준 스펙트럼 디스크립터 행렬(도 4의 C0 버퍼(431)에 저장됨) 및 수신 스펙트럼 디스크립터 행렬(도 4의 C1 버퍼(432)에 저장됨)의 데이터간의 유사도를 측정하도록 구성된다;
상기 가중 누적 모듈(620)은 기준 진폭 표시 행렬(도 4의 버퍼(433))에서 적어도 하나의 통계 데이터를 기초로 유사도를 누적함으로써 누적 유사도를 획득하도록 구성된다;
상기 지연 픽업 모듈(630)은 누적 유사도를 기초로 지연을 판단하도록 구성된다.
지연 결정 과정에서, 상기 기준 진폭 행렬의 통계 데이터를 기초로 생성된 누적 유사도에 의거하여 추정 지연 값을 확정한다. 일 실시예에서, 상기 유사도는 소정의 후보 지연의 상황 하에 2개의 행렬에서의 데이터 사이의 상관성 또는 거리이며, 통계량은 최소값, 평균값, 합계 및 제곱합 중 적어도 하나이다. 유사도로서 상호 상관을 선택하면, 누적 상관도가 가장 큰 지연이 선택된다. 유사도로서 거리를 선택하면 누적 거리가 가장 작은 지연이 선택된다. 지연 결정 모듈에 대해 세부 사항은 도 11을 참조하여 후술한다.
도 7의 그래프(700)는 본 발명의 실시예에 따른 스펙트럼의 이산 코사인 변환(DCT)의 예를 도시한다. A(DCT)는 상이한 주파수로 진동하는 코사인 함수의 합에 따라 소정의 데이터 포인트 시퀀스를 나타낸다. 예컨대, DCT의 계수는 하기와 같이 나타낼 수 있다.
도 7에서, 그래프 701은 오디오 신호의 로그 진폭의 스펙트럼이다. 도 7의 그래프 711 내지 714는 각각 DCT 계수(c0 내지 c3)를 나타낸다. 그래프 711(제1 DCT 계수(c0))은 스펙트럼의 평균 레벨을 나타낸다. 그래프 712(제2 DCT 계수(c1))는 스펙트럼의 경사도를 나타낸다. 그래프 713(제3 DCT 계수(c2))은 중앙으로 집중하거나 가장자리로 확산하는 등의 스펙트럼의 밀도를 나타낸다. 더 높은 단계의 DCT 계수(c4 내지 c7)일수록 스펙트럼의 더 많은 세부 사항들을 제공한다. 파선 721은 소정 개수(즉, 처음 8개)의 DCT 계수에 기초하여 재구성된 스펙트럼을 나타낸다. 상기와 같은 적은 정보들을 반영하여, 재구성된 스펙트럼은 원본 스펙트럼의 평활화된 버전을 양호하게 나타낸다. 본 예시는 본원에서 설명하는 지연 추정 방법 중에서 DCT가 효과적임을 보여준다.
본 발명에서는 해당 스펙트럼을 나타내는 데 있어서 우수한 여부에 관하여 스펙트럼 디스크립터(예: DCT)를 조사하기 위한 연구를 수행하였다. 도 8의 (a) 내지 (c) 부분은 오디오 신호의 3가지 상이한 표시(RMS, FFT 및 DCT)를 사용하여 지연 추정을 수행한 결과를 도시한다. 도 8의 (a) 부분에 도시된 바와 같이, 그래프 811, 812 및 813은 5초 샘플링을 사용한 RMS, FFT 및 DCT 기반의 오디오 신호에 대한 제1 지연 추정 결과를 각각 나타낸다. 도 8의 (b) 부분에 도시된 바와 같이, 그래프 821, 822 및 823은 5초 샘플링을 사용한 RMS, FFT 및 DCT 기반의 오디오 신호에 대한 제2 지연 추정 결과를 각각 나타낸다. 도 8의 (c) 부분에 도시된 바와 같이, 그래프 831, 832 및 833은 5초 샘플링을 사용한 RMS, FFT 및 DCT 기반의 오디오 신호에 대한 제3 지연 추정 결과를 각각 나타낸다.
도 8에서의 데이터에 의하면, 관찰 기간이 충분히 길다는 것을 알 수 있다(예: 5초). 도 8의 상호 상관은 상이한 특성(즉, RMS, FFT 및 DCT)을 통해 3개의 상이한 공간 내의 3개의 상이한 스피커의 지연을 효과적으로 나타낸다. (a) 부분과 관련하여, 3가지 방식 모두 추정 지연을 101.3 밀리초로 판단했다. (b) 부분과 관련하여, 3가지 방식 모두 추정 지연을 181.3 밀리초로 판단했다. (c) 부분과 관련하여, 3가지 방식 모두 추정 지연을 117.3 밀리초로 판단했다. 하지만, 세부적인 결과에는 실질적으로 차이가 존재한다. 그래프 811, 821 및 831은 RMS 결과를 나타낸다. 세로축은 RMS 진폭 기준의 상관성을 나타내고, 가로축은 지연 시간을 나타내며, 불균일한 상관 그래프를 보인다. 812, 822 및 832는 FFT 결과를 나타낸다. 세로축은 FFT 기준의 구간 인덱스를 나타내고, 가로축은 지연 시간을 나타내며, 비교적 매끄러운 상관 그래프를 보인다. 그래프 813, 823 및 833은 DCT 결과를 나타낸다. 세로축은 DCT 기준의 구간 인덱스를 나타내고 가로축은 지연 시간을 나타낸다. 비교하면, DCT 결과는 상대적으로 상당히 날카로운 상관 그래프를 보인다.
도 9는 오디오 신호의 상이한 3가지 표시 RMS, FFT 및 DCT를 사용한 지연 추정 결과를 도시한다. 도 8에서의 그래프와 유사하지만, 본 발명에 따른 실시예는 더 짧은 샘플링 시간 구간의 샘플을 사용한다. 도 9의 (a) 부분에서, 그래프 911, 912 및 913은 0.5초 샘플링을 사용한 RMS, FFT 및 DCT 기반의 오디오 신호에 대한 지연 추정 결과의 제1 예시를 각각 나타낸다. 도 9의 (b) 부분에서, 그래프 921, 922 및 923은 0.5초 샘플링을 사용한 RMS, FFT 및 DCT 기반의 오디오 신호에 대한 지연 추정 결과의 제2 예시를 각각 나타낸다. 도 9의 (c) 부분에서, 그래프 931, 932 및 933은 0.5초 샘플링을 사용한 RMS, FFT 및 DCT 기반의 오디오 신호에 대한 지연 추정 결과의 제3 예시를 각각 나타낸다.
도 9에서의 데이터에 의하면, 관찰 시간이 짧게 제공되어(예: 5초보다 짧은 0.5초를 사용), 하기 2가지 경우의 RMS 방식은 지연을 정확하게 식별할 수 없다. 즉, (a) 부분의 그래프 911은 480.0 밀리초의 추정 지연을 제공하고, (a) 부분의 그래프 921은 464.0 밀리초의 추정 지연을 제공한다. RMS 방식은 (c) 부분의 그래프 931에서 117.3 밀리초의 정확한 추정 지연을 제공할 뿐이다. 비교하면, FFT 방식은 (a) 부분의 그래프 912에서 정확한 지연을 판단할 수 없고, 474.7 밀리초의 착오 추정 지연을 제공한다. 반면, 그래프 913, 923 및 933에 도시된 바와 같이, 3가지 변환 방식 모두에 대해 수정된 추정 지연을 성공적으로 판단하는 것은 DCT 방식뿐이다.
도 10은 상이한 콘텐츠, 상이한 스피커 또는 상이한 공간에서 각 DCT 계수의 지연 결정 효과를 도시한다. 유사도에 있어서 모든 스펙트럼 디스크립터가 동일하게 유의미하지는 않는다. DCT 계수를 예로 들면, 인덱스가 낮은 계수는 전반적인 스펙트럼 왜곡(예: EQ 또는 스피커 주파수 응답)의 영향을 받을 수 있으며, 인덱스가 낮은 계수는 순간적인 로컬 스펙트럼 노치(예: 공간 응답)의 영향을 받을 수 있다. 본 발명은 DCT 인덱스(DCT 계수라고도 함) 각각의 효과를 결정하기 위한 조사를 수행하였다. 이때, 상기 효과는 장기적인 관찰로 얻은 공칭 지연(장기적인 인공 검증으로 도출됨) 주위의 세 후보 지연의 상호 상관의 합으로 정의된다. 도 10에서, 가로축은 DCT 인덱스를 나타내고, 세로축은 효율을 나타낸다. 또한, 3가지 상이한 샘플에 대한 기록 및 시뮬레이션 결과도 표시된다. 점선은 기록 데이터를 나타내고, 파선은 시뮬레이션 데이터를 나타내며, 두꺼운 파선은 전체 데이터를 나타낸다. 이를 통해, 기록 및 시뮬레이션은 대체로 동일한 결과를 보이고 있다는 것을 알 수 있다. 3가지 샘플에서 함량이 다르면 효과가 다른 것으로 나타났지만, 추세는 대체로 서로 동일하다. 또한, 128개의 인덱스 중, 제8 내지 제39 인덱스는 지연 추정치와 더 높은 상관관계를 나타낸다.
효율이 높다는 것은 DCT 계수가 지연과 더 관련이 있다는 것을 의미한다. 이러한 경우, 128개의 계수 중에서 일부를 선택(예: 제8 내지 제39 인덱스의 32개 계수)하여 지연 추정에 사용할 수 있다. 따라서, 25% 수량의 계수를 사용할 수 있다. 일 실시예에서, 30% 미만인 수량의 계수를 사용할 수 있다. 예컨대, 도 10에서의 직사각형(1001)은 고효율의 DCT 인덱스를 표시한다. 유사도(상호 상관 또는 거리 등)를 계산하는 복잡도는 선택된 스펙트럼 디스크립터의 수량에 정비례하므로, 더 적은 수량의 스펙트럼 디스크립터를 사용하는 것이 계산량을 줄이는 데 유리하다.
따라서, 일 실시예에서, 지연을 판단하기 위한 시스템 및 방법은 유사도 측정을 위해 고효율의 DCT 계수를 선택하는 것을 더 포함한다. 도 5에 도시된 바와 같이, 스펙트럼 형상 계수를 위한 단계(530) 및 계수 선정을 위한 단계(540)에서, 상호 상관 또는 거리 등의 상이한 유사도를 사용할 수 있다.
도 11은 본 발명의 실시예에 따른 지연 결정에 기초한 지원 가중 누적 상관성을 예시적으로 도시한다. 도 11에서, 가로축은 프레임 단위의 지연을 나타내고, 세로축은 지원 가중 상관성을 나타낸다. 점선은 누적 상호 상관, 즉, 현재의 교차 보정(cross-correction)을 나타낸다. 실선은 새로운 교차 보정을 나타낸다. 다만, 이해를 돕기 위해 10배 확대했다. 도 6의 가중 누적 모듈(620)에서, 상기 가중 누적 모듈은 파선으로 표시된 업데이트된 교차 보정을 판단할 수 있다. 즉, 현재의 교차 보정에 새로운 교차 보정을 추가한다. 도 6의 지연 픽업 모듈(630)에서, 피크점 또는 최대점(예: 도 11의 1101)이 지연이라고 판단할 수 있다.
도 12는 본 발명의 실시예에 따라 2개의 오디오 신호 사이의 지연을 결정하기 위한 방법의 간략화된 흐름도를 도시한다. 도 12에 도시된 바와 같이, 방법(1200)은 도 4 내지 6을 참조하여 후술하는 처리 공정을 포함한다.
단계 1210에서, 공지된 파형(s0)은 기준 스펙트럼 디스크립터(421)로 변환되어 기준 스펙트럼 디스크립터 행렬에 저장된다. 예컨대, 버퍼(431)에 저장된다.
단계 1220에서, 수신된 파형(s1)을 수신 스펙트럼 디스크립터(422)로 변환하여 수신 스펙트럼 디스크립터 행렬에 저장한다. 예컨대, 버퍼(432)에 저장된다.
단계 1230에서, 공지된 파형을 기준 진폭 표시로 변환하여 기준 진폭 표시 행렬에 저장한다. 예컨대, 버퍼(433)에 저장된 기준 진폭 표시 행렬(g0)에 해당한다.
단계 1240에서, 기준 스펙트럼 디스크립터 행렬 및 수신 스펙트럼 디스크립터 행렬에서의 데이터 간의 유사도를 획득한다.
단계 1250에서, 기준 진폭 표시 행렬(예: 610 및 620)의 적어도 하나의 통계 데이터에 기초하여 유사도를 누적함으로써, 누적 유사도를 획득한다.
단계 1260에서, 상기 누적 유사도(630)(예: 상관 최대값 또는 거리 최소값)에 기초하여, 지연을 판단한다.
단계 1270에서, 판단된 지연을 나타내는 정보를 출력한다.
도 13은 본 발명에 따른 다양한 실시예를 구현하기 위한 장치의 단순화된 블록도를 도시한다. 도 13은 단지 본 발명의 실시예를 설명한 것일 뿐, 본 발명의 청구 범위를 제한하려는 것은 아니다. 해당 분야에 속하는 통상의 지식을 가진 자라면 해당 실시예의 변형, 수정 및 대체를 생각해낼 수 있을 것이다. 일 실시예에서, 일반적으로 컴퓨터 시스템(1300)은 모니터(1310), 컴퓨터(1320), 사용자 출력 장치(1330), 사용자 입력 장치(1340), 통신 인터페이스(1350) 등을 포함한다.
도 13은 본 발명을 실시할 수 있는 컴퓨터 시스템을 도시한다. 예컨대, 도 1에서의 상기 호스트 장치(110)는 도 13에 도시된 컴퓨터 시스템(1300)과 유사한 시스템을 사용하여 실시할 수 있다. 도 4 내지 6에서 설명한 방법(400, 500 및 600)의 기능은 도 13에 도시된 하나 이상의 프로세서에 의해 수행될 수 있다. 예컨대, 상기 컴퓨터 시스템(1300)의 일부는 디지털 신호 프로세서를 나타낼 수 있으며, 도 4 내지 12를 조합하여 전술한 모듈 및 프로세서를 구현하는 데 사용할 수 있다. 또는, 이러한 모듈은 (컴퓨터 시스템(1300)에 대해 설명된 것과 같은) 범용 프로세서에서 실행되는 소프트웨어 코드를 사용하여 구현될 수 있다. 또한, 도 1의 시스템(100)에서의 신호 수신기(140)는 상기 컴퓨터 시스템(1300)과 유사한 시스템의 주변 장치로 사용될 수 있다. 이외에도, 도 1의 공지된 파형을 전송하는 것은 사용자 출력 장치(1330)를 통해 구현될 수 있다.
도 13에 도시된 바와 같이, 컴퓨터(1320)는 버스 서브시스템(1390)을 통해 다수의 주변 장치와 통신하는 프로세서(1360)를 포함할 수 있다. 이들 주변 장치는 사용자 출력 장치(1330), 사용자 입력 장치(1340), 통신 인터페이스(1350), 및 랜덤 액세스 메모리(RAM; 1370) 및 디스크 드라이브(1380) 등의 메모리 서브시스템을 포함할 수 있다.
사용자 입력 장치(1340)는 컴퓨터(1320)에 정보를 입력하기 위한 모든 가능한 유형의 장치 및 메커니즘을 포함할 수 있다. 이러한 장치에는 키보드, 버튼, 디스플레이에 통합된 터치 스크린, 오디오 입력 장치(예: 음성 인식 시스템, 마이크 및 기타 유형의 입력 장치)가 포함될 수 있다. 각종 실시예에서, 일반적으로 사용자 입력 장치(1340)는 컴퓨터 마우스, 트랙볼, 트랙패드, 조이스틱, 리모콘, 타블렛, 음성 명령 시스템, 시선 추적 시스템 등으로 구현된다. 상기 사용자 입력 장치(1340)는 사용자가 버튼 클릭하는 등의 명령을 통해 모니터(1310)에 나타나는 객체, 아이콘, 텍스트 등을 선택할 수 있도록 한다.
상기 사용자 출력 장치(1330)는 컴퓨터(1320)로부터 정보를 출력하기 위한 모든 가능한 유형의 장치 및 메커니즘을 포함한다. 이들은 디스플레이(예: 모니터(1310)), 비시각적 디스플레이(예: 오디오 출력 장치) 등을 포함할 수 있다.
상기 통신 인터페이스(1350)는 다른 통신 네트워크 및 구성품에 대한 인터페이스를 제공한다. 상기 통신 인터페이스(1350)는 다른 시스템으로부터 데이터를 수신하고 다른 시스템으로 데이터를 전송하기 위한 인터페이스로 사용된다. 상기 통신 인터페이스(1350)의 구현예로는 통상적으로 이더넷 카드, 모뎀(전화, 위성, 케이블, ISDN), (비동기) 디지털 가입자 회선(DSL) 유닛, FireWire 포트, USB 포트 등을 포함한다. 예컨대, 상기 통신 인터페이스(1350)는 컴퓨터 네트워크, FireWire 버스 등에 연결될 수 있다. 기타 실시예에서, 상기 통신 인터페이스(1350)는 컴퓨터(1320)의 메인보드에 물리적으로 통합될 수 있으며, DSL 소프트웨어 등과 같은 소프트웨어 프로그램일 수도 있다.
각종 실시예에서, 상기 컴퓨터 시스템(1300)은 HTTP, TCP/IP, RTP/RTSP 프로토콜 등과 같은 네트워크를 통해 통신할 수 있는 소프트웨어를 더 포함할 수 있다. 본 발명의 실시예에서, 다른 통신 소프트웨어 및 IPX, UDP와 같은 전송 프로토콜을 사용할 수도 있다.
RAM(1370) 및 디스크 드라이브(1380)는 데이터를 저장하도록 구성된 유형의 저장 매체의 일예로서, 예컨대, 본 발명의 실시예서는 실행 가능한 컴퓨터 코드, 사람이 독취 가능한 코드 등을 포함할 수 있다. 기타 유형의 물리적 저장 매체에는 플로피 디스크, 이동식 하드 드라이브, 광학 저장 매체(예: CD-ROM, DVD 및 바코드), 반도체 메모리(예: 플래시 메모리, 읽기 전용 메모리(ROMS), 배터리 전원의 휘발성 메모리, 네트워크 저장 장치 등을 포함한다. RAM(1370) 및 디스크 드라이브(1380)는 본 발명의 기능을 제공하는 주요 프로그래밍 및 데이터 구조를 저장하도록 구성될 수 있다.
본 발명의 기능을 제공하는 소프트웨어 코드 모듈 및 명령어는 RAM(1370) 및 디스크 드라이브(1380)에 저장될 수 있다. 이러한 소프트웨어 모듈은 프로세서(1360)에 의해 실행될 수 있다. RAM(1370) 및 디스크 드라이브(1380)는 본 발명의 데이터를 저장하기 위해 제공될 수도 있다. 상기 디스크 드라이브(1380)는 비휘발성 메모리를 포함할 수 있다.
상기 버스 서브시스템(1390)은 컴퓨터(1320)의 다양한 구성 요소 및 서브시스템이 서로 통신할 수 있도록 사용된다. 상기 버스 서브시스템(1390)이 단일한 버스인 것으로 개략적으로 나타나 있지만, 실시예에서 상기 버스 서브시스템은 다수의 버스를 이용할 수 있다.
본 발명의 다양한 실시예는 소프트웨어, 하드웨어 또는 이들 모두를 조합한 논리 형식으로 구현될 수 있다. 상기 논리는 컴퓨터 판독 가능 또는 기계 판독 가능 비일시적 저장 매체에 명령어 세트로 저장될 수 있다. 상기 명령어 세트는 컴퓨터 시스템의 프로세서에 지시하여 본 발명의 실시예에 따른 단계를 수행하기에 적합하다. 상기 논리는 컴퓨터 프로그램 제품의 일부를 형성할 수 있다. 상기 컴퓨터 프로그램 제품은 정보 처리 장치에 지시하여 본 발명의 실시예에 따른 단계를 수행하도록 적용된다. 본 발명이 제공하는 시사점을 기초로, 해당 분야에 속한 통상의 지식을 가진 자는 본 발명을 실시하기 위한 기타의 방식 및/또는 방법을 이해할 수 있을 것이다.
100: 오디오 시스템 1001: 직사각형
110: 호스트 장치 111: 공지된 파형
120: 채널 1200: 방법
1210~1270: 단계 130: 신호 송신기
1300: 컴퓨터 시스템 131: 신호
1310: 모니터 1320: 컴퓨터
1330: 사용자 출력 장치 1340: 사용자 입력 장치
1350: 통신 인터페이스 1360: 프로세서
1370: 랜덤 액세스 메모리(RAM) 1380: 디스크 드라이브
1390: 버스 서브시스템 140: 신호 수신기
141: 수신 파형 400, 500, 600: 방법
401: 제1 윈도우 모듈 402: 제2 윈도우 선택 모듈
411: 제1 변환 모듈 412: 제2 변환 모듈
413: 진폭 모듈 421: 기준 스펙트럼 디스크립터
421: 제1 스펙트럼 디스크립터 모듈
422: 제2 스펙트럼 디스크립터 모듈
431, 432, 433: 버퍼 431: 기준 스펙트럼 디스크립터 버퍼
432: 수신 스펙트럼 디스크립터 버퍼 441, 600: 지연 결정 모듈
443: 지연 결정 500: 스펙트럼 디스크립터 모듈
510: 노이즈 플로어 610: 유사도 측정 모듈
620: 가중 누적 모듈 630: 지연 픽업 모듈
630: 누적 유사도 701, 711~714, 721: 곡선
811~813, 821~823, 813~833, 911~913, 921~923, 913~933: 그래프
g0: 기준 진폭 행렬

Claims (20)

  1. 공지된 파형을 제공하는 호스트 장치;
    채널을 통해 상기 호스트 장치로부터 상기 공지된 파형을 수신하고, 상기 공지된 파형에 해당하는 신호를 송신하는 신호 송신기; 및
    상기 신호를 수신 파형으로 변환하고, 상기 수신 파형을 상기 호스트 장치로 발송하는 신호 수신기를 포함하며,
    상기 호스트 장치는 프로세서를 포함하고,
    상기 프로세서는:
    상기 공지된 파형을 기준 스펙트럼 디스크립터 행렬 및 기준 진폭 표시 행렬로 변환하고;
    상기 신호 수신기를 통해 수신된 상기 수신 파형을 수신 스펙트럼 디스크립터 행렬로 변환하고;
    상기 기준 스펙트럼 디스크립터 행렬 및 상기 수신 스펙트럼 디스크립터 행렬 사이의 유사도를 획득하고;
    상기 기준 진폭 표시 행렬의 적어도 하나의 통계 데이터에 기초하여 상기 유사도를 누적함으로써, 누적 유사도를 획득하고;
    누적된 상기 누적 유사도에 기초하여 지연을 판단하며;
    상기 지연을 특징으로 나타내는 정보를 출력하도록 구성되는, 지연 판단 시스템.
  2. 제1항에 있어서,
    상기 공지된 파형은 오디오 콘텐츠이고, 상기 신호 송신기는 스피커이고, 상기 신호는 음향 신호이며, 상기 신호 수신기는 마이크인, 지연 판단 시스템.
  3. 제1항에 있어서,
    상기 채널은 고선명 멀티미디어 인터페이스(HDMI) 및 범용 직렬 버스(USB) 중 하나의 유선 채널을 포함하는, 지연 판단 시스템.
  4. 제1항에 있어서,
    상기 채널은 블루투스 및 WiFi 중 하나를 포함하는 무선 채널인, 지연 판단 시스템.
  5. 제1항에 있어서,
    상기 프로세서는 상기 공지된 파형을 스펙트럼으로 변환하고, 상기 스펙트럼에 플로어(floor)를 추가하고, 상기 플로어를 추가한 상기 스펙트럼을 로그 스펙트럼으로 변환하고, 변환 방식에 따라 상기 로그 스펙트럼을 다수의 계수로 변환하도록 구성하되, 상기 복수의 계수 중 30% 미만 수량의 상기 계수는 스펙트럼 디스크립터로서 사용되어 상기 공지된 파형을 표시하는, 지연 판단 시스템.
  6. 제5항에 있어서,
    상기 변환 방식은 이산 코사인 변환(DCT)인, 지연 판단 시스템.
  7. 제5항에 있어서,
    상기 변환 방식은 이산 사인 변환(DST), 켑스트럼(cepstrum), 주성분 분석(principal component analysis, PCA) 및 웨이블릿 변환(wavelet transform, WT) 중 하나인, 지연 판단 시스템.
  8. 제1항에 있어서,
    상기 기준 진폭 표시 행렬에서의 진폭 표시는 상기 공지된 파형의 제곱평균제곱근(RMS)인, 지연 판단 시스템.
  9. 제1항에 있어서,
    상기 기준 진폭 표시 행렬에서의 진폭 표시는 상기 공지된 파형의 최대 진폭, 평균 진폭, 공률 또는 음압 레벨(sound pressure level, SPL)인, 지연 판단 시스템.
  10. 제1항에 있어서,
    상기 유사도는 상호 상관(cross-correlation)에 의한, 지연 판단 시스템.
  11. 제1항에 있어서,
    상기 유사도는 거리에 의한, 지연 판단 시스템.
  12. 제1항에 있어서,
    상기 통계 데이터는 최소값, 평균값 또는 합계인, 지연 판단 시스템.
  13. 제1항에 있어서,
    누적 상호 상관이 최대인 지연을 상기 지연으로 판단하는, 지연 판단 시스템.
  14. 제1항에 있어서,
    누적 거리가 최소인 지연을 상기 지연으로 판단하는, 지연 판단 시스템.
  15. 공지된 파형을 기준 스펙트럼 디스크립터 행렬로 변환하고 상기 기준 스펙트럼 디스크립터 행렬을 제1 버퍼에 저장하는 단계;
    파형을 수신하고, 상기 수신된 파형을 수신 스펙트럼 디스크립터 행렬로 변환하고, 상기 수신 스펙트럼 디스크립터 행렬을 제2 버퍼에 저장하는 단계;
    상기 공지된 파형을 기준 진폭 표시 행렬로 변환하고, 상기 기준 진폭 표시 행렬을 제3 버퍼에 저장하는 단계;
    상기 기준 스펙트럼 디스크립터 행렬 및 상기 수신 스펙트럼 디스크립터 행렬 사이의 유사도를 획득하는 단계;
    상기 기준 진폭 표시 행렬의 적어도 하나의 통계 데이터에 기초하여 상기 유사도를 누적함으로써, 누적 유사도를 획득하는 단계; 및
    상기 누적 유사도를 기초로 지연을 결정하는 단계를 포함하는, 지연 판단 방법.
  16. 제15항에 있어서,
    상기 프로세서는 상기 파형을 스펙트럼으로 변환하고, 상기 스펙트럼에 플로어를 추가하고, 상기 플로어를 추가한 상기 스펙트럼을 로그 스펙트럼으로 변환하고, 변환 방식에 따라 상기 로그 스펙트럼을 다수의 계수로 변환하도록 구성하되, 상기 복수의 계수 중 30% 미만 수량의 상기 계수는 스펙트럼 디스크립터로서 사용되어 상기 수신된 파형을 표시하는, 지연 판단 방법.
  17. 제16항에 있어서,
    상기 변환 방식은 이산 코사인 변환(DCT)인, 지연 판단 방법.
  18. 제15항에 있어서,
    상기 기준 진폭 표시 행렬에서의 진폭 표시는 상기 수신된 파형의 제곱평균제곱근(RMS)인, 지연 판단 방법.
  19. 제15항에 있어서,
    상기 유사도는 상호 상관(cross-correlation)에 의하고, 누적 상호 상관이 최대인 지연을 상기 지연으로 판단하는, 지연 판단 방법.
  20. 제15항에 있어서,
    상기 유사도는 거리에 의하고, 누적 거리가 최소인 지연을 상기 지연으로 판단하는, 지연 판단 방법.

KR1020230113313A 2022-08-31 2023-08-29 지연 판단 시스템 및 그 방법 KR20240031117A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/823,521 US20240071398A1 (en) 2022-08-31 2022-08-31 Delay estimation using frequency spectral descriptors
US17/823,521 2022-08-31

Publications (1)

Publication Number Publication Date
KR20240031117A true KR20240031117A (ko) 2024-03-07

Family

ID=89997330

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230113313A KR20240031117A (ko) 2022-08-31 2023-08-29 지연 판단 시스템 및 그 방법

Country Status (4)

Country Link
US (1) US20240071398A1 (ko)
KR (1) KR20240031117A (ko)
CN (1) CN117636905A (ko)
TW (1) TW202411985A (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9916840B1 (en) * 2016-12-06 2018-03-13 Amazon Technologies, Inc. Delay estimation for acoustic echo cancellation
US10602270B1 (en) * 2018-11-30 2020-03-24 Microsoft Technology Licensing, Llc Similarity measure assisted adaptation control
TWI740206B (zh) * 2019-09-16 2021-09-21 宏碁股份有限公司 訊號量測的校正系統及其校正方法

Also Published As

Publication number Publication date
CN117636905A (zh) 2024-03-01
TW202411985A (zh) 2024-03-16
US20240071398A1 (en) 2024-02-29

Similar Documents

Publication Publication Date Title
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
WO2017181772A1 (zh) 语音检测方法、装置及存储介质
RU2596592C2 (ru) Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала
RU2595636C2 (ru) Система и способ для генерации аудиосигнала
US9130526B2 (en) Signal processing apparatus
WO2022012195A1 (zh) 音频信号处理方法和相关装置
JP2017506767A (ja) 話者辞書に基づく発話モデル化のためのシステムおよび方法
JP6054142B2 (ja) 信号処理装置、方法およびプログラム
JP7025089B2 (ja) 高調波ノイズ源からのノイズを抑制する方法、記憶媒体及び装置
JP2012155339A (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
JP6374120B2 (ja) 発話の復元のためのシステムおよび方法
JP6182895B2 (ja) 処理装置、処理方法、プログラム及び処理システム
CN107452398B (zh) 回声获取方法、电子设备及计算机可读存储介质
GB2585086A (en) Pre-processing for automatic speech recognition
CN116884429B (zh) 一种基于信号增强的音频处理方法
JP6320963B2 (ja) 音声認識システム、クライアント装置、音声認識方法、プログラム
KR20240031117A (ko) 지연 판단 시스템 및 그 방법
JP2008209445A (ja) 残響除去装置、残響除去方法、残響除去プログラム、記録媒体
JP2017083566A (ja) 雑音抑圧装置、雑音抑圧方法、およびプログラム
CN112133320B (zh) 语音处理装置及语音处理方法
JP6693340B2 (ja) 音声処理プログラム、音声処理装置、及び音声処理方法
JP2016180914A (ja) 音声認識システム、音声認識方法、プログラム
US11501745B1 (en) Musical instrument pickup signal processing system
US20220223167A1 (en) Information processing device, information processing system, information processing method, and program