KR102299938B1

KR102299938B1 - 시간 지연 추정 방법 및 디바이스

Info

Publication number: KR102299938B1
Application number: KR1020207001706A
Authority: KR
Inventors: 이얄 쉴로모트; 하이팅 리; 레이 먀오
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2017-06-29
Filing date: 2018-06-11
Publication date: 2021-09-09
Also published as: US11304019B2; KR20200017518A; TW201905900A; JP2022093369A; CN109215667B; AU2022203996B2; KR20230074603A; JP2024036349A; EP3633674A4; SG11201913584TA; AU2023286019A1; KR20210113417A; CN109215667A; ES2893758T3; RU2020102185A; BR112019027938A2; RU2020102185A3; AU2018295168A1; JP2020525852A; AU2022203996A1

Abstract

본 출원은 지연 추정 방법 및 장치를 개시하고, 오디오 처리 분야에 속한다. 이러한 방법은, 현재 프레임의 멀티-채널 신호의 교차-상관 계수를 결정하는 단계; 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 현재 프레임의 지연 트랙 추정 값을 결정하는 단계; 현재 프레임의 적응형 윈도우 함수를 결정하는 단계; 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 적응형 윈도우 함수에 기초하여 교차-상관 계수에 대한 가중화를 수행하여, 가중화된 교차-상관 계수를 획득하는 단계; 및 가중화된 교차-상관 계수에 기초하여 현재 프레임의 채널-간 시간 차이를 결정하는 단계를 포함하여, 교차-상관 계수가 과도하게 평활화되는 또는 불충분하게 평활화된다는 문제점을 해결하고, 그렇게 함으로써 채널-간 시간 차이를 추정하는 정확도를 개선한다.

Description

시간 지연 추정 방법 및 디바이스

삭제

본 출원은 오디오 처리 분야에, 특히, 지연 추정 방법 및 장치에 관련된다.

모노 신호와 비교하여, 방향성 및 공간성 덕분에, (스테레오 신호와 같은) 멀티-채널 신호가 사람들에 의해 선호된다. 멀티-채널 신호는 적어도 2개의 모노 신호들을 포함한다. 예를 들어, 스테레오 신호는 2개의 모노 신호들, 즉, 좌측 채널 신호 및 우측 채널 신호를 포함한다. 스테레오 신호를 인코딩하는 것은 스테레오 신호의 좌측 채널 신호 및 우측 채널 신호에 대해 시간-도메인 다운믹싱 처리를 수행하여 2개의 신호들을 획득하는 것, 및 다음으로 획득된 2개의 신호들을 인코딩하는 것일 수 있다. 이러한 2개의 신호들은 주 채널 신호 및 부 채널 신호이다. 주 채널 신호는 스테레오 신호의 2개의 모노 신호들 사이의 상관에 관한 정보를 표현하는데 사용된다. 부 채널 신호는 스테레오 신호의 2개의 모노 신호들 사이의 차이에 관한 정보를 표현하는데 사용된다.

2개의 모노 신호들 사이의 더 작은 지연은 더 강한 주 채널 신호, 스테레오 신호의 더 높은 코딩 효율, 및 더 양호한 인코딩 및 디코딩 품질을 표시한다. 반대로, 2개의 모노 신호들 사이의 더 큰 지연은 더 강한 부 채널 신호, 스테레오 신호의 더 낮은 코딩 효율, 및 더 나쁜 인코딩 및 디코딩 품질을 표시한다. 인코딩 및 디코딩을 통해 획득되는 스테레오 신호의 더 양호한 효과를 보장하기 위해, 스테레오 신호의 2개의 모노 신호들 사이의 지연, 즉, 채널-간 시간 차이(ITD, Inter-channel Time Difference)가 추정될 필요가 있다. 2개의 모노 신호들은 추정된 채널-간 시간 차이에 기초하여 수행되는 지연 정렬 처리를 수행하는 것에 의해 정렬되고, 이것은 주 채널 신호를 강화한다.

전형적인 시간-도메인 지연 추정 방법은, 적어도 하나의 과거 프레임의 교차-상관 계수에 기초하여 현재 프레임의 스테레오 신호의 교차-상관 계수에 대한 평활화 처리를 수행하여, 평활화된 교차-상관 계수를 획득하는 단계, 및 최대 값에 대해 평활화된 교차-상관 계수를 검색하는 단계, 최대 값에 대응하는 인덱스 값을 현재 프레임의 채널-간 시간 차이로서 결정하는 단계를 포함한다. 현재 프레임의 평활화 인자는 입력 신호의 에너지에 기초하여 적응형 조정을 통해 획득되는 값 또는 다른 특징이다. 교차-상관 계수는 상이한 채널-간 시간 차이들에 대응하는 지연들이 조정된 후 2개의 모노 신호들 사이의 교차 상관의 정도를 표시하는데 사용된다. 교차-상관 계수는 교차-상관 함수라고 또한 지칭될 수 있다.

균일한 표준(현재 프레임의 평활화 인자)이 오디오 코딩 디바이스에 대해 사용되어, 현재 프레임의 모든 교차-상관 값들을 평활화한다. 이것은 일부 교차-상관 값들로 하여금 과도하게 평활화되게 하고, 및/또는 다른 교차-상관 값들로 하여금 불충분하게 평활화되게 할 수 있다.

오디오 코딩 디바이스에 의해 현재 프레임의 교차-상관 계수의 교차-상관 값에 대해 수행되는 과도한 평활화 또는 불충분한 평활화로 인해 오디오 코딩 디바이스에 의해 추정되는 채널-간 시간 차이가 부정확하다는 문제점을 해결하기 위해, 본 출원의 실시예들은 지연 추정 방법 및 장치를 제공한다.

제1 양태에 따르면, 지연 추정 방법이 제공된다. 이러한 방법은, 현재 프레임의 멀티-채널 신호의 교차-상관 계수를 결정하는 단계; 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 현재 프레임의 지연 트랙 추정 값을 결정하는 단계; 현재 프레임의 적응형 윈도우 함수를 결정하는 단계; 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 적응형 윈도우 함수에 기초하여 교차-상관 계수에 대한 가중화를 수행하여, 가중화된 교차-상관 계수를 획득하는 단계; 및 가중화된 교차-상관 계수에 기초하여 현재 프레임의 채널-간 시간 차이를 결정하는 단계를 포함한다.

현재 프레임의 채널-간 시간 차이는 현재 프레임의 지연 트랙 추정 값을 계산하는 것에 의해 예측되고, 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 적응형 윈도우 함수에 기초하여 교차-상관 계수에 대해 가중화가 수행된다. 적응형 윈도우 함수는 상승된 코사인-형 윈도우이고, 중간 부분을 상대적으로 확대하는 그리고 에지 부분을 억제하는 기능을 갖는다. 따라서, 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 적응형 윈도우 함수에 기초하여 교차-상관 계수에 대해 가중화가 수행될 때, 인덱스 값이 지연 트랙 추정 값에 더 가까우면, 가중화 계수가 더 크고, 제1 교차-상관 계수가 과도하게 평활화된다는 문제점을 회피하고, 인덱스 값이 지연 트랙 추정 값으로부터 더 멀면, 가중화 계수가 더 작고, 제2 교차-상관 계수가 불충분하게 평활화된다는 문제점을 회피한다. 이러한 방식으로, 적응형 윈도우 함수는, 교차-상관 계수에서, 지연 트랙 추정 값으로부터 멀리, 인덱스 값에 대응하는 교차-상관 값을 적응형으로 억제하고, 그렇게 함으로써 가중화된 교차-상관 계수에서의 채널-간 시간 차이를 결정하는 정확도를 개선한다. 제1 교차-상관 계수는, 교차-상관 계수에서, 지연 트랙 추정 값에 가까이, 인덱스 값에 대응하는 교차-상관 값이고, 제2 교차-상관 계수는, 교차-상관 계수에서, 지연 트랙 추정 값으로부터 멀리, 인덱스 값에 대응하는 교차-상관 값이다.

제1 양태를 참조하여, 제1 양태의 제1 구현에서, 현재 프레임의 적응형 윈도우 함수를 결정하는 단계는, (n - k)번째 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 적응형 윈도우 함수를 결정하는 단계를 포함하고, 여기서 0 <k <n이고, 현재 프레임은 n번째 프레임이다.

현재 프레임의 적응형 윈도우 함수는 (n - k)번째 프레임의 평활화된 채널-간 시간 차이 추정 편차를 사용하여 결정되어, 적응형 윈도우 함수의 형상은 평활화된 채널-간 시간 차이 추정 편차에 기초하여 조정되고, 그렇게 함으로써 생성된 적응형 윈도우 함수가 현재 프레임의 지연 트랙 추정의 에러로 인해 부정확하다는 문제점을 회피하고, 적응형 윈도우 함수를 생성하는 정확도를 개선한다.

제1 양태 또는 제1 양태의 제1 구현을 참조하여, 제1 양태의 제2 구현에서, 현재 프레임의 적응형 윈도우 함수를 결정하는 단계는, 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 제1 상승된 코사인 폭 파라미터를 계산하는 단계; 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 제1 상승된 코사인 높이 바이어스를 계산하는 단계; 및 제1 상승된 코사인 폭 파라미터 및 제1 상승된 코사인 높이 바이어스에 기초하여 현재 프레임의 적응형 윈도우 함수를 결정하는 단계를 포함한다.

현재 프레임의 이전 프레임의 멀티-채널 신호는 현재 프레임의 멀티-채널 신호와 강한 상관을 갖는다. 따라서, 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 적응형 윈도우 함수가 결정되고, 그렇게 함으로써 현재 프레임의 적응형 윈도우 함수를 계산하는 정확도를 개선한다.

제1 양태의 제2 구현을 참조하여, 제1 양태의 제3 구현에서, 제1 상승된 코사인 폭 파라미터를 계산하기 위한 공식은 다음과 같고,

win_width1 = TRUNC(width_par1 * (A * L_NCSHIFT_DS + 1))이고,

width_par1 = a_width1 * smooth_dist_reg + b_width1이며; 여기서,

a_width1 = (xh_width1 - xl_width1)/(yh_dist1 - yl_dist1)이고,

b_width1 = xh_width1 - a_width1 * yh_dist1이며,

win_width1은 제1 상승된 코사인 폭 파라미터이고, TRUNC는 값을 반올림하는 것을 표시하고, L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값이고, A는 미리 설정된 상수이고, A는 4 이상이고, xh_width1은 제1 상승된 코사인 폭 파라미터의 상한 값이고, xl_width1은 제1 상승된 코사인 폭 파라미터의 하한 값이고, yh_dist1은 제1 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, yl_dist1은 제1 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, smooth_dist_reg는 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차이고, xh_width1, xl_width1, yh_dist1, 및 yl_dist1은 모두 양수들이다.

제1 양태의 제3 구현을 참조하여, 제1 양태의 제4 구현에서,

width_par1 = min(width_par1, xh_width1)이고;

width_par1 = max(width_par1, xl_width1)이며, 여기서

min은 최소 값을 취하는 것을 표현하고, max는 최대 값을 취하는 것을 표현한다.

width_par1이 제1 상승된 코사인 폭 파라미터의 상한 값보다 더 클 때, width_par1은 제1 상승된 코사인 폭 파라미터의 상한 값으로 제한되거나; 또는 width_par1이 제1 상승된 코사인 폭 파라미터의 하한 값보다 더 작을 때, width_par1은 제1 상승된 코사인 폭 파라미터의 하한 값으로 제한되어, width_par1의 값이 상승된 코사인 폭 파라미터의 정상 값 범위를 초과하지 않는다는 점을 보장하고, 그렇게 함으로써 계산된 적응형 윈도우 함수의 정확도를 보장한다.

제1 양태의 제2 구현 내지 제4 구현 중 어느 하나를 참조하여, 제1 양태의 제5 구현에서, 제1 상승된 코사인 높이 바이어스를 계산하기 위한 공식은 다음과 같고,

win_bias1 = a_bias1 * smooth_dist_reg + b_bias1이며, 여기서

a_bias1 = (xh_bias1 - xl_bias1)/(yh_dist2 - yl_dist2)이고,

b_bias1 = xh_bias1 - a_bias1 * yh_dist2이다.

win_bias1은 제1 상승된 코사인 높이 바이어스이고, xh_bias1은 제1 상승된 코사인 높이 바이어스의 상한 값이고, xl_bias1은 제1 상승된 코사인 높이 바이어스의 하한 값이고, yh_dist2는 제1 상승된 코사인 높이 바이어스의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, yl_dist2는 제1 상승된 코사인 높이 바이어스의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, smooth_dist_reg는 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차이고, yh_dist2, yl_dist2, xh_bias1, 및 xl_bias1는 모두 양수들이다.

제1 양태의 제5 구현을 참조하여, 제1 양태의 제6 구현에서,

win_bias1 = min(win_bias1, xh_bias1)이고;

win_bias1 = max(win_bias1, xl_bias1)이며, 여기서

win_bias1이 제1 상승된 코사인 높이 바이어스의 상한 값보다 더 클 때, win_bias1은 제1 상승된 코사인 높이 바이어스의 상한 값으로 제한되거나; 또는 win_bias1이 제1 상승된 코사인 높이 바이어스의 하한 값보다 더 작을 때, win_bias1이 제1 상승된 코사인 높이 바이어스의 하한 값으로 제한되어, win_bias1이 상승된 코사인 높이 바이어스의 정상 값 범위를 초과하지 않는다는 점을 보장하고, 그렇게 함으로써 계산된 적응형 윈도우 함수의 정확도를 보장한다.

제1 양태의 제2 구현 내지 제5 구현 중 어느 하나를 참조하여, 제1 양태의 제7 구현에서,

yh_dist2 = yh_dist1이고; yl_dist2 = yl_dist1이다.

제1 양태, 및 제1 양태의 제1 구현 내지 제7 구현 중 어느 하나를 참조하여, 제1 양태의 제8 구현에서,

0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 - 1일 때,

loc_weight_win(k) = win_bias1이고;

TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 - 1일 때,

loc_weight_win(k) = 0.5 * (1 + win_bias1) + 0.5 * (1 - win_bias1) * cos(π * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width1))이고;

TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 ≤ k ≤ A * L_NCSHIFT_DS일 때,

loc_weight_win(k) = win_bias1이다.

loc_weight_win(k)는 적응형 윈도우 함수를 표현하는데 사용되며, 여기서 k = 0, 1, ..., A * L_NCSHIFT_DS이고; A는 미리 설정된 상수이며 4 이상이고; L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값이고; win_width1은 제1 상승된 코사인 폭 파라미터이고; win_bias1은 제1 상승된 코사인 높이 바이어스이다.

제1 양태의 제1 구현 내지 제8 구현 중 어느 하나를 참조하여, 제1 양태의 제9 구현에서, 가중화된 교차-상관 계수에 기초하여 현재 프레임의 채널-간 시간 차이를 결정하는 단계 후에, 이러한 방법은 추가로, 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차, 현재 프레임의 지연 트랙 추정 값, 및 현재 프레임의 채널-간 시간 차이에 기초하여 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차를 계산하는 단계를 포함한다.

현재 프레임의 채널-간 시간 차이가 결정된 후, 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차가 계산된다. 다음 프레임의 채널-간 시간 차이가 결정될 때, 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차가 사용될 수 있어, 다음 프레임의 채널-간 시간 차이를 결정하는 정확도를 보장한다.

제1 양태의 제9 구현을 참조하여, 제1 양태의 제10 구현에서, 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차는 다음의 계산 공식들을 사용하여 계산을 통해 획득되고,

smooth_dist_reg_update = (1 - γ) * smooth_dist_reg + γ * dist_reg'이고,

dist_reg' = |reg_prv_corr - cur_itd|이다.

smooth_dist_reg_update는 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차이고; γ는 제1 평활화 인자이고, 0 < γ < 1이고; smooth_dist_reg는 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차이고; reg_prv_corr은 현재 프레임의 지연 트랙 추정 값이고; cur_itd는 현재 프레임의 채널-간 시간 차이이다.

제1 양태를 참조하여, 제1 양태의 제11 구현에서, 교차-상관 계수에 기초하여 현재 프레임의 채널-간 시간 차이의 초기 값이 결정되고; 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 채널-간 시간 차이의 초기 값에 기초하여 현재 프레임의 채널-간 시간 차이 추정 편차가 계산되고; 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 적응형 윈도우 함수가 결정된다.

현재 프레임의 채널-간 시간 차이의 초기 값에 기초하여 현재 프레임의 적응형 윈도우 함수가 결정되어, 현재 프레임의 적응형 윈도우 함수는 n번째 과거 프레임의 평활화된 채널-간 시간 차이 추정 편차를 버퍼링할 필요 없이 획득될 수 있고, 그렇게 함으로써 저장 리소스를 절약한다.

제1 양태의 제11 구현을 참조하여, 제1 양태의 제12 구현에서, 현재 프레임의 채널-간 시간 차이 추정 편차는 다음의 계산 공식을 사용하여 계산을 통해 획득된다:

dist_reg = |reg_prv_corr - cur_itd_init|.

dist_reg는 현재 프레임의 채널-간 시간 차이 추정 편차이고, reg_prv_corr은 현재 프레임의 지연 트랙 추정 값이고, cur_itd_init는 현재 프레임의 채널-간 시간 차이의 초기 값이다.

제1 양태의 제11 구현 또는 제12 구현을 참조하여, 제1 양태의 제13 구현에서, 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 제2 상승된 코사인 폭 파라미터가 계산되고; 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 제2 상승된 코사인 높이 바이어스가 계산되고; 제2 상승된 코사인 폭 파라미터 및 제2 상승된 코사인 높이 바이어스에 기초하여 현재 프레임의 적응형 윈도우 함수가 결정된다.

선택적으로, 제2 상승된 코사인 폭 파라미터를 계산하기 위한 공식들은 다음과 같고,

win_width2 = TRUNC(width_par2 * (A * L_NCSHIFT_DS + 1))이고,

width_par2 = a_width2 * dist_reg + b_width2이며, 여기서

a_width2 = (xh_width2 - xl_width2)/(yh_dist3 - yl_dist3)이고,

b_width2 = xh_width2 - a_width2 * yh_dist3이다.

win_width2는 제2 상승된 코사인 폭 파라미터이고, TRUNC는 값을 반올림하는 것을 표시하고, L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값이고, A는 미리 설정된 상수이고, A는 4 이상이고, A * L_NCSHIFT_DS + 1은 0보다 더 큰 양의 정수이고, xh_width2는 제2 상승된 코사인 폭 파라미터의 상한 값이고, xl_width2는 제2 상승된 코사인 폭 파라미터의 하한 값이고, yh_dist3은 제2 상승된 코사인 폭 파라미터의 상한 값에 대응하는 채널-간 시간 차이 추정 편차이고, yl_dist3은 제2 상승된 코사인 폭 파라미터의 하한 값에 대응하는 채널-간 시간 차이 추정 편차이고, dist_reg는 채널-간 시간 차이 추정 편차이고, xh_width2, xl_width2, yh_dist3, 및 yl_dist3는 모두 양수들이다.

선택적으로, 제2 상승된 코사인 폭 파라미터는 다음을 충족시키고,

width_par2 = min(width_par2, xh_width2)이고,

width_par2 = max(width_par2, xl_width2)이며, 여기서

width_par2가 제2 상승된 코사인 폭 파라미터의 상한 값보다 더 클 때, width_par2는 제2 상승된 코사인 폭 파라미터의 상한 값으로 제한되거나; 또는 width_par2가 제2 상승된 코사인 폭 파라미터의 하한 값보다 더 작을 때, width_par2는 제2 상승된 코사인 폭 파라미터의 하한 값으로 제한되어, width_par2의 값이 상승된 코사인 폭 파라미터의 정상 값 범위를 초과하지 않는다는 점을 보장하고, 그렇게 함으로써 계산된 적응형 윈도우 함수의 정확도를 보장한다.

선택적으로, 제2 상승된 코사인 높이 바이어스를 계산하기 위한 공식은 다음과 같고,

win_bias2 = a_bias2 * dist_reg + b_bias2이며, 여기서

a_bias2 = (xh_bias2 - xl_bias2)/(yh_dist4 - yl_dist4)이고,

b_bias2 = xh_bias2 - a_bias2 * yh_dist4이다.

win_bias2는 제2 상승된 코사인 높이 바이어스이고, xh_bias2는 제2 상승된 코사인 높이 바이어스의 상한 값이고, xl_bias2는 제2 상승된 코사인 높이 바이어스의 하한 값이고, yh_dist4는 제2 상승된 코사인 높이 바이어스의 상한 값에 대응하는 채널-간 시간 차이 추정 편차이고, yl_dist4는 제2 상승된 코사인 높이 바이어스의 하한 값에 대응하는 채널-간 시간 차이 추정 편차이고, dist_reg는 채널-간 시간 차이 추정 편차이고, yh_dist4, yl_dist4, xh_bias2, 및 xl_bias2는 모두 양수들이다.

선택적으로, 제2 상승된 코사인 높이 바이어스는 다음을 충족시키고,

win_bias2 = min(win_bias2, xh_bias2)이고,

win_bias2 = max(win_bias2, xl_bias2)이며, 여기서

win_bias2가 제2 상승된 코사인 높이 바이어스의 상한 값보다 더 클 때, win_bias2는 제2 상승된 코사인 높이 바이어스의 상한 값으로 제한되거나; 또는 win_bias2가 제2 상승된 코사인 높이 바이어스의 하한 값보다 더 작을 때, win_bias2는 제2 상승된 코사인 높이 바이어스의 하한 값으로 제한되어, win_bias2의 값이 상승된 코사인 높이 바이어스의 정상 값 범위를 초과하지 않는다는 점을 보장하고, 그렇게 함으로써 계산된 적응형 윈도우 함수의 정확도를 보장한다.

선택적으로, yh_dist4 = yh_dist3이고, yl_dist4 = yl_dist3이다.

선택적으로, 적응형 윈도우 함수는 다음의 공식들을 사용하여 표현되고,

0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width2 - 1일 때,

loc_weight_win(k) = win_bias2이고;

TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width2 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width2 - 1일 때,

loc_weight_win(k) = 0.5 * (1 + win_bias2) + 0.5 * (1 - win_bias2) * cos(π * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width2))이고;

TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width2 ≤ k ≤ A * L_NCSHIFT_DS일 때,

loc_weight_win(k) = win_bias2이다.

loc_weight_win(k)는 적응형 윈도우 함수를 표현하는데 사용되며, 여기서 k = 0, 1, ..., A * L_NCSHIFT_DS이고; A는 미리 설정된 상수이며 4 이상이고; L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값이고; win_width2는 제2 상승된 코사인 폭 파라미터이고; win_bias2는 제2 상승된 코사인 높이 바이어스이다.

제1 양태, 및 제1 양태의 제1 구현 내지 제13 구현 중 어느 하나를 참조하여, 제1 양태의 제14 구현에서, 가중화된 교차-상관 계수는 다음의 공식을 사용하여 표현되고,

c_weight(x) = c(x) * loc_weight_win(x - TRUNC(reg_prv_corr) + TRUNC(A * L_NCSHIFT_DS/2) - L_NCSHIFT_DS)이다.

c_weight(x)는 가중화된 교차-상관 계수이고; c(x)는 교차-상관 계수이고; loc_weight_win은 현재 프레임의 적응형 윈도우 함수이고; TRUNC는 값을 반올림하는 것을 표시하고; reg_prv_corr은 현재 프레임의 지연 트랙 추정 값이고; x는 0 이상인 그리고 2 * L_NCSHIFT_DS 이하인 정수이고; L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값이다.

제1 양태, 및 제1 양태의 제1 구현 내지 제14 구현 중 어느 하나를 참조하여, 제1 양태의 제15 구현에서, 현재 프레임의 적응형 윈도우 함수를 결정하는 단계 전에, 이러한 방법은 추가로, 현재 프레임의 이전 프레임의 코딩 파라미터에 기초하여 현재 프레임의 적응형 윈도우 함수의 적응형 파라미터를 결정하는 단계를 포함하고, 코딩 파라미터는 현재 프레임의 이전 프레임의 멀티-채널 신호의 타입을 표시하는데 사용되거나, 또는 코딩 파라미터는 시간-도메인 다운믹싱 처리가 수행되는 현재 프레임의 이전 프레임의 멀티-채널 신호의 타입을 표시하는데 사용되고; 적응형 파라미터는 현재 프레임의 적응형 윈도우 함수를 결정하는데 사용된다.

현재 프레임의 적응형 윈도우 함수는, 현재 프레임의 상이한 타입들의 멀티-채널 신호들에 기초하여 적응형으로 변경될 필요가 있어, 계산을 통해 획득되는 현재 프레임의 채널-간 시간 차이의 정확도를 보장한다. 현재 프레임의 멀티-채널 신호의 타입이 현재 프레임의 이전 프레임의 멀티-채널 신호의 타입과 동일할 확률이 크다. 따라서, 현재 프레임의 이전 프레임의 코딩 파라미터에 기초하여 현재 프레임의 적응형 윈도우 함수의 적응형 파라미터가 결정되어, 결정된 적응형 윈도우 함수의 정확도가 추가 계산 복잡도 없이 개선된다.

제1 양태, 및 제1 양태의 제1 구현 내지 제15 구현 중 어느 하나를 참조하여, 제1 양태의 제16 구현에서, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 현재 프레임의 지연 트랙 추정 값을 결정하는 단계는, 선형 회귀 방법을 사용하여 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 지연 트랙 추정을 수행하여, 현재 프레임의 지연 트랙 추정 값을 결정하는 단계를 포함한다.

제1 양태, 및 제1 양태의 제1 구현 내지 제15 구현 중 어느 하나를 참조하여, 제1 양태의 제17 구현에서, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 현재 프레임의 지연 트랙 추정 값을 결정하는 단계는, 가중화된 선형 회귀 방법을 사용하여 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 지연 트랙 추정을 수행하여, 현재 프레임의 지연 트랙 추정 값을 결정하는 단계를 포함한다.

제1 양태, 및 제1 양태의 제1 구현 내지 제17 구현 중 어느 하나를 참조하여, 제1 양태의 제18 구현에서, 가중화된 교차-상관 계수에 기초하여 현재 프레임의 채널-간 시간 차이를 결정하는 단계 후에, 이러한 방법은 추가로, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보를 업데이트하는 단계- 적어도 하나의 과거 프레임의 채널-간 시간 차이 정보는 적어도 하나의 과거 프레임의 채널-간 시간 차이 평활화된 값 또는 적어도 하나의 과거 프레임의 채널-간 시간 차이임 -를 포함한다.

적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보는 업데이트되고, 다음 프레임의 채널-간 시간 차이가 계산될 때, 업데이트된 지연 차이 정보에 기초하여 다음 프레임의 지연 트랙 추정 값이 계산될 수 있고, 그렇게 함으로써 다음 프레임의 채널-간 시간 차이를 계산하는 정확도를 개선한다.

제1 양태의 제18 구현을 참조하여, 제1 양태의 제19 구현에서, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보는 적어도 하나의 과거 프레임의 채널-간 시간 차이 평활화된 값이고, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보를 업데이트하는 단계는, 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 채널-간 시간 차이에 기초하여 현재 프레임의 채널-간 시간 차이 평활화된 값을 결정하는 단계; 및 현재 프레임의 채널-간 시간 차이 평활화된 값에 기초하여 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 평활화된 값을 업데이트하는 단계를 포함한다.

제1 양태의 제19 구현을 참조하여, 제1 양태의 제20 구현에서, 현재 프레임의 채널-간 시간 차이 평활화된 값은 다음의 계산 공식을 사용하여 획득되고,

cur_itd_smooth = φ * reg_prv_corr + (1 - φ) * cur_itd이다.

cur_itd_smooth는 현재 프레임의 채널-간 시간 차이 평활화된 값이고, φ는 제2 평활화 인자이고, reg_prv_corr은 현재 프레임의 지연 트랙 추정 값이고, cur_itd는 현재 프레임의 채널-간 시간 차이이고, φ는 0 이상인 그리고 1 이하인 상수이다.

제1 양태의 제18 구현 내지 제20 구현 중 어느 하나를 참조하여, 제1 양태의 제21 구현에서, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보를 업데이트하는 단계는, 현재 프레임의 이전 프레임의 음성 활성화 검출 결과가 활성 프레임이거나 또는 현재 프레임의 음성 활성화 검출 결과가 활성 프레임일 때, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보를 업데이트하는 단계를 포함한다.

현재 프레임의 이전 프레임의 음성 활성화 검출 결과가 활성 프레임이거나 또는 현재 프레임의 음성 활성화 검출 결과가 활성 프레임일 때, 이것은 현재 프레임의 멀티-채널 신호가 활성 프레임인 가능성이 크다는 점을 표시한다. 현재 프레임의 멀티-채널 신호가 활성 프레임일 때, 현재 프레임의 채널-간 시간 차이 정보의 유효성이 상대적으로 높다. 따라서, 현재 프레임의 이전 프레임의 음성 활성화 검출 결과 또는 현재 프레임의 음성 활성화 검출 결과에 기초하여, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보를 업데이트할지 결정되고, 그렇게 함으로써 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보의 유효성을 개선한다.

제1 양태의 제17 구현 내지 제21 구현 중 적어도 하나를 참조하여, 제1 양태의 제22 구현에서, 가중화된 교차-상관 계수에 기초하여 현재 프레임의 채널-간 시간 차이를 결정하는 단계 후에, 이러한 방법은 추가로, 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하는 단계- 적어도 하나의 과거 프레임의 가중화 계수는 가중화된 선형 회귀 방법에서의 계수이고, 가중화된 선형 회귀 방법은 현재 프레임의 지연 트랙 추정 값을 결정하는데 사용됨 -를 포함한다.

현재 프레임의 지연 트랙 추정 값이 가중화된 선형 회귀 방법을 사용하여 결정될 때, 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수가 업데이트되어, 업데이트된 가중화 계수에 기초하여 다음 프레임의 지연 트랙 추정 값이 계산될 수 있고, 그렇게 함으로써 다음 프레임의 지연 트랙 추정 값을 계산하는 정확도를 개선한다.

제1 양태의 제22 구현을 참조하여, 제1 양태의 제23 구현에서, 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이에 기초하여 현재 프레임의 적응형 윈도우 함수가 결정될 때, 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하는 단계는, 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 제1 가중화 계수를 계산하는 단계; 및 현재 프레임의 제1 가중화 계수에 기초하여 적어도 하나의 과거 프레임의 버퍼링된 제1 가중화 계수를 업데이트하는 단계를 포함한다.

제1 양태의 제23 구현을 참조하여, 제1 양태의 제24 구현에서, 현재 프레임의 제1 가중화 계수는 다음의 계산 공식들을 사용하여 계산을 통해 획득되고,

wgt_par1 = a_wgt1 * smooth_dist_reg_update + b_wgt1이고,

a_wgt1 = (xl_wgt1 - xh_wgt1)/(yh_dist1' - yl_dist1')이고,

b_wgt1 = xl_wgt1 - a_wgt1 * yh_dist1'이다.

wgt_par1은 현재 프레임의 제1 가중화 계수이고, smooth_dist_reg_update는 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차이고, xh_wgt는 제1 가중화 계수의 상한 값이고, xl_wgt는 제1 가중화 계수의 하한 값이고, yh_dist1'은 제1 가중화 계수의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, yl_dist1'은 제1 가중화 계수의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, yh_dist1', yl_dist1', xh_wgt1, 및 xl_wgt1는 모두 양수들이다.

제1 양태의 제24 구현을 참조하여, 제1 양태의 제25 구현에서,

wgt_par1 = min(wgt_par1, xh_wgt1)이고,

wgt_par1 = max(wgt_par1, xl_wgt1)이며, 여기서

wgt_par1이 제1 가중화 계수의 상한 값보다 더 클 때, wgt_par1은 제1 가중화 계수의 상한 값으로 제한되거나; 또는 wgt_par1이 제1 가중화 계수의 하한 값보다 더 작을 때, wgt_par1은 제1 가중화 계수의 하한 값으로 제한되어, wgt_par1의 값이 제1 가중화 계수의 정상 값 범위를 초과하지 않는다는 점을 보장하고, 그렇게 함으로써 현재 프레임의 계산된 지연 트랙 추정 값의 정확도를 보장한다.

제1 양태의 제22 구현을 참조하여, 제1 양태의 제26 구현에서, 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 적응형 윈도우 함수가 결정될 때, 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하는 단계는, 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 제2 가중화 계수를 계산하는 단계; 및 현재 프레임의 제2 가중화 계수에 기초하여 적어도 하나의 과거 프레임의 버퍼링된 제2 가중화 계수를 업데이트하는 단계를 포함한다.

선택적으로, 현재 프레임의 제2 가중화 계수는 다음의 계산 공식들을 사용하여 계산을 통해 획득되고,

wgt_par2 = a_wgt2 * dist_reg + b_wgt2이고,

a_wgt2 = (xl_wgt2 - xh_wgt2)/(yh_dist2' - yl_dist2')이고,

b_wgt2 = xl_wgt2 - a_wgt2 * yh_dist2'이다.

wgt_par2는 현재 프레임의 제2 가중화 계수이고, dist_reg는 현재 프레임의 채널-간 시간 차이 추정 편차이고, xh_wgt2는 제2 가중화 계수의 상한 값이고, xl_wgt2는 제2 가중화 계수의 하한 값이고, yh_dist2'는 제2 가중화 계수의 상한 값에 대응하는 채널-간 시간 차이 추정 편차이고, yl_dist2'는 제2 가중화 계수의 하한 값에 대응하는 채널-간 시간 차이 추정 편차이고, yh_dist2', yl_dist2', xh_wgt2, 및 xl_wgt2는 모두 양수들이다.

선택적으로, wgt_par2 = min(wgt_par2, xh_wgt2)이고, wgt_par2 = max(wgt_par2, xl_wgt2)이다.

제1 양태의 제23 구현 내지 제26 구현 중 어느 하나를 참조하여, 제1 양태의 제27 구현에서, 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하는 단계는, 현재 프레임의 이전 프레임의 음성 활성화 검출 결과가 활성 프레임이거나 또는 현재 프레임의 음성 활성화 검출 결과가 활성 프레임일 때, 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하는 단계를 포함한다.

현재 프레임의 이전 프레임의 음성 활성화 검출 결과가 활성 프레임이거나 또는 현재 프레임의 음성 활성화 검출 결과가 활성 프레임일 때, 이것은 현재 프레임의 멀티-채널 신호가 활성 프레임인 가능성이 크다는 점을 표시한다. 현재 프레임의 멀티-채널 신호가 활성 프레임일 때, 현재 프레임의 가중화 계수의 유효성은 상대적으로 높다. 따라서, 현재 프레임의 이전 프레임의 음성 활성화 검출 결과 또는 현재 프레임의 음성 활성화 검출 결과에 기초하여, 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트할지 결정되고, 그렇게 함으로써 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수의 유효성을 개선한다.

제2 양태에 따르면, 지연 추정 장치가 제공된다. 이러한 장치는 적어도 하나의 유닛을 포함하고, 이러한 적어도 하나의 유닛은 제1 양태 또는 제1 양태의 구현들 중 어느 하나에서 제공되는 지연 추정 방법을 구현하도록 구성된다.

제3 양태에 따르면, 오디오 코딩 디바이스가 제공된다. 이러한 오디오 코딩 디바이스는 프로세서 및 프로세서에 접속되는 메모리를 포함한다.

메모리는 프로세서에 의해 제어되도록 구성되고, 프로세서는 제1 양태 또는 제1 양태의 구현들 중 어느 하나에서 제공되는 지연 추정 방법을 구현하도록 구성된다.

제4 양태에 따르면, 컴퓨터 판독가능 저장 매체가 제공된다. 이러한 컴퓨터 판독가능 저장 매체는 명령어를 저장하고, 이러한 명령어가 오디오 코딩 디바이스 상에서 실행될 때, 이러한 오디오 코딩 디바이스는 제1 양태 또는 제1 양태의 구현들 중 어느 하나에서 제공되는 지연 추정 방법을 수행할 수 있게 된다.

도 1은 본 출원의 예시적인 실시예에 따른 스테레오 신호 인코딩 및 디코딩 시스템의 개략 구조도이다.
도 2는 본 출원의 다른 예시적인 실시예에 따른 스테레오 신호 인코딩 및 디코딩 시스템의 개략 구조도이다.
도 3은 본 출원의 다른 예시적인 실시예에 따른 스테레오 신호 인코딩 및 디코딩 시스템의 개략 구조도이다.
도 4는 본 출원의 예시적인 실시예에 따른 채널-간 시간 차이의 개략도이다.
도 5는 본 출원의 예시적인 실시예에 따른 지연 추정 방법의 흐름도이다.
도 6은 본 출원의 예시적인 실시예에 따른 적응형 윈도우 함수의 개략도이다.
도 7은 본 출원의 예시적인 실시예에 따른 상승된 코사인 폭 파라미터와 채널-간 시간 차이 추정 편차 정보 사이의 관계의 개략도이다.
도 8은 본 출원의 예시적인 실시예에 따른 상승된 코사인 높이 바이어스와 채널-간 시간 차이 추정 편차 정보 사이의 관계의 개략도이다.
도 9는 본 출원의 예시적인 실시예에 따른 버퍼의 개략도이다.
도 10은 본 출원의 예시적인 실시예에 따른 버퍼 업데이트의 개략도이다.
도 11은 본 출원의 예시적인 실시예에 따른 오디오 코딩 디바이스의 개략 구조도이다.
도 12는 본 출원의 실시예에 따른 지연 추정 장치의 블록도이다.

본 명세서에 언급되는 "제1(first)", "제2(second)"라는 단어들 및 유사한 단어들은 임의의 순서, 수량 또는 중요도를 의미하는 것이 아니라, 상이한 컴포넌트들 사이를 구별하는데 사용된다. 마찬가지로, 단수 표현("하나(one)", " a/an" 등)은 수량 제한을 표시하도록 의도되는 것이 아니라, 존재하는 적어도 하나를 표시하도록 의도된다. "접속(connection)", "링크(link)" 등은 물리적 또는 기계적 접속에 제한되는 것이 아니라, 직접 접속 또는 간접 접속에 무관하게 전기적 접속을 포함할 수 있다.

본 명세서에서, "복수의(a plurality of)"는 2개 또는 2개 초과를 지칭한다. "및/또는(and/or)"이라는 용어는 연관된 객체들을 설명하기 위한 연관 관계를 설명하고 3개의 관계들이 존재할 수 있다는 점을 표현한다. 예를 들어, A 및/또는 B는 다음의 3개의 경우들을 표현할 수 있다: A만 존재함, A 및 B 양자 모두 존재함, B만 존재함. 문자 "/"는 연관된 객체들 사이의 "또는(or)" 관계를 일반적으로 표시한다.

도 1은 본 출원의 예시적인 실시예에 따른 시간 도메인에서의 스테레오 인코딩 및 디코딩 시스템의 개략 구조도이다. 스테레오 인코딩 및 디코딩 시스템은 인코딩 컴포넌트(110) 및 디코딩 컴포넌트(120)를 포함한다.

인코딩 컴포넌트(110)는 시간 도메인에서 스테레오 신호를 인코딩하도록 구성된다. 선택적으로, 인코딩 컴포넌트(110)는 소프트웨어를 사용하여 구현될 수 있거나, 하드웨어를 사용하여 구현될 수 있거나, 또는 소프트웨어와 하드웨어의 조합의 형태로 구현될 수 있다. 이러한 것이 이러한 실시예에서 제한되는 것은 아니다.

인코딩 컴포넌트(110)에 의해 시간 도메인에서 스테레오 신호를 인코딩하는 것은 다음의 단계들을 포함한다:

(1) 획득된 스테레오 신호에 대해 시간-도메인 전처리를 수행하여 전처리된 좌측 채널 신호 및 전처리된 우측 채널 신호를 획득함.

스테레오 신호는 수집 컴포넌트에 의해 수집되고 인코딩 컴포넌트(110)에 전송된다. 선택적으로, 수집 컴포넌트 및 인코딩 컴포넌트(110)는 동일한 디바이스에 또는 상이한 디바이스들에 배치될 수 있다.

전처리된 좌측 채널 신호 및 전처리된 우측 채널 신호는 전처리된 스테레오 신호의 2개의 신호들이다.

선택적으로, 전처리는 하이-패스 필터링 처리, 프리-엠퍼시스 처리, 샘플링 레이트 변환, 및 채널 변환 중 적어도 하나를 포함한다. 이러한 것이 이러한 실시예에서 제한되는 것은 아니다.

(2) 전처리된 좌측 채널 신호 및 전처리된 우측 채널 신호에 기초하여 지연 추정을 수행하여 전처리된 좌측 채널 신호와 전처리된 우측 채널 신호 사이의 채널-간 시간 차이를 획득함.

(3) 채널-간 시간 차이에 기초하여 전처리된 좌측 채널 신호 및 전처리된 우측 채널 신호에 대해 지연 정렬 처리를 수행하여, 지연 정렬 처리 후에 획득되는 좌측 채널 신호 및 지연 정렬 처리 후에 획득되는 우측 채널 신호를 획득함.

(4) 채널-간 시간 차이를 인코딩하여 채널-간 시간 차이의 인코딩 인덱스를 획득함.

(5) 시간-도메인 다운믹싱 처리에 대해 사용되는 스테레오 파라미터를 계산하고, 시간-도메인 다운믹싱 처리에 대해 사용되는 스테레오 파라미터를 인코딩하여, 시간-도메인 다운믹싱 처리에 대해 사용되는 스테레오 파라미터의 인코딩 인덱스를 획득함.

시간-도메인 다운믹싱 처리에 대해 사용되는 스테레오 파라미터는 지연 정렬 처리 후에 획득되는 좌측 채널 신호 및 지연 정렬 처리 후에 획득되는 우측 채널 신호에 대해 시간-도메인 다운믹싱 처리를 수행하는데 사용된다.

(6) 시간-도메인 다운믹싱 처리에 대해 사용되는 스테레오 파라미터에 기초하여, 지연 정렬 처리 후에 획득되는 좌측 채널 신호 및 우측 채널 신호에 대해 시간-도메인 다운믹싱 처리를 수행하여, 주 채널 신호 및 부 채널 신호를 획득함.

주 채널 신호 및 부 채널 신호를 획득하는데 시간-도메인 다운믹싱 처리가 사용된다.

지연 정렬 처리 후에 획득되는 좌측 채널 신호 및 우측 채널 신호가 시간-도메인 다운믹싱 기술을 사용하여 처리된 후에, 주 채널 신호(Primary channel, 또는 중간 채널(Mid channel) 신호라고 지칭됨), 및 부 채널(Secondary channel, 또는 사이드 채널(Side channel) 신호라고 지칭됨)이 획득된다.

주 채널 신호는 채널들 사이의 상관에 관한 정보를 표현하는데 사용되고, 부 채널 신호는 채널들 사이의 차이에 관한 정보를 표현하는데 사용된다. 지연 정렬 처리 후에 획득되는 좌측 채널 신호 및 우측 채널 신호가 시간 도메인에서 정렬될 때, 부 채널 신호는 가장 약한 것이고, 이러한 경우, 스테레오 신호는 최상의 효과를 갖는다.

도 4에 도시되는 n번째 프레임에서 전처리된 좌측 채널 신호 L 및 전처리된 우측 채널 신호 R에 대한 참조가 이루어진다. 전처리된 좌측 채널 신호 L은 전처리된 우측 채널 신호 R 전에 위치된다. 다시 말해서, 전처리된 우측 채널 신호 R과 비교하여, 전처리된 좌측 채널 신호 L은 지연을 갖고, 전처리된 좌측 채널 신호 L과 전처리된 우측 채널 신호 R 사이에 채널-간 시간 차이(21)가 존재한다. 이러한 경우, 부 채널 신호는 강화되고, 주 채널 신호는 약화되고, 스테레오 신호는 상대적으로 열악한 효과를 갖는다.

(7) 주 채널 신호 및 부 채널 신호를 개별적으로 인코딩하여 주 채널 신호에 대응하는 제1 모노 인코딩된 비트스트림 및 부 채널 신호에 대응하는 제2 모노 인코딩된 비트스트림을 획득함.

(8) 채널-간 시간 차이의 인코딩 인덱스, 스테레오 파라미터의 인코딩 인덱스, 제1 모노 인코딩된 비트스트림, 및 제2 모노 인코딩된 비트스트림을 스테레오 인코딩된 비트스트림에 기입함.

디코딩 컴포넌트(120)는 인코딩 컴포넌트(110)에 의해 생성되는 스테레오 인코딩된 비트스트림을 디코딩하여 스테레오 신호를 획득하도록 구성된다.

선택적으로, 인코딩 컴포넌트(110)는 유선으로 또는 무선으로 디코딩 컴포넌트(120)에 접속되고, 디코딩 컴포넌트(120)는, 접속을 통해, 인코딩 컴포넌트(110)에 의해 생성되는 스테레오 인코딩된 비트스트림을 획득한다. 대안적으로, 인코딩 컴포넌트(110)는 생성된 스테레오 인코딩된 비트스트림을 메모리에 저장하고, 디코딩 컴포넌트(120)는 메모리에서의 스테레오 인코딩된 비트스트림을 판독한다.

선택적으로, 디코딩 컴포넌트(120)는 소프트웨어를 사용하여 구현될 수 있거나, 하드웨어를 사용하여 구현될 수 있거나, 또는 소프트웨어와 하드웨어의 조합의 형태로 구현될 수 있다. 이러한 것이 이러한 실시예에서 제한되는 것은 아니다.

스테레오 인코딩된 비트스트림을 디코딩하여 디코딩 컴포넌트(120)에 의해 스테레오 신호를 획득하는 것은 다음의 몇몇 단계들을 포함한다:

(1) 스테레오 인코딩된 비트스트림에서의 제1 모노 인코딩된 비트스트림 및 제2 모노 인코딩된 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득함.

(2) 스테레오 인코딩된 비트스트림에 기초하여, 시간-도메인 업믹싱 처리에 대해 사용되는 스테레오 파라미터의 인코딩 인덱스를 획득하고, 주 채널 신호 및 부 채널 신호에 대해 시간-도메인 업믹싱 처리를 수행하여 시간-도메인 업믹싱 처리 후에 획득되는 좌측 채널 신호 및 시간-도메인 업믹싱 처리 후에 획득되는 우측 채널 신호를 획득함.

(3) 스테레오 인코딩된 비트스트림에 기초하여 채널-간 시간 차이의 인코딩 인덱스를 획득하고, 시간-도메인 업믹싱 처리 후에 획득되는 좌측 채널 신호 및 시간-도메인 업믹싱 처리 후에 획득되는 우측 채널 신호에 대해 지연 조정을 수행하여 스테레오 신호를 획득함.

선택적으로, 인코딩 컴포넌트(110) 및 디코딩 컴포넌트(120)는 동일한 디바이스에 배치될 수 있거나, 또는 상이한 디바이스들에 배치될 수 있다. 이러한 디바이스는, 모바일 폰, 태블릿 컴퓨터, 랩톱 휴대용 컴퓨터, 데스크톱 컴퓨터, 블루투스 스피커, 펜 레코더, 또는 웨어러블 디바이스와 같은, 오디오 신호 처리 기능을 갖는 모바일 단말일 수 있거나; 또는 코어 네트워크 또는 무선 네트워크에서 오디오 신호 처리 능력을 갖는 네트워크 엘리먼트일 수 있다. 이러한 것이 이러한 실시예에서 제한되는 것은 아니다.

예를 들어, 도 2를 참조하면, 인코딩 컴포넌트(110)가 모바일 단말(130)에 배치되고, 디코딩 컴포넌트(120)가 모바일 단말(140)에 배치되는 예가 설명된다. 모바일 단말(130) 및 모바일 단말(140)은 오디오 신호 처리 능력이 있는 독립적인 전자 디바이스들이고, 모바일 단말(130) 및 모바일 단말(140)은 무선 또는 유선 네트워크를 사용하여 서로 접속되는 것이 설명을 위해 이러한 실시예에서 사용된다.

선택적으로, 모바일 단말(130)은 수집 컴포넌트(131), 인코딩 컴포넌트(110), 및 채널 인코딩 컴포넌트(132)를 포함한다. 수집 컴포넌트(131)는 인코딩 컴포넌트(110)에 접속되고, 인코딩 컴포넌트(110)는 채널 인코딩 컴포넌트(132)에 접속된다.

선택적으로, 모바일 단말(140)은 오디오 재생 컴포넌트(141), 디코딩 컴포넌트(120), 및 채널 디코딩 컴포넌트(142)를 포함한다. 오디오 재생 컴포넌트(141)는 디코딩 컴포넌트(110)에 접속되고, 디코딩 컴포넌트(110)는 채널 인코딩 컴포넌트(132)에 접속된다.

수집 컴포넌트(131)를 사용하여 스테레오 신호를 수집한 후, 모바일 단말(130)은 인코딩 컴포넌트(110)를 사용하여 스테레오 신호를 인코딩하여 스테레오 인코딩된 비트스트림을 획득한다. 다음으로, 모바일 단말(130)은 채널 인코딩 컴포넌트(132)를 사용하여 스테레오 인코딩된 비트스트림을 인코딩하여 송신 신호를 획득한다.

모바일 단말(130)은 무선 또는 유선 네트워크를 사용하여 모바일 단말(140)에 송신 신호를 전송한다.

송신 신호를 수신한 후, 모바일 단말(140)은 채널 디코딩 컴포넌트(142)를 사용하여 송신 신호를 디코딩하여 스테레오 인코딩된 비트스트림을 획득하고, 디코딩 컴포넌트(110)를 사용하여 스테레오 인코딩된 비트스트림을 디코딩하여 스테레오 신호를 획득하고, 오디오 재생 컴포넌트(141)를 사용하여 스테레오 신호를 재생한다.

예를 들어, 도 3을 참조하면, 이러한 실시예는 코어 네트워크 또는 무선 네트워크에서 오디오 신호 처리 능력을 갖는 동일한 네트워크 엘리먼트(150)에 인코딩 컴포넌트(110) 및 디코딩 컴포넌트(120)가 배치되는 예를 사용하여 설명된다.

선택적으로, 네트워크 엘리먼트(150)는 채널 디코딩 컴포넌트(151), 디코딩 컴포넌트(120), 인코딩 컴포넌트(110), 및 채널 인코딩 컴포넌트(152)를 포함한다. 채널 디코딩 컴포넌트(151)는 디코딩 컴포넌트(120)에 접속되고, 디코딩 컴포넌트(120)는 인코딩 컴포넌트(110)에 접속되고, 인코딩 컴포넌트(110)는 채널 인코딩 컴포넌트(152)에 접속된다.

다른 디바이스에 의해 전송되는 송신 신호를 수신한 후, 채널 디코딩 컴포넌트(151)는 송신 신호를 디코딩하여 제1 스테레오 인코딩된 비트스트림을 획득하고, 디코딩 컴포넌트(120)를 사용하여 스테레오 인코딩된 비트스트림을 디코딩하여 스테레오 신호를 획득하고, 인코딩 컴포넌트(110)를 사용하여 스테레오 신호를 인코딩하여 제2 스테레오 인코딩된 비트스트림을 획득하고, 채널 인코딩 컴포넌트(152)를 사용하여 제2 스테레오 인코딩된 비트스트림을 인코딩하여 송신 신호를 획득한다.

다른 디바이스는 오디오 신호 처리 능력을 갖는 모바일 단말일 수 있거나, 또는 오디오 신호 처리 능력을 갖는 다른 네트워크 엘리먼트일 수 있다. 이러한 것이 이러한 실시예에서 제한되는 것은 아니다.

선택적으로, 네트워크 엘리먼트에서의 인코딩 컴포넌트(110) 및 디코딩 컴포넌트(120)는 모바일 단말에 의해 전송되는 스테레오 인코딩된 비트스트림을 트랜스코딩할 수 있다.

선택적으로, 이러한 실시예에서, 인코딩 컴포넌트(110)가 설치되는 디바이스는 오디오 코딩 디바이스라고 지칭된다. 실제 구현에서, 이러한 오디오 코딩 디바이스는 오디오 디코딩 기능을 또한 가질 수 있다. 이러한 것이 이러한 실시예에서 제한되는 것은 아니다.

선택적으로, 이러한 실시예에서, 스테레오 신호만이 설명을 위한 예로서 사용된다. 본 출원에서, 오디오 코딩 디바이스는 멀티-채널 신호를 추가로 처리할 수 있고, 이러한 멀티-채널 신호는 적어도 2개의 채널 신호들을 포함한다.

본 출원의 실시예들에서의 몇몇 명사들이 아래에 설명된다.

현재 프레임의 멀티-채널 신호는 현재 채널-간 시간 차이를 추정하는데 사용되는 멀티-채널 신호들의 프레임이다. 현재 프레임의 멀티-채널 신호는 적어도 2개의 채널 신호들을 포함한다. 상이한 채널들의 채널 신호들은 오디오 코딩 디바이스에서의 상이한 오디오 수집 컴포넌트들을 사용하여 수집될 수 있거나, 또는 상이한 채널들의 채널 신호들은 다른 디바이스에서의 상이한 오디오 수집 컴포넌트들에 의해 수집될 수 있다. 상이한 채널들의 채널 신호들은 동일한 사운드 소스로부터 송신된다.

예를 들어, 현재 프레임의 멀티-채널 신호는 좌측 채널 신호 L 및 우측 채널 신호 R을 포함한다. 좌측 채널 신호 L은 좌측 채널 오디오 수집 컴포넌트를 사용하여 수집되고, 우측 채널 신호 R은 우측 채널 오디오 수집 컴포넌트를 사용하여 수집되고, 좌측 채널 신호 L 및 우측 채널 신호 R은 동일한 사운드 소스로부터의 것이다.

도 4를 참조하면, 오디오 코딩 디바이스는 n번째 프레임의 멀티-채널 신호의 채널-간 시간 차이를 추정하고 있고, n번째 프레임은 현재 프레임이다.

현재 프레임의 이전 프레임은 현재 프레임 전에 위치되는 첫번째 프레임이고, 예를 들어, 현재 프레임이 n번째 프레임이면, 현재 프레임의 이전 프레임은 (n - 1)번째 프레임이다.

선택적으로, 현재 프레임의 이전 프레임은 이전 프레임이라고 또한 간단히 지칭될 수 있다.

과거 프레임은 시간 도메인에서 현재 프레임 전에 위치되고, 과거 프레임은 현재 프레임의 이전 프레임, 현재 프레임의 처음 2개의 프레임들, 현재 프레임의 처음 3개의 프레임들 등을 포함한다. 도 4를 참조하면, 현재 프레임이 n번째 프레임이면, 과거 프레임은, (n - 1)번째 프레임, (n - 2)번째 프레임, ..., 및 첫번째 프레임을 포함한다.

선택적으로, 본 출원에서, 적어도 하나의 과거 프레임은 현재 프레임 전에 위치되는 M개의 프레임들, 예를 들어, 현재 프레임 전에 위치되는 8개의 프레임들일 수 있다.

다음 프레임은 현재 프레임 후의 첫번째 프레임이다. 도 4를 참조하면, 현재 프레임이 n번째 프레임이면, 다음 프레임은 (n + 1)번째 프레임이다.

프레임 길이는 멀티-채널 신호들의 프레임의 지속기간이다. 선택적으로, 프레임 길이는 샘플링 포인트들의 수량에 의해 표현되고, 예를 들어, 프레임 길이 N = 320 샘플링 포인트들이다.

교차-상관 계수는 상이한 채널-간 시간 차이들 하에서 현재 프레임의 멀티-채널 신호에서의 상이한 채널들의 채널 신호들 사이의 교차 상관의 정도를 표현하는데 사용된다. 교차 상관의 정도는 교차-상관 값을 사용하여 표현된다. 현재 프레임의 멀티-채널 신호에서의 임의의 2개의 채널 신호들에 대해, 채널-간 시간 차이 하에서, 채널-간 시간 차이에 기초하여 지연 조정이 수행된 후에 획득되는 2개의 채널 신호들이 더 유사하고, 교차 상관의 정도가 더 강하고, 교차-상관 값이 더 크면, 또는 채널-간 시간 차이에 기초하여 지연 조정이 수행된 후에 획득되는 2개의 채널 신호들 사이의 차이가 더 크면, 교차 상관의 정도는 더 약하고, 교차-상관 값은 더 작다.

교차-상관 계수의 인덱스 값은 채널-간 시간 차이에 대응하고, 교차-상관 계수의 각각의 인덱스 값에 대응하는 교차-상관 값은 지연 조정 후에 획득되는 그리고 각각의 채널-간 시간 차이에 대응하는 2개의 모노 신호들 사이의 교차 상관의 정도를 표현한다.

선택적으로, 교차-상관 계수(교차-상관 계수들)는 또한 교차-상관 값들의 그룹이라고 지칭될 수 있거나 또는 교차-상관 함수라고 지칭될 수 있다. 이러한 것이 본 출원에서 제한되는 것은 아니다.

도 4를 참조하면, a번째 프레임의 채널 신호의 교차-상관 계수가 계산될 때, 좌측 채널 신호 L과 우측 채널 신호 R 사이의 교차-상관 값들은 상이한 채널-간 시간 차이들 하에서 개별적으로 계산된다.

예를 들어, 교차-상관 계수의 인덱스 값이 0일 때, 채널-간 시간 차이는 -N/2 샘플링 포인트들이고, 채널-간 시간 차이는 좌측 채널 신호 L 및 우측 채널 신호 R을 정렬하여 교차-상관 값 k0을 획득하는데 사용되고;

교차-상관 계수의 인덱스 값이 1일 때, 채널-간 시간 차이는 (-N/2 + 1) 샘플링 포인트들이고, 채널-간 시간 차이는 좌측 채널 신호 L 및 우측 채널 신호 R을 정렬하여 교차-상관 값 k1을 획득하는데 사용되고;

교차-상관 계수의 인덱스 값이 2일 때, 채널-간 시간 차이는 (-N/2 + 2) 샘플링 포인트들이고, 채널-간 시간 차이는 좌측 채널 신호 L 및 우측 채널 신호 R을 정렬하여 교차-상관 값 k2를 획득하는데 사용되고;

교차-상관 계수의 인덱스 값이 3일 때, 채널-간 시간 차이는 (-N/2 + 3) 샘플링 포인트들이고, 채널-간 시간 차이는 좌측 채널 신호 L 및 우측 채널 신호 R을 정렬하여 교차-상관 값 k3을 획득하는데 사용되고;

...,

교차-상관 계수의 인덱스 값이 N일 때, 채널-간 시간 차이는 N/2 샘플링 포인트들이고, 채널-간 시간 차이는 좌측 채널 신호 L 및 우측 채널 신호 R을 정렬하여 교차-상관 값 kN을 획득하는데 사용된다.

k0 내지 kN에서의 최대 값이 검색되고, 예를 들어, k3이 최대이다. 이러한 경우, 이는 채널-간 시간 차이가 (-N/2 + 3) 샘플링 포인트들일 때, 좌측 채널 신호 L 및 우측 채널 신호 R이 가장 유사하다는 것을 표시하고, 다시 말해서, 채널-간 시간 차이는 실제 채널-간 시간 차이에 가장 가깝다.

이러한 실시예는 오디오 코딩 디바이스가 교차-상관 계수를 사용하여 채널-간 시간 차이를 결정한다는 원리를 설명하는데만 사용된다는 점이 주목되어야 한다. 실제 구현에서, 채널-간 시간 차이는 전술한 방법을 사용하여 결정되지 않을 수 있다.

도 5는 본 출원의 예시적인 실시예에 따른 지연 추정 방법의 흐름도이다. 이러한 방법은 다음의 몇몇 단계들을 포함한다.

단계 301: 현재 프레임의 멀티-채널 신호의 교차-상관 계수를 결정함.

단계 302: 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 현재 프레임의 지연 트랙 추정 값을 결정함.

선택적으로, 적어도 하나의 과거 프레임은 시간에서 연속적이고, 적어도 하나의 과거 프레임에서의 마지막 프레임 및 현재 프레임은 시간에서 연속적이다. 다시 말해서, 적어도 하나의 과거 프레임에서의 마지막 과거 프레임은 현재 프레임의 이전 프레임이다. 대안적으로, 적어도 하나의 과거 프레임은 시간에서 미리 결정된 프레임들의 수량만큼 이격되고, 적어도 하나의 과거 프레임에서의 마지막 과거 프레임은 현재 프레임으로부터 미리 결정된 프레임들의 수량만큼 이격된다. 대안적으로, 적어도 하나의 과거 프레임은 시간에서 불연속적이고, 적어도 하나의 과거 프레임 사이에 이격되는 프레임들의 수량은 고정되지 않고, 적어도 하나의 과거 프레임에서의 마지막 과거 프레임 및 현재 프레임 사이의 프레임들의 수량은 고정되지 않는다. 미리 결정된 프레임들의 수량의 값이 이러한 실시예에서 제한되는 것은 아니고, 예를 들어, 2개의 프레임들이다.

이러한 실시예에서, 과거 프레임들의 수량이 제한되는 것은 아니다. 예를 들어, 과거 프레임들의 수량은 8, 12, 및 25이다.

지연 트랙 추정 값은 현재 프레임의 채널-간 시간 차이의 예측 값을 표현하는데 사용된다. 이러한 실시예에서, 적어도 하나의 과거 프레임의 채널-간 시간 차이 정보에 기초하여 지연 트랙이 시뮬레이션되고, 지연 트랙에 기초하여 현재 프레임의 지연 트랙 추정 값이 계산된다.

선택적으로, 적어도 하나의 과거 프레임의 채널-간 시간 차이 정보는 적어도 하나의 과거 프레임의 채널-간 시간 차이, 또는 적어도 하나의 과거 프레임의 채널-간 시간 차이 평활화된 값이다.

프레임의 지연 트랙 추정 값 및 프레임의 채널-간 시간 차이에 기초하여 각각의 과거 프레임의 채널-간 시간 차이 평활화된 값이 결정된다.

단계 303: 현재 프레임의 적응형 윈도우 함수를 결정함.

선택적으로, 적응형 윈도우 함수는 상승된 코사인-형 윈도우 함수이다. 적응형 윈도우 함수는 중간 부분을 상대적으로 확대하는 그리고 에지 부분을 억제하는 기능을 갖는다.

선택적으로, 채널 신호들의 프레임들에 대응하는 적응형 윈도우 함수들은 상이하다.

적응형 윈도우 함수는 다음의 공식들을 사용하여 표현되고,

0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width - 1일 때,

loc_weight_win(k) = win_bias이고;

TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width - 1일 때,

loc_weight_win(k) = 0.5 * (1 + win_bias) + 0.5 * (1 - win_bias) * cos(π *(k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width))이고;

TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width ≤ k ≤ A * L_NCSHIFT_DS일 때,

loc_weight_win(k) = win_bias이다.

loc_weight_win(k)는 적응형 윈도우 함수를 표현하는데 사용되며, 여기서 k = 0, 1, ..., A * L_NCSHIFT_DS이고; A는 4 이상의 미리 설정된 상수, 예를 들어, A = 4이고; TRUNC는 값을 반올림하는 것, 예를 들어, 적응형 윈도우 함수의 공식에서 A * L_NCSHIFT_DS/2의 값을 반올림하는 것을 표시하고; L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값이고; win_width는 적응형 윈도우 함수의 상승된 코사인 폭 파라미터를 표현하는데 사용되고; win_bias는 적응형 윈도우 함수의 상승된 코사인 높이 바이어스를 표현하는데 사용된다.

선택적으로, 채널-간 시간 차이의 절대 값의 최대 값은 미리 설정된 양수이고, 일반적으로 0보다 더 크고 프레임 길이 이하인 양의 정수이고, 예를 들어, 40, 60, 또는 80이다.

선택적으로, 채널-간 시간 차이의 최대 값 또는 채널-간 시간 차이의 최소 값은 미리 설정된 양의 정수이고, 채널-간 시간 차이의 절대 값의 최대 값은 채널-간 시간 차이의 최대 값의 절대 값을 취하는 것에 의해 획득되거나, 또는 채널-간 시간 차이의 절대 값의 최대 값은 채널-간 시간 차이의 최소 값의 절대 값을 취하는 것에 의해 획득된다.

예를 들어, 채널-간 시간 차이의 최대 값은 40이고, 채널-간 시간 차이의 최소 값은 -40이고, 채널-간 시간 차이의 절대 값의 최대 값은 40이며, 이는 채널-간 시간 차이의 최대 값의 절대 값을 취하는 것에 의해 획득되고 채널-간 시간 차이의 최소 값의 절대 값을 취하는 것에 의해 또한 획득된다.

다른 예를 들어, 채널-간 시간 차이의 최대 값은 40이고, 채널-간 시간 차이의 최소 값은 -20이고, 채널-간 시간 차이의 절대 값의 최대 값은 40이며, 이는 채널-간 시간 차이의 최대 값의 절대 값을 취하는 것에 의해 획득된다.

다른 예를 들어, 채널-간 시간 차이의 최대 값은 40이고, 채널-간 시간 차이의 최소 값은 -60이고, 채널-간 시간 차이의 절대 값의 최대 값은 60이며, 이는 채널-간 시간 차이의 최소 값의 절대 값을 취하는 것에 의해 획득된다.

적응형 윈도우 함수는 양쪽 측들 상의 고정된 높이 및 중간에서의 볼록함이 있는 상승된 코사인-형 윈도우라는 점을 적응형 윈도우 함수의 공식으로부터 알 수 있다. 적응형 윈도우 함수는 일정한-가중 윈도우 및 높이 바이어스가 있는 상승된 코사인 윈도우를 포함한다. 높이 바이어스에 기초하여 일정한-가중 윈도우의 가중이 결정된다. 적응형 윈도우 함수는 2개의 파라미터들: 상승된 코사인 폭 파라미터 및 상승된 코사인 높이 바이어스에 의해 주로 결정된다.

도 6에 도시되는 적응형 윈도우 함수의 개략도에 대한 참조가 이루어진다. 넓은 윈도우(402)와 비교하여, 좁은 윈도우(401)는 적응형 윈도우 함수에서의 상승된 코사인 윈도우의 윈도우 폭이 상대적으로 작고, 좁은 윈도우(401)에 대응하는 지연 트랙 추정 값과 실제 채널-간 시간 차이 사이의 차이가 상대적으로 작다는 점을 의미한다. 좁은 윈도우(401)와 비교하여, 넓은 윈도우(402)는 적응형 윈도우 함수에서의 상승된 코사인 윈도우의 윈도우 폭이 상대적으로 크고, 넓은 윈도우(402)에 대응하는 지연 트랙 추정 값과 실제 채널-간 시간 차이 사이의 차이가 상대적으로 크다는 점을 의미한다. 다시 말해서, 적응형 윈도우 함수에서의 상승된 코사인 윈도우의 윈도우 폭은 지연 트랙 추정 값과 실제 채널-간 시간 차이 사이의 차이와 긍정적으로 상관된다.

적응형 윈도우 함수의 상승된 코사인 폭 파라미터 및 상승된 코사인 높이 바이어스는 각각의 프레임의 멀티-채널 신호의 채널-간 시간 차이 추정 편차 정보에 관련된다. 채널-간 시간 차이 추정 편차 정보는 채널-간 시간 차이의 예측 값과 실제 값 사이의 편차를 표현하는데 사용된다.

도 7에 도시되는 상승된 코사인 폭 파라미터와 채널-간 시간 차이 추정 편차 정보 사이의 관계의 개략도에 대한 참조가 이루어진다. 상승된 코사인 폭 파라미터의 상한 값이 0.25이면, 상승된 코사인 폭 파라미터의 상한 값에 대응하는 채널-간 시간 차이 추정 편차 정보의 값은 3.0이다. 이러한 경우, 채널-간 시간 차이 추정 편차 정보의 값이 상대적으로 크고, 적응형 윈도우 함수에서의 상승된 코사인 윈도우의 윈도우 폭이 상대적으로 크다(도 6에서의 넓은 윈도우(402) 참조). 적응형 윈도우 함수의 상승된 코사인 폭 파라미터의 하한 값이 0.04이면, 상승된 코사인 폭 파라미터의 하한 값에 대응하는 채널-간 시간 차이 추정 편차 정보의 값은 1.0이다. 이러한 경우, 채널-간 시간 차이 추정 편차 정보의 값이 상대적으로 작고, 적응형 윈도우 함수에서의 상승된 코사인 윈도우의 윈도우 폭이 상대적으로 작다(도 6에서의 좁은 윈도우(401) 참조).

도 8에 도시되는 상승된 코사인 높이 바이어스와 채널-간 시간 차이 추정 편차 정보 사이의 관계의 개략도에 대한 참조가 이루어진다. 상승된 코사인 높이 바이어스의 상한 값이 0.7 이면, 상승된 코사인 높이 바이어스의 상한 값에 대응하는 채널-간 시간 차이 추정 편차 정보의 값은 3.0이다. 이러한 경우, 평활화된 채널-간 시간 차이 추정 편차가 상대적으로 크고, 적응형 윈도우 함수에서의 상승된 코사인 윈도우의 높이 바이어스가 상대적으로 크다(도 6에서의 넓은 윈도우(402) 참조). 상승된 코사인 높이 바이어스의 하한 값이 0.4이면, 상승된 코사인 높이 바이어스의 하한 값에 대응하는 채널-간 시간 차이 추정 편차 정보의 값은 1.0이다. 이러한 경우, 채널-간 시간 차이 추정 편차 정보의 값이 상대적으로 작고, 적응형 윈도우 함수에서의 상승된 코사인 윈도우의 높이 바이어스가 상대적으로 작다(도 6에서의 좁은 윈도우(401) 참조).

단계 304: 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 적응형 윈도우 함수에 기초하여 교차-상관 계수에 대한 가중화를 수행하여, 가중화된 교차-상관 계수를 획득함.

가중화된 교차-상관 계수는 다음의 계산 공식을 사용하여 계산을 통해 획득될 수 있고,

c_weight(x)는 가중화된 교차-상관 계수이고; c(x)는 교차-상관 계수이고; loc_weight_win은 현재 프레임의 적응형 윈도우 함수이고; TRUNC는 값을 반올림하는 것, 예를 들어, 가중화된 교차-상관 계수의 공식에서의 reg_prv_corr을 반올림하는 것, 및 A * L_NCSHIFT_DS/2의 값을 반올림하는 것을 표시하고; reg_prv_corr은 현재 프레임의 지연 트랙 추정 값이고; x는 0 이상인 그리고 2 * L_NCSHIFT_DS 이하인 정수이다.

적응형 윈도우 함수는 상승된 코사인-형 윈도우이고, 중간 부분을 상대적으로 확대하는 그리고 에지 부분을 억제하는 기능을 갖는다. 따라서, 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 적응형 윈도우 함수에 기초하여 교차-상관 계수에 대해 가중화가 수행될 때, 인덱스 값이 지연 트랙 추정 값에 더 가까우면, 대응하는 교차-상관 값의 가중화 계수가 더 크고, 인덱스 값이 지연 트랙 추정 값으로부터 더 멀면, 대응하는 교차-상관 값의 가중화 계수가 더 작다. 적응형 윈도우 함수의 상승된 코사인 폭 파라미터 및 상승된 코사인 높이 바이어스는 교차-상관 계수에서의, 지연 트랙 추정 값으로부터 멀리, 인덱스 값에 대응하는 교차-상관 값을 적응형으로 억제한다.

단계 305: 가중화된 교차-상관 계수에 기초하여 현재 프레임의 채널-간 시간 차이를 결정함.

가중화된 교차-상관 계수에 기초하여 현재 프레임의 채널-간 시간 차이를 결정하는 단계는, 가중화된 교차-상관 계수에서의 교차-상관 값의 최대 값을 검색하는 단계; 및 최대 값에 대응하는 인덱스 값에 기초하여 현재 프레임의 채널-간 시간 차이를 결정하는 단계를 포함한다.

선택적으로, 가중화된 교차-상관 계수에서의 교차-상관 값의 최대 값을 검색하는 단계는, 교차-상관 계수에서의 제1 교차-상관 값과 제2 교차-상관 값을 비교하여 제1 교차-상관 값 및 제2 교차-상관 값에서의 최대 값을 획득하는 단계; 최대 값과 제3 교차-상관 값을 비교하여 제3 교차-상관 값 및 최대 값에서의 최대 값을 획득하는 단계; 및 순환 순서로, 이전 비교를 통해 획득되는 최대 값과 i번째 교차-상관 값을 비교하여 i번째 교차-상관 값과 이전 비교를 통해 획득되는 최대 값에서의 최대 값을 획득하는 단계를 포함한다. i = i + 1이라고 가정되고, 모든 교차-상관 값들이 비교될 때까지 이전 비교를 통해 획득되는 최대 값과 i번째 교차-상관 값을 비교하는 단계가 연속적으로 수행되어, 교차-상관 값들에서의 최대 값을 획득하고, 여기서 i는 2보다 더 큰 정수이다.

선택적으로, 최대 값에 대응하는 인덱스 값에 기초하여 현재 프레임의 채널-간 시간 차이를 결정하는 단계는, 채널-간 시간 차이의 최대 값 및 최소 값에 대응하는 인덱스 값의 합을 현재 프레임의 채널-간 시간 차이로서 사용하는 단계를 포함한다.

교차-상관 계수는 상이한 채널-간 시간 차이들에 기초하여 지연이 조정된 후에 획득되는 2개의 채널 신호들 사이의 교차 상관의 정도를 반영할 수 있고, 교차-상관 계수의 인덱스 값과 채널-간 시간 차이 사이의 대응관계가 존재한다. 따라서, 오디오 코딩 디바이스는 (가장 높은 정도의 교차 상관이 있는) 교차-상관 계수의 최대 값에 대응하는 인덱스 값에 기초하여 현재 프레임의 채널-간 시간 차이를 결정할 수 있다.

결론적으로, 이러한 실시예에서 제공되는 지연 추정 방법에 따르면, 현재 프레임의 지연 트랙 추정 값에 기초하여 현재 프레임의 채널-간 시간 차이가 예측되고, 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 적응형 윈도우 함수에 기초하여 교차-상관 계수에 대해 가중화가 수행된다. 적응형 윈도우 함수는 상승된 코사인-형 윈도우이고, 중간 부분을 상대적으로 확대하는 그리고 에지 부분을 억제하는 기능을 갖는다. 따라서, 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 적응형 윈도우 함수에 기초하여 교차-상관 계수에 대해 가중화가 수행될 때, 인덱스 값이 지연 트랙 추정 값에 더 가까우면, 가중화 계수가 더 크고, 제1 교차-상관 계수가 과도하게 평활화된다는 문제점을 회피하고, 인덱스 값이 지연 트랙 추정 값으로부터 더 멀면, 가중화 계수가 더 작고, 제2 교차-상관 계수가 불충분하게 평활화된다는 문제점을 회피한다. 이러한 방식으로, 적응형 윈도우 함수는, 교차-상관 계수에서, 지연 트랙 추정 값으로부터 멀리, 인덱스 값에 대응하는 교차-상관 값을 적응형으로 억제하고, 그렇게 함으로써 가중화된 교차-상관 계수에서의 채널-간 시간 차이를 결정하는 정확도를 개선한다. 제1 교차-상관 계수는, 교차-상관 계수에서, 지연 트랙 추정 값에 가까이, 인덱스 값에 대응하는 교차-상관 값이고, 제2 교차-상관 계수는, 교차-상관 계수에서, 지연 트랙 추정 값으로부터 멀리, 인덱스 값에 대응하는 교차-상관 값이다.

도 5에 도시되는 실시예에서의 단계들 301 내지 303이 아래에 상세히 설명된다.

첫번째로, 현재 프레임의 멀티-채널 신호의 교차-상관 계수가 단계 301에서 결정되는 것이 설명된다.

(1) 현재 프레임의 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호에 기초하여 오디오 코딩 디바이스가 교차-상관 계수를 결정한다.

채널-간 시간 차이의 최대 값 T_max 및 채널-간 시간 차이의 최소 값 T_min는, 교차-상관 계수의 계산 범위를 결정하기 위해, 일반적으로 미리 설정될 필요가 있다. 채널-간 시간 차이의 최대 값 T_max 및 채널-간 시간 차이의 최소 값 T_min 양자 모두는 실수들이고, T_max > T_min이다. T_max 및 T_min의 값들은 프레임 길이에 관련되거나, 또는 T_max 및 T_min의 값들은 현재 샘플링 주파수에 관련된다.

선택적으로, 채널-간 시간 차이의 절대 값의 최대 값 L_NCSHIFT_DS는, 채널-간 시간 차이의 최대 값 T_max 및 채널-간 시간 차이의 최소 값 T_min를 결정하기 위해, 미리 설정된다. 예를 들어, 채널-간 시간 차이의 최대 값 T_max = L_NCSHIFT_DS이고, 채널-간 시간 차이의 최소 값 T_min = -L_NCSHIFT_DS이다.

T_max 및 T_min의 값들이 본 출원에서 제한되는 것은 아니다. 예를 들어, 채널-간 시간 차이의 절대 값의 최대 값 L_NCSHIFT_DS가 40 이면, T_max = 40이고, T_min = -40이다.

구현에서, 교차-상관 계수의 인덱스 값은 채널-간 시간 차이와 채널-간 시간 차이의 최소 값 사이의 차이를 표시하는데 사용된다. 이러한 경우, 현재 프레임의 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호에 기초하여 교차-상관 계수를 결정하는 것은 다음의 공식들을 사용하여 표현된다:

T_min ≤ 0이고 0 < T_max인 경우,

T_min ≤ i ≤ 0일 때,

이고, 여기서 k = i - T_min이고;

0 < i ≤ T_max일 때,

이고, 여기서 k = i - T_min이다.

T_min ≤ 0이고 T_max ≤ 0인 경우,

T_min ≤ i ≤ T_max일 때,

이고, 여기서 k = i - T_min이다.

T_min ≥ 0이고 T_max ≥ 0인 경우,

T_min ≤ i ≤ T_max일 때,

이고, 여기서 k = i - T_min이다.

N은 프레임 길이이고,

는 현재 프레임의 좌측 채널 시간 도메인 신호이고,

는 현재 프레임의 우측 채널 시간 도메인 신호이고, c(k)는 현재 프레임의 교차-상관 계수이고, k는 교차-상관 계수의 인덱스 값이고, k는 0보다 더 작지 않은 정수이고, k의 값 범위는 [0, T_max - T_min]이다.

T_max = 40이고, T_min = -40이라고 가정된다. 이러한 경우, 오디오 코딩 디바이스는 T_min ≤ 0이고 0 < T_max인 경우에 대응하는 계산 방식을 사용하여 현재 프레임의 교차-상관 계수를 결정한다. 이러한 경우, k의 값 범위는 [0, 80]이다.

다른 구현에서, 교차-상관 계수의 인덱스 값은 채널-간 시간 차이를 표시하는데 사용된다. 이러한 경우, 오디오 코딩 디바이스에 의해, 채널-간 시간 차이의 최대 값 및 채널-간 시간 차이의 최소 값에 기초하여 교차-상관 계수를 결정하는 것은 다음의 공식들을 사용하여 표현된다:

T_min≤ 0이고 0 <T_max인 경우_,

T_min≤ i ≤ 0일 때,

이고;

0 < i ≤ T_max일 때,

이다.

T_min ≤ 0이고 T_max ≤ 0인 경우,

T_min ≤ i ≤ T_max일 때,

이다.

T_min ≥ 0이고 T_max ≥ 0인 경우,

T_min ≤ i ≤ T_max일 때,

이다.

N은 프레임 길이이고,

는 현재 프레임의 좌측 채널 시간 도메인 신호이고,

는 현재 프레임의 우측 채널 시간 도메인 신호이고, c(i)는 현재 프레임의 교차-상관 계수이고, i는 교차-상관 계수의 인덱스 값이고, i의 값 범위는 [T_min, T_max]이다.

T_max = 40이고, T_min = -40이라고 가정된다. 이러한 경우, 오디오 코딩 디바이스는 T_min ≤ 0 및 0 < T_max에 대응하는 계산 공식을 사용하여 현재 프레임의 교차-상관 계수를 결정한다. 이러한 경우, i의 값 범위는 [-40, 40]이다.

두번째로, 단계 302에서 현재 프레임의 지연 트랙 추정 값을 결정하는 것이 설명된다.

제1 구현에서, 선형 회귀 방법을 사용하여 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 지연 트랙 추정이 수행되어, 현재 프레임의 지연 트랙 추정 값을 결정한다.

이러한 구현은 다음의 몇몇 단계들을 사용하여 구현된다:

(1) 적어도 하나의 과거 프레임의 채널-간 시간 차이 정보 및 대응하는 시퀀스 번호에 기초하여 M개의 데이터 쌍들을 생성함- 여기서 M은 양의 정수임 -.

버퍼는 M개의 과거 프레임들의 채널-간 시간 차이 정보를 저장한다.

선택적으로, 채널-간 시간 차이 정보는 채널-간 시간 차이이다. 대안적으로, 채널-간 시간 차이 정보는 채널-간 시간 차이 평활화된 값이다.

선택적으로, M개의 과거 프레임들의 것인 그리고 버퍼에 저장되는 채널-간 시간 차이들은 선입 선출 원리를 따른다. 구체적으로, 먼저 버퍼링되는 그리고 과거 프레임의 것인 채널-간 시간 차이의 버퍼 위치는 전방에 있고, 차후에 버퍼링되는 그리고 과거 프레임의 것인 채널-간 시간 차이의 버퍼 위치는 후방에 있다.

또한, 차후에 버퍼링되는 그리고 과거 프레임의 것인 채널-간 시간 차이에 대해, 먼저 버퍼링되는 그리고 과거 프레임의 것인 채널-간 시간 차이가 먼저 버퍼로부터 이동한다.

선택적으로, 이러한 실시예에서, 각각의 데이터 쌍은 각각의 과거 프레임의 채널-간 시간 차이 정보 및 대응하는 시퀀스 번호를 사용하여 생성된다.

시퀀스 번호는 버퍼에서의 각각의 과거 프레임의 위치라고 지칭된다. 예를 들어, 8개의 과거 프레임들이 버퍼에 저장되면, 시퀀스 번호들은 각각 0, 1, 2, 3, 4, 5, 6, 및 7이다.

예를 들어, 생성된 M개의 데이터 쌍들은, {(x₀, y₀), (x₁, y₁), (x₂, y₂) ... (x_r, y_r), ..., 및 (x_M-₁, y_M-₁)}이다. (x_r, y_r)는 (r + 1)번째 데이터 쌍이고, x_r는 (r + 1)번째 데이터 쌍의 시퀀스 번호를 표시하는데 사용되고, 즉, x_r = r이고; y_r는 과거 프레임의 것인 그리고 (r + 1)번째 데이터 쌍에 대응하는 채널-간 시간 차이를 표시하는데 사용되고, 여기서 r = 0, 1, ..., 및 (M-1)이다.

도 9는 8개의 버퍼링된 과거 프레임들의 개략도이다. 각각의 시퀀스 번호에 대응하는 위치는 하나의 과거 프레임의 채널-간 시간 차이를 버퍼링한다. 이러한 경우, 8개의 데이터 쌍은, {(x₀, y₀), (x₁, y₁), (x₂, y₂) ... (x_r, yr), ..., 및 (x₇, y₇)}이다. 이러한 경우, r = 0, 1, 2, 3, 4, 5, 6, 및 7이다.

(2) M개의 데이터 쌍들에 기초하여 제1 선형 회귀 파라미터 및 제2 선형 회귀 파라미터를 계산함.

이러한 실시예에서, 데이터 쌍에서의 y_r는 약 x_r인 그리고 ε_r의 측정 에러를 갖는 선형 함수라고 가정된다. 이러한 선형 함수는 다음과 같다:

y_r = α + β * x_r + ε_r.

α는 제1 선형 회귀 파라미터이고, β는 제2 선형 회귀 파라미터이고, ε_r는 측정 에러이다.

선형 함수는 다음의 조건을 충족시킬 필요가 있다: 관측 포인트 x_r에 대응하는 관찰된 값 y_r(실제로 버퍼링되는 채널-간 시간 차이 정보)와, 선형 함수에 기초하여 계산되는 추정 값 α + β * x_r 사이의 거리가 가장 작음, 구체적으로, 비용 함수 Q(α, β)의 최소화가 충족됨.

비용 함수 Q(α, β)는 다음과 같다:

전술한 조건을 충족시키기 위해, 선형 함수에서의 제1 선형 회귀 파라미터 및 제2 선형 회귀 파라미터는 다음을 충족시킬 필요가 있다:

;

; 및

x_r는 M개의 데이터 쌍들에서의 (r + 1)번째 데이터 쌍의 시퀀스 번호를 표시하는데 사용되고, y_r는 (r + 1)번째 데이터 쌍의 채널-간 시간 차이 정보이다.

(3) 제1 선형 회귀 파라미터 및 제2 선형 회귀 파라미터에 기초하여 현재 프레임의 지연 트랙 추정 값을 획득함.

제1 선형 회귀 파라미터 및 제2 선형 회귀 파라미터에 기초하여 (M + 1)번째 데이터 쌍의 시퀀스 번호에 대응하는 추정 값이 계산되고, 이러한 추정 값은 현재 프레임의 지연 트랙 추정 값으로서 결정된다. 공식은 다음과 같고,

reg_prv_corr = α + β * M, 여기서

reg_prv_corr은 현재 프레임의 지연 트랙 추정 값을 표현하고, M은 (M + 1)번째 데이터 쌍의 시퀀스 번호이고, α + β * M은 (M + 1)번째 데이터 쌍의 추정 값이다.

예를 들어, M = 8이다. 8개의 생성된 데이터 쌍들에 기초하여 α 및 β가 결정된 후, α 및 β에 기초하여 아홉번째 데이터 쌍에서의 채널-간 시간 차이가 추정되고, 아홉번째 데이터 쌍에서의 채널-간 시간 차이가 현재 프레임의 지연 트랙 추정 값으로서 결정된다, 즉, reg_prv_corr = α + β * 8이다.

선택적으로, 이러한 실시예에서, 시퀀스 번호 및 채널-간 시간 차이를 사용하여 데이터 쌍을 생성하는 방식만이 설명을 위한 예로서 사용된다. 실제 구현에서, 데이터 쌍은 대안적으로 다른 방식으로 생성될 수 있다. 이러한 것이 이러한 실시예에서 제한되는 것은 아니다.

제2 구현에서, 가중화된 선형 회귀 방법을 사용하여 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 지연 트랙 추정이 수행되어, 현재 프레임의 지연 트랙 추정 값을 결정한다.

이러한 구현은 다음의 몇몇 단계들을 사용하여 구현된다:

이러한 단계는 제1 구현에서의 단계 (1)에서의 관련 설명과 동일하고, 상세사항들이 이러한 실시예에서 본 명세서에 설명되지는 않는다.

(2) M개의 과거 프레임들의 가중화 계수들 및 M개의 데이터 쌍들에 기초하여 제1 선형 회귀 파라미터 및 제2 선형 회귀 파라미터를 계산함.

선택적으로, 버퍼는 M개의 과거 프레임들의 채널-간 시간 차이 정보를 저장하는 것뿐만 아니라, M개의 과거 프레임들의 가중화 계수들을 또한 저장한다. 대응하는 과거 프레임의 지연 트랙 추정 값을 계산하는데 가중화 계수가 사용된다.

선택적으로, 과거 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 계산을 통해 각각의 과거 프레임의 가중화 계수가 획득된다. 대안적으로, 과거 프레임의 채널-간 시간 차이 추정 편차에 기초하여 계산을 통해 각각의 과거 프레임의 가중화 계수가 획득된다.

y_r = α + β * x_r + ε_r.

선형 함수는 다음의 조건을 충족시킬 필요가 있다: 관찰 포인트 x_r에 대응하는 관찰값 y_r(실제로 버퍼링되는 채널-간 시간 차이 정보)와, 선형 함수에 기초하여 계산되는 추정 값 α + β * x_r 사이의 가중화 거리가 가장 작다, 구체적으로, 비용 함수 Q(α, β)의 최소화가 충족된다.

비용 함수 Q(α, β)는 다음과 같다:

w_r는 r번째 데이터 쌍에 대응하는 과거 프레임의 가중화 계수이다.

; 및

.

x_r는 M개의 데이터 쌍들에서의 (r + 1)번째 데이터 쌍의 시퀀스 번호를 표시하는데 사용되고, y_r은 (r + 1)번째 데이터 쌍에서의 채널-간 시간 차이 정보이고, w_r는 적어도 하나의 과거 프레임에서의 (r + 1)번째 데이터 쌍에서의 채널-간 시간 차이 정보에 대응하는 가중화 계수이다.

이러한 단계는 제1 구현에서의 단계 (3)에서의 관련 설명과 동일하고, 상세사항들이 이러한 실시예에서 본 명세서에 설명되지는 않는다.

이러한 실시예에서, 지연 트랙 추정 값이 선형 회귀 방법을 사용하여 또는 가중화된 선형 회귀 방식으로만 계산되는 예를 사용하여 설명이 제공된다는 점이 주목되어야 한다. 실제 구현에서, 지연 트랙 추정 값은 대안적으로 다른 방식으로 계산될 수 있다. 이러한 것이 이러한 실시예에서 제한되는 것은 아니다. 예를 들어, 지연 트랙 추정 값은 B-스플라인(B-spline) 방법을 사용하여 계산되거나, 또는 지연 트랙 추정 값은 큐빅 스플라인 방법을 사용하여 계산되거나, 또는 지연 트랙 추정 값은 쿼드러틱 스플라인 방법을 사용하여 계산된다.

세번째로, 단계 303에서 현재 프레임의 적응형 윈도우 함수를 결정하는 것이 설명된다.

이러한 실시예에서, 현재 프레임의 적응형 윈도우 함수를 계산하는 2개의 방식들이 제공된다. 제1 방식에서는, 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 적응형 윈도우 함수가 결정된다. 이러한 경우, 채널-간 시간 차이 추정 편차 정보는 평활화된 채널-간 시간 차이 추정 편차이고, 적응형 윈도우 함수의 상승된 코사인 폭 파라미터 및 상승된 코사인 높이 바이어스는 평활화된 채널-간 시간 차이 추정 편차에 관련된다. 제2 방식에서는, 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 적응형 윈도우 함수가 결정된다. 이러한 경우, 채널-간 시간 차이 추정 편차 정보는 채널-간 시간 차이 추정 편차이고, 적응형 윈도우 함수의 상승된 코사인 폭 파라미터 및 상승된 코사인 높이 바이어스는 채널-간 시간 차이 추정 편차에 관련된다.

이러한 2개의 방식들이 아래에 개별적으로 설명된다.

이러한 제1 방식은 다음의 몇몇 단계들을 사용하여 구현된다:

(1) 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 제1 상승된 코사인 폭 파라미터를 계산함.

현재 프레임에 가까운 멀티-채널 신호를 사용하여 현재 프레임의 적응형 윈도우 함수를 계산하는 정확도가 상대적으로 높기 때문에, 이러한 실시예에서, 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 적응형 윈도우 함수가 결정되는 예를 사용하여 설명이 제공된다.

선택적으로, 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차는 버퍼에 저장된다.

이러한 단계는 다음의 공식들을 사용하여 표현되고,

win_width1 = TRUNC(width_par1 * (A * L_NCSHIFT_DS + 1))이고,

width_par1 = a_width1 * smooth_dist_reg + b_width1이며, 여기서

a_width1 = (xh_width1 - xl_width1)/(yh_dist1 - yl_dist1)이고,

b_width1 = xh_width1 - a_width1 * yh_dist1이며,

win_width1은 제1 상승된 코사인 폭 파라미터이고, TRUNC는 값을 반올림하는 것을 표시하고, L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값이고, A는 미리 설정된 상수이고, A는 4 이상이다.

xh_width1은 제1 상승된 코사인 폭 파라미터의 상한 값, 예를 들어, 도 7에서의 0.25이고; xl_width1은 제1 상승된 코사인 폭 파라미터의 하한 값, 예를 들어, 도 7에서의 0.04이고, yh_dist1은 제1 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차, 예를 들어, 도 7에서의 0.25에 대응하는 3.0이고; yl_dist1은 제1 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차, 예를 들어, 도 7에서의 0.04에 대응하는 1.0이다.

smooth_dist_reg는 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차이고, xh_width1, xl_width1, yh_dist1, 및 yl_dist1은 모두 양수들이다.

선택적으로, 전술한 공식에서, b_width1 = xh_width1 - a_width1 * yh_dist1은 b_width1 = xl_width1 - a_width1 * yl_dist1로 대체될 수 있다.

선택적으로, 이러한 단계에서, width_par1 = min(width_par1, xh_width1), 및 width_par1 = max(width_par1, xl_width1)이고, 여기서 min은 최소 값을 취하는 것을 표현하고, max는 최대 값을 취하는 것을 표현한다. 구체적으로, 계산을 통해 획득되는 width_par1이 xh_width1보다 더 클 때, width_par1은 xh_width1로 설정되거나; 또는 계산을 통해 획득되는 width_par1이 xl_width1보다 더 작을 때, width_par1은 xl_width1로 설정된다.

이러한 실시예에서, width_par1이 제1 상승된 코사인 폭 파라미터의 상한 값보다 더 클 때, width_par1은 제1 상승된 코사인 폭 파라미터의 상한 값으로 제한되거나; 또는 width_par1이 제1 상승된 코사인 폭 파라미터의 하한 값보다 더 작을 때, width_par1은 제1 상승된 코사인 폭 파라미터의 하한 값으로 제한되어, width_par1의 값이 상승된 코사인 폭 파라미터의 정상 값 범위를 초과하지 않는다는 점을 보장하고, 그렇게 함으로써 계산된 적응형 윈도우 함수의 정확도를 보장한다.

(2) 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 제1 상승된 코사인 높이 바이어스를 계산함.

이러한 단계는 다음의 공식을 사용하여 표현되고,

win_bias1 = a_bias1 * smooth_dist_reg + b_bias1이며, 여기서

a_bias1 = (xh_bias1 - xl_bias1)/(yh_dist2 - yl_dist2)이고,

b_bias1 = xh_bias1 - a_bias1 * yh_dist2이다.

win_bias1은 제1 상승된 코사인 높이 바이어스이고; xh_bias1은 제1 상승된 코사인 높이 바이어스의 상한 값, 예를 들어, 도 8에서의 0.7이고; xl_bias1은 제1 상승된 코사인 높이 바이어스의 하한 값, 예를 들어, 도 8에서의 0.4이고; yh_dist2는 제1 상승된 코사인 높이 바이어스의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차, 예를 들어, 도 8에서의 0.7에 대응하는 3.0이고; yl_dist2는 제1 상승된 코사인 높이 바이어스의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차, 예를 들어, 도 8에서의 0.4에 대응하는 1.0이고; smooth_dist_reg는 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차이고; 및 yh_dist2, yl_dist2, xh_bias1, 및 xl_bias1은 모두 양수들이다.

선택적으로, 전술한 공식에서, b_bias1 = xh_bias1 - a_bias1 * yh_dist2는 b_bias1 = xl_bias1 - a_bias1 * yl_dist2로 대체될 수 있다.

선택적으로, 이러한 실시예에서, win_bias1 = min(win_bias1, xh_bias1), 및 win_bias1 = max(win_bias1, xl_bias1)이다. 구체적으로, 계산을 통해 획득되는 win_bias1이 xh_bias1보다 더 클 때, win_bias1은 xh_bias1로 설정되거나; 또는 계산을 통해 획득되는 win_bias1이 xl_bias1보다 더 작을 때, win_bias1은 xl_bias1로 설정된다.

선택적으로, yh_dist2 = yh_dist1이고, yl_dist2 = yl_dist1이다.

(3) 제1 상승된 코사인 폭 파라미터 및 제1 상승된 코사인 높이 바이어스에 기초하여 현재 프레임의 적응형 윈도우 함수를 결정함.

제1 상승된 코사인 폭 파라미터 및 제1 상승된 코사인 높이 바이어스는 단계 303에서 적응형 윈도우 함수로 되어 다음의 계산 공식들을 획득하고,

0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 - 1일 때,

loc_weight_win(k) = win_bias1이고;

TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 ≤ k ≤ A * L_NCSHIFT_DS일 때,

loc_weight_win(k) = win_bias1이다.

loc_weight_win(k)는 적응형 윈도우 함수를 표현하는데 사용되며, 여기서 k = 0, 1, ..., A * L_NCSHIFT_DS이고; A는 4 이상의 미리 설정된 상수이고, 예를 들어, A =4이고, L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값이고; win_width1은 제1 상승된 코사인 폭 파라미터이고; win_bias1은 제1 상승된 코사인 높이 바이어스이다.

이러한 실시예에서, 현재 프레임의 적응형 윈도우 함수는 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차를 사용하여 계산되어, 적응형 윈도우 함수의 형상이 평활화된 채널-간 시간 차이 추정 편차에 기초하여 조정되고, 그렇게 함으로써 생성된 적응형 윈도우 함수가 현재 프레임의 지연 트랙 추정의 에러로 인해 부정확하다는 문제점을 회피하고, 적응형 윈도우 함수를 생성하는 정확도를 개선한다.

선택적으로, 제1 방식으로 결정되는 적응형 윈도우 함수에 기초하여 현재 프레임의 채널-간 시간 차이가 결정된 후에, 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차, 현재 프레임의 지연 트랙 추정 값, 및 현재 프레임의 채널-간 시간 차이에 기초하여 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차가 추가로 결정될 수 있다.

선택적으로, 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 버퍼에서의 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차가 업데이트된다.

선택적으로, 현재 프레임의 채널-간 시간 차이가 매번 결정된 후에, 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 버퍼에서의 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차가 업데이트된다.

선택적으로, 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 버퍼에서 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이를 추정 편차를 업데이트하는 것은, 버퍼에서의 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차를 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차로 대체하는 것을 포함한다.

현재 프레임의 평활화된 채널-간 시간 차이 추정 편차는 다음의 계산 공식들을 사용하여 계산을 통해 획득되고,

smooth_dist_reg_update = (1 - γ) * smooth_dist_reg + γ * dist_reg'이고,

dist_reg' = |reg_prv_corr - cur_itd|이다.

smooth_dist_reg_update는 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차이고; γ는 제1 평활화 인자이고, 0 < γ < 1, 예를 들어,

이고; smooth_dist_reg는 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차이고; reg_prv_corr은 현재 프레임의 지연 트랙 추정 값이고; cur_itd는 현재 프레임의 채널-간 시간 차이이다.

이러한 실시예에서, 현재 프레임의 채널-간 시간 차이가 결정된 후에, 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차가 계산된다. 다음 프레임의 채널-간 시간 차이가 결정될 때, 다음 프레임의 적응형 윈도우 함수는 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차를 사용하여 결정될 수 있고, 그렇게 함으로써 다음 프레임의 채널-간 시간 차이를 결정하는 정확도를 보장한다.

선택적으로, 전술한 제1 방식으로 결정되는 적응형 윈도우 함수에 기초하여 현재 프레임의 채널-간 시간 차이가 결정된 후에, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보가 추가로 업데이트될 수 있다.

업데이트 방식에서는, 현재 프레임의 채널-간 시간 차이에 기초하여 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보가 업데이트된다.

다른 업데이트 방식에서는, 현재 프레임의 채널-간 시간 차이 평활화된 값에 기초하여 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보기 업데이트된다.

선택적으로, 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 채널-간 시간 차이에 기초하여 현재 프레임의 채널-간 시간 차이 평활화된 값이 결정된다.

예를 들어, 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 채널-간 시간 차이에 기초하여, 현재 프레임의 채널-간 시간 차이 평활화된 값이 다음의 공식을 사용하여 결정될 수 있고,

cur_itd_smooth = φ * reg_prv_corr + (1 - φ) * cur_itd이다.

cur_itd_smooth는 현재 프레임의 채널-간 시간 차이 평활화된 값이고, φ는 제2 평활화 인자이고, reg_prv_corr은 현재 프레임의 지연 트랙 추정 값이고, cur_itd는 현재 프레임의 채널-간 시간 차이이다. φ는 0 이상인 그리고 1 이하인 상수이다.

적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보를 업데이트하는 것은, 현재 프레임의 채널-간 시간 차이 또는 현재 프레임의 채널-간 시간 차이 평활화된 값을 버퍼에 추가하는 것을 포함한다.

선택적으로, 예를 들어, 버퍼에서의 채널-간 시간 차이 평활화된 값이 업데이트된다. 버퍼는 고정된 수량의 과거 프레임들에 대응하는 채널-간 시간 차이 평활화된 값들을 저장한다, 예를 들어, 버퍼는 8개의 과거 프레임들의 채널-간 시간 차이 평활화된 값들을 저장한다. 현재 프레임의 채널-간 시간 차이 평활화된 값이 버퍼에 추가되면, 버퍼에서의 첫번째 비트(큐의 헤드)에 원래 위치되는 과거 프레임의 채널-간 시간 차이 평활화된 값이 삭제된다. 이에 대응하여, 두번째 비트에 원래 위치되는 과거 프레임의 채널-간 시간 차이 평활화된 값이 첫번째 비트로 업데이트된다. 유추에 의해, 현재 프레임의 채널-간 시간 차이 평활화된 값은 버퍼에서의 마지막 비트(큐의 테일)에 위치된다.

도 10에 도시되는 버퍼 업데이트 프로세스에 대한 참조가 이루어진다. 버퍼는 8개의 과거 프레임들의 채널-간 시간 차이 평활화된 값들을 저장한다고 가정된다. 현재 프레임의 채널-간 시간 차이 평활화된 값(601)이 버퍼에 추가되기 전에(즉, 현재 프레임에 대응하는 8개의 과거 프레임들), (i - 8)번째 프레임의 채널-간 시간 차이 평활화된 값이 첫번째 비트에서 버퍼링되고, (i - 7)번째 프레임의 채널-간 시간 차이 평활화된 값이 두번째 비트에서 버퍼링되고, ..., (i - 1)번째 프레임의 채널-간 시간 차이 평활화된 값이 여덟번째 비트에서 버퍼링된다.

현재 프레임의 채널-간 시간 차이 평활화된 값(601)이 버퍼에 추가되면, (도면에서 점선 박스로 표현되는) 첫번째 비트는 삭제되고, 두번째 비트의 시퀀스 번호는 첫번째 비트의 시퀀스 번호가 되고, 세번째 비트의 시퀀스 번호는 두번째 비트의 시퀀스 번호가 되고, ..., 여덟번째 비트의 시퀀스 번호는 일곱번째 비트의 시퀀스 번호가 된다. 현재 프레임(i번째 프레임)의 채널-간 시간 차이 평활화된 값(601)은 여덟번째 비트에 위치되어, 다음 프레임에 대응하는 8개의 과거 프레임들을 획득한다.

선택적으로, 현재 프레임의 채널-간 시간 차이 평활화된 값이 버퍼에 추가된 후에, 첫번째 비트에서 버퍼링되는 채널-간 시간 차이 평활화된 값이 삭제되지 않을 수 있고, 대신에, 두번째 비트 내지 아홉번째 비트에서의 채널-간 시간 차이 평활화된 값들이 다음 프레임의 채널-간 시간 차이를 계산하는데 직접 사용된다. 대안적으로, 첫번째 비트 내지 아홉번째 비트에서의 채널-간 시간 차이 평활화된 값들이 다음 프레임의 채널-간 시간 차이를 계산하는데 사용된다. 이러한 경우, 각각의 현재 프레임에 대응하는 과거 프레임들의 수량은 가변적이다. 버퍼 업데이트 방식이 이러한 실시예에서 제한되는 것은 아니다.

이러한 실시예에서, 현재 프레임의 채널-간 시간 차이가 결정된 후에, 현재 프레임의 채널-간 시간 차이 평활화된 값이 계산된다. 다음 프레임의 지연 트랙 추정 값이 결정될 때, 다음 프레임의 지연 트랙 추정 값은 현재 프레임의 채널-간 시간 차이 평활화 값을 사용하여 결정될 수 있다. 이것은 다음 프레임의 지연 트랙 추정 값을 결정하는 정확도를 보장한다.

선택적으로, 현재 프레임의 지연 트랙 추정 값을 결정하는 전술한 제2 구현에 기초하여 현재 프레임의 지연 트랙 추정 값이 결정되면, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 평활화된 값이 업데이트된 후, 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수가 추가로 업데이트될 수 있다. 적어도 하나의 과거 프레임의 가중화 계수는 가중화된 선형 회귀 방법에서의 가중화 계수이다.

적응형 윈도우 함수를 결정하는 제1 방식에서, 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하는 것은, 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 제1 가중화 계수를 계산하는 것; 및 현재 프레임의 제1 가중화 계수에 기초하여 적어도 하나의 과거 프레임의 버퍼링된 제1 가중화 계수를 업데이트하는 것을 포함한다.

이러한 실시예에서, 버퍼 업데이트의 관련 설명에 대해서는, 도 10을 참조한다. 상세사항들이 이러한 실시예에서 본 명세서에 다시 설명되지는 않는다.

현재 프레임의 제1 가중화 계수는 다음의 계산 공식들을 사용하여 계산을 통해 획득되고,

wgt_par1 = a_wgt1 * smooth_dist_reg_update + b_wgt1이고,

a_wgt1 = (xl_wgt1 - xh_wgt1)/(yh_dist1' - yl_dist1')이고,

b_wgt1 = xl_wgt1 - a_wgt1 * yh_dist1'이다.

선택적으로, wgt_par1 = min(wgt_par1, xh_wgt1)이고, 및 wgt_par1 = max(wgt_par1, xl_wgt1)이다.

선택적으로, 이러한 실시예에서, yh_dist1', yl_dist1', xh_wgt1 및 xl_wgt1의 값들이 제한되는 것은 아니다. 예를 들어, xl_wgt1 = 0.05이고, xh_wgt1 = 1.0이고, yl_dist1' = 2.0이고, yh_dist1' = 1.0이다.

선택적으로, 전술한 공식에서, b_wgt1 = xl_wgt1 - a_wgt1 * yh_dist1'은 b_wgt1 = xh_wgt1 - a_wgt1 * yl_dist1'로 대체될 수 있다.

이러한 실시예에서, xh_wgt1 > xl_wgt1이고, yh_dist1' < yl_dist1'이다.

이러한 실시예에서, wgt_par1이 제1 가중화 계수의 상한 값보다 더 클 때, wgt_par1은 제1 가중화 계수의 상한 값으로 제한되거나; 또는 wgt_par1이 제1 가중화 계수의 하한 값보다 더 작을 때, wgt_par1은 제1 가중화 계수의 하한 값으로 제한되어, wgt_par1의 값이 제1 가중화 계수의 정상 값 범위를 초과하지 않는다는 점을 보장하고, 그렇게 함으로써 현재 프레임의 계산된 지연 트랙 추정 값의 정확도를 보장한다.

또한, 현재 프레임의 채널-간 시간 차이가 결정된 후에, 현재 프레임의 제1 가중화 계수가 계산된다. 다음 프레임의 지연 트랙 추정 값이 결정될 때, 다음 프레임의 지연 트랙 추정 값은 현재 프레임의 제1 가중화 계수를 사용하여 결정될 수 있고, 그렇게 함으로써 다음 프레임의 지연 트랙 추정 값을 결정하는 정확도를 보장한다.

제2 방식에서는, 교차-상관 계수에 기초하여 현재 프레임의 채널-간 시간 차이의 초기 값이 결정되고; 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 채널-간 시간 차이의 초기 값에 기초하여 현재 프레임의 채널-간 시간 차이 추정 편차가 계산되고; 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 적응형 윈도우 함수가 결정된다.

선택적으로, 현재 프레임의 채널-간 시간 차이의 초기 값은 교차-상관 계수에서의 교차-상관 값인 그리고 현재 프레임의 교차-상관 계수에 기초하여 결정되는 최대 값이고, 이러한 최대 값에 대응하는 인덱스 값에 기초하여 채널-간 시간 차이가 결정된다.

선택적으로, 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 채널-간 시간 차이의 초기 값에 기초하여 현재 프레임의 채널-간 시간 차이 추정 편차를 결정하는 것은 다음의 공식을 사용하여 표현된다:

dist_reg = |reg_prv_corr - cur_itd_init|.

현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여, 현재 프레임의 적응형 윈도우 함수를 결정하는 것은 다음의 단계들을 사용하여 구현된다.

(1) 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 제2 상승된 코사인 폭 파라미터를 계산함.

이러한 단계는 다음의 공식들을 사용하여 표현될 수 있고,

win_width2 = TRUNC(width_par2 * (A * L_NCSHIFT_DS + 1))이고,

width_par2 = a_width2 * dist_reg + b_width2이며, 여기서

a_width2 = (xh_width2 - xl_width2)/(yh_dist3 - yl_dist3)이고,

b_width2 = xh_width2 - a_width2 * yh_dist3이다.

선택적으로, 이러한 단계에서, b_width2 = xh_width2 - a_width2 * yh_dist3은 b_width2 = xl_width2 - a_width2 * yl_dist3으로 대체될 수 있다.

선택적으로, 이러한 단계에서, width_par2 = min(width_par2, xh_width2)이고, width_par2 = max(width_par2, xl_width2)이고, 여기서 min은 최소 값을 취하는 것을 표현하고, max는 최대 값을 취하는 것을 표현한다. 구체적으로, 계산을 통해 획득되는 width_par2가 xh_width2보다 더 클 때, width_par2는 xh_width2로 설정되거나; 또는 계산을 통해 획득되는 width_par2가 xl_width2보다 더 작을 때, width_par2는 xl_width2로 설정된다.

이러한 실시예에서, width_par2가 제2 상승된 코사인 폭 파라미터의 상한 값보다 더 클 때, width_par2는 제2 상승된 코사인 폭 파라미터의 상한 값으로 제한되거나; 또는 width_par2가 제2 상승된 코사인 폭 파라미터의 하한 값보다 더 작을 때, width_par2는 제2 상승된 코사인 폭 파라미터의 하한 값으로 제한되어, width_par2의 값이 상승된 코사인 폭 파라미터의 정상 값 범위를 초과하지 않는다는 점을 보장하고, 그렇게 함으로써 계산된 적응형 윈도우 함수의 정확도를 보장한다.

(2) 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 제2 상승된 코사인 높이 바이어스를 계산함.

이러한 단계는 다음의 공식을 사용하여 표현될 수 있고,

win_bias2 = a_bias2 * dist_reg + b_bias2이며, 여기서

a_bias2 = (xh_bias2 - xl_bias2)/(yh_dist4 - yl_dist4)이고,

b_bias2 = xh_bias2 - a_bias2 * yh_dist4이다.

선택적으로, 이러한 단계에서, b_bias2 = xh_bias2 - a_bias2* yh_dist4는 b_bias2 = xl_bias2 - a_bias2* yl_dist4로 대체될 수 있다.

선택적으로, 이러한 실시예에서, win_bias2 = min(win_bias2, xh_bias2)이고, win_bias2 = max(win_bias2, xl_bias2)이다. 구체적으로, 계산을 통해 획득되는 win_bias2가 xh_bias2보다 더 클 때, win_bias2는 xh_bias2로 설정되거나; 또는 계산을 통해 획득되는 win_bias2가 xl_bias2보다 더 작을 때, win_bias2는 xl_bias2로 설정된다.

선택적으로, yh_dist4 = yh_dist3이고, yl_dist4 = yl_dist3이다.

(3) 제2 상승된 코사인 폭 파라미터 및 제2 상승된 코사인 높이 바이어스에 기초하여 오디오 코딩 디바이스가 현재 프레임의 적응형 윈도우 함수를 결정함.

오디오 코딩 디바이스는 단계 303에서 제2 상승된 코사인 폭 파라미터 및 제2 상승된 코사인 높이 바이어스를 적응형 윈도우 함수로 하여 다음의 계산 공식들을 획득하고,

0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width2 - 1일 때,

loc_weight_win(k) = win_bias2이고;

TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width2 ≤ k ≤ A * L_NCSHIFT_DS일 때,

loc_weight_win(k) = win_bias2이다.

loc_weight_win(k)는 적응형 윈도우 함수를 표현하는데 사용되며, 여기서 k = 0, 1, ..., A * L_NCSHIFT_DS이고; A는 4 이상의 미리 설정된 상수이고, 예를 들어, A =4이고, L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값이고; win_width2는 제2 상승된 코사인 폭 파라미터이고; win_bias2는 제2 상승된 코사인 높이 바이어스이다.

이러한 실시예에서, 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 적응형 윈도우 함수가 결정되고, 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차가 버퍼링될 필요가 없을 때, 현재 프레임의 적응형 윈도우 함수가 결정될 수 있고, 그렇게 함으로써 저장 리소스를 절약한다.

선택적으로, 전술한 제2 방식으로 결정되는 적응형 윈도우 함수에 기초하여 현재 프레임의 채널-간 시간 차이가 결정된 후에, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보가 추가로 업데이트될 수 있다. 관련 설명들에 대해서는, 적응형 윈도우 함수를 결정하는 제1 방식을 참조한다. 상세사항들이 이러한 실시예에서 본 명세서에 다시 설명되지는 않는다.

선택적으로, 현재 프레임의 지연 트랙 추정 값을 결정하는 제2 구현에 기초하여 현재 프레임의 지연 트랙 추정 값이 결정되면, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 평활화된 값이 업데이트된 후, 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수가 추가로 업데이트될 수 있다.

적응형 윈도우 함수를 결정하는 제2 방식에서는, 적어도 하나의 과거 프레임의 가중화 계수가 적어도 하나의 과거 프레임의 제2 가중화 계수이다.

적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하는 것은, 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 제2 가중화 계수를 계산하는 것; 및 현재 프레임의 제2 가중화 계수에 기초하여 적어도 하나의 과거 프레임의 버퍼링된 제2 가중화 계수를 업데이트하는 것을 포함한다.

현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 제2 가중화 계수를 계산하는 것은 다음의 공식들을 사용하여 표현되고:

wgt_par2 = a_wgt2 * dist_reg + b_wgt2이고,

a_wgt2 = (xl_wgt2 - xh_wgt2)/(yh_dist2' - yl_dist2')이고,

b_wgt2 = xl_wgt2 - a_wgt2 * yh_dist2'이다.

선택적으로, 이러한 실시예에서, yh_dist2', yl_dist2', xh_wgt2, 및 xl_wgt2의 값들이 제한되는 것은 아니다. 예를 들어, xl_wgt2 = 0.05이고, xh_wgt2 =1.0이고, yl_dist2' = 2.0이고, yh_dist2' = 1.0이다.

선택적으로, 전술한 공식에서, b_wgt2 = xl_wgt2 - a_wgt2* yh_dist2'는 b_wgt2 = xh_wgt2 - a_wgt2* yl_dist2'로 대체될 수 있다.

이러한 실시예에서, xh_wgt2 > x2_wgt1이고, yh_dist2' < yl_dist2'이다.

이러한 실시예에서, wgt_par2가 제2 가중화 계수의 상한 값보다 더 클 때, wgt_par2는 제2 가중화 계수의 상한 값으로 제한되거나; 또는 wgt_par2가 제2 가중화 계수의 하한 값보다 더 작을 때, wgt_par2는 제2 가중화 계수의 하한 값으로 제한되어, wgt_par2의 값이 제2 가중화 계수의 정상 값 범위를 초과하지 않는다는 점을 보장하고, 그렇게 함으로써 현재 프레임의 계산된 지연 트랙 추정 값의 정확도를 보장한다.

또한, 현재 프레임의 채널-간 시간 차이가 결정된 후에, 현재 프레임의 제2 가중화 계수가 계산된다. 다음 프레임의 지연 트랙 추정 값이 결정되어야 할 때, 다음 프레임의 지연 트랙 추정 값은 현재 프레임의 제2 가중화 계수를 사용하여 결정될 수 있고, 그렇게 함으로써 다음 프레임의 지연 트랙 추정 값을 결정하는 정확도를 보장한다.

선택적으로, 전술한 실시예들에서, 버퍼는 현재 프레임의 멀티-채널 신호가 유효 신호인지에 무관하게 업데이트된다. 예를 들어, 적어도 하나의 과거 프레임의 채널-간 시간 차이 정보 및/또는 버퍼에서의 적어도 하나의 과거 프레임의 가중화 계수가 업데이트된다.

선택적으로, 버퍼는 현재 프레임의 멀티-채널 신호가 유효 신호일 때에만 업데이트된다. 이러한 방식으로, 버퍼에서의 데이터의 유효성이 개선된다.

유효 신호는 에너지가 미리 설정된 에너지보다 더 높은, 그리고/또는 미리 설정된 타입에 속하는 신호이고, 예를 들어, 유효 신호는 스피치 신호이거나, 또는 유효 신호는 주기적 신호이다.

이러한 실시예에서, 음성 활동 검출(Voice Activity Detection, VAD) 알고리즘은 현재 프레임의 멀티-채널 신호가 활성 프레임인지를 검출하는데 사용된다. 현재 프레임의 멀티-채널 신호가 활성 프레임이면, 이것은 현재 프레임의 멀티-채널 신호가 유효 신호라는 점을 표시한다. 현재 프레임의 멀티-채널 신호가 활성 프레임이 아니면, 이것은 현재 프레임의 멀티-채널 신호가 유효 신호가 아니라는 점을 표시한다.

방식으로, 현재 프레임의 이전 프레임의 음성 활성화 검출 결과에 기초하여, 버퍼를 업데이트할지가 결정된다.

현재 프레임의 이전 프레임의 음성 활성화 검출 결과가 활성 프레임일 때, 이것은 현재 프레임이 활성 프레임인 가능성이 크다는 점을 표시한다. 이러한 경우, 버퍼가 업데이트된다. 현재 프레임의 이전 프레임의 음성 활성화 검출 결과가 활성 프레임이 아닐 때, 이것은 현재 프레임이 활성 프레임이 아닌 가능성이 크다는 점을 표시한다. 이러한 경우, 버퍼는 업데이트되지 않는다.

선택적으로, 현재 프레임의 이전 프레임의 주 채널 신호의 음성 활성화 검출 결과 및 현재 프레임의 이전 프레임의 부 채널 신호의 음성 활성화 검출 결과에 기초하여 현재 프레임의 이전 프레임의 음성 활성화 검출 결과가 결정된다.

현재 프레임의 이전 프레임의 주 채널 신호의 음성 활성화 검출 결과 및 현재 프레임의 이전 프레임의 부 채널 신호의 음성 활성화 검출 결과 양자 모두가 활성 프레임들이면, 현재 프레임의 이전 프레임의 음성 활성화 검출 결과는 활성 프레임이다. 현재 프레임의 이전 프레임의 주 채널 신호의 음성 활성화 검출 결과 및/또는 현재 프레임의 이전 프레임의 부 채널 신호의 음성 활성화 검출 결과가 활성 프레임들/활성 프레임이 아니면, 현재 프레임의 이전 프레임의 음성 활성화 검출 결과는 활성 프레임이 아니다.

다른 방식으로, 현재 프레임의 음성 활성화 검출 결과에 기초하여, 버퍼를 업데이트할지가 결정된다.

현재 프레임의 음성 활성화 검출 결과가 활성 프레임일 때, 이것은 현재 프레임이 활성 프레임인 가능성이 크다는 점을 표시한다. 이러한 경우, 오디오 코딩 디바이스는 버퍼를 업데이트한다. 현재 프레임의 음성 활성화 검출 결과가 활성 프레임이 아닐 때, 이것은 현재 프레임이 활성 프레임이 아닌 가능성이 크다는 점을 표시한다. 이러한 경우, 오디오 코딩 디바이스는 버퍼를 업데이트하지 않는다.

선택적으로, 현재 프레임의 복수의 채널 신호들의 음성 활성화 검출 결과들에 기초하여 현재 프레임의 음성 활성화 검출 결과가 결정된다.

현재 프레임의 복수의 채널 신호의 음성 활성화 검출 결과가 모두 활성 프레임들이면, 현재 프레임의 음성 활성화 검출 결과는 활성 프레임이다. 현재 프레임의 복수의 채널 신호들의 채널 신호의 적어도 하나의 채널의 음성 활성화 검출 결과가 활성 프레임이 아니면, 현재 프레임의 음성 활성화 검출 결과는 활성 프레임이 아니다.

이러한 실시예에서, 현재 프레임이 활성 프레임인지에 관한 기준만을 사용하여 버퍼가 업데이트되는 예를 사용하여 설명이 제공된다는 점이 주목되어야 한다. 실제 구현에서, 버퍼는 대안적으로 현재 프레임의 무성화 또는 음성화, 주기 또는 비주기적, 일시적 또는 비-일시적, 및 스피치 또는 비-스피치 중 적어도 하나에 기초하여 업데이트될 수 있다.

예를 들어, 현재 프레임의 이전 프레임의 주 채널 신호 및 부 채널 신호 양자 모두가 음성화되면, 이것은 현재 프레임이 음성인 확률이 크다는 점을 표시한다. 이러한 경우, 버퍼가 업데이트된다. 현재 프레임의 이전 프레임의 주 채널 신호 및 부 채널 신호 중 적어도 하나가 무성화되면, 현재 프레임이 음성이 아닌 확률이 크다. 이러한 경우, 버퍼는 업데이트되지 않는다.

선택적으로, 전술한 실시예들에 기초하여, 현재 프레임의 이전 프레임의 코딩 파라미터에 기초하여 미리 설정된 윈도우 함수 모델의 적응형 파라미터가 추가로 결정될 수 있다. 이러한 방식으로, 현재 프레임의 미리 설정된 윈도우 함수 모델에서의 적응형 파라미터가 적응형으로 조정되고, 적응형 윈도우 함수를 결정하는 정확도가 개선된다.

코딩 파라미터는 현재 프레임의 이전 프레임의 멀티-채널 신호의 타입을 표시하는데 사용되거나, 또는 코딩 파라미터는 시간-도메인 다운믹싱 처리가 수행되는 현재 프레임의 이전 프레임의 멀티-채널 신호의 타입, 예를 들어, 활성 프레임 또는 비활성 프레임, 무성화 또는 음성화, 주기적 또는 비주기적, 일시적 또는 비-일시적, 또는 스피치 또는 음악을 표시하는데 사용된다.

적응형 파라미터는 상승된 코사인 폭 파라미터의 상한 값, 상승된 코사인 폭 파라미터의 하한 값, 상승된 코사인 높이 바이어스의 상한 값, 상승된 코사인 높이 바이어스의 하한 값, 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차, 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차, 상승된 코사인 높이 바이어스의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차, 및 상승된 코사인 높이 바이어스의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차 중 적어도 하나를 포함한다.

선택적으로, 오디오 코딩 디바이스가 적응형 윈도우 함수를 결정하는 제1 방식으로 적응형 윈도우 함수를 결정할 때, 상승된 코사인 폭 파라미터의 상한 값은 제1 상승된 코사인 폭 파라미터의 상한 값이고, 상승된 코사인 폭 파라미터의 하한 값은 제1 상승된 코사인 폭 파라미터의 하한 값이고, 상승된 코사인 높이 바이어스의 상한 값은 제1 상승된 코사인 높이 바이어스의 상한 값이고, 상승된 코사인 높이 바이어스의 하한 값은 제1 상승된 코사인 높이 바이어스의 하한 값이다. 이에 대응하여, 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제1 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제1 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, 상승된 코사인 높이 바이어스의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제1 상승된 코사인 높이 바이어스의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, 상승된 코사인 높이 바이어스의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제1 상승된 코사인 높이 바이어스의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이다.

선택적으로, 오디오 코딩 디바이스가 적응형 윈도우 함수를 결정하는 제2 방식으로 적응형 윈도우 함수를 결정할 때, 상승된 코사인 폭 파라미터의 상한 값은 제2 상승된 코사인 폭 파라미터의 상한 값이고, 상승된 코사인 폭 파라미터의 하한 값은 제2 상승된 코사인 폭 파라미터의 하한 값이고, 상승된 코사인 높이 바이어스의 상한 값은 제2 상승된 코사인 높이 바이어스의 상한 값이고, 상승된 코사인 높이 바이어스의 하한 값은 제2 상승된 코사인 높이 바이어스의 하한 값이다. 이에 대응하여, 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제2 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제2 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, 상승된 코사인 높이 바이어스의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제2 상승된 코사인 높이 바이어스의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, 상승된 코사인 높이 바이어스의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제2 상승된 코사인 높이 바이어스의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이다.

선택적으로, 이러한 실시예에서, 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차가 상승된 코사인 높이 바이어스의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차와 동일하고, 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차가 상승된 코사인 높이 바이어스의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차와 동일한 예를 사용하여 설명이 제공된다.

선택적으로, 이러한 실시예에서, 현재 프레임의 이전 프레임의 코딩 파라미터가 현재 프레임의 이전 프레임의 주 채널 신호의 무성화 또는 음성화 및 현재 프레임의 이전 프레임의 부 채널 신호의 무성화 또는 음성화를 표시하는데 사용되는 예를 사용하여 설명이 제공된다.

(1) 현재 프레임의 이전 프레임의 코딩 파라미터에 기초하여 적응형 파라미터에서의 상승된 코사인 폭 파라미터의 상한 값 및 상승된 코사인 폭 파라미터의 하한 값을 결정함.

코딩 파라미터에 기초하여 현재 프레임의 이전 프레임의 주 채널 신호의 무성화 또는 음성화 및 현재 프레임의 이전 프레임의 부 채널 신호의 무성화 또는 음성화가 결정된다. 주 채널 신호 및 부 채널 신호 양자 모두가 무성화되면, 상승된 코사인 폭 파라미터의 상한 값은 제1 무성화 파라미터로 설정되고, 상승된 코사인 폭 파라미터의 하한 값은 제2 무성화 파라미터로 설정된다, 즉, xh_width = xh_width_uv이고, xl_width = xl_width_uv이다.

주 채널 신호 및 부 채널 신호 양자 모두가 음성화되면, 상승된 코사인 폭 파라미터의 상한 값은 제1 음성화 파라미터로 설정되고, 상승된 코사인 폭 파라미터의 하한 값은 제2 음성화 파라미터로 설정된다, 즉, xh_width = xh_width_v이고, xl_width = xl_width_v이다.

주 채널 신호가 음성화되고, 부 채널 신호가 무성화되면, 상승된 코사인 폭 파라미터의 상한 값은 제3 음성화 파라미터로 설정되고, 상승된 코사인 폭 파라미터의 하한 값은 제4 음성화 파라미터로 설정된다, 즉, xh_width = xh_width_v2이고, xl_width = xl_width_v2이다.

주 채널 신호가 무성화되고, 부 채널 신호가 음성화되면, 상승된 코사인 폭 파라미터의 상한 값은 제3 무성화 파라미터로 설정되고, 상승된 코사인 폭 파라미터의 하한 값은 제4 무성화 파라미터로 설정된다, 즉, xh_width = xh_width_uv2이고, xl_width = xl_width_uv2이다.

제1 무성화 파라미터 xh_width_uv, 제2 무성화 파라미터 xl_width_uv, 제3 무성화 파라미터 xh_width_uv2, 제4 무성화 파라미터 xl_width_uv2, 제1 음성화 파라미터 xh_width_v, 제2 음성화 파라미터 xl_width_v, 제3 음성화 파라미터 xh_width_v2, 및 제4 음성화 파라미터 xl_width_v2는 모두 양수들이고, 여기서 xh_width_v < xh_width_v2 < xh_width_uv2 < xh_width_uv이고, xl_width_uv < xl_width_uv2 < xl_width_v2 < xl_width_v이다.

xh_width_v, xh_width_v2, xh_width_uv2, xh_width_uv, xl_width_uv, xl_width_uv2, xl_width_v2, 및 xl_width_v의 값들이 이러한 실시예에서 제한되는 것은 아니다. 예를 들어, xh_width_v = 0.2이고, xh_width_v2 = 0.25이고, xh_width_uv2 = 0.35이고, xh_width_uv =0.3이고, xl_width_uv = 0.03이고, xl_width_uv2 = 0.02, xl_width_v2 = 0.04이고, xl_width_v = 0.05이다.

선택적으로, 제1 무성화 파라미터, 제2 무성화 파라미터, 제3 무성화 파라미터, 제4 무성화 파라미터, 제1 음성화 파라미터, 제2 음성화 파라미터, 제3 음성화 파라미터, 및 제4 음성화 파라미터 중 적어도 하나의 파라미터는 현재 프레임의 이전 프레임의 코딩 파라미터를 사용하여 조정된다.

예를 들어, 현재 프레임의 이전 프레임의 채널 신호의 코딩 파라미터에 기초하여 오디오 코딩 디바이스가 제1 무성화 파라미터, 제2 무성화 파라미터, 제3 무성화 파라미터, 제4 무성화 파라미터, 제1 음성화 파라미터, 제2 음성화 파라미터, 제3 음성화 파라미터, 및 제4 음성화 파라미터 중 적어도 하나의 파라미터를 조정하는 것은 다음의 공식들을 사용하여 표현되고,

xh_width_uv = fach_uv * xh_width_init이고; xl_width_uv = facl_uv * xl_width_init이고;

xh_width_v = fach_v * xh_width_init이고; xl_width_v = facl_v * xl_width_init이고;

xh_width_v2 = fach_v2 * xh_width_init이고; xl_width_v2 = facl_v2 * xl_width_init이고;

xh_width_uv2 = fach_uv2 * xh_width_init이고; xl_width_uv2 = facl_uv2 * xl_width_init이다.

fach_uv, fach_v, fach_v2, fach_uv2, xh_width_init, 및 xl_width_init는 코딩 파라미터에 기초하여 결정되는 양수들이다.

이러한 실시예에서, fach_uv, fach_v, fach_v2, fach_uv2, xh_width_init, 및 xl_width_init의 값들이 제한되는 것은 아니다. 예를 들어, fach_uv =1.4이고, fach_v = 0.8이고, fach_v2 = 1.0이고, fach_uv2 = 1.2이고, xh_width_init = 0.25이고, xl_width_init = 0.04이다.

(2) 현재 프레임의 이전 프레임의 코딩 파라미터에 기초하여 적응형 파라미터에서의 상승된 코사인 높이 바이어스의 상한 값 및 상승된 코사인 높이 바이어스의 하한 값을 결정함.

코딩 파라미터에 기초하여 현재 프레임의 이전 프레임의 주 채널 신호의 무성화 또는 음성화 및 현재 프레임의 이전 프레임의 부 채널 신호의 무성화 또는 음성화가 결정된다. 주 채널 신호 및 부 채널 신호 양자 모두가 무성화되면, 상승된 코사인 높이 바이어스의 상한 값은 제5 무성화 파라미터로 설정되고, 상승된 코사인 높이 바이어스의 하한 값은 제6 무성화 파라미터로 설정된다, 즉, xh_bias = xh_bias_uv이고, xl_bias = xl_bias_uv이다.

주 채널 신호 및 부 채널 신호 양자 모두가 음성화되면, 상승된 코사인 높이 바이어스의 상한 값은 제5 음성화 파라미터로 설정되고, 상승된 코사인 높이 바이어스의 하한 값은 제6 음성화 파라미터로 설정된다, 즉, xh_bias = xh_bias_v이고, xl_bias = xl_bias_v이다.

주 채널 신호가 음성화되고, 부 채널 신호가 무성화되면, 상승된 코사인 높이 바이어스의 상한 값은 제7 음성화 파라미터로 설정되고, 상승된 코사인 높이 바이어스의 하한 값은 제8 음성화 파라미터로 설정된다, 즉, xh_bias = xh_bias_v2이고, xl_bias = xl_bias_v2이다.

주 채널 신호가 무성화되고, 부 채널 신호가 음성화되면, 상승된 코사인 높이 바이어스의 상한 값은 제7 무성화 파라미터로 설정되고, 상승된 코사인 높이 바이어스의 하한 값은 제8 무성화 파라미터로 설정된다, 즉, xh_bias = xh_bias_uv2이고, xl_bias = xl_bias_uv2이다.

제5 무성화 파라미터 xh_bias_uv, 제6 무성화 파라미터 xl_bias_uv, 제7 무성화 파라미터 xh_bias_uv2, 제8 무성화 파라미터 xl_bias_uv2, 제5 음성화 파라미터 xh_bias_v, 제6 음성화 파라미터 xl_bias_v, 제7 음성화 파라미터 xh_bias_v2, 및 제8 음성화 파라미터 xl_bias_v2는 모두 양수들이고, 여기서 xh_bias_v < xh_bias_v2 < xh_bias_uv2 < xh_bias_uv이고, xl_bias_v < xl_bias_v2 < xl_bias_uv2 < xl_bias_uv이고, xh_bias는 상승된 코사인 높이 바이어스의 상한 값이고, xl_bias는 상승된 코사인 높이 바이어스의 하한 값이다.

이러한 실시예에서, xh_bias_v, xh_bias_v2, xh_bias_uv2, xh_bias_uv, xl_bias_v, xl_bias_v2, xl_bias_uv2, 및 xl_bias_uv의 값들이 제한되는 것은 아니다. 예를 들어, xh_bias_v = 0.8이고, xl_bias_v = 0.5이고, xh_bias_v2 = 0.7이고, xl_bias_v2 = 0.4이고, xh_bias_uv = 0.6이고, xl_bias_uv = 0.3이고, xh_bias_uv2 = 0.5이고, xl_bias_uv2 = 0.2이다.

선택적으로, 제5 무성화 파라미터, 제6 무성화 파라미터, 제7 무성화 파라미터, 제8 무성화 파라미터, 제5 음성화 파라미터, 제6 음성화 파라미터, 제7 음성화 파라미터, 및 제8 음성화 파라미터 중 적어도 하나는 현재 프레임의 이전 프레임의 채널 신호의 코딩 파라미터에 기초하여 조정된다.

예를 들어, 다음 공식이 표현을 위해 사용되고,

xh_bias_uv = fach_uv' * xh_bias_init이고; xl_bias_uv = facl_uv' * xl_bias_init이고;

xh_bias_v = fach_v' * xh_bias_init이고; xl_bias_v = facl_v' * xl_bias_init이고;

xh_bias_v2 = fach_v2' * xh_bias_init이고; xl_bias_v2 = facl_v2' * xl_bias_init이고;

xh_bias_uv2 = fach_uv2' * xh_bias_init이고; xl_bias_uv2 = facl_uv2' * xl_bias_init이다.

fach_uv', fach_v', fach_v2', fach_uv2', xh_bias_init, 및 xl_bias_init는 코딩 파라미터에 기초하여 결정되는 양수들이다.

이러한 실시예에서, fach_uv', fach_v', fach_v2', fach_uv2', xh_bias_init, 및 xl_bias_init의 값들이 제한되는 것은 아니다. 예를 들어, fach_v' = 1.15이고, fach_v2' = 1.0이고, fach_uv2' = 0.85이고, fach_uv' = 0.7이고, xh_bias_init = 0.7이고, xl_bias_init = 0.4이다.

(3) 현재 프레임의 이전 프레임의 코딩 파라미터에 기초하여, 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차, 및 적응형 파라미터의 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차를 결정함.

코딩 파라미터에 기초하여 현재 프레임의 이전 프레임의 무성화 및 음성화 주 채널 신호들 및 현재 프레임의 이전 프레임의 무성화 및 음성화 부 채널 신호들이 결정된다. 주 채널 신호 및 부 채널 신호 양자 모두가 무성화되면, 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제9 무성화 파라미터로 설정되고, 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제10 무성화 파라미터로 설정된다, 즉, yh_dist = yh_dist_uv이고, yl_dist = yl_dist_uv이다.

주 채널 신호 및 부 채널 신호 양자 모두가 음성화되면, 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제9 음성화 파라미터로 설정되고, 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제10 음성화 파라미터로 설정된다, 즉, yh_dist = yh_dist_v이고, yl_dist = yl_dist_v이다.

주 채널 신호가 음성화되고, 부 채널 신호가 무성화되면, 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제11 음성화 성능 파라미터로 설정되고, 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제12 음성화 성능 파라미터로 설정된다, 즉, yh_dist = yh_dist_v2이고, yl_dist = yl_dist_v2이다.

주 채널 신호가 무성화되고, 부 채널 신호가 음성화되면, 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제11 무성화 파라미터로 설정되고, 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차는 제12 무성화 파라미터로 설정된다, 즉, yh_dist = yh_dist_uv2이고, yl_dist = yl_dist_uv2이다.

제9 무성화 파라미터 yh_dist_uv, 제10 무성화 파라미터 yl_dist_uv, 제11 무성화 파라미터 yh_dist_uv2, 제12 무성화 파라미터 yl_dist_uv2, 제9 음성화 파라미터 yh_dist_v, 제10 음성화 파라미터 yl_dist_v, 제11 음성화 파라미터 yh_dist_v2, 및 제12 음성화 파라미터 yl_dist_v2는 모두 양수들이고, 여기서 yh_dist_v < yh_dist_v2 < yh_dist_uv2 < yh_dist_uv이고, yl_dist_uv < yl_dist_uv2 < yl_dist_v2 < yl_dist_v이다.

이러한 실시예에서, yh_dist_v, yh_dist_v2, yh_dist_uv2, yh_dist_uv, yl_dist_uv, yl_dist_uv2, yl_dist_v2, 및 yl_dist_v의 값들이 제한되는 것은 아니다.

선택적으로, 제9 무성화 파라미터, 제10 무성화 파라미터, 제11 무성화 파라미터, 제12 무성화 파라미터, 제9 음성화 파라미터, 제10 음성화 파라미터, 제11 음성화 파라미터, 및 제12 음성화 파라미터 중 적어도 하나의 파라미터는 현재 프레임의 이전 프레임의 코딩 파라미터를 사용하여 조정된다.

예를 들어, 다음 공식이 표현을 위해 사용되고,

yh_dist_uv = fach_uv" * yh_dist_init이고; yl_dist_uv = facl_uv" * yl_dist_init이고;

yh_dist_v = fach_v" * yh_dist_init이고; yl_dist_v = facl_v" * yl_dist_init이고;

yh_dist_v2 = fach_v2" * yh_dist_init이고; yl_dist_v2 = facl_v2" * yl_dist_init이고;

yh_dist_uv2 = fach_uv2" * yh_dist_init이고; yl_dist_uv2 = facl_uv2" * yl_dist_init이다.

fach_uv", fach_v", fach_v2", fach_uv2", yh_dist_init, 및 yl_dist_init는 코딩 파라미터에 기초하여 결정되는 양수들이고, 파라미터들의 값들이 이러한 실시예에서 제한되는 것은 아니다.

이러한 실시예에서, 미리 설정된 윈도우 함수 모델에서의 적응형 파라미터는 현재 프레임의 이전 프레임의 코딩 파라미터에 기초하여 조정되어, 적절한 적응형 윈도우 함수가 현재 프레임의 이전 프레임의 코딩 파라미터에 기초하여 적응형으로 결정되고, 그렇게 함으로써 적응형 윈도우 함수를 생성하는 정확도를 개선하고, 채널-간 시간 차이를 추정하는 정확도를 개선한다.

선택적으로, 전술한 실시예들에 기초하여, 단계 301전에, 멀티-채널 신호에 대해 시간-도메인 전처리가 수행된다.

선택적으로, 본 출원의 이러한 실시예에서의 현재 프레임의 멀티-채널 신호는 오디오 코딩 디바이스에 입력되는 멀티-채널 신호이거나, 또는 멀티-채널 신호가 오디오 코딩 디바이스에 입력된 후 전처리를 통해 획득되는 멀티-채널 신호이다.

선택적으로, 오디오 코딩 디바이스에 입력되는 멀티-채널 신호는 오디오 코딩 디바이스에서의 수집 컴포넌트에 의해 수집될 수 있거나, 또는 오디오 코딩 디바이스에 독립적인 수집 디바이스에 의해 수집될 수 있고, 오디오 코딩 디바이스에 전송된다.

선택적으로, 오디오 코딩 디바이스에 입력되는 멀티-채널 신호는 아날로그-디지털(Analog_to_Digital, A/D) 변환을 통해 이후 획득되는 멀티-채널 신호이다. 선택적으로, 멀티-채널 신호는 펄스 코드 변조(Pulse Code Modulation, PCM) 신호이다.

멀티-채널 신호의 샘플링 주파수는 8 kHz, 16 kHz, 32 kHz, 44.1 kHz, 48 kHz 등일 수 있다. 이러한 것이 이러한 실시예에서 제한되는 것은 아니다.

예를 들어, 멀티-채널 신호의 샘플링 주파수는 16 kHz이다. 이러한 경우, 멀티-채널 신호들의 프레임의 지속기간은 20 ms이고, 프레임 길이는 N으로서 표기되며, 여기서 N = 320이다, 다시 말해서, 프레임 길이는 320개의 샘플링 포인트들이다. 현재 프레임의 멀티-채널 신호는 좌측 채널 신호 및 우측 채널 신호를 포함하고, 좌측 채널 신호는 x_L(n)으로서 표기되고, 우측 채널 신호는 x_R(n)으로서 표기되며, 여기서 n은 샘플링 포인트 시퀀스 번호이고, n = 0, 1, 2,..., 및 (N - 1)이다.

선택적으로, 현재 프레임에 대해 하이-패스 필터링 처리가 수행되면, 처리된 좌측 채널 신호는 x_{L_HP}(n)으로서 표기되고, 처리된 우측 채널 신호는 x_{R_HP}(n)으로서 표기되며, 여기서 n은 샘플링 포인트 시퀀스 번호이고, n = 0, 1, 2,..., 및 (N - 1)이다.

도 11은 본 출원의 예시적인 실시예에 따른 오디오 코딩 디바이스의 개략 구조도이다. 본 출원의 이러한 실시예에서, 오디오 코딩 디바이스는, 모바일 폰, 태블릿 컴퓨터, 랩톱 휴대용 컴퓨터, 데스크톱 컴퓨터, 블루투스 스피커, 펜 레코더, 및 웨어러블 디바이스와 같은, 오디오 수집 및 오디오 신호 처리 기능을 갖는 전자 디바이스일 수 있거나, 또는 코어 네트워크 및 무선 네트워크에서 오디오 신호 처리 능력을 갖는 네트워크 엘리먼트일 수 있다. 이러한 것이 이러한 실시예에서 제한되는 것은 아니다.

오디오 코딩 디바이스는 프로세서(701), 메모리(702) 및 버스(703)를 포함한다.

프로세서(701)는 하나 이상의 처리 코어를 포함하고, 프로세서(701)는 소프트웨어 프로그램 및 모듈을 실행하여, 다양한 기능 애플리케이션들을 수행하고 정보를 처리한다.

메모리(702)는 버스(703)를 사용하여 프로세서(701)에 접속된다. 메모리(702)는 오디오 코딩 디바이스에 필요한 명령어를 저장한다.

프로세서(701)는 메모리(702)에서의 명령어를 실행하여 본 출원의 방법 실시예들에서 제공되는 지연 추정 방법을 구현하도록 구성된다.

또한, 메모리(702)는, SRAM(static random access memory), EEPROM(electrically erasable programmable read-only memory), EPROM(erasable programmable read-only memory), PROM(programmable read-only memory), ROM(read-only memory), 자기 메모리, 플래시 메모리, 자기 디스크, 또는 광학 디스크와 같은, 임의의 타입의 휘발성 또는 비-휘발성 저장 디바이스 또는 이들의 조합에 의해 구현될 수 있다.

메모리(702)는 적어도 하나의 과거 프레임의 채널-간 시간 차이 정보 및/또는 적어도 하나의 과거 프레임의 가중화 계수를 버퍼링하도록 추가로 구성된다.

선택적으로, 오디오 코딩 디바이스는 수집 컴포넌트를 포함하고, 이러한 수집 컴포넌트는 멀티-채널 신호를 수집하도록 구성된다.

선택적으로, 수집 컴포넌트는 적어도 하나의 마이크로폰을 포함한다. 각각의 마이크로폰은 채널 신호의 하나의 채널을 수집하도록 구성된다.

선택적으로, 오디오 코딩 디바이스는 수신 컴포넌트를 포함하고, 이러한 수신 컴포넌트는 다른 디바이스에 의해 전송되는 멀티-채널 신호를 수신하도록 구성된다.

선택적으로, 오디오 코딩 디바이스는 디코딩 기능을 추가로 갖는다.

도 11은 오디오 코딩 디바이스의 단지 단순화된 설계를 도시한다는 점이 이해될 수 있다. 다른 실시예에서, 오디오 코딩 디바이스는 임의의 수량의 송신기들, 수신기들, 프로세서들, 제어기들, 메모리들, 통신 유닛들, 디스플레이 유닛들, 재생 유닛들 등을 포함할 수 있다. 이러한 것이 이러한 실시예에서 제한되는 것은 아니다.

선택적으로, 본 출원은 컴퓨터 판독가능 저장 매체를 제공한다. 이러한 컴퓨터 판독가능 저장 매체는 명령어를 저장한다. 이러한 명령어가 오디오 코딩 디바이스 상에서 실행될 때, 오디오 코딩 디바이스는 전술한 실시예들에서 제공되는 지연 추정 방법을 수행할 수 있게 된다.

도 12는 본 출원의 실시예에 따른 지연 추정 장치의 블록도이다. 이러한 지연 추정 장치는 소프트웨어, 하드웨어 또는 이들의 조합을 사용하여 도 11에 도시되는 오디오 코딩 디바이스의 전부 또는 부분으로서 구현될 수 있다. 이러한 지연 추정 장치는 교차-상관 계수 결정 유닛(810), 지연 트랙 추정 유닛(820), 적응형 함수 결정 유닛(830), 가중화 유닛(840), 및 채널-간 시간 차이 결정 유닛(850)을 포함할 수 있다.

교차-상관 계수 결정 유닛(810)은 현재 프레임의 멀티-채널 신호의 교차-상관 계수를 결정하도록 구성된다.

지연 트랙 추정 유닛(820)은 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 현재 프레임의 지연 트랙 추정 값을 결정하도록 구성된다.

적응형 함수 결정 유닛(830)은 현재 프레임의 적응형 윈도우 함수를 결정하도록 구성된다.

가중화 유닛(840)은 현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 적응형 윈도우 함수에 기초하여 교차-상관 계수에 대한 가중화를 수행하여, 가중화된 교차-상관 계수를 획득하도록 구성된다.

채널-간 시간 차이 결정 유닛(850)은 가중화된 교차-상관 계수에 기초하여 현재 프레임의 채널-간 시간 차이를 결정하도록 구성된다.

선택적으로, 적응형 함수 결정 유닛(830)은 추가로,

현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 제1 상승된 코사인 폭 파라미터를 계산하도록;

현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 제1 상승된 코사인 높이 바이어스를 계산하도록; 그리고

제1 상승된 코사인 폭 파라미터 및 제1 상승된 코사인 높이 바이어스에 기초하여 현재 프레임의 적응형 윈도우 함수를 결정하도록 구성된다.

선택적으로, 이러한 장치는 추가로, 평활화된 채널-간 시간 차이 추정 편차 결정 유닛(860)을 포함한다.

평활화된 채널-간 시간 차이 추정 편차 결정 유닛(860)은 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차, 현재 프레임의 지연 트랙 추정 값, 및 현재 프레임의 채널-간 시간 차이에 기초하여 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차를 계산하도록 구성된다.

선택적으로, 적응형 함수 결정 유닛(830)은 추가로,

교차-상관 계수에 기초하여 현재 프레임의 채널-간 시간 차이의 초기 값을 결정하도록;

현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 채널-간 시간 차이의 초기 값에 기초하여 현재 프레임의 채널-간 시간 차이 추정 편차를 계산하도록; 그리고

현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 적응형 윈도우 함수를 결정하도록 구성된다.

선택적으로, 적응형 함수 결정 유닛(830)은 추가로,

현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 제2 상승된 코사인 폭 파라미터를 계산하도록;

현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 제2 상승된 코사인 높이 바이어스를 계산하도록; 그리고

제2 상승된 코사인 폭 파라미터 및 제2 상승된 코사인 높이 바이어스에 기초하여 현재 프레임의 적응형 윈도우 함수를 결정하도록 구성된다.

선택적으로, 이러한 장치는 적응형 파라미터 결정 유닛(870)을 추가로 포함한다.

적응형 파라미터 결정 유닛(870)은 현재 프레임의 이전 프레임의 코딩 파라미터에 기초하여 현재 프레임의 적응형 윈도우 함수의 적응형 파라미터를 결정하도록 구성된다.

선택적으로, 지연 트랙 추정 유닛(820)은 추가로,

선형 회귀 방법을 사용하여 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 지연 트랙 추정을 수행하여, 현재 프레임의 지연 트랙 추정 값을 결정하도록 구성된다.

선택적으로, 지연 트랙 추정 유닛(820)은 추가로,

가중화된 선형 회귀 방법을 사용하여 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 지연 트랙 추정을 수행하여, 현재 프레임의 지연 트랙 추정 값을 결정하도록 구성된다.

선택적으로, 이러한 장치는 업데이트 유닛(880)을 추가로 포함한다.

업데이트 유닛(880)은 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보를 업데이트하도록 구성된다.

선택적으로, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보는 적어도 하나의 과거 프레임의 채널-간 시간 차이 평활화된 값이고, 업데이트 유닛(880)은,

현재 프레임의 지연 트랙 추정 값 및 현재 프레임의 채널-간 시간 차이에 기초하여 현재 프레임의 채널-간 시간 차이 평활화된 값을 결정하도록; 그리고

현재 프레임의 채널-간 시간 차이 평활화된 값에 기초하여 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 평활화된 값을 업데이트하도록 구성된다.

선택적으로, 업데이트 유닛(880)은 추가로,

현재 프레임의 이전 프레임의 음성 활성화 검출 결과 또는 현재 프레임의 음성 활성화 검출 결과에 기초하여, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보를 업데이트할지 결정하도록 구성된다.

선택적으로, 업데이트 유닛(880)은 추가로,

적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하도록- 적어도 하나의 과거 프레임의 가중화 계수는 가중화된 선형 회귀 방법에서의 계수임- 구성된다.

선택적으로, 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이에 기초하여 현재 프레임의 적응형 윈도우 함수가 결정될 때, 업데이트 유닛(880)은 추가로,

현재 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 제1 가중화 계수를 계산하도록; 그리고

현재 프레임의 제1 가중화 계수에 기초하여 적어도 하나의 과거 프레임의 버퍼링된 제1 가중화 계수를 업데이트하도록 구성된다.

선택적으로, 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 적응형 윈도우 함수가 결정될 때, 업데이트 유닛(880)은 추가로,

현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 현재 프레임의 제2 가중화 계수를 계산하도록; 그리고

현재 프레임의 제2 가중화 계수에 기초하여 적어도 하나의 과거 프레임의 버퍼링된 제2 가중화 계수를 업데이트하도록 구성된다.

선택적으로, 업데이트 유닛(880)은 추가로,

현재 프레임의 이전 프레임의 음성 활성화 검출 결과가 활성 프레임이거나 또는 현재 프레임의 음성 활성화 검출 결과가 활성 프레임일 때, 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하도록 구성된다.

관련 상세들에 대해서는, 전술한 방법 실시예들을 참조한다.

선택적으로, 전술한 유닛들은 메모리에서의 명령어를 실행하는 것에 의해 오디오 코딩 디바이스에서의 프로세서에 의해 구현될 수 있다.

용이하고 간단한 설명을 위해, 전술한 장치 및 유닛들의 상세한 작동 프로세스에 대해, 전술한 방법 실시예들에서의 대응하는 프로세스를 참조하고, 상세사항들이 본 명세서에 다시 설명되지는 않는다는 점이 해당 분야에서의 통상의 기술자에 의해 명백히 이해될 수 있을 것이다.

본 출원에서 제공되는 실시예들에서, 개시되는 장치 및 방법은 다른 방식들로 구현될 수 있다는 점이 이해되어야 한다. 예를 들어, 설명된 장치 실시예들은 단지 예들이다. 예를 들어, 유닛 분할은 단지 논리적 기능 분할이고 실제 구현에서는 다른 분할일 수 있다. 예를 들어, 복수의 유닛들 또는 컴포넌트들 조합되거나 또는 다른 시스템에 집적될 수 있거나, 또는 일부 특징들이 무시되거나 또는 수행되지 않을 수 있다.

전술한 설명들은 단지 본 출원의 선택적 구현들이지만, 본 출원의 보호 범위를 제한하도록 의도되는 것은 아니다. 본 출원에 개시되는 기술적 범위 내에서 해당 분야에서의 기술자에 의해 용이하게 도출되는 임의의 변형 또는 대체는 본 출원의 보호 범위 내에 있을 것이다. 따라서, 본 출원의 보호 범위는 청구항들의 보호 범위에 따를 것이다.

Claims

지연 추정 방법으로서, 상기 방법은,
현재 프레임의 제1 채널 시간 도메인 신호 및 제2 채널 시간 도메인 신호에 기초하여 상기 현재 프레임의 멀티-채널 신호의 교차-상관 계수를 결정하는 단계;
적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 상기 현재 프레임의 지연 트랙 추정 값을 결정하는 단계;
상기 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차 또는 상기 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 상기 현재 프레임의 적응형 윈도우 함수를 결정하는 단계;
상기 현재 프레임의 지연 트랙 추정 값 및 상기 현재 프레임의 적응형 윈도우 함수에 기초하여 상기 교차-상관 계수에 대한 가중화를 수행하여, 가중화된 교차-상관 계수를 획득하는 단계; 및
상기 가중화된 교차-상관 계수에 기초하여 상기 현재 프레임의 채널-간 시간 차이를 결정하는 단계를 포함하는 방법.
제1항에 있어서, 상기 현재 프레임의 적응형 윈도우 함수를 결정하는 단계는,
상기 현재 프레임의 상기 이전 프레임의 상기 평활화된 채널-간 시간 차이 추정 편차에 기초하여 제1 상승된 코사인 폭 파라미터를 계산하는 단계;
상기 현재 프레임의 상기 이전 프레임의 상기 평활화된 채널-간 시간 차이 추정 편차에 기초하여 제1 상승된 코사인 높이 바이어스를 계산하는 단계; 및
상기 제1 상승된 코사인 폭 파라미터 및 상기 제1 상승된 코사인 높이 바이어스에 기초하여 상기 현재 프레임의 적응형 윈도우 함수를 결정하는 단계를 포함하는 방법.
제2항에 있어서, 상기 제1 상승된 코사인 폭 파라미터는 다음의 계산 공식들을 사용하여 계산을 통해 획득되고,
win_width1 = TRUNC(width_par1 * (A * L_NCSHIFT_DS + 1))이고,
width_par1 = a_width1 * smooth_dist_reg + b_width1이며; 여기서
a_width1 = (xh_width1 - xl_width1)/(yh_dist1 - yl_dist1)이고,
b_width1 = xh_width1 - a_width1 * yh_dist1이며,
여기서 win_width1은 제1 상승된 코사인 폭 파라미터이고, TRUNC는 값을 반올림하는 것을 표시하고, L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값이고, A는 미리 설정된 상수이고, A는 4 이상이고, xh_width1은 제1 상승된 코사인 폭 파라미터의 상한 값이고, xl_width1은 제1 상승된 코사인 폭 파라미터의 하한 값이고, yh_dist1은 제1 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, yl_dist1은 제1 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, smooth_dist_reg는 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차이고, xh_width1, xl_width1, yh_dist1, 및 yl_dist1은 모두 양수들인 방법.
제3항에 있어서,
width_par1 = min(width_par1, xh_width1)이고,
width_par1 = max(width_par1, xl_width1)이며,
여기서 min은 최소 값을 취하는 것을 표현하고, max는 최대 값을 취하는 것을 표현하는 방법.
제3항에 있어서, 상기 제1 상승된 코사인 높이 바이어스는 다음의 계산 공식을 사용하여 계산을 통해 획득되고,
win_bias1 = a_bias1 * smooth_dist_reg + b_bias1이며, 여기서
a_bias1 = (xh_bias1 - xl_bias1)/(yh_dist2 - yl_dist2)이고,
b_bias1 = xh_bias1 - a_bias1 * yh_dist2이며,
여기서 win_bias1은 제1 상승된 코사인 높이 바이어스이고, xh_bias1은 제1 상승된 코사인 높이 바이어스의 상한 값이고, xl_bias1은 제1 상승된 코사인 높이 바이어스의 하한 값이고, yh_dist2는 제1 상승된 코사인 높이 바이어스의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, yl_dist2는 제1 상승된 코사인 높이 바이어스의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, smooth_dist_reg는 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차이고, yh_dist2, yl_dist2, xh_bias1, 및 xl_bias1는 모두 양수인 방법.
제5항에 있어서,
win_bias1 = min(win_bias1, xh_bias1)이고,
win_bias1 = max(win_bias1, xl_bias1)이며,
여기서 min은 최소값을 취하는 것을 표현하고, max는 최대값을 취하는 것을 표현하는 방법.
제5항에 있어서, yh_dist2 = yh_dist1이고, yl_dist2 = yl_dist1인 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 적응형 윈도우 함수는 다음의 공식들을 사용하여 표현되고,
0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 - 1일 때,
loc_weight_win(k) = win_bias1이고;
TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 - 1일 때,
loc_weight_win(k) = 0.5 * (1 + win_bias1) + 0.5 * (1 - win_bias1) * cos(π * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width1))이고;
TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 ≤ k ≤ A * L_NCSHIFT_DS일 때,
loc_weight_win(k) = win_bias1이며; 여기서
loc_weight_win(k)는 적응형 윈도우 함수를 표현하는데 사용되고, 여기서 k = 0, 1, ..., A * L_NCSHIFT_DS이고; A는 미리 설정된 상수이며 4 이상이고; L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값이고; win_width1은 제1 상승된 코사인 폭 파라미터이고; win_bias1은 제1 상승된 코사인 높이 바이어스인 방법.
제2항 내지 제7항 중 어느 한 항에 있어서, 상기 가중화된 교차-상관 계수에 기초하여 상기 현재 프레임의 채널-간 시간 차이를 결정하는 단계 후에, 추가로,
상기 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차, 상기 현재 프레임의 지연 트랙 추정 값, 및 상기 현재 프레임의 채널-간 시간 차이에 기초하여 상기 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차를 계산하는 단계를 포함하고;
상기 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차는 다음의 계산 공식들을 사용하여 계산을 통해 획득되고,
smooth_dist_reg_update = (1 - γ) * smooth_dist_reg + γ * dist_reg'이고,
dist_reg' = |reg_prv_corr - cur_itd|이며,
여기서 smooth_dist_reg_update는 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차이고; γ는 제1 평활화 인자이고, 0 <γ < 1이고; smooth_dist_reg는 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차이고; reg_prv_corr은 현재 프레임의 지연 트랙 추정 값이고; cur_itd는 현재 프레임의 채널-간 시간 차이인 방법.
제1항에 있어서, 상기 현재 프레임의 적응형 윈도우 함수를 결정하는 단계는,
상기 교차-상관 계수에 기초하여 상기 현재 프레임의 채널-간 시간 차이의 초기 값을 결정하는 단계;
상기 현재 프레임의 지연 트랙 추정 값 및 상기 현재 프레임의 채널-간 시간 차이의 초기 값에 기초하여 상기 현재 프레임의 상기 채널-간 시간 차이 추정 편차를 계산하는 단계; 및
상기 현재 프레임의 상기 채널-간 시간 차이 추정 편차에 기초하여 상기 현재 프레임의 적응형 윈도우 함수를 결정하는 단계를 포함하고;
상기 현재 프레임의 상기 채널-간 시간 차이 추정 편차는 다음의 계산 공식을 사용하여 계산을 통해 획득되고,
dist_reg = |reg_prv_corr - cur_itd_init|이며,
여기서 dist_reg는 현재 프레임의 채널-간 시간 차이 추정 편차이고, reg_prv_corr은 현재 프레임의 지연 트랙 추정 값이고, cur_itd_init는 현재 프레임의 채널-간 시간 차이의 초기 값인 방법.
제10항에 있어서, 상기 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 상기 현재 프레임의 적응형 윈도우 함수를 결정하는 단계는,
상기 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 제2 상승된 코사인 폭 파라미터를 계산하는 단계;
상기 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 제2 상승된 코사인 높이 바이어스를 계산하는 단계; 및
상기 제2 상승된 코사인 폭 파라미터 및 상기 제2 상승된 코사인 높이 바이어스에 기초하여 상기 현재 프레임의 적응형 윈도우 함수를 결정하는 단계를 포함하는 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 가중화된 교차-상관 계수는 다음의 계산 공식을 사용하여 계산을 통해 획득되고,
c_weight(x) = c(x) * loc_weight_win(x - TRUNC(reg_prv_corr) + TRUNC(A * L_NCSHIFT_DS/2) - L_NCSHIFT_DS)이며,
여기서 c_weight(x)는 가중화된 교차-상관 계수이고; c(x)는 교차-상관 계수이고; loc_weight_win은 현재 프레임의 적응형 윈도우 함수이고; TRUNC는 값을 반올림하는 것을 표시하고; reg_prv_corr은 현재 프레임의 지연 트랙 추정 값이고; x는 0 이상인 그리고 2 * L_NCSHIFT_DS 이하인 정수이고; L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값인 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 현재 프레임의 적응형 윈도우 함수를 결정하는 단계 전에, 추가로,
상기 현재 프레임의 이전 프레임의 코딩 파라미터에 기초하여 상기 현재 프레임의 적응형 윈도우 함수의 적응형 파라미터를 결정하는 단계를 포함하고,
상기 코딩 파라미터는 상기 현재 프레임의 이전 프레임의 멀티-채널 신호의 타입을 표시하는데 사용되거나, 또는 상기 코딩 파라미터는 시간-도메인 다운믹싱 처리가 수행되는 상기 현재 프레임의 이전 프레임의 멀티-채널 신호의 타입을 표시하는데 사용되고; 상기 적응형 파라미터는 상기 현재 프레임의 적응형 윈도우 함수를 결정하는데 사용되는 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 상기 현재 프레임의 지연 트랙 추정 값을 결정하는 단계는,
선형 회귀 방법을 사용하여 상기 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 지연 트랙 추정을 수행하여, 상기 현재 프레임의 지연 트랙 추정 값을 결정하는 단계를 포함하는 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 상기 현재 프레임의 지연 트랙 추정 값을 결정하는 단계는,
가중화된 선형 회귀 방법을 사용하여 상기 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 지연 트랙 추정을 수행하여, 상기 현재 프레임의 지연 트랙 추정 값을 결정하는 단계를 포함하는 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 가중화된 교차-상관 계수에 기초하여 상기 현재 프레임의 채널-간 시간 차이를 결정하는 단계 후에, 추가로,
상기 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보를 업데이트하는 단계- 상기 적어도 하나의 과거 프레임의 채널-간 시간 차이 정보는 상기 적어도 하나의 과거 프레임의 채널-간 시간 차이 평활화된 값 또는 상기 적어도 하나의 과거 프레임의 채널-간 시간 차이임 -를 포함하는 방법.
제16항에 있어서, 상기 적어도 하나의 과거 프레임의 채널-간 시간 차이 정보는 상기 적어도 하나의 과거 프레임의 채널-간 시간 차이 평활화된 값이고, 상기 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보를 업데이트하는 단계는,
상기 현재 프레임의 지연 트랙 추정 값 및 상기 현재 프레임의 채널-간 시간 차이에 기초하여 상기 현재 프레임의 채널-간 시간 차이 평활화된 값을 결정하는 단계; 및
상기 현재 프레임의 채널-간 시간 차이 평활화된 값에 기초하여 상기 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 평활화된 값을 업데이트하는 단계를 포함하고;
상기 현재 프레임의 채널-간 시간 차이 평활화된 값은 다음의 계산 공식을 사용하여 획득되고,
cur_itd_smooth = φ * reg_prv_corr + (1 - φ) * cur_itd이며, 여기서
cur_itd_smooth는 현재 프레임의 채널-간 시간 차이 평활화된 값이고, φ는 제2 평활화 인자이며 0 이상인 그리고 1 이하인 상수이고, reg_prv_corr은 현재 프레임의 지연 트랙 추정 값이고, cur_itd는 현재 프레임의 채널-간 시간 차이인 방법.
제16항에 있어서, 상기 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보를 업데이트하는 단계는,
상기 현재 프레임의 이전 프레임의 음성 활성화 검출 결과가 활성 프레임이거나 또는 상기 현재 프레임의 음성 활성화 검출 결과가 활성 프레임일 때, 상기 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보를 업데이트하는 단계를 포함하는 방법.
제15항에 있어서, 상기 가중화된 교차-상관 계수에 기초하여 상기 현재 프레임의 채널-간 시간 차이를 결정하는 단계 후에, 추가로,
상기 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하는 단계- 상기 적어도 하나의 과거 프레임의 가중화 계수는 상기 가중화된 선형 회귀 방법에서의 가중화 계수임 -를 포함하는 방법.
제19항에 있어서, 상기 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이에 기초하여 상기 현재 프레임의 적응형 윈도우 함수가 결정될 때, 상기 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하는 단계는,
상기 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 상기 현재 프레임의 제1 가중화 계수를 계산하는 단계; 및
상기 현재 프레임의 제1 가중화 계수에 기초하여 상기 적어도 하나의 과거 프레임의 버퍼링된 제1 가중화 계수를 업데이트하는 단계를 포함하고,
상기 현재 프레임의 제1 가중화 계수는 다음의 계산 공식들을 사용하여 계산을 통해 획득되고,
wgt_par1 = a_wgt1 * smooth_dist_reg_update + b_wgt1이고,
a_wgt1 = (xl_wgt1 - xh_wgt1)/(yh_dist1' - yl_dist1')이고,
b_wgt1 = xl_wgt1 - a_wgt1 * yh_dist1'이며,
여기서 wgt_par1은 현재 프레임의 제1 가중화 계수이고, smooth_dist_reg_update는 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차이고, xh_wgt는 제1 가중화 계수의 상한 값이고, xl_wgt는 제1 가중화 계수의 하한 값이고, yh_dist1'은 제1 가중화 계수의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, yl_dist1'은 제1 가중화 계수의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, yh_dist1', yl_dist1', xh_wgt1, 및 xl_wgt1는 모두 양수인 방법.
제20항에 있어서,
wgt_par1 = min(wgt_par1, xh_wgt1)이고,
wgt_par1 = max(wgt_par1, xl_wgt1)이며,
여기서 min은 최소값을 취하는 것을 표현하고, max는 최대값을 취하는 것을 표현하는 방법.
제19항에 있어서, 상기 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 상기 현재 프레임의 적응형 윈도우 함수가 결정될 때, 상기 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하는 단계는,
상기 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 상기 현재 프레임의 제2 가중화 계수를 계산하는 단계; 및
상기 현재 프레임의 제2 가중화 계수에 기초하여 상기 적어도 하나의 과거 프레임의 버퍼링된 제2 가중화 계수를 업데이트하는 단계를 포함하는 방법.
제19항에 있어서, 상기 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하는 단계는,
상기 현재 프레임의 이전 프레임의 음성 활성화 검출 결과가 활성 프레임이거나 또는 상기 현재 프레임의 음성 활성화 검출 결과가 활성 프레임일 때, 상기 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하는 단계를 포함하는 방법.
지연 추정 장치로서,
현재 프레임의 제1 채널 시간 도메인 신호 및 제2 채널 시간 도메인 신호에 기초하여 상기 현재 프레임의 멀티-채널 신호의 교차-상관 계수를 결정하도록 구성되는 교차-상관 계수 결정 유닛;
적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 상기 현재 프레임의 지연 트랙 추정 값을 결정하도록 구성되는 지연 트랙 추정 유닛;
상기 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차 또는 상기 현재 프레임의 채널-간 시간 차이 추정 편차에 기초하여 상기 현재 프레임의 적응형 윈도우 함수를 결정하도록 구성되는 적응형 함수 결정 유닛;
상기 현재 프레임의 지연 트랙 추정 값 및 상기 현재 프레임의 적응형 윈도우 함수에 기초하여 상기 교차-상관 계수에 대한 가중화를 수행하여, 가중화된 교차-상관 계수를 획득하도록 구성되는 가중화 유닛; 및
상기 가중화된 교차-상관 계수에 기초하여 상기 현재 프레임의 채널-간 시간 차이를 결정하도록 구성되는 채널-간 시간 차이 결정 유닛을 포함하는 장치.
제24항에 있어서, 상기 적응형 함수 결정 유닛은,
상기 현재 프레임의 상기 이전 프레임의 상기 평활화된 채널-간 시간 차이 추정 편차에 기초하여 제1 상승된 코사인 폭 파라미터를 계산하도록;
상기 현재 프레임의 상기 이전 프레임의 상기 평활화된 채널-간 시간 차이 추정 편차에 기초하여 제1 상승된 코사인 높이 바이어스를 계산하도록; 그리고
상기 제1 상승된 코사인 폭 파라미터 및 상기 제1 상승된 코사인 높이 바이어스에 기초하여 상기 현재 프레임의 적응형 윈도우 함수를 결정하도록 구성되는 장치.
제25항에 있어서, 상기 제1 상승된 코사인 폭 파라미터는 다음의 계산 공식들을 사용하여 계산을 통해 획득되고,
win_width1 = TRUNC(width_par1 * (A * L_NCSHIFT_DS + 1))이고,
width_par1 = a_width1 * smooth_dist_reg + b_width1이며; 여기서
a_width1 = (xh_width1 - xl_width1)/(yh_dist1 - yl_dist1)이고,
b_width1 = xh_width1 - a_width1 * yh_dist1이며,
win_width1은 제1 상승된 코사인 폭 파라미터이고, TRUNC는 값을 반올림하는 것을 표시하고, L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값이고, A는 미리 설정된 상수이고, A는 4 이상이고, xh_width1은 제1 상승된 코사인 폭 파라미터의 상한 값이고, xl_width1은 제1 상승된 코사인 폭 파라미터의 하한 값이고, yh_dist1은 제1 상승된 코사인 폭 파라미터의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, yl_dist1은 제1 상승된 코사인 폭 파라미터의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, smooth_dist_reg는 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차이고, xh_width1, xl_width1, yh_dist1, 및 yl_dist1은 모두 양수들인 장치.
제26항에 있어서,
width_par1 = min(width_par1, xh_width1)이고,
width_par1 = max(width_par1, xl_width1)이며, 여기서
min은 최소 값을 취하는 것을 표현하고, max는 최대 값을 취하는 것을 표현하는 장치.
제26항에 있어서, 상기 제1 상승된 코사인 높이 바이어스는 다음의 계산 공식을 사용하여 계산을 통해 획득되고,
win_bias1 = a_bias1 * smooth_dist_reg + b_bias1이며, 여기서
a_bias1 = (xh_bias1 - xl_bias1)/(yh_dist2 - yl_dist2)이고,
b_bias1 = xh_bias1 - a_bias1 * yh_dist2이며,
win_bias1은 제1 상승된 코사인 높이 바이어스이고, xh_bias1은 제1 상승된 코사인 높이 바이어스의 상한 값이고, xl_bias1은 제1 상승된 코사인 높이 바이어스의 하한 값이고, yh_dist2는 제1 상승된 코사인 높이 바이어스의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, yl_dist2는 제1 상승된 코사인 높이 바이어스의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, smooth_dist_reg는 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차이고, yh_dist2, yl_dist2, xh_bias1, 및 xl_bias1는 모두 양수인 장치.
제28항에 있어서,
win_bias1 = min(win_bias1, xh_bias1)이고,
win_bias1 = max(win_bias1, xl_bias1)이며 여기서,
min은 최소 값을 취하는 것을 표현하고, max는 최대 값을 취하는 것을 표현하는 장치.
제28항에 있어서, yh_dist2 = yh_dist1이고, yl_dist2 = yl_dist1인 장치.
제24항 내지 제30항 중 어느 한 항에 있어서, 상기 적응형 윈도우 함수는 다음의 공식들을 사용하여 표현되고,
0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 - 1일 때,
loc_weight_win(k) = win_bias1이고;
TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 - 1일 때,
loc_weight_win(k) = 0.5 * (1 + win_bias1) + 0.5 * (1 - win_bias1) * cos(π * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width1))이고;
TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 ≤ k ≤ A * L_NCSHIFT_DS일 때,
loc_weight_win(k) = win_bias1이며; 여기서
loc_weight_win(k)는 적응형 윈도우 함수를 표현하는데 사용되고, 여기서 k = 0, 1, ..., A * L_NCSHIFT_DS이고; A는 미리 설정된 상수이며 4 이상이고; L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값이고; win_width1은 제1 상승된 코사인 폭 파라미터이고; win_bias1은 제1 상승된 코사인 높이 바이어스인 장치.
제25항 내지 제30항 중 어느 한 항에 있어서, 상기 장치는 추가로,
상기 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차, 상기 현재 프레임의 지연 트랙 추정 값, 및 상기 현재 프레임의 채널-간 시간 차이에 기초하여 상기 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차를 계산하도록 구성되는 평활화된 채널-간 시간 차이 추정 편차 결정 유닛을 포함하고;
상기 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차는 다음의 계산 공식들을 사용하여 계산을 통해 획득되고,
smooth_dist_reg_update = (1 - γ) * smooth_dist_reg + γ * dist_reg'이고,
dist_reg' = |reg_prv_corr - cur_itd|이며, 여기서
smooth_dist_reg_update는 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차이고; γ는 제1 평활화 인자이고, 0 <γ < 1이고; smooth_dist_reg는 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이 추정 편차이고; reg_prv_corr은 현재 프레임의 지연 트랙 추정 값이고; cur_itd는 현재 프레임의 채널-간 시간 차이인 장치.
제24항 내지 제30항 중 어느 한 항에 있어서, 상기 가중화된 교차-상관 계수는 다음의 계산 공식을 사용하여 계산을 통해 획득되고,
c_weight(x) = c(x) * loc_weight_win(x - TRUNC(reg_prv_corr) + TRUNC(A * L_NCSHIFT_DS/2) - L_NCSHIFT_DS)이며, 여기서
c_weight(x)는 가중화된 교차-상관 계수이고; c(x)는 교차-상관 계수이고; loc_weight_win은 현재 프레임의 적응형 윈도우 함수이고; TRUNC는 값을 반올림하는 것을 표시하고; reg_prv_corr은 현재 프레임의 지연 트랙 추정 값이고; x는 0 이상인 그리고 2 * L_NCSHIFT_DS 이하인 정수이고; L_NCSHIFT_DS는 채널-간 시간 차이의 절대 값의 최대 값인 장치.
제24항 내지 제30항 중 어느 한 항에 있어서, 상기 지연 트랙 추정 유닛은,
선형 회귀 방법을 사용하여 상기 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 지연 트랙 추정을 수행하여, 상기 현재 프레임의 지연 트랙 추정 값을 결정하도록 구성되는 장치.
제24항 내지 제30항 중 어느 한 항에 있어서, 상기 지연 트랙 추정 유닛은,
가중화된 선형 회귀 방법을 사용하여 상기 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보에 기초하여 지연 트랙 추정을 수행하여, 상기 현재 프레임의 지연 트랙 추정 값을 결정하도록 구성되는 장치.
제24항 내지 제30항 중 어느 한 항에 있어서, 상기 장치는 추가로,
상기 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 정보를 업데이트하도록 구성되는 업데이트 유닛- 상기 적어도 하나의 과거 프레임의 채널-간 시간 차이 정보는 상기 적어도 하나의 과거 프레임의 채널-간 시간 차이 평활화된 값 또는 상기 적어도 하나의 과거 프레임의 채널-간 시간 차이임 -를 포함하는 장치.
제36항에 있어서, 상기 적어도 하나의 과거 프레임의 채널-간 시간 차이 정보는 상기 적어도 하나의 과거 프레임의 채널-간 시간 차이 평활화된 값이고, 상기 업데이트 유닛은,
상기 현재 프레임의 지연 트랙 추정 값 및 상기 현재 프레임의 채널-간 시간 차이에 기초하여 상기 현재 프레임의 채널-간 시간 차이 평활화된 값을 결정하도록; 그리고
상기 현재 프레임의 채널-간 시간 차이 평활화된 값에 기초하여 상기 적어도 하나의 과거 프레임의 버퍼링된 채널-간 시간 차이 평활화된 값을 업데이트하도록 구성되고; 여기서
상기 현재 프레임의 채널-간 시간 차이 평활화된 값은 다음의 계산 공식을 사용하여 획득되고,
cur_itd_smooth = φ * reg_prv_corr + (1 - φ) * cur_itd이며, 여기서
cur_itd_smooth는 현재 프레임의 채널-간 시간 차이 평활화된 값이고, φ는 제2 평활화 인자이며 0 이상인 그리고 1 이하인 상수이고, reg_prv_corr은 현재 프레임의 지연 트랙 추정 값이고, cur_itd는 현재 프레임의 채널-간 시간 차이인 장치.
제36항에 있어서, 상기 업데이트 유닛은 추가로,
상기 적어도 하나의 과거 프레임의 버퍼링된 가중화 계수를 업데이트하도록- 상기 적어도 하나의 과거 프레임의 가중화 계수는 가중화된 선형 회귀 방법에서의 가중화 계수임 - 구성되는 장치.
제38항에 있어서, 상기 현재 프레임의 이전 프레임의 평활화된 채널-간 시간 차이에 기초하여 상기 현재 프레임의 적응형 윈도우 함수가 결정될 때, 상기 업데이트 유닛은,
상기 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차에 기초하여 상기 현재 프레임의 제1 가중화 계수를 계산하도록; 그리고
상기 현재 프레임의 제1 가중화 계수에 기초하여 상기 적어도 하나의 과거 프레임의 버퍼링된 제1 가중화 계수를 업데이트하도록 구성되고,
상기 현재 프레임의 제1 가중화 계수는 다음의 계산 공식들을 사용하여 계산을 통해 획득되고,
wgt_par1 = a_wgt1 * smooth_dist_reg_update + b_wgt1이고,
a_wgt1 = (xl_wgt1 - xh_wgt1)/(yh_dist1' - yl_dist1')이고,
b_wgt1 = xl_wgt1 - a_wgt1 * yh_dist1'이며, 여기서
wgt_par1은 현재 프레임의 제1 가중화 계수이고, smooth_dist_reg_update는 현재 프레임의 평활화된 채널-간 시간 차이 추정 편차이고, xh_wgt는 제1 가중화 계수의 상한 값이고, xl_wgt는 제1 가중화 계수의 하한 값이고, yh_dist1'은 제1 가중화 계수의 상한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, yl_dist1'은 제1 가중화 계수의 하한 값에 대응하는 평활화된 채널-간 시간 차이 추정 편차이고, yh_dist1', yl_dist1', xh_wgt1, 및 xl_wgt1는 모두 양수인 장치.
제39항에 있어서,
wgt_par1 = min(wgt_par1, xh_wgt1)이고,
wgt_par1 = max(wgt_par1, xl_wgt1)이며, 여기서
min은 최소 값을 취하는 것을 표현하고, max는 최대 값을 취하는 것을 표현하는 장치.
오디오 코딩 디바이스로서, 상기 오디오 코딩 디바이스는 프로세서, 및 상기 프로세서에 접속되는 메모리를 포함하고;
상기 메모리는 상기 프로세서에 의해 제어되도록 구성되고, 상기 프로세서는 제1항 내지 제7항 중 어느 한 항에 따른 지연 추정 방법을 구현하도록 구성되는 오디오 코딩 디바이스.
프로그램이 기록된 컴퓨터 판독가능 저장 매체로서,
상기 프로그램은 상기 컴퓨터로 하여금 제1항 내지 제7항 중 어느 한 항의 방법을 실행하게 하는 컴퓨터 판독가능 저장 매체.
컴퓨터로 하여금 제1항 내지 제7항 중 어느 한 항의 방법을 실행하게 하도록 구성되는 컴퓨터 판독가능 저장 매체 상에 저장된 컴퓨터 프로그램.