KR20220151043A

KR20220151043A - 다중 채널 신호 인코딩 방법 및 인코더

Info

Publication number: KR20220151043A
Application number: KR1020227038432A
Authority: KR
Inventors: 하이팅 리; 제신 리우; 싱타오 장; 레이 미아오
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2016-08-10
Filing date: 2017-02-22
Publication date: 2022-11-11
Also published as: KR20210093384A; KR102281668B1; WO2018028171A1; AU2017310760A1; EP3486904A4; ES2928215T3; KR102617415B1; US11217257B2; US20200211575A1; EP3486904B1; BR112019002364A2; AU2017310760B2; KR20190030735A; EP3486904A1; CA3033458A1; EP4131260A1; JP2023055951A; US10643625B2; US20240029746A1; US20220084531A1

Abstract

다중 채널 신호 인코딩 방법 및 인코더가 개시된다. 인코딩 방법은: 현재 프레임의 다중 채널 신호를 획득하는 단계(510); 현재 프레임의 초기 ITD 값을 결정하는 단계(520); 다중 채널 신호의 특성 정보에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계(530) - 특성 정보는 다중 채널 신호의 신호대잡음비 파라미터 및 다중 채널 신호의 교차 상관 계수의 피크 특징 중 적어도 하나를 포함하고, 목표 프레임의 이전 프레임(previous frame)의 ITD 값은 목표 프레임의 ITD 값으로 재사용됨 - ; 현재 프레임의 초기 ITD 값 및 연속적으로 출현할 수 있는 목표 프레임의 수량에 기초해서 현재 프레임의 ITD 값을 결정하는 단계(540); 및 현재 프레임의 ITD 값에 기초해서 다중 채널 신호를 인코딩하는 단계(550)를 포함한다. 방법에 따르면, 다중 채널 신호의 인코딩 품질이 향상될 수 있다.

Description

다중 채널 신호 인코딩 방법 및 인코더{METHOD FOR ENCODING MULTI-CHANNEL SIGNAL AND ENCODER}

본 출원은 오디오 신호 인코딩 분야에 관한 것이며, 특히 다중 채널 신호 인코딩 방법 및 인코더에 관한 것이다.

삶의 질이 향상됨에 따라 사람들은 고음질의 오디오에 대한 요구가 증가시키고 있다. 스테레오는 모노 신호에 비교하여 다양한 음원에 대한 방향 감각과 분배 감각이 있고 선명도, 명료도 및 에워싸는 듯한 사운드 경험을 향상시킬 수 있으므로 사람들이 선호한다.

스테레오 프로세싱 기술은 주로 중간/측면(Mid/Side, MS) 인코딩, 집중 스테레오(Intensity Stereo, IS) 인코딩 및 파라메트릭 스테레오(Parametric Stereo, PS) 인코딩을 포함한다.

MS 인코딩에서는 채널 간 코히어런스(inter-channel coherence)에 기반하여 두 개의 신호에 대해 중간/측면 변환을 수행하며, 채널의 에너지는 중간 채널에 주로 집중되므로 채널 간 중복성이 제거된다. MS 인코딩 기술에서, 코드 레이트의 감소는 입력 신호들 간의 코히어런스에 의존한다. 좌측 채널 신호와 우측 채널 신호 사이의 코히어런스가 약할 때, 좌측 채널 신호와 우측 채널 신호는 개별적으로 전송될 필요가 있다.

IS 인코딩에서는, 인간의 청각 체계가 채널의 고주파 성분(예를 들면, 2 KHz 이상의 성분) 사이의 위상차에 둔감하다는 특징에 기초하여, 좌측 채널 신호 및 우측 채널 신호의 고주파 성분이 단순화된다. 그러나 IS 인코딩 기술은 고주파 성분에만 효과적이다. IS 인코딩 기술이 낮은 주파수로 확장되면 심한 인위적인 소음이 발생한다.

PS 인코딩은 양이 청각 모델(binaural auditory model)에 기초한 인코딩 방식이다. 도 1에 도시된 바와 같이(도 1에서 xL은 좌측 채널 시간 도메인 신호, xR은 우측 채널 시간 도메인 신호), PS 인코딩 과정에서, 인코더 측에서는 스테레오 신호를 모노 신호 및 공간 음장을 묘사하는 수 개의 공간 파라미터(또는 공간 인지 파라미터)로 변환한다. 도 1에 도시된 바와 같이, 디코더 측에서는 모노 신호와 공간 파라미터를 구한 후에 공간 파라미터를 참조하여 스테레오 신호를 복원한다. MS 인코딩과 비교해 보면, PS 인코딩이 보다 높은 압축비를 갖는다. 따라서, PS 인코딩에서는, 비교적 양호한 음질을 유지하면서 보다 높은 인코딩 이득을 얻을 수 있다. 또한, PS 인코딩은 전체 오디오 대역폭에서 수행될 수 있으며, 스테레오의 공간 인지 효과를 양호하게 복원할 수 있다.

PS 인코딩에서, 공간 파라미터는 채널 간 코히어런스(Inter-channel Coherent, IC), 채널 간 레벨 차이(Inter-channel Level Difference, ILD), 채널 간 시간 차이(Inter-channel Time Difference, ITD) 및 채널 간 위상차(Inter-channel Phase Difference, IPD)를 포함한다. IC는 채널 간 상관관계 또는 코히어런스를 설명한다. 이 파라미터는 음장 범위의 인지를 결정하고 오디오 신호의 공간감 및 음향 안정성을 향상시킬 수 있다. ILD는 스테레오 음원의 수평 방위각을 구별하는 데 사용되며 채널 간 에너지 차이를 나타낸다. 이 파라미터는 전체 스펙트럼의 주파수 성분에 영향을 준다. ITD 및 IPD는 음원의 수평 방위각을 나타내는 공간 파라미터이며, 채널 간 시간 및 위상차를 설명한다. ILD, ITD 및 IPD는 음원의 위치에 대한 인간의 귀의 인지를 결정할 수 있고, 음장 위치를 효과적으로 결정하는 데 사용될 수 있으며, 스테레오 신호의 복원에 중요한 역할을 한다.

스테레오 녹음 과정에서는 배경 잡음, 반향 및 다자간 음성과 같은 충격 요인으로 인해 기존 PS 인코딩 방식에 따라 계산된 ITD가 항상 불안정하다(ITD 값이 크게 천이한다). 그러한 ITD에 기초하여 계산된 다운 믹싱된 신호는 불연속적이다. 결과적으로, 디코더 측에서 얻은 스테레오의 품질이 떨어진다. 예를 들어, 디코더 측에서 재생되는 스테레오의 음향 이미지는 빈번하게 불안정하게 되고, 청각 동결(auditory freezing)이 발생한다.

본 출원은 PS 인코딩에서 ITD의 안정성을 향상시키고 다중 채널 신호의 인코딩 품질을 향상시키기 위해 다중 채널 신호 인코딩 방법 및 인코더를 제공한다.

제1 관점에 따라, 다중 채널 신호 인코딩 방법이 제공되며, 상기 방법은: 현재 프레임의 다중 채널 신호를 획득하는 단계; 현재 프레임의 초기 채널 간 시간 차이(inter-channel time difference, ITD) 값을 결정하는 단계; 다중 채널 신호의 특성 정보에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계 - 특성 정보는 다중 채널 신호의 신호대잡음비 파라미터 및 다중 채널 신호의 교차 상관 계수의 피크 특징 중 적어도 하나를 포함하고, 목표 프레임의 이전 프레임(previous frame)의 ITD 값은 목표 프레임의 ITD 값으로 재사용됨 - ; 현재 프레임의 초기 ITD 값 및 연속적으로 출현할 수 있는 목표 프레임의 수량에 기초해서 현재 프레임의 ITD 값을 결정하는 단계; 및 현재 프레임의 ITD 값에 기초해서 다중 채널 신호를 인코딩하는 단계를 포함한다.

제1 관점을 참조해서, 제1 관점의 일부의 실시에서, 다중 채널 신호의 특성 정보에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계 이전에, 상기 방법은: 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 및 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 기초해서 다중 채널 신호의 교차 상관 계수의 피크 특징을 결정하는 단계를 더 포함한다.

제1 관점을 참조해서, 제1 관점의 일부의 실시에서, 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 및 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 기초해서 다중 채널 신호의 교차 상관 계수의 피크 특징을 결정하는 단계는: 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭에 기초해서 피크 진폭 신뢰 파라미터를 결정하는 단계 - 피크 진폭 신뢰 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭의 신뢰 수준을 나타냄 - ; 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값 및 현재 프레임의 이전 프레임의 ITD 값에 기초해서 피크 위치 변동 파라미터를 결정하는 단계 - 피크 위치 변동 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 현재 프레임의 이전 프레임의 ITD 값 간의 차이를 나타냄 - ; 및 피크 진폭 신뢰 파라미터 및 피크 위치 변동 파라미터에 기초해서 다중 채널의 교차 상관 계수의 피크 특징을 결정하는 단계를 포함한다.

제1 관점을 참조해서, 제1 관점의 일부의 실시에서, 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭에 기초해서 피크 진폭 신뢰 파라미터를 결정하는 단계는: 피크 진폭 신뢰 파라미터로서, 피크 진폭의 진폭 값에 대한 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 값과 다중 채널 신호의 교차 상관 계수의 두 번째로 큰 값 간의 차이의 비를 결정하는 단계를 포함한다.

제1 관점을 참조해서, 제1 관점의 일부의 실시에서, 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값 및 현재 프레임의 이전 프레임의 ITD 값에 기초해서 피크 위치 변동 파라미터를 결정하는 단계는: 피크 위치 변동 파라미터로서, 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 현재 프레임의 이전 프레임의 ITD 값 간의 차이의 절댓값을 결정하는 단계를 포함한다.

제1 관점을 참조해서, 제1 관점의 일부의 실시에서, 다중 채널 신호의 특성 정보에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계는: 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계; 및 다중 채널 신호의 교차 상관 계수의 피크 특징이 미리 설정된 조건을 충족할 때, 목표 프레임 카운트 및 목표 프레임 카운트의 임계값 중 적어도 하나를 조정함으로써 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키는 단계 - 목표 프레임 카운트는 현재 연속적으로 출현한 목표 프레임의 수량을 나타내는 데 사용되고, 목표 프레임 카운트의 임계값은 연속적으로 출현할 수 있는 목표 프레임의 수량을 나타내는 데 사용됨 - 를 포함한다.

제1 관점을 참조해서, 제1 관점의 일부의 실시에서, 목표 프레임 카운트 및 목표 프레임 카운트의 임계값 중 적어도 하나를 조정함으로써 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키는 단계는: 목표 프레임 카운트를 증가시킴으로써 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키는 단계를 포함한다.

제1 관점을 참조해서, 제1 관점의 일부의 실시에서, 목표 프레임 카운트 및 목표 프레임 카운트의 임계값 중 적어도 하나를 조정함으로써 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키는 단계는: 목표 프레임 카운트의 임계값을 감소시킴으로써 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키는 단계를 포함한다.

제1 관점을 참조해서, 제1 관점의 일부의 실시에서, 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계는: 다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 신호대잡음비 조건을 충족하지 않을 때만, 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계를 포함하며, 상기 방법은: 중 채널 신호의 신호대잡음비가 신호대잡음비 조건을 충족할 때, 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단하는 단계를 더 포함한다.

제1 관점을 참조해서, 제1 관점의 일부의 실시에서, 다중 채널 신호의 특성 정보에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계는: 다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 신호대잡음비 조건을 충족하는지를 결정하는 단계; 및 다중 채널 신호의 신호대잡음비 파라미터가 신호대잡음비 조건을 충족하지 않을 때, 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하거나; 또는 다중 채널 신호의 신호대잡음비가 신호대잡음비 조건을 충족할 때, 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단하는 단계를 포함한다.

제1 관점을 참조해서, 제1 관점의 일부의 실시에서, 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단하는 단계는: 목표 프레임 카운트의 값이 목표 프레임 카운트의 임계값보다 크거나 같아지도록 목표 프레임 카운트를 증가시키는 단계 - 목표 프레임 카운트는 현재 연속적으로 출현한 목표 프레임의 수량을 나타내는 데 사용되고, 목표 프레임 카운트의 임계값은 연속적으로 출현할 수 있는 목표 프레임의 수량을 나타내는 데 사용됨 - 를 포함한다.

제1 관점을 참조해서, 제1 관점의 일부의 실시에서, 현재 프레임의 초기 ITD 값 및 연속적으로 출현할 수 있는 목표 프레임의 수량에 기초해서 현재 프레임의 ITD 값을 결정하는 단계는: 현재 프레임의 초기 ITD 값, 목표 프레임 카운트 및 목표 프레임 카운트의 임계값에 기초해서 현재 프레임의 ITD 값을 결정하는 단계 - 목표 프레임 카운트는 현재 연속적으로 출현한 목표 프레임의 수량을 나타내는 데 사용되고, 목표 프레임 카운트의 임계값은 연속적으로 출현할 수 있는 목표 프레임의 수량을 나타내는 데 사용됨 - 를 포함한다.

제1 관점을 참조해서, 제1 관점의 일부의 실시에서, 상기 신호대잡음비 파라미터는 다중 채널 신호의 수정된 분할 신호대잡음비이다.

제2 관점에 따라, 인코더가 제공되며, 상기 인코더는 제1 관점에서의 방법을 수행하도록 구성되어 있는 유닛들을 포함한다.

제3 관점에 따라, 인코더가 제공되며, 상기 인코더는 메모리 및 프로세서를 포함한다. 메모리는 프로그램을 저장하도록 구성되어 있으며, 상기 프로세서는 프로그램을 실행하도록 구성되어 있다. 프로그램이 실행될 때, 프로세서는 제1 관점에서의 방법을 수행한다.

제4 관점에 따라, 컴퓨터 판독 가능형 매체가 제공된다. 컴퓨터 판독 가능형 매체는 인코더에 의해 실행되는 프로그램 코드를 저장한다. 프로그램은 제1 관점에서의 방법을 수행하는 데 사용되는 명령을 포함한다.

본 출원의 이 실시예에 따르면, 배경 잡음, 반향 및 다자간 음성과 같이, ITD 값의 계산 결과의 정확도 및 안정성에 대한 환경적 요인이 감소될 수 있으며, 배경 잡음, 반향, 또는 다자간 음성이 존재하거나, 신호 조화파 특성이 뚜렷하지 않을 때, PS 인코딩에서 ITD 값의 안정성이 향상되며, ITD 값의 불필요한 천이가 최대한 감소되며, 이에 의해 다운믹싱된 신호의 프레임 간 불연속성 및 디코딩된 신호의 음향 이미지의 불안정성을 회피한다. 또한, 본 출원의 이 실시예에 따르면, 스테레오 신호의 위상 정보가 더 우수하게 유지될 수 있고 음질이 향상된다.

도 1은 종래 기술의 PS 인코딩에 대한 흐름도이다.
도 2는 종래 기술의 PS 디코딩에 대한 흐름도이다.
도 3은 종래 기술의 시간 도메인 기반 ITD 파라미터 추출 방법에 대한 개략적인 흐름도이다.
도 4는 종래 기술의 주파수 도메인 기반 ITD 파라미터 추출 방법에 대한 개략적인 흐름도이다.
도 5는 본 출원의 실시예에 따른 다중 채널 신호 인코딩 방법에 대한 개략적인 흐름도이다.
도 6은 본 출원의 실시예에 따른 다중 채널 신호 인코딩 방법에 대한 개략적인 흐름도이다.
도 7은 본 출원의 실시예에 따른 인코더의 개략적인 구조도이다.
도 8은 본 출원의 실시예에 따른 인코더의 개략적인 구조도이다.

스테레오 신호는 또한 다중 채널 신호로도 지칭될 수 있음에 유의해야 한다. 위에서는 다중 채널 신호의 ILD, ITD 및 IPD의 기능 및 의미를 간략하게 설명하였다. 이해를 쉽게 하기 위해, 이하에서는 제1 마이크로폰에 의해 픽업된 신호가 제1 채널 신호이고, 제2 마이크로폰에 의해 픽업된 신호가 제2 채널 신호인 예를 사용하여 ILD, ITD 및 IPD를 보다 상세하게 설명한다.

ILD는 제1 채널 신호와 제2 채널 신호 간의 에너지 차이를 설명한다. 예를 들어, ILD가 0보다 크면, 제1 채널 신호의 에너지가 제2 채널 신호의 에너지보다 높으며; ILD가 0이면, 제1 채널 신호의 에너지가 제2 채널 신호의 에너지와 동일하며, ILD가 0보다 작으면, 제1 채널 신호의 에너지가 제2 채널 신호의 에너지보다 작다. 다른 예로서, ILD가 0보다 작으면, 제1 채널 신호의 에너지가 제2 채널 신호의 에너지보다 높고; ILD가 0이면, 제1 채널 신호의 에너지가 제2 채널 신호의 에너지와 동일하며, 또는 ILD가 0보다 크면, 제1 채널 신호의 에너지가 제2 채널 신호의 에너지보다 작다. 전술한 값은 단지 예일 뿐이며, 제1 채널 신호와 제2 채널 신호 사이의 에너지 차이와 ILD 값과의 관계는 경험에 따라 또는 실제 요구사항에 따라 정의될 수 있음을 이해해야 한다.

ITD는 제1 채널 신호와 제2 채널 신호 사이의 시간차, 즉 음원에 의해 생성된 음향이 제1 마이크로폰에 도달하는 시간과 제1 채널 신호에 의해 생성된 음향이 제2 마이크로폰에 도달하는 시간 간의 차이를 설명한다. 예를 들어, ITD가 0보다 크면 음원에 의해 생성된 음향이 제1 마이크로폰에 도달하는 시간이 음원에 의해 생성된 음향이 제2 마이크로폰에 도달하는 시간보다 빠르고, ITD가 0이면, 이것은 음원에 의해 생성된 음향이 제1 마이크로폰 및 제2 마이크로폰에 동시에 도달하고; 또는 ITD가 0보다 작으면, 음원에 의해 생성된 음향이 제1 마이크로폰에 도달하는 시간은 음원에 의해 생성된 음향이 제2 마이크로폰에 도달하는 시간보다 늦다. 다른 예로서, ITD가 0보다 작으면, 이것은 음원에 의해 생성된 음향이 제1 마이크로폰에 도달하는 시간은 음원에 의해 생성된 음향이 제2 마이크로폰에 도달하는 시간보다 빠르고, ITD가 0이면, 이것은 음원에 의해 생성된 음향이 제1 마이크로폰 및 제2 마이크로폰에 동시에 도달하고; 또는 ITD가 0보다 크면, 이것은 음원에 의해 생성된 음향이 제1 마이크로폰에 도달하는 시간이 음원에 의해 생성된 음향이 제2 마이크로폰에 도달하는 시간보다 늦다. 전술한 값은 단지 일례이며, 제1 채널 신호와 제2 채널 신호 사이의 시간차와 ITD 값과의 관계는 경험에 기초하거나 실제 요구사항에 따라 정의 될수 있음을 이해해야 한다.

IPD는 제1 채널 신호와 제2 채널 신호 사이의 위상차를 설명한다. 이 파라미터는 일반적으로 ITD와 함께 사용되며 디코더 측에서 다중 채널 신호의 위상 정보를 복원하는 데 사용된다.

이상으로부터 기존의 ITD 값 계산 방식은 ITD 값의 불연속성을 야기한다는 것을 알 수 있다. 쉽게 이해할 수 있도록 하기 위해, 도 3 및 도 4를 참조하여, 이하에서는 다중 채널 신호가 좌측 채널 신호와 우측 채널 신호를 포함하는 예를 사용하여 기존의 ITD 값 계산 방법 및 단점을 상세하게 설명한다.

종래 기술에서는 대부분의 경우 다중 채널 신호의 교차 상관 계수에 기초하여 ITD를 계산한다. 다양한 특정의 계산 방식이 있을 수 있다. 예를 들어, ITD 값은 시간 도메인에서 계산될 수도 있고 ITD 값은 주파수 도메인에서 계산될 수도 있다.

도 3은 시간 도메인 기반 ITD 파라미터 계산 방법에 대한 개략적인 흐름도이다. 도 3에서의 방법은 이하의 단계를 포함한다.

310: 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호에 기초해서 ITD 값을 계산한다.

구체적으로, ITD 값은 시간 도메인 교차 상관 함수를 사용해서 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호에 기초하여 계산될 수 있다. 예를 들어, 계산은 0=i≤=Tmax의 범위 내에서 수행된다:

이면, T₁은 max(C_n(i))에 대응하는 인덱스 값의 반대 수이고, 그렇지 않으면 T₁은 max(C_n(i))에 대응하는 인덱스 값이며, i는 교차 상관 함수의 인덱스 값이며,

은 좌측 채널 시간 도메인 신호이고,

은 우측 채널 시간 도메인 신호이며, T_max는 다른 샘플링 레이트의 경우 최대 ITD 값에 대응하며, Length는 프레임 길이이다.

320: ITD 값에 대한 양자화 프로세싱을 수행한다.

도 4는 주파수 도메인 기반 ITD 파라미터 계산 방법에 대한 개략적인 흐름도이다. 도 4에서의 방법은 이하의 단계를 포함한다.

410: 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호에 대한 시간 주파수 변환을 수행하여, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호를 획득한다.

구체적으로, 시간 도메인 변환에서, 시간 도메인 신호는 이산 푸리에 변환(Discrete Fourier Transformation, DFT) 또는 이산 불연속 코사인 변환(Modified Discrete Cosine Transform, MDCT)과 같은 기술을 사용해서 주파수 도메인 신호로 변환될 수 있다.

예를 들어, DFT는 수신된 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호에 대해 다음의 식(3)을 사용해서 수행될 수 있다:

여기서 n은 시간 도메인 신호의 샘플의 인덱스 값이고, k는 주파수 도메인 신호의 주파수 빈(frequency bin)의 인덱스 값이고, L은 시간 도메인 변환 길이이며,

은 좌측 채널 시간 도메인 신호 또는 우측 채널 시간 도메인 신호이다.

420: 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호에 기초해서 ITD 값을 추출한다.

구체적으로, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호 각각의 L개의 주파수 빈(Frequency Bin)은 N개의 하위대역으로 분할될 수 있다. N개의 하위대중 중 b번째 하위대역에 포함된 주파수 빈의 값 범위는

로 정의될 수 있다.

의 검색 범위에서, 진폭 값은 이하의 식을 사용해서 계산될 수 있다:

그런 다음, b번째 하위대역의 ITD 값은

, 즉 식(4)에 따라 계산된 최댓값에 대응하는 샘플의 인덱스 값일 수 있다.

430: 그런 다음, 430: ITD 값에 대해 양자화 프로세싱을 수행한다.

종래 기술에서, 현재 프레임 내의 다중 채널 신호의 교차 상관 계수의 피크 값이 비교적 작으면, 계산을 통해 획득된 ITD 값은 부정확한 것으로 간주될 수 있다. 이 경우, 현재 프레임의 ITD 값은 제로로 된다.

배경 잡음, 반향 및 다자간 음성과 같은 충격 요인으로 인해, 기존의 PS 인코딩 방식에 따라 계산된 ITD 값은 빈번하게 제로로 되고, 결과적으로, ITD 값은 크게 천이한다. 기존 PS 인코딩 방식에 따라 계산된 ITD가 항상 불안정하다(ITD 값이 크게 천이한다). 그러한 ITD 값에 기초하여 계산된 다운믹싱된 신호는 프레임 간 불연속성을 겪고, 디코딩된 다중 채널 신호의 음향 이미지는 불안정하다. 결과적으로, 다중 채널 신호의 열악한 음질이 야기된다.

ITD 값이 크게 천이하는 문제를 해결하기 위해, 실현 가능한 처리 방식은 다음과 같다: 계산을 통해 획득된 현재 프레임의 ITD 값이 부정확한 것으로 간주될 때, 현재 프레임의 이전 프레임의 ITD 값은 현재 프레임에 대해 재사용될 수 있으며(프레임의 이전 프레임은 구체적으로 그 프레임에 인접한 이전 프레임이다), 즉 현재 프레임의 이전 프레임의 ITD 값은 현재 프레임의 ITD 값으로 사용된다. 이러한 처리 방식에서, ITD 값이 크게 천이하는 문제가 잘 해결될 수 있다. 그렇지만, 이러한 처리 방식은 다음과 같은 문제를 야기할 수 있다: 다중 채널 신호의 신호 품질이 상대적으로 우수할 때, 계산을 통해 획득된 많은 현재 프레임의 비교적 정확한 ITD 값들 역시 부적절하게 폐기될 수 있으며, 현재 프레임의 이전 프레임의 ITD 값이 재사용된다. 결과적으로, 다중 채널 신호의 위상 정보가 분실된다.

ITD 값이 크게 천이하는 문제를 해결하고 다중 채널 신호의 위상 정보를 잘 유지하기 위해, 도 5를 참조하여 이하에서는 본 출원의 실시예에 따른 다중 채널 신호 인코딩 방법을 상세히 설명한다. 설명을 쉽게 하기 위해, ITD 값이 이전 프레임의 ITD 값을 재사용하는 프레임을 이하에서 목표 프레임이라 칭한다.

도 5에서의 방법은 이하의 단계를 포함한다.

510: 현재 프레임의 다중 채널 신호를 획득한다.

520: 현재 프레임의 초기 ITD 값을 결정한다.

예를 들어, 현재 프레임의 초기 ITD 값이 도 3에 도시된 시간 도메인 기반 방식으로 계산될 수 있다. 다른 예에 있어서, 현재 프레임의 초기 ITD 값은 도 4에 도시된 주파수 도메인 기반 방식으로 계산될 수 있다.

530: 다중 채널 신호의 특성 정보에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하며(또는 조정하며), 특성 정보는 다중 채널 신호의 신호대잡음비 파라미터 및 다중 채널 신호의 교차 상관 계수의 피크 특징 중 적어도 하나를 포함하고, 목표 프레임의 이전 프레임(previous frame)의 ITD 값은 목표 프레임의 ITD 값으로 재사용된다.

본 출원의 이 실시예에서는 현재 프레임의 초기 ITD 값이 먼저 계산되고, 그런 다음 현재 프레임의 ITD 값(현재 프레임의 실제 ITD 값이라 하기도 하고 현재 프레임의 최종 ITD 값이라 하기도 한다)이 현재 프레임의 초기 ITD 값에 기초하여 결정된다. 현재 프레임의 초기 ITD 값 및 현재 프레임의 ITD 값은 동일한 ITD 값일 수도 있고, 다른 ITD 값일 수도 있다. 이것은 특정한 계산 규칙에 따른다. 예를 들어, 초기 ITD 값이 정확하면, 그 초기 ITD 값은 현재 프레임의 ITD 값으로 사용될 수 있다. 다른 예에 있어서, 초기 ITD 값이 부정확하면, 현재 프레임의 초기 ITD 값은 폐기되고, 현재 프레임의 이전 프레임의 ITD 값이 현재 프레임의 ITD 값으로 사용될 수 있다.

현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 특징은 현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 값(또는 최댓값)의 진폭 값(또는 크기(magnitude))과 다중 채널 신호의 교차 상관 계수의 두 번째로 큰 값의 진폭 값 간의 차별 특징일 수도 있고, 현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 값과 임계값 간의 차별 특징일 수도 있고, 현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 이전 N개의 프레임의 ITD 값 간의 차별 특징일 수도 있고, 현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스와 이전 N개의 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스 간의 차별 특징(또는 변동 특징)일 수도 있고, 여기서 N은 1보다 크거나 같은 양의 정수이며, 전술한 특징들의 조합일 수 있다. 현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스는 현재 프레임 내의 다중 채널 신호의 교차 상관 계수의 어느 값이 피크 값인지를 나타낼 수 있다. 마찬가지로, 이전 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스는 이전 프레임 내의 다중 채널 신호의 교차 상관 계수의 어느 값이 피크 값인지를 나타낼 수 있다. 예를 들어, 현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스가 5라는 것은 현재 프레임 내의 다중 채널 신호의 교차 상관 계수의 5번째 값이 피크 값이라는 것을 나타낸다. 다른 예에 있어서, 이전 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스가 4라는 것은 이전 프레임 내의 다중 채널 신호의 교차 상관 계수의 4번째 값이 피크 값이라는 것을 나타낸다.

단계(530)에서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계는 목표 프레임 카운트 및 목표 프레임 카운트의 임계값을 설정함으로써 실행될 수 있다. 예를 들어, 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계의 목적은 목표 프레임 카운트를 강제로 변경함으로써 달성될 수도 있고, 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계의 목적은 목표 프레임 카운트의 임계값을 강제로 변경함으로써 달성될 수도 있고, 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계의 목적은 목표 프레임 카운트 및 목표 프레임 카운트의 임계값을 강제로 변경함으로 달성될 수도 있다. 목표 프레임 카운트는 현재 연속적으로 출현한 목표 프레임의 수량을 나타내는 데 사용될 수 있고, 목표 프레임 카운트의 임계값은 연속적으로 출현할 수 있는 목표 프레임의 수량을 나타내는 데 사용될 수 있다.

540: 현재 프레임의 초기 ITD 값 및 연속적으로 출현할 수 있는 목표 프레임의 수량에 기초해서 현재 프레임의 ITD 값을 결정한다.

550: 현재 프레임의 ITD 값에 기초해서 다중 채널 신호를 인코딩한다.

예를 들어, 도 1에 도시된 모노 오디오 인코딩, 공간 파라미터 인코딩 및 비트스트림 멀티플렉싱과 같은 작동이 수행될 수 있다. 특정한 인코딩 방식에 대해서는 종래 기술을 참조한다.

다중 채널 신호가 이전 프레임 또는 이전 N개의 프레임의 다중 채널 신호가 아니면, 이하에 나타나는 다중 채널 신호는 현재 프레임의 다중 채널 신호라는 것에 유의해야 한다.

단계 530 이전에, 도 5의 방법은: 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭에 기초해서 다중 채널 신호의 교차 상관 계수의 피크 특징을 결정하는 단계를 더 포함할 수 있다.

또한, 단계 530은: 피크 진폭 신뢰 파라미터가 미리 설정된 조건을 충족할 때, 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키거나; 피크 진폭 신뢰 파라미터가 미리 설정된 조건을 충족하지 않을 때, 연속적으로 출현할 수 있는 목표 프레임의 수량을 불변으로 유지하는 단계를 포함할 수 있다. 예를 들어, 피크 진폭 신뢰 파라미터가 미리 설정된 조건을 충족하는 것은 피크 진폭 신뢰 파라미터의 값이 임계값보다 크다는 것일 수도 있고, 피크 진폭 신뢰 파라미터의 값이 미리 설정된 범위 내에 있다는 것일 수도 있다.

본 출원의 이 실시예에서, 피크 진폭 신뢰 파라미터는 다양한 방식으로 정의될 수 있다.

예를 들어, 피크 진폭 신뢰 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 값과 다중 채널 신호의 교차 상관 계수의 두 번째 큰 값의 진폭 값 간의 차이일 수 있다. 구체적으로, 차이가 클수록 피크 값의 진폭의 신뢰 수준이 더 높다.

다른 예에 있어서, 피크 진폭 신뢰 파라미터는 피크 값의 진폭 값에 대한 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 값 및 다중 채널 신호의 교차 상관 계수의 두 번째 큰 값의 진폭 값의 비율일 수 있다. 구체적으로, 비율이 높을수록 피크 값의 진폭의 신뢰 수준이 더 높다.

다른 예에 있어서, 피크 진폭 신뢰 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 값과 목표 진폭 값 간의 차이일 수 있다. 구체적으로, 이 차이의 절댓값이 클수록 피크 값의 진폭의 신뢰 수준이 더 높다. 목표 진폭 값은 경험에 기초해서 또는 실제 상황에 따라 선택될 수 있는데, 예를 들어 고정값일 수도 있고 현재 프레임 내의 미리 설정된 위치(이 위치는 교차 상관 계수의 인덱스를 사용해서 나타내어질 수 있다)의 교차 상관 계수의 진폭 값일 수도 있다.

다른 예에 있어서, 피크 진폭 신뢰 파라미터는 피크 값의 진폭 값에 대한 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 값의 비율일 수 있다. 구체적으로, 비율이 높을수록 피크 값의 진폭의 신뢰 수준이 더 높다. 목표 진폭 값은 경험에 기초해서 또는 실제 상황에 따라 선택될 수 있는데, 예를 들어 고정값일 수도 있고 현재 프레임 내의 미리 설정된 위치의 교차 상관 계수의 진폭 값일 수도 있다.

선택적으로, 일부의 실시예에서, 단계 530 이전에, 도 5에서의 방법은: 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 기초해서 현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 특징을 결정하는 단계를 더 포함할 수 있다.

예를 들어, 피크 위치 변동 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값 및 현재 프레임의 이전 N개의 프레임의 ITD 값에 기초해서 결정될 수 있으며, 피크 위치 변동 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 현재 프레임의 이전 프레임의 ITD 값 간의 차이를 나타내는 데 사용될 수 있으며, N은 1보다 크거나 같은 양의 정수이다.

다른 예에 있어서, 피크 위치 변동 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스 및 현재 프레임의 이전 N개의 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 기초해서 결정될 수 있으며, 피크 위치 변동 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스와 현재 프레임의 이전 N개의 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스 간의 차이를 나타내는 데 사용될 수 있다.

또한, 단계 530은: 피크 위치 변동 파라미터가 미리 설정된 조건을 충족할 때, 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키거나; 또는 피크 위치 변동 파라미터가 미리 설정된 조건을 충족하지 않을 때, 연속적으로 출현할 수 있는 목표 프레임의 수량을 불변으로 유지하는 단계를 포함할 수 있다. 예를 들어, 피크 위치 변동 파라미터가 미리 설정된 조건을 충족한다는 것은 피크 위치 변동 파라미터가 임계값보다 크다는 것일 수도 있고, 피크 위치 변동 파라미터의 값이 미리 설정된 범위 내에 있다는 것일 수도 있다. 예를 들어, 피크 위치 변동 파라미터가 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값 및 현재 프레임의 이전 프레임의 ITD 값에 기초해서 결정될 때, 피크 위치 변동 파라미터가 미리 설정된 조건을 충족한다는 것은 피크 위치 변동 파라미터가 임계값보다 크다는 것일 수도 있으며, 여기서 임계값은 4, 5, 6 또는 다른 경험 값에 설정될 수 있으며; 피크 위치 변동 파라미터의 값이 미리 설정된 범위 내에 있다는 것일 수도 있으며, 여기서 미리 설정된 범위는 [6, 128] 또는 다른 경험 값에 설정될 수 있다. 구체적으로, 임계값 또는 값 범위는 다른 파라미터 계산 방법, 다른 요구사항, 다른 응용 시나리오 등에 의존해서 설정될 수 있다.

본 출원의 이 실시예에서, 피크 위치 변동 파라미터는 다양한 방식으로 정의될 수 있다.

예를 들어, 피크 위치 변동 파라미터는 현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 현재 프레임의 이전 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스 간의 차이의 절댓값일 수 있다.

다른 예에 있어서, 피크 위치 변동 파라미터는 현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 현재 프레임의 이전 프레임의 ITD 값 간의 차이의 절댓값일 수 있다.

다른 예에 있어서, 피크 위치 변동 파라미터는 현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 이전 N개 프레임의 ITD 값 간의 차이의 분산(variance)일 수 있으며, 여기서 N은 2보다 크거나 같은 정수이다.

선택적으로, 일부의 실시예에서, 단계 530 이전에, 도 5의 방법은: 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 및 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 기초해서 다중 채널 신호의 교차 상관 계수의 피크 특징을 결정하는 단계를 더 포함할 수 있다.

구체적으로, 피크 진폭 신뢰 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭에 기초해서 결정될 수 있으며, 피크 위치 변동 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값 및 이전 프레임의 ITD 값에 기초해서 결정되며, 다중 채널 신호의 교차 상관 계수의 피크 특징은 피크 진폭 신뢰 파라미터 및 피크 위치 변동 파라미터에 기초해서 결정된다. 피크 진폭 신뢰 파라미터 및 피크 위치 변동 파라미터를 정의하는 방식에 대해서는 전술한 실시예를 참조한다. 이에 대해서는 여기서 다시 설명하지 않는다.

또한, 이 실시예에서, 단계 530은: 피크 진폭 신뢰 파라미터 및 피크 위치 변동 파라미터 모두가 미리 설정된 조건을 충족하면, 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계를 포함할 수 있다.

예를 들어, 피크 진폭 신뢰 파라미터가 미리 설정된 피크 진폭 신뢰 파라미터보다 크고, 피크 위치 변동 파라미터가 미리 설정된 피크 위치 변동 파라미터보다 크면, 연속적으로 출현할 수 있는 목표 프레임의 수량이 감소한다. 구체적으로, 예를 들어, 피크 진폭 신뢰 파라미터가 피크 값의 진폭 값에 대한 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 값과 다중 채널 신호의 교차 상관 계수의 두 번째 큰 값의 진폭 값 간의 차이의 비율일 때, 피크 진폭 신뢰 파라미터는 0.1, 0.2, 0.3, 또는 다른 경험 값에 설정될 수 있다. 피크 위치 변동 파라미터가 현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 현재 프레임의 이전 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값 간의 차이의 절댓값일 때, 피크 위치 변동 파라미터는 4, 5, 6, 또는 다른 경험 값에 설정될 수 있다. 구체적으로, 임계값 또는 값 범위는 다른 파라미터 계산 방법, 다른 요구사항, 다른 응용 시나리오 등에 의존해서 설정될 수 있다.

다른 예에서, 피크 진폭 신뢰 파라미터의 값이 2개의 임계값 사이에 있고, 피크 위치 변동 파라미터가 미리 설정된 피크 위치 변동 파라미터보다 크면, 연속적으로 출현할 수 있는 목표 프레임의 수량이 감소한다.

다른 예에서, 피크 진폭 신뢰 파라미터의 값이 미리 설정된 피크 진폭 신뢰 파라미터보다 크고, 피크 위치 변동 파라미터가 2개의 임계값 사이에 있으면, 연속적으로 출현할 수 있는 목표 프레임의 수량이 감소한다.

일부의 실시예에서, 위에서 설명된 피크 진폭 신뢰 파라미터 및/또는 피크 위치 변동 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 위치의 안정도를 나타내는 파라미터들/파라미터로 지칭될 수도 있다는 것에 유의해야 한다. 이 경우, 단계 530은: 다중 채널 신호의 교차 상관 계수의 피크 위치의 안정도가 미리 설정된 조건을 충족하면, 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키는 단계를 포함할 수 있다.

다중 채널 신호의 교차 상관 계수의 피크 위치의 안정도를 나타내는 파라미터가 미리 설정된 조건을 충족한다는 것을 정의하는 방식은 본 출원의 이 실시예에서 구체적으로 제한되지 않는다는 것에 유의해야 한다.

선택적으로, 다중 채널 신호의 교차 상관 계수의 피크 위치의 안정도가 미리 설정된 조건을 충족한다는 것은: 다중 채널 신호의 교차 상관 계수의 피크 위치의 안정도를 나타내는 하나 이상의 파라미터의 값이 미리 설정된 값 범위 내에 있거나, 다중 채널 신호의 교차 상관 계수의 피크 위치의 안정도를 나타내는 하나 이상의 파라미터의 값이 미리 설정된 값 범위 밖에 있다는 것일 수 있다. 예를 들어, 다중 채널 신호의 교차 상관 계수의 피크 위치의 안정도가 피크 위치 변동 파라미터에 의해 나타내어지고, 피크 위치 변동 파라미터를 계산하기 위한 방법이 현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 현재 프레임의 이전 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값 간의 차이의 절댓값에 기초할 때, 미리 설정된 값 범위는 다음과 같이 설정될 수 있다: 피크 위치 변동 파라미터는 5 또는 다른 경험 값보다 크다. 다른 예에 있어서, 다중 채널 신호의 교차 상관 계수의 피크 위치의 안정도가 피크 위치 변동 파라미터 및 피크 진폭 신뢰 파라미터에 의해 나타내어질 때, 피크 위치 변동 파라미터를 계산하기 위한 방법은 현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 현재 프레임의 이전 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값 간의 차이의 절댓값에 기초하며, 피크 진폭 신뢰 파라미터는 피크 값의 진폭 값에 대한 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 값과 다중 채널 신호의 교차 상관 계수의 두 번째로 큰 값의 진폭 값 간의 차이의 비율이며, 미리 설정된 범위는 다음과 같이 설정될 수 있다: 피크 위치 변동 파라미터는 5보다 크고, 피크 진폭 신뢰 파라미터는 0.2보다 크거나; 또는 다른 경험 값 범위에 설정될 수 있다. 구체적으로, 값 범위는 다른 파라미터 계산 방법, 다른 요구사항, 다른 응용 시나리오 등에 의존해서 설정될 수 있다.

이하에서는 다중 채널 신호의 신호대잡음비 파라미터에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 방법에 대해 상세히 설명한다.

다중 채널 신호의 신호대잡음비 파라미터는 다중 채널 신호의 신호대잡음비를 나타내는 데 사용될 수 있다.

다중 채널 신호의 신호대잡음비 파라미터는 하나 이상의 파라미터에 의해 나타내어질 수 있다는 것을 이해해야 한다. 파라미터를 선택하는 특정한 방식은 본 출원의 이 실시예에서 제한되지 않는다. 예를 들어, 다중 채널 신호의 신호대잡음비 파라미터는 하위대역 신호대잡음비, 수정된 하위대역 신호대잡음비, 분할 신호대잡음비, 수정된 분할 신호대잡음비, 전체 대역 신호대잡음비, 수정된 전체 대역 신호대잡음비, 및 다중 채널 신호의 신호대잡음비 특징을 나타낼 수 있는 다른 파라미터 중 적어도 하나에 의해 나타내어질 수 있다.

다중 채널 신호의 신호대잡음비 파라미터를 결정하는 방식은 본 출원의 이 실시예에서 구체적으로 제한되지 않는다는 것도 이해해야 한다. 예를 들어, 다중 채널 신호의 신호대잡음비 파라미터는 다중 채널 신호의 일부 신호를 사용해서 계산될 수 있는데, 즉 다중 채널 신호의 신호대잡음비는 일부 신호의 신호대잡음비를 사용해서 나타내어진다. 다른 예에 있어서, 임의의 채널의 신호는 계산을 수행하기 위해 다중 채널 신호로부터 적응적으로 선택될 수 있으며, 즉 다중 채널 신호의 신호대잡음비는 그 채널의 신호의 신호대잡음비를 사용해서 나타내어진다. 다른 예에 있어서, 다중 채널 신호를 나타내는 데이터에 대해 가중 평균을 먼저 수행하여 새로운 신호를 형성하며, 그런 다음 다중 채널 신호의 신호대잡음비는 그 새로운 신호의 신호대잡음비를 사용해서 나타내어진다.

이하에서는 다중 채널 신호가 좌측 채널 신호 및 우측 채널 신호를 포함하는 예를 사용해서 다중 채널 신호의 신호대잡음비를 계산하는 방식을 설명한다.

예를 들어, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호에 대해 시간 주파수 변환을 먼저 수행하여 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호를 획득하며, 좌측 채널 주파수 도메인 신호의 진폭 스펙트럼 및 우측 채널 주파수 도메인 신호의 진폭 스펙트럼에 대해 가중 평균을 수행하여 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 평균 진폭 스펙트럼을 획득하며, 그런 다음 이 평균 진폭 스펙트럼에 기초해서 수정된 분할 신호대잡음비가 계산되어 다중 채널 신호의 신호대잡음비 특징을 나타내는 파라미터로서 사용된다.

다른 예에 있어서, 좌측 채널 시간 도메인 신호에 대해 시간 주파수 변환을 먼저 수행하여 좌측 채널 주파수 도메인 신호를 획득하며, 그런 다음 좌측 채널 주파수 도메인 신호의 진폭 스펙트럼에 기초해서 좌측 채널 주파수 도메인 신호의 수정된 분할 신호대잡음비를 계산한다. 마찬가지로, 우측 채널 시간 도메인 신호에 대해 시간 주파수 변환을 먼저 수행하여 우측 채널 주파수 도메인 신호를 획득하며, 그런 다음 우측 채널 주파수 도메인 신호의 진폭 스펙트럼에 기초해서 우측 채널 주파수 도메인 신호의 수정된 분할 신호대잡음비를 계산한다. 그런 다음 좌측 채널 주파수 도메인 신호의 수정된 분할 신호대잡음비 및 우측 채널 주파수 도메인 신호의 수정된 분할 신호대잡음비에 기초해서 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 수정된 분할 신호대잡음비의 평균값이 계산되어, 다중 채널 신호의 신호대잡음비 특징을 나타내는 파라미터로서 사용된다.

다중 채널 신호의 신호대잡음비 파라미터에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계는: 다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 조건을 충족할 때, 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키는 단계; 또는 다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 조건을 충족하지 않을 때, 연속적으로 출현할 수 있는 목표 프레임의 수량을 불변으로 유지하는 단계를 포함할 수 있다. 예를 들어, 다중 채널 신호의 신호대잡음비 파라미터의 값이 미리 설정된 임계값보다 크면, 연속적으로 출현할 수 있는 목표 프레임의 수량이 감소한다. 다른 예에 있어서, 다중 채널 신호의 신호대잡음비 파라미터의 값이 미리 설정된 값 범위 내에 있으면, 연속적으로 출현할 수 있는 목표 프레임의 수량이 감소한다. 다른 예에 있어서, 다중 채널 신호의 신호대잡음비 파라미터의 값이 미리 설정된 값 범위 밖에 있으면, 연속적으로 출현할 수 있는 목표 프레임의 수량이 감소한다. 예를 들어, 다중 채널 신호의 신호대잡음비 파라미터가 분할 신호대잡음비이면, 미리 설정된 임계값은 6000 또는 다른 경험 값일 수 있으며, 미리 설정된 값 범위가 6000보다 크고 3000000보다 작거나 다른 경험 값 범위일 수 있다. 구체적으로, 임계값 또는 값 범위는 다른 파라미터 계산 방법, 다른 요구사항, 다른 응용 시나리오 등에 따라 설정될 수 있다.

이상으로 다중 채널 신호의 교차 상관 계수의 피크 특징 또는 다중 채널 신호의 신호대잡음비 파라미터에 기초해서, 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 방법에 대해 주로 설명하였다. 이하에서는 다중 채널 신호의 신호대잡음비 파라미터 및 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서, 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 방법에 대해 상세히 설명한다.

구체적으로, 다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 조건을 충족하고, 다중 채널 신호의 교차 상관 계수의 피크 진폭 신뢰 파라미터 및/또는 피크 위치 변동 파라미터가 미리 설정된 조건을 충족할 때, 연속적으로 출현할 수 있는 목표 프레임의 수량은 감소할 수 있다.

예를 들어, 다중 채널 신호의 신호대잡음비 파라미터의 값이 제1 임계값보다 크고 제2 임계값보다 작거나 같으며, 피크 진폭 신뢰 파라미터가 제3 임계값보다 크고, 피크 위치 변동 파라미터가 제4 임계값보다 크면, 연속적으로 출현할 수 있는 목표 프레임의 수량은 감소한다. 예를 들어, 다중 채널 신호의 신호대잡음비 파라미터가 분할 신호대잡음비일 때, 제1 임계값은 5000, 6000, 7000, 또는 다른 경험 값일 수 있고, 제2 임계값은 2900000, 3000000, 3100000, 또는 다른 경험 값일 수 있다. 피크 진폭 신뢰 파라미터가 피크 값의 진폭 값에 대한 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 값과 다중 채널 신호의 교차 상관 계수의 두 번째 큰 값의 진폭 값 간의 비율일 때, 제3 임계값은 0.1, 0.2, 0.3 또는 다른 경험 값에 설정될 수 있다. 피크 위치 변동 파라미터가 현재 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 현재 프레임의 이전 프레임의 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값 간의 차이의 절댓값일 때, 제4 임계값은 4, 5, 6, 또는 다른 경험 값에 설정될 수 있다. 구체적으로, 임계값은 다른 파라미터 계산 방법, 다른 요구사항, 다른 응용 시나리오 등에 따라 설정될 수 있다.

다른 예에 있어서, 다중 채널 신호의 신호대잡음비 파라미터의 값이 제1 임계값보다 크거나 같고 제2 임계값보다 작거나 같으며, 피크 진폭 신뢰 파라미터가 제5 임계값보다 작으면, 연속적으로 출현할 수 있는 목표 프레임의 수량은 감소한다. 예를 들어, 다중 채널 신호의 신호대잡음비 파라미터가 분할 신호대잡음비일 때, 제1 임계값은 5000, 6000, 7000, 또는 다른 경험 값일 수 있고, 제2 임계값은 2900000, 3000000, 3100000, 또는 다른 경험 값일 수 있다. 피크 진폭 신뢰 파라미터가 피크 값의 진폭 값에 대한 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 값과 다중 채널 신호의 교차 상관 계수의 두 번째 큰 값의 진폭 값 간의 비율일 때, 제5 임계값은 0.3, 0.4, 0.5 또는 다른 경험 값에 설정될 수 있다. 구체적으로, 임계값은 다른 파라미터 계산 방법, 다른 요구사항, 다른 응용 시나리오 등에 따라 설정될 수 있다.

연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키는 다양한 방식이 존재한다는 것을 이해해야 한다. 일부 실시예에서, 연속적으로 출현할 수 있는 목표 프레임의 수량을 나타내는 데 사용되는 값은 미리 구성될 수 있고, 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키는 목적은 그 값을 감소시킴으로써 달성될 수 있다.

일부의 다른 실시예에서, 목표 프레임 카운트 및 목표 프레임 카운트의 임계값이 미리 구성될 수 있다. 목표 프레임 카운트는 현재 연속적으로 출현한 목표 프레임의 수량을 나타내는 데 사용될 수 있고, 목표 프레임 카운트의 임계값은 연속적으로 출현할 수 있는 목표 프레임의 수량을 나타내는 데 사용될 수 있다. 구체적으로, 연속적으로 출현할 수 있는 목표 프레임의 수량은 목표 프레임 카운트 및 목표 프레임 카운트의 임계값 중 적어도 하나를 조정함으로써 감소된다. 예를 들어, 연속적으로 출현할 수 있는 목표 프레임의 수량은 목표 프레임 카운트를 증가시킴으로써(또는 강제로 증가시킴으로써) 감소될 수 있다. 다른 예에 있어서, 연속적으로 출현할 수 있는 목표 프레임의 수량은 목표 프레임 카운트의 임계값을 감소시킴으로써 감소될 수 있다. 다른 예에 있어서, 연속적으로 출현할 수 있는 목표 프레임의 수량은 목표 프레임 카운트를 증가시키고 목표 프레임 카운트의 임계값을 감소시킴으로써 증가할 수 있다.

이상으로 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 방식을 설명하였다. 일부 실시예에서, 연속적으로 출현할 수 있는 목표 프레임의 수량이 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서 제어되기 전에, 다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 신호대잡음비를 충족하는지가 먼저 결정될 수 있다.

다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 신호대잡음비 조건을 충족하지 않으면, 연속적으로 출현할 수 있는 목표 프레임의 수량은 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서 제어되거나, 또는 다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 신호대잡음비 조건을 충족하면, 현재 프레임의 이전 프레임의 ITD 값이 현재 프레임의 ITD 값으로 재사용되는 것이 직접적으로 중단될 수 있다.

대안으로, 다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 신호대잡음비 조건을 충족하면, 연속적으로 출현할 수 있는 목표 프레임의 수량은 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서 제어되거나, 또는 다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 신호대잡음비 조건을 충족하지 않으면, 현재 프레임의 이전 프레임의 ITD 값이 현재 프레임의 ITD 값으로 재사용되는 것이 직접적으로 중단될 수 있다.

이하에서는 다중 채널 신호의 신호대잡음비가 신호대잡음비 조건을 충족하는지를 결정하는 방식 및 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단하는 방법에 대해 상세히 설명한다.

첫째, 다중 채널 신호의 신호대잡음비 파라미터는 하나 이상의 파라미터에 의해 나타내어질 수 있다. 파라미터를 선택하는 특정한 방식은 본 출원의 이 실시예에에서 제한되지 않는다. 예를 들어, 다중 채널 신호의 신호대잡음비 파라미터는 하위대역 신호대잡음비, 수정된 하위대역 신호대잡음비, 분할 신호대잡음비, 수정된 분할 신호대잡음비, 전체 대역 신호대잡음비, 수정된 전체 대역 신호대잡음비, 및 다중 채널 신호의 신호대잡음비 특징을 나타낼 수 있는 다른 파라미터 중 적어도 하나에 의해 나타내어질 수 있다.

둘째, 다중 채널 신호의 신호대잡음비 파라미터를 결정하는 방식은 본 출원의 이 실시예에서 구체적으로 제한되지 않는다. 예를 들어, 다중 채널 신호의 신호대잡음비 파라미터는 전체 다중 채널 신호를 사용함으로써 계산될 수 있다. 다른 예에 있어서, 다중 채널 신호의 신호대잡음비 파라미터는 다중 채널 신호의 일부 신호를 사용해서 계산될 수 있으며, 즉 다중 채널 신호의 신호대잡음비는 일부 신호의 신호대잡음비를 사용해서 나타내어질 수 있다. 다른 예에 있어서, 임의의 채널의 신호는 계산을 수행하기 위해 다중 채널 신호로부터 적응적으로 선택될 수 있으며, 즉 다중 채널 신호의 신호대잡음비는 그 채널의 신호의 신호대잡음비를 사용해서 나타내어진다. 다른 예에 있어서, 다중 채널 신호를 나타내는 데이터에 대해 가중 평균을 먼저 수행하여 새로운 신호를 형성하며, 그런 다음 다중 채널 신호의 신호대잡음비는 그 새로운 신호의 신호대잡음비를 사용해서 나타내어진다.

다중 채널 신호의 신호대잡음비가 미리 설정된 조건을 충족할 때, 현재 프레임의 이전 프레임의 ITD 값이 현재 프레임의 ITD 값으로 재사용되는 것이 중단되는 것은: 다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 임계값보다 크면, 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것; 다른 예에 있어서, 다중 채널 신호의 신호대잡음비 파라미터의 값이 미리 설정된 값 범위 내에 있으면, 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단하는 것; 다른 예에 있어서, 다중 채널 신호의 신호대잡음비 파라미터의 값이 미리 설정된 값 범위 내에 있으면, 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단하는 것을 포함할 수 있다.

또한, 일부 실시예에서, 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단하는 것은: 목표 프레임 카운트의 값이 목표 프레임 카운트의 임계값보다 크거나 같아지도록 목표 프레임 카운트를 증가시키는 것(또는 강제로 증가시키는 것)을 포함할 수 있다. 일부의 다른 실시예에서, 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단하는 것은: 중단 플래그 비트를 설정하는 것을 포함할 수 있으며, 이에 따라 중단 플래그 비트의 일부 값은 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단하는 것을 나타낼 수 있다. 예를 들어, 중단 플래그 비트가 1에 설정되면, 현재 프레임의 이전 프레임의 ITD 값이 현재 프레임의 ITD 값으로 재사용되는 것이 중단되거나, 또는 중단 플래그 비트가 0에 설정되면, 현재 프레임의 이전 프레임의 ITD 값이 현재 프레임의 ITD 값으로 재사용되는 것이 허용된다.

특정한 예를 참조해서, 이하에서는 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단하는 방식에 대해 상세히 설명한다.

예를 들어, 다중 채널 신호의 신호대잡음비 파라미터의 값이 임계값보다 작을 때, 수정된 값이 목표 프레임 카운트의 임계값보다 크거나 같아지도록 목표 프레임 카운트의 값이 강제로 수정된다.

다른 예에 있어서, 다중 채널 신호의 신호대잡음비 파라미터의 값이 임계값보다 클 때, 수정된 값이 목표 프레임 카운트의 임계값보다 크거나 같아지도록 목표 프레임 카운트의 값이 강제로 수정된다.

다른 예에 있어서, 다중 채널 신호의 신호대잡음비 파라미터의 값이 임계값보다 작거나 다른 임계값보다 큰지에 관계없이, 수정된 값이 목표 프레임 카운트의 임계값보다 크거나 같아지도록 목표 프레임 카운트의 값이 강제로 수정된다.

다른 예에 있어서, 다중 채널 신호의 신호대잡음비 파라미터의 값이 임계값보다 작거나 다른 임계값보다 클 때, 중단 플래그 비트가 1에 설정된다.

단계 540에서 현재 프레임의 ITD 값을 결정하는 다양한 방식이 존재할 수 있다는 것에 유의해야 한다. 이것은 본 출원의 이 실시예에서 구체적으로 제한되지 않는다.

선택적으로, 일부 실시예에서, 현재 프레임의 ITD 값은 현재 프레임의 초기 ITD 값의 정확도 및 연속적으로 출현할 수 있는 목표 프레임의 수량(연속적으로 출현할 수 있는 목표 프레임의 수량은 제어 또는 조정이 단계 530에 기초해서 수행된 후 획득되는 수량일 수 있다)과 같은 요인을 종합적으로 고려하여 결정될 수 있다.

선택적으로, 일부의 다른 실시예에서, 현재 프레임의 ITD 값은 현재 프레임의 초기 ITD 값의 정확도, 연속적으로 출현할 수 있는 목표 프레임의 수량(연속적으로 출현할 수 있는 목표 프레임의 수량은 제어 또는 조정이 단계 530에 기초해서 수행된 후 획득되는 수량일 수 있다), 및 현재 프레임이 연속적인 음성 프레임인지와 같은 요인을 종합적으로 고려하여 결정될 수 있다. 예를 들어, 현재 프레임의 초기 ITD 값의 신뢰 수준이 높으면, 현재 프레임의 초기 ITD 값은 현재 프레임의 ITD 값으로서 직접적으로 사용될 수 있다. 다른 예에 있어서, 현재 프레임의 초기 ITD 값의 신뢰 수준이 낮고, 현재 프레임의 이전 프레임의 ITD 값을 재사용하기 위한 조건을 현재 프레임이 충족하면, 현재 프레임의 이전 프레임의 ITD 값은 현재 프레임에 대해 재사용될 수 있다.

현재 프레임의 초기 ITD 값의 신뢰 수준을 계산하는 다양한 방식이 존재할 수 있다는 것을 이해해야 한다. 이것은 본 출원의 이 실시예에서 구체적으로 제한되지 않는다.

예를 들어, 초기 ITD 값에 대응하고 다중 채널 신호의 교차 상관 계수의 값 중에 있는, 교차 상관 계수의 값이 미리 설정된 임계값보다 크면, 초기 ITD 값의 신뢰 수준이 높은 것으로 간주할 수 있다.

다른 예에 있어서, 초기 ITD 값에 대응하고 다중 채널 신호의 교차 상관 계수의 값 중에 있는, 교차 상관 계수의 값과 다중 채널 신호의 교차 상관 계수의 두 번째 큰 값 간의 차이가 미리 설정된 임계값보다 크면, 초기 ITD 값의 신뢰 수준이 높은 것으로 간주할 수 있다.

다른 예에 있어서, 다중 채널 신호의 교차 상관 계수의 진폭 값이 미리 설정된 임계값보다 크면, 초기 ITD 값의 신뢰 수준이 높은 것으로 간주할 수 있다.

현재 프레임의 이전 프레임의 ITD 값을 재사용하기 위한 조건을 현재 프레임이 충족하는지를 결정하는 다양한 방식이 존재할 수 있다는 것을 이해해야 한다.

선택적으로, 일부 실시예에서, 현재 프레임의 이전 프레임의 ITD 값을 재사용하기 위한 조건을 현재 프레임이 충족한다는 것은: 목표 프레임 카운트가 목표 프레임 카운트의 임계값보다 작다는 것일 수 있다.

선택적으로, 일부 실시예에서, 현재 프레임의 이전 프레임의 ITD 값을 재사용하기 위한 조건을 현재 프레임이 충족한다는 것은: 현재 프레임 및 현재 프레임의 이전 N(N은 1보다 큰 양의 정수)개의 프레임이 연속적인 음성 프레임을 형성한다 것을 현재 프레임의 음성 활성화 검출 결과가 나타낸다는 것일 수 있다. 이 경우, 현재 프레임의 이전 프레임의 ITD 값이 제1 미리 설정된 값과 같지 않으면(프레임의 ITD 값이 제1 미리 설정된 값이면, 계산을 통해 획득된 프레임의 ITD 값이 부정확성으로 인해 제1 미리 설정된 값에 강제로 설정되며, 여기서 제1 미리 설정된 값은 예를 들어 0일 수 있다), 현재 프레임의 ITD 값이 제1 미리 설정된 값과 같으며, 목표 프레임 카운트는 목표 프레임 카운트의 임계값보다 작다. 예를 들어, 현재 프레임의 음성 활성화 검출 결과 및 현재 프레임의 이전의 N개의 프레임의 음성 활성화 검출 결과 모두가 0과 같지 않을 때, 현재 프레임의 이전 프레임의 ITD 값이 0과 같지 않으면, 현재 프레임의 ITD 값이 강제로 0에 설정되며, 목표 프레임 카운트는 목표 프레임 카운트의 임계값보다 작다. 그런 다음 현재 프레임의 이전 프레임의 ITD 값은 현재 프레임의 ITD 값으로 재사용될 수 있고, 목표 프레임 카운트의 값이 증가한다. 현재 프레임의 ITD 값을 0에 강제로 설정하는 다양한 방식이 존재할 수 있다는 것에 유의해야 한다. 예를 들어, 현재 프레임의 ITD 값이 0으로 변경될 수 있거나, 현재 프레임의 ITD 값아 강제로 0에 설정되었다는 것을 나타내기 위한 플래그 비트가 설정될 수 있다.

이하에서는 특정한 예를 참조해서 본 출원의 실시예를 상세히 설명한다. 도 6에서의 예는 당업자가 본 출원의 실시예를 이해하는 데 일조하도록 의도된 것에 지나지 않으며, 본 출원의 실시예를 예에서의 특정한 값 또는 특정한 시나리오에 제한하려는 것이 아님을 이해해야 한다. 분명하게, 당업자는 도 6에 도시된 예에 기초해서 다양한 등가의 수정 또는 변형을 수행할 수 있고 그러한 수정 또는 변형 역시 본 출원의 실시예의 범위 내에 있다.

도 6은 본 출원의 실시예에 따른 다중 채널 신호 인코딩 방법에 대한 개략적인 흐름도이다. 도 6에 도시된 처리 단계 또는 작동은 단지 예에 불과하며, 도 6에서의 다른 작동 또는 작동의 변형이 본 출원의 이 실시예에서 추가로 수행될 수 있다는 것을 이해해야 한다. 또한, 도 6에서의 단계는 도 6에 도시된 것과 다른 순서로 수행될 수 있으며, 도 6에서의 일부의 작동은 수행되지 않아도 된다. 도 6은 다중 채널 신호의 좌측 채널 신호 및 우측 채널 신호를 포함하는 예를 사용해서 설명된다. 도 6의 실시예에서 다중 채널 신호의 교차 상관 계수의 피크 위치의 안정도가 위에서 설명된 피크 진폭 신뢰 파라미터 및/또는 피크 위치 변동 파라미터일 수 있다는 것을 추가로 이해해야 한다.

도 6에서의 방법은 이하의 단계를 포함한다.

602: 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호에 대해 시간 도메인 변환을 수행한다.

구체적으로, 현재 프레임의 m번째 서브프레임의 좌측 채널 시간 도메인을

으로 나타낼 수 있고, 현재 프레임의 m번째 서브프레임의 우측 채널 시간 도메인을

으로 나타낼 수 있으며, 여기서

이고,

은 오디오 프레임에 포함된 프레임의 수량이고, n은 샘플의 인덱스 값이고,

이며, N은 m번째 서브프레임의 좌측 채널 시간 도메인 신호 또는 우측 채널 시간 도메인 신호에 포함된 샘플의 수량이다. 다중 채널 신호가 16 KHz의 샘플링 레이트를 가지고 오디오 프레임의 길이가 20 ms인 예에서, 오디오 프레임의 우측 채널 시간 도메인 신호는 각각 320개의 샘플을 포함한다. 오디오 프레임이 2개의 서브프레임으로 분할되면, 각각의 서브프레임의 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호가 각각 160개의 샘플을 포함하며, N은 160과 같다.

L개의 샘플에 기초한 고속 푸리에 변환이

및

에 대해 개별적으로 수행되어 m번째 서브프레임의 좌측 채널 주파수 도메인 신호

및 m번째 서브프레임의 우측 채널 주파수 도메인 신호

를 획득하며, 여기서

이고, L은 고속 푸리에 변환 길이이며, 예를 들어, L은 400 또는 800일 수 있다.

604 및 605: 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호에 기초해서 수정된 분할 신호대잡음비를 계산하고, 수정된 분할 신호대잡음비에 기초해서 음성 활성화 검출을 수행한다.

구체적으로,

및

에 기초해서 수정된 분할 신호대잡음비를 계산하는 다양한 방식이 있다. 이하에서는 특정한 계산 방식을 제공한다.

단계 1: m번째 서브프레임의 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 평균 진폭 스펙트럼

를 계산한다.

예를 들어,

는 식(5)에 따라 계산될 수 있다:

여기서

; 및

여기서

이고, A는 미리 설정된 좌측/우측 채널 진폭 스펙트럼 믹싱 비율 인자이고, A는 통상적으로 0.5, 0.4, 0.3 또는 다른 경험 값일 수 있다.

단계 2: m번째 서브프레임의 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 평균 진폭 스펙트럼

에 기초해서 하위대역 에너지

를 계산하며, 여기서

이고,

은 하위대역의 수량이다.

예를 들어,

는 식(6)을 사용해서 계산될 수 있다:

여기서

는 하위대역 분할에 사용되는 미리 설정된 표이고, band_tb[i]는 i번째 하위대역의 하한 주파수 빈이고, band_tb[i+1]-1은 i번째 하위대역의 상한 주파수 빈이다.

단계 3: 하위대역 에너지 E_band(i) 및 하위대역 잡음 에너지 추정 E_band_n[i]에 기초해서 수정된 분할 신호대잡음비(modified noise energy estimate, mssnr)을 계산한다.

예를 들어, mssnr은 식(7) 및 식(8)을 사용해서 계산될 수 있다:

여기서 msnr(i)<G이면, msnr(i)=msnr(i)²/G';

여기서 msnr(i)는 수정된 하위대역 신호대잡음비이고, G는 미리 설정된 하위대역 신호대잡음비 수정 임계값이고, G는 통상적으로, 5, 6, 7, 또는 다른 경험 값일 수 있다. 수정된 하위대역 신호대잡음비를 계산하는 다양한 방법이 존재한다는 것을 이해해야 하며, 이것은 여기서 단지 예에 불과하다.

단계 4: 수정된 분할 신호대잡음비 및 하위대역 에너지 E_band(i)에 기초하여 하위대역 잡음 에너지 추정 E_band_n[i]를 갱신한다.

구체적으로, 평균 하위대역 에너지는 먼저 식(9)에 따라 계산될 수 있다:

VAD 카운트 vad_fm_cnt가 잡음의 미리 설정된 초기 프레임 길이보다 작으면, VAD 카운트는 증가할 수 있다. 잡음의 미리 설정된 초기 프레임 길이는 통상적으로 미리 설정된 경험 값이고, 예를 들어 29, 30, 31, 또는 다른 경험 값일 수 있다.

VAD 카운트 vad_fm_cnt가 잡음의 미리 설정된 초기 설정 프레임 길이보다 작고, 평균 하위대역 에너지가 잡음 에너지 임계값 ener_th보다 작으면, 하위대역 잡음 에너지 추정 E_band_n[i]가 갱신될 수 있으며, 잡음 에너지 갱신 플래그는 1에 설정된다. 잡음 에너지 임계값은 통상적으로 미리 설정된 경험 값이고, 예를 들어, 35000000, 40000000, 45000000, 또는 다른 경험 값일 수 있다.

구체적으로, 하위대역 잡음 에너지 추정은 식(10)을 사용해서 갱신될 수 있다:

여기서 E_band_n_n-1[i]는 내력 하위대역 잡음 에너지이고, 예를 들어 갱신 이전의 하위대역 잡음 에너지일 수 있다.

이와는 달리, 수정된 분할 신호대잡음비가 잡음 갱신 임계값 th_UPDATE보다 작으면, 하위대역 잡음 에너지 추정 E_band_n[i] 역시 갱신될 수 있으며, 잡음 에너지 갱신 플래그는 1에 설정된다. 잡음 갱신 임계값 th_UPDATE는 4, 5, 6, 또는 다른 경험 값일 수 있다.

구체적으로, 하위대역 잡음 에너지 추정은 식(11)을 사용해서 갱신될 수 있다:

여기서, update_fac는 지정된 잡음 갱신 레이트이고, 0과 1 사이의 상수 값일 수 있으며, 예를 들어 0.03, 0.04, 0.05, 또는 다른 경험 값일 수 있으며, E_band_n_n-1[i]는 내력 하위대역 잡음 에너지이고, 예를 들어 갱신 이전의 하위대역 잡음 에너지일 수 있다.

또한, 하위대역 신호대잡음비의 계산의 유효성을 보장하기 위해, 갱신된 하위대역 잡음 에너지 추정의 값이 제한될 수 있으며, 예를 들어, E_band_n[i]의 최솟값이 1에 제한될 수 있다.

수정된 분할 신호대잡음비 및 E_band[i]에 기초해서 E_band_n[i]를 갱신하는 다양한 방법이 있다는 것에 유의해야 한다. 이것은 본 출원의 이 실시예에서 구체적으로 제한되지 않으며, 이것은 여기서 단지 예에 불과한다.

다음, 수정된 분할 신호대잡음비에 기초해서 m번째 서브프레임에 대해 음성 활성화 검출이 수행될 수 있다. 구체적으로, 수정된 분할 신호대잡음비가 음성 활성화 검출 임계값 th_VAD보다 크면, m번째 서브프레임은 음성 프레임이고, 이 경우, m번째 서브프레임의 음성 활성화 검출 플래그 vad_flag[m]가 1에 설정되고, 그렇지 않으면, m번째 서브프레임은 배경 잡음 프레임이고, 이 경우 m번째 서브프레임의 음성 활성화 검출 플래그 vad_flag[m]가 0에 설정될 수 있다. 음성 활성화 검출 임계값 th_VAD는 3500, 4000, 4500, 또는 다른 경험 값일 수 있다.

606 내지 608: 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호에 기초해서 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수를 계산하고, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수에 기초해서 현재 프레임의 초기 ITD 값을 계산한다.

및

에 기초해서 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수 Xcorr(t)를 계산하는 다양한 방식이 있을 수 있다. 이하에서는 특정한 실행을 제공한다.

먼저, m번째 서브프레임의 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 전력 스펙트럼 Xcorr_m(k)이 식(12)에 따라 계산된다:

식(13)에 따라 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호에 대해 평활화 프로세싱을 수행하여 평활화된 교차 상관 전력 스펙트럼 Xcorr_smoo th(k)를 획득한다:

여기서

는 평활화 인자이고, 평활화 인자는 0과 1 사이의 임의의 양수일 수 있으며, 예를 들어 0.4, 0.5, 0.6, 또는 다른 경험 값일 수 있다.

다음, Xcorr(t)는 Xcorr_smoo th(k)에 기초하고 식(14)를 사용함으로써 계산될 수 있다:

여기서

는 역 푸리에 변환을 나타내고, 계산에 포함된 ITD 값의 값 범위는

일 수 있으며; ITD 값의 값 범위에 기초해서 Xcorr(t)에 대해 인터셉션(interception) 및 리오더링(reordering)이 수행되어, 현재 프레임의 초기 ITD 값을 결정하는 데 사용되는, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수 Xcorr_itd(t)를 획득하며, 여기서

이다.

그런 다음 현재 프레임의 초기 ITD 값은 Xcorr_itd(t)에 기초하여 식(15)를 사용함으로써 추정될 수 있다:

610 내지 612: 현재 프레임의 초기 ITD 값의 신뢰 수준을 결정한다. 초기 ITD 값의 신뢰 수준이 높으면, 목표 프레임은 미리 설정된 초깃값에 설정될 수 있다.

구체적으로, 현재 프레임의 초기 ITD 값의 신뢰 수준이 먼저 결정될 수 있다. 특정한 결정 방식이 다양하게 있을 수 있다. 이하에서는 예를 사용해서 설명을 제공한다.

예를 들어, 초기 ITD 값에 대응하고 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 진폭 값 중에 있는, 교차 상관 계수의 진폭 값을 미리 설정된 임계값과 비교할 수 있다. 진폭 값이 미리 설정된 임계값보다 크면, 현재 프레임의 초기 ITD 값의 신뢰 수준이 높은 것으로 간주할 수 있다.

다른 예에 있어서, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 값은 먼저 진폭 값의 내림차순으로 분류될 수 있다. 그런 다음 미리 설정된 위치(위치는 교차 상관 계수의 인덱스 값을 사용해서 나타내어질 수 있다)에서의 목표 교차 상관 계수를 교차 상관 계수의 분류된 값 중에서 선택할 수 있다. 다음, 초기 ITD 값에 대응하고 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 진폭 값 중에 있는, 교차 상관 계수의 진폭 값을 목표 교차 상관 계수의 진폭 값과 비교할 수 있다. 진폭 값 간의 차이가 미리 설정된 임계값보다 크면, 현재 프레임의 초기 ITD 값의 신뢰 수준이 높은 것으로 간주할 수 있으며, 진폭 값 간의 비율이 미리 설정된 임계값보다 크면, 현재 프레임의 초기 ITD 값의 신뢰 수준이 높은 것으로 간주할 수 있거나; 또는 초기 ITD 값에 대응하고 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 진폭 값 중에 있는, 교차 상관 계수의 진폭 값이 목표 교차 상관 계수의 진폭 값보다 크면, 현재 프레임의 초기 ITD 값의 신뢰 수준이 높은 것으로 간주할 수 있다.

또한, 목표 교차 상관 계수가 획득된 후, 먼저 이 목표 교차 상관 계수가 추가로 수정될 수 있다. 다음, 초기 ITD 값에 대응하고 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 진폭 값 중에 있는, 교차 상관 계수의 진폭 값을 수정된 목표 교차 상관 계수의 진폭 값과 비교한다. 초기 ITD 값에 대응하고 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 진폭 값 중에 있는, 교차 상관 계수의 진폭 값이 수정된 목표 교차 상관 계수의 진폭 값보다 크면, 현재 프레임의 초기 ITD 값의 신뢰 수준이 높은 것으로 간주할 수 있다.

현재 프레임의 초기 ITD 값의 신뢰 수준이 높으면, 초기 ITD 값을 현재 프레임의 ITD 값으로 사용할 수 있다. 또한, 정확한 ITD 값 계산을 나타내는 플래그 비트 itd_cal_flag가 미리 설정될 수 있다. 현재 프레임의 초기 ITD 값의 신뢰 수준이 높으면, itd_cal_flag가 1에 설정될 수 있거나, 현재 프레임의 초기 ITD 값의 신뢰 수준이 낮으면, itd_cal_flag가 0에 설정될 수 있다.

또한, 현재 프레임의 초기 ITD 값의 신뢰 수준이 높으면, 목표 프레임 카운트가 미리 설정된 초깃값에 설정될 수 있으며, 예를 들어, 목표 프레임 카운트가 0 또는 1에 설정될 수 있다.

614: 초기 ITD 값의 신뢰 수준이 낮으면, 초기 ITD 값에 대해 ITD 값 수정이 수행될 수 있다. ITD 값을 수정하는 방법은 다양할 수 있다. 예를 들어, ITD 값에 대해 행오버 프로세싱(hangover processing)이 수행될 수도 있고, ITD 값이 2개의 인접 프레임의 상관에 기초해서 수정될 수 있다. 이것은 구체적으로 본 발명의 이 실시예에서 제한되지 않는다.

616 내지 618: 이전 프레임의 ITD 값이 현재 프레임에 대해 재사용되는지를 판정하고, 이전 프레임의 ITD 값이 현재 프레임에 대해 재사용되면, 목표 프레임 카운트의 값을 증가시킨다.

620 내지 622: 수정된 분할 신호대잡음비 파라미터가 미리 설정된 신호대잡음비 조건을 충족하는지를 판정하고, 수정된 분할 신호대잡음비 파라미터가 미리 설정된 신호대잡음비 조건을 충족하면, 현재 프레임의 ITD 값으로서 이전 프레임의 ITD 값을 재사용하는 것을 중단한다. 예를 들어, 수정된 분할 신호대잡음비의 목표 프레임 카운트의 임계값보다 크거나 같아지도록 목표 프레임 카운트의 값이 수정될 수 있으므로, 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단한다.

수정된 분할 신호대잡음비가 미리 설정된 신호대잡음비 조건을 충족하는 결정하는 다양한 방법이 존재할 수 있다. 선택적으로, 일부 실시예에서, 수정된 분할 신호대잡음비가 제1 임계값보다 작거나 제2 임계값보다 크면, 수정된 분할 신호대잡음비가 미리 설정된 신호대잡음비 조건을 충족하는 것으로 간주할 수 있다. 이 경우, 수정된 목표 프레임 카운트가 목표 프레임 카운트의 임계값보다 크거나 같아지도록 목표 프레임 카운트의 값이 수정될 수 있다.

예를 들어, 높은 신호대잡음비 임계값 HIGH_SNR_VOICE_TH이 10000에 미리 설정되어 있는 것으로 가정하면, 제1 임계값은 A₁*HIGH_SNR_VOICE_TH에 설정될 수 있고, 제2 임계값은 A₂*HIGH_SNR_VOICE_TH에 설정되며, 여기서 A₁ 및 A₂는 양의 실수이며, A₁<A₂이다. A₁은 0.5, 0.6, 0.7, 또는 다른 경험 값일 수 있고, A₂는 290, 300, 310, 또는 다른 경험 값일 수 있다. 목표 프레임 카운트의 임계값은 9, 10, 11, 또는 다른 경험 값일 수 있다.

624: 수정된 분할 신호대잡음비가 미리 설정된 신호대잡음비 조건을 충족하지 않으면, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 피크 위치의 안정도(degree of stability)를 나타내는 파라미터를 계산한다.

구체적으로, 수정된 분할 신호대잡음비가 제1 임계값보다 크거나 같고 제2 임계값보다 작거나 같으면, 수정된 분할 신호대잡음비는 미리 설정된 신호대잡음비 조건을 충족하지 않는 것으로 간주할 수 있다. 이 경우, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 피크 위치의 안정도를 나타내는 파라미터가 계산된다.

이 실시예에서, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 피크 위치의 안정도를 나타내는 파라미터는 한 그룹의 파라미터일 수 있다. 이 한 그룹의 파라미터는 교차 상관 계수의 피크 진폭 신뢰 파라미터 peak_mag_prob 및 피크 위치 변동 파라미터 peak_pos_fluc를 포함할 수 있다.

구체적으로, peak_mag_prob는 다음의 방식으로 계산될 수 있다:

먼저, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수 Xcorr_itd(t)의 값이 진폭 값의 오름차순 또는 내림차순으로 분류되고, peak_mag_prob는 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수 Xcorr_itd(t)의 분류된 값에 기초하여 식(16)을 사용함으로써 계산된다:

여기서 X는 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 분류된 값의 피크 위치의 인덱스를 나타내며, Y는 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 분류된 값의 미리 설정된 위치의 인덱스를 나타낸다. 예를 들어, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수 Xcorr_itd(t)의 값이 진폭 값의 오름차순으로 분류되며, X의 위치는 2*ITD>MAX이고, Y의 위치는 2*ITD>MAX-1이다. 이 경우, 본 출원의 이 실시예에서, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 피크 값의 진폭 값과 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 두 번째 큰 값의 진폭 값 간의 차이의 비율을 교차 상관 계수의 피크 진폭 신뢰 파라미터, 즉 peak_mag_prob로서 사용한다. 당연히, 이것은 peak_mag_prob를 선택하는 하나 방식에 지나지 않는다.

또한, peak_pos_fluc를 계산하는 다양한 방식이 있을 수 있다. 선택적으로, 일부 실시예에서, peak_pos_fluc는 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 피크 위치의 인덱스에 대응하는 ITD 값 및 현재 프레임의 이전 N개의 프레임의 ITD 값에 기초하여 계산을 통해 획득될 수 있으며, 여기서 N은 1보다 크거나 같은 정수이다. 선택적으로, 일부 실시예에서, peak_pos_fluc는 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 피크 위치의 인덱스 및 현재 프레임의 이전 N개의 프레임의 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 피크 위치의 인덱스에 기초하여 계산을 통해 획득될 수 있으며, 여기서 N은 1보다 크거나 같은 정수이다.

예를 들어, 식(17)을 참조하면, peak_pos_fluc는 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 피크 위치의 인덱스에 대응하는 ITD 값과 현재 프레임의 이전 프레임의 ITD 값 간의 차이의 절댓값일 수 있다:

여기서 prev_itd는 현재 프레임의 이전 프레임의 ITD 값을 나타내고,

는 최댓값의 위치를 검색하는 작동을 나타낸다.

626 내지 628: 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 피크 위치의 안정도가 미리 설정된 조건을 충족하는지를 판정하고, 이 안정도가 미리 설정된 조건을 충족하면, 목표 프레임 카운트를 증가시킨다.

환언하면, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 피크 위치의 안정도가 미리 설정된 조건을 충족할 때, 연속적으로 출현할 수 있는 목표 프레임의 수량이 감소한다.

예를 들어, peak_mag_prob가 피크 진폭 신뢰 임계값

보다 크고, peak_pos_fluc가 피크 위치 변동 임계값

보다 크면, 목표 프레임 카운트는 증가한다. 본 출원의 이 실시예에서, 피크 진폭 신뢰 임계값

는 0.1, 0.2, 0.3 또는 다른 경험 값에 설정될 수 있고, 피크 위치 변동 임계값

는 4, 5, 6 또는 다른 경험 값에 설정될 수 있다.

목표 프레임 카운트를 증가시키는 다양한 방식이 존재할 수 있다는 것을 이해해야 한다.

선택적으로, 일부 실시예에서, 목표 프레임 카운트는 직접적으로 1만큼 증가할 수 있다.

선택적으로, 일부 실시예에서, 목표 프레임 카운트의 증가량은 서로 다른 채널 간의 교차 상관 계수의 피크 위치의 안정도를 나타내는 한 그룹의 파라미터 중 하나 이상 및/또는 수정된 분할 신호대잡음비에 기초해서 제어될 수 있다.

R₁ ≤ mssnr < R₂이면, 목표 프레임 카운트가 1만큼 증가하거나, R₂ ≤ mssnr < R₃이면, 목표 프레임 카운트가 2만큼 증가하거나, R₃ ≤ mssnr ≤ R₄이면, 목표 프레임 카운트가 3만큼 증가하고, 여기서 R₁< R₂< R₃< R₄이다.

다른 예에 있어서, U₁<peak_mag_prob<U₂ 및 peak_pos_fluc>

이면, 목표 프레임 카운트가 1만큼 증가하거나, U₂<peak_mag_prob<U₃ 및 peak_pos_fluc>

이면, 목표 프레임 카운트가 2만큼 증가하거나, U₃≤peak_mag_prob₂ 및 peak_pos_fluc>

이면, 목표 프레임 카운트가 3만큼 증가한다. 여기서 U₁은 피크 진폭 신뢰 임계값이고, U₁<U₂<U₃일 수 있다.

630 내지 634: 현재 프레임의 이전 프레임의 ITD 값을 재사용하기 위한 조건을 현재 프레임이 충족하는지를 판정하고, 현재 프레임이 조건을 충족하면, 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 사용하고, 그렇지 않으면, 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 사용하는 것을 건너뛰며, 다음 프레임에서 프로세싱을 수행한다.

현재 프레임의 이전 프레임의 ITD 값을 재사용하기 위한 조건을 현재 프레임이 충족하는지는 본 출원의 이 실시예에서 구체적으로 제한되지 않는다는 것에 유의해야 한다. 조건은 초기 ITD 값의 정확도, 목표 프레임 카운트가 임계값에 도달하는지, 그리고 현재 프레임이 연속적인 음성 프레임인지와 같은 요인 중 하나 이상에 기초해서 설정될 수 있다.

예를 들어, 현재 프레임의 m번째 서브프레임의 음성 활성화 검출 결과 및 이전 프레임의 음성 활성화 검출 결과가 모두 음성 프레임을 나타내는 경우, 이전 프레임의 ITD 값이 0이 아니고, 현재 프레임의 초기 ITD 값이 0이며, 현재 프레임의 초기 ITD 값의 신뢰 수준이 낮으며(초기 ITD 값의 신뢰 수준은 itd_cal_flag의 값을 사용해서 확인할 수 있으며, 예를 들어, itd_cal_flag가 1이 아니면, 초기 ITD 값의 신뢰 수준이 낮으며, 상세한 내용에 대해서는 단계 612의 설명을 참조한다), 그리고 목표 프레임 카운트가 목표 프레임 카운트의 임계값보다 낮으면, 현재 프레임의 이전 프레임의 ITD 값은 현재 프레임의 ITD 값으로 사용될 수 있으며, 목표 프레임 카운트는 증가한다.

또한, 현재 프레임의 음성 활성화 검출 결과 및 현재 프레임의 이전 프레임의 m번째 서브프레임의 음성 활성화 검출 결과가 모두 음성 프레임을 나타내는 경우, 이전 프레임의 음성 활성화 검출 결과 플래그 비트 pre-vad가 음성 프레임 플래그로 갱신될 수 있고, 즉 pre_vad가 1이고, 그렇지 않으면, 이전 프레임의 음성 활성화 검출 결과 pre-vad가 배경 잡음 프레임 플래그로 갱신될 수 있고, 즉 pre_vad가 0이다.

이상으로 단계 604를 참조해서 수정된 분할 신호대잡음비를 계산하는 방식을 상세히 설명하였다. 그렇지만, 본 출원의 이 실시예는 이에 제한되지 않는다. 이하에서는 수정된 분할 신호대잡음비의 다른 실시를 제공한다.

선택적으로, 일부 실시 예에서, 수정된 분할 신호대잡음비는 이하의 방식으로 계산될 수 있다.

단계 1: m번째 서브프레임의 좌측 채널 주파수 도메인 신호

및 m번째 서브프레임의 우측 채널 주파수 도메인 신호

에 기초하여 식(18) 및 식(19)를 사용함으로써 m번째 서브프레임의 좌측 채널 주파수 도메인 신호의 평균 진폭 스펙트럼

및 m번째 서브프레임의 우측 채널 주파수 도메인 신호의 평균 진폭 스펙트럼

를 계산한다:

여기서,

이고, L은 고속 푸리에 변환 길이이고, 예를 들어, L은 400 또는 800일 수 있다.

단계 2:

및

에 기초해서 식(20) 및 식(21)을 사용함으로써 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 평균 진폭 스펙트럼

및

를 계산한다:

대안으로, 식들은 다음과 같을 수 있다:

여기서 SUPER_NUM은 오디오 프레임에 포함된 서브프레임의 수량을 나타낸다.

단계 3:

및

에 기초해서 식(22)를 사용함으로써 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 평균 진폭 스펙트럼

를 계산한다:

여기서 A는 미리 설정된 좌측/우측 진폭 스펙트럼 믹싱 비율 인자이고, A는 0.4, 0.5, 0.6 또는 다른 경험 값일 수 있다.

단계 4:

에 기초해서 식(23)을 사용함으로써 하위대역 에너지 E_band(i)를 계산하고, 여기서

이고,

은 하위대역의 수량을 나타낸다:

여기서

는 하위대역 분할에 사용되는 미리 설정된 표를 나타내고, band_tb[i]는 i번째 하위대역의 하한 주파수 빈이고, band_tb[i+1]-1은 i번째 하위대역의 상한 주파수 빈이다.

단계 5: E_band(i) 및 하위대역 잡음 에너지 추정 E_band_n(i)에 기초해서 수정된 분할 신호대잡음비 mssnr을 계산한다. 구체적으로, mssnr은 식(7) 및 식(8)에 설명된 실시를 사용함으로써 계산될 수 있다. 이에 대해서는 여기서 다시 설명하지 않는다.

단계 6: E_band(i)에 기초해서 E_band_n(i)를 갱신한다. 구체적으로, E_band_n(i)는 식(9) 내지 식(11)에 설명된 실시를 사용함으로써 갱신될 수 있다. 이에 대해서는 여기서 다시 설명하지 않는다.

선택적으로, 다른 일부 실시예에서, 수정된 분할 신호대잡음비는 다음의 방식으로 계산될 수 있다.

단계 1: m번째 서브프레임의 좌측 채널 주파수 도메인 신호

및 m번째 서브프레임의 우측 채널 주파수 도메인 신호

에 기초하여 식(24) 및 식(25)를 사용함으로써 m번째 서브프레임의 좌측 채널 주파수 도메인 신호의 평균 진폭 스펙트럼

를 계산한다:

여기서

단계 2:

및

에 기초해서 식(26)를 사용함으로써 m번째 서브프레임의 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 평균 진폭 스펙트럼

를 계산한다:

단계 3:

에 기초해서 식(27)을 사용함으로써 현재 프레임의 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 평균 진폭 스펙트럼

를 계산한다:

선택적 계산 방식은 다음과 같다:

다른 선택적 계산 방식은 다음과 같다:

단계 4:

에 기초해서 식(28)을 사용함으로써 하위대역 에너지 E_band(i)를 계산하고, 여기서

이고,

은 하위대역의 수량을 나타낸다:

여기서

단계 5: E_band_m(i) 및 하위대역 잡음 에너지 추정 E_band_n(i)에 기초해서 수정된 분할 신호대잡음비 mssnr을 계산한다. 구체적으로, mssnr은 식(7) 및 식(8)에 설명된 실시를 사용함으로써 계산될 수 있다. 이에 대해서는 여기서 다시 설명하지 않는다.

단계 1: m번째 서브프레임의 좌측 채널 주파수 도메인 신호

및 m번째 서브프레임의 우측 채널 주파수 도메인 신호

에 기초하여 식(29)를 사용함으로써 m번째 서브프레임의 좌측 채널 주파수 도메인 신호의 평균 진폭 스펙트럼

를 계산한다:

여기서

; 및

여기서

이고, L은 고속 푸리에 변환 길이이며, 예를 들어, L은 400 또는 800일 수 있으며, A는 미리 설정된 좌측/우측 채널 진폭 스펙트럼 믹싱 비율 인자이고, A는 통상적으로 0.4, 0.5, 0.6 또는 다른 경험 값일 수 있다.

단계 2:

에 기초해서 식(30)을 사용함으로써 m번째 서브프레임의 하위대역 에너지 E_band_m(i)를 계산하고, 여기서

이고,

은 하위대역의 수량을 나타낸다:

여기서

단계 3: m번째 서브프레임의 하위대역 에너지 E_band_m(i)에 기초해서 식(31)을 사용함으로써 현재 프레임의 하위대역 에너지 E_band_n(i)를 계산한다.

대안으로, 식은 다음과 같을 수 있다:

단계 4: E_band(i) 및 하위대역 잡음 에너지 추정 E_band_n(i)에 기초해서 수정된 분할 신호대잡음비 mssnr을 계산한다. 구체적으로, mssnr은 식(7) 및 식(8)에 설명된 실시를 사용함으로써 계산될 수 있다. 이에 대해서는 여기서 다시 설명하지 않는다.

단계 5: E_band(i)에 기초해서 E_band_n(i)를 갱신한다. 구체적으로, E_band_n(i)는 식(9) 내지 식(11)에 설명된 실시를 사용함으로써 갱신될 수 있다. 이에 대해서는 여기서 다시 설명하지 않는다.

이상으로 단계 605를 참조해서 음성 활성화 검출의 실시를 상세히 설명하였다. 그렇지만, 본 출원의 이 실시예는 이에 제한되지 않는다. 이하에서는 음성 활성화 검출의 다른 실시를 제공한다.

구체적으로, 수정된 분할 신호대잡음비가 음성 활성화 검출 임계값 th_VAD보다 크면, 현재 서브프레임은 음성 프레임이고, 현재 프레임의 음성 활성화 검출 플래그 vad_flag가 1에 설정되고, 그렇지 않으면, 현재 프레임은 배경 잡음 프레임이고, 현재 프레임의 음성 활성화 검출 플래그 vad_flag가 0에 설정된다. 음성 활성화 검출 임계값 th_VAD는 통상적으로 경험 값이고, 여기서는 3500, 4000, 4500 등이 될 수 있다.

이에 상응해서, 단계 630 내지 단계 634의 실시는 이하의 실시로 수정될 수 있다:

현재 프레임의 음성 활성화 검출 결과 및 이전 프레임의 음성 활성화 검출 결과 pre_vad가 음성 프레임을 나타낼 때, 이전 프레임의 초기 ITD 값이 0이 아니고, 현재 프레임의 초기 ITD 값이 0이고, 현재 프레임의 초기 ITD 값의 신뢰 수준이 낮으며(초기 ITD 값의 신뢰 수준은 itd_cal_flag의 값을 사용해서 확인할 수 있으며, 예를 들어, itd_cal_flag가 1이 아니면, 초기 ITD 값의 신뢰 수준이 낮으며, 상세한 내용에 대해서는 단계 612의 설명을 참조한다), 그리고 목표 프레임 카운트가 목표 프레임 카운트의 임계값보다 낮으면, 이전 프레임의 ITD 값은 현재 프레임의 ITD 값으로 사용되며, 목표 프레임 카운트는 증가한다.

현재 프레임의 음성 활성화 검출 결과가 음성 프레임을 나타내는 경우, 이전 프레임의 음성 활성화 검출 결과 pre-vad가 음성 프레임 플래그로 갱신될 수 있고, 즉 pre_vad가 1이고, 그렇지 않으면, 이전 프레임의 음성 활성화 검출 결과 pre-vad가 배경 잡음 프레임 플래그로 갱신될 수 있고, 즉 pre_vad가 0이다.

이상으로 단계 626 내지 단계 628를 참조하여, 연속적으로 출현할 수 있는 목표 프레임의 수량을 조정 또는 제어하는 방식을 상세히 설명하였다. 그렇지만, 본 출원의 이 실시예는 이에 제한되지 않는다. 이하에서는 연속적으로 출현할 수 있는 목표 프레임의 수량을 조정 또는 제어하는 다른 방식을 제공한다.

선택적으로, 일부 실시예에서, 먼저, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 피크 위치의 안정도가 미리 설정된 조건을 충족하는지가 결정되며; 안정도가 미리 설정된 조건을 충족하면, 목표 프레임 카운트의 임계값이 감소한다. 환언하면, 본 출원의 이 실시예에서, 연속적으로 출현할 수 있는 목표 프레임의 수량은 목표 프레임 카운트의 임계값을 감소함으로써 감소된다.

좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 피크 위치의 안정도가 미리 설정된 조건을 충족하는지를 결정하는 다양한 방식이 존재할 수 있다는 것에 유의해야 한다. 이것은 본 출원의 이 실시예에서 구체적으로 제한되지 않는다. 예를 들어, 미리 설정된 조건은: 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 피크 진폭 신뢰 파라미터가 미리 설정된 피크 진폭 신뢰 임계값보다 크고, 피크 위치 변동 파라미터가 피크 위치 변동 임계값보다 크다는 것일 수 있으며, 여기서 피크 진폭 신뢰 임계값은 0.1, 0.2, 0.3, 또는 다른 경험 값일 수 있고, 피크 위치 변동 임계값은 4, 5, 6, 또는 다른 경험 값일 수 있다.

목표 프레임 카운트의 임계값을 감소시키는 다양한 방식이 있을 수 있다는 것에 유의해야 한다. 이것은 본 출원의 이 실시예에서 구체적으로 제한되지 않는다.

선택적으로, 일부 실시예에서, 목표 프레임 카운트의 임계값은 1만큼 직접적으로 감소할 수 있다.

선택적으로, 일부 실시예에서, 목표 프레임 카운트의 임계값의 감소량은 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 안정도를 나타내는 한 그룹의 파라미터 중 하나 이상 및 수정된 분할 신호대잡음비에 기초해서 제어될 수 있다.

예를 들어, R₁ ≤ mssnr < R₂이면, 목표 프레임 카운트가 1만큼 감소할 수 있거나, R₂ ≤ mssnr < R₃이면, 목표 프레임 카운트가 2만큼 감소할 수 있거나, R₃ ≤ mssnr ≤ R₄이면, 목표 프레임 카운트가 3만큼 감소할 수 있으며, 여기서 R1, R₂, R₃, R₄는 R₁< R₂< R₃< R₄를 충족한다.

다른 예에 있어서, U₁<peak_mag_prob<U₂ 및 peak_pos_fluc>

이면, 목표 프레임 카운트가 1만큼 감소할 수 있거나, U₂<peak_mag_prob<U₃ 및 peak_pos_fluc>

이면, 목표 프레임 카운트가 2만큼 감소할 수 있거나, U₃≤peak_mag_prob₂ 및 peak_pos_fluc>

이면, 목표 프레임 카운트가 3만큼 감소할 수 있으며, U₁, U₂, U₃는 U₁<U₂<U₃을 충족할 수 있고, U₁은 전술한 피크 진폭 신뢰 임계값

이다.

이상으로 단계 624를 참조하여 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 피크 위치의 안정도를 나타내는 파라미터를 계산하는 방식을 상세히 설명하였다. 단계 624에서, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 피크 위치의 안정도를 나타내는 파라미터는 2개의 파라미터: 피크 진폭 신뢰 파라미터 peak_mag_prob 및 피크 위치 변동 파라미터 peak_pos_fluc를 포함한다. 그렇지만, 본 출원의 이 실시예는 이에 제한되지 않는다.

선택적으로, 일부 실시예에서, 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 피크 위치의 안정도를 나타내는 파라미터는 peak_pos_fluc만을 포함할 수 있다. 이에 상응해서, 단계 626은 다음과 같이 수정될 수 있다: peak_pos_fluc가 피크 진폭 신뢰 임계값

보다 크면, 목표 프레임 카운트를 증가시킨다.

선택적으로, 일부 다른 실시예에서, 서로 다른 두 채널 간의 교차 상관 계수의 피크 위치의 안정도를 나타내는 파라미터는 peak_mag_prob 및 peak_pos_fluc에 대해 선형 및/또는 비선형 연산을 수행한 후 획득되는 피크 위치 안정성 파라미터 peak_stable일 수 있다.

예를 들어, peak_stable, peak_mag_prob 및 peak_pos_fluc 사이의 관계는 식(32)를 사용해서 나타내어질 수 있다:

peak_stable=peak_mag_prob/(peak_pos_fluc)^p (32)

다른 예에 있어서, peak_stable, peak_mag_prob 및 peak_pos_fluc 사이의 관계는 식(33)을 사용해서 나타내어질 수 있다:

peak_stable=diff_factor[peak_pos_fluc]*peak_mag_prob (33)

여기서 diff_factor는 인접 프레임의 ITD 값의 미리 설정된 차이 인자 시퀀스를 나타내고; diff_factor는 peak_pos_fluc의 모든 가능한 값에 대응하는, 인접 프레임의 ITD 값의 서로 다른 인자를 포함할 수 있으며, diff_factor는 경험에 기초해서 설정될 수도 있고 대량의 데이터에 기초해서 트레이닝을 통해 획득될 수도 있으며, P는 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호의 교차 상관 계수의 피크 위치 변동 충격 지수를 나타낼 수 있으며, P는 1보다 크거나 같은 양의 정수일 수 있으며, 예를 들어, P는 1, 2, 3, 또는 다른 경험 값일 수 있다.

이에 상응해서, 단계 626은 다음과 같이 수정될 수 있다: peak_stable이 미리 설정된 피크 위치 안정성 임계값보다 크면, 목표 프레임 카운트를 증가시킨다. 여기서, 미리 설정된 피크 위치 안정성 임계값은 0보다 크거나 같은 양의 실수일 수도 있고 다른 경험 값일 수도 있다.

또한, 일부 실시예에서, peak_stable에 대해 평활화 프로세싱을 수행하여 평활화된 피크 위치 안정성 파라미터 lt_peak_stable를 획득하며, lt_peak_stable에 기초해서 후속의 결정이 수행된다.

구체적으로, lt_peak_stable은 식(34)를 사용해서 계산될 수 있다:

lt_peak_stable=(1-alpha)*lt_peak_stable+alpha*peak_stable (34)

여기서, alpha는 장기간의 평활화 인자를 나타내고, 통상적으로 0보다 크거나 같고 1보다 작거나 같은 양의 실수일 수 있으며, 예를 들어, alpha는 0.4, 0.5, 0.6 또는 다른 경험 값일 수 있다.

이에 상응해서, 단계 626은 다음과 같이 수정될 수 있다: lt_peak_stable이 미리 설정된 피크 위치 안정성 임계값보다 크면, 목표 프레임 카운트를 증가시킨다. 여기서 미리 설정된 피크 위치 안정성 임계값은 0보다 크거나 같은 양의 실수일 수도 있고 다른 경험 값일 수도 있다.

이하에서는 본 출원의 장치 실시예를 설명한다. 장치 실시예는 전술한 방법을 수행하는 데 사용될 수 있다. 그러므로 상세하게 설명되지 않은 부분에 대해서는 전술한 방법 실시예를 참조한다.

도 7은 본 출원의 실시예에 따른 인코더의 개략적인 구조도이다. 도 7에서의 인코더(700)는:

현재 프레임의 다중 채널 신호를 획득하도록 구성되어 있는 획득 유닛(710);

현재 프레임의 초기 ITD 값을 결정하도록 구성되어 있는 제1 결정 유닛(720);

다중 채널 신호의 특성 정보에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하도록 구성되어 있는 제어 유닛(730) - 특성 정보는 다중 채널 신호의 신호대잡음비 파라미터 및 다중 채널 신호의 교차 상관 계수의 피크 특징 중 적어도 하나를 포함하고, 목표 프레임의 이전 프레임(previous frame)의 ITD 값은 목표 프레임의 ITD 값으로 재사용됨 - ;

현재 프레임의 초기 ITD 값 및 연속적으로 출현할 수 있는 목표 프레임의 수량에 기초해서 현재 프레임의 ITD 값을 결정하도록 구성되어 있는 제2 결정 유닛(740); 및

현재 프레임의 ITD 값에 기초해서 다중 채널 신호를 인코딩하도록 구성되어 있는 인코딩 유닛(750)

을 포함한다.

선택적으로, 일부 실시예에서, 인코더(700)는: 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 및 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 기초해서 다중 채널 신호의 교차 상관 계수의 피크 특징을 결정하도록 구성되어 있는 제3 결정 유닛을 더 포함한다.

선택적으로, 일부 실시예에서, 제3 결정 유닛은 구체적으로 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭에 기초해서 피크 진폭 신뢰 파라미터를 결정하고 - 피크 진폭 신뢰 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭의 신뢰 수준을 나타냄 - ; 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값 및 현재 프레임의 이전 프레임의 ITD 값에 기초해서 피크 위치 변동 파라미터를 결정하며 - 피크 위치 변동 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 현재 프레임의 이전 프레임의 ITD 값 간의 차이를 나타냄 - ; 그리고 피크 진폭 신뢰 파라미터 및 피크 위치 변동 파라미터에 기초해서 다중 채널의 교차 상관 계수의 피크 특징을 결정하도록 구성되어 있다.

선택적으로, 일부 실시예에서, 제3 결정 유닛은 구체적으로 피크 진폭 신뢰 파라미터로서, 피크 진폭의 진폭 값에 대한 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 값과 다중 채널 신호의 교차 상관 계수의 두 번째로 큰 값 간의 차이의 비를 결정하도록 구성되어 있다.

선택적으로, 일부 실시예에서, 제3 결정 유닛은 구체적으로 피크 위치 변동 파라미터로서, 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 현재 프레임의 이전 프레임의 ITD 값 간의 차이의 절댓값을 결정하도록 구성되어 있다.

선택적으로, 일부 실시예에서, 제어 유닛(730)은 구체적으로 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하며; 그리고 다중 채널 신호의 교차 상관 계수의 피크 특징이 미리 설정된 조건을 충족할 때, 목표 프레임 카운트 및 목표 프레임 카운트의 임계값 중 적어도 하나를 조정함으로써 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키도록 구성되어 있으며, 목표 프레임 카운트는 현재 연속적으로 출현한 목표 프레임의 수량을 나타내는 데 사용되고, 목표 프레임 카운트의 임계값은 연속적으로 출현할 수 있는 목표 프레임의 수량을 나타내는 데 사용된다.

선택적으로, 일부 실시예에서, 제어 유닛(730)은 구체적으로 목표 프레임 카운트를 증가시킴으로써 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키도록 구성되어 있다.

선택적으로, 일부 실시예에서, 제어 유닛(730)은 구체적으로 목표 프레임 카운트의 임계값을 감소시킴으로써 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키도록 구성되어 있다.

선택적으로, 일부 실시예에서, 제어 유닛(730)은 구체적으로 다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 신호대잡음비 조건을 충족하지 않을 때만, 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하도록 구성되어 있으며, 인코더(700)는 다중 채널 신호의 신호대잡음비가 신호대잡음비 조건을 충족할 때, 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단하도록 구성되어 있는 중단 유닛을 더 포함한다.

선택적으로, 일부 실시예에서, 제어 유닛(730)은 구체적으로 다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 신호대잡음비 조건을 충족하는지를 결정하며; 그리고 다중 채널 신호의 신호대잡음비 파라미터가 신호대잡음비 조건을 충족하지 않을 때, 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하거나; 또는 다중 채널 신호의 신호대잡음비가 신호대잡음비 조건을 충족할 때, 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단하도록 구성되어 있다.

선택적으로, 일부 실시예에서, 중단 유닛은 구체적으로 목표 프레임 카운트의 값이 목표 프레임 카운트의 임계값보다 크거나 같아지도록 목표 프레임 카운트를 증가시키도록 구성되어 있으며, 목표 프레임 카운트는 현재 연속적으로 출현한 목표 프레임의 수량을 나타내는 데 사용되고, 목표 프레임 카운트의 임계값은 연속적으로 출현할 수 있는 목표 프레임의 수량을 나타내는 데 사용된다.

선택적으로, 일부 실시예에서, 제2 결정 유닛(740)은 구체적으로 현재 프레임의 초기 ITD 값, 목표 프레임 카운트 및 목표 프레임 카운트의 임계값에 기초해서 현재 프레임의 ITD 값을 결정하도록 구성되어 있으며, 목표 프레임 카운트는 현재 연속적으로 출현한 목표 프레임의 수량을 나타내는 데 사용되고, 목표 프레임 카운트의 임계값은 연속적으로 출현할 수 있는 목표 프레임의 수량을 나타내는 데 사용된다.

선택적으로, 일부 실시예에서, 상기 신호대잡음비 파라미터는 다중 채널 신호의 수정된 분할 신호대잡음비이다.

도 8은 본 출원의 실시예에 따른 인코더의 개략적인 구조도이다. 도 8에서의 인코더(800)는:

프로그램을 저장하도록 구성되어 있는 메모리(810); 및

프로그램을 실행하도록 구성되어 있는 프로세서(820)

를 포함하며,

프로그램이 실행될 때, 프로세서(820)는: 현재 프레임의 다중 채널 신호를 획득하고; 현재 프레임의 초기 ITD 값을 결정하고; 다중 채널 신호의 특성 정보에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하고 - 특성 정보는 다중 채널 신호의 신호대잡음비 파라미터 및 다중 채널 신호의 교차 상관 계수의 피크 특징 중 적어도 하나를 포함하고, 목표 프레임의 이전 프레임(previous frame)의 ITD 값은 목표 프레임의 ITD 값으로 재사용됨 - ; 현재 프레임의 초기 ITD 값 및 연속적으로 출현할 수 있는 목표 프레임의 수량에 기초해서 현재 프레임의 ITD 값을 결정하며; 그리고 현재 프레임의 ITD 값에 기초해서 다중 채널 신호를 인코딩하도록 구성되어 있다.

선택적으로, 일부 실시예에서, 인코더(800)는 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 및 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 기초해서 다중 채널 신호의 교차 상관 계수의 피크 특징을 결정하도록 추가로 구성되어 있다.

선택적으로, 일부 실시예에서, 인코더(800)는 구체적으로: 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭에 기초해서 피크 진폭 신뢰 파라미터를 결정하고 - 피크 진폭 신뢰 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭의 신뢰 수준을 나타냄 - ; 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값 및 현재 프레임의 이전 프레임의 ITD 값에 기초해서 피크 위치 변동 파라미터를 결정하며 - 피크 위치 변동 파라미터는 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 현재 프레임의 이전 프레임의 ITD 값 간의 차이를 나타냄 - ; 그리고 피크 진폭 신뢰 파라미터 및 피크 위치 변동 파라미터에 기초해서 다중 채널의 교차 상관 계수의 피크 특징을 결정하도록 구성되어 있다.

선택적으로, 일부 실시예에서, 인코더(800)는 구체적으로, 피크 진폭 신뢰 파라미터로서, 피크 진폭의 진폭 값에 대한 다중 채널 신호의 교차 상관 계수의 피크 값의 진폭 값과 다중 채널 신호의 교차 상관 계수의 두 번째로 큰 값 간의 차이의 비를 결정하도록 구성되어 있다.

선택적으로, 일부 실시예에서, 인코더(800)는 피크 위치 변동 파라미터로서, 다중 채널 신호의 교차 상관 계수의 피크 위치의 인덱스에 대응하는 ITD 값과 현재 프레임의 이전 프레임의 ITD 값 간의 차이의 절댓값을 결정하도록 구성되어 있다.

선택적으로, 일부 실시예에서, 인코더(800)는 구체적으로: 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하는 단계; 및 다중 채널 신호의 교차 상관 계수의 피크 특징이 미리 설정된 조건을 충족할 때, 목표 프레임 카운트 및 목표 프레임 카운트의 임계값 중 적어도 하나를 조정함으로써 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키도록 구성되어 있으며, 목표 프레임 카운트는 현재 연속적으로 출현한 목표 프레임의 수량을 나타내는 데 사용되고, 목표 프레임 카운트의 임계값은 연속적으로 출현할 수 있는 목표 프레임의 수량을 나타내는 데 사용된다.

선택적으로, 일부 실시예에서, 인코더(800)는 구체적으로 목표 프레임 카운트를 증가시킴으로써 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키도록 구성되어 있다.

선택적으로, 일부 실시예에서, 인코더(800)는 구체적으로 목표 프레임 카운트의 임계값을 감소시킴으로써 연속적으로 출현할 수 있는 목표 프레임의 수량을 감소시키도록 구성되어 있다.

선택적으로, 일부 실시예에서, 인코더(800)는 구체적으로: 다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 신호대잡음비 조건을 충족하지 않을 때만, 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하도록 구성되어 있으며, 인코더(800)는: 다중 채널 신호의 신호대잡음비가 신호대잡음비 조건을 충족할 때, 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단하도록 추가로 구성되어 있다.

선택적으로, 일부 실시예에서, 인코더(800)는 구체적으로: 다중 채널 신호의 신호대잡음비 파라미터가 미리 설정된 신호대잡음비 조건을 충족하는지를 결정하며; 그리고 다중 채널 신호의 신호대잡음비 파라미터가 신호대잡음비 조건을 충족하지 않을 때, 다중 채널 신호의 교차 상관 계수의 피크 특징에 기초해서 연속적으로 출현할 수 있는 목표 프레임의 수량을 제어하거나; 또는 다중 채널 신호의 신호대잡음비가 신호대잡음비 조건을 충족할 때, 현재 프레임의 ITD 값으로서 현재 프레임의 이전 프레임의 ITD 값을 재사용하는 것을 중단하도록 구성되어 있다.

선택적으로, 일부 실시예에서, 인코더(800)는 구체적으로 목표 프레임 카운트의 값이 목표 프레임 카운트의 임계값보다 크거나 같아지도록 목표 프레임 카운트를 증가시키도록 구성되어 있으며, 목표 프레임 카운트는 현재 연속적으로 출현한 목표 프레임의 수량을 나타내는 데 사용되고, 목표 프레임 카운트의 임계값은 연속적으로 출현할 수 있는 목표 프레임의 수량을 나타내는 데 사용된다.

선택적으로, 일부 실시예에서, 인코더(800)는 구체적으로 현재 프레임의 초기 ITD 값, 목표 프레임 카운트 및 목표 프레임 카운트의 임계값에 기초해서 현재 프레임의 ITD 값을 결정하도록 구성되어 있으며, 목표 프레임 카운트는 현재 연속적으로 출현한 목표 프레임의 수량을 나타내는 데 사용되고, 목표 프레임 카운트의 임계값은 연속적으로 출현할 수 있는 목표 프레임의 수량을 나타내는 데 사용된다.

당업자라면 본 명세서에 개시된 실시예에 설명된 예와 조합해서, 유닛 및 알고리즘 단계들은 전자식 하드웨어 또는 컴퓨터 소프트웨어와 전자식 하드웨어의 조합으로 실현될 수 있다는 것을 인지할 수 있을 것이다. 하드웨어와 소프트웨어 간의 상호교환성을 명확하게 설명하기 위해, 위에서는 일반적으로 기능에 따라 각각의 예의 구성 및 단계를 설명하였다. 기능들이 하드웨어로 수행되는지 소프트웨어로 수행되는지는 특별한 애플리케이션 및 기술적 솔루션의 설계 제약 조건에 따라 다르다. 당업자라면 다른 방법을 사용하여 각각의 특별한 실시예에 대해 설명된 기능을 실행할 수 있을 것이나, 그 실행이 본 발명의 범위를 넘어서는 것으로 파악되어서는 안 된다.

당업자라면 설명의 편의 및 간략화를 위해, 전술한 시스템, 장치, 및 유닛에 대한 상세한 작업 프로세스에 대해서는 전술한 방법 실시예의 대응하는 프로세스를 참조하면 된다는 것을 자명하게 이해할 수 있을 것이므로 그 상세한 설명은 여기서 다시 설명하지 않는다.

본 출원에서 제공하는 수 개의 실시예에서, 전술한 시스템, 장치, 및 방법은 다른 방식으로도 실현될 수 있다는 것은 물론이다. 예를 들어, 설명된 장치 실시예는 단지 예시에 불과하다. 예를 들어, 유닛의 분할은 단지 일종의 논리적 기능 분할일 뿐이며, 실제의 실행 동안 다른 분할 방식으로 있을 수 있다. 예를 들어, 복수의 유닛 또는 구성요소를 다른 시스템에 결합 또는 통합할 수 있거나, 또는 일부의 특징은 무시하거나 수행하지 않을 수도 있다. 또한, 도시되거나 논의된 상호 커플링 또는 직접 결합 또는 통신 접속은 일부의 인터페이스를 통해 실현될 수 있다. 장치 또는 유닛 간의 간접 결합 또는 통신 접속은 전자식, 기계식 또는 다른 형태로 실현될 수 있다.

별도의 부분으로 설명된 유닛들은 물리적으로 별개일 수 있고 아닐 수도 있으며, 유닛으로 도시된 부분은 물리적 유닛일 수도 있고 아닐 수도 있으며, 한 위치에 위치할 수도 있고, 복수의 네트워크 유닛에 분산될 수도 있다. 유닛 중 일부 또는 전부는 실제의 필요에 따라 선택되어 실시예의 솔루션의 목적을 달성할 수 있다.

또한, 본 발명의 실시예에서의 기능 유닛은 하나의 프로세싱 유닛으로 통합될 수 있거나, 각각의 유닛이 물리적으로 단독으로 존재할 수도 있거나, 2개 이상의 유닛이 하나의 유닛으로 통합될 수도 있다.

통합 유닛이 소프트웨어 기능 유닛의 형태로 실현되어 독립 제품으로 시판되거나 사용되면, 이 통합 유닛은 컴퓨터 판독 가능형 저장 매체에 저장될 수 있다. 이러한 이해를 바탕으로, 본 발명의 필수적인 기술적 솔루션 또는 종래기술에 기여하는 부분, 또는 기술적 솔루션의 일부는 소프트웨어 제품의 형태로 실현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, 본 발명의 실시예에 설명된 방법의 단계 중 일부 또는 전부를 수행하도록 컴퓨터 장치(이것은 퍼스널 컴퓨터, 서버, 또는 네트워크 장치 등이 될 수 있다)에 명령하는 수개의 명령어를 포함한다. 전술한 저장 매체는: 프로그램 코드를 저장할 수 있는 임의의 저장 매체, 예를 들어, USB 플래시 디스크, 휴대형 하드디스크, 리드 온리 메모리(Read Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기디스크 또는 광디스크를 포함한다.

전술한 설명은 단지 본 발명의 특정한 실행 방식에 불과하며, 본 발명의 보호 범위를 제한하려는 것이 아니다. 본 발명에 설명된 기술적 범위 내에서 당업자가 용이하게 실현하는 모든 변형 또는 대체는 본 발명의 보호 범위 내에 있게 된다. 그러므로 본 발명의 보호 범위는 특허청구범위의 보호 범위에 있게 된다.

Claims

오디오 신호 인코딩 방법으로서,
오디오 신호의 현재 프레임의 초기 채널 간 시간 차이(inter-channel time difference, ITD) 값을 획득하는 단계 - 상기 오디오 신호는 제1 채널 신호 및 제2 채널 신호를 포함하고, 상기 초기 ITD 값은 상기 제1 채널 신호 및 상기 제2 채널 신호와 연관됨 -;
상기 현재 프레임의 특성 파라미터를 획득하는 단계 - 상기 특성 파라미터는 상기 현재 프레임의 신호대잡음비 또는 상기 현재 프레임의 교차 상관 계수의 피크 특징 중 적어도 하나를 포함함 -;
상기 특징 파라미터에 기초하여, 상기 초기 ITD 값을 상기 현재 프레임의 최종 ITD 값으로서 사용할지 여부를 결정하는 단계;
상기 초기 ITD 값을 상기 현재 프레임의 최종 ITD 값으로서 사용하는 것으로 결정하면, 상기 초기 ITD 값에 기초하여 상기 현재 프레임을 인코딩하는 단계; 및
상기 초기 ITD 값을 상기 현재 프레임의 최종 ITD 값으로서 사용하지 않는 것으로 결정하면, 상기 현재 프레임의 이전 프레임의 최종 ITD 값에 기초하여 상기 현재 프레임을 인코딩하는 단계
를 포함하는 오디오 신호 인코딩 방법.
제1항에 있어서,
상기 교차 상관 계수의 피크 값의 진폭 및 상기 교차 상관 계수의 피크 위치의 인덱스에 기초해서 상기 피크 특징을 획득하는 단계
를 더 포함하는 오디오 신호 인코딩 방법.
제2항에 있어서,
상기 피크 특징을 획득하는 단계는,
상기 진폭에 기초해서 피크 진폭 신뢰 파라미터를 획득하는 단계 - 상기 피크 진폭 신뢰 파라미터는 상기 진폭의 신뢰 수준을 나타냄 - ;
상기 인덱스에 대응하는 ITD 값 및 상기 이전 프레임의 ITD 값에 기초해서 피크 위치 변동 파라미터를 결정하는 단계 - 상기 피크 위치 변동 파라미터는 상기 인덱스에 대응하는 ITD 값과 상기 이전 프레임의 ITD 값 간의 차이를 나타냄 - ; 및
상기 피크 진폭 신뢰 파라미터 및 상기 피크 위치 변동 파라미터에 기초해서 상기 피크 특징을 결정하는 단계
를 포함하는, 오디오 신호 인코딩 방법.
제3항에 있어서,
상기 피크 진폭 신뢰 파라미터를 결정하는 단계는,
피크 진폭 신뢰 파라미터로서, 상기 피크 진폭의 진폭 값에 대한 상기 피크 값의 진폭 값과 상기 교차 상관 계수의 두 번째로 큰 값의 진폭 값 간의 차이의 비를 결정하는 단계
를 포함하는, 오디오 신호 인코딩 방법.
제3항에 있어서,
상기 피크 위치 변동 파라미터를 결정하는 단계는,
상기 피크 위치 변동 파라미터로서, 상기 인덱스에 대응하는 ITD 값과 상기 이전 프레임의 ITD 값 간의 차이의 절댓값을 결정하는 단계
를 포함하는, 오디오 신호 인코딩 방법.
제1항에 있어서,
상기 초기 ITD 값을 상기 현재 프레임의 최종 ITD 값으로서 사용할지 여부를 결정하는 단계는,
상기 피크 특징이 미리 설정된 조건을 충족할 때, 프레임 카운트 또는 상기 프레임 카운트의 임계값 중 적어도 하나를 조정함으로써 이전 최종 ITD 값을 현재 최종 ITD 값으로 재사용하도록 허용된 연속 프레임의 수량을 감소시키는 단계 - 상기 프레임 카운트는 상기 이전 최종 ITD 값을 상기 현재 최종 ITD 값으로 재사용한 연속 프레임의 수량을 나타내고, 상기 임계값은 상기 이전 최종 ITD 값을 상기 현재 최종 ITD 값으로 재사용하도록 허용된 연속 프레임의 최대값을 지시함 -;
상기 프레임 카운트가 상기 임계값보다 작으면 상기 초기 ITD 값을 상기 현재 프레임의 최종 ITD 값으로서 사용하는 것으로 결정하는 단계; 및
상기 프레임 카운트가 상기 임계값보다 크거나 같으면 상기 초기 ITD 값을 상기 현재 프레임의 최종 ITD 값으로서 사용하지 않는 것으로 결정하는 단계
를 포함하는, 오디오 신호 인코딩 방법.
제6항에 있어서,
상기 초기 ITD 값을 상기 현재 프레임의 최종 ITD 값으로서 사용할지 여부를 결정하는 단계는,
상기 신호대잡음비가 미리 설정된 신호대잡음비 조건을 만족하는지 여부를 결정하는 단계; 및
상기 신호대잡음비가 상기 미리 설정된 신호대잡음비 조건을 만족하면, 상기 초기 ITD 값을 상기 현재 프레임의 최종 ITD 값으로서 사용하지 않는 것으로 결정하는 단계
를 더 포함하는, 오디오 신호 인코딩 방법.
제1항에 있어서,
상기 초기 ITD 값을 상기 현재 프레임의 최종 ITD 값으로서 사용할지 여부를 결정하는 단계는,
상기 신호대잡음비가 미리 설정된 신호대잡음비 조건을 만족하는지 여부를 결정하는 단계;
상기 신호대잡음비가 상기 미리 설정된 신호대잡음비 조건을 만족하면, 상기 초기 ITD 값을 상기 현재 프레임의 최종 ITD 값으로서 사용하는 것으로 결정하는 단계; 및
상기 신호대잡음비가 상기 미리 설정된 신호대잡음비 조건을 만족하지 않으면, 상기 초기 ITD 값을 상기 현재 프레임의 최종 ITD 값으로서 사용하지 않는 것으로 결정하는 단계
를 포함하는, 오디오 신호 인코딩 방법.
제8항에 있어서,
상기 초기 ITD 값을 상기 현재 프레임의 최종 ITD 값으로서 사용하지 않는 것으로 결정되면, 목표 프레임 카운트의 값이 상기 프레임 카운트의 임계값보다 크거나 같도록 프레임 카운트를 증가시키는 단계
를 더 포함하고,
상기 프레임 카운트는 이전 최종 ITD 값을 현재 최종 ITD 값으로 재사용한 연속 프레임의 수량을 나타내고,
상기 임계값은 상기 이전 최종 ITD 값을 상기 현재 최종 ITD 값으로 재사용하도록 허용된 연속 프레임의 최대값을 지시하는,
오디오 신호 인코딩 방법.
인코더로서,
메모리; 및
상기 메모리에 접속하고, 제1항 내지 제9항 중 어느 한 항의 방법을 수행하도록 구성되는 프로세서
를 포함하는 인코더.
프로그램이 기록되어 있는 컴퓨터 판독 가능 저장 매체로서,
상기 프로그램은 컴퓨터로 하여금 제1항 내지 제9항 중 어느 한 항의 방법을 실행하게 하는, 프로그램이 기록되어 있는 컴퓨터 판독 가능 저장 매체.
컴퓨터로 하여금 제1항 내지 제9항 중 어느 한 항의 방법을 실행하게 하도록 구성되는, 컴퓨터 판독 가능 저장 매체에 저장된 프로그램.