KR20230119192A

KR20230119192A - 스테레오 헤드폰 심리음향 음 위치측정 시스템 및 이를사용한 스테레오 심리음향 음 신호를 재구성하기 위한 방법

Info

Publication number: KR20230119192A
Application number: KR1020237023760A
Authority: KR
Inventors: 대니 데이스 로위; 윌리엄 브래드포드 스테켈; 티모시 제임스 윌리엄 파이크; 제프리 제임스 보트리엘
Original assignee: 리슨 테크놀로지스 인코포레이티드
Priority date: 2020-12-16
Filing date: 2021-12-16
Publication date: 2023-08-16
Also published as: WO2022126271A1; EP4264962A1; CA3142575A1; US20240056735A1

Abstract

사운드-포함 신호를 처리하는 사운드 처리 장치가 설명된다. 장치는 사운드-포함 신호를 복수의 지각 특징 성분을 포함한 복수의 신호 성분으로 분리하기 위한 신호 분해 모듈, 복수의 신호 성분 각각의 스펙트럼 및 시간 지연을 수정하기 위한 스펙트럼 수정 모듈 및 위상 조정 모듈, 및 사운드 생성을 위해서 L 출력 신호 및 R 출력 신호를 출력하도록 조합되는 좌측(L) 신호 그룹 및 우측(L) 신호 그룹으로 복수의 신호 성분을 필터링하기 위한 복수의 심리음향 필터를 가지는 심리음향 신호 처리 모듈을 가진다.

Description

스테레오 헤드폰 심리음향 음 위치측정 시스템 및 이를 사용한 스테레오 심리음향 음 신호를 재구성하기 위한 방법

본 출원은 2020년 12월 16일자로 출원된 미국 가 특허 출원 일련번호 63/126,490 호의 이득을 주장하며, 그 내용은 전체적으로 원용에 의해서 본 출원에 포함된다.

본 개시는 일반적으로, 헤드폰 사운드 시스템(headphone sound system) 및 스테레오 심리음향 음 신호(stereo psychoacoustic sound signal)을 재구성하기 위한 방법에 관한 것으로, 특히 스테레오-헤드폰 심리음향 음 위치측정 시스템 및 이를 사용한 스테레오 심리음향 음 신호를 재구성하기 위한 방법에 관한 것이다. 더 구체적으로, 시스템 및 방법은 영화 사운드 트랙, 음악, 비디오 게임 및 기타 오디오 제품에 바람직할 때 기존의 스테레오(stereo) 또는 바이노럴(binaural) 입력 신호를 이용할 뿐만 아니라 추가 개별 음원(sound source)을 삽입하도록 설계된다.

스테레오 헤드폰을 사용하는 사운드 시스템이 공지되어 있고, 음악 또는 방송 감상하기, 비디오 게임하기, 영화 감상하기 등과 같은 개인 시청각 오락에 널리 사용되어 왔다.

헤드폰이 있는 사운드 시스템은 일반적으로, 오디오 파일과 같은 소스로부터 오디오 포함 신호(audio-bearing signal)(예를 들어, 오디오 신호의 정보를 포함한 전기 신호)를 생성하는 신호 생성 모듈(module), 필요에 따라 또는 원하는 대로 복수의 오디오 클립(audio clip)(예를 들어, 게임 장치의 오디오 출력)을 믹싱하는 오디오 믹서(audio mixer), 라디오 신호(예를 들어, 주파수 변조(FM) 방송 신호), 스트리밍 등을 포함한다. 신호 생성 모듈에 의해 생성된 오디오 포함 신호는 신호 처리 모듈(예를 들어, 잡음 완화, 이퀄라이제이션(equalization), 에코 조정, 타임스케일-피치 수정(timescale-pitch modification) 등)에 의해 종종 처리된 다음에 적합한 유선 또는 무선 수단을 통해서 헤드폰(예를 들어, 헤드셋, 이어폰, 이어버드(earbud) 등)으로 송신된다. 헤드폰은 일반적으로, 오디오 포함 신호를 사용자가 들을 수 있는 오디오 신호로 변환하기 위해서 사용자의 귀에 또는 귀 주위에 위치된 한 쌍의 스피커를 포함한다. 헤드폰은 오디오 포함 신호를 스피커로 송신하기 전에 오디오 포함 신호를 증폭하기 위한 하나 이상의 증폭기도 포함할 수 있다.

많은 헤드폰이 일반 스테레오를 재생하는데 매우 양호한 충실도를 제공하지만, 이들은 통상적인 가정 또는 상업 극장 환경에서 발견되는 다중 스피커를 이용하는 서라운드 사운드 시스템과 같은 최신 라우드스피커 시스템(loudspeaker system)과 동일한 수준의 사운드 경험을 전달하지 못한다. 라우드스피커 시스템에서 사용되는 동일한 신호 처리 기술을 헤드폰이 있는 시스템에 적용하는 것도 여러 가지 결함을 가진다. 예를 들어, "가상" 음원(즉, 청취자가 느끼는 음원)은 좌측 귀, 우측 귀 또는 그 사이의 어느 곳에 제한됨으로써, 청취자의 머리에 머무르는 제한된 심리음향 효과를 가지는 "사운드 이미지(sound image)"를 생성한다.

그러한 문제는 청취 환경 내에서 생성된 반사를 포함한 청취자의 각각의 귀에서 오디오 신호의 상이한 도달 시간 및 상이한 주파수 기반 진폭을 인간의 두뇌가 해석하는 방식 때문일 수 있다.

Hatab 등의 미국 특허 출원 공개 번호 2019/0230438 A1 호는 변환기로의 출력을 위해 오디오 데이터를 처리하는 방법을 교시한다. 이 방법은 오디오 신호를 수신하는 단계, 오디오 신호를 고정된 필터 계수를 가지는 고정 필터로 필터링하여 필터링된 오디오 신호를 생성하는 단계, 및 필터링된 오디오 신호를 변환기로 출력하는 단계를 포함할 수 있다. 고정 필터의 고정 필터 계수는 변환기의 심리음향 모델을 사용하여 복수의 주파수 부-대역에 대한 가청도 마스킹 임계값(audibility masking threshold)을 결정하고, 보상 계수를 복수의 주파수 부-대역에 할당하고, 고정 필터 계수를 복수의 부-대역에 할당된 보상 계수로 피팅(fitting)함으로써 튜닝(tuning)될 수 있다.

Boehmer의 미국 특허 출원 공개 번호 2020/0304929 A1 호는 처리 알고리즘으로 공급하는 새로운 채널의 수를 생성하기 위해서 좌측(L) 및 우측(R) 스테레오 채널로부터 정보를 추출하는 최신 DSP 기술을 이용함으로써 스테레오 재생에서 내재된 문제를 해결하기 위한 스테레오 언폴딩 기술(stereo unfold technology)을 교시한다. 스테레오 언폴딩 기술은 일반 스테레오 정보를 관례적인 방식으로 청취자에게 송신하여 음장(sound field)에서 연주자의 인지된 위치를 매우 정확하게 설정한 다음에 지연 및 주파수 형태의 추출된 신호를 전방뿐만 아니라 다른 방향으로 투사하여 귀와 뇌에 대한 추가의 심리음향 기반 단서(clue)를 제공한다. 추가의 단서는 음원의 3차원적 특성과 이들이 수행하는 음향 환경을 설정할 뿐만 아니라 디테일과 투명도가 증가된 느낌을 생성한다. 스테레오 언폴딩 기술은 연속적인 실제 사운드 음향 환경에서 사운드를 생성하는 3차원 음원으로 채워진 실제처럼 믿을 수 있는 3차원 사운드스테이지(soundstage)를 생성한다.

Fereczkowski 등의 미국 특허 출원 공개 번호 2017/0265786 A1호는 테스트 피험자/청취자에게 인가되는 청각 자극 신호의 제 1 매개변수와 제 2 매개변수를 선택적으로 변화시킴으로써 심리음향 임계값 곡선을 결정하는 방법을 교시한다. 이 방법론은 선험적으로 추정된 심리음향 임계값 곡선의 제 1 측에 포지티브 응답 영역 및 선험적으로 추정된 심리음향 임계값 곡선의 제 1 및 반대 측에 네거티브 응답 영역을 포함한 미리 결정된 2차원 응답 공간을 형성하기 위해서 심리음향 임계값 곡선의 선험적으로 추정된 배치를 둘러싸는 2차원 경계 영역을 결정하는 단계를 포함한다. 각각의 매개변수 쌍에 따른 일련의 청각 자극 신호는 음향 재생 장치를 통해 청취자에게 제시되고 청각 자극 신호의 미리 결정된 속성/특징에 대한 청취자의 감지는 미리 결정된 2차원 응답 공간을 통한 자극 경로를 횡단하도록 기록된다. 심리음향 임계값 곡선은 적어도 기록된 매개변수 쌍의 서브세트를 기반으로 계산된다.

Hatab 등의 미국 특허 제 9,807,502 B1 호는 오디오 변환기에 적용되는 입력 신호 에너지를 감소시키기 위해서 오디오 스피커에 의해 재생되는 오디오 신호에 적용될 수 있는 심리음향 모델을 교시한다. 심리음향 모델을 사용하여, 입력 신호 에너지는 변환기에 의해 재생되는 오디오의 품질에 거의 또는 전혀 식별할 수 없는 영향을 미치는 방식으로 감소될 수 있다. 심리음향 모델은 부분적으로 인간의 청각 인식 및/또는 화자 재생 능력(speaker reproduction capability)을 기반으로 오디오 신호로부터 감소될 에너지를 선택한다. 오디오 신호의 에너지 레벨 수정은 화자 보호 기능을 제공하는데 사용될 수 있다. 예를 들어, 보상 계수 할당을 통해서 생성된 수정된 오디오 신호는 스피커에서 편위 및 변위; 스피커에서 제어 온도; 및/또는 스피커에서 전력를 감소시킬 수 있다.

따라서, 청취자의 머리 외부의 겉보기 또는 가상 사운드 위치뿐만 아니라 사용자의 머리 내부를 통한 패닝(panning)을 제공할 수 있는 시스템이 항상 필요하다. 더욱이, 겉보기 음원이 바람직하게 사용자의 지시에 따라서 이동하도록 만들 수 있는 시스템도 바람직할 것이다.

본 개시의 일 양태에 따라서, 사운드-포함 신호를 처리하는 사운드 처리장치(sound-processing apparatus)가 제공되며, 장치는 사운드-포함 신호(sound-bearing signal)를 복수의 신호 성분으로 분리하기 위한 신호 분해 모듈(signal decomposition module)로서, 복수의 신호 성분은 좌측 신호 성분, 우측 신호 성분 및 복수의 지각 특징 성분을 포함하는, 신호 분해 모듈; 및 복수의 신호 성분을 좌측(L) 필터링된 신호 그룹 및 우측(R) 필터링된 신호 그룹으로 필터링하고, L 필터링된 신호 그룹의 조합을 좌측 출력 신호로서 그리고 R 필터링된 신호 그룹의 조합을 우측 출력 신호로서 출력하기 위한 복수의 심리음향 필터를 포함하는 심리음향 신호 처리 모듈을 포함한다.

몇몇 실시양태에서, 복수의 심리음향 필터 각각은 실제 환경에서 얻은 임펄스 응답으로부터 수정된 MPIR(Modified Psychoacoustical Impulse Response: 수정된 심리음향 임펄스 응답) 필터이다.

몇몇 실시양태에서, 복수의 심리음향 필터의 계수는 비-일시적 스토리지에 저장된다.

몇몇 실시양태에서, 복수의 신호 성분은 모노 신호 성분을 더 포함한다.

몇몇 실시양태에서, 복수의 지각 특징 성분은 복수의 스템 신호 성분을 포함한다.

몇몇 실시양태에서, 좌측 출력 신호는 L 필터링된 신호 그룹의 합산이고 우측 출력 신호는 R 필터링된 신호 그룹의 합산이다.

몇몇 실시양태에서, 복수의 심리음향 필터는 복수의 필터 뱅크(filter bank)로 그룹화되며; 각각의 필터 뱅크는 하나 이상의 필터 쌍을 포함하며; 각각의 필터 쌍은 복수의 심리음향 필터 중 2 개의 심리음향 필터를 포함하며; 복수의 필터 뱅크 각각은 그의 심리음향 필터를 통과하고 L 필터링된 신호 그룹의 서브세트와 R 필터링된 신호 그룹의 서브세트를 생성하기 위해서 복수의 신호 성분 중 각각 하나를 수신하도록 구성된다.

몇몇 실시양태에서, 사운드 처리 장치는 복수의 신호 성분 각각의 스펙트럼을 수정하기 위한 스펙트럼 수정 모듈을 더 포함한다.

몇몇 실시양태에서, 사운드 처리 장치는 복수의 신호 성분 중 하나 이상의 상대적인 시간 지연을 수정하기 위한 시간 지연 모듈을 더 포함한다.

몇몇 실시양태에서, 하나 이상의 지각 특징 성분은 비-방향성 및 비-주파수 사운드 특성에 기초하여 결정된 복수의 이산 특징 성분을 포함한다.

몇몇 실시양태에서, 신호 분해 모듈은 사운드-포함 신호로부터 복수의 지각 특징 성분을 생성하기 위한 예측 서브모듈(prediction submodule)을 포함한다.

몇몇 실시양태에서, 신호 분해 모듈은 예측 서브모듈을 포함하며; 예측 서브모듈은 사운드-포함 신호로부터 복수의 지각 특징 성분을 생성하기 위한 인공 지능(AI) 모델을 포함하거나 이를 사용하도록 구성된다.

몇몇 실시양태에서, AI 모델은 기계-학습 모델을 포함한다.

몇몇 실시양태에서, AI 모델은 신경망(neural network)을 포함한다.

몇몇 실시양태에서, 신경망은 인코더-디코더 컨볼루션 신경망(encoder-decoder convolutional neural network)을 포함한다.

몇몇 실시양태에서, 신경망은 U-Net 인코더/디코더 컨볼루션 신경망을 포함한다.

몇몇 실시양태에서, 신호 분해 모듈은 신호 전처리 서브모듈 및 신호 후처리 서브모듈을 더 포함하며; 신호 전처리 서브모듈은 예측 서브모듈이 복수의 지각 특징 성분을 생성하도록 그의 복소 스펙트럼(complex spectrum: CS)으로서 사운드-포함 신호의 단시간 푸리에 변환(short-time Fourier transform: STFT)을 계산하도록 구성되며; 예측 서브모듈은 시간-주파수 마스크를 생성하도록 구성되며; 신호 후처리 서브모듈은 소프트 마스크와 사운드-포함 신호의 CS의 곱의 IFFT(inverse fast Fourier transform: 역 고속 푸리에 변환)를 계산함으로써 복수의 지각 특징 성분을 생성하도록 구성된다.

몇몇 실시양태에서, 복수의 심리음향 필터는 사운드-포함 신호의 인지된 위치, 사운드-포함 신호의 인지된 분위기, 사운드-포함 신호의 인지된 동적 범위(dynamic range), 및 사운드-포함 신호의 인지된 스펙트럼 강조 중 적어도 하나를 변경하도록 구성된다.

몇몇 실시양태에서, 사운드 처리 장치는 사운드-포함 신호를 처리하고 실시간으로 좌측 및 우측 출력 신호를 출력하도록 구성된다.

몇몇 실시양태에서, 복수의 심리음향 필터의 적어도 서브세트는 병렬로 작동하도록 구성된다.

본 개시의 일 양태에 따라서, 사운드-포함 신호를 처리하는 방법이 제공되며, 방법은 사운드-포함 신호를 좌측 신호 성분, 우측 신호 성분 및 복수의 지각 특징 성분을 포함한 복수의 신호 성분으로 분리하는 단계; 복수의 신호 성분을 좌측(L) 필터링된 신호 그룹 및 우측(R) 필터링된 신호 그룹으로 필터링하도록 복수의 심리음향 필터를 사용하는 단계; 및 L 필터링된 신호 그룹의 조합을 좌측 출력 신호로서 그리고 R 필터링된 신호 그룹의 조합을 우측 출력 신호로서 출력하는 단계를 포함한다.

몇몇 실시양태에서, 복수의 심리음향 필터 각각은 실제 환경에서 얻은 임펄스 응답으로부터 수정된 MPIR 필터이다.

몇몇 실시양태에서, 복수의 심리음향 필터의 계수는 비-일시적 스토리지(non-transitory storage)에 저장된다.

몇몇 실시양태에서, 상기 복수의 신호 성분을 L 필터링된 신호의 그룹 및 R 필터링된 신호의 그룹으로 필터링하는 단계는 L 필터링된 신호 그룹의 서브세트를 생성하기 위해서 병렬로 복수의 심리음향 필터의 각각의 제 1 서브세트를 통해 복수의 신호 성분 각각을 통과시키는 단계; 및 R 필터링된 신호 그룹의 서브세트를 생성하기 위해서 병렬로 복수의 심리음향 필터의 각각의 제 2 서브세트를 통해 복수의 신호 성분 각각을 통과시키는 단계를 포함한다.

몇몇 실시양태에서, 방법은 복수의 신호 성분 각각의 스펙트럼을 수정하는 단계를 더 포함한다.

몇몇 실시양태에서, 방법은 복수의 신호 성분 중 하나 이상의 상대적인 시간 지연을 수정하는 단계를 더 포함한다.

몇몇 실시양태에서, 상기 사운드-포함 신호를 분리하는 단계는 사운드-포함 신호로부터 복수의 지각 특징 성분을 생성하기 위해서 신경망을 사용하는 단계를 포함한다.

몇몇 실시양태에서, 신경망은 인코더-디코더 컨볼루션 신경망을 포함한다.

몇몇 실시양태에서, 상기 사운드-포함 신호를 분리하는 단계는 사운드-포함 신호의 단시간 푸리에 변환(STFT)을 그의 복소 스펙트럼(CS)으로 계산하는 단계; 및 소프트 마스크와 사운드-포함 신호의 CS의 곱의 IFFT를 계산함으로써 복수의 지각 특징 성분을 생성하는 단계를 포함한다.

몇몇 실시양태에서, 상기 복수의 신호 성분을 필터링하기 위해서 복수의 심리음향 필터를 사용하는 단계는 사운드-포함 신호의 인지된 위치, 사운드-포함 신호의 인지된 분위기, 사운드-포함 신호의 인지된 동적 범위, 및 사운드-포함 신호의 인지된 스펙트럼 강조 중 적어도 하나를 변경하기 위해서 복수의 심리 음향 필터를 사용하는 단계를 포함한다.

몇몇 실시양태에서, 상기 사운드-포함 신호를 분리하는 단계는 사운드-포함 신호를 실시간으로 복수의 신호 성분으로 분리하는 단계를 포함하며; 상기 복수의 신호 성분을 필터링하기 위해서 복수의 심리음향 필터를 사용하는 단계는 복수의 신호 성분을 L 필터링된 신호 그룹 및 R 필터링된 신호 그룹으로 실시간으로 필터링하기 위해서 복수의 심리음향 필터를 사용하는 단계를 포함하며; 상기 L 필터링된 신호 그룹의 조합을 좌측 출력 신호로서 그리고 R 필터링된 신호 그룹의 조합을 우측 출력 신호로서 출력하는 단계는 L 필터링된 신호 그룹의 조합을 좌측 출력 신호로서 그리고 R 필터링된 신호 그룹의 조합을 우측 출력 신호로서 실시간으로 출력하는 단계를 포함한다.

본 개시의 일 양태에 따라서, 사운드-포함 신호를 처리하기 위한 컴퓨터 실행 가능한 명령을 포함한 하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치가 제공되며; 명령은, 실행될 때, 처리 구조가 사운드-포함 신호를 좌측 신호 성분, 우측 신호 성분 및 복수의 지각 특징 성분을 포함한 복수의 신호 성분으로 분리하는 행위; 복수의 신호 성분을 좌측(L) 필터링된 신호 그룹 및 우측(R) 필터링된 신호 그룹으로 필터링하도록 복수의 심리음향 필터를 사용하는 행위; 및 L 필터링된 신호 그룹의 조합을 좌측 출력 신호로서 그리고 R 필터링된 신호 그룹의 조합을 우측 출력 신호로서 출력하는 행위를 수행하게 한다.

몇몇 실시양태에서, 복수의 심리음향 필터 각각은 실제 환경에서 얻은 임펄스 응답으로부터 수정된 MPIR(Modified Psychoacoustical Impulse Response) 필터이다.

몇몇 실시양태에서, 복수의 심리 음향 필터의 계수는 비-일시적 스토리지에 저장된다.

몇몇 실시양태에서, 명령은, 실행될 때, 처리 구조가 복수의 신호 성분 각각의 스펙트럼을 수정하는 행위를 추가로 수행하게 한다.

몇몇 실시양태에서, 명령은, 실행될 때, 처리 구조가 복수의 신호 성분 중 하나 이상의 상대적인 시간 지연을 수정하는 행위를 추가로 수행하게 한다.

몇몇 실시양태에서, 상기 사운드-포함 신호를 분리하는 단계는 사운드-포함 신호의 단시간 푸리에 변환(STFT)을 그의 복소 스펙트럼(complex spectrum; CS)으로 계산하는 단계; 시간-주파수 마스크를 생성하는 단계; 및 소프트 마스크와 사운드-포함 신호의 CS의 곱의 IFFT를 계산함으로써 복수의 지각 특징 성분을 생성하는 단계를 포함한다.

도 1은 본 개시의 몇몇 실시양태에 따른 오디오 시스템의 개략도이다.
도 2는 도 1에 도시된 오디오 시스템의 신호 분해 모듈을 도시한 개략도이다.
도 3a는 도 2에 도시된 신호 분해 모듈의 신호 분리 서브모듈을 도시한 개략도이다.
도 3b는 도 3a에 도시된 신호 분리 서브모듈의 예측 서브모듈의 U-Net 인코더/디코더 컨볼루션 신경망(CNN)을 나타내는 개략도이다.
도 4는 도 1에 도시된 오디오 시스템의 수정된 심리음향 임펄스 응답(MPIR) 필터를 구성하기 위한 임펄스 응답을 얻기 위한 사운드 환경의 개략적인 사시도이다.
도 5a 내지 도 5g는 도 1에 도시된 오디오 시스템의 심리음향 신호 처리 모듈의 세부사항을 도시한 개략도의 일부분이다.
도 6은 도 1에 도시된 심리음향 신호 처리 모듈의 필터의 세부사항을 도시한 개략도이다.

시스템 개요

본 명세서에 개시된 실시양태는 일반적으로, 헤드폰을 통해 오디오 신호를 재생하기 위한 사운드 처리 시스템, 장치 및 방법에 관한 것이다. 본 명세서에 개시된 사운드 처리 시스템, 장치 및 방법은 청취자의 머리 내부 및/또는 외부의 소스로부터 나오는 것처럼 청취자에게 나타나는 방식으로 헤드폰을 통해서 사운드를 재생하고 또한, 그러한 겉보기 사운드 위치가 청취자 또는 사용자에 의해 변경되도록 구성된다. 본 명세서에 개시된 사운드 처리 시스템, 장치 및 방법은 영화 사운드 트랙, 음악, 비디오 게임 및 기타 오디오 제품에 바람직할 때 추가의 이산 음원의 삽입뿐만 아니라 종래의 스테레오 또는 바이노럴 입력 신호를 이용하도록 설계된다.

본 개시의 일 양태에 따르면, 본 명세서에 개시된 시스템, 장치 및 방법은 헤드폰을 통해서 재생될 때, 청취자의 머리 외부의 청취자의 심리음향 환경에서 소리가 생성되거나 발생한다는 인식을 청취자에게 제공할 수 있는 심리 음향학적으로 수정된 바이노럴 신호를 생성하기 위해서 스테레오 또는 바이노럴 오디오 신호를 조작 및 수정할 수 있다. 본 명세서에서, 심리음향 환경은 각각 심리음향 임펄스 응답의 매트릭스로 표현되는 하나 이상의 가상 위치를 포함한다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템, 장치 및 방법은 추가로 주입된 입력 오디오 신호(예를 들어, 게임과 같은 몇몇 애플리케이션 또는 사운드 생성에 필터를 사용하는 몇몇 애플리케이션에서 사운드 환경을 향상시키도록 동적으로 발생하거나 도입된 추가 사운드)와 같은 다른 오디오 신호, 원래 상업용 스테레오 또는 바이노럴 녹음의 일부로서 발견되거나 개별적으로 액세스될 수 있는 것 이외에 분해된 개별 신호(예컨대, 모노(M) 신호, 좌측 채널(L) 신호, 우측 채널(R) 신호, 주변 신호 등), 및/또는 심리음향적으로 수정된 바이노럴 신호를 생성하기 위한 증강으로서 사용하기 위한 것도 처리할 수 있다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템, 장치 및 방법은 청취자의 머리 외부의 하나 이상의 "가상" 음원 및 원하는 경우 청취자의 머리 내부의 하나 이상의 음원의 겉보기 사운드 위치로부터 나오는 것처럼 처리된 오디오 신호가 청취자에게 나타날 수 있는 유선 및/또는 무선 헤드폰을 통한 재생을 위해서 스테레오 또는 바이노럴 오디오 신호를 처리할 수 있다.

몇몇 실시양태에서, 겉보기 사운드 위치는 가상 음원이 하나의 환경으로부터 다른 환경으로 패닝하는 것처럼 하나의 위치로부터 다른 위치로 이동할 수 있도록 변경될 수 있다. 본 명세서에 개시된 시스템, 장치 및 방법은 다중 직접-파 및 기하학적 기반 반사로 표현된 일련의 심리음향 임펄스로부터 결정된 수정된 심리음향 임펄스 응답(MPIR) 필터 세트를 사용함으로써 입력 신호를 처리한다.

시스템 또는 장치는 기존의 스테레오 입력 신호, 특정 경우에 삽입된 이산 신호(즉, 기존 스테레오 입력 신호에 추가로 더해진 분리 또는 별개의 입력 오디오 신호)를 MPIR 필터 세트로 컨볼루션함으로써 이들 신호를 처리하고 그에 따라 헤드폰을 통해 들을 때 현대 영화관이나 홈 시어터 청취 경험(home theater listening experience)과 유사한 야외와 같은 서라운드 사운드 경험을 제공한다. 이 프로세스는 각각의 헤드폰 변환기를 통한 재생을 위한 좌측 및 우측 헤드폰 신호를 생성하도록 합계된, 이에 제한되지 않는 사다리꼴, 볼록 및 오목 다각형 사변형 기하학과 같은 주어진 환경 내의 다양한 기하학으로부터 파생된 다중 MPIR 필터를 사용한다. 다중 기하학을 사용하는 이점은 장치가 라이브 또는 야외 청취 환경에서 발견되는 것을 에뮬레이션(emulate)하게 한다. 각각의 기하학은 사운드 요소가 들리는 방식에 음향적 영향을 제공한다. 3개의 기하학과 후속 필터를 이용하는 예는 다음과 같다:

라이브 환경에서 연주되는 경우 악기는 적어도 3 가지의 뚜렷한 음향 요소를 가진다:

1. 악기의 근접성과 관련된 대부분의 직접적인 음파는 일반적으로 악기로부터 10 cm 내지 1 미터에서 캡처된다.

2. 추가의 주변 반사를 포함한 공연(무대) 영역은 일반적으로, 악기로부터 2 내지 5 미터 이내에서 캡처되며 공연 영역의 다른 악기 또는 보컬 요소와 조합된다.

3. 청취실의 분위기는 일반적으로 청중이 앉을 수 있는 곳으로, 예로서 심포니 오케스트라 및/또는 합창단에서 볼 수 있는 추가 악기 및/또는 목소리와 같은 다른 모든 음원을 포함한다. 이러한 환경은 대규모 콘서트 홀이나 경기장에서 볼 수 있는 공연장으로부터 보통 오(5) 미터 내지 수백 미터의 거리에 있는 매우 복잡한 다중 반사를 가진다. 이는 나이트 클럽이나 소형 장소 극장 환경과 같은 소규모 청취 공간일 수도 있다.

본 명세서에 개시된 시스템, 장치 및 방법은 음악, 영화, 비디오 파일, 비디오 게임, 통신 시스템, 증강 현실 등에 적용 가능한 추가 개별 사운드의 선택적인 삽입으로 종래의 스테레오 파일과 함께 사용될 수 있다.

시스템 구조

이제 도 1을 참조하면, 본 개시의 몇몇 실시양태에 따른 오디오 시스템이 도시되고 일반적으로 참조 부호 100을 사용하여 식별된다. 다양한 실시양태에서, 오디오 시스템(100)은 아래에서 설명되는 모든 구성요소가 내부에 집적된 헤드폰 장치(예를 들어, 헤드폰, 헤드셋, 이어폰, 이어버드 등)의 형태일 수 있거나, 종래의 헤드폰, 헤드셋, 이어폰, 이어버드 등과 같은 헤드폰 장치와 분리되지만 기능적으로 커플링된 신호 처리 장치를 포함할 수 있다.

도 1에 도시된 바와 같이, 오디오 시스템(100)은 신호 소스(102)로부터 오디오 포함 신호(122)를 수신하기 위한 신호 분해 모듈(104), 스펙트럼 수정 모듈(106), 시간 지연 모듈(108), 복수의 심리음향 필터를 가지는 심리음향 신호 처리 모듈(110), (다중 채널)D/A 변환기를 가지는 디지털-아날로그(D/A) 변환기 모듈(112), (다중 채널)증폭기를 가지는 증폭 모듈(114), 및 오디오 정보를 재생하기 위해 사용자의 귀 주위에 또는 사용자의 귀에 위치시키는데 적합한 한 쌍의 스피커와 같은 한 쌍의 변환기(116)를 가지는 스피커 모듈(116)을 포함한다. 오디오 시스템(100)은 또한, 신호 분해 모듈(104), 스펙트럼 수정 모듈(106), 시간 지연 모듈(108), 및 중간 또는 최종 처리 결과를 저장하고 필요에 따라 다른 데이터를 저장하기 위한 심리음향 신호 처리 모듈(110) 중 하나 이상에 기능적으로 커플링된 비-일시적 스토리지(118)를 포함한다.

신호 소스(102)는 오디오 파일, 음악 생성기(예를 들어, MIDI(Musical Instrument Digital Interface: 악기 디지털 인터페이스) 장치), 필요에 따라 또는 원하는 대로 복수의 오디오 클립(예를 들어, 게임 장치의 오디오 출력)을 믹싱하는 오디오 믹서, 오디오 레코더, 라디오 신호(예를 들어, 주파수 변조(FM) 방송 신호), 스트리밍 오디오 신호, 오디오/비디오 스트림의 오디오 구성요소, 영화의 오디오 구성요소, 비디오 게임의 오디오 구성요소 등과 같은 임의의 적합한 오디오-포함 신호 소스일 수 있다.

오디오 포함 신호(122)는 오디오 정보를 포함한 신호일 수 있으며 처리에 적합한 형태이다. 예를 들어, 오디오 포함 신호(122)는 오디오 정보를 나타내거나, 인코딩하거나, 그렇지 않으면 포함하는 전기 신호, 광신호 등일 수 있다. 몇몇 실시양태에서, 오디오 포함 신호(122)는 디지털 신호(예를 들어, 디지털화된 진폭을 가지는 이산-시간 영역의 신호)일 수 있다. 그러나, 당업자는 몇몇 대안적인 실시양태에서, 오디오-포함 신호(122)가 하나 이상의 아날로그-디지털(A/D) 변환기를 통한 디지털 신호로 변환될 수 있는 아날로그 신호(예를 들어, 디지털화되지 않은 또는 아날로그 진폭을 가지는 연속-시간 영역의 신호)일 수 있음을 이해할 것이다. 설명의 편의를 위해서, 오디오 포함 신호(122)는 "오디오 신호"로서 또는 간단히 "신호"로서 간단히 표기될 수 있으며, 스피커 모듈(116)로부터 출력되는 신호는 "음향 신호" 또는 "사운드"로 표기될 수 있다.

몇몇 실시양태에서, 오디오 신호(122)는 복수의 신호 채널을 갖는 종래의 스테레오 또는 바이노럴 신호일 수 있고, 각각의 채널은 일련의 실수(real number)로 표현된다.

도 1에 도시된 바와 같이, 신호 분해 모듈(104)은 신호 소스(102)로부터 오디오 신호(122)를 수신하고 오디오 신호(122)를 복수의 분해된 신호 성분(124)으로 분해하거나 그렇지 않으면 분리한다.

각각의 분해된 신호 성분(124)은 신호 분해 모듈(104)로부터 스펙트럼 등화(spectrum equalization), 스펙트럼 정형화(spectrum shaping) 등과 같은 스펙트럼 수정 및 필요에 따른 상대적인 시간 지연 수정 또는 조정을 위해 스펙트럼 수정 모듈(106) 및 시간 지연 모듈(108)로 출력된다.

더 구체적으로, 스펙트럼 수정 모듈(106)은 분해된 신호 성분(124)을 수정하기 위한 예를 들어, 복수의 컷 필터(cut filter)(예를 들어, 로우-컷(즉, 하이-패스) 필터, 하이-컷(즉, 로우-패스(low-pass)) 필터, 및 /또는 대역-컷(band-cut)(즉, 대역-통과) 필터를 포함할 수 있다. 몇몇 실시양태에서, 스펙트럼 수정 모듈(106)은 분해된 신호 성분(124)을 수정하기 위해서 글로벌 등화 곡선(global equalization curve)을 사용하도록 구성될 수 있다. 몇몇 다른 실시양태에서, 스펙트럼 수정 모듈(106)은 원하는 환경에 적응하기 위해서 각각의 분해된 신호 성분(124)의 독립적인 수정을 위한 복수의 등화 곡선을 사용하도록 구성될 수 있다.

당업자가 이해하게 되는 바와 같이, 오디오 신호의 위상 변화는 사운드가 헤드폰 외부로부터 발생했다는 청취자 인식에 도움이 될 수 있다. 따라서, 스펙트럼 수정 모듈(106)로부터 출력된 신호는 두 귀 사이의 도착 시간 차이인 ITD(interaural time difference: 두 귀 사이의 시간 차이)의 조작을 위해서 시간 지연 모듈(108)에 의해 처리된다. ITD는 청취자와 관련된 사운드의 방향과 각도에 대한 단서를 제공하므로 인간의 소리 위치 지정에 중요한 측면이다. 몇몇 실시양태에서, 다른 시간 지연 조정이 필요하거나 원하는 대로 또한 수행될 수 있다. 당업자가 이해하게 되는 바와 같이, 시간 지연 조정은 믹싱될 때 생성된 출력 신호 내의 특정 사운드의 크기 또는 위치에 대한 청취자의 인식에 영향을 미칠 수 있다.

당업자가 이해하게 되는 바와 같이, 주어진 심리음향 환경의 각각의 MPIR 필터(이후에 더 상세히 설명됨)는 하나 이상의 특정 위상 보정 값(위상이 이와 관련하여 변경되는 것에 의해 선택됨)과 연관될 수 있다. 그러한 위상 보정 값은 환경 내의 다른 음원과 관련하여, 그 쌍의 입력과 관련하여, 또는 MPIR 필터의 출력 신호와 관련하여 입력 신호에 시간 지연을 도입하기 위해서 시간 지연 모듈(108)에 의해 사용될 수 있다.

당업자가 또한 이해할 수 있는 바와 같이, MPIR 필터의 위상 값이 0 내지 360도 범위의 각도까지 표현될 수 있다. 0보다 큰 위상 보정 값을 가지는 MPIR 필터에 대해서, 시간 지연 모듈(108)은 구성된 대로 각각의 MPIR 필터에 입력될 신호를 수정할 수 있다. 몇몇 실시양태에서, 시간 지연 모듈(108)은 신호-패딩(signal-padding)에 의해서(즉, 신호의 끝에 0을 추가함) 또는 전체-통과 필터를 사용함으로써 신호의 위상을 수정하거나 시프트할 수 있다. 전체-통과 필터는 게인(gain)에서 모든 주파수를 균등하게 통과시키지만 다양한 주파수 사이의 위상 관계를 변경한다.

다시 도 1을 참조하면, 스펙트럼 및 시간-지연 수정 신호 성분(124)은 그에 심리음향 환경 효과를 도입(예컨대, 가상 위치, 분위기와 요소 진폭 확장, 스펙트럼 강조 등을 추가)하기 위해서 그리고 한 쌍의 출력 신호(예컨대, 좌측 채널(L) 출력 신호 및 우측 채널(R) 출력 신호)(130)를 형성하기 위해서 심리음향 신호 처리 모듈(110)로 송신된다. 그런 다음, 한 쌍의 출력 신호(130)는 D/A 변환기 모듈(112)을 통해 아날로그 형태로 변환되고, 증폭기 모듈(114)에 의해 증폭되고, 사운드 생성을 위한 스피커 모듈(116)로 송신된다.

도 2에 도시된 바와 같이, 신호 분해 모듈(104)은 오디오 신호(122)를 L 신호 성분(144), R 신호 성분(146) 및 모노(M) 신호 성분(148)(청취자의 바로 앞 또는 바로 뒤의 심리음향 효과를 구성하는데 사용됨)을 포함한 복수의 분해된 신호 성분(124)으로 분해한다. 신호 분해 모듈(104)은 또한, 오디오 신호(122)를 신호 분리 서브모듈(152)을 통해 통과시켜 오디오 신호(122)를 복수의 별개의 지각 특징 성분(150)으로 분해한다. L, R, M 및 지각 특징 성분(144 내지 150)은 스펙트럼 수정 모듈(106) 및 시간 지연 모듈(108)로 출력된다. 지각 특징 성분(150)도 스토리지(118)에 저장된다.

여기서, 지각 특징 성분(150)은 보컬(vocal), 보이스(voice), 악기(예를 들어, 피아노, 바이올린, 기타 등)의 사운드, 배경 음악, 폭발, 총소리 및 기타 특수 음향 효과(명명된 개별 특징으로 총칭됨)와 같은 다양한 특성(예를 들어, 성질, 효과, 악기, 음원 등)의 사운드 성분을 나타낸다.

이들 실시양태에서, 지각 특징 성분(150)은 K 개의 스템(stem) 신호 성분(Stem₁, …, Stem_K)을 포함하며, 여기서 스템 신호 성분(150)는 이산 신호 성분 또는 혼합된 오디오 신호 성분의 그룹화된 모음이며 이는 부분적으로 최종 사운드 구성으로부터 구성되고/되거나 형성된다. 음악적 맥락에서 스템 신호 성분은 예를 들어, 작곡의 모든 현악기, 모든 악기 또는 보컬일 수 있다. 스템 신호 성분(150)은 또한, 예를 들어 게임에서 차량 경적, 폭발 소리, 총소리 등과 같은 다양한 유형의 사운드일 수 있다. 스테레오 오디오 신호는 최종 구성을 생성하기 위해서 함께 혼합된 다중 개별 음원으로 종종 구성된다. 따라서, 스템 신호 성분(150)의 분리는 이들 별개 신호가 처리를 위해 다양한 다운스트림 모듈(106 내지 110)을 통해 개별적으로 지시되는 것을 허용한다.

다양한 실시양태에서, 그러한 스템 신호 성분(150)의 분해는 종래의 방향성 신호 분해(예를 들어, 좌측 채널 및 우측 채널) 또는 주파수 기반 분해(예를 들어, 종래의 이퀄라이저에서 주파수 대역 분리)와 상이할 수 있고/있거나 그에 부가될 수 있고 사운드의 비-방향성, 비-주파수-기반, 지각적 특성과 같은 사운드의 비-방향성 및 비-주파수-기반 특성에 기초할 수 있다.

도 3a에 도시된 바와 같이, 이들 실시양태에서, 신호 분리 서브모듈(152)은 기계 학습 모델과 같은 인공 지능(AI) 모델(170)을 이용하여 시간-주파수 마스크 또는 소프트 마스크(soft mask)를 예측하고 적용함으로써 오디오 신호(122)를 스템 신호 성분(150)으로 분리한다. 신호 분리 서브모듈(152)은 신호 전처리 서브모듈(172), 예측 서브모듈(174) 및 신호 후처리 서브모듈(176)을 순차적으로 포함한다. 신호 분리 서브모듈(152)로의 입력은 실수값 신호로 공급되어 신호 전처리 서브모듈(172)에 의해서 1차 처리된다. 이들 실시양태에서 예측 서브모듈(174)은 각각의 스템 신호 성분을 개별적으로 분리하는데 사용되는 신경망(170)을 포함한다(즉, 신경망(170)은 K 스템 신호 성분을 개별적으로 분리하기 위해서 K-회 동안 사용될 수 있다).

전처리 서브모듈(172)은 오디오 신호(122)를 수신하고 그의 단-시간 푸리에 변환(STFT)을 계산하여 그의 복소 스펙트럼을 얻은 다음에, 오디오 신호(122)의 실수 크기 스펙트럼(178)을 얻는데 사용되며, 이는 후처리 서브모듈(174)에 의한 나중 사용을 위해서 스토리지(118)오디오 신호(122)에 저장된다. 크기 스펙트럼(178)은 오디오 신호(122)로부터 각각의 스템 신호 성분(150)을 분리하기 위해서 예측 서브모듈(174)로 공급된다.

예측 서브모듈(174)은 임의의 적합한 신경망을 포함하거나 사용할 수 있다. 예를 들어, 이들 실시양태에서, 예측 서브모듈(174)은 U-Net 인코더-디코더 CNN과 같은 인코더-디코더 CNN(Convolutional Neural Network: 합성곱 신경망)(170)을 포함하거나 사용하며, 이에 대한 세부사항은 Hennequin, Romain 등에 의해서 Journal of Open Source Software, vol. 5, no. 50, 2020, p. 2154에 공개되고 https://joss.theoj.org/papers/10.21105/joss.02154에서 액세스할 수 있는 학술 논문 "Spleeter: a fast and efficient music source separation tool with pre-trained models”에 설명되어 있다.

도 3b에 도시된 바와 같이, U-Net 인코더/디코더 CNN(170)은 인코딩을 위한 6 개의 블록(182) 및 디코딩을 위한 다른 6 개의 블록(192)을 갖는 12 개의 블록을 포함한다. 각각의 인코딩 블록은 컨볼루션 계층(184), 배치 정규화 계층(186) 및 누설 정류 선형 활성화 함수(Leaky ReLU)(188)를 포함한다. 디코딩 블록(192)은 전치 컨볼루션 계층(194), 배치 정규화 계층(196) 및 선형 정류 활성화 함수(ReLU)(198)를 포함한다.

예측 서브모듈(174)의 각각의 컨볼루션 계층(184)에는 5x5 커널(kernel) 및 편향 벡터의 형태와 같은 미리 훈련된 가중치가 제공된다. 또한, 각각의 블록의 배치 정규화 계층(186)에는 스케일링 및 오프셋 인수에 대한 벡터가 제공된다.

각각의 인코더 블록의 컨볼루션 출력은 이전 디코더가 컨볼루션 출력을 바꾼 결과로써 공급되거나 연결되어 다음 디코더 블록으로 공급된다.

각각의 신호 성분(150)에 대한 U-Net 인코더/디코더 CNN(174)의 가중치의 훈련은 인코더-디코더 컨볼루션 신경망(170)에 미리 정의된 구성 및 인코더-디코더 컨볼루션 신경망(170)이 그들의 특성을 학습하기 위해 이와 연관된 분리된 스템 신호 성분(150)에 제공함으로써 달성된다. 훈련 손실은 마스크된 입력 믹스 스펙트럼(masked input mix spectrum)과 소스-타겟 스펙트럼(source-target spectrum) 사이의 L₁-norm이다.

U-Net 인코더/디코더 CNN(174)은 오디오 신호(122)로부터 분리될 각각의 스템 신호 성분(150)에 대한 소프트 마스크를 생성하기 위해서 사용된다. 스템 신호 성분(150)의 분해는 소프트 마스킹 또는 다중 채널 위이너 필터링(Wiener filtering)을 사용하여 크기 스펙트럼(178)("소스 스펙트럼"으로도 표시됨)으로부터 신호 후처리 서브모듈(176)에 의해서 수행된다. 이러한 접근방식은 오디오 신호(122)로부터 의미 있는 특징을 추출하는데 특히 효과적이다.

예를 들어, U-Net 인코더-디코더 CNN(170)은 오디오 신호(122)의 복소 스펙트럼 및 그의 각각의 크기 스펙트럼(178)을 계산한다. 더 구체적으로, U-Net 인코더/디코더 CNN(170)은 신호 전처리 서브 모듈(172)에서 계산된 크기 스펙트럼(178)을 수신하여 분리하는 스템 신호 성분(150)의 크기 스펙트럼 예측을 계산한다.

계산된 예측값(P), 크기 스펙트럼(S) 및 분리되는 스템 신호 성분(150)의 수(n)를 사용하여, 소프트 마스크(Q)는 다음과 같이 계산된다:

Q = Pⁿ/Sⁿ (1)

신호 후처리 서브모듈(176)은 소프트 마스크와 복소 스펙트럼의 곱의 IFFT(inverse fast Fourier transform: 역 고속 푸리에 변환)를 계산함으로써 스템 신호 성분(150)을 생성한다. 각각의 스템 신호 성분(150)은 L 채널 신호 성분 및 R 채널 신호 성분을 포함할 수 있다.

전술한 바와 같이, 분해된 신호 성분(L, R, M 및 스템 신호 성분(144 내지 150))은 스펙트럼 수정 및 상대적인 시간 지연의 조정을 위해서 스펙트럼 수정 모듈(106) 및 시간 지연 모듈(108)에 의해 수정된다. 스펙트럼 및 시간 지연 수정 신호 성분(124)(스펙트럼 및 시간 지연 수정 성분(L, R, M) 및 L, R, M으로 여전히 표시되는 스템 신호 성분 그리고 스템 신호 성분(144 내지 150)을 포함함)은 그에 심리음향 환경 효과를 도입하고(환언하면, 원하는 환경의 심리음향 효과를 구성하고) 한 쌍의 출력 신호(130)(예컨대, L 출력 신호 및 R 출력 신호)를 형성하기 위해서 심리음향 신호 처리 모듈(110)로 송신된다.

심리음향 신호 처리 모듈(110)은 특정 실제 환경에 대응하는 심리음향 환경을 생성하기 위한 복수의 수정된 심리음향 임펄스 응답(MPIR) 필터를 포함한다. 각각의 MPIR 필터는 실제 환경으로부터 얻은 임펄스 응답의 수정된 버전에 대응한다. 그러한 환경은 소위 "전형적인" 사운드 환경일 수 있으며 반사, 음량 및 균일성과 같은 다양한 음향 품질에 기반하여 선택될 수 있다.

몇몇 실시양태에서, 각각의 임펄스 응답은 대응하는 실제 환경에서 독립적으로 얻어진다. 도 4는 임펄스 응답 세트를 얻기 위해서 내부에 구축된 장비를 가지는 실제 환경(200)을 도시한다.

도시된 바와 같이, 인간 귀의 전형적인 거리에 대응하는 거리로 이격된 한 쌍의 마이크로폰과 같은 한 쌍의 오디오 캡처 장치(202)가 환경(200)에서 3차원(3D) 위치에 설정된다. 스피커와 같은 음원(도시되지 않음)은 한 쌍의 오디오 캡처 장치(202)와 떨어진 3D 위치(204)에 위치된다.

음원은 미리 정의된 오디오 신호를 재생한다. 오디오 캡처 장치(202)는 좌측 채널 임펄스 응답 및 우측 채널 임펄스 응답을 얻기 위해서 전체 가청 주파수 범위(20 Hz 내지 20,000 Hz) 내에서 음원으로부터 전송된 오디오 신호를 캡처한다. 그런 다음에, 음원이 다른 임펄스 응답 쌍을 생성하기 위해서 다른 3D 위치로 이동된다. 이 프로세스는 모든 위치(또는 모든 "대표" 위치)에 대한 임펄스 응답이 얻어질 때까지 반복될 수 있다.

다양한 실시양태에서, 각각의 3D 위치(204)에서 음원의 거리, 각도 및 높이는 경험적으로, 체험적으로, 또는 환경(200)의 음향 특성에 기초하여 결정될 수 있어서, 3D 위치(204)에서 음원에 기초하여 얻어진 임펄스 응답은 환경(200)을 "대표"한다. 또한, 당업자는 몇몇 실시양태에서 복수의 음원이 다양한 위치에서 동시에 설정될 수 있음을 이해할 것이다. 각각의 음원은 오디오 캡처 장치(202)가 임펄스 응답을 캡처하고 얻는 순서대로 사운드를 생성한다.

각각의 임펄스 응답은 이산 시간 영역으로 변환(예를 들어, 샘플링 및 디지털화)되어 수정될 수 있다. 예를 들어, 몇몇 실시양태에서, 각각의 임펄스 응답은 필터 최적화 목적을 위해서 10,000 내지 15,000 샘플과 같은 미리 정의된 길이로 절단될 수 있다.

몇몇 실시양태에서, 임펄스 응답은 방향성 임펄스와 감쇄된 꼬리 부분(즉, 편집 지점 이후의 부분)을 포함한, 2 개의 구성요소로 분할될 수 있다. 방향성 임펄스는 청취자와 관련된 위치에서 생성된 사운드에 대한 핀나의 스펙트럼 컬러링(spectral coloring of the pinna)을 포함한다.

꼬리 부분의 길이(동등하게, 임펄스 응답에서 편집 지점의 위치)는 경험적으로, 체험적으로 또는 그렇지 않으면 원하는 방식으로 결정될 수 있다. 꼬리 부분의 진폭은 특정 유형의 사운드에 대해 원하는 분위기를 달성하기 위해서 증폭 계수(β)에 의해 가중될 수 있다(즉, 증폭 계수(β)가 1 보다 크면 증가하거나, 증폭 계수(β)가 0 내지 1이면 감소하거나, 증폭 계수(β)가 1과 같으면 변하지 않으며, 그에 따라 오디오 시스템(100)이 초기 임펄스 응답으로부터 실내 반사를 맞춤화하고 수정되지 않은 임펄스 응답과는 달리 매우 독특한 청취 경험을 생성하게 한다.

증폭 계수(β)의 값은 (예를 들어, 신호 내용에 따라서 그리고 다중 환경이 매우 상이한 음향 특성을 가질 수 있고 원하는 결과를 달성하기 위해서 적합한 균형을 요구할 수 있는 주어진 환경에 바람직한 반사 수준의 양에 따라서)관심 있는 환경 반사로부터 초기 임펄스 스파이크의 정보 수준을 수정하도록 설계되고 헤드폰으로 들을 때, 일반적으로 청취자의 머리에 상대적인 음원의 겉보기 위치에 상대적인 위치 정보를 포함하는 초기 스파이크(spike) 이후 임펄스에 포함된 반사를 증가시키도록 설계될 수 있는 수정 수준을 나타낸다.

초기 임펄스 응답의 스펙트럼 수정 및/또는 시간 지연 조정은 (예를 들어, 사운드의 상호작용과 다중 환경 사이의 MPIR 필터 효과에 따라서)초기 임펄스 편집 지점 이전 또는 이후에 원하는 요소 확장을 강조하여 청취자의 경험을 더욱 향상시키는데 사용할 수 있다. 이러한 수정은 초기 임펄스 응답을 넘어서는 시간 위치(즉, 편집 위치)를 선택하고 증폭 계수(β)를 제공함으로써 달성된다. 전술한 바와 같이, 0 내지 1 범위의 증폭 계수는 사실상, 반사 및 기타 환경적 요인에 의해서 야기된 왜곡을 감소시키는 결과를 초래하는 압축 계수이며, 1보다 큰 증폭 계수는 결과적인 오디오의 증폭을 허용한다.

수정된 각각의 임펄스 응답은 MPIR 필터의 전달 함수를 결정하는데 사용된다. 당업자가 이해하는 바와 같이, 전달 함수는 필터의 구조(예를 들어, 그의 계수)를 결정한다.

따라서, 3D 환경(200)의 위치(204)에서의 음원으로부터 사용자의 좌측 귀 또는 우측 귀로의 음향 전파 특성을 각각 나타내는 복수의 좌측 채널 MPIR 필터 및 우측 채널 MPIR 필터가 얻어질 수 있다. 다양한 3D 환경의 MPIR 필터는 전술한 바와 같이 얻어지고 사용을 위해 스토리지(118)에 저장될 수 있다.

몇몇 실시양태에서, 캡처 환경 내의 MPIR 필터는 대칭이 시상면(sagittal plane)을 따라서 존재하는 쌍(예를 들어, 하나는 청취자의 좌측 귀에 대응하고 다른 하나는 청취자의 우측 귀에 대응)으로 그룹화될 수 있다. MPIR-필터 쌍은 할당된 소스 신호, 레벨 및 위상 매개변수와 같은 필터 구성 내에서 특정 매개변수를 공유한다.

몇몇 실시양태에서, 주어진 환경 내에서 캡처된 모든 MPIR 필터 및 MPIR-필터 쌍은 MPIR 필터 뱅크(filter bank)로 그룹화될 수 있다. 각각의 MPIR 필터 뱅크는 3D 환경(200)의 사운드 위치에 대응하는 각각의 MPIR-필터 쌍을 가지는 하나 이상의 MPIR-필터 쌍을 포함하여, MPIR 필터 뱅크의 MPIR-필터 쌍은 제 1 위치로부터 청취자의 좌측 및 우측 귀까지의 사운드 전파 모델을 (MPIR 필터 뱅크가 하나 이상의 MPIR-필터 쌍을 포함하는 경우)3D 환경(200)의 하나 이상의 위치에서 반사와 함께 나타낸다. MPIR 뱅크의 각각의 MPIR-필터 쌍에는 가중 요인이 제공된다. 환경 가중치 요소는 최종 혼합에서 다른 환경과 관련하여 환경의 고유한 청각 품질에 대한 제어를 허용한다. 이러한 특징은 특정 상황에 적합한 환경을 강조하고 음향 특성이 충돌할 수 있는 환경을 감소시킬 수 있다.

이후에 더 상세히 설명되는 바와 같이, 수정된 캡처 기하학 구조에 의해서 생성된 복소 제 1 파(complex first wave) 및 다중 기하학 구조 기반 반사를 포함한 MPIR 필터는 청취자에게 개선된 청취 경험을 제공하도록 캐스케이딩(cascading) 및/또는 조합될 수 있다. 작동 시, 각각의 MPIR 필터는 환경 품질과 청취자의 귓바퀴 효과로 스펙트럼을 "채색"하기 위해 입력 신호와 컨볼루션한다. 따라서, (병렬 및/또는 직렬로)MPIR 필터를 캐스케이딩 및/또는 조합한 결과는 두 귀의 캡처 환경 및 귓바퀴의 구조적 차이로 인해서 매우 복잡한 두 귀 사이의 스펙트럼 차이를 전달할 수 있다. 이는 시스템 사운드 처리를 위한 심리음향적으로 정확한 최종 MPIR 필터를 초래한다.

다양한 실시양태에서, MPIR 필터는 MPFIR(Modified Psychoacoustical Finite Impulse Response: 수정된 심리음향적 유한 임펄스 응답) 필터, MPIIR(Modified Psychoacoustical Infinite Impulse Response: 수정된 심리음향적 무한 임펄스 응답) 필터 등으로 구현될 수 있다.

각각의 MPIR 필터는 대응 음원 위치, 원하는 입력 신호 유형, 대응 환경의 이름, 위상 보정 값과 같은 위상 조정(원하는 경우) 등과 같은 필요한 정보와 연관될 수 있다. 다중 음향 환경으로부터 캡처된 MPIR 필터는 소비되는 미디어 유형, 예를 들어, 음악, 영화, 비디오, 증강 현실, 게임 등에 관한 최적의 청취 조건에 맞춰지는 원하는 심리음향 환경을 생성하기 위한 심리음향 임펄스 응답 필터(PIRF) 뱅크를 생성하기 위해서 할당된 입력 신호에 의해 그룹화된다(예컨대, 음악, 보컬, 보이스, 엔진 소리, 폭발 등과 같은 상이한 유형의 사운드로 그룹화되며; 예를 들어, MPIR의 할당된 신호는 음성 분리 트랙의 좌측 채널일 수 있다).

도 5a 내지 도 5g는 심리음향 신호 처리 모듈(110)의 세부사항을 예시하는 개략도의 일부분이다. 도시된 바와 같이, 심리음향 신호 처리 모듈(110)은 L 신호 성분, R 신호 성분, M 신호 성분, 및 K 스템 신호 성분을 처리하기 위해서 복수의 MPIR 필터 뱅크(242-1, 242-2, 242-3, 242-4(k) 및 242-5(k), 여기서 k = 1, … K)를 포함한다. 각각의 MPIR 필터 뱅크(242)는 하나 이상(예를 들어, 2 개)의 MPIR 필터 쌍 MPIR_A1 및 MPIR_B1(MPIR 필터 뱅크(242-1)용), MPIR_A2 및 MPIR_B2(MPIR 필터 뱅크(242-2)용), MPIR_A3 및 MPIR_B3(MPIR 필터 뱅크(242-3)용), MPIR_A4 _(k) 및 MPIR_B4(k)(MPIR 필터 뱅크 242-4(k)용), 그리고 MPIR_A5 _(k) 및 MPIR_B5(k)(MPIR 필터 뱅크 242-5(k)용)을 포함한다. 각각의 MPIR 필터 쌍은 한 쌍의 MPIR 필터(MPIR_AxL 및 MPIR_AxR, 여기서 x는 전술한 첨자 1, 2, 3, 4(k) 및 5(k)를 나타냄)를 포함한다. MPIR 필터의 계수는 스토리지(118)에 저장되고 스토리지로부터 얻어진다. 각각의 신호 성분은 MPIR 필터 뱅크(MPIR_Ax 및 MPIR_Bx)에 의해 처리된다.

예를 들어, 도 5a에 도시된 바와 같이, L 신호 성분(144)은 L 및 R 필터링된 신호 쌍(L_OUTA1 및 R_OUTA1)을 각각 생성하는 MPIR 필터 뱅크(242-1)의 MPIR 필터 쌍(MPIR_A1)의 한 쌍의 MPIR 필터(MPIR_A1L 및 MPIR_A1R)를 통과한다. L 신호 성분(144)은 또한, L 및 R 필터링된 신호 쌍(L_OUTB1 및 R_OUTB1)을 각각 생성하는 MPIR 필터 뱅크(242-1)의 MPIR 필터 쌍(MPIR_B1)의 한 쌍의 MPIR 필터(MPIR_B1L 및 MPIR_B1R)를 통과한다. 2 개의 MPIR 필터 뱅크(MPIR_A1 및 MPIR_B1)에 의해 생성된 L 필터링된 신호는 합산되거나 그렇지 않으면 조합되어 조합된 L 필터링된 신호(ΣL_OUT1)를 생성한다. 유사하게, 2 개의 MPIR 필터 뱅크(MPIR_A1 및 MPIR_B1)에 의해 생성된 R 필터링된 신호는 합산되거나 그렇지 않으면 조합된 R 필터링된 신호(ΣR_OUT1)를 생성한다.

당업자가 이해하게 되는 바와 같이, MPIR 필터를 통해 신호를 통과시킬 때, 신호는 좌측 또는 우측 귀에 대해 캡처된 MPIR 필터 계수와 컨볼루션된다. 도 6은 신호(s(nT))를 도시하는 개략도이고, T는 2 개의 MPIR 필터(302 및 304)를 가지는 MPIR 필터 뱅크를 통과하는 샘플링 주기이다. MPIR 필터(302 및 304)의 계수(C_L = [C_L1, C_L2,..., C_LN] 및 CR = [C_R1, C_R2,..., C_RN])은 스토리지(118)에 저장되고 신호(s(nT))를 처리하기 위해서 검색될 수 있다.

도 6에 도시된 바와 같이, 신호(s(nT))는 각각의 MPIR 필터(302, 304)를 통과할 때 시간 주기(T)만큼 순차적으로 지연되고 필터의 계수에 의해 가중된다. 신호(s(nT))의 모든 지연 및 가중된 버전은 합산되어 출력(R_L(nT) 또는 R_R(nT))을 생성한다. 예를 들어, 입력 신호(s(nT))가 L 신호 성분(144)이고 필터(302 및 304)가 MPIR 필터 뱅크(MPIR_A1)의 MPIR 필터일 때, 출력(R_L(nT) 또는 R_R(nT))은 각각 L 및 R 필터링된 신호(L_OUTA1 및 R_OUTA1)이다.

R, M 및 K 스템 신호 성분(146 내지 150)은 도 6에 도시된 필터 구조와 유사한 방식으로 그리고 그 필터 구조로 처리되며, 이들 각각은 한 쌍의 MPIR 필터 뱅크 MPIR_A2 및 MPIR_B2(R 신호 성분(146)용), MPIR_A3 및 MPIR_B3(M 신호 성분(148)용), MPIR_A4(k) 및 MPIR_B4 _(k)(k-번째 L-채널 스템 신호 성분(150)용, 여기서 k = 1,..., K), 그리고 MPIR_A5 _(k) 및 MPIR_B5(k)(k-번째 R-채널 스템 신호 성분(150)용, 여기서 k = 1,..., K))를 통과하며, 도 5b 내지 도 5e에 도시된 바와 같이, 조합된 L 필터링된 신호(∑L_OUT2, ∑L_OUT3, ∑L_OUT4 _(k) 및 ∑L_OUT5 _(k)) 및 조합된 R 필터링된 신호(∑R_OUT2, ∑R_OUT3, ∑R_OUT4 _(k) 및 ∑R_OUT5 _(k))를 생성한다.

도 5f에 도시된 바와 같이, 조합된 모든 L 필터링된 신호(ΣL_OUT1, ΣL_OUT2, ΣL_OUT3, ΣL_OUT4 _(k), 및 ΣL_OUT5 _(k), 여기서 k = 1, …, K)는 합산되거나 그렇지 않으면 조합되어 L 출력 신호(L_OUT)를 생성한다. 도 5g에 도시된 바와 같이, 조합된 모든 R 필터링된 신호(ΣR_OUT1, ΣR_OUT2, ΣR_OUT3, ΣR_OUT4 _(k) 및 ΣR_OUT5 _(k), 여기서 k = 1, …, K)는 합산되거나 그렇지 않으면 조합되어 R 출력 신호(R_OUT)를 생성한다. 전술한 바와 같이, L 및 R 출력 신호는 심리음향 신호 처리 모듈(110)의 출력 신호(130)를 형성하여, 증폭 모듈(114)에서 증폭되고 사운드 생성을 위한 스피커 모듈(116)의 스피커로 출력되는 D/A 컨버터(112)로 출력된다.

몇몇 실시양태에서, 스피커 모듈(116)은 헤드폰일 수 있다. 당업자는 시중의 헤드폰이 유형(인-이어(in-ear) 또는 오버-이어(over ear)), 조작자, 조작자 위치 및 다양한 기타 요인에 기초한 상이한 스펙트럼 특성 및 청각 품질을 가질 수 있음을 이해한다. 이들 차이에 적응하기 위해서, 시스템이 이들 경우를 수용할 수 있는 특정 헤드폰 구성이 생성되었다. 맞춤형 이퀄라이제이션 곡선, 심리음향 임펄스 응답의 선택 등과 같은 오디오 시스템(100)의 다양한 매개변수는 변경될 수 있다. 헤드폰 구성은 콘텍스트(context)가 선택된 헤드폰에 대해 고유한 구성을 가질 수 있는 음악, 영화 및 게임의 오디오 신호와 같은 오디오 신호(122)의 콘텍스트에 기초하여 부가적으로 설정된다.

개인 영역 네트워크 장치(PAN 장치)로서의 블루투스 헤드폰은 MAC(Media Access Control: 매체 접근 제어) 주소를 이용한다. 장치의 MAC 주소는 장치에 고유하며 6 개의 옥텟(octet)으로 더 세분화될 수 있는 12자의 영숫자 값으로 구성된다. MAC 주소의 처음 3 개 옥텟은 IEEE(Institute of Electrical and Electronics Engineers: 미국 전기 전자학회)에 의해 장치 제작업체에 할당된 조직 고유 식별자(OUI)를 형성한다. OUI는 헤드폰 구성 선택을 위한 축소된 옵션 세트가 사용자에게 제시될 수 있도록 연결된 헤드폰의 제조업체를 식별하기 위해서 오디오 시스템(100)에 의해 이용될 수 있다. 고유한 MAC 주소의 후속 연결이 정확한 구성과 연관될 수 있도록 선택사항이 저장된다.

유선 헤드폰(엄격히 아날로그 장치일 수 있음)의 경우에, 헤드폰과 이들이 연결되는 최종 장치 사이에 양방향 통신이 없다. 다만, 이러한 상황에서, 오디오 시스템(100)은 출력 장치가 이전 상태로부터 변경되었음을 알릴 수 있다. 이것이 발생할 때, 오디오 시스템(100)은 적절한 구성이 그들의 특정 헤드폰에 사용될 수 있도록 어떤 헤드폰이 연결되어 있는 지를 식별하도록 사용자에게 촉구할 수 있다. 사용자 선택은 편의를 위해 저장되며 헤드폰 잭이 사용 중임을 오디오 시스템(100)이 후속하여 알릴 때 마지막으로 선택된 헤드폰 구성이 선택될 수 있다.

오디오 시스템(100)에서 달성되는 효과는 임의의 주어진 헤드폰 구성에서 디폴트 구성(default configuration)에 의해 구성된다. 그러나 이러한 효과는 달성된 효과 수준에 대한 최종 사용자의 선호도를 달성하기 위해서 최종 사용자에 의해 조정될 수 있다. 이러한 효과는 구성에서 정의된 대로 MPIR의 상대적인 혼합의 변경을 통해서 달성되어, 출력에 더 큰 영향을 미치는 몇몇 환경에 다소간의 우선순위를 부여한다.

구현

전술한 실시양태는 심리음향적으로 처리된 사운드가 그 근처를 둘러싸는 공간의 위치에서 청취자의 머리 외부에 위치된 소스로부터 나오는 것으로, 그리고 몇몇 경우에 원하는 대로 머리 속의 사운드와 조합하여 청취자에게 나타나는 헤드폰을 통해서 재생하기 위한 오디오 신호를 처리하기 위한 시스템, 장치 및 방법을 제공한다.

몇몇 실시양태에서, 오디오 시스템(100)의 모듈(104 내지 118)은 헤드셋과 같은 단일 장치에서 구현될 수 있다. 몇몇 다른 실시양태에서, 모듈(104 내지 118)은 분리되었지만 기능적으로 연결된 장치로 구현될 수 있다. 예를 들어, 일 실시양태에서, 모듈(104 내지 112) 및 모듈(118)은 미디어 플레이어와 같은 단일 장치로서 또는 게임 장치와 같은 다른 장치의 구성요소로서 구현될 수 있으며, 모듈(114 및 116)은 미디어 플레이어 또는 게임 장치에 기능적으로 연결된 헤드폰과 같은 별도의 장치로서 구현될 수 있다.

당업자는 오디오 시스템(100)이 임의의 적합한 기술을 사용하여 구현될 수 있음을 이해할 것이다. 예를 들어, 몇몇 실시양태에서, 오디오 시스템(100)의 일부 또는 모든 모듈(104 내지 114)은 별도의 전기 구성요소를 가지는 하나 이상의 회로 또는 하나 이상의 디지털 신호 처리(DSP) 칩과 같은 하나 이상의 집적 회로(IC), 하나 이상의 FPGA(field-programmable gate array: 필드 프로그램 가능한 게이트 어레이), 하나 이상의 ASIC(application-specific integrated circuit: 주문형 집적 회로) 등을 사용하여 구현될 수 있다.

몇몇 다른 실시양태에서, 오디오 시스템(100)은 일부 또는 모든 모듈(104 내지 l16)의 기능을 구현하는데 필요한 회로와 함께, 하나 이상의 마이크로컨트롤러, 하나 이상의 마이크로프로세서, 하나 이상의 SoC(system-on-a-chip: 시스템 온 칩) 구조 등을 사용하여 구현될 수 있다. 또 다른 몇몇 실시양태에서, 오디오 시스템(100)은 범용 컴퓨터, 스마트폰, 태블릿 등과 같은 컴퓨팅 장치를 사용하여 구현될 수 있으며, 여기서 일부 또는 모든 모듈(104 내지 110)은 하나 이상의 소프트웨어 프로그램 또는 프로그램 모듈, 또는 펌웨어 프로그램 또는 프로그램 모듈로서 구현된다. 소프트웨어/펌웨어 프로그램 또는 프로그램 모듈은 스토리지(118)와 같은 하나 이상의 비-일시적 저장 매체에 저장되어 컴퓨팅 장치의 하나 이상의 프로세서가 모듈(104 내지 110)의 기능을 수행하기 위해서 소프트웨어/펌웨어 프로그램 또는 프로그램 모듈을 읽고 실행할 수 있다.

몇몇 실시양태에서, 스토리지(118)는 하나 이상의 RAM, 하드 드라이브, 솔리드-스테이트 메모리 등과 같은 임의의 적합한 비-일시적 저장 장치일 수 있다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템, 장치 및 방법은 헤드폰을 통해 처리된 오디오 신호를 재생하기 위해 실시간으로 오디오 신호를 처리한다.

몇몇 실시양태에서, MPIR 필터의 적어도 서브세트는 오디오 신호의 실시간 신호 처리를 용이하게 하기 위해서 병렬로 작동하도록 구성될 수 있다. 예를 들어, MPIR 필터는 오디오 신호의 실시간 신호 처리를 용이하게 하기 위해서 병렬로 작동하는 복수의 필터 회로로서 구현될 수 있다. 대안적으로, MPIR 필터는 오디오 신호의 실시간 신호 처리를 용이하게 하기 위해서 복수의 프로세서 코어에 의해 병렬로 실행될 수 있는 소프트웨어/펌웨어 프로그램 또는 프로그램 모듈로서 구현될 수 있다.

몇몇 실시양태에서, 각각의 MPIR 필터(L_OUTAx 또는 L_OUTBx)의 출력의 상대적인 시간 지연은 체인에서 가장 바람직한 전체 심리음향 값을 강조하도록 추가로 조정되거나 수정될 수 있다.

몇몇 실시양태에서, MPIR 필터(또는 더 구체적으로 그의 계수)는 오디오 신호(122)의 인지된 위치를 변경하도록 구성될 수 있다.

몇몇 실시양태에서, MPIR 필터(또는 더 구체적으로 그의 계수)는 오디오 신호(122)의 인지된 분위기를 변경하도록 구성될 수 있다.

몇몇 실시양태에서, MPIR 필터(또는 더 구체적으로 그의 계수)는 오디오 신호(122)의 인지된 동적 범위를 변경하도록 구성될 수 있다.

몇몇 실시양태에서, MPIR 필터(또는 더 구체적으로 그의 계수)는 오디오 신호(122)의 인지된 스펙트럼 강조를 변경하도록 구성될 수 있다.

몇몇 실시양태에서, 신호 분해 모듈(104)은 모노 신호 성분(148)을 생성하지 않을 수 있다.

몇몇 실시양태에서, 오디오 시스템(100)은 스피커 모듈(116)을 포함하지 않을 수 있다. 오히려, 오디오 시스템(100)은 D/A 컨버터 모듈(112)의 출력을 캐리어 신호(carrier signal)로 변조하고 방송을 위해서 변조된 캐리어 신호를 증폭기 모듈(114)을 사용하여 증폭할 수 있다.

몇몇 실시양태에서, 오디오 시스템(100)은 D/A 컨버터 모듈(112), 증폭기 모듈(114) 및 스피커 모듈(116)을 포함하지 않을 수 있다. 오히려, 오디오 시스템(100)은 미래의 연주를 위해서 심리음향 신호 처리 모듈(110)의 출력을 스토리지(118)에 저장할 수 있다.

몇몇 실시양태에서, 오디오 시스템(100)은 스펙트럼 수정 모듈(106) 및/또는 시간 지연 모듈(108)을 포함하지 않을 수 있다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템, 장치 및 방법은 입력 신호로부터 식별될 수 있는 다양한 본성 또는 특성(예를 들어, 다양한 기구, 소스 등)을 가지는 청각적 요소 세트를 정의하는 사전 훈련된 U-Net 인코더/디코더 CNN(174)을 사용함으로써 입력 신호를 하나 이상의 사전 정의된 별개의 신호 또는 특징의 세트로 분리한다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템, 장치 및 방법은 소프트 마스크 예측 프로세스에 사용하기 위해서 청각 요소 세트를 식별하도록 U-Net 인코더/디코더 CNN(174)의 생성 및 트레이닝용 다른 시스템을 사용할 수 있다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템, 장치 및 방법은 음악, 영화, 비디오 파일, 비디오 게임, 통신 시스템 및 증강 현실에 적용 가능한 위치에 배치될 이산 사운드의 삽입과 함께 종래의 스테레오 파일을 사용할 수 있다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템, 장치 및 방법은 오디오 신호 소스의 겉보기 위치가 청취자의 머리 외부에 위치하고 그 겉보기 위치가 MPIR 필터의 매개변수를 조정하거나 상이한 MPIR 필터를 통해 그의 입력 신호 또는 몇몇 이산 특징을 통과시킴으로써 청취자와 관련하여 이동하도록 만들어질 수 있는 헤드폰을 통해 오디오 신호를 재생하기 위한 장치를 제공할 수 있다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템, 장치 및 방법은 청취자의 머리 외부의 겉보기 또는 가상 사운드 위치뿐만 아니라 사용자의 머리 내부를 통한 패닝를 제공할 수 있다. 또한, 겉보기 음원은 바람직하게, 사용자의 지시에 따라서 이동하도록 만들어질 수 있다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템, 장치 및 방법은 오디오 신호 소스의 겉보기 위치가 청취 경험을 향상시키기 위한 조합으로 청취자의 머리 외부 및 내부에 위치되고 겉보기 사운드 위치가 청취자와 관련하여 이동하도록 만들어질 수 있는 헤드폰을 통해 오디오 신호를 재생하기 위한 장치를 제공할 수 있다.

몇몇 실시양태에서, 청취자는 예를 들어, 사용자 제어 인터페이스를 통한 장치의 작동에 의해서 오디오 신호의 겉보기 위치를 "이동"시킬 수 있다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템, 장치 및 방법은 오디오 사운드 신호를 처리하여 청취자 헤드폰의 좌측 및 우측 변환기를 통해 재생을 위한 2 개의 신호를 생성할 수 있으며, 여기서 스테레오 입력 신호에는 방향 정보가 제공되어 좌측 및 우측 신호의 겉보기 소스가 청취자로부터 인식된 사운드의 거리에 대한 제어를 포함하여 청취자의 머리 외부를 둘러싸는 구체에 독립적으로 위치되게 한다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템, 장치 및 방법은 주어진 환경의 다양한 위치에 위치된 청취자의 귀에 존재할 수 있는 상이한 신호 파형을 처리하도록 선택될 수 있는 신호 처리 기능을 제공할 수 있다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템, 장치 및 방법은 원하는 엔터테인먼트 경험(entertainment experience)을 생성하기 위해서 위치 관련 장소에서 개별 모노 신호 소스와 조합하여 종래의 스테레오 신호를 처리하도록 미디어 제조의 일부로서 사용될 수 있다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템 및 장치는 스마트폰, 태블릿, 스마트 TV, 게임 플랫폼, 개인용 컴퓨터, 웨어러블 장치 등과 같은 소비자 장치를 포함할 수 있고, 본 명세서에 개시된 방법은 이들 소비자 장치에서 실행될 수 있다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템, 장치 및 방법은 개선된 오디오 경험을 제공하기 위해서 영화, 뮤직 비디오 게임, 증강 현실, 통신 등과 같은 다양한 미디어 자료에서 종래의 스테레오 신호를 처리하는데 사용될 수 있다.

몇몇 실시양태에서, 본 명세서에 개시된 시스템, 장치 및 방법은 클라우드 컴퓨팅 환경(cloud-computing environment)에서 구현되고 다양한 애플리케이션을 위해서 무선 통신 네트워크(예를 들어, WI-FI® 네트워크(WI-FI는 미국 텍사스, 오스틴 소재의 Wi-Fi Alliance의 등록 상표임), 무선 광대역 통신 네트워크 등)에서 최소 대기시간으로 실행될 수 있다.

위의 실시양태에서, 신호 분해 모듈(104)로부터 출력된 각각의 분해된 신호 성분(124)은 스펙트럼 수정 모듈(106)에 의해서 먼저 처리된 다음에 스펙트럼 수정 및 시간 지연 조정을 위해 시간 지연 모듈(108)에 의해서 처리된다. 몇몇 대안적인 실시양태에서, 신호 분해 모듈(104)로부터 출력된 각각의 분해된 신호 성분(124)은 시간 지연 모듈(108)에 의해서 먼저 처리된 다음에 스펙트럼 수정 및 시간 지연 조정을 위해 스펙트럼 수정 모듈(106)에 의해서 처리된다.

몇몇 대안적인 실시양태에서, 오디오 시스템(100)은 심리음향 신호 처리 모듈(110)을 우회하거나 연결(또는 그렇지 않으면 비활성화 및 활성화)하도록 사용자에 의해서(예를 들어, 스위치를 사용하여) 구성될 수 있다.

첨부 도면을 참조하여 실시양태가 위에서 설명되었지만, 당업자는 첨부된 청구범위에 의해 정의된 본 발명의 범주를 벗어남이 없이 변형 및 수정이 이루어질 수 있음을 이해할 것이다.

Claims

사운드-포함 신호(sound-bearing signal)를 처리하는 사운드 처리장치(sound-processing apparatus)로서,
사운드-포함 신호를 복수의 신호 성분으로 분리하기 위한 신호 분해 모듈로서, 복수의 신호 성분은 좌측 신호 성분, 우측 신호 성분 및 복수의 지각 특징 성분을 포함하는, 신호 분해 모듈(signal decomposition module); 및
복수의 신호 성분을 좌측(L) 필터링된 신호 그룹 및 우측(R) 필터링된 신호 그룹으로 필터링하고, L 필터링된 신호 그룹의 조합을 좌측 출력 신호로서 그리고 R 필터링된 신호 그룹의 조합을 우측 출력 신호로서 출력하기 위한 복수의 심리음향 필터를 포함하는 심리음향 신호 처리 모듈을 포함하는;
사운드-포함 신호를 처리하는 사운드 처리장치.
제 1 항에 있어서,
복수의 심리음향 필터 각각은 실제 환경에서 얻은 임펄스 응답으로부터 수정된 MPIR(Modified Psychoacoustical Impulse Response: 수정된 심리음향 임펄스 응답) 필터인,
사운드-포함 신호를 처리하는 사운드 처리장치.
제 1 항 또는 제 2 항에 있어서,
복수의 심리음향 필터의 계수는 비-일시적 스토리지에 저장되는,
사운드-포함 신호를 처리하는 사운드 처리장치.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
복수의 신호 성분은 모노 신호 성분을 더 포함하는,
사운드-포함 신호를 처리하는 사운드 처리장치.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
복수의 지각 특징 성분은 복수의 스템 신호 성분을 포함하는,
사운드-포함 신호를 처리하는 사운드 처리장치.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
좌측 출력 신호는 L 필터링된 신호 그룹의 합산이고 우측 출력 신호는 R 필터링된 신호 그룹의 합산인,
사운드-포함 신호를 처리하는 사운드 처리장치.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
복수의 심리음향 필터는 복수의 필터 뱅크(filter bank)로 그룹화되며;
각각의 필터 뱅크는 하나 이상의 필터 쌍을 포함하며;
각각의 필터 쌍은 복수의 심리음향 필터 중 2 개의 심리음향 필터를 포함하며;
복수의 필터 뱅크 각각은 그의 심리음향 필터를 통과하고 L 필터링된 신호 그룹의 서브세트와 R 필터링된 신호 그룹의 서브세트를 생성하기 위해서 복수의 신호 성분 중 각각 하나를 수신하도록 구성되는;
사운드-포함 신호를 처리하는 사운드 처리장치.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
복수의 신호 성분 각각의 스펙트럼을 수정하기 위한 스펙트럼 수정 모듈을 더 포함하는,
사운드-포함 신호를 처리하는 사운드 처리장치.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
복수의 신호 성분 중 하나 이상의 상대적인 시간 지연을 수정하기 위한 시간 지연 모듈을 더 포함하는,
사운드-포함 신호를 처리하는 사운드 처리장치.
제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
하나 이상의 지각 특징 성분은 비-방향성 및 비-주파수 사운드 특성에 기초하여 결정된 복수의 이산 특징 성분을 포함하는,
사운드-포함 신호를 처리하는 사운드 처리장치.
제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
신호 분해 모듈은 예측 서브모듈을 포함하며, 예측 서브모듈은 사운드-포함 신호로부터 복수의 지각 특징 성분을 생성하기 위한 신경망을 포함하거나 신경망을 사용하도록 구성되는,
사운드-포함 신호를 처리하는 사운드 처리장치.
제 11 항에 있어서,
신경망은 인코더-디코더 컨볼루션 신경망(encoder-decoder convolutional neural network)을 포함하는,
사운드-포함 신호를 처리하는 사운드 처리장치.
제 11 항에 있어서,
신경망은 U-Net 인코더/디코더 컨볼루션 신경망을 포함하는,
사운드-포함 신호를 처리하는 사운드 처리장치.
제 11 항 내지 제 13 항 중 어느 한 항에 있어서,
신호 분해 모듈은 신호 전처리 서브모듈 및 신호 후처리 서브모듈을 더 포함하며;
신호 전처리 서브모듈은 예측 서브모듈이 복수의 지각 특징 성분을 생성하도록 그의 복소 스펙트럼(complex spectrum: CS)으로서 사운드-포함 신호의 단시간 푸리에 변환(short-time Fourier transform: STFT)을 계산하도록 구성되며;
예측 서브모듈은 시간-주파수 마스크를 생성하도록 구성되며;
신호 후처리 서브모듈은 소프트 마스크와 사운드-포함 신호의 CS의 곱의 IFFT(inverse fast Fourier transform: 역 고속 푸리에 변환)를 계산함으로써 복수의 지각 특징 성분을 생성하도록 구성되는;
사운드-포함 신호를 처리하는 사운드 처리장치.
제 1 항 내지 제 14 항 중 어느 한 항에 있어서,
복수의 심리음향 필터는 사운드-포함 신호의 인지된 위치, 사운드-포함 신호의 인지된 분위기, 사운드-포함 신호의 인지된 동적 범위(dynamic range), 및 사운드-포함 신호의 인지된 스펙트럼 강조 중 적어도 하나를 변경하도록 구성되는,
사운드-포함 신호를 처리하는 사운드 처리장치.
제 1 항 내지 제 15 항 중 어느 한 항에 있어서,
사운드 처리 장치는 사운드-포함 신호를 처리하고 실시간으로 좌측 및 우측 출력 신호를 출력하도록 구성되는,
사운드-포함 신호를 처리하는 사운드 처리장치.
제 1 항 내지 제 16 항 중 어느 한 항에 있어서,
복수의 심리음향 필터의 적어도 서브세트는 병렬로 작동하도록 구성되는,
사운드-포함 신호를 처리하는 사운드 처리장치.
사운드-포함 신호를 처리하는 방법으로서,
사운드-포함 신호를 좌측 신호 성분, 우측 신호 성분 및 복수의 지각 특징 성분을 포함한 복수의 신호 성분으로 분리하는 단계;
복수의 신호 성분을 좌측(L) 필터링된 신호 그룹 및 우측(R) 필터링된 신호 그룹으로 필터링하도록 복수의 심리음향 필터를 사용하는 단계; 및
L 필터링된 신호 그룹의 조합을 좌측 출력 신호로서 그리고 R 필터링된 신호 그룹의 조합을 우측 출력 신호로서 출력하는 단계를 포함하는;
사운드-포함 신호를 처리하는 방법.
제 18 항에 있어서,
복수의 심리음향 필터 각각은 실제 환경에서 얻은 임펄스 응답으로부터 수정된 MPIR 필터인,
사운드-포함 신호를 처리하는 방법.
제 18 항 또는 제 19 항에 있어서,
복수의 심리음향 필터의 계수는 비-일시적 스토리지에 저장되는,
사운드-포함 신호를 처리하는 방법.
제 18 항 내지 제 20 항 중 어느 한 항에 있어서,
복수의 신호 성분은 모노 신호 성분을 더 포함하는,
사운드-포함 신호를 처리하는 방법.
제 18 항 내지 제 21 항 중 어느 한 항에 있어서,
복수의 지각 특징 성분은 복수의 스템 신호 성분을 포함하는,
사운드-포함 신호를 처리하는 방법.
제 18 항 내지 제 22 항 중 어느 한 항에 있어서,
좌측 출력 신호는 L 필터링된 신호 그룹의 합산이고 우측 출력 신호는 R 필터링된 신호 그룹의 합산인,
사운드-포함 신호를 처리하는 방법.
제 18 항 내지 제 23 항 중 어느 한 항에 있어서,
상기 복수의 신호 성분을 L 필터링된 신호의 그룹 및 R 필터링된 신호의 그룹으로 필터링하는 단계는:
L 필터링된 신호 그룹의 서브세트를 생성하기 위해서 병렬로 복수의 심리음향 필터의 각각의 제 1 서브세트를 통해 복수의 신호 성분 각각을 통과시키는 단계; 및
R 필터링된 신호 그룹의 서브세트를 생성하기 위해서 병렬로 복수의 심리음향 필터의 각각의 제 2 서브세트를 통해 복수의 신호 성분 각각을 통과시키는 단계를 포함하는;
사운드-포함 신호를 처리하는 방법.
제 18 항 내지 제 24 항 중 어느 한 항에 있어서,
복수의 신호 성분 각각의 스펙트럼을 수정하는 단계를 더 포함하는,
사운드-포함 신호를 처리하는 방법.
제 18 항 내지 제 25 항 중 어느 한 항에 있어서,
복수의 신호 성분 중 하나 이상의 상대적인 시간 지연을 수정하는 단계를 더 포함하는,
사운드-포함 신호를 처리하는 방법.
제 18 항 내지 제 26 항 중 어느 한 항에 있어서,
하나 이상의 지각 특징 성분은 비-방향성 및 비-주파수 사운드 특성에 기초하여 결정된 복수의 이산 특징 성분을 포함하는,
사운드-포함 신호를 처리하는 방법.
제 18 항 내지 제 27 항 중 어느 한 항에 있어서,
상기 사운드-포함 신호를 분리하는 단계는:
사운드-포함 신호로부터 복수의 지각 특징 성분을 생성하기 위해서 신경망을 사용하는 단계를 포함하는,
사운드-포함 신호를 처리하는 방법.
제 28 항에 있어서,
신경망은 인코더-디코더 컨볼루션 신경망을 포함하는,
사운드-포함 신호를 처리하는 방법.
제 28 항에 있어서,
신경망은 U-Net 인코더/디코더 컨볼루션 신경망을 포함하는,
사운드-포함 신호를 처리하는 방법.
제 18 항 내지 제 30 항 중 어느 한 항에 있어서,
상기 사운드-포함 신호를 분리하는 단계는:
사운드-포함 신호의 단시간 푸리에 변환(STFT)을 그의 복소 스펙트럼(CS)으로 계산하는 단계; 및
소프트 마스크와 사운드-포함 신호의 CS의 곱의 IFFT를 계산함으로써 복수의 지각 특징 성분을 생성하는 단계를 포함하는;
사운드-포함 신호를 처리하는 방법.
제 18 항 내지 제 31 항 중 어느 한 항에 있어서,
상기 복수의 신호 성분을 필터링하기 위해서 복수의 심리음향 필터를 사용하는 단계는:
사운드-포함 신호의 인지된 위치, 사운드-포함 신호의 인지된 분위기, 사운드-포함 신호의 인지된 동적 범위, 및 사운드-포함 신호의 인지된 스펙트럼 강조 중 적어도 하나를 변경하기 위해서 복수의 심리 음향 필터를 사용하는 단계를 포함하는;
사운드-포함 신호를 처리하는 방법.
제 18 항 내지 제 32 항 중 어느 한 항에 있어서,
상기 사운드-포함 신호를 분리하는 단계는:
사운드-포함 신호를 실시간으로 복수의 신호 성분으로 분리하는 단계를 포함하며;
상기 복수의 신호 성분을 필터링하기 위해서 복수의 심리음향 필터를 사용하는 단계는:
복수의 신호 성분을 L 필터링된 신호 그룹 및 R 필터링된 신호 그룹으로 실시간으로 필터링하기 위해서 복수의 심리음향 필터를 사용하는 단계를 포함하며;
상기 L 필터링된 신호 그룹의 조합을 좌측 출력 신호로서 그리고 R 필터링된 신호 그룹의 조합을 우측 출력 신호로서 출력하는 단계는:
L 필터링된 신호 그룹의 조합을 좌측 출력 신호로서 그리고 R 필터링된 신호 그룹의 조합을 우측 출력 신호로서 실시간으로 출력하는 단계를 포함하는;
사운드-포함 신호를 처리하는 방법.
제 18 항 내지 제 33 항 중 어느 한 항에 있어서,
복수의 심리음향 필터의 적어도 서브세트는 병렬로 작동하도록 구성되는,
사운드-포함 신호를 처리하는 방법.
사운드-포함 신호를 처리하기 위한 컴퓨터 실행 가능한 명령을 포함한 하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치로서,
명령은 실행될 때, 처리 구조가:
사운드-포함 신호를 좌측 신호 성분, 우측 신호 성분 및 복수의 지각 특징 성분을 포함한 복수의 신호 성분으로 분리하는 행위;
복수의 신호 성분을 좌측(L) 필터링된 신호 그룹 및 우측(R) 필터링된 신호 그룹으로 필터링하도록 복수의 심리음향 필터를 사용하는 행위; 및
L 필터링된 신호 그룹의 조합을 좌측 출력 신호로서 그리고 R 필터링된 신호 그룹의 조합을 우측 출력 신호로서 출력하는 행위를 수행하게 하는;
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 35 항에 있어서,
복수의 심리음향 필터 각각은 실제 환경에서 얻은 임펄스 응답으로부터 수정된 MPIR(Modified Psychoacoustical Impulse Response) 필터인,
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 35 항 또는 제 36 항에 있어서,
복수의 심리 음향 필터의 계수는 비-일시적 스토리지에 저장되는,
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 35 항 내지 제 37 항 중 어느 한 항에 있어서,
복수의 신호 성분은 모노 신호 성분을 더 포함하는,
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 35 항 내지 제 38 항 중 어느 한 항에 있어서,
복수의 지각 특징 성분은 복수의 스템 신호 성분을 포함하는,
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 35 항 내지 제 39 항 중 어느 한 항에 있어서,
좌측 출력 신호는 L 필터링된 신호 그룹의 합산이고 우측 출력 신호는 R 필터링된 신호 그룹의 합산인,
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 35 항 내지 제 40 항 중 어느 한 항에 있어서,
상기 복수의 신호 성분을 L 필터링된 신호의 그룹 및 R 필터링된 신호의 그룹으로 필터링하는 단계는:
L 필터링된 신호 그룹의 서브세트를 생성하기 위해서 병렬로 복수의 심리음향 필터의 각각의 제 1 서브세트를 통해 복수의 신호 성분 각각을 통과시키는 단계; 및
R 필터링된 신호 그룹의 서브세트를 생성하기 위해서 병렬로 복수의 심리음향 필터의 각각의 제 2 서브세트를 통해 복수의 신호 성분 각각을 통과시키는 단계를 포함하는;
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 35 항 내지 제 41 항 중 어느 한 항에 있어서,
명령은 실행될 때, 처리 구조가:
복수의 신호 성분 각각의 스펙트럼을 수정하는 행위를 추가로 수행하게 하는,
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 35 항 내지 제 42 항 중 어느 한 항에 있어서,
명령은 실행될 때, 처리 구조가:
복수의 신호 성분 중 하나 이상의 상대적인 시간 지연을 수정하는 행위를 추가로 수행하게 하는,
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 35 항 내지 제 43 항 중 어느 한 항에 있어서,
하나 이상의 지각 특징 성분은 비-방향성 및 비-주파수 사운드 특성에 기초하여 결정된 복수의 이산 특징 성분을 포함하는,
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 35 항 내지 제 44 항 중 어느 한 항에 있어서,
상기 사운드-포함 신호를 분리하는 단계는:
사운드-포함 신호로부터 복수의 지각 특징 성분을 생성하기 위해서 신경망을 사용하는 단계를 포함하는,
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 45 항에 있어서,
신경망은 인코더-디코더 컨볼루션 신경망을 포함하는,
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 45 항에 있어서,
신경망은 U-Net 인코더/디코더 컨볼루션 신경망을 포함하는,
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 45 항 내지 제 47 항 중 어느 한 항에 있어서,
상기 사운드-포함 신호를 분리하는 단계는:
사운드-포함 신호의 단시간 푸리에 변환(STFT)을 그의 복소 스펙트럼(CS)으로 계산하는 단계;
시간-주파수 마스크를 생성하는 단계; 및
소프트 마스크와 사운드-포함 신호의 CS의 곱의 IFFT를 계산함으로써 복수의 지각 특징 성분을 생성하는 단계를 포함하는;
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 35 항 내지 제 48 항 중 어느 한 항에 있어서,
상기 복수의 신호 성분을 필터링하기 위해서 복수의 심리음향 필터를 사용하는 단계는:
사운드-포함 신호의 인지된 위치, 사운드-포함 신호의 인지된 분위기, 사운드-포함 신호의 인지된 동적 범위, 및 사운드-포함 신호의 인지된 스펙트럼 강조 중 적어도 하나를 변경하기 위해서 복수의 심리 음향 필터를 사용하는 단계를 포함하는;
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 35 항 내지 제 49 항 중 어느 한 항에 있어서,
상기 사운드-포함 신호를 분리하는 단계는:
사운드-포함 신호를 실시간으로 복수의 신호 성분으로 분리하는 단계를 포함하며;
상기 복수의 신호 성분을 필터링하기 위해서 복수의 심리음향 필터를 사용하는 단계는:
복수의 신호 성분을 L 필터링된 신호 그룹 및 R 필터링된 신호 그룹으로 실시간으로 필터링하기 위해서 복수의 심리음향 필터를 사용하는 단계를 포함하며;
상기 L 필터링된 신호 그룹의 조합을 좌측 출력 신호로서 그리고 R 필터링된 신호 그룹의 조합을 우측 출력 신호로서 출력하는 단계는:
L 필터링된 신호 그룹의 조합을 좌측 출력 신호로서 그리고 R 필터링된 신호 그룹의 조합을 우측 출력 신호로서 실시간으로 출력하는 단계를 포함하는;
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.
제 35 항 내지 제 50 항 중 어느 한 항에 있어서,
복수의 심리음향 필터의 적어도 서브세트는 병렬로 작동하도록 구성되는,
하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 장치.