KR20230125178A - 자유장 오디오 신호 전달 함수 데이터에 기초하여 개인화된 자유장 오디오 신호 전달 함수를 생성하기 위한 방법 및 시스템 - Google Patents

자유장 오디오 신호 전달 함수 데이터에 기초하여 개인화된 자유장 오디오 신호 전달 함수를 생성하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20230125178A
KR20230125178A KR1020237017906A KR20237017906A KR20230125178A KR 20230125178 A KR20230125178 A KR 20230125178A KR 1020237017906 A KR1020237017906 A KR 1020237017906A KR 20237017906 A KR20237017906 A KR 20237017906A KR 20230125178 A KR20230125178 A KR 20230125178A
Authority
KR
South Korea
Prior art keywords
sound signal
training
data
ear
transfer function
Prior art date
Application number
KR1020237017906A
Other languages
English (en)
Inventor
안드레이 빅토로비치 필리모노프
미하일 세르게예비치 클레시닌
안드레이 이고레비치 에피신
조이 라이온스
Original Assignee
하만인터내셔날인더스트리스인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 하만인터내셔날인더스트리스인코포레이티드 filed Critical 하만인터내셔날인더스트리스인코포레이티드
Publication of KR20230125178A publication Critical patent/KR20230125178A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

개인화된 사운드 신호 전달 함수를 생성하기 위한 컴퓨터 구현 방법이 설명되며, 본 방법은: 제1 데이터를 결정하는 단계 ― 제1 데이터는 제1 사운드 신호 전달 함수를 나타내되, 제1 사운드 신호 전달 함수는 사용자의 귀 및 사용자의 귀에 대한 제1 사운드 신호 방향과 연관됨 ―; 제1 데이터에 기초하여, 제2 데이터를 결정하는 단계 ― 제2 데이터는 제2 사운드 신호 전달 함수를 나타내되, 제2 사운드 신호 전달 함수는 사용자의 귀 및 사용자의 귀에 대한 제2 사운드 신호 방향과 연관됨 ― 를 포함한다.

Description

자유장 오디오 신호 전달 함수 데이터에 기초하여 개인화된 자유장 오디오 신호 전달 함수를 생성하기 위한 방법 및 시스템
사운드 신호의 음향 인식은 생물학적 청취 장치로 인해 사람마다 상이할 수 있다: 청취자 주위에 송신된 사운드 신호가 청취자의 고막에 부딪히기 전에, 그것은 청취자의 신체 또는 신체의 부분들에 의해, 예를 들어, 청취자의 어깨, 뼈 또는 귓바퀴에 의해 반사되고 부분적으로 흡수되며 송신된다. 이러한 효과들은 사운드 신호의 변형을 초래한다. 다르게 말하면, 원래 송신된 사운드 신호가 아니라, 변형된 사운드 신호가 청취자에 의해 수신된다.
사람의 뇌는 이러한 변형으로부터 사운드 신호가 원래 송신되었던 위치를 도출할 수 있다. 이에 의해, (i) 양이간(inter-aural) 진폭 차이, 즉, 한쪽 귀에서 다른 쪽 귀에서와 비교하여 수신된 사운드 신호들의 진폭 차이; (ii) 양이간 시간 차이, 즉, 한쪽 귀에서 다른 쪽 귀에서와 비교하여 사운드 신호가 수신되는 시간의 차이, (iii) 수신된 신호의 주파수 또는 임펄스 응답 ― 응답은 청취자, 특히 청취자의 귀의, 그리고 사운드 신호가 수신되는 위치, 특히 방향의 특성임 ― 을 포함하는 상이한 인자들이 고려된다. 송신된 사운드 신호와 청취자의 귀에서 수신된 사운드 신호 간의 관계는 일반적으로 헤드 관련 전달 함수(Head Related Transfer Function, HRTF)로 지칭되는 함수에 의해, 위에서 언급된 인자들을 고려하여 설명될 수 있다.
이러한 현상은 청취자 또는 청취자의 귀에 대한 특정 방향으로부터 외견상 수신되는 사운드 신호들을, 상기의 특정 방향과 상이한 청취자 또는 청취자의 귀에 대한 방향들에 위치된 사운드 소스들에 의해 에뮬레이트하는 데 사용될 수 있다. 다르게 말하면, 청취자에 의해, 즉 청취자 귀 내에서 수신될 때 특정 방향으로부터 송신된 사운드 신호의 변형을 기술하는 HRTF가 결정될 수 있다. 상기의 전달 함수는 수신된 후속 사운드 신호들이 청취자에 의해 특정 방향으로부터 수신되는 것으로서 인식되도록 특정 방향과 상이한 방향으로부터 송신된 후속 사운드 신호들의 특성들을 변경하기 위한 필터들을 생성하는 데 사용될 수 있다. 또 다른 방식으로: 특정 위치 및/또는 특정 방향에 위치된 추가적인 사운드 소스가 합성될 수 있다. 이로 인해, 고정 위치 스피커들, 예를 들어, 헤드폰들을 통한 사운드 신호의 송신 이전에 사운드 신호에 적용되는 적절하게 생성된 필터는 사람의 뇌가 사운드 신호를 특정, 특히 선택 가능한, 공간 위치를 갖는 것으로 인식하게 만들 수 있다.
청취자에 대한, 더 정확하게는 청취자의 각 귀에 대한 모든 가능한 방향에 대한 각 HRTF를 결정하기 위해, 매우 비용 및 시간 소모적일 수 있다. 이에 의해, 청취자 또는 청취자의 귀의 그리고 사운드 신호가 오는 방향의 특성인 주파수 또는 임펄스 응답을 결정하는 것이 특히 어렵다. 또한, 실험실 조건들에서, 예를 들어, 무반향실에서 수행될 때, 특정 청취자에 대한 제한된 수의 전달 함수만이 적정한 시간 및 비용 프레임 내에 생성될 수 있다.
본 발명은 사용자의 귀와 연관된 개인화된 사운드 신호 전달 함수들 ― 사운드 신호 전달 함수들 각각은 사용자의 귀에 대한 각 사운드 신호 방향과 연관됨 ―, 예를 들어, HRTF에 대한 주파수 또는 임펄스 응답을 시간 및 비용 효율적인 방식으로 생성하는 것의 문제를 해결한다.
일 실시예에 따르면, 개인화된 사운드 신호 전달 함수를 생성하기 위한 컴퓨터 구현 방법이 제공되며, 본 방법은: 제1 데이터를 결정하는 단계 ― 제1 데이터는 제1 사운드 신호 전달 함수를 나타내되, 제1 사운드 신호 전달 함수는 사용자의 귀 및 사용자의 귀에 대한 제1 사운드 신호 방향과 연관됨 ―; 제1 데이터에 기초하여, 제2 데이터를 결정하는 단계 ― 제2 데이터는 제2 사운드 신호 전달 함수를 나타내되, 제2 사운드 신호 전달 함수는 사용자의 귀 및 사용자의 귀에 대한 제2 사운드 신호 방향과 연관됨 ― 를 포함한다.
제1 및 제2 사운드 신호 전달 함수들은 양자가 사용자의 귀와 각각 연관된 제1 및 제2 HRTF들에 대한 주파수 또는 임펄스 응답들일 수 있다. 이러한 방식으로, 예를 들어, 실험실 환경에서, 제1 사운드 신호 전달 함수만이 측정될 필요가 있다. 제2 사운드 신호 전달 함수 또는 복수의 추가의 제2 사운드 신호 전달 함수들은 측정된 제1 사운드 신호 전달 함수에 기초하여 결정될 수 있다. 다르게 말하면, 제1 데이터는 제1 입력 데이터일 수 있으며, 제2 데이터는 생성되거나 추론 데이터일 수 있다.
제2 사운드 신호 전달 함수는 사운드 신호 또는 후속 사운드 신호를 변형하기에 적합할 수 있다. 예를 들어, 제1 또는 제2 HRTF들을 사용하여, 사운드 신호 또는 후속 사운드 신호는 개인화된 공간 오디오 처리를 위해 변형, 즉 맞춤화될 수 있다. 또한, 사운드 품질 향상을 위한 개인화된 오디오 응답을 렌더링하거나 맞춤 이퀄라이제이션을 조성하기 위해, 단지 제1 및/또는 제2 HRTF의 일부, 예를 들어, 특정 방향들, 즉 각도들 또는 각도들의 조합들에 대한 주파수 응답이 사용될 수 있다.
대안적으로, 또는 추가적으로, 상기의 신호 처리가 더 표적화되고/되거나 효과적이게 만들기 위해 ANC(Active Noise Cancellation), 패스스루(passthrough) 또는 베이스 관리(bass-management)와 같은 신호 처리를 향상시키기 위해, 제1 및/또는 제2 HRTF가 HRTF, 특히 제1 HRTF로부터 디바이스 응답을 명확하게 하기 위한 정보로서 사용될 수 있다.
실시예에 따르면, 컴퓨터 구현 방법은: 사운드 수신 수단에 의해, 사용자의 귀에서 또는 사용자의 귀 내에서 사운드 신호를 수신하는 단계를 더 포함하되, 제1 데이터를 결정하는 단계가 수신된 사운드 신호에 기초한다.
사운드 수신 수단은 마이크로폰일 수 있다. 마이크로폰은 사용자의 귀의 이도에 위치되도록, 특히 충분히 작게 구성될 수 있다. 다르게 말하면, 마이크로폰은 이도를 음향적으로 차단할 수 있다. 대안적으로, 마이크로폰은 사용자의 귀에 또는 그 부근에 위치될 수 있다.
사운드 신호는 사용자의 귀에 대한 근거리장(near field) 내에 위치된 사운드 소스에 의해 송신될 수 있다. 예를 들어, 사운드 신호는 사용자가 착용한 헤드폰들에 의해 송신될 수 있다. 이 경우, 근거리장 사운드 신호 전달 함수가 수신된 사운드 신호에 기초하여 결정될 수 있다. 대안적으로, 사운드 신호는 사용자의 귀에 대한 원거리장(far field) 또는 자유장(free field) 내에서 제1 사운드 신호 방향에서 사용자 주위에 위치된 사운드 소스, 예를 들어, (다채널) 서라운드 사운드 시스템의 라우드스피커에 의해 송신될 수 있다. 이 경우, 원거리장 또는 자유장 사운드 신호 전달 함수가 수신된 사운드 신호에 기초하여 결정될 수 있다.
실시예에 따르면, 제1 사운드 신호 전달 함수는 제1 사운드 신호 방향과 연관된 제1 원거리장 또는 제1 자유장 사운드 신호 전달 함수를 나타내는 것이고/이거나; 본 방법은 사용자의 귀에 대한 원거리장 또는 자유장 내에서 제1 사운드 신호 방향 또는 제1 사운드 신호 방향에 위치된 제1 사운드 송신 수단으로부터 사운드 신호를 수신하는 단계를 더 포함한다.
제1 데이터의 측정에 대한 대안예로서, 제1 데이터는 초기 데이터에 기초하여 자체적으로 결정될 수 있다. 초기 데이터는 예를 들어, 근거리장 내에 위치된 사운드 소스로부터 수신된 사운드 신호로부터 추출된 근거리장 사운드 신호 전달 함수를 나타낼 수 있다. 대안적으로, 제1 사운드 신호 전달 함수는 원거리장 또는 자유장 내에 위치된 사운드 소스로부터 수신된 사운드 신호에 기초하여 결정, 예를 들어, 이로부터 추출될 수 있다.
예를 들어, 제1 사운드 송신 수단은 원거리장 또는 자유장 내에서 제1 사운드 신호 방향에서 사용자 주위에 위치된 라우드스피커, 특히 복수의 라우드스피커들 중 하나 이상, 예를 들어, (다채널) 서라운드 사운드 시스템의 라우드스피커일 수 있다. 대안적으로, 라우드스피커는 실험실 환경, 이를테면 무반향실에 셋업된 라우드스피커일 수 있다. 사용자는 라우드스피커에 대해 원거리장 또는 자유장 내에 위치될 수 있다. 사용자는 라우드스피커에 대해 미리 결정된 또는 알려져 있는 거리에 위치될 수 있다. 마이크로폰과 라우드스피커는 서로 통신가능하게 결합되거나 컴퓨팅 디바이스 또는 서버와 각각 통신가능하게 결합될 수 있다.
마이크로폰이 이도에 배치된 후에, 마이크로폰은 사운드 송신 수단에 의해 송신된 임의의 사운드 신호 또는 기준 사운드 신호를 수신할 수 있다. 이러한 단계들은 사용자의 양쪽 귀에 대해 반복될 수 있다. 각 귀에 대해, 각 원거리장 또는 자유장 사운드 신호 전달 함수가 마이크로폰에 의해 수신된 사운드 신호로부터 추출될 수 있다.
실시예에 따르면, 제2 사운드 신호 전달 함수는 제2 원거리장 또는 제2 자유장 사운드 신호 전달 함수를 나타낸다. 제2 사운드 신호 전달 함수는 제1 데이터에 기초하여, 제2 사운드 신호 방향과 연관된 복수의 원거리장 또는 자유장 사운드 신호 전달 함수들을 포함하는 데이터 베이스로부터 선택될 수 있다. 이러한 방식으로, 사용자의 귀 및 제2 사운드 신호 방향과 연관된, 또는 더 일반적으로 사용자의 귀, 라우드스피커 및 마이크로폰을 포함하는 셋업과 연관된, 실제 원거리장 또는 자유장 사운드 신호 전달 함수에 대응 또는 가장 잘 대응하는 제2 사운드 신호 전달 함수가 선택될 수 있다. 대안적으로, 제2 사운드 신호 전달 함수는 제1 데이터에 기초하여, 예를 들어, 신경망 모델을 통해 생성될 수 있다.
이에 의해, 제2 사운드 신호 전달 함수를 사용하여, 후속 오디오 신호가 사용자의 귀에 대한 원거리장 또는 자유장 내에서 수신되는 사용자의 느낌을 유발하기 위해 후속해서 송신될 사운드 신호가 변형될 수 있다. 이로 인해, 사운드 인식 개선이 이루어질 수 있다.
실시예에 따르면, 컴퓨터 구현 방법은: 제3 데이터를 결정하는 단계를 더 포함하되, 제3 데이터는 사용자의 귀에 관한 제1 및/또는 제2 사운드 신호 방향을 나타내고, 제2 데이터를 결정하는 단계가 제3 데이터에 또한 기초한다. 다르게 말하면, 제3 데이터는 제2 입력 데이터일 수 있다.
제1 사운드 신호 방향은 예를 들어, 데이터 처리 시스템(300)에 의해, 특히 컴퓨팅 수단(330)에 의해, 본 방법을 수행하는 본 시스템에 의해 미리 결정되거나 알려질 수 있다. 제1 사운드 신호 방향은 본 시스템에 사용자에 나타내어질 수 있거나, 또는 예를 들어, 마이크로폰 및/또는 라우드스피커들에 의해 포함된 하나 이상의 센서를 통해 본 시스템에 의해 결정될 수 있다.
제2 사운드 신호 방향은 사용자, 시스템에 의해 나타내어질 수 있거나, 또는 송신될 사운드 신호의 메타데이터, 예를 들어, 음악 파일에 의해 나타내어질 수 있다. 제3 데이터에 기초하여 제2 데이터를 결정함으로써, 오디오 신호가 사용자의 귀에 대한 자유장 내의 특정 방향으로부터 수신되는 사용자의 느낌이 유발되도록, 송신될 사운드 신호가 변형될 수 있다. 이러한 방식으로, 사용자의 사운드 또는 음악 인식은 사용자의 귀와 관련하여 대응하는 제한된 수의 위치에 위치된 단지 제한된 수의 사운드 신호 소스, 예를 들어, 서라운드 사운드 시스템의 하나 이상의 라우드스피커의 사운드 신호 소스가 이용가능할 때, 사용자의 귀에 관련하여 상이한 위치들에 위치된 하나 이상의 사운드 신호 소스를 시뮬레이션 또는 합성함으로써 또한 개선될 수 있다. 이로 인해, "서라운드 사운드 인식"이 단지 제한된 수의 사운드 소스만을 사용하여 이루어질 수 있다.
실시예에 따르면, 컴퓨터 구현 방법은: 사운드 신호를 수신하기 전에, 사운드 송신 수단에 의해, 사운드 신호를 송신하는 단계; 및/또는 제2 데이터에 기초하여, 사운드 신호 및/또는 후속 사운드 신호를 변형시키기 위한 필터 함수를 결정하는 단계; 및/또는 사운드 송신 수단에 의해, 변형된 사운드 신호 및/또는 변형된 후속 사운드 신호를 송신하는 단계를 더 포함한다.
필터 함수는 유한 임펄스 응답(FIR) 필터와 같은 필터일 수 있다. 필터 함수는 주파수 도메인 및/또는 시간 도메인에서 사운드 신호를 변형할 수 있다. 시간 도메인에서의 사운드 신호는 주파수 도메인에서의 사운드 신호, 예를 들어, 사운드 신호의 진폭 및/또는 위상 스펙트럼으로 변환될 수 있고, 그 반대로, 시간 대 주파수 도메인 변환 또는 주파수 대 시간 도메인 변환을 각각 사용하여 변환될 수 있다. 시간 대 주파수 도메인 변환은 푸리에 변환 또는 웨이블릿 변환일 수 있다. 주파수 대 시간 변환은 역 푸리에 변환 또는 역 웨이블릿 변환일 수 있다. 필터 함수는 사운드 신호 또는 사운드 신호의 일부의 진폭 스펙트럼 및/또는 위상 스펙트럼 및/또는 그 주파수 대 시간 변환 및/또는 사운드 신호나 사운드 신호의 일부가 송신되는 시간 지연을 변형시킬 수 있다.
실시예에 따르면, 제2 데이터는 인공 지능 기반 또는 기계 학습 기반 회귀 알고리즘, 바람직하게는 신경망 모델을 사용하여 결정되며, 특히 제1 데이터 및/또는 제3 데이터가 신경망 모델의 입력들로서 사용된다. 용어 "인공 지능 기반 회귀 알고리즘" 또는 "기계 학습 기반 회귀 알고리즘" 및 용어 "신경 네트워크 모델"은 적절한 경우, 본원에서 상호교환가능하게 사용된다.
신경망 모델을 사용하여, 개인화된 사운드 신호 전달 함수, 예를 들어, 특정 사용자의 특정 귀와 연관된 특정 방향에 대한 자유장 HRTF의 주파수 응답은 이 특정 귀와 연관된 원거리장 또는 자유장 HRTF 데이터 ― 상기의 데이터는 집에서 사용자에 의해 스스로 수집될 수 있음 ― 의 주파수 응답에 기초하여 (복수의 사운드 신호 전달 함수들로부터 선택되는 것이 아니라) 정밀하게 생성될 수 있다. 이에 따라, 신경망의 입력들은 제1 데이터, 제1 사운드 신호 방향 및 제2 사운드 신호 방향, 즉, 원거리장 또는 자유장 사운드 신호 전달 함수가 결정되거나 합성될 (제2) 사운드 신호 방향이 될 수 있다.
실시예에 따르면, 컴퓨터 구현 방법은 트레이닝 프로세스에서, 회귀 알고리즘을 개시 및/또는 트레이닝하기 위한 컴퓨터 구현 방법을 더 포함한다. 미리 달리 얻어지지 않는다면, 트레이닝 프로세스를 수행하는 것은 제2 데이터를 결정하는 데 사용될 수 있는 트레이닝된 신경망 모델을 초래할 수 있다.
본 발명의 다른 양태에 따르면, 신경망 모델을 개시 및/또는 트레이닝하기 위한 컴퓨터 구현 방법이 제공되며, 본 방법은: 트레이닝 데이터 세트를 결정하는 단계 ― 트레이닝 데이터 세트는 복수의 제1 트레이닝 데이터 및 복수의 제2 트레이닝 데이터를 포함함 ―; 및 사용자의 귀와 연관된 입력 제1 사운드 신호 전달 함수에 기초하여 사용자의 귀와 연관된 제2 사운드 신호 전달 함수를 출력하기 위해, 트레이닝 데이터 세트에 기초하여, 신경망을 개시 및/또는 트레이닝하는 단계를 포함하되; 복수의 제1 트레이닝 데이터 각각은 트레이닝 대상 또는 트레이닝 사용자의 귀 또는 각 트레이닝 사용자의 귀와 연관된 각 제1 트레이닝 사운드 신호 전달 함수를 나타내며; 그리고 복수의 제2 트레이닝 데이터 각각은 트레이닝 사용자의 귀 또는 각 트레이닝 사용자의 귀와 연관된 각 제2 트레이닝 사운드 신호 전달 함수를 나타낸다.
트레이닝 대상은 트레이닝 사용자, 트레이닝 모델, 트레이닝 더미 등일 수 있다. 용어 트레이닝 대상 및 트레이닝 사용자는 본원에서 상호교환가능하게 사용된다. 트레이닝 데이터 세트는 실험실 환경, 이를테면 무반향실에서 수집되거나 결정될 수 있다. 복수의 제1 및 제2 트레이닝 데이터 각각은 특정 트레이닝 사용자의 특정 귀와 연관될 수 있다. 트레이닝 프로세스 동안, 신경망 모델은 제1 트레이닝 데이터의 속성들을 제2 트레이닝 데이터의 속성들에 할당할 수 있어서, 트레이닝된 신경망 모델은 제1 트레이닝 데이터로부터, 제2 트레이닝 데이터 또는 제2 트레이닝 데이터의 근사치를 도출하도록 그리고/또는 그 반대로 구성될 수 있다. 수집된 트레이닝 데이터 세트는 신경망 모델을 트레이닝하는 데 사용되는 트레이닝 서브세트 및 트레이닝된 신경망 모델을 테스트 및 평가하는 데 사용되는 테스트 서브세트를 포함할 수 있다.
예를 들어, 트레이닝 프로세스 동안 아직 사용되지 않은 트레이닝 데이터의 테스트 서브세트에 의해 포함되는 새로운 제1 및 제2 트레이닝 데이터는 모델의 품질 또는 정확도를 평가하는 데 사용될 수 있다. 새로운 제1 트레이닝 데이터는 모델의 입력으로서 사용될 수 있으며, 새로운 제2 트레이닝 데이터는 에러, 예를 들어, 에러 값을 결정하기 위해 모델의 출력과의 비교를 위해 사용될 수 있다.
실시예에 따르면, 각 제1 트레이닝 사운드 신호 전달 함수들 각각은 제1 트레이닝 사운드 신호 방향 또는 각 제1 트레이닝 사운드 신호 방향과 연관된 각 제1 원거리장 또는 자유장 사운드 신호 전달 함수를 나타내며, 특히, 입력 제1 사운드 신호 전달 함수는 입력 제1 사운드 신호 방향과 연관된 입력 제1 원거리장 또는 제1 자유장 사운드 신호 전달 함수를 나타낸다.
실시예에 따르면, 각 제2 트레이닝 사운드 신호 전달 함수들 각각은 제2 트레이닝 사운드 신호 방향 또는 각 제2 트레이닝 사운드 신호 방향과 연관된 각 제2 원거리장 또는 자유장 사운드 신호 전달 함수를 나타내며, 특히, 출력 제2 사운드 신호 전달 함수는 입력 제2 사운드 신호 방향과 연관된 출력 제2 원거리장 또는 제2 자유장 사운드 신호 전달 함수를 나타낸다.
제1 및 제2 트레이닝 데이터는 트레이닝 사용자의 이도 내에 또는 그 부근에 위치된 마이크로폰에 의해 수신된 각 사운드 신호에 기초하여 결정, 예를 들어, 수집 또는 생성될 수 있다. 마이크로폰에 의해 수신된 사운드는 트레이닝 사용자의 원거리장 또는 자유장 내에 위치된 사운드 송신 수단에 의해 송신될 수 있다. 예를 들어, 각 제2 트레이닝 사운드 신호는 트레이닝 사용자의 귀에 대한 원거리장 또는 자유장 내에서 각 방향으로 위치된 복수의 사운드 송신 수단들 각각에 의해 송신된다. 예를 들어, 트레이닝 사용자는 이러한 사용자 송신 수단들에 의해 둘러싸인다. 사운드 송신 수단들은 무반향실에서의 셋업의 일부일 수 있다. 다르게 말하면, 사운드 송신 수단들에 의해 송신된 사운드 신호들은 반사되지 않고 트레이닝 사용자의 귀에 수신된다.
실시예에 따르면, 트레이닝 데이터 세트는 제3 트레이닝 데이터를 더 포함하되, 제3 트레이닝 데이터는 또는 제1 및/또는 제2 트레이닝 사운드 신호 방향들, 또는 각 제1 및/또는 각 제2 트레이닝 사운드 신호 방향들을 나타내고; 제2 사운드 신호 전달 함수를 출력하기 위해 신경망을 개시 및/또는 트레이닝하는 것은 입력 제1 및/또는 제2 사운드 신호 방향에 또한 기초한다. 다르게 말하면, 모델은 사운드 신호 방향, 즉 출력 사운드 신호 방향과 연관된 출력 제2 사운드 신호 전달 함수를 출력하도록 트레이닝되고 상기의 사운드 신호 방향은 모델의 입력으로서 사용된다.
제3 트레이닝 데이터는 각 제1 및 제2 트레이닝 데이터에 대해, 사용자의 귀에 대해 사운드 신호가 수신되었던 방향을 나타낼 수 있다. 이러한 방식으로, 신경망 모델은 트레이닝 사운드 신호가 수신되는 방향에 트레이닝 사운드 신호의 수신된 트레이닝 사운드 신호 또는 주파수 또는 임펄스 응답의 속성들을 할당할 수 있다.
이에 의해, 트레이닝된 신경망 모델은 제1, 제2 및 제3 입력 데이터에 기초하여 특정 방향과 연관된 출력 원거리장 또는 자유장 주파수 응답을 출력하도록 구성될 수 있으며, 제1 입력 데이터는 입력 원거리장 또는 자유장 주파수 응답을 나타내며, 제2 입력 데이터는 입력 원거리장 또는 자유장 주파수 응답과 연관된 사운드 신호 방향을 나타내며, 제3 입력은 출력 원거리 장 또는 자유장 주파수 응답과 연관된 특정 방향을 나타낸다.
실시예에 따르면, 신경망 모델을 개시 및/또는 트레이닝하기 위한 컴퓨터 구현 방법은: 트레이닝 사용자의 귀에 대한 제1 원거리장 또는 제1 자유장 내에서 제1 트레이닝 사운드 신호 방향 또는 각 제1 트레이닝 사운드 신호 방향에 위치된 제1 사운드 송신 수단 또는 각 제1 사운드 송신 수단으로부터 트레이닝 사용자의 귀에서 또는 트레이닝 사용자의 귀 내에서 복수의 제1 트레이닝 사운드 신호들을 수신하는 단계; 및 수신된 복수의 제1 트레이닝 사운드 신호들 각각에 기초하여, 제1 트레이닝 사운드 신호 전달 함수들을 결정하는 단계; 및/또는 트레이닝 사용자의 귀에 대한 제2 원거리장 또는 제2 자유장 내에서 제2 트레이닝 사운드 신호 방향 또는 각 제2 트레이닝 사운드 신호 방향에 위치된 제2 사운드 송신 수단 또는 각 제2 사운드 송신 수단으로부터 트레이닝 사용자의 귀에서 또는 트레이닝 사용자의 귀 내에서 제2 트레이닝 사운드 신호를 수신하는 단계; 및 수신된 복수의 제2 트레이닝 사운드 신호들 각각에 기초하여, 각 제2 트레이닝 사운드 신호 전달 함수들을 결정하는 단계를 더 포함한다.
제1 원거리장 또는 제1 자유장은 제2 원거리장 또는 제2 자유장에 대응할 수 있다. 다르게 말하면, 제1 사운드 송신 수단 및 제2 사운드 송신 수단은 사용자 또는 사용자의 귀에 대한 동일한 또는 거의 동일한 거리에 위치될 수 있다. 대안적으로, 제1 사운드 송신 수단은 사용자 또는 사용자의 귀에 대한 제1 거리에 위치될 수 있고, 제2 사운드 송신 수단은 사용자 또는 사용자의 귀에 대한 제2 거리에 위치될 수 있다. 제3 트레이닝 데이터는 제1 및 제2 거리를 또한 나타낼 수 있다.
실시예에 따르면, 제3 트레이닝 데이터는 제1 트레이닝 사운드 신호 방향 및/또는 제2 트레이닝 사운드 신호 방향, 즉 출력 트레이닝 사운드 신호 방향, 즉 제2 트레이닝 데이터 또는 각 제2 트레이닝 사운드 신호 전달 함수와 연관된 트레이닝 사운드 신호 방향을 나타내는 제1 벡터 데이터를 포함하며; 그리고 제3 트레이닝 데이터는 ― 제1 벡터 데이터에 종속되며, 특히 제1 벡터 데이터로부터 도출되는 ― 제2 벡터 데이터를 포함한다.
제3 트레이닝 데이터는 제1 및 제2 사운드 신호 방향 각각에 대한 각 벡터 데이터를 포함하는 각 벡터를 포함할 수 있다. 제1 및 제2 벡터는 직교 또는 구형 제1 벡터 및 제2 벡터를 각각 나타낼 수 있다. 제2 벡터 데이터는 제1 벡터 데이터를 확장하는 데 사용될 수 있다. 예를 들어, 제1 및 제2 벡터는 각각 세 개의 벡터 엔트리들을 갖는 3차원 직교 제1 및 제2 벡터를 나타낼 수 있다. 제2 벡터 데이터는 제1 벡터를 3차원 벡터로부터 6차원 벡터로 환하는 데 사용될 수 있다. 제1 벡터는 제2 벡터에 평행하거나 역평행할 수 있다. 제2 벡터의 엔트리들은 제1 벡터의 엔트리들의 절대 값들 및/또는 인수분해된 값들을 나타낼 수 있다. 대안적으로, 또는 추가적으로, 제3 데이터는 제1 벡터가 아니라, 제로 벡터, 특히 제1 벡터와 동일한 차원의 제로 벡터를 포함할 수 있다.
하나 이상의 제2 벡터 데이터를 도입함으로써, 예를 들어, 하나 이상의 확장된 벡터를 도입함으로써, 방향 벡터 기반 데이터 흐름 병렬화가 조성된다. 이에 의해, 하나 이상의 병렬 층, 또는 그 섹션들이 신경망 모델 아키텍처에서 사용될 수 있다. 특히, 트레이닝 프로세스에서, 모델은 확장된 벡터들, 즉 상이한 방향 데이터에 기초하여 상이한 모델 출력들의 비교를 통해 트레이닝될 수 있다. 이에 의해, 모델은 향상될 수 있으며, 예를 들어, 모델의 더 양호한 수렴이 이루어질 수 있다.
본 발명의 다른 양태에 따르면, 개인화된 사운드 신호 전달 함수를 생성하기 위한 컴퓨터 구현 방법 및/또는 신경망 모델을 개시 및/또는 트레이닝하기 위한 컴퓨터 구현 방법을 수행하기 위한 수단을 포함하는 데이터 처리 시스템이 제공된다.
본 발명의 다른 양태에 따르면, 데이터 처리 시스템에 의해 실행될 때, 데이터 처리 시스템으로 하여금, 개인화된 사운드 신호 전달 함수를 생성하기 위한 컴퓨터 구현 방법 및/또는 신경망 모델을 개시 및/또는 트레이닝하기 위한 컴퓨터 구현 방법을 수행하게 하는 명령어들을 포함하는 컴퓨터 판독가능 저장 매체가 제공된다.
본 발명은 첨부된 도면들을 참조하여, 비제한적인 실시예들에 대한 다음의 설명을 읽음으로써 더 잘 이해될 수 있다.
본 개시의 특징들, 목적들, 및 이점들은 같은 참조 부호들이 유사한 요소들을 지칭하는 도면들과 함께 취해질 때 아래에서 제시되는 상세한 설명으로부터 더 명백해질 것이다.
도 1은 개인화된 사운드 신호 전달 함수를 생성하기 위한 방법의 흐름도를 도시한다;
도 2는 신경망 모델을 개시 및/또는 트레이닝하기 위한 방법의 흐름도를 도시한다;
도 3은 개인화된 사운드 신호 전달 함수를 생성하도록 구성된 데이터 처리 시스템의 구조도를 도시한다; 그리고
도 4는 신경망 모델을 개시 및/또는 트레이닝하도록 구성된 데이터 처리 시스템의 구조도를 도시한다.
도 1은 개인화된 사운드 신호 전달 함수를 생성하기 위한 방법(100)을 설명하는 흐름도를 도시한다. 선택사항적인 단계들은 점선으로 표시된다. 방법(100)은 적어도 부분적으로 컴퓨터로 구현된다. 방법(100)은 사운드 신호를 송신함으로써 단계 110에서 시작될 수 있다. 사운드 신호는 알려져 있는 사운드 신호이며, 특히 사운드 신호의 주파수 스펙트럼이 알려져 있다. 사운드 신호는 다수의, 특히 연속적인 분포의 사운드 신호 주파수들을 나타내는 기준 스윕, 예를 들어, 로그 사인 스윕일 수 있다.
사운드 신호는 사용자의 귀에 대한 원거리장 또는 자유장 내에 위치된 사운드 소스에 의해 송신될 수 있다. 예를 들어, 사운드 신호는 사운드 소스, 예를 들어, 사용자 주위에 배열된 하나 이상의 라우드스피커에 의해 송신된다. 특히, 사운드 소스는 사용자의 귀에 대한 특정 거리에 그리고 특정 방향에 위치될 수 있다. 사운드 소스는 도 3에 도시된 데이터 처리 시스템(300)의 사운드 송신 수단(310)일 수 있다.
단계 120에서, 단계 110에서 송신된 사운드 신호가 사용자의 귀에서 또는 사용자의 귀 내에서 수신된다. 사운드 신호는 사용자의 귀 내에, 예를 들어, 사용자의 귀의 외이도 내에, 더 구체적으로는 사용자의 귀의 고막, 외이도, 또는 귓바퀴 부근에 위치된 마이크로폰과 같은 사운드 수신 수단에 의해 수신될 수 있다. 대안적으로, 사운드 수신 수단은 사용자의 귀에 또는 그 부근에 위치될 수 있다. 사운드 신호는 사용자의 귀에 대한 제1 사운드 신호 방향으로부터 수신될 수 있다. 사운드 수신 수단은 도 3에 도시된 데이터 처리 시스템(300)의 사운드 수신 수단(320)일 수 있다.
단계 130에서, 수신된 사운드 신호에 기초하여, 사용자의 귀와 연관된 제1 사운드 신호 전달 함수를 나타내는 제1 데이터가 결정된다. 대안적으로, 제1 데이터는 상이하게, 즉 방법 단계들 110 및 120을 수행하거나 수행하지 않고 결정될 수 있다. 예를 들어, 제1 데이터는 외부 구성요소로부터 수신될 수 있다. 제1 데이터는 초기 사운드 신호 전달 함수를 나타내는 초기 데이터에 기초하여 또한 결정될 수 있다. 예를 들어, 초기 전달 함수는 근거리장 전달 함수이다. 근거리장 전달 함수는 사용자의 귀에 대한 근거리장 내에 위치된 사운드 소스, 예를 들어, 사용자에 의해 착용된 헤드폰으로부터 수신된 사운드 신호에 기초하여 결정될 수 있다. 초기 사운드 신호 전달 함수는 수신된 사운드 신호로부터 추출될 수 있다. 제1 사운드 신호 전달 함수는 원거리장 또는 자유장 사운드 신호 전달 함수일 수 있다. 제1 사운드 신호 전달 함수는 초기 (근거리) 사운드 신호 전달 함수에 기초하여 결정될 수 있다. 상기의 결정은 예를 들어, 그에 따라 트레이닝되는 신경망 모델에 의해 수행될 수 있다. 신경망 모델 및 신경망 모델의 트레이닝 프로세스는 예를 들어, 제1 (트레이닝) 원거리장 또는 자유장 사운드 신호 전달 함수를 (트레이닝) 근거리장 사운드신호 전달 함수로 대체함으로써, 이하에 설명될 신경망 모델 및 트레이닝 프로세스와 유사하게 구조화되거나 트레이닝될 수 있다.
일반적으로, 본원에서 사용될 때 용어 "사운드 신호 전달 함수"는 주파수 도메인에서의 전달 함수 또는 시간 도메인에서의 임펄스 응답을 기술할 수 있다. 시간 도메인에서의 전달 함수는 임펄스 응답, 특히 헤드 관련 임펄스 응답(HRIR)일 수 있다. 주파수 영역에서의 전달 함수는 주파수 응답, 특히 헤드 관련 주파수 응답(HRFR)일 수 있다. 본원에서 사용될 때 용어 "주파수 응답"은 진폭 응답, 위상 응답, 또는 진폭과 위상 응답 양자를 조합하여 기술할 수 있다. 다음에서, 용어 "주파수 응답"이 사용될 때, 주파수 응답 또는 임펄스 응답이 의도된다. 일반적으로, 주파수 도메인에서의 HRIR의 표현으로서 HRTF의 주파수 응답은 HRIR에 시간 대 주파수 변환을 적용함으로써 얻어질 수 있다.
일반적으로, 사운드 신호 전달 함수는 송신된 사운드 신호와 수신된 사운드 신호를 비교함으로써 결정, 예를 들어, 추출될 수 있다. 다르게 말하면, 사운드 신호 전달 함수는 송신되거나 수신된 사운드 신호와 독립적, 즉 구별될 수 있다. 사운드 신호 전달 함수는 대신에 사운드 신호가 수신되는 사용자의 귀의 특성일 수 있다.
다시 단계 130을 참조하면, 제1 사운드 신호 전달 함수는 수신된 사운드 신호, 즉, 단계 120에서 사운드 수신 수단에 의해 수신된 사운드 신호로부터 추출될 수 있다. 전달 함수의 추출은 단계 120에서 사운드 수신 수단에 의해 수신된 사운드 신호와 단계 120에서 사운드 송신 수단에 의해 송신된 사운드 신호의 비교에 또한 기초할 수 있다. 비교는 특정 주파수 범위, 특히 기준 스윕에 의해 커버되는 주파수 범위 내에서 수행될 수 있다. 제1 사운드 신호 전달 함수는 사용자의 귀에 대한 제1 사운드 신호 방향과 또한 연관될 수 있다.
위에서 언급된 바와 같이, 사운드 신호는 단계 110에서, 예를 들어, 사용자의 귀에 대한 원거리장 또는 자유장 내에서 송신되었다. 이에 따라, 제1 사운드 신호 전달 함수는 원거리장 또는 제1 자유장 사운드 신호 전달 함수, 즉 제1 원거리장 또는 자유장 주파수 응답일 수 있다. 일반적으로, 사용자의 귀와 연관된 사운드 신호 전달 함수는 사운드 송신 수단과 사용자의 귀 간의 거리에 의존할 수 있다. 다르게 말하면, 사용자의 귀와 연관된 사운드 신호 전달 함수는 사운드 신호가 사용자의 귀에 대한 근거리장 내에 위치된 사운드 소스로부터 송신되었는지, 원거리장 내에 위치된 사운드 소스로부터 송신되었는지 또는 (근사화된) 자유장 내에 위치된 사운드 소스로부터 송신되었는지에 의존할 수 있다.
사용자의 귀에 대한 근거리장 내에 위치된 사운드 소스는 사용자의 귀에 상대적으로 가까기에, 또는 그 부근에 위치될 수 있다. 사용자의 귀에 대한 원거리장 내에 위치된 사운드 소스는 사용자의 귀로부터 상대적으로 멀리 위치될 수 있다. 자유장 내에 (또는 근사화된) 자유장 내에 위치된 사운드 소스는 사운드 반사가 일어나지 않는(또는 거의/대략적으로 일어나지 않는, 또는 적어도 더 적거나 또는 상대적으로 적게 일어나는) 원거리장 내에 위치되는 사운드 신호일 수 있다. 용어 "자유장"이 사용될 때, 자유장 또는 근사화된 자유장이 의도된다. 적절한 경우, 용어 "자유장", "근사화된 자유장" 및 "원거리장"은 본원에서 상호교환가능하게 사용될 수 있다. 사용자의 귀에 대한 근거리장/자유장 내에 위치된 사운드 소스는 사운드 소스에 대한 근거리장의/자유장 내에 위치된 사용자의 귀에 대응한다.
또한, 사용자의 귀와 연관된 사운드 신호 전달 함수는 사용자의 귀에 대한 근거리장, 원거리장 또는 자유장 내에서의 방향에 의존할 수 있다. 단계 110에서 원거리장 또는 자유장 내에서 송신된 사운드 신호가 사용자의 귀에 대한 또는 기준 축에 대한 각각 0도(0°)의 상하각 및 방위각에서, 또는 대략 0도(0°)의 상하각 및 방위각에서 송신될 수 있으며, 기준 축은 예를 들어, 사용자의 한쪽 귀의 기준점, 중심 또는 고막을 나타내는 두 지점을 포함한다. 대안적으로, 단계 110에서 원거리장 또는 자유장 내에서 송신된 사운드 신호는 0도와 상이한 상하각 및/또는 방위각에서 또는 대략 0도와 상이한 상하각 및/또는 방위각에서 송신될 수 있다.
제1 데이터, 즉, 사용자의 귀와 연관된 제1 사운드 신호 전달 함수 또는 제1 주파수 응답은 컴퓨팅 수단, 예를 들어, 데이터 처리 시스템(300)의 컴퓨팅 수단(330)에 의해 결정될 수 있으며, 여기서 컴퓨팅 수단(330)은 사운드 송신 수단(310) 및/또는 사운드 수신 수단(320)과 통신가능하게 결합될 수 있다.
단계 150에서, 결정된 제1 데이터에 기초하여, 제2 데이터가 결정된다. 제2 데이터는 컴퓨팅 수단(330)에 의해, 특히 컴퓨터 수단(330)의 신경망 모듈(331)에 의해 결정, 특히 생성될 수 있다. 제2 데이터는 사용자의 귀와 연관된 제2 사운드 신호 전달 함수를 나타낸다. 제2 사운드 신호 전달 함수는 제1 사운드 신호 전달 함수와 상이할 수 있다. 제2 사운드 신호 전달 함수는 사용자의 귀와 연관된, 제2 원거리장 또는 자유장 사운드 신호 전달 함수, 또는 원거리장 또는 자유장 사운드 신호 전달 함수의 근사치일 수 있다. 다르게 말하면, 단계 150에서, 사용자의 귀와 연관된 제2 원거리장 또는 자유장 주파수 응답이 사용자의 귀와 연관된 제1 원거리장의 또는 자유장 주파수 응답에 기초하여 결정된다. 상기의 결정은 도 2를 참조하여 설명된 바와 같은 트레이닝 방법(200)을 사용하여 트레이닝될 수 있는 신경망 모델을 사용하여 수행될 수 있다.
제2 사운드 신호 전달 함수는 단계 120에서 사운드 신호가 수신된 방향과 상이한, 즉 제1 사운드 신호 방향과 상이한 사용자의 귀에 대한 제2 사운드 신호 방향과 또한 연관될 수 있다. 제2 사운드 신호 방향은 컴퓨팅 수단, 예를 들어, 도 3에 도시된 컴퓨팅 수단(330)에 의해 생성되거나 결정되거나 미리 결정될 수 있다.
제2 데이터, 즉 제2 사운드 신호 방향과 연관된 제2 사운드 신호 전달 함수는 제3 데이터에 기초하여 결정될 수 있으며, 여기서 제3 데이터는 제2 사운드 신호 방향을 나타내고 제1 사운드 신호 방향을 또한 나타낼 수 있다. 제1 및/또는 제2 사운드 신호 방향을 나타내는 제3 데이터는 단계 150에서의 제2 데이터의 결정 이전에 단계 140에서 미리 결정될 수 있거나 선택사항으로서 결정될 수 있다.
단계 150에서 제2 사운드 신호 방향과 연관된 제2 데이터를 결정한 후, 후속 제2 데이터가 제3 데이터 및 결정된 제1 데이터, 즉 결정된 제1 사운드 신호 전달 함수에 또한 기초하여 결정되거나, 또는 후속해서 결정될 수 있다. 다르게 말하면, 제2 데이터의 세트가 단계 130에서 결정된 제1 데이터에 기초하여 결정될 수 있으며, 여기서 제2 데이터의 세트는 복수의 각 제2 데이터를 포함한다. 각 제2 데이터는 각 제3 데이터와 각각 연관될 수 있다. 각 제3 데이터는 각, 특히 각 상이한, 제2 사운드 신호 방향을 각각 나타낼 수 있다. 환언하면, 제2 데이터의 세트가 단계들 140 및 150을 반복함으로써 결정될 수 있으며, 여기서 각 반복에서, 상이한 제2 및/또는 제3 데이터가 결정된다. 예를 들어, 각 반복에서, 상이한 제3 데이터는 예를 들어, 사용자에 의해 결정된다. 그 후, 상이한 제3 데이터의 결정은 상이한 제2 데이터의 결정을 초래한다.
선택사항으로서, 단계 160에서, 필터 함수, 특히 필터, 예를 들어, FIR(유한 임펄스 응답) 필터가 결정, 특히 생성된다. 필터 함수는 제2 데이터에 기초하여, 특히 제2 데이터 및 제1 데이터에 기초하여 결정된다. 다르게 말하면, 필터 함수는 생성된 제2 원거리장 또는 자유장 주파수 응답 및 결정된 제1 원거리장 또는 자유장 주파수 응답에 기초하여 결정될 수 있다. 필터 함수는 단계 110에서 송신된 사운드 신호 또는 임의의 다른, 예를 들어, 후속 사운드 신호들에 적용될 수 있다. 필터 함수를 사운드 신호에 적용할 때, 특성들, 특히 사운드 신호의 주파수 스펙트럼 또는 시간에서의 임펄스 분포가 변경된다. 변경된 사운드 신호를 송신할 때, 변형된 변경된 사운드 신호(상술한 바와 같이 사용자의 신체에 의해 변형됨)가 사용자의 귀 내에서 수신된다. 수신된 변형된 변경된 사운드 신호는 사운드 신호가 제2 사운드 신호 전달 함수와 연관된 사운드 신호 방향에 위치된 사운드 소스로부터 수신된다는 사용자의 인상을 유발한다. 다르게 말하면, 변형된 변경된 사운드 신호는 상기의 사운드 신호 방향에 위치된 다른 사운드 소스로부터 수신되는 사용자의 귀 내에서 수신된 다른 변형된 사운드 신호에 대응 또는 대략적으로 대응할 수 있다. 다르게 말하면, 필터 함수를 사운드 신호에 적용함으로써, 위에서 설명된 바와 같이 사용자의 신체를 통한 사운드 신호의 변형이 에뮬레이트 또는 가상화되어서,― 신체 부분에 의해 변형된 ― 사운드 신호가 신체의 다른 부위들을 통해 변형된 것으로서 그리고 이에 따라 특정, 특히 상이한 방향으로부터 수신된 것으로서 인식된다.
단계 170에서, 변형된 사운드 신호 또는 변형된 후속 사운드 신호가 송신될 수 있다. 변형된 사운드 신호 또는 변형된 후속 사운드 신호는 사운드 신호가 원래 수신되었던 사운드 소스, 예를 들어, 도 3에 도시된 데이터 처리 시스템(300)의 사운드 송신 수단(310)에 의해 송신될 수 있다.
방법(100) 또는 방법(100)의 일부, 특히 단계들 130 및 150은 사용자의 제1 귀와 사용자의 제2 귀 양쪽에 대해 수행될 수 있다. 이러한 방식으로, 사용자의 제1 및 제2 귀 중 한쪽과 각각 연관된 제2 데이터의 두 세트가 각각 얻어질 수 있다. 방법(100)이전에, 제2 데이터를 결정하기 위해 단계 150에서 사용되는 신경망 모델은 신경망 모델을 개시 및/또는 트레이닝하기 위한 방법 동안 개시 및/또는 트레이닝된다.
도 2는 신경망 모델을 개시 및/또는 트레이닝하기 위한 방법의 흐름도(200)를 도시한다. 선택사항적인 단계들은 점선으로 표시된다. 신경망 모델은 신경망 모델의 제1 입력에 기초하여 특정 사용자의 귀와 연관된 생성된 사운드 신호 전달 함수를 출력하도록 개시 및/또는 트레이닝되며, 여기서 제1 입력은 특정 사용자의 귀, 예를 들어, 방법(100)의 단계 130에서 결정된 제1 데이터와 연관된 입력 사운드 신호 전달 함수이다. 방법(200)은 도 4에 도시된 데이터 처리 시스템(400)에 의해 수행될 수 있다.
입력 사운드 신호 전달 함수는 입력 제1 사운드 신호 방향과 연관된 사운드 신호 전달 함수를 나타낼 수 있다. 신경망 모델은 입력 제1 사운드 신호 방향에 또한 기초하여 생성된 사운드 신호 전달 함수를 출력하도록 개시 및/또는 트레이닝될 수 있다.
특히, 입력 사운드 신호 전달 함수는 제1 원거리장 또는 자유장 사운드 신호 전달 함수를 나타낼 수 있다. 입력 사운드 신호 전달 함수는 특정 사용자의 귀 내에서 또는 귀에서 수신된 특정 사운드 신호, 예를 들어, 방법(100)의 단계 120에서 수신된 사운드 신호에 기초하여 결정될 수 있다. 생성된 사운드 신호 전달 함수는 동일한 사용자의 귀와 연관된 제2 원거리장 또는 자유장 사운드 신호 전달 함수를 나타낼 수 있다.
방법(200)은 단계 250에서 시작된다. 단계 250에서, 트레이닝 데이터 세트가 결정된다. 트레이닝 데이터 세트는 복수의 제1 트레이닝 데이터 및 복수의 제2 트레이닝 데이터를 포함한다. 단계 260에서, 트레이닝 데이터 세트에 기초하여, 신경망 모델이 신경망 모델의 제1 입력에 적어도 기초하여 생성된 사운드 신호 전달 함수를 출력하도록 개시 및/또는 트레이닝된다. 방법 단계들 250 및 260은 데이터 처리 시스템(400)의 컴퓨팅 수단(440)에 의해, 특히 신경망 개시/트레이닝 모듈(441)에 의해 수행될 수 있다. 예를 들어, 기본 피드포워드 신경망이 초기 템플릿으로서 사용될 수 있다.
복수의 제1 트레이닝 데이터는 제1 트레이닝 데이터의 세트를 포함하며, 여기서 제1 학습 데이터 각각은 트레이닝 사용자의 귀와 연관된 각 제1 트레이닝 사운드 신호 전달 함수를 나타낸다. 제1 트레이닝 사운드 신호 전달 함수들 각각은 동일한 트레이닝 사용자의 귀와 또는 각 상이한 트레이닝 사용자의 귀와 연관될 수 있다. 예를 들어, 각 제1 트레이닝 사운드 신호 전달 함수들은 각 원거리장 또는 자유장 트레이닝 사운드신호 전달 함수들일 수 있으며, 즉, 각 제1 트레이닝 사운드 신호 전달 함수들은 각 주파수 응답 또는 임펄스 응답, 특히 원거리장 또는 자유장 주파수 응답 또는 임펄스 응답을 각각 나타낼 수 있다. 제1 트레이닝 데이터는 실험실 환경에서 생성될 수 있다.
복수의 제2 트레이닝 데이터는 제2 학습 데이터의 세트를 포함하며, 제2 트레이닝 데이터 각각은 대응하는 제1 트레이닝 사운드 신호 전달 함수와 동일한 트레이닝 사용자의 귀 또는 동일한 각 트레이닝 사용자의 귀와 연관된 각 제2 트레이닝 사운드 신호 전달 함수를 나타낸다. 각 제2 트레이닝 사운드 신호 전달 함수들 각각은 각 원거리장 또는 자유장 사운드 신호 전달 함수를 나타낼 수 있다. 마찬가지로, 제2 트레이닝 데이터는 실험실 환경에서 결정될 수 있다.
각 제1 트레이닝 사운드 신호 전달 함수들 각각은 트레이닝 사용자의 귀에 대한 단일 제1 트레이닝 사운드 신호 방향 또는 트레이닝 사용자의 귀에 대한 각 제1 트레이닝 사운드 신호 방향과 연관될 수 있다. 각 제2 트레이닝 사운드 신호 전달 함수들 각각은 트레이닝 사용자의 귀에 대한 단일 제2 사운드 신호 방향 또는 트레이닝 사용자의 귀에 대한 각 제2 트레이닝 사운드 신호 방향과 연관될 수 있다. 트레이닝 데이터 세트는 복수의 제3 트레이닝 데이터를 더 포함할 수 있다. 제3 트레이닝 데이터는 제1 및 제2 트레이닝 사운드 신호 방향들 또는 각 제1 및 제2 트레이닝 사운드 신호 방향들을 나타낼 수 있다. 신경망 모델을 개시 및/또는 생성하는 것은 제3 트레이닝 데이터에 또한 기초할 수 있다.
생성된 사운드 신호 전달 함수는 사용자의 귀에 대한 생성된 사운드 신호 방향과 연관될 수 있다. 생성된 사운드 신호 방향은 특정 사용자에 의해 미리 결정 또는 나타내어지거나 또는 컴퓨팅 수단, 예를 들어, 데이터 처리 시스템(300)의 컴퓨팅 수단(330)에 의해 나타내어질 수 있다. 컴퓨팅 수단은 데이터 처리 시스템(300)의 사운드 송신 수단(310) 또는 특정 사용자를 둘러싸는 하나 이상의 라우드스피커와 통신가능하게 결합되거나 이에 의해 포함될 수 있다. 대안적으로, 생성된 방향은 사운드 송신 수단, 예를 들어, 데이터 처리 시스템(300)의 사운드 송신 수단(310)을 통해 송신될 사운드 신호에 의해, 또는 특정 사용자를 둘러싸는 라우드스피커들에 의해 나타내어질 수 있다. 송신될 사운드 신호는 컴퓨팅 수단, 특히 컴퓨팅 수단에 의해 포함된 저장소(332)에 의해 저장될 수 있고/거나, 외부 구성요소로부터 컴퓨팅 수단에 의해 수신될 수 있다. 또한, 제1, 제2 및/또는 제3 데이터 그리고/또는 신경망 모델 및 임의의 다른 필요한 데이터, 이를테면 신경망 아키텍처 및 트레이닝 도구들이 저장 모듈(332)에 저장될 수 있다. 또한, 신경망 트레이닝 프로세스, 제1 및 제2 트레이닝 신호들 및/또는 제1, 제2 및 제3 트레이닝 데이터는 컴퓨팅 수단(430)에 의해, 특히 저장 모듈(432)에 의해 저장될 수 있다.
생성된 사운드 신호 방향은 신경망 모델의 제3 입력일 수 있다. 다르게 말하면, 신경망 모델은 특정 사용자의 귀에 대한 입력 생성된 사운드 신호 방향에 기초하여 생성된 사운드 신호를 출력하도록 개시 및/또는 트레이닝된다. 환언하면, 신경망 모델은 생성될 출력 사운드 신호 전달 함수와 연관된 방향에 기초하여 생성된 사운드 신호 전달을 출력하도록 개시 및/또는 트레이닝된다. 상기의 방향은 예를 들어, 제3 데이터에 의해 포함되는, 모델에 대한 입력으로서 사용된다.
트레이닝 데이터 세트는 도 2에 나타내어진 바와 같이, 방법 단계들 250 및 260에 선행하는 방법 단계들 210 내지 240을 통해 결정 또는 생성될 수 있다. 단계 210에서, 제1 트레이닝 사운드 신호가 송신된다. 특히, 복수의 제1 트레이닝 사운드 신호들이 송신된다. 제1 트레이닝 사운드 신호는 제1 사운드 송신 수단, 예를 들어, 데이터 처리 시스템(400)의 제1 사운드 송신 수단(410)에 의해 송신될 수 있다. 제1 사운드 송신 수단은 트레이닝 사용자의 귀에 대한 원거리장 또는 자유장 내에 위치된다. 제1 사운드 송신 수단은 트레이닝 사용자의 귀에 대한 제1 트레이닝 방향에 위치된다. 제1 트레이닝 방향은 고정 및/또는 미리 결정될 수 있다. 제1 트레이닝 방향은 트레이닝 사용자의 귀에 대한 또는 트레이닝 기준 축에 대한 0도(0°)의 상하각 및 방위각 각각을 나타내거나 이에 의해 기술될 수 있으며, 트레이닝 기준 축은 예를 들어, 트레이닝 사용자의 한쪽 귀의 기준점, 중심, 또는 고막을 각각 나타내는 두 지점을 포함한다.
제1 사운드 송신 수단은 특히 실험실 환경, 예를 들어, 무반향실에서 트레이닝 사용자 주위에 위치된 하나 이상의 라우드스피커일 수 있다. 제1 트레이닝 사운드 신호가 단계 230에서 사운드 수신 수단 또는 트레이닝 사운드 수신 수단, 예를 들어, 트레이닝 사용자의 귀 내에서 또는 귀에 위치된, 특히 사용자의 귀의 고막, 외이도, 또는 귓바퀴 부근에 위치된 데이터 처리 시스템(400)의 사운드 수신 수단(430)을 통해 수신될 수 있다. 사운드 수신 수단 또는 트레이닝 사운드 수신 수단은 마이크로폰일 수 있다.
단계 220에서, 제2 트레이닝 사운드 신호, 특히 복수의 제2 트레이닝 사운드 신호들이 송신될 수 있다. 제2 트레이닝 사운드 신호는 하나 이상의 제2 사운드 송신 수단 또는 제2 트레이닝 사운드 송신 수단, 예를 들어, 데이터 처리 시스템(400)의 제2 사운드 송신 수단(420)에 의해 송신될 수 있다. 제2 사운드 송신 수단은 트레이닝 사용자의 귀에 대한 원거리장 또는 자유장 내에 위치될 수 있다. 제2 사운드 송신 수단은 특히 실험실 환경, 예를 들어, 무반향실 내에서 트레이닝 사용자 주위에 배열된 하나 이상의 라우드스피커일 수 있다.
하나 이상의 제2 사운드 송신 수단은 트레이닝 사용자의 귀에 대한 하나 이상의 제2 트레이닝 방향에 위치된다. 제2 트레이닝 방향들은 고정 및/또는 미리 결정되거나 조정가능할 수 있다. 제2 트레이닝 방향들 중 하나는 트레이닝 사용자의 귀에 대한 또는 기준 축에 대한 0도(0°)의 상하각 및 방위각 각각을 나타내거나 이에 의해 기술될 수 있으며, 기준 축은 위에서 설명된 바와 같이, 예를 들어, 트레이닝 사용자의 한쪽 귀의 기준점, 중심, 또는 고막을 각각 나타내는 두 지점을 포함한다. 제2 트레이닝 방향들은 각각 0도(0°)의 상하각 및/또는 방위각을 나타내거나 또는 이에 의해 기술될 수 있다. 대안적으로, 제2 트레이닝 방향들 중 적어도 하나는 각각 0도(0°)와 상이한 상하각 및/또는 방위각을 나타내거나 또는 이에 의해 기술될 수 있다. 제2 트레이닝 방향들은 각각 상하각 범위 및/또는 방위각 범위, 특히 0 내지 360도를 점진적으로 커버할 수 있다.
단계 240에서, 제2 트레이닝 사운드 신호가 사운드 수신 수단 또는 트레이닝 사운드 수신 수단, 예를 들어, 트레이닝 사용자의 귀 내에서 또는 귀에서, 특히 사용자의 귀의 고막, 외이도, 또는 귓바퀴 부근에 위치된 데이터 처리 시스템(400)의 사운드 수신 수단(430)에 의해 수신될 수 있다.
수신된 제1 트레이닝 사운드 신호 또는 수신된 복수의 제1 트레이닝 사운드 신호들에 기초하여, 제1 트레이닝 데이터가 단계 250에서 결정될 수 있다. 수신된 제2 트레이닝 사운드 신호 또는 수신된 복수의 제2 트레이닝 사운드 신호들에 기초하여, 제2 트레이닝 데이터 및/또는 제3 트레이닝 데이터가 단계 250에서 결정될 수 있다. 대안적으로, 제3 트레이닝 데이터는 트레이닝 시스템, 예를 들어, 데이터 처리 시스템(400), 특히 컴퓨팅 수단(440) 또는 신경망 개시/트레이닝 모듈(441)에 의해 개별적으로 결정, 예를 들어, 나타내어질 수 있다.
제3 트레이닝 데이터는 제1 또는 제2 트레이닝 사운드 신호 방향을 나타내는 제1 벡터 데이터를 포함할 수 있다. 예를 들어, 제1 벡터 데이터는 제1 또는 제2 트레이닝 사운드 신호 방향에 대한 각 제1 구형 또는 직교 벡터를 나타낼 수 있다. 제1 벡터 데이터는 제1, n 차원 벡터를 기술할 수 있다. 대안적으로 또는 추가적으로, 제3 트레이닝 데이터는 제2 벡터 데이터를 포함할 수 있으며, 특히 여기서 제2 벡터 데이터는 제1 벡터 데이터에 종속되거나, 또는 이로부터 도출된다. 제2 벡터 데이터는 제2, m 차원 벡터를 기술할 수 있다. 더 구체적으로, 제1 벡터는 양의 및/또는 음의 벡터 엔트리들을 가질 수 있다. 제2 벡터는 단지 양의 또는 단지 양이 아닌 벡터 엔트리들만을 가질 수 있다. 예를 들어, 제2 벡터의 벡터 엔트리들은 제1 벡터의 대응하는 벡터 엔트리들의 절대값들일 수 있다. 추가적으로 또는 대안적으로, 제2 벡터의 벡터 엔트리들은 제1 벡터의 대응하는 벡터 엔트리들에 인자가 곱해지거나 또는 각 인자가 각각 곱해지는 것을 나타낼 수 있다. 제1 및 제2 벡터 데이터는 (m+n) 차원 벡터를 기술하는 조합된 벡터 데이터에 의해 포함될 수 있다. 대안적으로, 제2 벡터 데이터 및 제로 벡터는 조합된 (m+n) 벡터에 의해 포함될 수 있다. 이에 의해, 트레이닝 프로세스 동안 신경망 모델의 수렴 프로세스가 향상될 수 있다.
신경망 모델을 위한 상이한 최적화 알고리즘들, 예를 들어, Adam 최적화기가 사용될 수 있다. 개시된 및/또는 트레이닝된 신경망 모델은 평가 트레이닝 데이터 세트를 사용하여 평가될 수 있다. 평가 트레이닝 데이터 세트는 트레이닝 프로세스에 아직 포함되지 않은 제1, 제2 및 제3 트레이닝 데이터를 포함할 수 있다. 특히, 평가 트레이닝 데이터 세트의 제1 및 제3 트레이닝 데이터는 개시된 및/또는 트레이닝된 신경망 모델의 입력으로서 사용될 수 있다. 신경망 모델의 대응하는 출력은 평가 트레이닝 데이터 세트의 제2 트레이닝 데이터와 비교될 수 있다. 비교에 기초하여, 신경망 모델의 에러 값이 결정될 수 있다. 결정된 에러 값은 에러 임계값과 비교될 수 있다. 에러 임계값과의 비교에 기초하여, 트레이닝 모델, 예를 들어, 데이터 처리 시스템(400)의 신경망 개시/트레이닝 모듈(431)은 트레이닝 프로세스를 계속할지 또는 종료할지를 결정할 수 있다. 예를 들어, 트레이닝 프로세스는 에러 값이 에러 임계값을 초과한다면 계속되고, 그렇지 않다면, 즉 에러값이 에러 임계값 미만이라면 종료될 수 있다.
도 3은 방법(100)을 수행하도록 구성된 데이터 처리 시스템을 도시한다. 데이터 처리 시스템(300)은 사운드 송신 수단(310), 사운드 수신 수단(320) 및 컴퓨팅 수단(330)을 포함한다. 컴퓨팅 수단(330)은 신경 네트워크 모듈(331) 및 저장 모듈(332)을 포함한다.
사운드 송신 수단(310)은 사용자의 귀에 대한 원거리장 또는 자유장 내에 위치되도록 구성된다. 사운드 송신 수단(310)은 사용자 주위에 위치된 라우드스피커들일 수 있다.
사운드 수신 수단(320)은 사용자의 귀에 대한 근거리장 내에, 특히 사용자의 귀 내에, 즉 사용자의 외이도 내에 위치되도록 구성된다. 더 구체적으로, 사운드 수신 수단은 사용자의 귀의 귓바퀴 부근에, 바람직하게는 사용자의 귀의 고막 부근에 위치되도록 구성된다. 대안적으로, 사운드 수신 수단은 사용자의 귀에 또는 그 부근에 위치될 수 있다. 사운드 수신 수단(320)은 마이크로폰일 수 있다.
컴퓨터 수단(330)은 사운드 송신 수단(310)과 별개이거나 이에 의해 포함될 수 있다. 사운드 송신 수단(310) 및 사운드 수신 수단(320)은 예를 들어, 유선 연결 및/또는 무선 연결을 통해, 예를 들어, 서버(340)를 통해, 컴퓨팅 수단(330)에 통신가능하게 결합된다. 마찬가지로, 사운드 송신 수단(310)은 사운드 수신 수단(320)에 직접 그리고/또는 서버(340)를 통해 통신가능하게 결합될 수 있다.
사운드 송신 수단(310)에 의해 송신될 사운드 신호는 사운드 송신 수단(310)과 컴퓨터 수단(330) 사이에서 통신된다. 사운드 수신 수단(320)에 의해 수신된 사운드 신호는 사운드 송신 수단(320)과 컴퓨터 수단(330) 사이에서 통신된다.
도 4는 방법(200)을 수행하도록 구성된 데이터 처리 시스템(400)을 도시한다. 데이터 처리 시스템(400)은 제1 사운드 송신 수단(410), 제2 사운드 송신 수단(450), 사운드 수신 수단(420) 및 컴퓨팅 수단(430)을 포함한다. 컴퓨팅 수단(430)은 신경 네트워크 개시/트레이닝 모듈(431) 및 저장 모듈(432)을 포함한다.
제1 사운드 송신 수단(410)은 데이터 처리 시스템(300)의 사운드 송신 수단(310)과 같거나 유사할 수 있다. 제1 사운드 송신 수단(410)은 사용자의 귀에 대한 원거리장 내에 바람직하게는 자유장 또는 근사 자유장 내에 위치되도록 구성된다. 제1 사운드 송신 수단(410)은 예를 들어, 실험실 환경, 이를테면 무반향실에서, 사용자 주위에 위치된 하나 이상의 라우드스피커일 수 있다.
제2 사운드 송신 수단(450)은 사용자의 귀에 대한 원거리장 내에, 바람직하게는 자유장 또는 근사 자유장 내에 위치되도록 구성된다. 제2 사운드 송신 수단(450)은 실험실 환경, 이를테면 무반향실에서 사용자 주위에 위치된 하나 이상의 라우드스피커일 수 있다.
사운드 수신 수단(420)은 데이터 처리 시스템(300)의 사운드 수신 수단(320)과 같거나 유사할 수 있다. 이들 사운드 수신 수단들(420)은 사용자의 귀에 대한 근거리장 내에, 특히 사용자의 귀 내에, 즉 사용자의 외이도 내에 위치되도록 구성된다. 더 구체적으로, 사운드 수신 수단은 사용자의 귀의 귓바퀴 부근에, 바람직하게는 사용자의 귀의 고막 부근에 위치되도록 구성된다. 대안적으로, 사운드 수신 수단은 사용자의 귀에 또는 그 부근에 위치될 수 있다. 사운드 수신 수단(420)은 마이크로폰일 수 있다.
제1 및 제2 사운드 송신 수단들(410, 450) 및 사운드 수신 수단(420)은 예를 들어, 유선 연결 및/또는 무선 연결을 통해, 예를 들어, 서버(440)를 통해, 컴퓨팅 수단(430)에 통신가능하게 결합된다. 마찬가지로, 제1 및 제2 사운드 송신 수단들(410, 450) 및/또는 사운드 수신 수단(420)은 예를 들어, 서버(440)를 통해, 직접적으로 그리고/또는 간접적으로 데이터 처리 시스템(400)의 다른 구성요소들 중 적어도 하나에 통신가능하게 결합될 수 있다.

Claims (16)

  1. 개인화된 사운드 신호 전달 함수를 생성하기 위한 컴퓨터 구현 방법으로서,
    제1 데이터를 결정하는 단계 ― 상기 제1 데이터는 제1 사운드 신호의 제1 사운드 신호 전달 함수를 나타내되, 상기 제1 사운드 신호 전달 함수는 사용자의 귀 및 상기 사용자의 귀에 대한 제1 사운드 신호 방향과 연관됨 ―; 및
    상기 제1 데이터에 기초하여, 제2 데이터를 결정하는 단계 ― 상기 제2 데이터는 제2 사운드 신호 전달 함수를 나타내되, 상기 제2 사운드 신호 전달 함수는 상기 사용자의 귀 및 상기 사용자의 귀에 대한 제2 사운드 신호 방향과 연관됨 ― 를 포함하는, 컴퓨터 구현 방법.
  2. 제1항에 있어서, 사운드 수신 수단에 의해, 상기 사용자의 귀에서 또는 상기 사용자의 귀 내에서 사운드 신호를 수신하는 단계를 더 포함하되, 상기 제1 데이터를 결정하는 단계가 상기 수신된 사운드 신호에 기초하는 것인, 컴퓨터 구현 방법.
  3. 제1항에 있어서,
    상기 제1 사운드 신호 전달 함수는 상기 제1 사운드 신호 방향과 연관된 제1 원거리장(far field) 또는 제1 자유장(free field) 사운드 신호 전달 함수를 나타내는 것이거나; 또는
    상기 방법은 상기 사용자의 귀에 대한 원거리장 또는 자유장 내에서 상기 제1 사운드 신호 방향 또는 상기 제1 사운드 신호 방향에 위치된 제1 사운드 송신 수단으로부터 상기 제1 사운드 신호를 수신하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  4. 제1항에 있어서, 상기 제2 사운드 신호 전달 함수는 제2 원거리장 또는 제2 자유장 사운드 신호 전달 함수를 나타내는 것인, 컴퓨터 구현 방법.
  5. 제1항에 있어서,
    상기 제1 사운드 신호를 수신하기 전에, 사운드 송신 수단에 의해, 상기 제1 사운드 신호를 송신하는 단계;
    상기 제2 데이터에 기초하여, 상기 제1 사운드 신호 또는 후속 사운드 신호를 변형하기 위한 필터 함수를 결정하는 단계; 또는
    상기 사운드 송신 수단에 의해, 상기 변형된 제1 사운드 신호 또는 상기 변형된 후속 사운드 신호를 송신하는 단계 중 적어도 하나의 단계를 더 포함하는, 컴퓨터 구현 방법.
  6. 제1항에 있어서, 제3 데이터를 결정하는 단계를 더 포함하되, 상기 제3 데이터는 상기 사용자의 귀에 관한 상기 제1 사운드 신호 방향 또는 상기 제2 사운드 신호 방향 중 적어도 하나를 나타내되, 상기 제2 데이터를 결정하는 단계가 상기 제3 데이터에 또한 기초하는 것인, 컴퓨터 구현 방법.
  7. 제6항에 있어서,
    상기 제2 데이터는 인공 지능 기반, 기계 학습 기반, 또는 신경망 모델 기반 회귀 알고리즘 중 하나를 사용하여 결정되며; 그리고
    상기 제1 데이터 또는 상기 제3 데이터 중 적어도 하나는 상기 회귀 알고리즘에 대한 입력들로서 사용되는 것인, 컴퓨터 구현 방법.
  8. 제7항에 있어서,
    트레이닝 데이터 세트를 결정하는 단계 ― 상기 트레이닝 데이터 세트는 복수의 제1 트레이닝 데이터 및 복수의 제2 트레이닝 데이터를 포함함 ―; 및
    사용자의 귀와 연관된 입력 제1 사운드 신호 전달 함수에 기초하여 상기 사용자의 귀와 연관된 제2 사운드 신호 전달 함수를 출력하기 위해, 상기 트레이닝 데이터 세트에 기초하여, 상기 회귀 알고리즘을 개시, 트레이닝, 또는 개시 및 트레이닝하는 단계를 더 포함하되;
    상기 복수의 제1 트레이닝 데이터 각각은 트레이닝 대상의 귀 또는 각 트레이닝 대상의 귀와 연관된 각 제1 트레이닝 사운드 신호 전달 함수를 나타내며; 그리고
    상기 복수의 제2 트레이닝 데이터 각각은 상기 트레이닝 대상의 귀 또는 상기 각 트레이닝 대상의 귀와 연관된 각 제2 트레이닝 사운드 신호 전달 함수를 나타내는 것인, 컴퓨터 구현 방법.
  9. 인공 지능 기반, 기계 학습 기반, 또는 신경망 기반 회귀 알고리즘을 개시 및/또는 트레이닝하기 위한 컴퓨터 구현 방법으로서,
    트레이닝 데이터 세트를 결정하는 단계 ― 상기 트레이닝 데이터 세트는 복수의 제1 트레이닝 데이터 및 복수의 제2 트레이닝 데이터를 포함함 ―; 및
    사용자의 귀와 연관된 입력 제1 사운드 신호 전달 함수에 기초하여 상기 사용자의 귀와 연관된 제2 사운드 신호 전달 함수를 출력하기 위해, 상기 트레이닝 데이터 세트에 기초하여, 상기 회귀 알고리즘을 개시, 트레이닝, 또는 개시 및 트레이닝하는 단계를 포함하되;
    상기 복수의 제1 트레이닝 데이터 각각은 트레이닝 대상의 귀 또는 각 트레이닝 대상의 귀와 연관된 각 제1 트레이닝 사운드 신호 전달 함수를 나타내며; 그리고
    상기 복수의 제2 트레이닝 데이터 각각은 상기 트레이닝 대상의 귀 또는 상기 각 트레이닝 대상의 귀와 연관된 각 제2 트레이닝 사운드 신호 전달 함수를 나타내는 것인, 컴퓨터 구현 방법.
  10. 제9항에 있어서,
    상기 각 제1 트레이닝 사운드 신호 전달 함수들 각각은 제1 트레이닝 사운드 신호 방향 또는 각 제1 트레이닝 사운드 신호 방향과 연관된 각 제1 원거리장 또는 자유장 사운드 신호 전달 함수를 나타내며; 그리고
    상기 입력 제1 사운드 신호 전달 함수는 입력 제1 사운드 신호 방향과 연관된 입력 제1 원거리장 또는 제1 자유장 사운드 신호 전달 함수를 나타내는 것인, 컴퓨터 구현 방법.
  11. 제10항에 있어서,
    상기 각 제2 트레이닝 사운드 신호 전달 함수들 각각은 제2 트레이닝 사운드 신호 방향 또는 각 제2 트레이닝 사운드 신호 방향과 연관된 각 제2 원거리장 또는 자유장 사운드 신호 전달 함수를 나타내며; 그리고
    상기 출력 제2 사운드 신호 전달 함수는 입력 제2 사운드 신호 방향과 연관된 출력 제2 원거리장 또는 제2 자유장 사운드 신호 전달 함수를 나타내는 것인, 컴퓨터 구현 방법.
  12. 제11항에 있어서,
    상기 트레이닝 데이터 세트는 제3 트레이닝 데이터를 더 포함하고;
    상기 제3 트레이닝 데이터는 상기 제1 트레이닝 사운드 신호 방향, 상기 각 제1 트레이닝 사운드 신호 방향, 또는 상기 제2 트레이닝 사운드 신호 방향, 또는 상기 각 제2 트레이닝 사운드 신호 방향 중 적어도 하나를 나타내며; 그리고
    상기 제2 사운드 신호 전달 함수를 출력하기 위해 상기 회귀 알고리즘을 개시, 트레이닝, 또는 개시 및 트레이닝하는 단계는 상기 제1 입력 사운드 신호 방향 또는 상기 입력 제2 사운드 신호 방향 중 적어도 하나에 또한 기초하는 것인, 컴퓨터 구현 방법.
  13. 제12항에 있어서, 상기 제3 트레이닝 데이터는:
    상기 제1 트레이닝 사운드 신호 방향 또는 상기 제2 트레이닝 사운드 신호 방향 중 적어도 하나를 나타내는 제1 벡터 데이터; 및
    제2 벡터 데이터 ― 상기 제2 벡터 데이터는 상기 제1 벡터 데이터에 종속되거나 상기 제1 벡터 데이터로부터 도출됨 ― 를 포함하는 것인, 컴퓨터 구현 방법.
  14. 제9항에 있어서,
    상기 트레이닝 대상의 귀에 대한 제1 원거리장 또는 제1 자유장 내에서 상기 각 제1 트레이닝 사운드 신호 방향에 위치된 각 제1 사운드 송신 수단으로부터 상기 트레이닝 대상의 귀에서 또는 상기 트레이닝 대상의 귀 내에서 복수의 제1 트레이닝 사운드 신호들을 수신하고, 상기 수신된 복수의 제1 트레이닝 사운드 신호들 각각에 기초하여, 상기 각 제1 트레이닝 사운드 신호 전달 함수들을 결정하는 단계; 또는
    상기 트레이닝 대상의 귀에 대한 제2 원거리장 또는 제2 자유장 내에서 상기 각 제2 트레이닝 사운드 신호 방향에 위치된 각 제2 사운드 송신 수단으로부터 상기 트레이닝 대상의 귀에서 또는 상기 트레이닝 대상의 귀 내에서 상기 제2 트레이닝 사운드 신호를 수신하고, 수신된 복수의 제2 트레이닝 사운드 신호들 각각에 기초하여, 상기 각 제2 트레이닝 사운드 신호 전달 함수들을 결정하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  15. 제1항 내지 제14항 중 어느 한 항의 방법을 수행하기 위한 컴퓨팅 수단을 포함하는 데이터 처리 시스템.
  16. 컴퓨팅 수단에 의해 실행될 때, 상기 컴퓨팅 수단으로 하여금 제1항 내지 제14항 중 어느 한 항의 방법을 수행하게 하는 명령어들을 포함하는 컴퓨터 판독가능 저장 매체.
KR1020237017906A 2020-12-31 2021-12-30 자유장 오디오 신호 전달 함수 데이터에 기초하여 개인화된 자유장 오디오 신호 전달 함수를 생성하기 위한 방법 및 시스템 KR20230125178A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
RU2020144263 2020-12-31
RU2020144263 2020-12-31
PCT/US2021/065623 WO2022147206A1 (en) 2020-12-31 2021-12-30 Method and system for generating a personalized free field audio signal transfer function based on free-field audio signal transfer function data

Publications (1)

Publication Number Publication Date
KR20230125178A true KR20230125178A (ko) 2023-08-29

Family

ID=80050540

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237017906A KR20230125178A (ko) 2020-12-31 2021-12-30 자유장 오디오 신호 전달 함수 데이터에 기초하여 개인화된 자유장 오디오 신호 전달 함수를 생성하기 위한 방법 및 시스템

Country Status (6)

Country Link
US (1) US20240089690A1 (ko)
EP (1) EP4272462A1 (ko)
JP (1) JP2024502537A (ko)
KR (1) KR20230125178A (ko)
CN (1) CN116648932A (ko)
WO (1) WO2022147206A1 (ko)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2880755A1 (fr) * 2005-01-10 2006-07-14 France Telecom Procede et dispositif d'individualisation de hrtfs par modelisation

Also Published As

Publication number Publication date
JP2024502537A (ja) 2024-01-22
CN116648932A (zh) 2023-08-25
WO2022147206A1 (en) 2022-07-07
EP4272462A1 (en) 2023-11-08
US20240089690A1 (en) 2024-03-14

Similar Documents

Publication Publication Date Title
Favrot et al. LoRA: A loudspeaker-based room auralization system
JP6198800B2 (ja) 少なくとも2つの出力チャネルを有する出力信号を生成するための装置および方法
WO2018008395A1 (ja) 音場形成装置および方法、並びにプログラム
Sakamoto et al. Sound-space recording and binaural presentation system based on a 252-channel microphone array
Tylka et al. Fundamentals of a parametric method for virtual navigation within an array of ambisonics microphones
Ben-Hur et al. Efficient representation and sparse sampling of head-related transfer functions using phase-correction based on ear alignment
Tylka et al. Performance of linear extrapolation methods for virtual sound field navigation
JP2009512364A (ja) 仮想オーディオシミュレーション
KR101248505B1 (ko) 다채널 신호를 이용하여 재생 유닛을 제어하는 방법 및장치
CN112005559B (zh) 改进环绕声的定位的方法
Masiero Individualized binaural technology: measurement, equalization and perceptual evaluation
CN114788302A (zh) 一种信号处理装置、方法以及系统
CN116567477B (zh) 用于入耳式麦克风阵列的部分hrtf补偿或预测
Cecchi et al. Using periodic sequences for hrtfs measurement robust towards nonlinearities in automotive audio applications
Salvador et al. Boundary matching filters for spherical microphone and loudspeaker arrays
WO2021055415A1 (en) Enhancement of audio from remote audio sources
KR20230125178A (ko) 자유장 오디오 신호 전달 함수 데이터에 기초하여 개인화된 자유장 오디오 신호 전달 함수를 생성하기 위한 방법 및 시스템
US20240089683A1 (en) Method and system for generating a personalized free field audio signal transfer function based on near-field audio signal transfer function data
Schwark et al. Data-driven optimization of parametric filters for simulating head-related transfer functions in real-time rendering systems
JP7362320B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
CN109923877A (zh) 对立体声音频信号进行加权的装置和方法
Klunk Spatial Evaluation of Cross-Talk Cancellation Performance Utilizing In-Situ Recorded BRTFs
Hohnerlein Beamforming-based Acoustic Crosstalk Cancelation for Spatial Audio Presentation
GB2620138A (en) Method for generating a head-related transfer function
WO2023043963A1 (en) Systems and methods for efficient and accurate virtual accoustic rendering