KR20200042874A

KR20200042874A - 개인화된 hrtf 생성 방법

Info

Publication number: KR20200042874A
Application number: KR1020190128768A
Authority: KR
Inventors: 김홍국; 이건우; 문정민
Original assignee: 광주과학기술원
Priority date: 2018-10-16
Filing date: 2019-10-16
Publication date: 2020-04-24
Also published as: KR102274581B1

Abstract

개인화된 HRTF 생성 방법이 개시된다. 본 발명의 실시 예에 따른 개인화된 HRTF 생성 방법은, 트레이닝용 귀 영상 및 트레이닝용 신체 정보에 HRTF을 레이블링 하여 인공지능 모델을 트레이닝 하는 단계, 및, 사용자의 귀 영상 및 사용자의 신체 정보를 상기 트레이닝 된 인공지능 모델에 입력하여 개인화된 HRTF를 획득하는 단계를 포함한다.

Description

개인화된 HRTF 생성 방법 {METHOD FOR GENERATING PERSONALIZED HRTF}

본 발명은, 귀 영상 및 신체 정보를 이용하여 인공지능 모델을 트레이닝 함으로써 개인화된 HRTF를 획득할 수 있는, 개인화된 HRTF 생성 방법에 관한 것이다.

머리 전달 함수(Head-Related Transfer Function, HRTF)는, 음향이 발생한 위치(음원의 위치)에서 사용자의 고막까지의 경로(신체에서 발생하는 반사 및 굴절)을 전달함수로 표현한 것이다.

그리고 사용자에 적합한 머리 전달 함수를 음향에 적용하는 경우, 외재화(externalization), 포지셔닝(positioning) 등의 공간감을 사용자에게 제공할 수 있다.

한편 사용자마다 신체적인 특성이 다르므로, 머리 전달 함수는 사용자마다 다른 특성을 가진다. 그리고 사용자에게 적합하지 않은 머리 전달 함수를 적용하는 경우에는, 공간감 효과가 저하될 수 있다.

예를 들어 현재 대부분의 머리전달함수(Head-Related Transfer Function, HRTF)에는, 개인의 신체 특성에 개인화 된 것이 아닌, 평균화된 모델이 사용되고 있다. 다만 평균화된 모델을 사용할 경우 모든 청취자에게 공간감을 느낄 수 있도록 하는 데는 부족하다.

이러한 문제점을 해결하기 위하여, 머리 전달 함수를 직접 측정하는 방식이 있다. 구체적으로 이 방식은, 사용자 귀에 부착된 마이크에서 모든 방위각 및 고도각에서의 생성 된 임펄스 응답(impulse response)를 측정하여, HRTF를 생성하는 방식이다. 다만 이러한 방식은 비용 소모 및 시간 소모(2-3시간)가 크며, 사용자가 직접 측정 장소에 가야 하기 때문에 범용적으로 사용되기 힘든 문제가 있다.

또한, 3D 모델링에 기반하여 HRTF를 생성하는 방식이 있다. 구체적으로 이 방식은, 사용자의 얼굴을 비젼(vision) 기반으로 모델링한 뒤, 가상 환경에서 임펄스 응답(impulse response)을 발생하여 HRTF를 생성하는 방식이다. 다만 이러한 방식 역시, 측정 방법이 어려우며 소요 시간이 크다는 단점이 있다.

본 발명은 상술한 문제점을 해결하기 위한 것으로, 본 발명의 목적은, 귀 영상 및 신체 정보를 이용하여 인공지능 모델을 트레이닝 함으로써 개인화된 HRTF를 획득할 수 있는, 개인화된 HRTF 생성 방법을 제공하기 위함이다.

본 발명의 실시 예에 따른 개인화된 HRTF 생성 방법은, 트레이닝용 귀 영상 및 트레이닝용 신체 정보에 HRTF을 레이블링 하여 인공지능 모델을 트레이닝 하는 단계, 및, 사용자의 귀 영상 및 사용자의 신체 정보를 상기 트레이닝 된 인공지능 모델에 입력하여 개인화된 HRTF를 획득하는 단계를 포함한다.

이 경우 상기 인공지능 모델은, 상기 트레이닝용 귀 영상이 입력되는 CNN, 상기 트레이닝용 신체 정보가 입력되는 DNN, 및, 상기 CNN에서 추출된 특징 벡터 및 상기 DNN에서 추출된 특징 벡터를 이용하여 예측 HRTF를 출력하는 분류 네트워크를 포함할 수 있다.

이 경우 상기 트레이닝용 귀 영상은, 귀의 엣지 추출 영상일 수 있다.

한편 상기 트레이닝용 신체 정보는, 머리 너비, 머리 깊이, 목 너비, 몸통 상단 너비, 어깨 너비, 머리 둘레 및 어깨 둘레 중 적어도 하나를 포함할 수 있다.

한편 상기 인공지능 모델을 트레이닝 하는 단계는, 상기 트레이닝용 귀 영상 및 상기 트레이닝용 신체 정보를 이용하여 상기 인공지능 모델이 추정한 예측 HRTF 및 상기 HRTF의 차이가 작아지도록, 상기 CNN의 파라미터, 상기 DNN의 파라미터 및 상기 분류 네트워크의 파라미터를 업데이트 하는 단계를 포함할 수 있다.

한편 상기 개인화된 HRTF를 획득하는 단계는, 상기 사용자의 귀 영상을 촬영하는 단계, 및, 상기 사용자의 신체 정보의 입력을 수신하는 단계를 포함할 수 있다.

본 발명에 따르면, 매우 간단한 측정 방식을 이용하여 사용자에 개인화된 HRTF를 제공할 수 있는 장점이 있다. 예를 들어 사용자는 귀를 촬영하는 간단한 행동으로, 개인화된 HRTF가 적용된 음향을 제공받을 수 있다.

또한 귀와 관련된 신체 정보를 직접 입력하는 방식은 제한된 개수의 입력값만을 사용하게 된다. 다만 본 발명은 귀의 영상 자체를 이용하여 개인화된 HRTF를 추정하기 때문에, 입력값으로 제공되는 특징 이외의 다른 특징을 추출하여 HRTF의 추정에 사용함으로써 예측의 성능을 향상시킬 수 있는 장점이 있다.

본 발명에 따르면, 귀의 엣지 추출 영상이 입력 특징(feature)으로 사용되기 때문에, 적은 양의 훈련 데이터가 사용되는 경우에도 인공지능 모델의 성능 저하를 방지할 수 있다.

도 1은 본 발명의 실시 예에 따른, 개인화된 HRTF 생성 방법의 순서도이다.
도 2는 개인화된 HRTF의 추정을 위한 뉴럴 네트워크의 선택을 설명하기 위한 도면이다.
도 3은 인공지능 모델의 트레이닝용 입력 데이터 및 트레이닝된 인공지능 모델의 입력 데이터로 사용될 수 있는 귀 영상을 설명하기 위한 도면이다.
도 4는 인공지능 모델의 트레이닝용 입력 데이터 및 트레이닝된 인공지능 모델의 입력 데이터로 사용될 수 있는 신체 정보를 설명하기 위한 도면이다.
도 5는 본 발명의 실시 예에 따른 인공지능 모델 및 인공지능 모델의 트레이닝 방법을 설명하기 위한 도면이다.
도 6은 개인화된 HRTF의 적용예를 설명하기 위한 도면이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

머신 러닝(machine learning)은 인공지능의 한 분야로, 컴퓨터에 명시적인 프로그램 없이 배울 수 있는 능력을 부여하는 연구 분야이다.

구체적으로 머신 러닝은, 경험적 데이터를 기반으로 학습을 하고 예측을 수행하고 스스로의 성능을 향상시키는 시스템과 이를 위한 알고리즘을 연구하고 구축하는 기술이라 할 수 있다. 머신 러닝의 알고리즘들은 엄격하게 정해진 정적인 프로그램 명령들을 수행하는 것이라기보다, 입력 데이터를 기반으로 예측이나 결정을 이끌어내기 위해 특정한 모델을 구축하는 방식을 취한다.

용어 ‘머신 러닝’은 용어 ‘기계 학습’과 혼용되어 사용될 수 있다.

인공신경망은 생물학적 뉴런의 동작원리와 뉴런간의 연결 관계를 모델링한 것으로 노드(node) 또는 처리 요소(processing element)라고 하는 다수의 뉴런들이 레이어(layer) 구조의 형태로 연결된 정보처리 시스템이다.

인공 신경망은 일반적으로 다음의 세가지 인자, 즉 (1) 다른 레이어의 뉴런들 사이의 연결 패턴 (2) 연결의 가중치를 갱신하는 학습 과정 (3) 이전 레이어로부터 수신되는 입력에 대한 가중 합으로부터 출력값을 생성하는 활성화 함수에 의해 정의될 수 있다.

인공 신경망은, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network), MLP(Multilayer Perceptron), CNN(Convolutional Neural Network)와 같은 방식의 네트워크 모델들을 포함할 수 있으나, 이에 한정되지 않는다.

인공신경망은 계층 수에 따라 단층 신경망(Single-Layer Neural Networks)과 다층 신경망(Multi-Layer Neural Networks)으로 구분된다.

일반적인 단층 신경망은, 입력층과 출력층으로 구성된다.

또한 일반적인 다층 신경망은 입력층(Input Layer)과 하나 이상의 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성된다.

입력층은 외부의 자료들을 받아들이는 층으로서, 입력층의 뉴런 수는 입력되는 변수의 수와 동일하며, 은닉층은 입력층과 출력층 사이에 위치하며 입력층으로부터 신호를 받아 특성을 추출하여 출력층으로 전달한다. 출력층은 은닉층으로부터 신호를 받고, 수신한 신호에 기반한 출력 값을 출력한다. 뉴런간의 입력신호는 각각의 연결강도(가중치)와 곱해진 후 합산되며 이 합이 뉴런의 임계치보다 크면 뉴런이 활성화되어 활성화 함수를 통하여 획득한 출력값을 출력한다.

한편 입력층과 출력 층 사이에 복수의 은닉층을 포함하는 심층 신경망은, 기계 학습 기술의 한 종류인 딥 러닝을 구현하는 대표적인 인공 신경망일 수 있다.

인공 신경망은 훈련 데이터(training data)를 이용하여 학습(training)될 수 있다. 여기서 학습이란, 입력 데이터를 분류(classification)하거나 회귀분석(regression)하거나 군집화(clustering)하는 등의 목적을 달성하기 위하여, 학습 데이터를 이용하여 인공 신경망의 파라미터(parameter)를 결정하는 과정을 의미할 수 있다. 인공 신경망의 파라미터의 대표적인 예시로써, 시냅스에 부여되는 가중치(weight)나 뉴런에 적용되는 편향(bias)을 들 수 있다.

한편 인공 신경망의 학습 방식 중 지도 학습에 대하여 설명한다.

지도 학습은 훈련 데이터로부터 하나의 함수를 유추해내기 위한 기계 학습의 한 방법이다.

지도 학습에서는, 훈련 데이터에 대한 레이블(label)이 주어진 상태에서 인공 신경망을 학습시킨다.

여기서 레이블이란, 훈련 데이터가 인공 신경망에 입력되는 경우 인공 신경망이 추론해 내야 하는 정답(또는 결과 값)을 의미할 수 있다.

본 명세서에서는 훈련 데이터가 입력되는 경우 인공 신경망이 추론해 내야 하는 정답(또는 결과값)을 레이블 또는 레이블링 데이터(labeling data)이라 명칭 한다.

또한 본 명세서에서는, 인공 신경망의 학습을 위하여 훈련 데이터에 레이블을 설정하는 것을, 훈련 데이터에 레이블링 데이터를 레이블링(labeling) 한다고 명칭 한다.

이 경우 훈련 데이터와 훈련 데이터에 대응하는 레이블)은 하나의 트레이닝 셋(training set)을 구성하고, 인공 신경망에는 트레이닝 셋의 형태로 입력될 수 있다.

인공 신경망은 훈련 데이터와 레이블링 데이터를 이용하여, 훈련 데이터와 레이블링 데이터의 연관 관계에 대한 함수를 유추할 수 있다. 그리고, 인공 신경망에서 유추된 함수에 대한 평가를 통해 인공 신경망의 파라미터가 결정(최적화)될 수 있다.

학습 장치는 훈련 데이터 또는 트레이닝 셋(training set)을 이용하여 인공 신경망을 훈련(training, 또는 학습)시킬 수 있다.

구체적으로 학습 장치는 다양한 학습 기법을 이용하여 인공 신경망을 반복적으로 학습시킴으로써, 인공 신경망의 최적화된 모델 파라미터들을 결정할 수 있다

본 명세서에서는 훈련 데이터를 이용하여 학습됨으로써 파라미터가 결정된 인공 신경망을 학습 모델, 또는 트레이닝 된 인공지능 모델이라 칭할 수 있다.

머리 전달 함수(Head-Related Transfer Function, HRTF)는, 음향이 발생한 위치(음원의 위치)에서 사용자의 고막까지의 경로(신체에서 발생하는 반사 및 굴절)을 전달함수로 표현한 것으로, 이하에서는 HRTF로 지칭한다.

도 1은 본 발명의 실시 예에 따른, 개인화된 HRTF 생성 방법의 순서도이다.

도 1에 따르면 본 발명의 실시 예에 따른 개인화된 HRTF 생성 방법은, 트레이닝용 귀 영상 및 트레이닝용 신체 정보에 HRTF을 레이블링 하여 인공지능 모델을 트레이닝 하는 단계(S110) 및 사용자의 귀 영상 및 사용자의 신체 정보를 트레이닝 된 인공지능 모델에 입력하여 개인화된 HRTF를 획득하는 단계(S130)를 포함할 수 있다.

한편 S110는 인공지능 모델의 트레이닝 장치에서 수행될 수 있다. 또한 S130 역시 인공지능 모델의 트레이닝 장치에서 수행될 수 있으나 이에 한정되지 않으며, S130은 트레이닝된 인공지능 모델이 탑재된 다른 장치에서 수행될 수도 있다.

도 2는 개인화된 HRTF의 추정을 위한 뉴럴 네트워크의 선택을 설명하기 위한 도면이다.

인공지능 모델을 이용하여 개인화된 HRTF를 획득하는 방법으로, 사용자의 신체 정보를 이용하여 심층신경망(Deep Neural Network, DNN)을 트레이닝 하는 방식을 생각해볼 수 있다.

예를 들어 머리, 어깨와 관련된 신체 정보와 귀와 관련된 신체정보를 이용하여 심층신경망(Deep Neural Network, DNN)을 트레이닝 하고, 트레이닝 된 심층 신경망에 머리, 목, 어깨와 관련된 신체 정보와 귀와 관련된 신체정보를 입력하여 HRTF를 추정하는 방식이다.

다만 도 2a에서 도시하는 바와 같이 귀와 관련된 신체 정보(d1, d2, d3, d4, d5, d6, d7, θ1, θ2, d8)는 매우 복잡하며, 따라서 사용자가 자신의 신체 정보를 직접 취득하여 심층 신경망에 제공하는 것은 매우 어렵다.

따라서 본 발명에서는, 도 2b에서 도시하는 바와 같이, 사용자가 직접 측정하기 어려운 귀와 관련된 신체 정보 대신, 귀 영상을 사용한다.

구체적으로 본 발명에서는, 트레이닝용 귀 영상 및 트레이닝용 신체 정보에 HRTF을 레이블링 하여 인공지능 모델(210)을 트레이닝 하고, 사용자의 귀 영상 및 사용자의 신체 정보를 트레이닝 된 인공지능 모델(220)에 입력하여 개인화된 HRTF를 추정한다. 그리고 본 발명에서는, 본 음향에 개인화된 HRTF를 적용하고, HRTF가 적용된 음향을 출력한다.

도 3은 인공지능 모델의 트레이닝용 입력 데이터 및 트레이닝된 인공지능 모델의 입력 데이터로 사용될 수 있는 귀 영상을 설명하기 위한 도면이다.

입력 데이터는 귀 영상일 수 있다. 한편 데이터베이스 내 귀 영상들의 해상도가 상이할 수 있기 때문에, 학습 장치는 귀 영상으로부터 동일한 크기의 관심 영역(region of interest, ROI)(310)을 추출하여 사용할 수 있다. 여기서 관심 영역(region of interest, ROI)(310)은 귀 전체를 포함할 수 있다.

또한 피부색에 의한 영향을 방지하기 위하여, 컬러로 된 귀 영상은 그레이스케일 이미지로 변환될 수 있다.

한편 인공지능 모델의 구조가 복잡할수록 더 많은 훈련 데이터가 필요하며, 불충분한 데이터가 사용되는 경우에는 오버 피팅으로 인한 성능 저하가 발생될 수 있다.

따라서 본 발명에서는 귀 영상으로부터 귀의 엣지를 추출하여 디스플레이한 영상인 귀의 엣지 추출 영상이 입력데이터로써 사용될 수 있다. 즉 귀의 엣지 추출 영상이 입력 특징(feature)으로 사용되기 때문에, 적은 양의 훈련 데이터가 사용되는 경우에도 인공지능 모델의 성능 저하를 방지할 수 있다.

한편 학습 장치는 Canny edge 검출 방법을 이용하여 귀 영상으부터 엣지를 검출하고, 검출된 엣지를 포함하는 귀의 엣지 추출 영상을 생성할 수 있다.

한편 인공지능 모델이 귀의 영상으로부터 추출하는 특징 벡터가 나타낼 수 있는 정보는 표 1에서 예시하였다.

d1	Cavum concha height
d2	Cymba concha height
d3	Cavum concha width
d4	Fossa height
d5	Pinna height
d6	Pinna width
d7	Integral incisure width
θ1	Pinna rotation angle

도 4는 인공지능 모델의 트레이닝용 입력 데이터 및 트레이닝된 인공지능 모델의 입력 데이터로 사용될 수 있는 신체 정보를 설명하기 위한 도면이다.

신체 정보는 인공지능 모델에 제공되는 입력 특징으로써, 머리, 목, 어깨 등과 관련된 신체 정보일 수 있다.

구체적으로 신체 정보는, 머리 너비, 머리 깊이, 목 너비, 몸통 상단 너비, 어깨 너비, 머리 둘레 및 어깨 둘레 중 적어도 하나를 포함할 수 있으나 이에 한정되지 않는다. 즉 신체 정보는 귀를 제외한 인체의 다른 부분과 관련된 정보일 수 있다.

신체 정보의 예는 아래와 같다.

x1	Head width
x2	Head height
x3	Head depth
x4	Pinna offset down
x5	Pinna offset back
x6	Neck width
x7	Neck height
x8	Neck depth
x9	Torso top width
x10	Torso top height
x11	Torso top depth
x12	Shoulder width
x13	Head offset forward
x14	Height
x15	Seated height
x16	Head circumference
x17	Shoulder circumference

한편 인체의 측정 범위가 상이하기 때문에, 작은 측정 범위를 가지는 변수는 학습에 영향을 미치지 않을 수 있다. 따라서 신체 정보에 포함되는 복수의 요소는, 모든 트레이닝 데이터의 평균 및 분산을 사용하여 정규화될 수 있다.

(

: i번째 입력 특징,

: 입력 특징의 평균,

: 입력 특징의 표준 편차)

도 5는 본 발명의 실시 예에 따른 인공지능 모델 및 인공지능 모델의 트레이닝 방법을 설명하기 위한 도면이다.

트레이닝 단계에서, 인공지능 모델은 트레이닝용 신체 정보가 입력되는 DNN(Sub-network A), 트레이닝용 귀 영상이 입력되는 CNN(Sub-network B), 및, CNN에서 추출된 특징 벡터 및 DNN에서 추출된 특징 벡터를 이용하여 예측 HRTF를 출력하는 분류 네트워크(Sub-network C)를 포함할 수 있다.

DNN(Sub-network A)은 입력층, 두개의 은닉층 및 출력층을 포함할 수 있다.

입력층에는 트레이닝용 신체 정보가 입력될 수 있다. 이를 위해 입력층은 신체 정보의 복수의 요소에 각각 대응하는 복수의 노드를 포함할 수 있다.

또한 두개의 은닉층의 노드 수는 32개로 설정될 수 있으며, 은닉층에는 ReLU(Rectified Linear Unit)가 활성화 함수로써 사용될 수 있다.

또한 출력층은 8개의 노드로 구성되며, 분류 네트워크(Sub-network C)의 입력층으로도 기능할 수 있다. 또한 출력층에는 ReLU(Rectified Linear Unit)가 활성화 함수로써 사용될 수 있다.

CNN(Sub-network B)은 입력층, 2 개의 컨볼루션 레이어, 2 개의 맥스 풀링 레이어, 풀리 커넥티드 레이어 및 출력층을 포함할 수 있다.

CNN(Sub-network B)의 입력층에는 트레이닝용 귀 영상, 구체적으로는 트레이닝용 귀 영상을 이용하여 생성한 귀의 엣지 추출 영상이 입력될 수 있다.

각 컨볼 루션 레이어는 커널 수가 16 개인 3 × 3 커널로 구성될 수 있다.

맥스 풀링 레이어는 컨볼 루션 레이어 뒤에 배치되며, 2*2의 크기를 가질수 있다.

풀리 커넥티드 레이어는 가장 마지막에 배치된 맥스 풀링 레이어 뒤에 배치되며, 2차원 형태의 출력을 1차원의 형태로 변환할 수 있다.

한편 출력층은 8개의 노드로 구성되며, 분류 네트워크(Sub-network C)의 입력층으로도 기능할 수 있다.

또한 ReLU(Rectified Linear Unit)가 활성화 함수로써 두개의 컨볼루션 레이어, 풀리 커넥티드 레이어 및 출력층에 적용될 수 있다.

분류 네트워크(Sub-network C)는, 입력층, 세개의 은닉층 및 출력층을 포함할 수 있다.

여기서 입력층은 앞서 설명한 DNN(Sub-network A)의 출력층 및 CNN(Sub-network B)의 출력층을 포함함으로써, 16개의 노드로 구성될 수 있다.

또한 세개의 은닉층 각각은 32개의 노드로 구성될 수 있으며, 출력층은 200개의 노드로 구성될 수 있다. 여기서 출력층의 노드의 개수는 HRTF의 길이에 대응할 수 있다.

또한 ReLU(Rectified Linear Unit)가 활성화 함수로써 은닉층과 출력층에 적용될 수 있다.

한편 학습 장치는 인공지능 모델(510)을 지도 학습의 방식으로 트레이닝 할 수 있다.

구체적으로, 학습 장치는 트레이닝용 귀 영상 및 트레이닝용 신체 정보에 HRTF을 레이블링 하여 인공지능 모델을 트레이닝 할 수 있다.

이 경우 트레이닝용 신체 정보는 DNN(Sub-network A)에 입력될 수 있다. 그리고 DNN(Sub-network A)은 설정된 파라미터(가중치, 편향 등)에 따라 특징 벡터를 출력할 수 있다. 여기서 특징 벡터는 입력된 신체 정보를 기반으로 추출된 것으로, 입력된 신체 정보를 가지는 사용자에 개인화된 특성을 나타낼 수 있다. 즉 DNN(Sub-network A)은 입력된 신체 정보와 레이블링 데이터로써 제공된 HRTF 간의 연관 관계에 대한 정보를 나타내기 위한 네트워크일 수 있다.

또한 트레이닝용 귀 영상은 CNN(Sub-network B)에 입력될 수 있다.

한편 CNN(Sub-network B)은 CNN 기반의 오토 인코더에 포함되는 인코더일 수 있다. 이에 따라 트레이닝용 귀 영상은 CNN(Sub-network B)을 거치면서 설정된 파라미터(가중치, 편향 등)에 따라 압축(또는 인코딩)되며, 압축된 특징(또는 bottleneck features)이 특징 벡터로써 출력될 수 있다. 여기서 특징 벡터는, 입력된 귀 영상을 기반으로 추출된 것으로, 입력된 귀 영상을 가지는 사용자에 개인화된 특성을 나타낼 수 있다.

한편 DNN(Sub-network A)이 신체 정보에 기반하여 출력한 특징 벡터 및 CNN(Sub-network B)이 귀 영상에 기반하여 출력한 특징 벡터는, 분류 네트워크(Sub-network C)에 입력될 수 있다.

분류 네트워크(Sub-network C)는 신체 정보에 기반하여 출력한 특징 벡터 및 귀 영상에 기반하여 출력한 특징 벡터를 이용하여 예측 HRTF를 출력할 수 있다. 구체적으로 분류 네트워크(Sub-network C)는 설정된 파라미터(가중치, 편향 등)에 따라 신체 정보에 기반하여 출력한 특징 벡터 및 귀 영상에 기반하여 출력한 특징 벡터를 처리함으로써, 입력 데이터를 상응하는 클래스로 분류할 수 있다.

한편 학습 장치는, 트레이닝용 귀 영상 및 트레이닝용 신체 정보를 이용하여 인공지능 모델(510)이 추정한 예측 HRTF 및 레이블링 데이터로써 제공된 HRTF의 차이가 작아지도록, CNN의 파라미터, DNN의 파라미터 및 분류 네트워크의 파라미터를 업데이트 할 수 있다.

구체적으로 학습 장치는, 레이블링 데이터로써 제공된 HRTF와 인공지능 모델(510)이 추정한 예측 HRTF 간의 손실 함수에는 평균 제곱 오차(Mean Squared Error, MSE)가 사용될 수 있다.

또한 학습 장치는 역 전파 방식에 기반한 경사 하강 알고리즘을 이용하여, 레이블링 데이터로써 제공된 HRTF와 인공지능 모델(510)이 추정한 예측 HRTF 간의 손실 함수 값이 최소화 되는 방향으로, CNN의 파라미터(가중치 및 편향 중 적어도 하나), DNN의 파라미터(가중치 및 편향 중 적어도 하나), 분류 네트워크의 파라미터(가중치 및 편향 중 적어도 하나)를 조절할 수 있다.

한편 훈련 데이터 및 레이블링 데이터를 이용한 반복 훈련을 통하여 트레이닝이 완료되면, 트레이닝 된 인공지능 모델(530)은 개인화 HRTF 생성 장치에 탑재될 수 있다.

한편 개인화 HRTF 생성 장치는 사용자의 귀 영상 및 사용자의 신체 정보를 획득할 수 있다.

구체적으로 개인화 HRTF 생성 장치가 서버로써 동작하는 경우, 개인화 HRTF 생성 장치는 사용자의 전자기기로부터 사용자의 귀 영상 및 사용자의 신체 정보를 수신할 수 있다. 구체적으로 사용자의 전자기기는 사용자의 귀를 촬영하여 사용자의 귀 영상을 획득할 수 있으며, 사용자로부터 신체 정보의 입력을 수신함으로써 사용자의 신체 정보를 획득할 수 있다. 그리고 사용자의 전자기기는 개인화 HRTF 생성 장치에 귀 영상 및 신체 정보를 전송할 수 있다.

한편 개인화 HRTF 생성 장치가 사용자가 직접 사용하는 사용자의 전자기기로써 동작하는 경우, 개인화 HRTF 생성 장치는 사용자의 귀를 촬영하여 사용자의 귀 영상을 획득할 수 있으며, 사용자로부터 신체 정보의 입력을 수신함으로써 사용자의 신체 정보를 획득할 수 있다.

한편 트레이닝 단계에서와 마찬가지 방식으로, 개인화 HRTF 생성 장치는 입력 데이터에 대한 전처리를 수행할 수 있다.

구체적으로 개인화 HRTF 생성 장치는 사용자의 신체 정보에 포함되는 복수의 요소를 정규화 할 수 있다.

또한 개인화 HRTF 생성 장치는 Canny edge 검출 방법을 이용하여 사용자의 귀 영상으부터 엣지를 검출하고, 검출된 엣지를 포함하는 귀의 엣지 추출 영상을 생성할 수 있다. 이 경우 귀의 엣지 추출 영상이 트레이닝된 인공지능 모델(530)에 제공될 수 있다.

한편 개인화 HRTF 생성 장치는 입력 데이터(사용자의 귀 영상 및 사용자의 신체 정보)를 트레이닝된 인공지능 모델(530)에 제공할 수 있다. 이 경우 트레이닝된 인공지능 모델(530)은 설정된 파라미터에 따라 입력 데이터를 처리하여 개인화된 HRTF를 출력할 수 있다.

한편 개인화 HRTF 생성 장치는 본 음향에 HRTF를 적용하고, HRTF가 적용된 음향을 출력할 수 있다.

구체적으로 개인화 HRTF 생성 장치가 서버로써 동작하는 경우, 개인화 HRTF 생성 장치는 HRTF가 적용된 음향을 사용자의 전자기기에 전송할 수 있다. 이 경우 사용자의 전자 기기는 스피커를 통하여 HRTF가 적용된 음향을 출력할 수 있다.

다른 한편으로 개인화 HRTF 생성 장치가 사용자의 전자기기로써 동작하는 경우, 개인화 HRTF 생성 장치는 스피커를 통하여 HRTF가 적용된 음향을 출력할 수 있다.

이와 같이 본 발명에 따르면, 매우 간단한 측정 방식을 이용하여 사용자에 개인화된 HRTF를 제공할 수 있는 장점이 있다. 예를 들어 사용자는 귀를 촬영하는 간단한 행동으로, 개인화된 HRTF가 적용된 음향을 제공받을 수 있다.

도 6은 개인화된 HRTF의 적용예를 설명하기 위한 도면이다.

도 6a를 참고하면, 개인화 HRTF 생성 장치는 개인화된 HRTF를 AR 컨텐츠에 적용하여, 실제 오브젝트의 방향에 대응하는 음향을 출력할 수 있다.

또한 도 6b를 참고하면, 개인화 HRTF 생성 장치는 개인화된 HRTF를 VR 컨텐츠에 적용하여, VR 컨텐츠 내 오브젝트의 방향에 대응하는 음향을 출력할 수 있다.

이 경우 가상 공간에서 시각적인 공간감에 청각적인 공간감까지 더해지기 때문에, 사용자에게 극대화된 공간감을 제공할 수 있다.

또한 본 발명을 이용하는 경우, 사용자는 여러 음원들(예를 들어 피아노, 드럼, 트럼펫 등의 각종 악기들)을 다양한 위치에 가상으로 배치한 후 음향을 청취할 수 있다.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

530: 트레이닝된 인공지능 모델

Claims

트레이닝용 귀 영상 및 트레이닝용 신체 정보에 HRTF을 레이블링 하여 인공지능 모델을 트레이닝 하는 단계; 및
사용자의 귀 영상 및 사용자의 신체 정보를 상기 트레이닝 된 인공지능 모델에 입력하여 개인화된 HRTF를 획득하는 단계를 포함하는
개인화된 HRTF 생성 방법.
제 1항에 있어서,
상기 인공지능 모델은,
상기 트레이닝용 귀 영상이 입력되는 CNN;
상기 트레이닝용 신체 정보가 입력되는 DNN; 및
상기 CNN에서 추출된 특징 벡터 및 상기 DNN에서 추출된 특징 벡터를 이용하여 예측 HRTF를 출력하는 분류 네트워크를 포함하는
개인화된 HRTF 생성 방법.
제 2항에 있어서,
상기 트레이닝용 귀 영상은,
귀의 엣지 추출 영상인
개인화된 HRTF 생성 방법.
제 2항에 있어서,
상기 트레이닝용 신체 정보는,
머리 너비, 머리 깊이, 목 너비, 몸통 상단 너비, 어깨 너비, 머리 둘레 및 어깨 둘레 중 적어도 하나를 포함하는
개인화된 HRTF 생성 방법.
제 2항에 있어서,
상기 인공지능 모델을 트레이닝 하는 단계는,
상기 트레이닝용 귀 영상 및 상기 트레이닝용 신체 정보를 이용하여 상기 인공지능 모델이 추정한 예측 HRTF 및 상기 HRTF의 차이가 작아지도록, 상기 CNN의 파라미터, 상기 DNN의 파라미터 및 상기 분류 네트워크의 파라미터를 업데이트 하는 단계를 포함하는
개인화된 HRTF 생성 방법.
제 1항에 있어서,
상기 개인화된 HRTF를 획득하는 단계는,
상기 사용자의 귀 영상을 촬영하는 단계; 및
상기 사용자의 신체 정보의 입력을 수신하는 단계를 포함하는
개인화된 HRTF 생성 방법.