KR102574477B1

KR102574477B1 - 사운드 데이터를 변환하는 방법, 단말기 및 이를 위한 단말기 케이스

Info

Publication number: KR102574477B1
Application number: KR1020180169525A
Authority: KR
Inventors: 김양욱; 남우현; 이승호
Original assignee: 삼성전자주식회사
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2023-09-04
Also published as: US20200213736A1; US11457314B2; KR20200084438A

Abstract

본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다. 본 개시의 일 실시예는 바이노럴 사운드 데이터(binaural sound data)를 획득하고, 바이노럴 사운드 데이터 획득 시의 컨텍스트(context)를 나타내는 파라미터를 기초로, 기 생성된 학습 네트워크 모델을 이용하여 바이노럴 사운드 데이터를 변환하며, 변환된 바이노럴 사운드 데이터를 출력하는 사운드 데이터 변환 방법을 개시한다.

Description

사운드 데이터를 변환하는 방법, 단말기 및 이를 위한 단말기 케이스 {METHOD AND TERMINAL FOR CONVERTING SOUND DATA AND TERMINAL CASE THEREOF}

개시된 실시예는 사운드 데이터를 변환하는 방법, 사운드 데이터를 변환하는 단말기 및 사운드 데이터 변환을 위한 단말기 케이스에 관한 것이다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다. 다만, 이는 인공지능 기술의 일 예로서, 이외에도 사운드 또는 오디오 변환 등이 인공지능 기술에 포함될 수 있다.

본 개시에 따른 일 실시예는 단말기와 결합되어 바이노럴 사운드 레코딩을 수행할 수 있는 단말기 케이스를 제공하고자 한다. 또한, 본 개시에 따른 다른 실시예는 단말기에서 바이노럴 사운드 데이터 획득 시의 컨텍스트를 고려하여 이를 변환하는 방법을 제공하고자 한다.

일 실시예에 따라 복수의 마이크를 포함한 단말기에 결합되어 사용되는 단말기 케이스는, 단말기의 좌우상하의 측면 및 후면 중 적어도 하나 이상의 일면을 감싸는 커버; 마이크 홀이 형성된 단말기의 각 일면과 접하는 커버의 일면에 형성된 커버 홀; 및 커버에서 커버 홀이 형성된 각 면에 배치되어, 사운드를 포집하며, 포집된 사운드의 공명 또는 반사, 회절 등을 야기하는 비대칭 형태의 집음부를 포함하고, 커버 홀은 마이크 홀에 사운드가 유입되도록 할 수 있다.

일 실시예에 따른 단말기가 사운드 데이터를 변환하는 방법은, 바이노럴 사운드 데이터(binaural sound data)를 획득하는 단계; 바이노럴 사운드 데이터 획득 시의 컨텍스트(context)를 나타내는 파라미터를 기초로, 기 생성된 학습 네트워크 모델을 이용하여 바이노럴 사운드 데이터를 변환하는 단계; 및 변환된 바이노럴 사운드 데이터를 출력하는 단계를 포함할 수 있다.

일 실시예에 따라 사운드 데이터를 변환하는 단말기는, 하나 이상의 인스트럭션을 저장하는 메모리; 출력부; 및 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서는, 하나 이상의 인스트럭션을 실행함으로써, 바이노럴 사운드 데이터(binaural sound data)를 획득하고, 바이노럴 사운드 데이터 획득 시의 컨텍스트(context)를 나타내는 파라미터를 기초로, 기 생성된 학습 네트워크 모델을 이용하여 바이노럴 사운드 데이터를 변환하며, 변환된 바이노럴 사운드 데이터를 출력할 수 있다.

일 실시예에 따른 컴퓨터 프로그램 제품은, 바이노럴 사운드 데이터(binaural sound data)를 획득하는 동작; 바이노럴 사운드 데이터 획득 시의 컨텍스트(context)를 나타내는 파라미터를 기초로, 기 생성된 학습 네트워크 모델을 이용하여 바이노럴 사운드 데이터를 변환하는 동작; 및 변환된 바이노럴 사운드 데이터를 출력하는 동작을 수행하도록 하는 프로그램이 저장된 기록매체를 포함할 수 있다.

도 1은 일 실시예에 따라 사운드 데이터를 변환하는 방법을 설명하기 위한 개념도이다.
도 2는 일 실시예에 따른 단말기가 사운드 데이터를 변환하는 방법을 설명하기 위한 흐름도이다.
도 3a 및 도 3b는 일 실시예에 따른 단말기 케이스의 구조를 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 단말기 케이스에 구비되는 어쿠스틱 튜브를 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 단말기 케이스의 집음부의 동작을 설명하기 위한 도면이다.
도 6은 다른 실시예에 따른 단말기 케이스의 집음부의 동작을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 단말기 케이스에 연결된 접이식 디스크를 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 단말기 케이스에 포함된 실링 부재를 설명하기 위한 도면이다.
도 9는 다른 실시예에 따른 단말기 케이스의 구조를 설명하기 위한 도면이다.
도 10은 일 실시예에 따라 사운드를 변환하는데 이용되는 학습 네트워크 모델을 설명하기 위한 도면이다.
도 11은 일 실시예에 따른 학습 네트워크 모델의 학습 데이터를 설명하기 위한 도면이다.
도 12는 일 실시예에 따라 바이노럴 사운드 데이터를 변환하는 단말기의 블록도이다.
도 13은 일 실시예에 따른 프로세서를 설명하기 위한 도면이다.
도 14는 일 실시예에 따른 데이터 학습부의 블록도이다.
도 15는 일 실시예에 따른 데이터 인식부의 블록도이다.
도 16은 다른 실시예에 따른 단말기의 블록도이다.
도 17은 다른 실시예에 따라 단말기가 서버를 통해 바이노럴 사운드 데이터의 변환을 수행하는 방법을 설명하기 위한 도면이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되지는 않는다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 항목들의 조합 또는 복수의 관련된 항목들 중의 어느 하나의 항목을 포함한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 특성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

소리는 오디오, 오디오 신호, 사운드, 또는 사운드 신호라고 표현될 수 있는데, 이하에서는 사운드 데이터 내지 사운드로 설명하도록 한다.

도 1은 일 실시예에 따라 사운드 데이터를 변환하는 방법을 설명하기 위한 개념도이다.

도 1을 참조하면, 일 실시예에 따른 사운드 변환 시스템(100)은 단말기(110) 및 단말기 케이스(120)로 구성될 수 있다. 다만, 이는 일 예일 뿐, 다른 예에 따라, 사운드 변환 시스템(100)은 단말기(110) 만으로 구성될 수도 있다. 본 실시예에서는, 단말기(110)가 단말기 케이스(120)에 인입된 상태에서 사운드 데이터를 획득하는 것을 가정한다.

한편, 일 실시예에 따른 단말기(110)는 단말기 케이스(120)를 통해 사운드를 포집함으로써, 바이노럴 레코딩(binaural recording)을 수행할 수 있다. 바이노럴 레코딩이란 양쪽 귀의 사운드 위상차 또는 시간차, 귓바퀴에 의한 사운드 반사 또는 회절 등의 원리를 이용해 사운드를 레코딩하는 기술로, 이렇게 레코딩 된 사운드는 사실감과 임장감이 매우 높은 특징이 있다. 본 실시 예에서는, 단말기(110) 주변에서 발생된 사운드가 단말기 케이스(120)를 통해 유입됨에 따라, 레코딩 되는 사운드에 진폭, 주파수, 위상과 같은 사운드 특성의 변화가 발생할 수 있다. 사운드에 그 특성의 변화를 발생시키는 단말기 케이스(120)의 구조에 대해서는 도 3a 및 도 3b를 참조하여 보다 구체적으로 후술하도록 한다.

이하에서는, 단말기(110)에서 획득된 사운드 데이터를 바이노럴 사운드 데이터로 설명하도록 한다.

한편, 일 실시예에 따른 단말기(110)는 기 생성된 학습 네트워크 모델(115)을 이용하여, 단말기(110)에서 획득한 바이노럴 사운드 데이터(10)를 변환할 수 있다. 구체적으로, 단말기(110)는 바이노럴 사운드 데이터(10) 획득 시의 컨텍스트(context)를 나타내는 파라미터를 학습 네트워크 모델(115)에 입력하여, 이를 변환에 반영할 수 있다. 여기에서, 컨텍스트(context)는 단말기(120)에 포함된 복수의 마이크의 특성 및 배치 위치, 단말기가 인입되어 있는 단말기 케이스(120)의 형태 및 재질, 바이노럴 사운드 데이터의 소스 중 적어도 하나를 포함할 수 있다.

예를 들어, 마이크의 특성은 마이크의 주파수 응답(frequency response), 감도(sensitivity) 및 지향성(direction) 등을 포함할 수 있다. 또한, 마이크의 배치 위치는, 마이크에 사운드 데이터를 유입하기 위한 마이크 홀이 형성된 면, 위치, 복수의 마이크 사이의 거리 등을 포함할 수 있다. 단말기 케이스(120)의 형태 및 재질에 대해서는 도 3a 및 도 3b을 참조하여 후술하도록 한다. 바이노럴 사운드 데이터의 소스는, 예를 들어, 음식, 자연 환경, 실내, 실외 등의 사운드의 발생 근원을 의미한다.

한편, 다른 실시예에 따라 단말기(110)는 컨텍스트 이외에도, 사용자가 의도한 변환 정도, 변환 효과 등을 나타내는 파라미터를 기초로 학습 네트워크 모델(115)을 이용하여 바이노럴 사운드 데이터(10)를 변환할 수 있다.

단말기(110)는 변환된 바이노럴 사운드 데이터(20)를 출력할 수 있다.

일 실시예에 따른 단말기(110)는 스마트폰, 태블릿 PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 미디어 플레이어. 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다.

도 2는 일 실시예에 따른 단말기가 사운드 데이터를 변환하는 방법을 설명하기 위한 흐름도이다.

단계 S210에서, 단말기는 바이노럴 사운드 데이터를 획득할 수 있다.

일 실시예에 따른 단말기는 복수개의 마이크를 이용하여 단말기 주변에서 발생되는 사운드를 레코딩할 수 있다. 이 때, 단말기는 양쪽 귀에 따른 사운드 특성 변화 내지 위상차 등을 구현하도록 설계된 단말기 케이스에 인입된 상태에서 사운드를 레코딩한 결과 바이노럴 사운드 데이터를 획득할 수 있다.

다만, 이는 일 예일 뿐, 본 개시에 따른 사운드 데이터 변환 방법은 단말기가 단말기 케이스에 인입된 상태에서 사운드를 레코딩하는 경우에만 한정되는 것은 아니다.

단계 S220에서, 단말기는 바이노럴 사운드 데이터 획득 시의 컨텍스트를 나타내는 파라미터를 기초로, 기 생성된 학습 네트워크 모델을 이용하여 바이노럴 사운드 데이터를 변환할 수 있다.

일 실시예에 따른 단말기에는 바이노럴 사운드 데이터 획득 시의 컨텍스트를 고려하여, 바이노럴 사운드 데이터에 적합한 변환을 수행할 수 있는 학습 네트워크 모델이 저장될 수 있다. 예를 들어, 학습 네트워크 모델은, 파라미터로 단말기에 포함된 마이크의 특성, 마이크의 배치 위치 등에 대응되는 정보가 입력되는 경우, 바이노럴 사운드 데이터가 녹음된 마이크의 특성 및 배치 위치를 고려하여 변환에 적합한 레이어의 구조 및 레이어의 파라미터가 결정될 수 있다.

다만, 이는 일 예일 뿐, 도 1을 참조하여 전술한 바와 같이, 컨텍스트를 나타내는 파라미터로는 단말기가 인입되어 있는 단말기 케이스의 형태 및 재질, 바이노럴 사운드 데이터의 소스 등이 이용될 수 있다.

또한, 다른 실시예에 따라, 단말기는 사용자가 의도하는 바이노럴 사운드 데이터의 변환 정도 및 변환 방향에 관한 설정 정보를 입력 파라미터로서 학습 네트워크 모델에 적용할 수도 있다.

한편, 학습 네트워크 모델의 출력 결과로는 단말기에서 레코딩된 바이노럴 사운드 데이터에 최적화된 변환 방법이 적용된 바이노럴 사운드 데이터가 출력될 수 있으나, 다른 예로, 레코딩된 바이노럴 사운드 데이터에 대한 변환 방법이 확률 값으로 획득될 수도 있다. 이 경우, 사용자는 확률 값이 가장 높은 변환 방법으로 바이노럴 사운드 데이터를 변환할 것을 요청할 수도 있고, 단말기에서 자동적으로 확률 값이 가장 높은 변환 방법으로 바이노럴 사운드 데이터의 변환을 수행할 수도 있다.

단계 S230에서, 단말기는 변환된 바이노럴 사운드 데이터를 출력할 수 있다. 예를 들어, 단말기는 변환된 바이노럴 사운드 데이터를 저장하고, 변환이 완료되었음을 사용자에게 알릴 수 있다. 이에 따라, 사용자로부터 변환된 바이노럴 사운드 데이터의 재생을 요청하는 입력이 수신된 경우, 단말기는 변환된 바이노럴 사운드 데이터를 출력할 수 있다.

도 3a 및 도 3b는 일 실시예에 따른 단말기 케이스의 구조를 설명하기 위한 도면이다.

도 3a를 참조하면, 단말기 케이스는 복수의 집음부(312, 314), 커버홀(315), 안내 돌기(320), 판체(330) 및 커버(340)를 포함할 수 있다. 다만, 이는 일 예일 뿐, 단말기 케이스는 전술한 구성 요소들 보다 더 적은 구성 요소를 포함하거나, 더 많은 구성 요소를 포함할 수도 있다. 예를 들어, 단말기 케이스는 복수의 집음부(312, 314), 커버홀(315) 및 커버(340)를 포함할 수도 있다.

일 실시예에 따른 복수의 집음부(312, 314) 각각은 단말기의 좌우상하의 측면 및 후면 중 적어도 하나 이상의 일면을 감싸는 커버(340)에서 커버 홀(315)이 형성된 각 면에 배치될 수 있다. 집음부(예를 들어, 314)는 단말기의 마이크 홀에 사운드의 유입이 원활하게 이루어질 수 있도록 사운드를 포집할 수 있다. 또한, 집음부(예를 들어, 314)는 비대칭 형태로서, 포집된 사운드의 공명 또는 반사, 회절 등을 야기할 수 있다. 일 예로, 집음부(예를 들어, 314)는 커버 홀(315)로부터 높이 방향으로 면적이 넓어지는 비등변 자유곡선 형상을 가질 수 있다. 비등변 자유곡선 형상의 예로, 인체의 귓바퀴 형상이 포함될 수 있다.

한편, 집음부(예를 들어, 314)가 연결된 커버(340)의 일면에는 커버 홀(315)이 형성될 수 있다. 본 실시예에서는, 복수개의 집음부(312, 314) 중 제 2 집음부(314)가 연결된 커버(340)의 일면에 형성된 커버 홀(315)을 예로 들어 설명하나, 제 1 집음부(312)가 연결된 커버(340)의 일면에도 커버 홀(미도시)이 형성될 수 있다.

일 실시예에 따른 커버 홀(315)은 단말기의 각 면 중 마이크 홀이 형성된 일면에 접하는 커버의 일면에 형성되어, 마이크 홀에 사운드가 유입되도록 마이크 홀을 외부로 노출시킬 수 있다. 또한, 커버 홀(315) 주위로, 전술한 제 1 집음부(312)가 배치되어 있어, 제 1 집음부(312)에서 포집된 사운드는 커버 홀(312)을 통해 마이크 홀로 유입될 수 있다.

일 실시예에 따른 안내 돌기(320)는 커버 홀(315)이 형성된 커버(340)의 일면에 연결되어, 단말기가 커버(340)에 슬라이딩으로 인입되도록 가이드할 수 있다. 또한, 안내 돌기(320)는 단말기가 커버(340)에 인입된 이후에 단말기의 인입 상태가 유지될 수 있도록 단말기를 고정하는 역할을 수행할 수도 있다. 한편, 단말기 케이스에는 복수개의 커버 홀이 형성될 수 있음에 따라, 단말기 케이스에는 복수개의 안내 돌기가 포함될 수 있다.

일 실시예에 따른 판체(330)는 집음부(예를 들어, 312)의 전면 방향으로 돌출되어, 집음부(예를 들어, 312) 주변의 사운드를 반사시킬 수 있다. 본 실시예에서는 하나의 판체(330)에 대해서만, 예로서 설명하나, 복수개의 집음부(312, 314) 각각의 전면 방향으로 판체가 형성될 수 있다.

또한, 판체(330)는 집음부(예를 들어, 312)의 전면 방향으로 돌출됨에 따라, 집음부(예를 들어, 312) 주변에 적절한 공간감을 조성할 수 있다.

또한, 안내 돌기(320)와 판체는 일체로 형성될 수 있다.

일 실시예에 따른 커버(340)는 단말기의 좌우 상하의 측면 및 후면 중 적어도 하나 이상의 일면을 감쌀 수 있다. 한편, 커버(340)와 전술한 복수개의 집음부(312, 314), 안내 돌기(320) 및 판체(330)는 서로 다른 재질로 구성될 수 있다. 예를 들어, 커버(340)는 플라스틱으로 구성되고, 복수개의 집음부(312, 314), 안내 돌기(320) 및 판체(330)는 실리콘으로 구성될 수 있으나, 이는 일 예일 뿐, 다른 재질들로 각 구성 요소가 구성될 수 있고, 각 구성 요소들이 동일한 재질로 구성될 수도 있다.

도 3b는, 도 3a에서 전술한 구성 요소들의 구조에 대한 이해를 돕기 위한 단말기 케이스의 사시도로서, 커버(340), 커버(340)에 배치된 제 1 집음부(312)의 전면 방향으로 돌출된 판체(330) 및 제 2 집음부(314)가 형성된 커버의 일면에 연결된 안내 돌기(320)가 도시되어 있다.

도 4는 일 실시예에 따른 단말기 케이스에 구비되는 어쿠스틱 튜브(420)를 설명하기 위한 도면이다.

도 4에는, 단말기 케이스에 어쿠스틱 튜브(acoustic tube, 420))가 연결된 형태를 설명하기 위해, 단말기 케이스의 일부분인 집음부(410) 및 커버 홀(415)이 도시되어 있으나, 이는 단말기 케이스를 구성하는 구성 요소들 중 일부일 뿐, 단말기 케이스가 전술한 구성 요소들 만으로 한정되는 것은 아니다.

일 실시예에 따라, 단말기의 상하 면에 각각 형성된 마이크 홀이 서로 다른 기준선상에 위치한 경우, 마이크 홀에 사운드를 전달하기 위해서는 단말기 케이스에 구비된 복수의 집음부 또한 서로 다른 기준선상에 위치할 수 있다. 다만, 이러한 경우, 단말기의 각 마이크에서 레코딩되는 사운드의 위상 차가 사람의 귀에서 인식하는 것과 동일하지 않아, 단말기에 획득되는 바이노럴 사운드 데이터의 품질이 저하될 수 있다.

일 실시예에 따른 단말기 케이스는 이러한 문제를 해결하기 위해, 단말기 케이스의 양 측의 집음부의 위치를 동일한 기준선상에 배치시키되, 어쿠스틱 튜브(420)를 이용하여 커버 홀(415)과 단말기의 마이크 홀(미도시)을 연결하여 사운드를 전달할 수 있다.

도 5는 일 실시예에 따른 단말기 케이스(520)의 집음부(522, 524)의 동작을 설명하기 위한 도면이다.

도 5에는, 단말기 케이스(520)에 배치된 집음부(522, 524)의 동작을 설명하기 위해, 단말기 케이스(520)의 구성 요소 중 일부인 집음부(522, 524) 만을 표시하였다. 다른 구성 요소들의 동작은 도 3a를 참조하여 전술한 바와 동일할 수 있다.

단말기(510)가 단말기 케이스(520)에 인입됨에 따라, 단말기 케이스(520)의 양 면에 배치된 제 1 집음부(522) 및 제 2 집음부(524)를 통해 포집된 사운드가 커버 홀을 통해 단말기의 마이크 홀로 유입될 수 있다. 일 실시예에 따른 단말기 케이스(520)에 배치된 제 1 집음부(522) 및 제 2 집음부(524)는 단말기(510)가 단말기 케이스(520)에 인입된 방향에 따라, 배치 방향이 결정될 수 있다.

예를 들어, 제 1 집음부(522)와 제 2 집음부(524)는 각각 회전 플레이트를 통해 단말기 케이스(520)의 커버에 부착되어, 회전할 수 있다. 이에 따라, 단말기(510)의 화면이 제 1 방향을 향하도록, 단말기(510)가 단말기 케이스(520)에 인입된 경우, 제 1 집음부(522)와 제 2 집음부(524)는 전면이 제 1 방향을 향하도록 배치될 수 있다. 한편, 단말기(520)의 화면이 제 2 방향을 향하도록 단말기(510)가 단말기 케이스(520)에 인입된 경우, 사용자는 회전 플레이트를 돌려, 제 1 집음부(522)와 제 2 집음부(524)의 전면이 제 2 방향을 향하도록 배치 방향을 변경할 수 있다.

도 6은 다른 실시예에 따른 단말기 케이스(620)의 집음부(622, 624)의 동작을 설명하기 위한 도면이다.

도 6에는, 단말기 케이스(620)에 배치된 집음부(622, 624)의 동작을 설명하기 위해, 단말기 케이스(620)의 구성 요소 중 일부인 집음부(622, 624) 만을 표시하였다. 다른 구성 요소들의 동작은 도 3a를 참조하여 전술한 바와 동일할 수 있다.

단말기 케이스(620)에 인입되는 단말기의 종류 별로, 마이크 홀이 형성된 위치가 상이할 수 있다. 특히, 마이크 홀은 단말기의 각 면에서 동일한 기준선 상에 위치할 수도 있고, 서로 다른 기준선상에 위치할 수도 있다.

한편, 단말기 케이스(620)의 경우 단말기에 사운드가 녹음될 수 있도록 하기 위해서는, 단말기 케이스(620)의 집음부(622, 624)의 배치가 단말기의 마이크 홀의 위치에 대응되어야 한다. 이에 따라, 단말기 별로 마이크 홀이 형성된 위치가 상이할 경우, 집음부(622, 624)를 마이크 홀에 대응되도록 배치하기 위해, 집음부(622, 624)의 위치를 변경할 필요가 있다.

일 실시예에 따른 단말기 케이스(620)의 경우, 집음부(622, 624)가 상하 방향으로 슬라이딩 가능하도록 집음부(622, 624)와 커버 사이에 슬라이딩 플레이트가 포함될 수 있다. 이에 따라, 사용자는 단말기(610)의 마이크 홀의 위치에 맞춰 집음부(622, 624)를 상하 방향으로 슬라이딩 시킬 수 있다.

또한, 단말기 케이스(620)는 사용자가 집음부(622, 625)를 상하방향으로 슬라이딩 시켜 원하는 위치에 고정할 수 있도록 고정핀과 같은 고정 장치를 더 포함할 수도 있다.

도 7은 일 실시예에 따른 단말기 케이스(710)에 연결된 접이식 디스크(720)를 설명하기 위한 도면이다.

도 7을 참조하면, 단말기 케이스(710)의 커버의 후면에는 접이식 디스크(720)가 연결될 수 있다. 접이식 디스크(720)는 사운드가 포집될 때의 좌우 공간(730, 740)의 분리를 극대화할 수 있다. 특히, 사운드 중고역대의 지향성을 향상시킬 수도 있다. 이에 따라, 접이식 디스크(720)는 한 공간(예를 들어, 730)의 사운드가 다른 공간(예를 들어, 740)의 사운드에 음향학 적으로 그림자 효과를 주어 사운드의 품질을 보다 향상시킬 수 있다. 접이식 디스크(720)는 도 7과 같이 단말기 세로 방향으로 연결될 수도 있고, 단말기 가로 방향(미도시)으로 연결될 수도 있다.

또한, 접이식 디스크(720)는 체적이 변경되는 구조일 수 있다. 사용자는, 접이식 디스크(720)의 체적을 늘려, 이를 더미 헤드(dummy head)로 사용할 수 있다. 즉, 일 실시예에 따른 단말기 케이스(710)에서는 접이식 디스크(720)의 체적을 머리와 유사하게 또는 특정 크기로 설정함으로써, 머리가 사운드의 진행에 주는 역할을 구현할 수 있다.

한편, 접이식 디스크(720)는 단말기 케이스(710)에 단말기를 인입한 채로 레코딩을 수행하는 경우, 거치 역할을 수행할 수도 있다.

도 8은 일 실시예에 따른 단말기 케이스(820)에 포함된 실링 부재(824)를 설명하기 위한 도면이다.

도 8을 참조하면, 단말기 케이스(820)는 집음부(822)를 통해 포집되는 사운드가 새어나가는 것을 방지하기 위해, 실링 부재(824)를 포함할 수 있다. 도 8에는 단말기 케이스(820)에 포함된 실링 부재(824)를 설명하기 위해, 단말기 케이스(820)의 구성 요소 중 일부 만을 표시하였다. 다른 구성 요소들의 동작은 도 3a를 참조하여 전술한 바와 동일할 수 있다.

단말기 케이스(820)와 단말기(810) 사이에는, 단말기(810)의 인입 또는 인출을 위해, 빈 공간이 존재할 수 있다. 이에 따라, 단말기 케이스(820)의 집음부(822)에서 사운드가 포집되더라도, 빈 공간을 통해 사운드가 새어나가는 문제가 발생할 수 있다. 이에 따라, 단말기 케이스(820)는 집음부(822)가 배치된 면의 가장자리에 실링 부재(824)를 구비함으로써, 사운드가 새어나가는 것을 막을 수 있다.

한편, 도 8에 도시된 실링 부재(824)는 일 예로, 실링 부재(824)의 형태가 도시된 예에 한정되는 것은 아니다. 실링 부재(824)는 단말기(810)와 단말기 케이스(820) 사이의 빈 공간을 막기 위해 다양한 형태를 가질 수 있다.

도 9는 다른 실시예에 따른 단말기 케이스(920, 930)의 구조를 설명하기 위한 도면이다.

도 9를 참조하면, 단말기 케이스의 각 부분들(920, 930)은 이격되어, 단말기(910)의 상단과 하단을 감싸는 구조를 가질 수 있다. 예를 들어, 단말기 케이스의 제 1 부분(920)은 단말기(910)의 상단을 감싸고, 제 1 부분(920)과 이격된 제 2 부분(930)은 단말기(910)의 하단을 감쌀 수 있다.

한편, 도 9의 실시예에서는 단말기 케이스의 제 1 부분의 커버(925) 및 제 2 부분의 커버(935)가 각각 단말기(910)의 상단면 및 하단면 전체를 감싸는 형태이나, 이는 일 예일 뿐, 각 부분들의 커버의 형태는 단말기 케이스의 집음부를 단말기의 마이크 홀 주변에 고정시키기 위한 다양한 형태로 구현될 수 있다.

도 10은 일 실시예에 따라 사운드를 변환하는데 이용되는 학습 네트워크 모델을 설명하기 위한 도면이다.

단말기(1000)에서 바이노럴 사운드 데이터(10)를 변환한 결과의 품질을 향상시키기 위해서는, 바이노럴 사운드 데이터(10)의 특성 상, 이를 레코딩한 시점의 컨텍스트가 변환 방법을 결정하는데 중요한 파라미터일 수 있다. 왜냐하면, 레코딩한 시점의 컨텍스트를 고려하지 않은 학습 네트워크 모델은 컨텍스트를 고려한 학습 네트워크 모델보다 성능이 낮을 가능성이 높기 때문이다. 바이노럴 사운드 데이터(10)를 변환한 결과의 품질을 향상시키는 것은 사운드의 임장감, 사실감 내지 생생함 등을 더 향상시키는 것을 포함하며, 품질이 높은 사운드 데이터와의 비교 학습을 통한 뉴럴 네트워크를 이용할 수 있다. 한편, 컨텍스트를 고려하여 변환을 수행하기 위해, 예를 들어, 도 10에 도시된 바와 같이, 복수의 단말기의 특성 별로 학습시킨 결과 생성된 복수의 뉴럴 네트워크들(1010, 1020, 1030)이 존재할 수 있다.

이에 따라, 단말기(1000)는 바이노럴 사운드 데이터(10)가 레코딩된 시점의 컨텍스트를 고려하여 학습된 뉴럴 네트워크를 다운로드해야 하며, 다른 바이노럴 사운드 데이터 획득 시, 컨텍스트가 변경된 경우, 뉴럴 네트워크를 다시 업데이트 해야 함으로써, 단말기(1000)의 프로세스에 로드가 많이 걸린다는 문제가 발생할 수 있다. 예를 들어, 단말기(100)는 바이노럴 사운드 데이터(10)가 레코딩된 시점의 컨텍스트에 대응되는 제 1 뉴럴 네트워크(1010)를 이용하여 변환된 바이노럴 사운드 데이터(20)를 획득할 수 있다.

일 실시예에 따른 단말기(1000)는 레이블 레이어(1040)와 공통 뉴럴 네트워크(1050)로 구성된 학습 네트워크 모델을 이용함으로써, 보다 용이하게 바이노럴 사운드 데이터(10)를 변환할 수 있다. 구체적으로, 레이블 레이어(1040)에는 바이노럴 사운드 데이터(10) 획득 시 컨텍스트를 나타내는 파라미터가 입력 값으로 적용될 수 있다. 레이블 레이어(1040)는 바이노럴 사운드 데이터(10) 획득 시 컨텍스트를 나타내는 파라미터가 입력 값으로 적용됨에 따라, 컨텍스트에 따라 변환에 필요한 특성 정보를 바이노럴 사운드 데이터(10)로부터 추출하여 공통 뉴럴 네트워크(1050)에 입력값으로 전달할 수 있다.

이에 따라, 일 실시예에 따른 단말기(1000)는 공통 뉴럴 네트워크(1050)의 출력으로 변환된 바이노럴 사운드 데이터(30)를 획득할 수 있다. 한편, 도 10에 도시된 일 실시예에 따른 학습 네트워크 모델은 설명의 편의를 위한 일 예일 뿐, 레이블 레이어(1040)는 공통 뉴럴 네트워크(1050)를 구성하는 복수의 레이어 사이 혹은 마지막에 위치할 수도 있다. 이러한 경우, 컨텍스트에 따라 변환에 필요한 특성 정보를 바이노럴 사운드 데이터(10) 또는 이전 레이어로부터 추출하여 공통 뉴럴 네트워크(1050)에 입력값으로 전달할 수 있다.

도 11은 일 실시예에 따른 학습 네트워크 모델의 학습 데이터(1102, 1104)를 설명하기 위한 도면이다.

도 11을 참조하면, 일 실시예에 따른 학습 네트워크 모델은 레이블 레이어(1110), 공통 뉴럴 네트워크(1120) 및 출력 레이어(1130)로 구성될 수 있다. 본 실시예에서는, 출력 레이어(1130)가 공통 뉴럴 네트워크(1120)와 분리하여 도시하였으나, 이는 설명의 편의를 위한 것일 뿐, 도 10에 도시된 바와 같이, 출력 레이어(1130)는 공통 뉴럴 네트워크(1120)에 포함될 수도 있다.

한편, 학습 네트워크 모델을 학습시키는 서버(미도시)는 학습을 위해, 레이블 레이어(1110)에 다양한 학습 데이터를 입력할 수 있다. 예를 들어, 서버(미도시)는 바이노럴 사운드 데이터의 레코딩이 수행되는 다양한 단말기들의 특성을 나타내는 파라미터를 제 1 학습 데이터(1102)로 레이블 레이어(1110)에 입력할 수 있다. 여기에서, 단말기들의 특성은 단말기에 구비된 마이크의 특성, 배치 위치 등을 포함할 수 있으나, 단말기들의 특성이 전술한 예에 한정되는 것은 아니다.

또한, 다른 예에 따라, 학습 네트워크 모델을 학습시키는 서버(미도시)는 학습을 위해, 바이노럴 사운드 데이터의 소스를 나타내는 파라미터를 제 2 학습 데이터(1104)로 레이블 레이어(1110)에 입력할 수 있다. 레이블 레이어(1110)는 학습 데이터(예를 들어, 1102)가 입력됨에 따라, 학습 데이터(예를 들어, 1102)로부터 변환에 필요한 특성 정보를 추출하여 바이노럴 사운드 데이터(10)와는 별도로 공통 뉴럴 네트워크(1120)에 입력값으로 전달할 수 있다. 또한, 공통 뉴럴 네트워크(1120)에서 처리된 결과 변환된 사운드 데이터는 출력 레이어(1130)를 통해 출력될 수 있다.

한편, 서버(미도시)는 출력 레이어(1130)를 통해 출력된 바이노럴 사운드 데이터의 변환 결과가 기 설정된 기준을 만족할 때까지, 피드백을 통해 반복적으로 학습을 수행할 수 있다.

도 11에 도시된, 학습 데이터는 일 예로, 다른 예에 따라 사용자가 의도한 바이노럴 사운드 데이터의 변환 정도 및 변환 방향에 관한 설정 정보가 추가적으로 학습 네트워크 모델을 학습하는데 고려될 수 있다.

도 12는 일 실시예에 따라 바이노럴 사운드 데이터를 변환하는 단말기(1200)의 블록도이다.

도 12를 참조하면, 단말기(1200)는 메모리(1210), 프로세서(1220) 및 출력부(1230)를 포함할 수 있다.

메모리(1210)는 프로세서(1220)의 처리 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리(1210)에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다. 일 실시예에 따라 메모리(1210)는 도 13을 참고하여 후술할 데이터 학습부 및 데이터 인식부가 소프트웨어 모듈로 구성될 수 있다. 또한, 데이터 학습부 및 데이터 인식부는 각각 독립적으로 학습 네트워크 모델을 포함하거나, 하나의 학습 네트워크 모델을 공유할 수 있다.

프로세서(1220)는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예를 들어, 버스(bus) 등)를 포함할 수 있다.

일 실시예에 따라 프로세서(1220)는 도 1 내지 도 11을 참고하여 전술한 단말기의 동작을 수행할 수 있다.

예를 들어, 프로세서(1220)는 바이노럴 사운드 데이터를 획득할 수 있다. 또한, 프로세서(1220)는 바이노럴 사운드 데이터 획득 시의 컨텍스트를 나타내는 파라미터를 기초로, 기 생성된 학습 네트워크 모델을 이용하여 바이노럴 사운드 데이터를 변환할 수 있다. 여기에서, 바이노럴 사운드 데이터 획득 시의 컨텍스트는 전술한 단말기 케이스로부터 NFC 등의 근거리 무선 통신을 통해 획득하거나, 단말기의 사용자의 입력으로부터 획득할 수 있다. NFC 등을 이용하는 경우 전술한 단말기 케이스는 전술한 컨텍스트에 대응하는 정보를 포함하는 NFC 태그가 부착되어 있을 수 있다. 또한, 프로세서(1220)는 출력부(1230)를 제어하여, 변환된 바이노럴 사운드 데이터를 출력할 수 있다.

한편, 프로세서(1220)는 프로세서(1220) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(1220)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.

출력부(1230)는 변환된 바이노럴 사운드 데이터를 출력할 수 있다.

도 13은 일 실시예에 따른 프로세서(1220)를 설명하기 위한 도면이다.

도 13을 참조하면, 일 실시예에 따른 프로세서(1220)는 데이터 학습부(1310) 및 데이터 인식부(1320)를 포함할 수 있다.

데이터 학습부(1310)는 바이노럴 사운드 데이터 획득 시의 컨텍스트를 나타내는 파라미터를 기초로, 바이노럴 사운드 데이터의 변환에 필요한 특성 정보를 추출하기 위한 기준을 학습할 수 있다. 또한, 데이터 학습부(1310)는 추출된 특성 정보를 기초로 원하는 변환 정도에 맞춰 바이노럴 사운드 데이터를 변환하기 위한 기준을 학습할 수 있다.

데이터 인식부(1320)는 데이터 학습부(1310)를 통해 학습된 기준에 기초하여, 바이노럴 사운드 데이터의 변환에 필요한 특성 정보를 추출하고, 추출된 특성 정보를 기초로 바이노럴 사운드 데이터를 변환할 수 있다.

데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 단말기에 탑재될 수 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 단말기에 탑재될 수도 있다.

이 경우, 데이터 학습부(1310) 및 데이터 인식부(1320)는 하나의 단말기에 탑재될 수도 있으며, 또는 별개의 단말기들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 하나는 단말기에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1310) 및 데이터 인식부(1320)는 유선 또는 무선으로 통하여, 데이터 학습부(1310)가 구축한 모델 정보를 데이터 인식부(1320)로 제공할 수도 있고, 데이터 인식부(1320)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1310)로 제공될 수도 있다.

한편, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수 있다.

도 14는 일 실시예에 따른 데이터 학습부(1310)의 블록도이다.

도 14를 참조하면, 일부 실시예에 따른 데이터 학습부(1310)는 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450)를 포함할 수 있다. 다만, 이는 일 실시예일 뿐, 전술한 구성 들 보다 적은 구성 요소로 데이터 학습부(1310)가 구성되거나, 전술한 구성들 이외에 다른 구성 요소가 추가적으로 데이터 학습부(1310)에 포함될 수 있다.

데이터 획득부(1410)는 바이노럴 사운드 데이터의 레코딩이 수행되는 다양한 단말기들의 특성을 나타내는 파라미터 및 각 단말기 별로 레코딩된 바이노럴 사운드 데이터를 학습 데이터로 획득할 수 있다. 다른 예에 따라, 데이터 획득부(1420)는 바이노럴 사운드 데이터의 소스를 나타내는 파라미터 및 각 소스 별로 레코딩된 바이노럴 사운드 데이터를 학습 데이터로 획득할 수 있다.

전처리부(1420)는 바이노럴 사운드 데이터 변환을 위한 학습에 획득된 학습 데이터가 이용될 수 있도록, 획득된 학습 데이터를 전처리할 수 있다. 전처리부(1420)는 후술할 모델 학습부(1440)가 학습을 위하여 획득된 적어도 하나의 학습 데이터를 이용할 수 있도록, 이를 기 설정된 포맷으로 가공할 수 있다.

학습 데이터 선택부(1430)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1440)에 제공될 수 있다. 학습 데이터 선택부(1430)는 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다.

모델 학습부(1440)는 학습 네트워크 모델 내의 복수의 레이어에서 어떠한 정보를 이용하여 특성 정보를 획득하거나, 바이노럴 사운드 데이터를 변환하는지에 대한 기준을 학습할 수 있다. 예를 들어, 모델 학습부(1440)는 바이노럴 사운드 데이터 변환을 위하여 학습 네트워크 모델에 포함된 복수의 레이어 중 어떤 레이어로부터 추출된 특성 정보를 이용해야 하는지에 대한 제 1 기준을 학습할 수도 있다. 여기에서, 제1 기준은, 학습 네트워크 모델을 이용하여, 바이노럴 사운드 데이터를 변환하는데 이용되는 제 1 특성 정보 또는 제 2 특성 정보의 종류 및 개수, 결합 연산의 종류 및 수준 등을 포함할 수 있다.

다양한 실시예에 따르면, 모델 학습부(1440)는 미리 구축된 데이터 인식 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 객체의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.

또한, 모델 학습부(1440)는, 예를 들어, 학습에 따라 변환된 바이노럴 사운드 데이터가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다.

또한, 데이터 인식 모델이 학습되면, 모델 학습부(1440)는 학습된 데이터 인식 모델을 저장할 수 있다. 이 경우, 모델 학습부(1440)는 학습된 데이터 인식 모델을 데이터 인식부(1320)를 포함하는 단말기의 메모리에 저장할 수 있다. 또는, 모델 학습부(1440)는 학습된 데이터 인식 모델을 후술할 데이터 인식부(1320)를 포함하는 단말기의 메모리에 저장할 수 있다. 또는, 모델 학습부(1440)는 학습된 데이터 인식 모델을 단말기와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.

이 경우, 학습된 데이터 인식 모델이 저장되는 메모리는, 예를 들면, 단말기의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 애플리케이션 프로그래밍 인터페이스(API) 및/또는 애플리케이션 프로그램(또는 "애플리케이션") 등을 포함할 수 있다.

모델 평가부(1450)는 데이터 인식 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1440)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 인식 모델을 평가하기 위한 기 설정된 데이터일 수 있다. 여기에서, 평가 데이터는 학습 네트워크 모델을 기반으로 변환된 바이노럴 사운드 데이터와 사용자의 의도에 따라 기 설정된 기준에 맞춰 변환한 바이노럴 사운드 데이터 간의 일치 비율 등을 포함할 수 있다.

한편, 학습 네트워크 모델이 복수 개 존재하는 경우, 모델 평가부(1450)는 각각의 학습 네트워크 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 학습 네트워크 모델로서 결정할 수 있다.

한편, 데이터 학습부(1310) 내의 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 단말기에 탑재될 수 있다. 예를 들어, 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 단말기 에 탑재될 수도 있다.

또한, 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450)는 하나의 단말기에 탑재될 수도 있으며, 또는 별개의 단말기들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 일부는 단말기에 포함되고, 나머지 일부는 서버에 포함될 수 있다.

또한, 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 15는 일 실시예에 따른 데이터 인식부(1320)의 블록도이다.

도 15를 참조하면, 일부 실시예에 따른 데이터 인식부(1320)는 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550)를 포함할 수 있다.

데이터 획득부(1510)는 바이노럴 사운드 데이터 변환에 필요한 컨텍스트 정보 및 바이노럴 사운드 데이터를 획득할 수 있으며, 전처리부(1520)는 바이노럴 사운드 데이터의 변환을 위해, 획득된 컨텍스트 정보 및 바이노럴 사운드 데이터가 이용될 수 있도록 이를 전처리할 수 있다. 전처리부(1520)는 후술할 인식 결과 제공부(1540)가 특성 정보 추출 또는 바이노럴 사운드 데이터 변환을 위해 획득된 바이노럴 사운드 데이터 및 컨텍스트 정보를 이용할 수 있도록, 이를 기 설정된 포맷으로 가공할 수 있다. 인식 데이터 선택부(1530)는 전처리된 데이터 중에서 바이노럴 사운드 데이터 변환에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1540)에게 제공될 수 있다.

인식 결과 제공부(1540)는 선택된 데이터를 일 실시예에 따른 학습 네트워크 모델에 적용하여 바이노럴 사운드 데이터를 변환할 수 있다. 인식 결과 제공부(1540)는 변환된 바이노럴 사운드 데이터를 제공할 수 있다.

모델 갱신부(1550)는 인식 결과 제공부(1540)에 의해 제공되는 바이노럴 사운드 데이터의 변환 결과에 대한 평가에 기초하여, 학습 네트워크 모델에 포함된 종분류 네트워크 또는 적어도 하나의 특성 추출 레이어의 파라미터 등이 갱신되도록 평가에 대한 정보를 도 14를 참고하여 전술한 모델 학습부(1440)에게 제공할 수 있다.

한편, 데이터 인식부(1320) 내의 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 단말기에 탑재될 수 있다. 예를 들어, 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 적어도 하나는 인공 지능을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 단말기에 탑재될 수도 있다.

또한, 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550)는 하나의 단말기에 탑재될 수도 있으며, 또는 별개의 단말기들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 일부는 단말기에 포함되고, 나머지 일부는 서버에 포함될 수 있다.

또한, 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수 있다.

도 16은 다른 실시예에 따른 단말기(1600)의 블록도이다.

도 16을 참조하면, 일 실시예에 따른 단말기(1600)는 도 12의 메모리(1210), 프로세서(1220) 및 출력부(1230)에 대응되는 메모리(1660), 프로세서(1620) 및 출력부(1630) 이외에, 입력부(1610), A/V 입력부(1640) 및 통신부(1650)를 더 포함할 수 있다.

입력부(1610)는 사용자가 단말기(1600)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 입력부(1610)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.

프로세서(1620)는 통상적으로 단말기(1600)의 전반적인 동작 및 단말기(1000)의 내부 구성 요소들 사이의 신호 흐름을 제어하고, 데이터를 처리하는 기능을 수행한다. 예를 들어, 프로세서(1620)는, 메모리(1660)에 저장된 프로그램들(하나 이상의 인스트럭션들)을 실행함으로써, 입력부(1610), 출력부(1630), A/V 입력부(1640) 및 통신부(1650) 등을 전반적으로 제어할 수 있다.

일 실시예에 따라 프로세서(1620)는, 도 1 내지 도 11에서 전술한 단말기(1200)의 기능을 수행하기 위하여, 학습 네트워크 모델을 이용하여 바이노럴 사운드 데이터를 변환하도록 단말기(1600)의 구성 요소들을 제어할 수 있다. 프로세서(1620)는 도 12의 프로세서(120)에 대응되므로, 자세한 설명은 생략한다.

출력부(1630)는 디스플레이부(1631) 및 음향 출력부(1632)를 포함할 수 있다.

디스플레이부(1631)는 단말기(1600)에서 처리되는 정보를 표시 출력한다. 디스플레이부(1631)와 터치 패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1631)는 출력 장치 이외에 입력 장치로도 사용될 수 있다.

음향 출력부(1632)는 변환된 바이노럴 사운드 데이터를 출력할 수 있다.

A/V(Audio/Video) 입력부(1640)는 카메라(1641)와 마이크로폰(1642) 등이 포함될 수 있다.

카메라(1641)는 카메라 인식 범위에서 이미지를 캡처한다. 일 실시예에 따라 카메라(1641)에 의해 캡처된 이미지는, 프로세서(1620)에 의해 이미지 처리되어 디스플레이부(1631)를 통해 표시 출력될 수 있다.

마이크로폰(1642)은 바이노럴 사운드 데이터의 레코딩을 위한 것으로, 도 16에는 하나의 마이크로폰(1642)이 도시되어 있으나, 이는 설명의 편의를 위한 것으로 단말기(1600)에는 복수의 마이크로폰이 포함될 수 있다.

통신부(1650)는 외부 서버(예를 들어, 애플리케이션 관리 서버, 클라우드 서버, 콘텐트 제공 서버 등) 및 기타 외부 장치와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1650)는 근거리 통신부(1651), 이동 통신부(1652), 방송 수신부(1653)를 포함할 수 있다.

근거리 통신부(short-range wireless communication unit)(1651)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

이동 통신부(1652)는 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 컨텐트 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

방송 수신부(1653)는 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 실시예에 따라서 단말기(1600)가 방송 수신부(1653)를 포함하지 않을 수도 있다.

메모리(1660)는 프로세서(1620)의 처리 및 제어를 위한 프로그램들(예를 들어, 하나 이상의 인스트럭션들, 학습 네트워크 모델을 저장할 수 있고, 단말기(1600)로 입력되거나 단말기(1600)로부터 출력되는 데이터(예를 들어, 바이노럴 사운드 데이터 변환 결과)를 저장할 수도 있다.

메모리(1660)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1661) 및 터치 스크린 모듈(1662) 등으로 분류될 수 있다.

UI 모듈(1661)은, 애플리케이션 별로 단말기(1600)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1662)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1620)로 전달할 수 있다. 본 발명의 일 실시예에 따른 터치 스크린 모듈(1662)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1662)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.

메모리(1660)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM), SRAM(Static Random Access Memory), 롬(ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

한편, 도 16에 도시된 단말기(1600)의 구성은 일 실시예이며, 단말기(1600)의 각 구성요소는 구현되는 단말기의 사양에 따라 통합, 추가, 또는 생략될 수 있다. 즉, 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 2 이상의 구성요소로 세분되어 구성될 수 있다. 또한, 각 구성(또는, 모듈)에서 수행하는 기능은 실시예들을 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 발명의 권리범위를 제한하지 아니한다.

도 17은 다른 실시예에 따라 단말기(1710)가 서버(1720)를 통해 바이노럴 사운드 데이터(10)의 변환을 수행하는 방법을 설명하기 위한 도면이다.

도 17을 참조하면, 일 실시예에 따른 단말기(1710)는 바이노럴 사운드 데이터(10)를 획득할 수 있다. 단말기(1710)는 획득한 바이노럴 사운드 데이터(10)와 함께 바이노럴 사운드 데이터 획득 시의 컨텍스트를 나타내는 파라미터(이하, 컨텍스트 파라미터, 15)를 서버(1720)에 제공할 수 있다.

서버(1720)는 단말기(1710)로부터 바이노럴 사운드 데이터(10) 및 컨텍스트 파라미터(15)가 수신됨에 따라, 이를 기초로, 기 생성된 학습 네트워크 모델(1730)을 이용하여 바이노럴 사운드 데이터(10)를 변환할 수 있다. 여기에서, 기 생성된 학습 네트워크 모델(1730)은 도 1 내지 도 16을 참조하여 전술한 학습 네트워크 모델과 대응될 수 있다.

서버(1720)는 변환된 바이노럴 사운드 데이터(20)를 단말기(1710)에 제공할 수 있다. 단말기(1710)는 서버(1720)로부터 변환된 바이노럴 사운드 데이터(20)가 수신됨에 따라, 이를 출력할 수 있다.

일 실시예에 따른 단말기에는 바이노럴 사운드 데이터가 획득 시의 컨텍스트를 고려하여, 바이노럴 사운드 데이터에 적합한 변환을 수행할 수 있는 학습 네트워크 모델이 저장될 수 있다. 예를 들어, 학습 네트워크 모델은 파라미터로 단말기에 포함된 마이크의 특성, 마이크의 배치 위치 등이 입력되는 경우, 바이노럴 사운드 데이터가 녹음된 마이크의 특성 및 배치 위치를 고려하여 변환에 적합한 레이어의 구조 및 레이어의 파라미터가 결정될 수 있다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.

이상과 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims

복수의 마이크를 포함한 단말기에 결합되어 사용되는 단말기 케이스로서,
상기 단말기의 좌우상하의 측면 및 후면 중 적어도 하나 이상의 일면을 감싸는 커버;
마이크 홀이 형성된 단말기의 각 일면과 접하는 상기 커버의 일면에 형성된 커버 홀;
상기 커버에서 상기 커버 홀이 형성된 각 면에 배치되어, 사운드를 포집하며, 상기 포집된 사운드의 공명, 반사 및 회절 중 적어도 하나 이상을 야기하는 비대칭 형태의 집음부; 및
상기 커버의 후면에 연결되며, 상기 복수의 마이크 각각을 통한 사운드 녹음 시, 사운드의 좌우 분리를 발생시키는 접이식 디스크(disk)를 포함하고,
상기 커버 홀은, 상기 마이크 홀에 사운드가 유입되도록 하는, 단말기 케이스.
제 1항에 있어서,
상기 집음부와 상기 커버 사이에 배치되어, 상기 집음부를 회전시키는 회전 플레이트를 더 포함하는, 단말기 케이스.
제 1항에 있어서,
상기 집음부가 상하 방향으로 슬라이딩 가능하도록, 상기 집음부와 상기 커버를 연결하는 슬라이딩 플레이트를 더 포함하는, 단말기 케이스.
제 1항에 있어서,
상기 커버 홀을 상기 마이크 홀에 연결시키는 어쿠스틱 튜브(acoustic tube)를 더 포함하는, 단말기 케이스.
삭제
제 1항에 있어서,
상기 커버 홀 주변을 감싸도록 배치되어, 상기 마이크 홀로 유입되는 사운드가 새는 것을 방지하는 실링(sealing) 부재를 더 포함하는, 단말기 케이스.
제 1항에 있어서,
상기 집음부의 전면 방향으로 돌출되어, 상기 집음부 주변의 사운드를 반사시키는 판체를 더 포함하는, 단말기 케이스.
제 1항에 있어서,
상기 커버 홀이 형성된 커버의 일면에 연결되어, 상기 단말기가 상기 커버에 슬라이딩으로 인입되도록 가이드하는 안내 돌기를 더 포함하는, 단말기 케이스.
제 1항에 있어서, 상기 집음부는,
상기 커버 홀로부터 높이 방향으로 면적이 넓어지는, 비등변 자유곡선 형상을 갖는, 단말기 케이스.
제 1항에 있어서, 상기 집음부는,
인체의 귓바퀴 형상을 갖는, 단말기 케이스.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제