WO2022039310A1

WO2022039310A1 - 복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 단말기 및 그 방법

Info

Publication number: WO2022039310A1
Application number: PCT/KR2020/011206
Authority: WO
Inventors: 정성원; 최택성
Original assignee: 엘지전자 주식회사
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2022-02-24
Also published as: CN114747196A; EP4203446A1; US20220303707A1; KR20230054308A

Abstract

본 개시의 일 실시 예는 복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 단말기에 있어서, 카메라; 복수의 제1 오디오 기기들과 연결하는 통신부; 및 상기 통신부 또는 상기 카메라를 통해 상기 복수의 제1 오디오 기기들에 대한 기기 정보를 획득하고, 상기 기기 정보를 고려하여 상기 복수의 제1 오디오 기기들 중에서 적어도 둘 이상의 제2 오디오 기기들을 포함하는 다채널 오디오 시스템을 구성하고, 상기 다채널 오디오 시스템에 대응하는 오디오 시스템 정보에 기초하여 상기 제2 오디오 기기들을 통해 오디오 데이터를 출력하는 프로세서를 포함하는, 단말기를 제공한다.

Description

복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 단말기 및 그 방법

본 개시(disclosure)는 복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 단말기 및 그 방법에 관한 것이다.

기존의 다채널 오디오 시스템은 미리 출력 채널이 결정된 오디오 기기들로 구성되며, 올바른 오채널 오디오의 출력을 위한 오디오 기기들의 배치에 전문가의 도움이 필요하였다. 따라서, 기존에는 사용자가 다채널 오디오 시스템을 구성하는 복수의 오디오 기기들을 구비하더라도 적합한 위치에 설치하는데 큰 어려움이 있었다. 또한, 기존에는 다채널 오디오 시스템을 구축하기 위하여는 미리 정해진 채널의 음향을 출력할 수 있는 여러 오디오 기기들의 조합에 맞추어 장치를 구비하여야했다.

만약 가정 내에 구비되는 모노 채널 오디오 기기나 스테레오 채널 오디오 기기들을 조합하여 다채널 오디오 시스템을 구축할 수 있다면, 사용자에게 적은 비용으로도 만족도 높은 오디오를 제공할 수 있을 것이다.

본 개시는 복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 단말기 및 그 방법을 제공하고자 한다.

또한, 본 개시는 다채널 오디오 시스템을 구성하는 복수의 오디오 기기들의 적합한 배치 위치를 제공하는 단말기 및 그 방법을 제공하고자 한다.

본 개시의 일 실시 예는, 복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 단말기에 있어서, 카메라; 복수의 제1 오디오 기기들과 연결하는 통신부; 및 상기 통신부 또는 상기 카메라를 통해 상기 복수의 제1 오디오 기기들에 대한 기기 정보를 획득하고, 상기 기기 정보를 고려하여 상기 복수의 제1 오디오 기기들 중에서 적어도 둘 이상의 제2 오디오 기기들을 포함하는 다채널 오디오 시스템을 구성하고, 상기 다채널 오디오 시스템에 대응하는 오디오 시스템 정보에 기초하여 상기 제2 오디오 기기들을 통해 오디오 데이터를 출력하는 프로세서를 포함하는, 단말기를 제공한다.

상기 기기 정보는 상기 복수의 제1 오디오 기기들 각각에 대한 오디오 채널 정보 및 음량 레벨 정보를 포함할 수 있다.

상기 프로세서는 상기 카메라를 통해 상기 제1 오디오 기기를 포함하는 제1 이미지 데이터를 획득하고, 상기 제1 이미지 데이터에 포함된 상기 제1 오디오 기기를 특정하고, 상기 특정된 제1 오디오 기기에 대응하는 기기 정보를 획득할 수 있다.

상기 오디오 시스템 정보는 상기 다채널 오디오 시스템의 오디오 채널 정보, 상기 제2 오디오 기기들에 대한 오디오 채널 할당 정보, 음량 레벨 정보 및 배치 위치 정보를 포함할 수 있다.

상기 프로세서는 상기 카메라를 통해 상기 다채널 오디오 시스템의 청취 공간에 대한 제2 이미지 데이터를 획득하고, 상기 제2 이미지 데이터에 기초하여 상기 배치 위치 정보를 결정할 수 있다.

상기 단말기는 입력부를 더 포함하고, 상기 프로세서는 상기 입력부를 통해 사용자로부터 상기 제2 이미지 데이터에서의 청취 위치 정보를 획득하고, 상기 청취 위치 정보에 기초하여 상기 배치 위치 정보를 결정 할 수 있다.

상기 단말기는 디스플레이부를 더 포함하고, 상기 프로세서는 상기 디스플레이부를 통해 상기 제2 오디오 기기들에 대한 상기 배치 위치 정보를 출력 할 수 있다.

상기 프로세서는 상기 오디오 데이터의 채널 수가 상기 오디오 채널 정보의 채널 수보다 적은 경우에 상기 오디오 데이터를 업믹싱하고, 상기 제2 오디오 기기들을 통해 상기 업믹싱된 오디오 데이터를 출력 할 수 있다.

상기 통신부는 업믹싱 서버로부터 상기 오디오 데이터에 대응하는 상기 업믹싱된 오디오 데이터를 수신 할 수 있다.

상기 프로세서는 상기 오디오 데이터의 오디오 특성에 기초하여 음향 효과를 결정하고, 상기 음향 효과를 반영하여 상기 제2 오디오 기기들을 통해 상기 오디오 데이터를 출력 할 수 있다.

상기 음향 효과는 이퀄라이저 또는 입체 음향 중에서 적어도 하나 이상을 포함 할 수 있다.

상기 프로세서는 인공 신경망으로 구성된 오디오 분석 모델을 이용하여 상기 오디오 데이터에 상응하는 상기 오디오 특성을 분석 할 수 있다.

또한, 본 개시의 일 실시 예는, 복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 방법에 있어서, 통신부를 통해 복수의 제1 오디오 기기들과 연결하는 단계; 상기 통신부 또는 카메라를 통해 상기 복수의 제1 오디오 기기들에 대한 기기 정보를 획득하는 단계; 상기 기기 정보를 고려하여 상기 복수의 제1 오디오 기기들 중에서 적어도 둘 이상의 제2 오디오 기기들을 포함하는 다채널 오디오 시스템을 구성하는 단계; 및 상기 다채널 오디오 시스템에 대응하는 오디오 시스템 정보에 기초하여 상기 제2 오디오 기기들을 통해 오디오 데이터를 출력하는 단계를 포함하는, 방법을 제공한다.

또한, 본 개시의 일 실시 예는, 복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 방법을 기록한 기록 매체에 있어서, 상기 방법은 통신부를 통해 복수의 제1 오디오 기기들과 연결하는 단계; 상기 통신부 또는 카메라를 통해 상기 복수의 제1 오디오 기기들에 대한 기기 정보를 획득하는 단계; 상기 기기 정보를 고려하여 상기 복수의 제1 오디오 기기들 중에서 적어도 둘 이상의 제2 오디오 기기들을 포함하는 다채널 오디오 시스템을 구성하는 단계; 및 상기 다채널 오디오 시스템에 대응하는 오디오 시스템 정보에 기초하여 상기 제2 오디오 기기들을 통해 오디오 데이터를 출력하는 단계를 포함하는, 기록 매체를 제공한다.

본 개시의 다양한 실시 예에 따르면, 복수의 오디오 기기들을 조합하여 개별 오디오 기기에서 지원하지 않는 다채널 오디오 시스템을 구성할 수 있다.

또한, 본 개시의 다양한 실시 예에 따르면, 사용자에게 개별적인 오디오 기기들에 할당된 오디오 채널에 적합한 배치 위치를 제공할 수 있다.

또한, 본 개시의 다양한 실시 예에 따르면, 업믹싱을 지원하지 않는 오디오 기기을 통해서도 업믹싱된 오디오 데이터를 출력할 수 있다.

또한, 본 개시의 다양한 실시 예에 따르면, 오디오 데이터의 오디오 특성에 적합한 음향 효과를 적용하여 오디오 데이터를 출력할 수 있다.

도 1은 본 개시의 일 실시 예에 따른 다채널 오디오 출력 시스템을 나타낸 도면이다.

도 2는 본 개시의 일 실시 예에 따른 복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 단말기(1를 나타낸 블록도이다.

도 3은 본 개시의 일 실시 예에 따른 오디오 기기를 나타낸 블록도이다.

도 4는 본 개시의 일 실시 예에 따른 복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 방법을 나타낸 흐름도이다.

도 5는 단말기의 카메라를 이용하여 오디오 기기의 기기 정보를 획득하는 예시를 나타낸 도면이다.

도 6은 도 4에 도시된 다채널 오디오 시스템을 구성하는 단계의 일 예를 나타낸 흐름도이다.

도 7은 단말기에서 오디오 시스템 정보를 출력하는 예시를 나타낸 도면이다.

도 8은 도 4에 개시된 다채널 오디오 시스템을 통해 오디오 데이터를 출력하는 단계의 일 예를 나타낸 흐름도이다.

도 9는 오디오 데이터를 업믹싱하는 예시를 나타낸 도면이다.

도 10은 도 4에 개시된 다채널 오디오 시스템을 통해 오디오 데이터를 출력하는 단계의 일 예를 나타낸 흐름도이다.

도 11 및 12는 본 개시의 실시 예들에 따른 다채널 오디오 출력 시스템을 나타낸 도면이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 '모듈' 및 '부'는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나 '접속되어' 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 '직접 연결되어' 있다거나 '직접 접속되어' 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

단말기(100)는 TV, 프로젝터, 휴대폰, 스마트폰, 데스크탑 컴퓨터, 노트북, 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 태블릿 PC, 웨어러블 장치, 셋톱박스(STB), DMB 수신기, 라디오, 세탁기, 냉장고, 디지털 사이니지, 로봇, 차량 등과 같은, 고정형 기기 또는 이동 가능한 기기 등으로 구현될 수 있다.

도 1은 본 개시의 일 실시 예에 따른 다채널 오디오 출력 시스템(1)을 나타낸 도면이다.

도 1을 참조하면, 다채널 오디오 출력 시스템(1)은 단말기(100), 복수의 오디오 기기(200), 업믹싱 서버(300) 및 컨텐츠 제공자(400) 등을 포함할 수 있다.

단말기(100)는 무선 통신 기술을 이용하여 오디오 기기(200)와 연결하고, 오디오 기기(200)를 통해 소리를 출력하고, 오디오 기기(200)를 제어하는 장치를 의미할 수 있다. 단말기(100)가 오디오 기기(200)에 오디오 신호 또는 오디오 데이터를 제공한다는 점에서, 단말기(100)를 오디오 신호 제공 장치 또는 오디오 데이터 제공 장치라고 볼 수 있다.

단말기(100)는 복수의 오디오 기기(200)를 통해 다채널의 오디오를 출력할 수 있다. 예컨대, 단말기(100)는 각 오디오 기기(200)에 서로 다른 채널의 오디오 신호를 전송함으로써 다채널 오디오를 출력할 수 있다. 이 경우, 다채널 오디오를 출력하는 오디오 기기들(200)을 하나의 다채널 오디오 시스템이라 칭할 수 있다. 즉, 복수의 오디오 기기(200)는 하나의 오디오 시스템으로 동작할 수 있고, 이러한 오디오 시스템은 마치 복수의 음향 출력부를 포함하는 하나의 오디오 기기처럼 동작할 수 있다. 예컨대, 두 개의 오디오 기기(200)가 각각 하나의 음향 출력부만을 포함하더라도, 이러한 두 개의 오디오 기기(200) 중에서 하나는 좌 채널 오디오 신호에 대응하는 좌 채널 소리를 출력하고, 나머지 하나는 우 채널 오디오 신호에 대응하는 우 채널 소리를 출력할 수 있고, 이에 따라 두 개의 오디오 기기(200)가 하나의 스테레오 오디오 기기처럼 동작할 수 있다.

단말기(100)는 무선 통신 기술을 이용하여 오디오 기기(200)와 페어링(pairing) 신호, 측위 신호, 오디오 신호 등을 송수신할 수 있다. 페어링 신호는 오디오 기기(200)를 단말기(100)에 연결하는데 송수신하는 신호를 의미할 수 있다. 측위 신호는 단말기(100)와 오디오 기기(200) 사이의 상대적 위치를 측정하는데 송수신하는 신호를 의미할 수 있다. 오디오 신호는 단말기(100)가 오디오 기기(200)를 통해 오디오를 출력하기 위하여 오디오 기기(200)에 전송하는 신호를 의미할 수 있다.

단말기(100)는 유무선 통신 기술을 이용하여 컨텐츠 제공자(400)로부터 오디오 데이터를 포함하는 컨텐츠 데이터를 수신하고, 수신한 오디오 데이터에 대응하는 오디오 데이터를 오디오 기기(200)에 전송할 수 있다. 또는, 단말기(100)는 메모리(170)에 저장된 오디오 데이터에 대응하는 오디오 데이터를 오디오 기기(200)에 전송할 수도 있다.

오디오 기기(200)는 무선 통신 기술을 이용하여 단말기(100)와 연결하며, 단말기(100)로부터 수신한 오디오 데이터에 기초하여 오디오를 출력할 수 있다. 이를 위해, 오디오 기기(200)는 적어도 하나 이상의 음향 출력부 또는 스피커를 포함할 수 있다.

오디오 기기(200)는 하나 이상의 음향 출력부(340)를 포함할 수 있고, 각 음향 출력부(340)를 통해 동일한 채널의 오디오를 출력할 수도 있고, 서로 다른 채널의 오디오를 출력할 수도 있다. 예컨대, 오디오 기기(200)는 헤드폰이나 넥 밴드형 이어폰과 같이 두 개의 음향 출력부들을 포함할 수 있고, 이 경우 오디오 기기(200)는 각 음향 출력부를 통해 좌 채널 오디오와 우 채널 오디오를 출력할 수 있다.

일 실시 예에서, 복수의 오디오 기기(200)가 하나의 그룹으로 동작할 경우, 하나의 무선 음향 기기가 마스터 무선 음향 기기로 기능하고, 나머지 무선 음향 기기가 슬레이브 무선 음향 기기로 기능할 수 있다. 이 경우, 단말기(100)는 마스터 무선 음향 기기에만 연결하더라도, 마스터 무선 음향 기기를 통해 슬레이브 무선 음향 기기에서도 오디오를 출력할 수 있다. 또한, 단말기(100)는 마스터 무선 음향 기기를 통하여 슬레이브 무선 음향 기기와도 연결하고, 슬레이브 음향 기기에서 소리를 출력할 수 있다.

일 실시 예에서, 복수의 오디오 기기(200)가 하나의 그룹으로 동작할 경우, 단말기(100)가 각 오디오 기기(200)와 모두 연결하고 각 오디오 기기(200)에 개별적으로 오디오 데이터를 전송하여 오디오를 출력할 수 있다.

오디오 기기(200) 중에서 단말기(100)와 연결되는 오디오 기기를 제1 오디오 기기(200_1)라 칭할 수 있고, 제1 오디오 기기(200_1) 중에서 다채널 오디오 시스템을 구성하는 오디오 기기를 제2 오디오 기기(200_2)라 칭할 수 있다. 제2 오디오 기기(200_2) 역시도 단말기(100)와 연결된다는 점에서, 제2 오디오 기기(200_2)는 제1 오디오 기기(200_1)이기도 하다.

업믹싱 서버(300)는 유무선 통신 기술을 이용하여 단말기(100)로부터 수신한 오디오 데이터를 업믹싱(up-mixing)하고, 업믹싱한 오디오 데이터를 단말기(100)에 제공할 수 있다. 업믹싱 또는 오디오 업믹싱은 오디오 데이터의 채널 수를 확장시키는 동작을 의미할 수 있다. 예컨대, 업믹싱 서버(300)는 단말기(100)로부터 2채널의 오디오 데이터를 수신하고, 수신한 오디오 데이터를 5.1채널의 오디오 데이터로 업믹싱하여 단말기(100)에 전송할 수 있다.

업믹싱 서버(300)는 단일한 서버로 구성될 수도 있지만, 복수의 서버들을 포함하는 서버 클러스터 또는 클라우드 서버 등으로 구성될 수도 있다.

컨텐츠 제공자(400)는 유무선 통신 기술을 이용하여 단말기(100)에 비디오 컨텐츠 데이터 또는 오디오 컨텐츠 데이터 등을 제공할 수 있다. 비디오 컨텐츠 또는 오디오 컨텐츠 데이터는 오디오 데이터를 포함할 수 있다.

컨텐츠 제공자(400)는 라디오 기지국, 지상파 기지국, 방송 위성, 컨텐츠 데이터 서버 등의 다양한 컨텐츠 제공 장치를 지칭할 수 있다.

도 2는 본 개시의 일 실시 예에 따른 복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 단말기(100)를 나타낸 블록도이다.

도 2를 참조하면, 단말기(100)는 통신부(110), 입력부(120), 러닝 프로세서(130), 센싱부(140), 출력부(150), 메모리(170) 및 프로세서(180) 등을 포함할 수 있다.

통신부(110)는 통신 모뎀(communication modem) 또는 통신 회로(communication circuit)라고도 칭할 수 있다.

통신부(110)는 유무선 통신 기술을 이용하여 오디오 기기(200) 등의 외부 장치들과 데이터를 송수신할 수 있다. 예컨대, 통신부(110)는 외부 장치들과 센서 정보, 사용자 입력, 학습 모델, 제어 신호 등을 송수신할 수 있다.

통신부(110)가 이용하는 통신 기술에는 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), LTE(Long Term Evolution), 5G, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), 블루투스(Bluetooth쪠), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), ZigBee, NFC(Near Field Communication) 등이 있다.

입력부(120)는 입력 인터페이스(input interface)라고 칭할 수 있다.

입력부(120)는 다양한 종류의 데이터를 획득할 수 있다.

입력부(120)는 영상 신호 입력을 위한 카메라(121), 오디오 신호를 수신하기 위한 마이크로폰(122), 사용자로부터 정보를 입력받기 위한 사용자 입력부(123) 등을 포함할 수 있다. 여기서, 카메라(121)나 마이크로폰(122)을 센서로 취급하여, 카메라(121)나 마이크로폰(122)으로부터 획득한 신호를 센싱 데이터 또는 센서 정보라고 할 수도 있다.

입력부(120)에서 수집한 음성 데이터나 이미지 데이터는 분석되어 사용자의 제어 명령으로 처리될 수 있다.

입력부(120)는 모델 학습을 위한 학습 데이터 및 학습 모델을 이용하여 출력을 획득할 때 사용될 입력 데이터 등을 획득할 수 있다. 입력부(120)는 가공되지 않은 입력 데이터를 획득할 수도 있으며, 이 경우 프로세서(180) 또는 러닝 프로세서(130)는 입력 데이터에 대하여 전처리로써 입력 특징점(input feature)을 추출할 수 있다.

카메라(121)는 화상 통화 모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지 영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부(151)에 표시되거나 메모리(170)에 저장될 수 있다.

마이크로폰(122)은 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 단말기(100)에서 수행 중인 기능(또는 실행 중인 응용 프로그램)에 따라 다양하게 활용될 수 있다. 한편, 마이크로폰(122)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 적용될 수 있다.

사용자 입력부(123)는 사용자로부터 정보를 입력받기 위한 것으로써, 사용자 입력부(123)를 통해 정보가 입력되면, 프로세서(180)는 입력된 정보에 대응되도록 단말기(100)의 동작을 제어할 수 있다.

사용자 입력부(123)는 기계식 입력 수단 (예컨대, 단말기(100)의 전/후면 또는 측면에 위치하는 버튼, 돔 스위치 (dome switch), 조그 휠, 조그 스위치 등) 및 터치식 입력 수단을 포함할 수 있다. 예컨대, 터치식 입력 수단은, 소프트웨어적인 처리를 통해 터치 스크린에 표시되는 가상 키(virtual key), 소프트 키(soft key) 또는 비주얼 키(visual key)로 이루어지거나, 상기 터치 스크린 이외의 부분에 배치되는 터치 키(touch key)로 이루어질 수 있다.

러닝 프로세서(130)는 학습 데이터를 이용하여 인공 신경망으로 구성된 모델을 학습시킬 수 있다. 여기서, 학습된 인공 신경망을 학습 모델이라 칭할 수 있다. 학습 모델은 학습 데이터가 아닌 새로운 입력 데이터에 대하여 결과 값을 추론해 내는데 사용될 수 있고, 추론된 값은 어떠한 동작을 수행하기 위한 판단의 기초로 이용될 수 있다.

러닝 프로세서(130)는 인공 지능 서버(미도시)의 러닝 프로세서(미도시)와 함께 AI 프로세싱을 수행할 수 있다.

러닝 프로세서(130)는 단말기(100)에 통합되거나 구현된 메모리를 포함할 수 있다. 또는, 러닝 프로세서(130)는 메모리(170), 단말기(100)에 직접 결합된 외부 메모리 또는 외부 장치에서 유지되는 메모리를 사용하여 구현될 수도 있다.

센싱부(140)는 센서부 또는 센서라고 칭할 수 있다.

센싱부(140)는 다양한 센서들을 이용하여 단말기(100) 내부 정보, 단말기(100)의 주변 환경 정보 및 사용자 정보 중 적어도 하나를 획득할 수 있다.

센싱부(140)에 포함되는 센서에는 근접 센서, 조도 센서, 가속도 센서, 자기 센서, 자이로 센서, 관성 센서, RGB 센서, IR 센서, 지문 인식 센서, 초음파 센서, 광 센서, 마이크로폰, 라이다, 레이더 등이 있다.

출력부(150)는 출력 인터페이스(output interface)라고 칭할 수 있다.

출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시킬 수 있다. 출력부(150)는 디스플레이부(Display Unit, 151), 음향 출력부(Sound Output Unit, 152), 햅틱 모듈(Haptic Module, 153), 광 출력부(Optical Output Unit, 154) 중 적어도 하나를 포함할 수 있다.

디스플레이부(151)는 단말기(100)에서 처리되는 정보를 표시(출력)한다. 예컨대, 디스플레이부(151)는 단말기(100)에서 구동되는 응용 프로그램의 실행화면 정보, 또는 이러한 실행화면 정보에 따른 UI(User Interface), GUI(Graphic User Interface) 정보를 표시할 수 있다.

디스플레이부(151)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 단말기(100)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부(123)로써 기능함과 동시에, 단말기(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.

음향 출력부(152)는 호신호 수신, 통화 모드 또는 녹음 모드, 음성 인식 모드, 방송 수신 모드 등에서 통신부(110)로부터 수신되거나 메모리(170)에 저장된 오디오 데이터를 출력할 수 있다. 음향 출력부(152)는 리시버(receiver), 스피커(speaker), 버저(buzzer) 중 적어도 하나 이상을 포함할 수 있다.

햅틱 모듈(haptic module, 153)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(153)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 될 수 있다.

광출력부(154)는 단말기(100)의 광원의 빛을 이용하여 이벤트 발생을 알리기 위한 신호를 출력한다. 단말기(100)에서 발생 되는 이벤트의 예로는 메시지 수신, 호 신호 수신, 부재중 전화, 알람, 일정 알림, 이메일 수신, 애플리케이션을 통한 정보 수신 등이 될 수 있다.

메모리(170)는 단말기(100)의 다양한 기능을 지원하는 데이터를 저장할 수 있다. 예컨대, 메모리(170)는 입력부(120)에서 획득한 입력 데이터, 학습 데이터, 학습 모델, 학습 히스토리 등을 저장할 수 있다.

프로세서(180)는 단말기(100)의 전반적인 동작을 제어할 수 있다.

프로세서(180)에서 영상 처리된 영상 신호는 디스플레이부(151)로 입력되어 해당 영상 신호에 대응하는 영상으로 표시될 수 있다. 또한, 프로세서(180)에서 영상 처리된 영상 신호는 외부 장치 인터페이스부(미도시)를 통하여 외부 출력 장치로 입력될 수 있다.

프로세서(180)에서 처리된 오디오 신호는 음향 출력부(152)를 통해 출력될 수 있다. 또한, 프로세서(180)에서 처리된 오디오 신호는 외부 장치 인터페이스부(미도시)를 통하여 외부 출력 장치로 입력될 수 있다.

프로세서(180)는 데이터 분석 알고리즘 또는 머신 러닝 알고리즘을 사용하여 결정되거나 생성된 정보에 기초하여, 단말기(100)의 적어도 하나의 실행 가능한 동작을 결정할 수 있다. 그리고, 프로세서(180)는 단말기(100)의 구성 요소들을 제어하여 결정된 동작을 수행할 수 있다. 이를 위해, 프로세서(180)는 러닝 프로세서(130) 또는 메모리(170)의 데이터를 요청, 검색, 수신 또는 활용할 수 있고, 상기 적어도 하나의 실행 가능한 동작 중 예측되는 동작이나, 바람직한 것으로 판단되는 동작을 실행하도록 단말기(100)의 구성 요소들을 제어할 수 있다.

프로세서(180)는 결정된 동작을 수행하기 위하여 외부 장치의 연계가 필요한 경우, 해당 외부 장치를 제어하기 위한 제어 신호를 생성하고, 생성한 제어 신호를 해당 외부 장치에 전송할 수 있다.

프로세서(180)는 사용자 입력에 대하여 의도 정보를 획득하고, 획득한 의도 정보에 기초하여 사용자의 요구 사항을 결정할 수 있다.

프로세서(180)는 음성 입력을 문자열로 변환하기 위한 STT(Speech To Text) 엔진 또는 자연어의 의도 정보를 획득하기 위한 자연어 처리(NLP: Natural Language Processing) 엔진 중에서 적어도 하나 이상을 이용하여, 사용자 입력에 상응하는 의도 정보를 획득할 수 있다. STT 엔진 또는 NLP 엔진 중에서 적어도 하나 이상은 적어도 일부가 머신 러닝 알고리즘에 따라 학습된 인공 신경망으로 구성될 수 있다. 그리고, STT 엔진 또는 NLP 엔진 중에서 적어도 하나 이상은 러닝 프로세서(130)에 의해 학습된 것이나, 인공 지능 서버(미도시)의 러닝 프로세서(미도시)에 의해 학습된 것이거나, 또는 이들의 분산 처리에 의해 학습된 것일 수 있다.

프로세서(180)는 단말기(100)의 동작 내용이나 동작에 대한 사용자의 피드백 등을 포함하는 이력 정보를 수집하여 메모리(170) 또는 러닝 프로세서(130)에 저장하거나, 인공 지능 서버(미도시) 등의 외부 장치에 전송할 수 있다. 수집된 이력 정보는 학습 모델을 갱신하는데 이용될 수 있다.

프로세서(180)는 메모리(170)에 저장된 응용 프로그램을 구동하기 위하여, 단말기(100)의 구성 요소들 중 적어도 일부를 제어할 수 있다. 나아가, 프로세서(180)는 상기 응용 프로그램의 구동을 위하여, 단말기(100)에 포함된 구성 요소들 중 둘 이상을 서로 조합하여 동작시킬 수 있다.

한편, 도 1에 도시된 단말기(100)는 본 개시의 일 실시 예에 불과하며, 도시된 구성요소들 중 일부는 실제 구현되는 단말기(100)의 사양에 따라 통합, 추가, 또는 생략될 수 있다.

일 실시 예에서, 단말기(100)의 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 2 이상의 구성요소로 세분되어 구성될 수 있다. 또한, 각 블록에서 수행하는 기능은 본 개시의 실시 예를 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 개시의 권리 범위를 제한하지 아니한다.

도 3은 본 개시의 일 실시 예에 따른 오디오 기기(200)를 나타낸 블록도이다.

도 3을 참조하면, 오디오 기기(200)는 통신부(210), 입력부(220), 출력부(250), 메모리(270) 및 프로세서(280) 등을 포함할 수 있다.

통신부(210)는 통신 모뎀(communication modem) 또는 통신 회로(communication circuit)라고도 칭할 수 있다.

통신부(210)는 유무선 통신 기술을 이용하여 단말기(100) 등의 외부 장치들과 데이터를 송수신할 수 있다. 예컨대, 통신부(110)는 외부 장치들과 센서 정보, 사용자 입력, 학습 모델, 제어 신호 등을 송수신할 수 있다.

통신부(210)가 이용하는 통신 기술에는 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), LTE(Long Term Evolution), 5G, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), 블루투스(Bluetooth쪠), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), ZigBee, NFC(Near Field Communication) 등이 있다.

통신부(210)는 라디오 기지국으로부터 FM 라디오 신호 또는 AM 라디오 신호를 수신할 수 있다.

입력부(220)는 입력 인터페이스(input interface)라고 칭할 수 있다.

입력부(220)는 오디오 신호를 수신하기 위한 마이크로폰(222), 사용자로부터 정보를 입력받기 위한 사용자 입력부(223) 등을 포함할 수 있다. 여기서, 마이크로폰(222)을 센서로 취급하여, 마이크로폰(222)으로부터 획득한 신호를 센싱 데이터 또는 센서 정보라고 할 수도 있다.

입력부(220)에서 수집한 음성 데이터나 이미지 데이터는 분석되어 사용자의 제어 명령으로 처리될 수 있다.

마이크로폰(222)은 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 단말기(200)에서 수행 중인 기능(또는 실행 중인 응용 프로그램)에 따라 다양하게 활용될 수 있다. 한편, 마이크로폰(222)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 적용될 수 있다.

사용자 입력부(223)는 사용자로부터 정보를 입력받기 위한 것으로써, 사용자 입력부(223)를 통해 정보가 입력되면, 프로세서(280)는 입력된 정보에 대응되도록 단말기(200)의 동작을 제어할 수 있다.

사용자 입력부(223)는 기계식 입력 수단 (예컨대, 단말기(200)의 전/후면 또는 측면에 위치하는 버튼, 돔 스위치 (dome switch), 조그 휠, 조그 스위치 등) 및 터치식 입력 수단을 포함할 수 있다. 예컨대, 터치식 입력 수단은, 소프트웨어적인 처리를 통해 터치 스크린에 표시되는 가상 키(virtual key), 소프트 키(soft key) 또는 비주얼 키(visual key)로 이루어지거나, 상기 터치 스크린 이외의 부분에 배치되는 터치 키(touch key)로 이루어질 수 있다.

출력부(250)는 출력 인터페이스(output interface)라고 칭할 수 있다.

출력부(250)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시킬 수 있다. 출력부(250)는 디스플레이부(Display Unit, 151), 음향 출력부(Sound Output Unit, 152), 햅틱 모듈(Haptic Module, 153), 광 출력부(Optical Output Unit, 154) 중 적어도 하나를 포함할 수 있다.

디스플레이부(251)는 단말기(200)에서 처리되는 정보를 표시(출력)한다. 예컨대, 디스플레이부(251)는 단말기(200)에서 구동되는 응용 프로그램의 실행화면 정보, 또는 이러한 실행화면 정보에 따른 UI(User Interface), GUI(Graphic User Interface) 정보를 표시할 수 있다.

디스플레이부(251)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 단말기(200)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부(223)로써 기능함과 동시에, 단말기(200)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.

음향 출력부(252)는 호신호 수신, 통화 모드 또는 녹음 모드, 음성 인식 모드, 방송 수신 모드 등에서 통신부(210)로부터 수신되거나 메모리(270)에 저장된 오디오 데이터를 출력할 수 있다. 음향 출력부(252)는 리시버(receiver), 스피커(speaker), 버저(buzzer) 중 적어도 하나 이상을 포함할 수 있다.

음향 출력부(252)는 진동판, 음향 코일 및 음향 코일의 주변에 자기장을 형성시키는 영구 자석을 포함할 수 있다. 음향 코일에 전원이 인가되면 영구 자석에 의해 형성된 자기장 내에서 전자기력이 발생하여 음향 코일이 움직이게 되고, 음향 코일의 움직임에 따라 진동판이 진동하며 소리를 출력할 수 있다.

메모리(270)는 오디오 기기(200)의 다양한 기능을 지원하는 데이터를 저장할 수 있다. 예컨대, 메모리(270)는 입력부(220)에서 획득한 입력 데이터, 단말기(100)로부터 수신한 오디오 데이터 등을 저장할 수 있다.

프로세서(280)는 오디오 기기(200)의 전반적인 동작을 제어할 수 있다.

도 4를 참조하면, 단말기(100)의 프로세서(180)는 통신부(110)를 통해 복수의 제1 오디오 기기들(200_1)과 연결한다(S401).

단말기(100)와 연결하는 오디오 기기들(200)을 제1 오디오 기기(200_1)라 칭한다는 점에서, 상술한 단계(S401)은 단말기(100)의 프로세서(180)가 통신부(110)를 통해 복수의 오디오 기기들(200)과 연결하는 것과 동일하게 취급할 수 있다.

단말기(100)와 제1 오디오 기기들(200_1)은 서로 페어링(pairing)함으로써 연결될 수 있다. 이를 위하여, 제1 오디오 기기들(200_1)은 페어링 요청 신호(또는 연결 요청 신호)를 송신하고, 단말기(100)는 페어링 요청 신호를 송신하는 기기들을 스캔함으로써 페어링 요청 신호를 송신하는 제1 오디오 기기들(200_1)과 연결을 수립할 수 있다.

그리고, 단말기(100)의 프로세서(180)는 통신부(110) 또는 카메라(121)를 통해 복수의 제1 오디오 기기들(200_1)에 대한 기기 정보를 획득한다(S403).

프로세서(180)는 통신부(110)를 통해 제1 오디오 기기(200_1)로부터 제1 오디오 기기(200_1)에 대한 기기 정보를 수신할 수 있다. 구체적으로, 단말기(100)는 이미 연결된 제1 오디오 기기(200_1)로부터 또는 연결을 수립하기 위하여 연결 요청 신호를 송신하는 제1 오디오 기기(200_1)로부터 기기 정보를 수신할 수 있다.

또는, 프로세서(180)는 카메라(121)를 통해 제1 오디오 기기(200_1)를 포함하는 제1 이미지 데이터를 획득하고, 제1 이미지 데이터에 포함된 제1 오디오 기기(200_1)를 특정하고, 특정한 제1 오디오 기기(200_1)에 대한 기기 정보를 획득할 수 있다. 이를 위해, 프로세서(180)는 사물 인식 모델을 이용하여 제1 이미지 데이터에서 제1 오디오 기기(200_1)를 특정할 수 있고, 인터넷 또는 외부 서버(미도시)를 통해 식별한 제1 오디오 기기(200_1)에 대한 기기 정보를 수신할 수 있다.

기기 정보는 기기명, 기기 모델명, 기기 시리얼 넘버, 오디오 채널 정보, 음향 레벨 정보, 이퀄라이저 정보 등을 포함할 수 있다. 오디오 채널 정보는 오디오 기기(200)에서 출력 가능한 오디오 채널 수 및 오디오 채널의 구성 정보를 의미할 수 있다. 프로세서(180)는 복수의 오디오 기기(200)를 이용하여 다채널 오디오를 출력하기 위하여, 필수적으로 제1 오디오 기기(200_1)에 대한 오디오 채널 정보를 획득할 수 있다.

비록 도 4에서는 제1 오디오 기기들(200_1)과 연결하는 단계(S401)가 수행된 이후에 제1 오디오 기기들(200_1)에 대한 기기 정보를 획득하는 단계(S403)가 수행되는 것으로 도시되어 있으나, 본 개시가 이에 한정되지 않는다. 즉, 실시 예에 따라 단말기(100)와 제1 오디오 기기들(200_1)과 연결하는 단계(S401)와 제1 오디오 기기들(200_1)에 대한 기기 정보를 획득하는 단계(S403)가 동시에 수행될 수도 있으며, 역순으로 수행될 수도 있다.

그리고, 단말기(100)의 프로세서(180)는 기기 정보를 고려하여 복수의 제1 오디오 기기들(200_1) 중에서 적어도 둘 이상의 제2 오디오 기기들(200_2)을 포함하는 다채널 오디오 시스템을 구성한다(S405).

프로세서(180)는 연결된 복수의 제1 오디오 기기들(200_1)에 대한 기기 정보를 고려하여 각 제1 오디오 기기들(200_1)의 오디오 채널을 파악하고, 이에 기초하여 복수의 제1 오디오 기기들(200_1) 중에서 적어도 둘 이상의 제2 오디오 기기들(200_2)을 포함하는 다채널 오디오 시스템을 구성할 수 있다.

프로세서(180)는 다채널 오디오 시스템을 구성하면서 오디오 시스템 정보를 생성할 수 있고, 오디오 시스템 정보는 다채널 오디오 시스템의 오디오 채널 정보, 각 제2 오디오 기기들(200_2)에 대한 오디오 채널 할당 정보, 음량 레벨 정보, 배치 위치 정보 등을 포함할 수 있다.

나아가, 프로세서(180)는 출력부(150)를 통해 구성된 다채널 오디오 시스템에 대한 오디오 시스템 정보를 출력할 수 있다.

프로세서(180)는 오디오 시스템 정보에 기초하여 다채널 오디오 시스템을 구성하는 제2 오디오 기기들(200_2), 각 제2 오디오 기기들(200_2)에 대한 오디오 채널 할당 정보, 각 제2 오디오 기기들(200_2)에 대한 음량 레벨 정보 또는 각 제2 오디오 기기들(200_2)에 대한 배치 위치 정보를 출력할 수 있다.

프로세서(180)는 출력부(150)를 통해 각 제2 오디오 기기들(200_2)에 대한 배치 위치 정보를 출력함으로써 사용자로 하여금 제2 오디오 기기들(200_2)이 구성된 다채널 오디오 시스템에 적합한 위치에 배치하도록 안내할 수 있다.

나아가, 프로세서(180)는 출력부(150)를 통해 사용자에게 다채널 오디오 시스템을 구성할 것인지 여부를 질의할 수 있고, 사용자의 입력에 기초하여 다채널 오디오 시스템을 구성하거나 구성하지 않을 수 있다.

그리고, 단말기(100)의 프로세서(180)는 다채널 오디오 시스템을 통해 오디오 데이터를 출력한다(S407).

프로세서(180)는 다채널 오디오 시스템을 구성하는 제2 오디오 기기들(200_2)를 통해 메모리(170)에 저장된 오디오 데이터 또는 컨텐츠 제공자(300)로부터 수신한 오디오 데이터를 출력할 수 있다.

프로세서(180)는, 도 8에 도시된 것과 같이, 다채널 오디오 시스템의 오디오 채널 정보에 기초하여 오디오 데이터를 업믹싱하고, 다채널 오디오 시스템을 통해 업믹싱된 오디오 데이터를 출력할 수 있다. 또한, 프로세서(180)는, 도 10에 도시된 것과 같이, 오디오 데이터의 오디오 특성을 고려하여 음향 효과를 결정하고, 다채널 오디오 시스템을 통해 음향 효과를 적용한 업믹싱된 오디오 데이터를 출력할 수 있다. 또한, 프로세서(180)는 오디오 데이터를 업믹싱하고 음향 효과를 적용하여 다채널 오디오 시스템을 통해 출력할 수도 있다. 오디오 데이터의 업믹싱과 음향 효과의 적용이 모두 이루어질 경우, 어느 것이 먼저 수행되더라도 상관 없다.

도 4에 도시된 단계들(steps)의 순서는 하나의 예시에 불과하며, 본 개시가 이에 한정되지는 않는다. 즉, 도 4에 도시된 단계들 중 일부 단계의 순서가 서로 바뀌어 수행될 수도 있다. 또한, 도 4에 도시된 단계들 중 일부 단계는 병렬적으로 수행될 수도 있다. 또한, 도 4에 도시된 단계들 중 일부만 수행될 수도 있다.

도 5를 참조하면, 단말기(510)는 카메라를 통해 오디오 기기(520)를 포함하는 이미지 데이터 (또는 제1 이미지 데이터, 531)를 획득할 수 있고, 획득한 이미지 데이터에 포함된 오디오 기기(520)를 식별함으로써 오디오 기기(520)를 특정할 수 있고, 특정된 오디오 기기(520)에 대한 기기 정보(532)를 획득할 수 있다.

단말기(510)는 직접 이미지 데이터로부터 오디오 기기(520)를 식별 및 특정할 수도 있지만, 별도의 외부 서버(미도시)에 이미지 데이터를 전송하고 해당 외부 서버(미도시)로부터 이미지 데이터에 포함된 오디오 기기(520)의 식별 정보를 획득할 수도 있다.

나아가, 단말기(510)는 디스플레이부를 통해 오디오 기기(520)의 기기 정보(532)를 출력할 수 있다.

도 5에 도시된 예시에서는 단말기(510)가 복수의 디스플레이부가 포함하나, 본 개시가 이에 한정되지 않는다. 즉, 단말기(510)는 하나의 디스플레이부를 포함할 수도 있고, 복수의 디스플레이부를 포함할 수도 있다.

도 6은 도 4에 도시된 다채널 오디오 시스템을 구성하는 단계(S405)의 일 예를 나타낸 흐름도이다.

도 6을 참조하면, 단말기(100)의 프로세서(180)는 카메라(121)를 통해 다채널 오디오 시스템의 청취 공간에 대한 제2 이미지 데이터를 획득한다(S601).

다채널 오디오 시스템의 청취 공간은 다채널 오디오 시스템을 구성하는 복수의 제2 오디오 기기들(200_2)이 배치될 공간이면서 동시에 복수의 오디오 기기들(200_2)을 통해 출력되는 오디오를 청취하는 공간을 의미할 수 있다.

그리고, 단말기(100)의 프로세서(180)는 입력부(120)를 통해 제2 이미지 데이터에 대한 청취 위치 정보를 획득한다(S603).

프로세서(180)는 디스플레이부(151)를 통해 제2 이미지 데이터를 출력할 수 있고, 사용자 입력부(123)를 통해 제2 이미지 데이터에 대한 청취 위치 정보를 획득할 수 있다. 만약, 디스플레이부(151)가 터치 입력이 가능한 터치 스크린인경우, 프로세서(180)는 디스플레이부(151)를 통해 제2 이미지 데이터에 대한 청취 위치 정보를 획득할 수도 있다.

그리고, 단말기(100)의 프로세서(180)는 제1 오디오 기기들(200_1)에 대한 기기 정보와 청취 위치 정보에 기초하여 오디오 시스템 정보를 결정한다(S605).

프로세서(180)는 제1 오디오 기기들(200_1) 각각의 오디오 채널 정보에 기초하여 다채널 오디오 시스템을 구성할 제2 오디오 기기들(200_2)를 결정하고, 각 제2 오디오 기기들(200_2)에 대한 오디오 채널 할당 정보와 음량 레벨 정보를 결정할 수 있다. 또한, 프로세서(180)는 제2 오디오 기기들(200_2)에 대한 오디오 채널 할당 정보와 음량 레벨 정보 그리고 청취 위치 정보에 기초하여 제2 오디오 기기들(200_2)에 대한 배치 위치 정보를 결정할 수 있다.

그리고, 단말기(100)의 프로세서(180)는 디스플레이부(151)를 통해 오디오 시스템 정보를 출력한다(S607).

프로세서(180)는 디스플레이부(151)를 통해 다채널 오디오 시스템을 구성하는 제2 오디오 기기들(200_2)에 대한 목록, 제2 오디오 기기들(200_2) 각각에 할당된 오디오 채널 정보, 제2 오디오 기기들(200_2) 각각의 배치 위치 등을 표시할 수 있다. 특히, 프로세서(180)는 제2 이미지 데이터상에 제2 오디오 기기들(200_2) 각각의 배치 위치를 표시할 수 있다.

도 7을 참조하면, 단말기(710)는 카메라를 통해 다채널 오디오 시스템의 청취 공간(720)에 대한 이미지 데이터 (또는 제2 이미지 데이터, 731)를 획득할 수 있고, 입력부(120)를 통해 획득한 이미지 데이터(731)에 대한 청취 위치 정보(732)를 획득하고, 오디오 기기들(740_1 내지 740_5)에 대한 기기 정보와 청취 위치 정보(732)에 기초하여 다채널 오디오 시스템을 구성할 수 있다.

청취 공간(720)에 대한 이미지 데이터(731)는 증강 현실(AR: Augmented Reality)을 제공하기 위하여 촬영하는 이미지 데이터를 의미할 수 있다.

단말기(710)의 디스플레이부는 터치 스크린일 수 있고, 단말기(710)는 디스플레이부에 제2 이미지 데이터(731)를 출력하며, 사용자(미도시)는 디스플레이부에 출력된 제2 이미지 데이터(731)에서 청취 위치를 터치함으로써 청취 위치 정보(732)를 입력할 수 있다.

상술한 것과 같이, 단말기(710)는 연결된 제1 오디오 기기들 중에서 다채널 오디오 시스템을 구성할 제2 오디오 기기들(740_1 내지 740_5)을 결정하고, 각 제2 오디오 기기들(740_1 내지 740_5)에 대한 오디오 채널 할당 정보, 각 제2 오디오 기기들(740_1 내지 740_5)에 대한 볼륨 레벨 정보, 각 제2 오디오 기기들(740_1 내지 740_5)에 대한 배치 위치 정보를 포함하는 오디오 시스템 정보를 결정함으로써 다채널 오디오 시스템을 구성할 수 있다.

단말기(710)는 디스플레이부를 통해 다채널 오디오 시스템을 구성하는 제2 오디오 기기들(740_1 내지 740_5)의 목록(733)을 출력할 수 있다.

단말기(710)는 디스플레이부를 통해 제2 이미지 데이터(731) 및 다채널 오디오 시스템을 구성하는 제2 오디오 기기들(740_1 내지 740_5) 각각의 배치 위치를 출력할 수 있다. 이 경우, 단말기(710)는 제2 오디오 기기들(740_1 내지 740_5)에 대한 제1 이미지 데이터(531)를 제2 이미지 데이터(731) 상에서 결정된 배치 위치 정보에 대응하는 위치에 표시할 수 있다.

도 7에 도시된 예시에서는 단말기(710)가 복수의 디스플레이부가 포함하나, 본 개시가 이에 한정되지 않는다. 즉, 단말기(710)는 하나의 디스플레이부를 포함할 수도 있고, 복수의 디스플레이부를 포함할 수도 있다.

도 8은 도 4에 개시된 다채널 오디오 시스템을 통해 오디오 데이터를 출력하는 단계(S407)의 일 예를 나타낸 흐름도이다.

도 8을 참조하면, 단말기(100)의 프로세서(180)는 오디오 데이터의 채널 수가 다채널 오디오 시스템의 채널 수보다 작은지 판단한다(S801).

프로세서(180)는 오디오 시스템 정보의 오디오 채널 정보를 통해 다채널 오디오 시스템의 채널 수를 확인할 수 있다. 예컨대, 프로세서(180)가 6개의 제2 오디오 기기들(200_2)을 하나의 다채널 오디오 시스템으로 구성한 경우, 오디오 시스템 정보의 오디오 채널 정보는 5.1채널일 수 있다.

단계(S801)의 판단 결과 오디오 데이터의 채널 수가 다채널 오디오 시스템의 채널 수보다 작은 경우, 단말기(100)의 프로세서(180)는 오디오 데이터를 업믹싱(up-mixing)하고(S803), 다채널 오디오 시스템을 통해 업믹싱된 오디오 데이터를 출력한다(S805).

프로세서(180)는 직접 오디오 데이터를 다채널 오디오 시스템의 오디오 채널 수에 대응하여 업믹싱할 수도 있고, 업믹싱 서버(300)를 통해 오디오 데이터를 업믹싱할 수도 있다. 프로세서(180)는 통신부(110)를 통해 오디오 데이터와 다채널 오디오 시스템의 오디오 채널 정보를 업믹싱 서버(300)에 전송할 수 있고, 업믹싱 서버(300)는 수신한 오디오 데이터와 다채널 오디오 시스템의 오디오 채널 정보에 기초하여 오디오 데이터를 업믹싱할 수 있고, 프로세서(180)는 통신부(110)를 통해 업믹싱 서버(300)로부터 업믹싱된 오디오 데이터를 수신할 수 있다.

단계(S801)의 판단 결과 오디오 데이터의 채널 수가 다채널 오디오 시스템의 채널 수보다 작지 않은 경우, 단말기(100)의 프로세서(180)는 다채널 오디오 시스템을 통해 업믹싱하지 않은 오디오 데이터를 출력한다(S807).

도 8에서는 오디오 데이터의 채널 수가 다채널 오디오 시스템의 채널 수보다 적은 경우에 단말기(100)가 오디오 데이터를 업믹싱하는 예시를 도시하였으나, 본 개시가 이에 한정되지 않는다. 다른 일 실시 예에서는, 오디오 데이터의 채널 수가 다채널 오디오 시스템의 채널 수보다 적은 경우에도 단말기(100)가 오디오 데이터를 업믹싱하지 않고 다채널 오디오 시스템을 통해 오디오 데이터를 출력할 수 있다.

도 9를 참조하면, 단말기(910)는 다채널 오디오 시스템을 구성한 이후에 다채널 오디오 시스템을 구성하는 오디오 기기들(930_1 내지 930_5)의 수와 다채널 오디오 시스템에 대응하는 업믹싱 정보를 출력(921)할 수 있다.

또한, 단말기(910)는 다채널 오디오 시스템을 구성할 때나 다채널 오디오 시스템을 통해 오디오 데이터를 출력할 때, 오디오 데이터를 다채널 오디오 시스템에 대응하여 업믹싱할 것인지 여부를 묻는 알림을 출력(922)할 수 있다.

도 10은 도 4에 개시된 다채널 오디오 시스템을 통해 오디오 데이터를 출력하는 단계(S407)의 일 예를 나타낸 흐름도이다.

도 10을 참조하면, 단말기(100)의 프로세서(180)는 오디오 데이터를 출력할 때에 음향 효과를 적용할 것인지 판단한다(S1001).

프로세서(180)는 입력부(120)을 통한 사용자의 입력 또는 미리 정해진 설정 값에 기초하여 오디오 데이터의 출력시 음향 효과를 적용할 것인지 판단할 수 있다. 음향 효과는 이퀄라이저 또는 입체 음향 중에서 적어도 하나 이상을 포함할 수 있다.

단계(S1001)의 판단 결과 음향 효과를 적용하는 경우, 단말기(100)의 프로세서(180)는 오디오 데이터의 오디오 특성에 기초하여 음향 효과를 결정하고(S1003), 다채널 오디오 시스템을 통해 음향 효과를 적용한 오디오 데이터를 출력한다(S1005).

프로세서(180)는 오디오 데이터에 포함된 음파의 주파수별 분포, 음성, 배경음 등을 고려하여 오디오 데이터의 오디오 특성을 분석하고, 분석된 오디오 데이터의 오디오 특성에 기초하여 음향 효과를 결정할 수 있다.

프로세서(180)는 오디오 데이터의 오디오 특성에 기초하여 오디오 데이터의 컨텐츠를 결정하고, 결정한 컨텐츠에 대응하여 미리 설정된 음향 효과를 선택함으로써 오디오 데이터에 적용할 음향 효과를 결정할 수 있다.

프로세서(180)는 오디오 데이터의 컨텐츠에 기초하여 음향 효과에 대한 모드 플래그(mode flag)를 결정하고, 결정된 모드 플래그에 따라 음향 효과를 적용할 수 있다. 하기 [표 1]은 음향 효과에 대한 모드 플래그의 예시를 나타낸다.

모드 플래그	음향 효과	컨텐츠
0	Center Boosting	뉴스, 스포츠
1	Widening	음악
2	Widening Surround	영화
3	Default	예능

상기 [표 1]을 참조하면, 목소리 성분이 대부분인 뉴스나 스포츠에 대응하는 오디오 데이터는 "Center Boosting" 입체 음향 효과를 적용하고, 2채널이고 배경음이 많은 음악에 대응하는 오디오 데이터는 "Widening" 입체 음향 효과를 적용하고, 영화에 대응하는 오디오 데이터는 "Widening Surround" 입체 음향 효과를 적용하며, 장면 변화가 빈번하여 입체 음향 효과를 주기 힘든 예능에 대응하는 오디오 데이터는 입체 음향 효과를 주지 않을 수 있다.프로세서(180)는 인공 신경망으로 구성된 오디오 분석 모델을 이용하여 오디오 데이터의 오디오 특성을 분석할 수 있다. 예컨대, 오디오 분석 모델은 오디오 데이터가 입력되면 오디오 데이터에 포함된 컨텐츠 또는 장르를 판단하여 출력하는 모델일 수도 있고, 또는 오디오 데이터가 입력되면 오디오 데이터에 적용할 음향 효과 또는 모드 플래그를 판단하여 출력하는 모델일 수도 있다.

프로세서(180)는 직접 오디오 데이터의 오디오 데이터를 분석하여 음향 효과를 결정할 수도 있고, 외부 서버(예컨대, 업믹싱 서버(300) 등)를 통해 오디오 데이터의 오디오 데이터를 분석하여 음향 효과를 결정할 수도 있다. 프로세서(180)는 통신부(110)를 통해 오디오 데이터를 외부 서버에 전송할 수 있고, 외부 서버는 수신한 오디오 데이터의 오디오 특성을 분석하여 음향 효과를 결정할 수 있고, 프로세서(180)는 통신부(110)를 통해 외부 서버로부터 결정된 음향 효과 정보를 수신할 수 있다.

프로세서(180)는 제2 오디오 기기(200_2)에 오디오 데이터와 함께 결정된 음향 효과에 대한 정보(예컨대, 모드 플래그)를 전송함으로써, 오디오 데이터에 음향 효과를 적용하여 출력할 수 있다. 또는, 프로세서(180)는 오디오 데이터에 대하여 음향 효과를 적용한 이후에 제2 오디오 기기(200_2)에 음향 효과가 적용된 오디오 데이터를 전송함으로써, 오디오 데이터에 음향 효과를 적용하여 출력할 수 있다.

단계(S1001)의 판단 결과 음향 효과를 적용하지 않는 경우, 단말기(100)의 프로세서(180)는 다채널 오디오 시스템을 통해 음향 효과를 적용하지 않은 오디오 데이터를 출력한다(S1007).

도 11 및 12는 본 개시의 실시 예들에 따른 다채널 오디오 출력 시스템(1100, 1200)을 나타낸 도면이다.

도 11 및 12를 참조하면, 본 개시의 실시 예들에 따른 다채널 오디오 출력 시스템(1100, 1200)은 단말기(1110), 복수의 오디오 기기들(1120_1 내지 1120_4), 디스플레이 장치(1130, 1230) 및 마이크로폰(1140) 등을 포함할 수 있다. 도 11에서는 디스플레이 장치(1130)가 디스플레이 패널을 포함하는 TV나 모니터와 같은 장치이며, 도 12에서는 디스플레이 장치(1230)가 광원을 통해 이미지에 대응하는 빛을 벽이나 스크린(1235)에 투사하는 프로젝터일 수 있다.

단말기(1110)는 복수의 오디오 기기들(1120_1 내지 1120_4)과 연결하고, 연결된 복수의 오디오 기기들(1120_1 내지 1120_4)로 다채널 오디오 시스템을 구성하며, 다채널 오디오 시스템을 구성하는 복수의 오디오 기기들(1120_1 내지 1120_4)를 통해 오디오 데이터를 출력할 수 있다. 그리고, 단말기(1110)는 디스플레이부를 통해 다채널 오디오 시스템에 대한 정보, 다채널 오디오 시스템에 대응하는 업믹싱 가능 여부 및 업믹싱 수행 여부를 묻는 알림을 출력(1111)할 수 있다.

단말기(1110)는 디스플레이 장치(1130, 1230)과 연결하고, 연결된 디스플레이 장치(1130)를 통해 이미지 데이터를 출력할 수 있다. 또한, 단말기(1110)는 마이크로폰(1140)과 연결하고, 연결된 마이크로폰(1140)을 통해 오디오 데이터를 입력받을 수 있다.

단말기(1110)는 복수의 오디오 기기들(1120_1 내지 1120_4)로 다채널 오디오 시스템을 구성하고, 연결된 디스플레이 장치(1130, 1230)에 다채널 오디오 시스템의 오디오 시스템 정보를 전달할 수 있다. 또한, 단말기(1110)는 복수의 오디오 기기들(1120_1 내지 1120_4) 각각에 할당된 오디오 채널을 고려하여 각 오디오 기기들(1120_1 내지 1120_4)의 배치 위치 정보를 결정하고, 디스플레이부를 통해 결정된 배치 위치 정보를 출력할 수 있다. 이에 따라, 디스플레이 장치(1130, 1230)는 단말기(1110)와의 연결이 끊긴 이후라도 다채널 오디오 시스템을 구성하는 복수의 오디오 기기들(1120_1 내지 1120_4)를 통해 다채널 오디오를 출력할 수 있다.

일 실시 예에서, 다채널 오디오 출력 시스템(1100, 1200)은 홈 노래방 서비스를 제공할 수 있다. 이를 위해, 단말기(1110)는 노래방(가라오케) 어플리케이션을 실행하고, 디스플레이 장치(1130, 1230)를 통해 노래방 어플리케이션 화면을 표시하며, 복수의 오디오 기기들(1120_1 내지 1120_4)를 통해 노래방 어플리케이션의 소리를 출력하며, 마이크로폰(1140)을 통해 사용자의 음성을 수신할 수 있다.

일 실시 예에서, 다채널 오디오 출력 시스템(1100, 1200)은 홈 씨네마 서비스를 제공할 수 있다. 이를 위해, 단말기(1110)는 디스플레이 장치(1130, 1230)를 통해 비디오 컨텐츠의 이미지를 표시하며, 복수의 오디오 기기들(1120_1 내지 1120_4)를 통해 비디오 컨텐츠의 오디오를 출력할 수 있다.

비록 도 11과 12에는 도시되지 않았으나, 단말기(1110)는 별도의 컨텐츠 제공자(400)로부터 오디오 데이터를 포함하는 컨텐츠를 수신할 수 있다. 또한, 단말기(1110)는 별도의 업믹싱 서버(300)를 통해 오디오 데이터를 업믹싱할 수 있다.

본 개시의 일 실시 예에 따르면, 전술한 방법은 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다.

Claims

복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 단말기에 있어서,

카메라;

복수의 제1 오디오 기기들과 연결하는 통신부; 및

상기 통신부 또는 상기 카메라를 통해 상기 복수의 제1 오디오 기기들에 대한 기기 정보를 획득하고, 상기 기기 정보를 고려하여 상기 복수의 제1 오디오 기기들 중에서 적어도 둘 이상의 제2 오디오 기기들을 포함하는 다채널 오디오 시스템을 구성하고, 상기 다채널 오디오 시스템에 대응하는 오디오 시스템 정보에 기초하여 상기 제2 오디오 기기들을 통해 오디오 데이터를 출력하는 프로세서를 포함하는, 단말기.
청구항 1에 있어서,

상기 기기 정보는

상기 복수의 제1 오디오 기기들 각각에 대한 오디오 채널 정보 및 음량 레벨 정보를 포함하는, 단말기.
청구항 2에 있어서,

상기 프로세서는

상기 카메라를 통해 상기 제1 오디오 기기를 포함하는 제1 이미지 데이터를 획득하고, 상기 제1 이미지 데이터에 포함된 상기 제1 오디오 기기를 특정하고, 상기 특정된 제1 오디오 기기에 대응하는 기기 정보를 획득하는, 단말기.
청구항 2에 있어서,

상기 오디오 시스템 정보는

상기 다채널 오디오 시스템의 오디오 채널 정보, 상기 제2 오디오 기기들에 대한 오디오 채널 할당 정보, 음량 레벨 정보 및 배치 위치 정보를 포함하는, 단말기.
청구항 4에 있어서,

상기 프로세서는

상기 카메라를 통해 상기 다채널 오디오 시스템의 청취 공간에 대한 제2 이미지 데이터를 획득하고, 상기 제2 이미지 데이터에 기초하여 상기 배치 위치 정보를 결정하는, 단말기.
청구항 5에 있어서,

입력부를 더 포함하고,

상기 프로세서는

상기 입력부를 통해 사용자로부터 상기 제2 이미지 데이터에서의 청취 위치 정보를 획득하고, 상기 청취 위치 정보에 기초하여 상기 배치 위치 정보를 결정하는, 단말기.
청구항 6에 있어서,

디스플레이부를 더 포함하고,

상기 프로세서는

상기 디스플레이부를 통해 상기 제2 오디오 기기들에 대한 상기 배치 위치 정보를 출력하는, 단말기.
청구항 4에 있어서,

상기 프로세서는

상기 오디오 데이터의 채널 수가 상기 오디오 채널 정보의 채널 수보다 적은 경우에 상기 오디오 데이터를 업믹싱하고, 상기 제2 오디오 기기들을 통해 상기 업믹싱된 오디오 데이터를 출력하는, 단말기.
청구항 8에 있어서,

상기 통신부는

업믹싱 서버로부터 상기 오디오 데이터에 대응하는 상기 업믹싱된 오디오 데이터를 수신하는, 단말기.
청구항 2에 있어서,

상기 프로세서는

상기 오디오 데이터의 오디오 특성에 기초하여 음향 효과를 결정하고, 상기 음향 효과를 반영하여 상기 제2 오디오 기기들을 통해 상기 오디오 데이터를 출력하는, 단말기.
청구항 10에 있어서,

상기 음향 효과는

이퀄라이저 또는 입체 음향 중에서 적어도 하나 이상을 포함하는, 단말기.
청구항 10에 있어서,

상기 프로세서는

인공 신경망으로 구성된 오디오 분석 모델을 이용하여 상기 오디오 데이터에 상응하는 상기 오디오 특성을 분석하는, 단말기.
복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 방법에 있어서,

통신부를 통해 복수의 제1 오디오 기기들과 연결하는 단계;

상기 통신부 또는 카메라를 통해 상기 복수의 제1 오디오 기기들에 대한 기기 정보를 획득하는 단계;

상기 기기 정보를 고려하여 상기 복수의 제1 오디오 기기들 중에서 적어도 둘 이상의 제2 오디오 기기들을 포함하는 다채널 오디오 시스템을 구성하는 단계; 및

상기 다채널 오디오 시스템에 대응하는 오디오 시스템 정보에 기초하여 상기 제2 오디오 기기들을 통해 오디오 데이터를 출력하는 단계를 포함하는, 방법.
복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 방법을 기록한 기록 매체에 있어서, 상기 방법은

통신부를 통해 복수의 제1 오디오 기기들과 연결하는 단계;

상기 통신부 또는 카메라를 통해 상기 복수의 제1 오디오 기기들에 대한 기기 정보를 획득하는 단계;

상기 기기 정보를 고려하여 상기 복수의 제1 오디오 기기들 중에서 적어도 둘 이상의 제2 오디오 기기들을 포함하는 다채널 오디오 시스템을 구성하는 단계; 및

상기 다채널 오디오 시스템에 대응하는 오디오 시스템 정보에 기초하여 상기 제2 오디오 기기들을 통해 오디오 데이터를 출력하는 단계를 포함하는, 기록 매체.