KR20190079922A

KR20190079922A - 음향 출력 시스템 및 음성 처리 방법

Info

Publication number: KR20190079922A
Application number: KR1020170182019A
Authority: KR
Inventors: 정갑균; 이득훈
Original assignee: 삼성전자주식회사
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2019-07-08
Also published as: WO2019132553A1; US20190206403A1; KR102446637B1; US10803868B2

Abstract

음향 출력 시스템은 사용자 조작을 입력 받는 수신 장치; 및 수신 장치로부터 수신된 사용자 조작에 따른 동작을 수행하는 음향 장치를 포함한다. 음향 장치는, 음향 출력부; 수신 장치와 통신하는 제1 통신부; 및 제1 통신부를 통하여 수신 장치로부터 수신된 명령에 따라 동작을 수행하도록 음향 장치를 제어하는 제어부를 포함한다. 또한, 수신 장치는 음향 장치에 탈부착이 가능하며, 수신 장치의 서로 다른 부착 위치에 따라 동일한 사용자 조작에 응답하여 서로 다른 명령을 음향 장치로 전송한다.

Description

음향 출력 시스템 및 음성 처리 방법 {SOUND OUTPUT SYSTEM AND SPEECH PROCESSING METHOD}

개시된 발명은 음향 출력 시스템 및 음성 인식 방법에 관한 것으로, 더욱 상세하게는 인공 지능(Artificial Intelligence)을 이용한 음향 출력 시스템에 관한 발명이다.

인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서 기계가 스스로 학습하고 판단하며, 사용할수록 인식률이 향상되는 시스템이다.

인공지능 기술은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘을 이용하는 기계학습(딥러닝) 기술 및 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성된다.

요소 기술들은, 예로, 인간의 언어/문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론/예측 기술, 인간의 경험 정보를 지식데이터로 처리하는 지식 표현 기술 및 차량의 자율 주행, 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 하나를 포함할 수 있다.

음성 인식 시스템은 사용자 발화 음성을 인식하고, 그 인식된 발화 음성에 기초하여 사용자의 의도에 맞는 정보를 제공하거나 서비스를 제공하는 시스템이다.

최근까지, 인공 지능 시스템과 음성 인식 시스템은 별도로 개발되어 왔다. 특히, 인공 지능 시스템과 음성 인식 시스템은 제품 단위로 개별적으로 제공됨으로써 성능에 한계가 있었다.

자연어를 처리할 수 있는 음성 인식 알고리즘 및 자연어에 응답할 수 있는 인공 지능 알고리즘은 프로세서가 처리해야 하는 데이터 처리 용량이 매우 크다. 그로 인하여, 자연어를 처리하기 위한 음성 인식 알고리즘 및 자연어에 응답할 수 있는 인공 지능 알고리즘을 탑재하기 위하여 고성능의 프로세서가 요구되며, 그로 인하여 장치의 가격이 상승하였다. 그로 인하여, 종래 많은 음성 인식 시스템 및 인공 지능 시스템들이 사용자의 간단한 명령을 처리하거나 사용자의 간단한 질문에 응답하는 수준에 머물러 있었다.

개시된 발명의 일 측면은 음성 인식을 수행하는 음향 장치와 별도로 마련된 수신 장치를 포함하는 음향 출력 시스템을 제공하고자 한다.

개시된 발명의 일 측면은 고성능 프로세서를 구비한 사용자 장치 또는 대화 서비스 서버를 이용하여 음성 인식을 수행할 수 있는 음향 출력 시스템을 제공하고자 한다.

개시된 발명의 일 측면은 사용자 발화 음성에 따라 복수의 동작을 수행할 수 있는 음향 출력 시스템을 제공하고자 한다.

개시된 발명의 일 측면은 사용자 발화 음성에 따라 복수의 전자 장치를 제어할 수 있는 음향 출력 시스템을 제공하고자 한다.

개시된 발명의 일 측면은 사용자 발화 음성을 수신하는 수신 장치의 위치에 따라 다른 전자 장치를 제어할 수 있는 음향 출력 시스템을 제공하고자 한다.

개시된 발병의 일 측면에 의한 음향 출력 시스템은 사용자 조작을 입력 받는 수신 장치; 및 상기 수신 장치로부터 수신된 사용자 조작에 따른 동작을 수행하는 음향 장치를 포함한다. 상기 음향 장치는, 음향 출력부; 상기 수신 장치와 통신하는 제1 통신부; 및 상기 제1 통신부를 통하여 상기 수신 장치로부터 수신된 명령에 따라 동작을 수행하도록 상기 음향 장치를 제어하는 제어부를 포함한다. 또한, 상기 수신 장치는 상기 음향 장치에 탈부착이 가능하며, 상기 수신 장치의 서로 다른 부착 위치에 따라 동일한 사용자 조작에 응답하여 서로 다른 명령을 상기 음향 장치로 전송한다.

상기 사용자 조작은 음성 명령을 포함할 수 있다. 상기 수신 장치는 상기 음성 명령을 상기 음향 장치로 전송할 수 있다. 상기 제어부는 상기 수신 장치로부터 수신된 음성 명령을 인식하여, 상기 인식된 음성 명령에 따른 동작을 수행하도록 상기 음향 장치를 제어할 수 있다.

상기 음향 장치는 사용자 장치와 통신하는 제2 통신부를 더 포함할 수 있다. 상기 제어부는 상기 음성 명령을 상기 사용자 장치로 전송하도록 상기 제2 통신부를 제어하고, 상기 제2 통신부를 통하여 상기 사용자 장치로부터 상기 사용자 장치에 의하여 인식된 음성 명령을 수신할 수 있다.

상기 음향 장치는 복수의 전자 장치들과 통신하는 제2 통신부를 더 포함할 수 있다. 상기 제어부는 상기 인식된 음성 명령을 상기 복수의 전자 장치들 중 적어도 하나로 전송하도록 상기 제2 통신부를 제어할 수 있다.

상기 음향 장치는 복수의 전자 장치들과 통신하는 제2 통신부를 더 포함할 수 있다. 상기 제어부는 상기 제1 통신부를 통하여 상기 수신 장치가 부착된 전자 장치에 관한 정보와 상기 음성 명령을 수신하고, 상기 수신 장치가 부착된 전자 장치로 상기 인식된 음성 명령을 상기 제2 통신부를 통하여 전송할 수 있다.

상기 수신 장치가 부착된 전자 장치에 관한 정보는 상기 전자 장치의 전기적 특성 또는 자기적 특성을 포함할 수 있다. 상기 제어부는 상기 전자 장치의 전기적 특성 또는 자기적 특성과 사전에 메모리에 저장된 전기적 특성 또는 자기적 특성을 비교하여 상기 수신 장치가 부착된 전자 장치를 식별할 수 있다.

상기 사용자 조작은 복수의 음성 명령들을 포함할 수 있다. 상기 수신 장치는 상기 복수의 음성 명령들을 상기 음향 장치로 전송할 수 있다. 상기 제어부는 상기 제1 통신부를 통해 수신된 복수의 음성 명령들을 인식하여, 상기 인식된 복수의 음성 명령에 따라 복수의 동작들을 순차적으로 수행하도록 상기 음향 장치를 제어할 수 있다.

상기 사용자 조작은 음성 명령을 포함할 수 있다. 상기 수신 장치는 상기 음성 명령을 사용자 장치로 전송하고, 상기 사용자 장치로부터 상기 사용자 장치에 의하여 인식된 음성 명령을 수신하고, 상기 인식된 음성 명령을 상기 음향 장치로 전송할 수 있다. 상기 제어부는 상기 수신 장치로부터 수신된 음성 명령에 따른 동작을 수행하도록 상기 음향 장치를 제어할 수 있다.

개시된 발병의 일 측면에 의한 음성 처리 방법은 수신 장치에 의하여, 사용자 조작을 수신하고; 음향 장치에 의하여, 상기 수신 장치로부터 수신된 사용자 조작에 따른 명령에 따라 동작을 수행하는 것을 포함한다. 또한, 상기 수신 장치는 상기 음향 장치에 탈부착이 가능하며, 상기 수신 장치의 서로 다른 부착 위치에 따라 동일한 사용자 조작에 응답하여 서로 다른 명령을 음향 장치로 전송한다.

상기 사용자 조작은 음성 명령을 포함할 수 있다. 상기 동작을 수행하는 것은, 상기 음향 장치에 의하여 상기 수신 장치로부터 상기 음성 명령을 수신하고, 상기 수신 장치로부터 수신된 음성 명령을 인식하여 상기 인식된 음성 명령에 따른 동작을 수행하는 것을 포함할 수 있다.

상기 동작을 수행하는 것은, 상기 음향 장치에 의하여, 상기 음성 명령 사용자 장치로 전송하고, 상기 사용자 장치에 의하여 인식된 음성 명령에 따른 동작을 수행하는 것을 포함할 수 있다.

상기 동작을 수행하는 것은, 상기 음향 장치에 의하여, 상기 인식된 음성 명령을 복수의 전자 장치들 중 적어도 하나로 전송하는 것을 포함할 수 있다.

상기 동작을 수행하는 것은, 상기 음향 장치에 의하여, 상기 수신 장치가 부착된 전자 장치에 관한 정보와 상기 음성 명령을 수신하고, 상기 수신 장치가 부착된 전자 장치로 상기 인식된 음성 명령을 상기 수신 장치가 부착된 전자 장치로 전송하는 것을 포함할 수 있다.

상기 수신 장치가 부착된 전자 장치에 관한 정보는 상기 전자 장치의 전기적 특성 또는 자기적 특성을 포함할 수 있다. 상기 음향 장치에 의하여, 상기 전자 장치의 전기적 특성 또는 자기적 특성과 사전에 메모리에 저장된 전기적 특성 또는 자기적 특성을 비교하여 상기 수신 장치가 부착된 전자 장치를 식별하는 것을 더 포함할 수 있다.

상기 사용자 조작은 복수의 음성 명령들을 포함할 수 있다. 상기 동작을 수행하는 것은, 상기 음향 장치에 의하여 상기 수신 장치로부터 상기 복수의 음성 명령들을 수신하고, 상기 수신 장치로부터 수신된 복수의 음성 명령들을 인식하여 상기 인식된 복수의 음성 명령들에 따른 동작을 순차적으로 수행하는 것을 포함할 수 있다.

상기 사용자 조작은 복수의 음성 명령들을 포함할 수 있다. 상기 수신 장치에 의하여, 상기 음성 명령을 사용자 장치로 전송하고, 상기 사용자 장치로부터 상기 사용자 장치에 의하여 인식된 음성 명령을 수신하고, 상기 인식된 음성 명령을 상기 음향 장치로 전송하는 것을 더 포함할 수 있다. 상기 음향 장치에 의하여, 상기 수신 장치로부터 수신된 음성 명령에 따른 동작을 수행하는 것을 더 포함할 수 있다.

개시된 발병의 일 측면에 의한 음향 출력 시스템은 사용자 음성 명령을 수신하는 수신 장치; 및 상기 수신 장치로부터 수신된 사용자 음성 명령에 따라 동작하는 음향 장치를 포함한다. 상기 수신 장치는 상기 사용자 음성 명령을 수신하는 마이크로폰; 상기 음향 장치와 통신하는 통신부; 상기 수신 장치가 부착된 위치에 관한 정보를 수집하는 부착 위치 감지부; 및 상기 수신 장치가 부착된 위치에 관한 정보와 상기 사용자 음성 명령을 상기 음향 장치로 전송하도록 상기 통신부를 제어하는 제어부를 포함할 수 있다.

상기 위치에 관한 정보는 상기 수신 장치가 부착된 위치의 전기적 특성 및 자기적 특성 중에 적어도 하나를 포함할 수 있다.

상기 부착 위치 감지부는 상기 수신 장치가 부착된 위치의 전기적 특성 또는 자기적 특성을 감지할 수 있다. 상기 제어부는 상기 전기적 특성 또는 자기적 특성과 사전에 메모리에 저장된 전기적 특성 또는 자기적 특성을 비교하여 상기 수신 장치가 부착된 위치를 식별할 수 있다.

상기 음향 장치는 상기 수신 장치가 부착된 서로 다른 부착 위치에 따라 동일한 사용자 음성 명령에 응답하여 서로 다른 동작을 수행할 수 있다.

개시된 발명의 일 측면에 따르면, 음성 인식을 수행하는 음향 장치와 별도로 마련된 수신 장치를 포함하는 음향 출력 시스템을 제공할 수 있다.

개시된 발명의 일 측면에 따르면, 고성능 프로세서를 구비한 사용자 장치 또는 대화 서비스 서버를 이용하여 음성 인식을 수행할 수 있는 음향 출력 시스템을 제공할 수 있다.

개시된 발명의 일 측면에 따르면, 사용자 발화 음성에 따라 복수의 동작을 수행할 수 있는 음향 출력 시스템을 제공할 수 있다.

개시된 발명의 일 측면에 따르면, 사용자 발화 음성에 따라 복수의 전자 장치를 제어할 수 있는 음향 출력 시스템을 제공할 수 있다.

개시된 발명의 일 측면에 따르면, 사용자 발화 음성을 수신하는 수신 장치의 위치에 따라 다른 전자 장치를 제어할 수 있는 음향 출력 시스템을 제공할 수 있다.

도 1은 일 실시예에 의한 음향 출력 시스템의 일 예를 도시한다.
도 2는 일 실시예에 의한 수신 장치의 구성을 도시한다.
도 3은 일 실시예에 의한 수신 장치의 사용자 입력부의 일 예를 도시한다.
도 4는 일 실시예에 의한 수신 장치의 사용자 입력부의 다른 일 예를 도시한다.
도 5는 일 실시예에 의한 수신 장치의 부착 감지부의 일 예를 도시한다.
도 6은 일 실시예에 의한 음향 장치의 구성을 도시한다.
도 7은 일 실시예에 의한 음향 장치의 외관을 도시한다.
도 8는 도 1에 도시된 음향 출력 시스템의 음성 인식 동작을 도시한다.
도 9은 일 실시예에 의한 음향 출력 시스템의 다른 일 예를 도시한다.
도 10는 도 9에 도시된 음향 출력 시스템의 음성 인식 동작을 도시한다.
도 11은 도 9에 도시된 음향 출력 시스템이 제어 명령(들)을 처리하는 일 예를 도시한다.
도 12는 도 9에 도시된 음향 출력 시스템의 음성 인식 동작의 다른 일 예를 도시한다.
도 13는 일 실시예에 의한 음향 출력 시스템의 다른 일 예를 도시한다.
도 14은 도 13에 도시된 음향 출력 시스템의 음성 인식 동작을 도시한다.
도 15은 도 13에 도시된 음향 출력 시스템의 음성 인식 동작의 다른 일 예를 도시한다.
도 16는 일 실시예에 의한 음향 출력 시스템의 다른 일 예를 도시한다.
도 17는 도 16에 도시된 음향 출력 시스템의 음성 인식 동작을 도시한다.
도 18은 일 실시예에 의한 음향 출력 시스템의 다른 일 예를 도시한다.
도 19은 도 18에 도시된 음향 출력 시스템의 음성 인식 동작의 일 예를 도시한다.
도 20은 도 18에 도시된 음향 출력 시스템이 제어 명령(들)을 처리하는 일 예를 도시한다.
도 21는 도 18에 도시된 음향 출력 시스템의 음성 인식 동작의 다른 일 예를 도시한다.
도 22은 도 18에 도시된 음향 출력 시스템이 제어 명령(들)을 처리하는 다른 일 예를 도시한다.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 명세서가 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 발명이 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.

또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

명세서 전체에서, 어떤 부재가 다른 부재 "상에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

제 1, 제 2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.

단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.

각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.

이하 첨부된 도면들을 참고하여 본 발명의 작용 원리 및 실시예들에 대해 설명한다.

도 1은 일 실시예에 의한 음향 출력 시스템의 일 예를 도시한다.

도 1를 참조하면, 음향 출력 시스템(speech recognition system) (1)은 사용자 발화 음성을 수신하는 수신 장치(100)와, 사용자 발화 음성을 인식하는 사용자 발화 음성에 따라 음향을 출력하는 음향 장치(200)를 포함할 수 있다.

수신 장치(100)는 사용자 발화 음성을 수신하는 마이크로폰(121)을 포함할 수 있다. 수신 장치(100)는 마이크로폰(121)을 이용하여 사용자 발화 음성(음파)를 수신하고, 발화 음성을 음성 데이터로 변환할 수 있다.

실시 형태에 따라 수신 장치(100)는 음성 데이터에 대하여 음성 인식을 수행할 수 있다. 구체적으로 수신 장치(100)는 음성 인식을 수행하고, 음성 인식 결과를 기초로 제어 명령을 생성할 수 있다.

수신 장치(100)는 사용자가 휴대할 수 있다. 예를 들어, 사용자는 수신 장치(100)를 들고 이동할 수 있다.

수신 장치(100)는 음향 장치(200)에 부착될 수 있다. 예를 들어, 수신 장치(100)는 자석 등의 고정 부재를 이용하여 음향 장치(200)의 상면, 전면, 후면, 좌측면, 우측면 등 다양한 위치에 부착될 수 있다. 또한, 수신 장치(100)는 부착된 위치의 자기적 특성(자성의 여부 등) 및/또는 전기적 특성(예를 들어, 전기적 저항 등)에 따라 수신 장치(100)가 부착된 음향 장치(200) 상의 위치(예를 들어, 상면, 전면, 후면, 좌측면, 우측면)를 식별할 수 있다.

수신 장치(100)는 음성 인식 결과와 수신 장치(100)가 음향 장치(200) 상의 위치에 따라 다른 제어 명령을 생성할 수 있다. 구체적으로, 사용자로부터 동일한 음성이 수신되더라도 수신 장치(100)가 부착된 위치가 달라지면 수신 장치(100)는 다른 제어 명령을 생성하고 다른 제어 명령을 음향 장치(200)로 전송할 수 있다.

또한, 수신 장치(100)는 다른 전자 장치에 부착될 수 있다. 예를 들어, 수신 장치(100)는 자석 등의 고정 부재를 이용하여 텔레비전, 냉장고, 세탁기, 전자레인지 등 다양한 전자 장치에 부착될 수 있다. 또한, 수신 장치(100)는 부착된 전자 장치의 자기적 특성(자성의 여부 등) 및/또는 전기적 특성(예를 들어, 전기적 저항 등)에 따라 전자 장치를 식별할 수 있다.

수신 장치(100)는 음성 인식 결과와 수신 장치(100)가 부착된 전자 장치에 따라 다른 제어 명령을 생성할 수 있다. 구체적으로, 사용자로부터 동일한 음성이 수신되더라도 수신 장치(100)가 부착된 전자 장치가 달라지면 수신 장치(100)는 다른 제어 명령을 생성하고, 다른 제어 명령을 전자 장치로 전송할 수 있다.

또한, 수신 장치(100)는 부착된 부분의 자기적 및/또는 전기적 특성에 따라 부착된 전자장치의 종류를 판단하고, 음성 인식 결과와 수신 장치(100)가 부착된 위치 및 전자장치의 종류에 따라 다른 제어 명령을 생성할 수 있다.

수신 장치(100)는 음향 장치(200)와 유선 또는 무선으로 데이터를 주고 받을 수 있다. 수신 장치(100)는 음성 데이터를 유선 또는 무선으로 음향 장치(200)로 전송할 수 있다.

음향 장치(200)는 음향을 출력하는 스피커(251)를 포함할 수 있다. 음향 장치(200)는 스피커(251)를 통하여 전기 신호를 음향으로 변환할 수 있다.

음향 장치(200)는 수신 장치(100)와 유선으로 또는 무선으로 통신할 수 있으며, 사용자 발화 음성에 대응하는 음성 데이터를 수신 장치(100)로부터 유선 또는 무선으로 수신할 수 있다.

음향 장치(200)는 음성 데이터를 처리하여 사용자 발화 음성의 내용을 인식할 수 있다. 다시 말해, 음향 장치(200)는 수신 장치(100)로부터 수신된 음향 데이터에 대하여 음성 인식을 수행할 수 있다.

음향 장치(200)는 사용자 발화 음성에 응답하여 음향을 출력하거나, 사용자 발화 음성에 응답하여 응답 음성을 출력할 수 있다.

음향 장치(200)는 인식된 사용자 발화 음성의 내용에 따라 다양한 동작을 수행할 수 있다. 예를 들어, 음향 장치(200)는 사용자의 질문에 답변하거나, 사용자에 의하여 요청된 정보를 음성으로 출력할 수 있다.

음향 장치(200)는 단일 사용자 발화 음성에 포함된 서로 다른 복수의 제어 명령(들)(질문 또는 명령 등)을 인식할 수 있으며, 서로 다른 복수의 제어 명령(들)에 응답하여 서로 다른 복수의 동작을 수행할 수 있다. 예를 들어, 사용자가 "볼륨을 10으로 음악을 재생하라"라는 음성을 발화하면, 음향 장치(200)는 음악을 재생하기 위한 음악 재생 어플리케이션을 실행하여 음악을 재생하고 스피커(251)의 출력 볼륨을 조절하기 위한 제어 어플리케이션을 실행하여 스피커(251)의 출력 볼륨을 조절할 있다.

이하에서는 음향 출력 시스템(1)를 구성하는 수신 장치(100)와 음향 장치(200)가 각각 설명된다.

도 2는 일 실시예에 의한 수신 장치의 구성을 도시한다. 도 3은 일 실시예에 의한 수신 장치의 사용자 입력부의 일 예를 도시한다. 도 4는 일 실시예에 의한 수신 장치의 사용자 입력부의 다른 일 예를 도시한다. 도 5는 일 실시예에 의한 수신 장치의 부착 감지부의 일 예를 도시한다.

도 2, 도 3, 도 4 및 도 5를 참조하면, 수신 장치(100)는 본체(101) 및 고정 부재(102)를 포함할 수 있다.

본체(101)는 수신 장치(100)의 외관을 형성하며, 수신 장치(100)의 구성 부품들이 외부로 노출되는 것을 방지할 수 있다.

본체(101)의 저면에는 수신 장치(100)를 다른 전자 장치에 고정시키는 고정 부재(102)를 포함할 수 있다. 예를 들어, 고정 부재(102)는 자기장을 생성하는 자석을 포함할 수 있다. 수신 장치(100)는 자석에 의하여 다른 전자 장치의 금속 재질 표면에 고정될 수 있다.

수신 장치(100)는 사용자 조작 입력을 수신하는 사용자 입력부(110)와, 사용자 발화 음성을 수신하는 음향 수신부(120)와, 수신 장치(100)가 부착된 위치에 관한 정보를 수집하는 부착 위치 감지부(130)와, 사용자 입력 및 사용자 발화 음성을 처리하는 제어부(140)와, 음향 장치(200)와 통신하는 통신부(150)를 포함할 수 있다.

사용자 입력부(110)는 사용자로부터 사용자 입력을 수신하고, 사용자 입력에 관한 정보를 제어부(140)로 전달할 수 있다. 또한, 제어부(140)는 사용자 입력부(110)를 통한 사용자 입력에 따라 다른 전자 장치를 제어하기 위한 명령을 다른 전자 장치로 전송할 수 있다.

사용자 입력부(110)는 입력 버튼(111) 및/또는 다이얼(112) 및/또는 터치 패드(113)를 포함할 수 있다.

입력 버튼(111)은 사용자로부터 가해지는 힘에 의하여 이동하며, 사전에 할당된 사용자 입력을 수신할 수 있다. 또한, 입력 버튼(111)은 할당된 사용자 입력에 대응하는 전기 신호를 제어부(140)로 출력할 수 있으며, 제어부(140)는 사용자 입력에 따라 동작을 수행할 수 있다.

입력 버튼(111)은 본체(101)의 일측에 마련될 수 있다. 예를 들어, 도 3의 (a)에 도시된 바와 같이 입력 버튼(111)은 본체(101)의 상면에 마련될 수 있다.

사용자 입력부(110)는 다양한 사용자 입력에 할당된 다양한 입력 버튼(111)을 포함할 수 있다. 예를 들어, 사용자 입력부(110)은 도 3의 (a)에 도시된 바와 같이 음향 장치(200)가 음악을 재생하도록 하기 위한 음악 재생 버튼(111a)과, 음성 인식을 활성화하기 위한 음성 인식 개시 버튼(111b) 등을 포함할 수 있다. 다만, 입력 버튼(111)은 도 3의 (a)에 도시된 바에 한정되지 아니하며, 다양한 사용자 입력을 수신하기 위한 다양한 입력 버튼(111)이 마련될 수 있다.

사용자가 입력 버튼(111)을 수직으로 누르면 입력 버튼(111)은 사용자가 누르는 방향으로 이동하며, 사용자 입력부(110)는 입력 버튼(111)에 할당된 사용자 입력을 수신할 수 있다. 예를 들어, 도 3의 (b)에 도시된 바와 같이 사용자가 음성 인식 개시 버튼(111b)을 누르면, 음성 인식 개시 버튼(111b)은 사용자의 조작에 의하여 이동하며 사용자 입력부(110)는 음성 인식 개시 버튼(111b)에 할당된 음성 인식 개시 명령을 수신할 수 있다.

다만, 음성 인식을 개시하는 것은 음성 인식 개시 버튼(111b)에 한정되는 것은 아니다. 예를 들어, 수신 장치(100)는 음향 수신부(121)를 통하여 음성 인식 개시를 위한 음성 인식 개시어(예를 들어, '음향 장치'의 음성)를 수신할 수 있으며, 음성 인식 개시어의 수신에 응답하여 음성 인식을 개시할 수 있다.

다이얼(112)은 사용자로부터 가해지는 힘에 의하여 회전하며, 회전 각도에 따라 사전에 할당된 사용자 입력(제어 명령)을 수신할 수 있다. 또한, 다이얼(112)은 사전에 할당된 사용자 입력에 대응하는 전기 신호를 제어부(140)로 출력할 수 있다.

다이얼(112)은 본체(101)의 일측에 마련될 수 있다. 예를 들어, 도 3의 (a)에 도시된 바와 같이 다이얼(112)는 본체(101)의 측면에 마련될 수 있다.

다이얼(112)은 연속적으로 증가하거나 연속적으로 감소하는 물리량을 사용자로부터 수신되는데 적합할 수 있다. 예를 들어, 다이얼(112)은 음향 장치(200)로부터 출력되는 음향의 출력 볼륨을 조절하기 위하기 위하여 마련될 수 있다.

사용자가 다이얼(112)을 회전시키면 다이얼(112)을 사용자가 회전시키는 방향으로 회전하며 사용자 입력부(110)는 다이얼(112)이 회전한 각도에 따라 할당된 사용자 입력을 수신할 수 있다. 예를 들어, 도 3의 (c)에 도시된 바와 같이 사용자가 볼륨 조절 다이얼(112)을 회전시키면 볼륨 조절 다이얼(112)은 사용자의 조작에 의하여 회전하며, 사용자 입력부(110)는 볼륨 조절 다이얼(112)의 회전 각도에 따른 볼륨 설명 명령을 수신할 수 있다.

터치 패드(113)는 터치에 의한 사용자 입력을 수신할 수 있다. 터치 패드(113)는 사용자에 의한 터치 좌표를 검출하고, 터치 좌표에 관한 정보를 제어부(140)로 출력할 수 있다.

터치 패드(113)는 본체(101)의 일측에 마련될 수 있다. 예를 들어, 도 4의 (a)에 도시된 바와 같이 터치 패드(113)는 본체(101)의 상면에 마련될 수 있다.

터치 패드(113)는 사용자의 터치 위치에 따라 사용자 입력을 수신할 수 있다. 터치 패드(113)는 복수의 영역을 포함할 수 있으며, 각각의 영역에는 서로 다른 사용자 입력이 할당될 수 있다.

예를 들어, 사용자가 터치 패드(113)의 음악 재생 영역(113a)를 터치하면 사용자 입력부(110)는 음향 장치(200)가 음악을 재생하도록 하기 위한 제어 명령을 수신할 수 있다. 또한, 사용자가 터치 패드(113)의 음성 인식 개시 영역(113b)을 터치하면 사용자 입력부(110)는 음성 인식 개시 영역(113b)에 할당된 음성 인식 개시 명령을 수신할 수 있다.

터치 패드(113)는 사용자의 터치 모션에 따라 사용자 입력을 수신할 수 있다. 터치 모션은 사용자가 터치 패드(113)를 터치한 이후 터치 패드(113)에의 터치를 유지한 터치 위치를 이동시키는 것을 나타낼 수 있다.

터치 패드(113)는 다양한 터치 모션을 수신할 수 있으며, 사전에 터치 모션에 따라 서로 다른 사용자 입력이 할당될 수 있다. 예를 들어, 도 4의 (b)에 도시된 바와 같이 사용자가 터치 위치를 회전시키면 사용자 입력부(110)는 터치 위치의 회전 이동에 따른 볼륨 설명 명령을 수신할 수 있다. 사용자가 터치 위치를 시계 방향으로 회전시키면 사용자 입력부(110)는 볼륨 업 명령을 수신하고, 사용자가 터치 위치를 반시계 방향으로 회전시키면 사용자 입력부(110)는 볼륨 다운 명령을 수신할 수 있다.

음향 수신부(120)는 사용자 발화 음성을 수신하고, 발화 음성에 대응하는 전기 신호를 제어부(140)로 출력할 수 있다.

음향 수신부(120)는 음향을 수신하고 전기 신호를 출력하는 마이크로폰(121)을 포함할 수 있다. 마이크로폰(121)은 사용자 발화 음성 등 음향을 수집하고, 음향을 전기 신호로 변환하고, 전기 신호를 제어부(140)로 전달할 수 있다.

마이크로폰(121)은 본체(101)의 일측에 마련될 수 있다. 예를 들어, 도 3의 (a) 또는 도 4의 (a)에 도시된 바와 같이 마이크로폰(121)은 본체(101)의 상면에 마련될 수 있다.

부착 위치 감지부(130)는 수신 장치(100)가 부착된 전자 장치의 일 측면의 전기적 저항 등의 전기적 특성을 수집하는 전극(131) 및/또는 전자 장치의 일 측면의 자기적 특성을 수집하는 자기장 센서(132)를 포함할 수 있다.

전극(131)은 수신 장치(100)가 부착된 전자 장치의 전기적 특성 예를 들어 전기 전도도 및/또는 전기적 저항값 등을 판단하기 위한 정보를 수집할 수 있다.

예를 들어, 전극(131)은 도 5의 (a)에 도시된 바와 같이 본체(101)의 저면에 설치된 한 쌍의 전극(131a, 131b)을 포함할 수 있다. 또한, 한 쌍의 전극(131a, 131b)은 수신 장치(100)가 전자 장치에 고정될 때 전자 장치와 접촉할 수 있다.

한 쌍의 전극(131a, 131b)은 각각 수신 장치(100)의 중앙과 중앙이 아닌 일측에 배치될 수 있으며, 수신 장치(100)가 부착된 전자 장치와의 접촉을 통하여 부착 위치의 전기적 특성을 판단할 수 있다. 또한, 제어부(140)는 부착 위치의 전기적 특성에 따라 서로 다른 제어 명령을 전자 장치로 전송하도록 할 수 있다. 다시 말해, 제어부(140)는 음성 명령이 동일하더라도 수신 장치(100)의 부착 위치가 상이하면 다른 제어 명령을 전자 장치로 전송하도록 할 수 있다.

제어부(140)는 한 쌍의 전극(131a, 131b) 사이에 전압을 인가할 수 있다. 한 쌍의 전극(131a, 131b) 사이에 전압이 인가되면 전류는 한 쌍의 전극(131a, 131b)과 전자 장치를 통과하여 흐를 수 있다. 제어부(140)는 한 쌍의 전극(131a, 131b)과 전자 장치를 통과하여 흐르는 전류값을 측정할 수 있다. 또한, 제어부(140)는 한 쌍의 전극(131a, 131b)을 통과하여 흐르는 전류값에 기초하여 전자 장치의 전기 전도도 및/또는 전기적 저항값 등의 전기적 특성을 판단할 수 있다.

구체적으로, 제어부(140)는 전자 장치의 전기적 특성을 기초로 수신 장치(100)가 부착된 전자 장치를 식별할 수 있다. 예를 들어, 제어부(140)는 사전에 수집된 전자 장치의 전기적 특성을 메모리(142)에 저장할 수 있으며, 부착 위치 감지부(130)에 의하여 감지된 전기적 특성과 메모리(142)에 저장된 전기적 특성을 비교할 수 있다. 감지된 전기적 특성과 저장된 전기적 특성 사이의 비교 결과를 기초로 제어부(140)는 수신 장치(100)가 부착된 전자 장치를 식별할 수 있다.

자기장 센서(132)는 수신 장치(100)가 부착된 전자 장치의 자기적 특성 예를 들어 자성체인지 또는 비자성체인지를 판단하기 위한 정보를 수집할 수 있다.

예를 들어, 자기장 센서(132)는 도 5의 (b)에 도시된 바와 같이 본체(101)의 저면에 설치된 홀 센서(132a)를 포함할 수 있다. 또한, 홀 센서(132a)는 수신 장치(100)가 전자 장치에 고정될 때 전자 장치에 접촉할 수 있다.

고정 부재(102)인 자석에 의하여 수신 장치(100)가 전자 장치에 부착될 수 있다. 이때, 전자 장치가 자성체이면, 자석의 자기장에 의하여 전자 장치에 자기장이 형성되며 홀 센서(132a)는 전자 장치에 형성된 자기장을 검출할 수 있다. 반면, 고절물이 비자성체이면 전자 장치에 자기장이 형성되지 아니하며 홀 센서(132a)는 자기장을 검출하지 못할 수 있다. 홀 센서(132a)는 자기장의 검출 결과를 제어부(140)로 출력할 수 있다.

제어부(140)는 홀 센서(132a)의 출력을 기초로 전자 장치의 자기적 특성을 판단할 수 있다. 또한, 제어부(140)는 전자 장치의 자기적 특성을 기초로 수신 장치(100)가 부착된 전자 장치를 식별할 수 있다. 예를 들어, 제어부(140)는 사전에 수집된 전자 장치의 자기적 특성을 메모리(142)에 저장할 수 있으며, 부착 위치 감지부(130)에 의하여 감지된 자기적 특성과 메모리(142)에 저장된 자기적 특성을 비교할 수 있다. 감지된 자기적 특성과 저장된 자기적 특성 사이의 비교 결과를 기초로 제어부(140)는 수신 장치(100)가 부착된 전자 장치를 식별할 수 있다.

제어부(140)는 사용자 입력부(110)로부터의 신호와 음향 수신부(120)로부터의 신호와 부착 위치 감지부(130)로부터의 신호를 수신하고, 통신부(150)로 음향 데이터를 전달할 수 있다.

제어부(140)는 사용자 입력부(110)로부터의 신호를 기초로 사용자 입력(예를 들어, 제어 명령)를 판단할 수 있다. 예를 들어, 제어부(140)는 입력 버튼(111) 및/또는 다이얼(112) 및/또는 터치 패드(113)로부터 전기 신호를 수신하고, 수신된 전기 신호를 기초로 사용자 입력을 판단할 수 있다. 제어부(140)는 사용자 입력을 음향 장치(200)로 전송하도록 통신부(150)를 제어할 수 있다.

제어부(140)는 음향 수신부(120)로부터 사용자 발화 음성을 수신할 수 있다. 제어부(140)는 마이크로폰(121)으로부터 전기 신호를 수신하고, 전기 신호를 음성 데이터로 변환할 수 있다. 제어부(140)는 음성 데이터를 음향 장치(200)로 전송하도록 음성 데이터를 통신부(150)로 전달할 수 있다. 또한, 실시 형태에 따라 제어부(140)는 음성 데이터에 대하여 음성 인식을 수행하고, 음성 인식 결과에 따라 제어 명령을 생성할 수 있다.

제어부(140)는 부착 위치 감지부(130)로부터 수신 장치(100)가 부착된 전자 장치의 전기적 특성 및/또는 자기적 특성에 관한 정보를 수신하고, 수신 장치(100)가 부착된 전자 장치를 식별할 수 있다. 예를 들어, 제어부(140)는 전극(131)의 출력을 기초로 전자 장치의 전기적 특성을 판단하고, 전자 장치의 전기적 특성을 기초로 수신 장치(100)가 부착된 전자 장치를 식별할 수 있다. 또한, 제어부(140)는 홀 센서(132a)의 신호를 기초로 전자 장치의 자기적 특성을 판단하고, 전자 장치의 자기적 특성을 기초로 수신 장치(100)가 부착된 전자 장치를 식별할 수 있다. 또한, 실시 형태에 따라 제어부(140)는 음성 인식 결과와 수신 장치(100)가 부착된 위치에 따라 다른 제어 명령을 생성할 수 있다. 구체적으로, 사용자로부터 수신된 음성이 동일하더라도 수신 장치(100)가 부착된 위치가 달라지면 제어부(140)는 다른 제어 명령을 생성할 수 있다.

제어부(140)는 마이크로 프로세서(141)와, 메모리(142)를 포함할 수 있다. 제어부(140)는 구체적으로 마이크로 프로세서(141) 및 메모리(142) 등의 하드웨어와 메모리(142)에 저장된 프로그램 및 데이터 등의 소프트웨어로 구현될 수 있다.

메모리(142)는 수신 장치(100)에 포함된 구성들을 제어하기 위한 프로그램 및 데이터를 저장하고, 수신 장치(100)에 포함된 구성들을 제어하는 중에 발행하는 데이터를 임시로 기억할 수 있다.

메모리(142)는 음향 수신부(120)에 의하여 수신된 사용자 발화 음성을 처리하기 위한 프로그램 및 데이터를 저장할 수 있다. 또한, 메모리(142)는 사용자 발화 음성을 처리하는 중에 발생하는 데이터를 임시로 기억할 수 있다.

메모리(142)는 데이터를 장기간 저장하기 위한 롬(Read Only Memory), 플래시 메모리(flash memory) 등의 비휘발성 메모리와, 데이터를 일시적으로 기억하기 위한 S-램(Static Random Access Memory, S-RAM), D-램(Dynamic Random Access Memory) 등의 휘발성 메모리를 포함할 수 있다.

마이크로 프로세서(141)는 사용자 입력부(110)로부터의 사용자 입력 및/또는 음향 수신부(120)로부터의 사용자 발화 음성을 기초로 통신부(150)를 제어하기 위한 제어 신호를 생성할 수 있다.

마이크로 프로세서(141)는 사용자 입력부(110) 및/또는 음향 수신부(120)를 통한 음성 인식 개시 명령의 수신에 응답하여 메모리(142)에 저장된 프로그램 및 데이터에 따라 사용자 발화 음성을 음성 데이터로 변환할 수 있다. 또한, 마이크로 프로세서(141)는 음성 데이터를 음향 장치(200)로 전송하도록 통신부(150)를 제어하기 위한 제어 신호를 생성할 수 있다.

마이크로 프로세서(141)는 논리 연산 및 산술 연산 등을 수행하는 연산 회로와, 연산된 데이터를 기억하는 기억 회로 등을 포함할 수 있다.

제어부(140)의 동작은 아래에서 더욱 자세하게 설명된다. 또한, 아래에서 설명될 수신 장치(100)의 동작은 제어부(140)의 제어 동작에 의한 것으로 해석할 수 있다.

통신부(150)는 유선 또는 무선으로 음향 장치(200)와 데이터를 주고 받을 수 있다.

통신부(150)는 제어부(140)로부터 전달된 음성 데이터를 무선으로 음향 장치(200)로 전송하는 무선 통신 모듈(151)을 포함한다.

무선 통신 모듈(151)은 음향 장치(200)와 직접 데이터를 주고 받거나, 액세스 포인트(AP)를 통하여 음향 장치(200)와 데이터를 주고 받을 수 있다.

무선 통신 모듈(151)은 와이파이(WiFi™, IEEE 802.11 기술 표준) 또는 블루투스 (Bluetooth™, IEEE 802.15.1 기술 표준) 또는 지그비(ZigBee™, IEEE 802.15.4 기술 표준) 등의 무선 통신 기술 표준을 이용하여 음향 장치(200)와 데이터를 주고 받을 수 있다.

무선 통신 모듈(151)은 음향 장치(200)로 음성 데이터를 전송하기 위하여 안테나를 통하여 자유 공간으로 음성 데이터를 포함하는 무선 신호를 방출할 수 있다. 또한, 무선 통신 모듈(151)은 안테나를 통하여 자유 공간으로부터 음향 장치(200)의 무선 신호를 수신할 수 있다.

이상에서 설명된 바와 같이, 수신 장치(100)는 사용자에 의하여 소지되거나 전자 장치에 부착될 수 있으며, 사용자 발화 음성을 수신하고, 발화 음성에 대응하는 음성 데이터를 음향 장치(200)로 전송할 수 있다. 또한, 수신 장치(100)가 전자 장치에 부착된 경우, 수신 장치(100)는 전자 장치의 전기적 특성 및/또는 자기적 특성을 이용하여 전자 장치를 식별할 수 있다.

도 6은 일 실시예에 의한 음향 장치의 구성을 도시한다. 도 7은 일 실시예에 의한 음향 장치의 외관을 도시한다.

도 6 및 도 7을 참조하면, 음향 장치(200)는 본체(201)를 포함할 수 있다.

본체(201)는 음향 장치(200)의 외관을 형성하며, 음향 장치(200)의 구성 부품들이 외부로 노출되는 것을 방지할 수 있다.

음향 장치(200)는 사용자 조작 입력을 수신하는 사용자 입력부(210)와, 수신 장치(100)와 통신하는 통신부(220)와, 사용자 발화 음성을 수신하는 음향 수신부(230)와, 사용자 발화 음성에 대하여 음성 인식(speech recognition)을 수행하는 제어부(240)와, 음향을 출력하는 음향 출력부(250)와, 음향 장치(200)의 동작 정보를 표시하는 표시부(260)를 포함한다.

사용자 입력부(210)는 사용자로부터 사용자 입력을 수신하고, 사용자 입력에 관한 정보를 제어부(240)로 전달할 수 있다.

사용자 입력부(210)는 입력 버튼(211) 및/또는 다이얼(212) 및/또는 터치 패드(213)를 포함할 수 있다.

입력 버튼(211)은 사용자로부터 가해지는 힘에 의하여 이동하며, 사전에 할당된 사용자 입력을 수신할 수 있다. 또한, 입력 버튼(211)은 할당된 사용자 입력에 대응하는 전기 신호를 제어부(140)로 전달할 수 있다.

입력 버튼(211)은 본체(201)의 일측(예를 들어, 상면)에 마련될 수 있다. 예를 들어, 도 7에 도시된 바와 같이 입력 버튼(211)는 본체(201)의 상면에 마련될 수 있다.

사용자 입력부(210)는 다양한 사용자 입력에 할당된 다양한 입력 버튼(211)을 포함할 수 있다. 예를 들어, 입력 버튼(211)은 음향 장치(200)가 음악을 재생하도록 하기 위한 음악 재생 버튼(211a) 등을 포함할 수 있다.

입력 버튼(211)의 동작은 도 2에 도시된 수신 장치(100)의 입력 버튼(111)의 동작과 동일할 수 있다.

다이얼(212)은 사용자로부터 가해지는 힘에 의하여 회전하며, 회전 각도에 따라 사전에 할당된 사용자 입력을 수신할 수 있다. 또한, 다이얼(212)은 사전에 할당된 사용자 입력에 대응하는 전기 신호를 제어부(140)로 전달할 수 있다.

다이얼(212)은 본체(201)의 일측에 마련될 수 있다. 예를 들어, 다이얼(212)은 본체(201)의 상면 또는 측면에 마련될 수 있다.

다이얼(212)은 예를 들어 음향 출력부(250)로부터 출력되는 음향의 출력 볼륨을 조절하기 위하기 위하여 마련될 수 있다.

다이얼(212)의 동작은 도 2에 도시된 수신 장치(100)의 다이얼(112)의 동작과 동일할 수 있다.

터치 패드(213)는 터치에 의한 사용자 입력을 수신할 수 있다. 터치 패드(213)는 사용자에 의한 터치 좌표를 검출하고, 터치 좌표에 관한 정보를 제어부(140)로 전달할 수 있다.

터치 패드(213)는 본체(201)의 일측에 마련될 수 있다. 예를 들어, 터치 패드(213)는 본체(201)의 상면 또는 측면에 마련될 수 있다.

터치 패드(213)는 사용자의 터치 위치에 따라 사용자 입력을 수신하거나, 사용자의 터치 모션에 따라 사용자 입력을 수신할 수 있다.

터치 패드(213)의 동작은 도 2에 도시된 수신 장치(100)의 터치 패드(113)의 동작과 동일할 수 있다.

통신부(220)는 유선 또는 무선으로 수신 장치(100) 및 다른 전자 장치들과 데이터를 주고받을 수 있다.

통신부(220)는 수신 장치(100)로부터 음성 데이터를 무선으로 수신하는 제1 무선 통신 모듈(221)와, 무선으로 통신망에 접속하는 제1 무선 통신 모듈(221)과, 유선으로 통신망에 접속하는 유선 통신 모듈(223)을 포함할 수 있다.

제1 무선 통신 모듈(221)은 수신 장치(100)와 직접 데이터를 주고 받거나, 액세스 포인트(AP)를 통하여 수신 장치(100)와 데이터를 주고 받을 수 있다.

제1 무선 통신 모듈(221)은 와이파이 또는 블루투스 또는 지그비 등의 무선 통신 기술 표준을 이용하여 수신 장치(100)와 데이터를 주고 받을 수 있다.

제1 무선 통신 모듈(221)은 수신 장치(100)로 음성 데이터를 수신하기 위하여 안테나를 통하여 자유 공간으로부터 음성 데이터를 포함하는 무선 신호를 수신할 수 있다. 또한, 제1 무선 통신 모듈(221)은 안테나를 통하여 자유 공간으로 무선 신호를 수신할 수 있다.

제2 무선 통신 모듈(222)은 무선으로 통신망에 접속하고, 통신망에 접속된 다른 전자 장치들과 데이터를 주고받을 수 있다. 예를 들어, 제2 무선 통신 모듈(222)은 와이파이 또는 블루투스 또는 지그비 등의 무선 통신 기술 표준을 이용하여 통신망에 접속할 수 있다.

이때, 통신망은 유무선 통신망을 모두 포함할 수 있다. 유선 통신망은 케이블망이나 전화망 등의 통신망을 포함하며, 무선 통신망은 전파를 통하여 신호를 송수신하는 통신망을 포함할 수 있다. 무선 통신망은 유선 통신망과 무선 통신망을 중계하는 액세스 포인트(AP)를 포함할 수 있다.

유선 통신 모듈(223)은 유선으로 통신망에 접속하고, 통신망에 접속된 다른 전자 장치들과 데이터를 주고받을 수 있다. 예를 들어, 유선 통신 모듈(223)은 이더넷(Ethernet, IEEE 802.3 기술 표준) 등의 유선 통신 기술 표준을 통하여 유선 통신망에 접속할 수 있다.

음향 수신부(230)는 사용자 발화 음성을 수신하고, 발화 음성에 대응하는 전기 신호를 제어부(240)로 전달할 수 있다.

음향 수신부(230)는 음향을 수신하고, 수신된 음향을 전기 신호로 변환하는 마이크로폰(231)을 포함할 수 있다. 또한, 마이크로폰(231)은 변환된 전기 신호를 제어부(240)로 전달할 수 있다.

마이크로폰(231)은 본체(201)의 일측에 마련될 수 있다. 예를 들어, 도 7에 도시된 바와 같이 마이크로폰(231)은 본체(201)의 상면에 마련될 수 있다.

제어부(240)는 사용자 입력부(210)로부터의 신호와 통신부(220)로부터의 신호와 음향 수신부(230)로부터의 신호를 수신하고, 음향 출력부(250)로 음향 신호를 전달하고 표시부(260)로 영상 신호를 전달할 수 있다.

제어부(240)는 사용자 입력부(210)로부터의 신호를 기초로 사용자 입력(예를 들어, 제어 명령)를 판단할 수 있다. 제어부(240)는 통신부(220)를 통하여 수신된 사용자 입력을 수신할 수 있다. 또한, 제어부(240)는 사용자 입력에 따라 음향 출력부(250) 및/또는 표시부(260)를 제어할 수 있다. 예를 들어, 음향 출력부(250)의 출력 볼륨을 제어하거나 표시부(260)에 표시되는 영상을 변경할 수 있다.

제어부(240)는 통신부(220)를 통하여 음성 데이터를 수신할 수 있다. 제어부(240)는 수신 장치(100)로부터 수신된 음성 데이터에 대하여 음성 인식을 수행할 수 있다. 나아가, 제어부(240)는 음성 인식에 의하여 인식된 사용자 발화 음성에 응답하여 응답 음성을 합성하고 음향 출력부(250)를 통하여 출력할 수 있다.

예를 들어, 제어부(240)는 음성 데이터를 전처리하고 음성 데이터로부터 음성 특징을 추출하고 음성 특징을 음성 모델과 비교하고 음성의 의미를 분석함으로써 음성 데이터에 대한 음성 인식을 수행할 수 있다. 또한, 제어부(240)는 응답을 위한 음성을 합성하고 합성된 음성을 후처리함으로써 음성 합성을 수행할 수 있다.제어부(240)는 사용자 발화 음성을 인식하기 위한 음성 인식을 수행하고, 음성 인식에 의하여 인식된 제어 명령(들)에 응답하여 음향 장치(200)의 동작을 제어할 수 있다. 예를 들어, 제어부(240)는 음성 인식에 의하여 인식된 제어 명령(들)에 응답하여 음향(음악)을 출력하도록 음향 출력부(250)를 제어하거나, 광을 방출하거나 영상을 표시하도록 표시부(260)를 제어할 수 있다.

제어부(240)는 음향 수신부(230)로부터 사용자 발화 음성을 수신할 수 있다. 예를 들어, 제어부(140)는 마이크로폰(231)으로부터 전기 신호를 수신하고, 전기 신호를 음성 데이터로 변환할 수 있다. 이후, 제어부(240)는 통신부(220)를 통하여 수신된 음성 데이터와 마찬가지로 음성 데이터에 대하여 음성 인식을 수행하고, 음성 인식에 의하여 인식된 사용자 발화 음성에 응답하여 응답 음성을 출력할 수 있다. 다시 말해, 음향 장치(200)는 사용자와 대화할 수 있다.

제어부(240)는 음성 인식에 의하여 인식된 제어 명령(들)에 응답하여 음향(음악)을 출력하도록 음향 출력부(250)를 제어하거나, 발광하거나 영상을 표시하도록 표시부(260)를 제어할 수 있다. 다시 말해, 음향 장치(200)는 사용자의 음성 명령에 따라 동작할 수 있다.

제어부(240)는 마이크로 프로세서(241)와, 메모리(242)를 포함할 수 있다. 제어부(240)는 구체적으로 마이크로 프로세서(241) 및 메모리(242) 등의 하드웨어와 메모리(242)에 저장된 프로그램 및 데이터 등의 소프트웨어로 구현될 수 있다.

메모리(242)는 음향 장치(200)에 포함된 구성들을 제어하기 위한 프로그램 및 데이터를 저장하고, 음향 장치(200)에 포함된 구성들을 제어하는 중에 발행하는 데이터를 임시로 기억할 수 있다.

메모리(242)는 통신부(220)를 통하여 수신된 음성 데이터 및/또는 음향 수신부(230)에 의하여 수신된 사용자 발화 음성을 처리하기 위한 프로그램 및 데이터를 저장할 수 있다. 또한, 메모리(242)는 음성 데이터 및/또는 사용자 발화 음성을 처리하는 중에 발생하는 데이터를 임시로 기억할 수 있다.

메모리(242)는 음향 장치(200)의 다양한 기능을 구현하기 위한 다양한 어플리케이션 프로그램을 저장할 수 있다. 예를 들어, 메모리(242)는 음향 장치(200)의 하드웨어 자원과 소프트웨어 자원을 관리하는 운영 체제(operating system, OS), 음악을 재생하는 음악 재생 어플리케이션 등을 저장할 수 있다.

메모리(242)는 데이터를 장기간 저장하기 위한 롬, 플래시 메모리 등의 비휘발성 메모리와, 데이터를 일시적으로 기억하기 위한 S-램, D-램 등의 휘발성 메모리를 포함할 수 있다.

마이크로 프로세서(241)는 사용자 입력부(210)로부터의 사용자 입력 및/또는 통신부(220)로부터의 음성 데이터 및/또는 음향 수신부(230)로부터의 사용자 발화 음성을 기초로 음향 출력부(250) 및/또는 표시부(260)를 제어하기 위한 제어 신호를 생성할 수 있다.

마이크로 프로세서(241)는 사용자 입력부(210) 및/또는 통신부(220) 및/또는 음향 수신부(230)를 통한 음성 인식 개시 명령의 수신에 응답하여 메모리(242)에 저장된 프로그램 및 데이터에 따라 사용자 발화 음성을 인식하고, 음성 인식에 의하여 인식된 사용자 발화 음성에 응답하기 위한 음성 신호를 합성할 수 있다. 또한, 마이크로 프로세서(241)는 음성 인식에 의하여 인식된 제어 명령(들)에 응답하여 음향 출력부(250) 및/또는 표시부(260)를 제어하기 위한 제어 신호를 생성할 수 있다.

마이크로 프로세서(241)는 논리 연산 및 산술 연산 등을 수행하는 연산 회로와, 연산된 데이터를 기억하는 기억 회로 등을 포함할 수 있다.

제어부(240)의 동작은 아래에서 더욱 자세하게 설명된다. 또한, 아래에서 설명될 음향 장치(200)의 동작은 제어부(240)의 제어 동작에 의한 것으로 해석할 수 있다.

음향 출력부(250)는 제어부(240)로부터 출력 음향에 대응하는 전기 신호를 수신하고, 전기 신호를 출력 음향으로 변환할 수 있다. 제어부(240)는 사용자 발화 음성에 따라 응답 음향을 합성하고, 응답 음향에 대응하는 전기 신호를 음향 출력부(250)로 출력할 수 있다. 음향 출력부(250)는 응답 음향을 출력할 수 있다.

음향 출력부(250)는 전기 신호를 수신하고 음향을 출력하는 스피커(251)를 포함할 수 있다. 스피커(251)는 제어부(240)로부터 전기 신호를 수신하고, 전기 신호를 음향으로 변환할 수 있다.

스피커(251)는 본체(201)의 일측에 마련될 수 있다. 예를 들어, 도 7에 도시된 바와 같이 스피커(251)는 본체의 측면에 마련될 수 있다.

표시부(260)는 제어부(240)의 제어 신호에 따라 광학 신호를 출력할 수 있다. 예를 들어, 표시부(260)는 제어부(240)의 제어 신호에 따라 광을 방출하거나 영상을 표시할 수 있다.

표시부(260)는 액정 디스플레이(Liquid Crystal Display, LCD) 및/또는 발광 다이오드(Light Emitting Diode, LED) 등을 포함할 수 있다.

이상에서 설명된 바와 같이, 음향 장치(200)는 수신 장치(100)로부터 음성 데이터를 수신할 수 있으며, 음성 데이터에 대하여 음성 인식을 수행할 수 있다. 또한, 음향 장치(200)는 음성 인식에 의하여 인식된 사용자 발화 음성에 응답하여 응답 음성을 출력하거나, 음성 인식에 의하여 인식된 제어 명령(들)에 응답하여 음향 출력부(250) 및/또는 표시부(260)의 동작을 제어할 수 있다.

이상에서는 수신 장치(100)가 사용자 발화 음성을 수신하고, 음향 장치(200)가 사용자 발화 음성에 대하여 음성 인식을 수행하는 것이 설명되었으나, 이에 한정되는 것은 아니다. 예를 들어, 수신 장치(100)가 사용자 발화 음성을 수신하고 이후 사용자 발화 음성에 대하여 음성 인식을 수행하고, 음향 장치(200)는 인식된 사용자 발화 음성에 따라 동작할 수 있다.

이하에서는 수신 장치(100)와 음향 장치(200)를 포함하는 음향 출력 시스템(1)의 동작이 설명된다.

도 8는 도 1에 도시된 음향 출력 시스템의 음성 인식 동작을 도시한다.

도 8과 함께, 음향 출력 시스템(1)의 음성 인식 동작(1000)이 설명된다.

수신 장치(100)는 사용자로부터 음성 인식 개시를 위한 입력을 수신한다(1010).

수신 장치(100)는 사용자 입력부(110)를 통하여 음성 인식 개시를 위한 사용자 입력을 수신하거나, 음향 수신부(120)를 통하여 음성 인식 개시를 위한 사용자 발화 음성(이하 '음성 인식 개시어'라 한다)을 수신할 수 있다.

사용자 입력부(110)는 음성 인식 개시를 위한 음성 인식 개시 버튼(111b)을 포함할 수 있으며, 음성 인식이 비활성화된 중에 사용자에 의하여 음성 인식 개시 버튼(111b)이 눌리면 수신 장치(100)는 음성 인식을 위한 사용자 발화 음성의 수신을 개시할 수 있다.

음성 인식이 비활성화된 중에 음향 수신부(120)는 음향을 수신하고 수신된 음향을 제어부(140)로 전송할 수 있다. 제어부(140)는 대기 모드(저전력 모드)에서 음향 수신부(120)에 의하여 수신된 음향과 음성 인식 개시를 위하여 사전에 설정된 "음성 인식 개시어"를 비교할 수 있다. 사용자로부터 음성 인식 개시어가 수신되면 제어부(140)는 활성 모드(일반 모드)로 전환되며 활성 모드에서 사용자의 발화 음성의 수신하고 음성 데이터로 변환할 수 있다.

예를 들어, 사용자(U)는 음향 장치(200)로부터 떨어지고 수신 장치(100)와 인접한 위치에 위치할 수 있다. 음향 출력 시스템(1)이 음성 인식을 활성화하도록 사용자(U)는 음성 인식 개시어를 발화할 수 있다. 사용자(U)는 수신 장치(100)가 사용자 발화 음성을 수신하고 음향 장치(200)가 음성 인식을 활성화하도록 "음향 장치"라고 발화할 수 있다. 사용자(U)의 음성 인식 개시어에 응답하여, 수신 장치(100)는 사용자의 발화 음성의 수신을 개시할 수 있다.

수신 장치(100)는 사용자로부터 사용자 발화 음성을 수신한다(1020).

음성의 수신이 개시된 이후, 수신 장치(100)는 음향 수신부(120)를 통하여 사용자로부터 사용자 발화 음성을 수신할 수 있다. 또한, 음향 수신부(120)는 사용자 발화 음성을 전기 신호로 변환하고, 전기 신호를 제어부(140)로 전달할 수 있다. 제어부(140)는 음향 수신부(120)로부터 전기 신호를 수신하고, 전기 신호를 음성 데이터로 변환할 수 있다.

예를 들어, 사용자(U)는 음성 인식 개시어인 "음향 장치"를 발화한 이후 음향 출력 시스템(1)의 동작을 제어하기 위한 제어 명령을 발화할 수 있다. 사용자(U)는 출력 볼륨을 높이기 위하여 "볼륨을 올려줘"라고 발화할 수 있다. 수신 장치(100)는 "음악 재생하고, 볼륨을 올려줘"라는 사용자 발화 음성을 수신하고 음성 데이터로 변환할 수 있다.

수신 장치(100)는 음성 데이터를 음향 장치(200)로 전송한다(1030).

제어부(140)는 음성 데이터를 음향 장치(200)로 전송하도록 통신부(150)를 제어할 수 있다.

통신부(150)는 제어부(140)로부터 전달된 음성 데이터를 무선으로 음향 장치(200)로 전송할 수 있다. 구체적으로, 통신부(150)는 음향 장치(200)로 음성 데이터를 전송하기 위하여 안테나를 통하여 자유 공간으로 음성 데이터를 포함하는 무선 신호를 방출할 수 있다. 예를 들어, 수신 장치(100)는 사용자 발화 음성 "음악 재생하고, 볼륨을 올려줘"를 나타내는 음성 데이터를 음향 장치(200)로 무선으로 전송할 수 있다.

음성 데이터는 수신 장치(100)로부터 자유 공간을 통하여 음향 장치(200)로 전송된다(1040).

음향 장치(200)는 수신 장치(100)로부터 음성 데이터를 수신한다(1050).

통신부(220)는 수신 장치(100)로부터 전송된 음성 데이터를 무선으로 수신할 수 있다. 구체적으로, 수신 장치(100)로 음성 데이터를 수신하기 위하여 안테나를 통하여 자유 공간으로부터 음성 데이터를 포함하는 무선 신호를 수신할 수 있다. 예를 들어, 음향 장치(200)는 사용자 발화 음성 "음악 재생하고, 볼륨을 올려줘"를 나타내는 음성 데이터를 수신 장치(100)로부터 무선으로 수신할 수 있다.

또한, 통신부(220)는 수신 장치(100)로부터 수신된 음성 데이터를 제어부(240)로 전달할 수 있다.

음향 장치(200)는 음성 인식을 이용하여 음성 데이터로부터 사용자의 발화 음성에 의한 제어 명령(들)을 인식한다(1060).

제어부(240)는 음성 데이터로부터 음성 특징을 추출하고, 음성 특징을 사전에 저장된 음성 모델과 비교할 수 있다. 제어부(240)는 음성 데이터의 음성 특징과 음성 모델을 비교함으로써 사용자 발화 음성의 의미를 판단할 수 있다.

예를 들어, 제어부(240)는 "음악 재생하고, 볼륨을 올려줘"를 나타내는 음성 데이터에 대하여 음성 인식을 수행할 수 있다. 음성 인식에 의하여 제어부(240)는 음악을 재생하는 제어 명령과 음향 출력 볼륨을 증가시키는 제어 명령을 판단할 수 있다.

음향 장치(200)는 음성 인식에 의하여 인식된 제어 명령(들)에 따라 동작한다(1070).

제어부(240)는 음성 인식에 의하여 인식된 제어 명령(들)에 따라 음향 출력부(250) 및/또는 표시부(260)의 동작을 제어할 수 있다. 다시 말해, 음향 장치(200)는 사용자의 음성 명령에 따라 동작할 수 있다.예를 들어, 제어부(240)는 음악 재생 명령과 볼륨 상승 명령을 인식할 수 있다. 제어부(240)는 음악 재생 어플리케이션을 실행하고, 음악을 재생할 수 있다. 또한, 제어부(240)는 운영 체제를 통하여 음향 출력부(250)의 출력 볼륨을 상승시킬 수 있다.

음향 장치(200)는 음성 데이터로부터 복수의 제어 명령들을 인식할 수 있다. 또한, 음향 장치(200)는 복수의 제어 명령들에 응답한 동작의 순서를 판단하고, 판단된 순서에 따라 복수의 제어 명령들에 응답한 동작을 수행할 수 있다.

또한, 제어부(240)는 음성 데이터에 대하여 음성 인식을 수행하고, 음성 인식에 의하여 인식된 사용자 발화 음성에 응답하여 응답 음성을 생성할 수 있다. 또한, 음향 출력부(250)는 제어부(240)에 의하여 생성된 응답 음성을 출력할 수 있다. 다시 말해, 음향 장치(200)는 사용자와 대화할 수 있다.

이상에서 설명된 바와 같이, 음향 출력 시스템(1)은 복수의 제어 명령들을 포함하는 사용자 발화 음성을 사용자(U)로부터 수신할 수 있다. 음향 출력 시스템(1)은 음향 장치(200)를 이용하여 사용자 발화 음성에 대하여 음성 인식을 수행하여 복수의 제어 명령들을 인식할 수 있다. 또한, 음향 장치(200)는 복수의 제어 명령들과 관련된 복수의 서로 다른 어플리케이션 프로그램을 실행하여 복수의 제어 명령들에 대응한 복수의 동작을 수행할 수 있다.

이처럼, 음향 출력 시스템(1)은 휴대가 가능한 음성 수신 장치(100)를 이용하여 사용자 발화 음성을 수신함으로써 음성 인식의 인식률을 높일 수 있으며, 음성을 통한 복수의 제어 명령들을 동시에 처리할 수 있다.

도 9은 일 실시예에 의한 음향 출력 시스템의 다른 일 예를 도시한다.

도 9을 참조하면, 음향 출력 시스템(1a)은 사용자 발화 음성을 수신하는 수신 장치(100)와, 음향을 출력하는 음향 장치(200)와, 사용자 발화 음성을 인식하는 사용자 장치(300)를 포함할 수 있다.

수신 장치(100)는 사용자 발화 음성을 수신할 수 있다.

수신 장치(100)는 음향 장치(200) 및/또는 사용자 장치(300)와 유선으로 또는 무선으로 통신할 수 있으며, 사용자 발화 음성에 대응하는 음성 데이터를 음향 장치(200) 및/또는 사용자 장치(300)로 전송할 수 있다.

음향 장치(200)는 음향을 출력할 수 있다.

음향 장치(200)는 수신 장치(100)와 유선으로 또는 무선으로 통신할 수 있으며, 사용자 발화 음성에 대응하는 음성 데이터를 수신 장치(100)로부터 유선으로 또는 무선으로 수신할 수 있다. 음향 장치(200)는 사용자 장치(300)와 유선으로 또는 무선으로 통신할 수 있으며, 수신 장치(100)로부터 수신된 음성 데이터를 사용자 장치(300)로 전송할 수 있다. 또한, 음향 장치(200)는 사용자 입력에 따라 다양한 동작을 수행할 수 있다.

사용자 장치(300)는 수신 장치(100) 및/또는 음향 장치(200)와 유선으로 또는 무선으로 통신할 수 있으며, 수신 장치(100) 및/또는 음향 장치(200)로부터 음성 데이터를 수신할 수 있다.

사용자 장치(300)는 음성 데이터를 처리하여 사용자 발화 음성의 내용을 인식할 수 있는 음성 인식 어플리케이션을 포함할 수 있다. 예를 들어, 음성 인식 어플리케이션은 음성 데이터로부터 음성 특징을 추출하고, 음성 특징을 사전에 저장된 음성 모델과 비교함으로써 사용자 발화 음성의 의미를 판단할 수 있다. 또한, 음성 인식 어플리케이션은 기계 학습(machine learning 또는 deep learning)을 이용하여 사용자 발화 음성을 인식할 수 있다.

사용자 장치(300)는 인식된 사용자 발화 음성에 따라 다양한 동작을 수행할 수 있다. 예를 들어, 사용자 장치(300)는 사용자 발화 음성에 의하여 요청된 음성 통화를 수행하거나, 사용자 발화 음성에 의하여 요청된 정보를 사용자에게 제공할 수 있다.

사용자 장치(300)는 인식된 사용자 발화 음성의 내용을 수신 장치(100) 및/또는 음향 장치(200)로 전송할 수 있다. 예를 들어, 사용자 장치(300)는 사용자 발화 음성으로부터 인식된 제어 명령(들)을 수신 장치(100) 및/또는 음향 장치(200)로 전송할 수 있다. 음향 장치(200)는 사용자 장치(300)로부터 수신된 제어 명령(들)에 따라 동작할 수 있다.

특히, 사용자 장치(300)는 사용자의 단일 발화 음성에 포함된 서로 다른 복수의 제어 명령(들)을 인식할 수 있으며, 서로 다른 복수의 제어 명령(들)에 응답하여 서로 다른 복수의 동작을 수행할 수 있다. 예를 들어, 사용자가 "동생에게 전화를 걸고, 볼륨을 10으로 올려줘"라는 음성을 발화하면, 사용자 장치(300)는 타인과 통화하기 위한 통화 어플리케이션을 실행하여 "동생"에게 통화를 요청하고 음향 장치(200)로 직접 또는 수신 장치(100)를 통하여 볼륨 조절 명령을 전송할 수 있다.

사용자 장치(300)는 인식된 사용자 발화 음성에 응답하여 응답 음성의 음성 데이터를 생성할 수 있으며, 응답 음성의 음성 데이터를 음향 장치(200)로 직접 또는 수신 장치(100)를 통하여 전송할 수 있다. 음향 장치(200)는 사용자 장치(300)로부터 수신된 음성 데이터에 따라 음향을 출력할 수 있다.

이러한 사용자 장치(300)는 통신 기능을 가지는 범용의 컴퓨팅 장치일 수 있다. 예를 들어, 사용자 장치(300)는 핸드헬드 퍼스널 컴퓨터(handheld personal computer), 태블릿 컴퓨터(tablet computer), 모바일 폰(mobile phone), 셀룰러 폰(cellular phone), 랩탑 컴퓨터(laptop computer), 데스크탑 컴퓨터(desktop computer), 워크스테이션(workstation) 등 다양한 이름으로 불리는 다양한 타입의 컴퓨팅 시스템일 수 있다.

도 10는 도 9에 도시된 음향 출력 시스템의 음성 인식 동작을 도시한다. 도 11은 도 9에 도시된 의한 음향 출력 시스템이 제어 명령(들)을 처리하는 일 예를 도시한다.

도 10 및 도 11과 함께, 음향 출력 시스템(1a)의 음성 인식 동작(1100)이 설명된다.

수신 장치(100)는 사용자로부터 음성 인식 개시를 위한 입력을 수신한다(1110).

동작 1110은 도 8의 동작 1010과 동일할 수 있다. 예를 들어, 도 11에 도시된 바와 같이 사용자(U)는 수신 장치(100)가 사용자 발화 음성을 수신하고 음향 장치(200)가 음성 인식을 활성화하도록 "음향 장치"라고 발화할 수 있다. 사용자(U)의 음성 인식 개시어("음향 장치")에 응답하여, 수신 장치(100)는 사용자 발화 음성의 수신을 개시할 수 있다.

수신 장치(100)는 사용자로부터 사용자 발화 음성을 수신한다(1120).

동작 1120은 도 8의 동작 1020과 동일할 수 있다. 예를 들어, 도 11에 도시된 바와 같이 사용자(U)는 음성 인식 개시어 "음향 장치"를 발화한 이후 "동생에게 전화를 걸고, 볼륨을 10으로 올려줘"라고 발화할 수 있다. 수신 장치(100)는 "동생에게 전화를 걸고, 볼륨을 10으로 올려줘"라는 사용자 발화 음성을 수신하고, 사용자 발화 음성을 음성 데이터로 변환할 수 있다.

수신 장치(100)는 음성 데이터를 음향 장치(200)로 전송하고 음향 장치(200)는 수신 장치(100)로부터 음성 데이터를 수신한다(1130).

동작 1130은 도 8의 동작 1030, 동작 1040 및 동작 1050과 동일할 수 있다.

음향 장치(200)는 수신 장치(100)로부터 수신된 음성 데이터를 사용자 장치(300)로 전송하고 사용자 장치(300)는 음향 장치(200)로부터 음성 데이터를 수신한다(1140).

수신 장치(100)로부터 음성 데이터를 수신한 음향 장치(200)는 음성 인식을 위하여 음성 데이터를 사용자 장치(300)로 전송할 수 있다.

보다 정확한 음성 인식을 위하여 음향 장치(200)는 음성 데이터를 사용자 장치(300)로 전송할 수 있다.

사용자 장치(300)는 음성 인식을 이용하여 음성 데이터로부터 사용자의 발화 음성에 의한 제어 명령(들)을 인식한다(1150).

사용자 장치(300)는 음향 장치(200)에 비하여 고성능의 프로세서를 포함할 수 있으며, 다양한 자연어를 처리하기 위한 음성 인식 알고리즘이 탑재될 수 있다.

사용자 장치(300)는 음성 데이터로부터 음성 특징을 추출하고, 음성 특징을 사전에 저장된 음성 모델과 비교할 수 있다. 사용자 장치(300)는 음성 데이터의 음성 특징과 음성 모델을 비교함으로써 사용자 발화 음성의 의미를 판단할 수 있다.

예를 들어, 도 11에 도시된 바와 같이 사용자 장치(300)는 "동생에게 전화를 걸고, 볼륨을 10으로 올려줘"를 나타내는 음성 데이터에 대하여 음성 인식을 수행할 수 있다. 음성 인식에 의하여 사용자 장치(300)는 전화를 거는 제어 명령과 음향 출력 볼륨을 증가시키는 제어 명령을 판단할 수 있다.

사용자 장치(300)는 음성 인식에 의하여 인식된 제어 명령(들)에 따라 동작한다(1160).

사용자 장치(300)는 음성 인식에 의하여 인식된 제어 명령(들) 중에서 사용자 장치(300)에 의하여 수행될 수 있는 제어 명령(들)을 판단하고, 수행 가능한 제어 명령(들)에 따라 동작할 수 있다.

예를 들어, 도 11에 도시된 바와 같이 사용자 장치(300)는 통화 명령과 볼륨 상승 명령을 인식할 수 있다. 사용자 장치(300)는 통화 명령은 사용자 장치(300)에 의하여 수행될 수 있는 것으로 판단할 수 있다. 또한, 사용자 장치(300)는 타인과의 통화를 수행하기 위한 통화 어플리케이션을 실행하고, 연락처에서 "동생"을 검색하여 "동생"과의 통화를 시도할 수 있다.

또한, 사용자 장치(300)는 음성 데이터에 대하여 음성 인식을 수행하고, 음성 인식에 의하여 인식된 사용자 발화 음성에 응답하여 응답 음성을 생성할 수 있다.

사용자 장치(300)는 음성 인식에 의하여 인식된 제어 명령(들)을 음향 장치(200)로 전송하고, 음향 장치(200)는 사용자 장치(300)로부터 제어 명령(들)을 수신한다(1170).

사용자 장치(300)는 음성 인식에 의하여 인식된 제어 명령(들) 중에서 음향 장치(200)에 의하여 수행될 수 있는 제어 명령(들)을 판단하고, 음향 장치(200)에 의하여 수행 가능한 제어 명령(들)을 음향 장치(200)로 전송할 수 있다.

예를 들어, 도 11에 도시된 바와 같이 사용자 장치(300)는 통화 명령과 볼륨 상승 명령을 인식할 수 있다. 사용자 장치(300)는 볼륨 상승 명령은 음향 장치(200)에 의하여 수행될 수 있는 것으로 판단할 수 있다. 사용자 장치(300)는 볼륨 상승 명령을 음향 장치(200)로 전송할 수 있다.

또한, 사용자 장치(300)는 음성 인식에 의하여 인식된 사용자 발화 음성에 응답하여 응답 음성을 생성하고, 응답 음성의 음성 데이터를 음향 장치(200)로 전송할 수 있다.

음향 장치(200)는 사용자 장치(300)로부터 수신된 제어 명령(들)에 따라 동작한다(1180).

음향 장치(200)는 사용자 장치(300)의 인성 인식에 의하여 인식된 제어 명령(들)에 따라 동작할 수 있다.

예를 들어, 도 11에 도시된 바와 같이 음향 장치(200)는 사용자 장치(300)로부터 볼륨 상승 명령을 수신할 수 있으며, 운영 체제를 통하여 음향 출력부(250)의 출력 볼륨을 상승시킬 수 있다.

또한, 음향 장치(200)는 사용자 장치(300)로부터 음성 데이터를 수신할 수 있으며, 음성 데이터에 대응하는 음성을 음향 출력부(250)를 통하여 출력할 수 있다.

도 12는 도 9에 도시된 음향 출력 시스템의 음성 인식 동작의 다른 일 예를 도시한다.

도 12와 함께, 음향 출력 시스템(1a)의 음성 인식 동작(1500)이 설명된다.

수신 장치(100)는 사용자로부터 음성 인식 개시를 위한 입력을 수신한다(1510). 동작 1510은 도 10의 동작 1110과 동일할 수 있다.

수신 장치(100)는 사용자로부터 사용자 발화 음성을 수신한다(1520). 동작 1520은 도 10의 동작 1120과 동일할 수 있다.

수신 장치(100)는 음성 데이터를 사용자 장치(300)로 직접 전송하고 사용자 장치(300)는 수신 장치(100)로부터 음성 데이터를 수신한다(1530).

수신 장치(100)는 음성 데이터를 사용자 장치(300)로 직접 전송할 수 있으며, 사용자 장치(300)는 수신 장치(100)로부터 음성 데이터를 수신할 수 있다. 예를 들어, 수신 장치(100)는 사용자 발화 음성 "동생에게 전화를 걸고, 볼륨을 10으로 올려줘"를 나타내는 음성 데이터를 사용자 장치(300)로 전송할 수 있으며, 사용자 장치(300)는 사용자 발화 음성 "동생에게 전화를 걸고, 볼륨을 10으로 올려줘"를 나타내는 음성 데이터를 수신할 수 있다.

사용자 장치(300)는 음성 인식을 이용하여 음성 데이터로부터 사용자의 발화 음성에 의한 제어 명령(들)을 인식한다(1540). 동작 1540은 도 10의 동작 1150과 동일할 수 있다.

사용자 장치(300)는 음성 인식에 의하여 인식된 제어 명령(들)에 따라 동작한다(1550). 동작 1550은 도 10의 동작 1160과 동일할 수 있다.

사용자 장치(300)는 음성 인식에 의하여 인식된 제어 명령(들)을 수신 장치(100)로 전송하고 수신 장치(100)는 제어 명령(들)을 수신한다(1560).

사용자 장치(300)는 음성 인식에 의하여 인식된 제어 명령(들) 중에 음향 장치(200)에 의하여 수행될 수 있는 제어 명령(들)을 판단할 수 있으며, 제어 명령(들)을 음향 장치(200)로 전송하기 위하여 제어 명령(들)을 수신 장치(100)로 전송할 수 있다.

수신 장치(100)는 사용자 장치(300)로부터 수신된 제어 명령(들)을 음향 장치(200)로 전송하고, 음향 장치(200)는 수신 장치(200)로부터 제어 명령(들)을 수신한다(1570).

음향 장치(200)는 수신 장치(100)로부터 수신된 제어 명령(들)에 따라 동작한다(1580). 동작 1580은 도 10의 동작 1180과 동일할 수 있다.

이상에서 설명된 바와 같이, 음향 출력 시스템(1a)은 복수의 제어 명령(들)을 포함하는 사용자 발화 음성을 사용자(U)로부터 수신할 수 있다. 음향 출력 시스템(1a)은 음향 장치(200)와 별도로 마련된 사용자 장치(300)를 이용하여 사용자 발화 음성에 대하여 음성 인식을 수행하여, 복수의 제어 명령(들)을 인식할 수 있다.

사용자 장치(300)는 사용자 장치(300)와 관련된 제어 명령(들)에 따라 동작을 수행하고, 음향 장치(200)와 관련된 제어 명령(들)을 음향 장치(200)로 전송할 수 있다. 음향 장치(200)는 사용자 장치(300)로부터 수신된 제어 명령(들)에 따라 동작할 수 있다.

이처럼, 음향 출력 시스템(1a)은 사용자 장치(300)를 이용하여 음성 인식을 수행함으로써 음성 인식의 인식률을 높일 수 있으며, 사용자 장치(300)와 음향 장치(200)가 음성을 통한 제어 명령(들)을 각각 처리하도록 할 수 있다.

도 13는 일 실시예에 의한 음향 출력 시스템의 다른 일 예를 도시한다.

도 13를 참조하면, 음향 출력 시스템(1d)은 사용자 발화 음성을 수신하는 수신 장치(100)와, 음향을 출력하는 음향 장치(200)와, 기계 학습(machine learning 또는 deep learning)을 이용하여 사용자 발화 음성을 인식하는 AI (Artificial Intelligence) 서버 장치(400)를 포함할 수 있다.

수신 장치(100)는 사용자 발화 음성을 수신할 수 있다.

수신 장치(100)는 음향 장치(200)와 유선으로 또는 무선으로 통신하고, AI 서버 장치(400)와 통신망을 통하여 통신할 수 있으며, 사용자 발화 음성에 대응하는 음성 데이터를 음향 장치(200) 및/또는 AI 서버 장치(400)로 전송할 수 있다. 이때, 통신망은 유무선 통신망을 모두 포함할 수 있다. 유선 통신망은 케이블망이나 전화망 등의 통신망을 포함하며, 무선 통신망은 전파를 통하여 신호를 송수신하는 통신망을 포함할 수 있다. 무선 통신망은 유선 통신망과 무선 통신망을 중계하는 액세스 포인트(AP)를 포함할 수 있다.

음향 장치(200)는 음향을 출력할 수 있다.

음향 장치(200)는 수신 장치(100)와 유선으로 또는 무선으로 통신할 수 있으며, 사용자 발화 음성에 대응하는 음성 데이터를 수신 장치(100)로부터 유선으로 또는 무선으로 수신할 수 있다. 음향 장치(200)는 AI 서버 장치(400)와 통신망을 통하여 통신할 수 있으며, 수신 장치(100)로부터 수신된 음성 데이터를 AI 서버 장치(400)로 전송할 수 있다. 또한, 음향 장치(200)는 사용자 입력에 따라 다양한 동작을 수행할 수 있다.

AI 서버 장치(400)는 수신 장치(100) 및/또는 음향 장치(200)와 통신할 수 있으며, 수신 장치(100) 및/또는 음향 장치(200)로부터 음성 데이터를 수신할 수 있다. 또한, AI 서버 장치(400)수신 장치(100) 및/또는 음향 장치(200)로부터 수신된 음성 데이터를 기반으로 음성 인식에 관하여 기계 학습(machine learning 또는 deep learning)을 수행할 수 있다.

예를 들어, AI 서버 장치(400)는 기계 학습을 이용하여 언어적 이해, 추론 예측, 지식 표현 등을 수행할 수 있다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함할 수 있다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함할 수 있다. 또한, 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함할 수 있다.

AI 서버 장치(400)는 음성 데이터에 대하여 기계 학습에 기반한 음성 인식을 수행하여 사용자의 제어 명령을 인식할 수 있다. 특히, AI 서버 장치(400)는 음성 인식을 이용하여 음성 데이터로부터 사용자의 복수의 제어 명령들을 인식할 수 있으며, 복수의 제어 명령들의 대상 및 복수의 제어 명령들의 순서를 판단할 수 있다. 또한, AI 서버 장치(400)는 복수의 제어 명령들의 대상 및 복수의 제어 명령들의 순서에 따라 제어 명령의 연속(sequence)를 생성할 수 있다.

AI 서버 장치(400)는 음성 데이터를 처리하여 사용자 발화 음성의 내용을 인식할 수 있다. 예를 들어, AI 서버 장치(400)는 수신 장치(100) 및/또는 음향 장치(200)로부터 수신된 음성 데이터 중에 음성 인식을 위한 구간을 추출하고, 음성 데이터에 포함된 잡음을 제거할 수 있다. 또한, AI 서버 장치(400)는 음성 데이터로부터 음성 특징을 추출하고, 음성 특징을 사전에 저장된 음성 모델과 비교할 수 있다. AI 서버 장치(400)는 음성 데이터의 음성 특징과 음성 모델을 비교함으로써 사용자 발화 음성의 의미를 판단할 수 있다.

AI 서버 장치(400)는 사용자 발화 음성으로부터 인식된 제어 명령(들)을 수신 장치(100) 및/또는 음향 장치(200)로 전송할 수 있다. 음향 장치(200)는 AI 서버 장치(400)로부터 수신된 제어 명령(들)에 따라 다양한 동작을 수생할 수 있다.

특히, AI 서버 장치(400)는 사용자의 단일 발화 음성에 포함된 서로 다른 복수의 제어 명령(들)을 인식할 수 있으며, 서로 다른 제어 명령(들)을 각각 음향 장치(200)로 순차적으로 전송할 수 있다. 예를 들어, 사용자가 "음악을 재생하고, 볼륨을 10으로 올려줘"라는 음성을 발화하면, AI 서버 장치(400)는 음향 장치(200)로 음악 재생 명령과 볼륨 조절 명령을 전송할 수 있다.

또한, AI 서버 장치(400)는 인식된 사용자 발화 음성에 응답하여 응답 음성의 음성 데이터를 생성할 수 있으며, 응답 음성의 음성 데이터를 음향 장치(200)로 전송할 수 있다. 음향 장치(200)는 AI 서버 장치(400)로부터 수신된 음성 데이터에 따라 음향을 출력할 수 있다.

이러한 AI 서버 장치(400)는 통신 기능을 가지는 컴퓨팅 장치일 수 있다. 예를 들어, AI 서버 장치(400)는 데스크탑 컴퓨터(desktop computer), 워크스테이션(workstation) 등 다양한 이름으로 불리는 컴퓨팅 시스템일 수 있다.

도 14은 도 13에 도시된 음향 출력 시스템의 음성 인식 동작을 도시한다.

도 14과 함께, 음향 출력 시스템(1d)의 음성 인식 동작(1600)이 설명된다.

수신 장치(100)는 사용자로부터 음성 인식 개시를 위한 입력을 수신한다(1610). 동작 1610은 도 8의 동작 1010과 동일할 수 있다.

수신 장치(100)는 사용자로부터 사용자 발화 음성을 수신한다(1620).

동작 1620은 도 8의 동작 1020과 동일할 수 있다. 예를 들어, 사용자(U)는 "음악을 재생하고, 볼륨을 10으로 올려줘"라고 발화할 수 있다. 수신 장치(100)는 "음악을 재생하고, 볼륨을 10으로 올려줘"라는 사용자 발화 음성을 수신하고, 사용자 발화 음성을 음성 데이터로 변환할 수 있다.

수신 장치(100)는 음성 데이터를 음향 장치(200)로 전송하고 음향 장치(200)는 수신 장치(100)로부터 음성 데이터를 수신한다(1630).

동작 1630은 도 8의 동작 1030, 동작 1040 및 동작 1050과 동일할 수 있다.

음향 장치(200)는 수신 장치(100)로부터 수신된 음성 데이터를 AI 서버 장치(400)로 전송하고 AI 서버 장치(300)는 음향 장치(200)로부터 음성 데이터를 수신한다(1640).

수신 장치(100)로부터 음성 데이터를 수신한 음향 장치(200)는 음성 인식을 위하여 음성 데이터를 AI 서버 장치(400)로 전송할 수 있다. 예를 들어, 음향 장치(200)는 유선 통신망 및/또는 무선 통신망을 통하여 AI 서버 장치(400)로 음성 데이터를 전송할 수 있다. 구체적으로, 음향 장치(200)는 통신망과 연결된 케이블을 통하여 AI 서버 장치(400)로 음성 데이터를 전송하거나, 음향장치(200)는 통신망과 연결된 AP 장치를 통하여 AI 서버 장치(400)로 음성 데이터를 전송할 수 있다.

보다 정확한 음성 인식을 위하여 음향 장치(200)는 음성 데이터를 AI 서버 장치(400)로 전송할 수 있다.

AI 서버 장치(400)는 음성 인식을 이용하여 음성 데이터로부터 사용자의 발화 음성에 의한 제어 명령(들)을 인식한다(1650).

AI 서버 장치(400)는 음향 장치(200)에 비하여 고성능의 프로세서를 포함할 수 있으며, 다양한 자연어를 처리하기 위한 음성 인식 알고리즘과 음성 인식에 대한 학습 알고리즘을 포함할 수 있다. 예를 들어, AI 서버 장치(400)는 신경망 회로 등을 이용한 딥 런닝(deep learning)을 이용한 음성 인식을 수행할 수 있다.

AI 서버 장치(400)는 음성 데이터로부터 음성 특징을 추출하고, 음성 특징을 사전에 저장된 음성 모델과 비교할 수 있다. AI 서버 장치(400)는 음성 데이터의 음성 특징과 음성 모델을 비교함으로써 사용자 발화 음성의 의미를 판단할 수 있다.

예를 들어, AI 서버 장치(300)는 "음악을 재생하고, 볼륨을 10으로 올려줘"를 나타내는 음성 데이터에 대하여 음성 인식을 수행할 수 있다. 음성 인식에 의하여 AI 서버 장치(400)는 음악을 재생하기 위한 제어 명령과 음향 출력 볼륨을 증가시키는 제어 명령을 판단할 수 있다.

AI 서버 장치(400)는 음성 인식에 의하여 인식된 제어 명령(들)을 음향 장치(200)로 전송하고 음향 장치(200)는 AI 서버 장치(400)로부터 제어 명령(들)을 수신한다(1660).

AI 서버 장치(400)는 음성 인식에 의하여 인식된 제어 명령(들)들 중에서 음향 장치(200)에 의하여 수행될 수 있는 제어 명령(들)을 판단하고, 음향 장치(200)에 의하여 수행 가능한 제어 명령(들)을 음향 장치(200)로 전송할 수 있다.

예를 들어, AI 서버 장치(400)는 음악 재생 명령과 볼륨 상승 명령을 인식할 수 있다. AI 서버 장치(400)는 음악 재생 명령과 볼륨 상승 명령을 음향 장치(200)로 전송할 수 있다.

음향 장치(200)는 AI 서버 장치(400)로부터 수신된 제어 명령(들)에 따라 동작한다(1670).

음향 장치(200)는 AI 서버 장치(400)의 인성 인식에 의하여 인식된 제어 명령(들)에 따라 동작할 수 있다.

예를 들어, 음향 장치(200)는 음악 재생 명령과 볼륨 상승 명령을 수신할 수 있다. 음향 장치(200)는 음악 재생 어플리케이션을 실행하고, 음악을 재생할 수 있다. 또한, 음향 장치(200)는 운영 체제를 통하여 출력 볼륨을 상승시킬 수 있다.

도 15은 도 13에 도시된 음향 출력 시스템의 음성 인식 동작의 다른 일 예를 도시한다.

도 15와 함께, 음향 출력 시스템(1d)의 음성 인식 동작(1700)이 설명된다.

수신 장치(100)는 사용자로부터 음성 인식 개시를 위한 입력을 수신한다(1710). 동작 1710은 도 14의 동작 1610과 동일할 수 있다.

수신 장치(100)는 사용자로부터 사용자 발화 음성을 수신한다(1720). 동작 1720은 도 14의 동작 1620과 동일할 수 있다.

수신 장치(100)는 음성 데이터를 AI 서버 장치(400)로 직접 전송하고 AI 서버 장치(400)는 수신 장치(100)로부터 음성 데이터를 수신한다(1730).

수신 장치(100)는 통신망을 통하여 음성 데이터를 AI 서버 장치(400)로 전송할 수 있으며, AI 서버 장치(400)는 수신 장치(100)로부터 음성 데이터를 수신할 수 있다. 예를 들어, 수신 장치(100)는 사용자 발화 음성 "음악을 재생하고, 볼륨을 10으로 올려줘"를 나타내는 음성 데이터를 AI 서버 장치(400)로 전송할 수 있으며, AI 서버 장치(400)는 이를 수신할 수 있다.

AI 서버 장치(400)는 음성 인식을 이용하여 음성 데이터로부터 사용자의 발화 음성에 의한 제어 명령(들)을 인식한다(1740). 동작 1740은 도 14의 동작 1650과 동일할 수 있다.

AI 서버 장치(400)는 음성 인식에 의하여 인식된 제어 명령(들)을 수신 장치(100)로 전송하고 수신 장치(100)는 AI 서버 장치(400)로부터 제어 명령(들)을 수신한다(1750).

AI 서버 장치(400)는 음성 인식에 의하여 인식된 제어 명령(들)들 중에서 음향 장치(200)에 의하여 수행될 수 있는 제어 명령(들)을 판단하고, 제어 명령(들)을 음향 장치(200)로 전송하기 위하여 제어 명령(들)을 수신 장치(100)로 전송할 수 있다.

수신 장치(100)는 사용자 장치(300)로부터 수신된 제어 명령(들)을 음향 장치(200)로 전송하고, 음향 장치(200)는 수신 장치(200)로부터 제어 명령(들)을 수신한다(1760).음향 장치(200)는 수신 장치(100)로부터 수신된 제어 명령(들)에 따라 동작한다(1770). 음향 장치(200)는 AI 서버 장치(400)의 인성 인식에 의하여 인식된 제어 명령(들)에 따라 동작할 수 있다.

이상에서 설명된 바와 같이, 음향 출력 시스템(1d)은 복수의 제어 명령(들)을 포함하는 사용자 발화 음성을 사용자(U)로부터 수신할 수 있다. 음향 출력 시스템(1d)은 음향 장치(200)와 별도로 마련된 AI 서버 장치(400)를 이용하여 사용자 발화 음성에 대하여 음성 인식을 수행하여, 복수의 제어 명령(들)을 인식할 수 있다.

AI 서버 장치(400)는 제어 명령(들)을 음향 장치(200)로 전송할 수 있다. 음향 장치(200)는 AI 서버 장치(400)로부터 수신된 제어 명령(들)에 따라 동작할 수 있다.

이처럼, 음향 출력 시스템(1d)은 AI 서버 장치(400)를 이용하여 음성 인식을 수행함으로써 음성 인식의 인식률을 높일 수 있으며, 음향 장치(200)가 음성을 통한 복수의 제어 명령(들)들을 처리하도록 할 수 있다.

도 16는 일 실시예에 의한 음향 출력 시스템의 다른 일 예를 도시한다.

도 16를 참조하면, 음향 출력 시스템(1b)은 사용자 발화 음성을 수신하는 수신 장치(100)와, 음향을 출력하는 음향 장치(200)와, 음향 장치(200)와 통신하는 사용자 장치(300)와, 사용자 장치(300)와 통신하고 사용자 발화 음성을 인식하는 AI 서버 장치(400)를 포함할 수 있다.

수신 장치(100)는 사용자 발화 음성을 수신할 수 있다.

수신 장치(100)는 음향 장치(200) 및/또는 사용자 장치(300) 및/또는 AI 서버 장치(400)와 통신할 수 있으며, 사용자 발화 음성에 대응하는 음성 데이터를 음향 장치(200) 및/또는 사용자 장치(300) 및/또는 AI 서버 장치(400)로 전송할 수 있다.

음향 장치(200)는 음향을 출력할 수 있다.

음향 장치(200)는 수신 장치(100) 및/또는 사용자 장치(300) 및/또는 AI 서버 장치(400)와 통신할 수 있다. 음향 장치(200)는 수신 장치(100)로부터 사용자 발화 음성에 대응하는 음성 데이터를 수신하고, 사용자 장치(300) 및/또는 AI 서버 장치(400)로 수신 장치(100)로부터 수신된 음성 데이터를 전송할 수 있다.

사용자 장치(300)는 통신 기능을 가지는 범용의 컴퓨팅 장치일 수 있다.

사용자 장치(300)는 수신 장치(100) 및/또는 음향 장치(200) 및/또는 AI 서버 장치(400)와 통신할 수 있다. 사용자 장치(300)는 수신 장치(100) 및/또는 음향 장치(200)로부터 사용자 발화 음성에 대응하는 음성 데이터를 수신하고, AI 서버 장치(400)로 수신 장치(100) 및/또는 음향 장치(200)로부터 수신된 음성 데이터를 전송할 수 있다.

AI 서버 장치(400)는 복수의 사용자 장치들과 통신할 수 있으며, 복수의 사용자 장치들로부터 음성 데이터를 수신할 수 있다. 또한, AI 서버 장치(400)는 복수의 사용자 장치들로부터 수신된 음성 데이터를 기반으로 음성 인식에 관하여 기계 학습을 수행할 수 있다.

AI 서버 장치(400)는 수신 장치(100) 및/또는 음향 장치(200) 및/또는 사용자 장치(300)와 통신할 수 있다. AI 서버 장치(400)는 수신 장치(100) 및/또는 음향 장치(200) 및/또는 사용자 장치(300)로부터 사용자 발화 음성에 대응하는 음성 데이터를 수신할 수 있다.

AI 서버 장치(400)는 음성 데이터를 처리하여 사용자 발화 음성의 내용을 인식할 수 있다. AI 서버 장치(400)는 사용자 발화 음성으로부터 인식된 제어 명령(들)을 사용자 장치(300) 및/또는 음향 장치(200)로 전송할 수 있다. 특히, AI 서버 장치(400)는 사용자의 단일 발화 음성에 포함된 서로 다른 복수의 제어 명령(들)을 인식할 수 있으며, 서로 다른 제어 명령(들)을 각각 사용자 장치(300)와 음향 장치(200)로 전송할 수 있다. 예를 들어, 사용자가 "동생에게 전화를 걸고, 볼륨을 10으로 올려줘"라는 음성을 발화하면, AI 서버 장치(400)는 사용자 장치(300)로 동생과의 통화 명령을 전송하고, 음향 장치(200)로 볼륨 조절 명령을 전송할 수 있다.

도 17는 도 16에 도시된 음향 출력 시스템의 음성 인식 동작을 도시한다.

도 17와 함께, 음향 출력 시스템(1b)의 음성 인식 동작(1200)이 설명된다.

수신 장치(100)는 사용자로부터 음성 인식 개시를 위한 입력을 수신한다(1210). 동작 1120은 도 9의 동작 1110과 동일할 수 있다.

수신 장치(100)는 사용자로부터 사용자 발화 음성을 수신한다(1220). 동작 1220은 도 9의 동작 1120과 동일할 수 있다.

수신 장치(100)는 음성 데이터를 음향 장치(200)로 전송하고 음향 장치(200)는 수신 장치(100)로부터 음성 데이터를 수신한다(1230). 동작 1230은 도 9의 동작 1130과 동일할 수 있다.

음향 장치(200)는 수신 장치(100)로부터 수신된 음성 데이터를 사용자 장치(300)로 전송하고 사용자 장치(300)는 음향 장치(200)로부터 음성 데이터를 수신한다(1240). 동작 1240은 도 9의 동작 1140과 동일할 수 있다.

사용자 장치(300)는 음향 장치(200)로부터 수신된 음성 데이터를 AI 서버 장치(400)로 전송하고 AI 서버 장치(400)는 사용자 장치(300)로부터 음성 데이터를 수신한다(1250),

음향 장치(200)로부터 음성 데이터를 수신한 사용자 장치(300)는 음성 인식을 위하여 음성 데이터를 AI 서버 장치(400)로 전송할 수 있다.

AI 서버 장치(400)는 음성 인식을 이용하여 음성 데이터로부터 사용자의 발화 음성에 의한 제어 명령(들)을 인식한다(1260).

예를 들어, AI 서버 장치(400)는 "동생에게 전화를 걸고, 볼륨을 10으로 올려줘"를 나타내는 음성 데이터에 대하여 음성 인식을 수행할 수 있다. 음성 인식에 의하여 AI 서버 장치(400)는 전화를 거는 제어 명령과 음향 출력 볼륨을 증가시키는 제어 명령을 판단할 수 있다.

또한, AI 서버 장치(400)는 음성 인식에 의하여 인식된 제어 명령(들)들 중에서 사용자 장치(300)에 의하여 수행될 수 있는 제1 제어 명령(들)과 음향 장치(200)에 의하여 수행될 수 있는 제2 제어 명령(들)을 구별할 수 있다.

예를 들어, AI 서버 장치(400)는 통화 명령과 볼륨 상승 명령을 인식할 수 있으며, 통화 명령은 사용자 장치(300)에 의하여 수행되는 제1 제어 명령으로 판단하고 볼륨 상승 명령은 음향 장치(200)에 의하여 수행될 수 있는 제2 제어 명령으로 판단할 수 있다.

또한, AI 서버 장치(400)는 음성 데이터에 대하여 음성 인식을 수행하고, 음성 인식에 의하여 인식된 사용자 발화 음성에 응답하여 응답 음성을 생성할 수 있다.

AI 서버 장치(400)는 음성 인식에 의하여 인식된 제1 및 제2 제어 명령(들)을 사용자 장치(300)로 전송하고 사용자 장치(300)는 AI 서버 장치(400)로부터 제1 및 제2 제어 명령(들)을 수신한다(1270).

통화 명령과 볼륨 상승 명령을 각각 사용자 장치(300)와 음향 장치(200)로 전송하기 위하여 AI 서버 장치(400)는 통화 명령과 볼륨 상승 명령을 사용자 장치(300)로 전송할 수 있다.

사용자 장치(300)는 AI 서버 장치(400)로부터 수신된 제1 제어 명령(들)에 따라 동작한다(1275).

사용자 장치(300)는 AI 서버 장치(400)로부터 수신된 복수의 제어 명령(들) 중에 사용자 장치(300)에 대한 제1 제어 명령(들)에 따라 동작할 수 있다. 예를 들어, AI 서버 장치(400)로부터 수신된 통화 명령에 응답하여 사용자 장치(300)는 타인과의 통화를 수행하기 위한 통화 어플리케이션을 실행하고, 연락처에서 "동생"을 검색하여 "동생"과의 통화를 시도할 수 있다.

사용자 장치(300)는 AI 서버 장치(400)로부터 수신된 제2 제어 명령(들)을 음향 장치(200)로 전송하고 음향 장치(200)는 사용자 장치(300)로부터 제2 제어 명령(들)을 수신한다(1280).

사용자 장치(300)는 AI 서버 장치(400)로부터 수신된 복수의 제어 명령(들) 중에 음향 장치(200)에 대한 제2 제어 명령(들)을 음향 장치(200)로 전송할 수 있다. 예를 들어, 사용자 장치(300)는 AI 서버 장치(400)로부터 수신된 볼륨 상승 명령을 음향 장치(200)로 전송할 수 있다.

음향 장치(200)는 사용자 장치(300)로부터 수신된 제2 제어 명령(들)에 따라 동작한다(1285).

음향 장치(200)는 사용자 장치(300)로부터 수신된 제2 제어 명령(들)에 따라 동작할 수 있다. 예를 들어, 음향 장치(200)는 사용자 장치(300)로부터 볼륨 상승 명령을 수신할 수 있으며, 운영 체제를 통하여 음향 출력부(250)의 출력 볼륨을 상승시킬 수 있다.

이상에서 설명된 바와 같이, 음향 출력 시스템(1b)은 복수의 제어 명령(들)을 포함하는 사용자 발화 음성을 사용자(U)로부터 수신할 수 있다. 음향 출력 시스템(1b)은 음향 장치(200) 및 사용자 장치(300)와 별도로 마련된 AI 서버 장치(400)를 이용하여 사용자 발화 음성에 대하여 음성 인식을 수행하여, 복수의 제어 명령(들)을 인식할 수 있다. AI 서버 장치(400)는 인식된 제어 명령(들)을 사용자 장치(300)와 음향 장치(200)로 각각 전송할 수 있다.

이처럼, 음향 출력 시스템(1b)은 AI 서버 장치(400)를 이용하여 음성 인식을 수행함으로써 음성 인식의 인식률을 높일 수 있으며, 사용자 장치(300)와 음향 장치(200)가 음성을 통한 복수의 제어 명령(들)을 각각 처리하도록 할 수 있다.

뿐만 아니라, 수신 장치(100)는 사용자 장치(300)와 통신할 수 있으며, 수신 장치(100)는 음성 데이터를 사용자 장치(300)로 전송할 수 있다. 사용자 장치(300)는 음성 데이터를 AI 서버 장치(400)로 전송하고, AI 서버 장치(400)는 음성 인식을 이용하여 음성 데이터로부터 제어 명령(들)을 인식할 수 있다. AI 서버 장치(400)는 제어 명령(들)을 사용자 장치(300)로 전송하고, 사용자 장치(300)는 제어 명령(들)을 수신 장치(100)로 전송할 수 있다. 수신 장치(100)는 제어 명령(들)을 음향 장치(200)로 전송하고, 음향 장치(200)는 수신 장치(100)로부터 수신된 제어 명령(들)에 따라 동작할 수 있다.

도 18은 일 실시예에 의한 음향 출력 시스템의 다른 일 예를 도시한다.

도 18을 참조하면, 음향 출력 시스템(1c)은 사용자 발화 음성을 수신하는 수신 장치(100)와, 사용자 발화 음성을 인식하고 제어 명령(들)에 따라 음향을 출력하는 음향 장치(200)를 포함할 수 있다.

수신 장치(100)는 도 1에 도시된 것과 동일할 수 있다.

음향 장치(200)는 음향을 출력할 수 있다.

음향 장치(200)는 수신 장치(100)와 유선으로 또는 무선으로 통신할 수 있으며, 사용자 발화 음성에 대응하는 음성 데이터를 수신 장치(100)로부터 유선으로 또는 무선으로 수신할 수 있다.

음향 장치(200)는 음성 데이터를 처리하여 사용자 발화 음성의 내용을 인식할 수 있다. 예를 들어, 음향 장치(200)는 인식된 발화 음성의 내용에 따라 다양한 동작을 수행하거나, 사용자 발화 음성에 응답하여 응답 음성을 출력할 수 있다.

음향 장치(200)는 전자 장치들(2~5)과 유선으로 또는 무선으로 통신할 수 있으며, 사용자 발화 음성으로부터 인식된 제어 명령(들)을 전자 장치들(2~5)로 전송할 수 있다. 예를 들어, 음향 장치(200)는 텔레비전(2) 또는 냉장고(3) 또는 세탁기(4) 또는 전자레인지(5) 등과 유선으로 또는 무선으로 통신할 수 있으며, 사용자 발화 음성으로부터 인식된 제어 명령(들)을 텔레비전(2) 또는 냉장고(3) 또는 세탁기(4) 또는 전자레인지(5) 등을 전송할 수 있다.

특히, 음향 장치(200)는 사용자 발화 음성으로부터 인식된 사용자 발화 음성의 내용으로부터 제어 명령(들)의 전송 대상을 판단할 수 있다. 구체적으로, 음향 장치(200)는 사용자 발화 음성으로부터 전자 장치들(2~5)의 명칭을 추출하고, 전자 장치(2~3)의 명칭을 기초로 제어 명령(들)의 전송 대상을 판단할 수 있다.

예를 들어, 사용자 발화 음성으로부터 인식된 사용자 발화 음성의 내용에 "텔레비전" 또는 "TV"가 포함되면, 음향 장치(200)는 사용자 발화 음성으로부터 인식된 제어 명령(들)의 전송 대상을 텔레비전(2)으로 판단할 수 있다. 또한, 사용자 발화 음성의 내용에 "전자레인지"가 포함되면, 음향 장치(200)는 제어 명령(들)의 전송 대상을 전자레인지(5)로 판단할 수 있다.

이처럼, 음향 장치(200)는 수신 장치(100)로부터 수신된 음성 데이터에 대하여 음성 인식을 수행하여 사용자 발화 음성의 내용을 인식하고, 사용자 발화 음성의 내용으로부터 인식된 전자 장치(2~5)로 사용자 발화 음성의 내용으로부터 인식된 제어 명령(들)을 전송할 수 있다.

이상에서는 음향 장치(200)가 음성 데이터에 대하여 음성 인식을 수행하는 것이 설명되었으나, 이에 한정되는 것은 아니다. 예를 들어, 음향 출력 시스템(1c)은 도 9 및 도 16에 도시된 바와 같이 사용자 장치(300) 및/또는 AI 서버 장치(400)를 더 포함할 수 있다. 또한, 사용자 장치(300) 및/또는 AI 서버 장치(400)가 음성 데이터에 대하여 음성 인식을 수행하고, 음향 장치(200)로 사용자 발화 음성으로부터 인식된 제어 명령(들)을 전송할 수 있다.

다만, 이상에서 설명된 바에 한정되는 것은 아니며, 수신 장치(100)는 음성 데이터를 처리하여 사용자 발화 음성의 내용을 인식하고 전자 장치들(2~5)과 유선으로 또는 무선으로 통신할 수 있다. 또한, 수신 장치(100)는 사용자 발화 음성을 수신하고 사용자 발화 음성으로부터 인식된 제어 명령(들)을 전자 장치들(2~5)로 전송할 수 있다.

도 19은 도 18에 도시된 음향 출력 시스템의 음성 인식 동작의 일 예를 도시한다. 도 20은 도 18에 도시된 음향 출력 시스템이 제어 명령(들)을 처리하는 일 예를 도시한다.

도 19 및 도 20과 함께, 음향 출력 시스템(1b)의 음성 인식 동작(1300)이 설명된다.

수신 장치(100)는 사용자로부터 음성 인식 개시를 위한 입력을 수신한다(1310).

동작 1310은 도 8의 동작 1010과 동일할 수 있다. 예를 들어, 도 20에 도시된 바와 같이 사용자(U)는 수신 장치(100)가 사용자 발화 음성을 수신하고 음향 장치(200)가 음성 인식을 활성화하도록 "음향 장치"라고 발화할 수 있다. 사용자(U)의 음성 인식 개시어("음향 장치")에 응답하여, 수신 장치(100)는 사용자 발화 음성의 수신을 개시할 수 있다.

수신 장치(100)는 사용자로부터 사용자 발화 음성을 수신한다(1320).

동작 1320은 도 8의 동작 1020과 동일할 수 있다. 예를 들어, 도 20에 도시된 바와 같이 사용자(U)는 음성 인식 개시어 "음향 장치"를 발화한 이후 "TV를 끄고, 전자레인지 남은 시간 알려줘"라고 발화할 수 있다. 수신 장치(100)는 "TV를 끄고, 전자레인지 남은 시간 알려줘"라는 사용자 발화 음성을 수신하고, 사용자 발화 음성을 음성 데이터로 변환할 수 있다.

수신 장치(100)는 음성 데이터를 음향 장치(200)로 전송하고 음향 장치(200)는 수신 장치(100)로부터 음성 데이터를 수신한다(1330).

동작 1330은 도 8의 동작 1030, 동작 1040 및 동작 1050과 동일할 수 있다.

음향 장치(200)는 음성 인식을 이용하여 음성 데이터로부터 사용자의 발화 음성에 의한 제어 명령(들)을 인식한다(1340).

음향 장치(200)는 음성 데이터로부터 음성 특징을 추출하고, 음성 특징을 사전에 저장된 음성 모델과 비교할 수 있다. 음향 장치(200)는 음성 데이터의 음성 특징과 음성 모델을 비교함으로써 사용자 발화 음성의 의미를 판단할 수 있다.

예를 들어, 도 20에 도시된 바와 같이 음향 장치(200)는 "TV를 끄고, 전자레인지 남은 시간 알려줘"를 나타내는 음성 데이터에 대하여 음성 인식을 수행할 수 있다. 음성 인식에 의하여 음향 장치(200)는 텔레비전(2)의 전원을 오프시키는 제어 명령과 전자레인지(5)에 대한 남은 조리 시간을 체크하는 제어 명령을 판단할 수 있다.

음향 장치(200)는 음성 인식에 의하여 인식된 제어 명령(들)을 전자 장치(2, 5)으로 전송한다(1350, 1355).

음향 장치(200)는 음성 인식에 의하여 인식된 제어 명령(들)들 중에서 전자 장치(2, 5)에 의하여 수행될 수 있는 제1 및 제2 제어 명령(들)을 판단하고, 제1 및 제2 제어 명령(들)을 전자 장치(2, 5)로 전송할 수 있다.

예를 들어, 도 19에 도시된 바와 같이 음향 장치(200)는 텔레비전(2)의 전원 오프 명령과 전자레인지(5)의 시간 체크 명령을 인식할 수 있다. 음향 장치(200)는 텔레비전(2)의 전원 오프 명령은 텔레비전(2)에 의하여 수행되는 제1 제어 명령으로 판단할 수 있다. 음향 장치(200)는 텔레비전(2)의 전원 오프 명령을 텔레비전(2)으로 전송할 수 있다. 또한, 음향 장치(200)는 전자레인지(5)의 시간 체크 명령은 전자레인지(5)에 의하여 수행되는 제2 제어 명령으로 판단할 수 있다. 음향 장치(200)는 전자레인지(5)의 시간 체크 명령을 전자레인지(5)로 전송할 수 있다.

전자 장치(2, 5)는 음향 장치(200)로부터 수신된 제어 명령(들)에 따라 동작한다(1360, 1365).

전자 장치(2, 5)는 음향 장치(200)로부터 제1 또는 제2 제어 명령(들)을 수신할 수 있으며, 음향 장치(200)로부터 수신된 제1 또는 제2 제어 명령(들)에 따라 동작할 수 있다.

예를 들어, 도 20에 도시된 바와 같이 텔레비전(2)은 전원 오프 명령을 수신할 수 있으며, 전원 오프 명령에 응답하여 턴오프될 수 있다. 또한, 전자레인지(5)는 시간 체크 명령을 수신할 수 있으며, 시간 체크 명령에 응답하여 조리 잔여 시간을 체크할 수 있다.

전자 장치(2, 5)는 음향 장치(200)로 응답 신호를 전송하고, 음향 장치(200)는 전자 장치(2, 5)로부터 응답 신호를 수신한다(1370, 1375).

전자 장치(2, 5)는 제어 명령(들)에 따른 동작 결과에 관한 정보를 포함하는 응답 신호를 음향 장치(200)로 전송할 수 있다. 예를 들어, 도 20에 도시된 바와 같이 텔레비전(2)은 턴오프되면서 음향 장치(200)로 턴오프 상태를 나타내는 응답 신호를 전송할 수 있다. 또한, 전자레인지(5)는 조리 잔여 시간을 나타내는 응답 신호를 전송할 수 있다.

음향 장치(200)는 전자 장치(2, 5)로부터 동작 결과에 관한 정보를 수신할 수 있다.

음향 장치(200)는 전자 장치(2, 5)의 응답 신호에 따라 응답을 출력한다(1380).

음향 장치(200)는 전자 장치(2, 5)의 응답 신호의 수신에 응답하여 응답을 음성으로 출력할 수 있다.

예를 들어, 도 20에 도시된 바와 같이 음향 장치(200)는 텔레비전(2)의 응답 신호에 응답하여 "TV가 꺼졌습니다"라는 음성을 합성하고, 합성된 응답 음성을 출력할 수 있다. 또한, 음향 장치(200)는 전자레인지(5)의 응답 신호에 응답하여 "전자레인지가 10분 남았습니다"라는 음성을 합성하고, 합성된 응답 음성을 출력할 수 있다.

이상에서 설명된 바와 같이, 음향 출력 시스템(1c)은 사용자 발화 음성에 대하여 음성 인식을 수행할 수 있다. 음향 출력 시스템(1c)은 전자 장치들(2~5)이 음성 인식에 의하여 인식된 제어 명령(들)에 따라 동작하도록 제어 명령(들)을 전자 장치들(2~5)로 전송할 수 있다. 또한, 음향 장치(200)는 전자 장치들(2~5)로부터 동작 결과를 수신하고, 전자 장치들(2~5)의 동작 결과를 음성을 출력할 수 있다.

이처럼, 음향 출력 시스템(1c)은 복수의 전자 장치들(2~5)에 사용자 발화 음성에 의한 제어 명령(들)을 전송할 수 있으며, 사용자(U)가 쉽게 복수의 전자 장치들(2~5)을 제어할 수 있도록 할 수 있다.

이상에서는 수신 장치(100)가 사용자 발화 음성을 수신하고, 음향 장치(200)가 사용자 발화 음성에 대하여 음성 인식을 수행하고 이후 전자 장치들(2~5)로 제어 명령을 전송하는 것이 설명되었으나, 이에 한정되는 것은 아니다. 예를 들어, 수신 장치(100)가 사용자 발화 음성을 수신하고 이후 사용자 발화 음성에 대하여 음성 인식을 수행하고, 음향 장치(200)는 인식된 사용자 발화 음성에 따라 제어 명령을 전자 장치들(2~5)로 전송할 수 있다.

다만, 이상에서 설명된 바에 한정되는 것은 아니며, 수신 장치(100)는 사용자 발화 음성을 수신하고 사용자 발화 음성으로부터 인식된 제어 명령(들)을 전자 장치들(2~5)로 전송할 수 있다.

도 21는 도 18에 도시된 음향 출력 시스템의 음성 인식 동작의 다른 일 예를 도시한다. 도 22은 도 18에 도시된 음향 출력 시스템이 제어 명령(들)을 처리하는 다른 일 예를 도시한다.

도 21 및 도 22과 함께, 음향 출력 시스템(1b)의 음성 인식 동작(1400)이 설명된다.

수신 장치(100)는 부착된 전자 장치를 판단한다(1405).

수신 장치(100)는 부착 위치 감지부(130)를 이용하여 부착된 전자 장치의 전기적 특징 및/또는 자기적 특징을 감지할 수 있으며, 전자 장치의 전기적 특징 및/또는 자기적 특징을 기초로 전자 장치를 식별할 수 있다. 다시 말해, 수신 장치(100)는 전기적 특징 및/또는 자기적 특징을 기초로 수신 장치(100)가 부착된 전자 장치가 텔레비전(2)인지 또는 냉장고(3)인지 또는 세탁기(4)인지 또는 전자레인지(5)인지를 판할 수 있다.

예를 들어, 부착 위치 감지부(130)는 수신 장치(100)가 부착된 전자 장치의 전기적 특성을 수집하는 전극(131)를 포함할 수 있다.

전극(131)은 수신 장치(100)가 부착된 전자 장치의 전기적 특성 예를 들어 전기 전도도 및/또는 전기적 저항값 등을 판단하기 위한 정보를 수집하기 위한 한 쌍의 전극(131a, 131b)을 포함할 수 있다.

한 쌍의 전극(131a, 131b)은 수신 장치(100)가 전자 장치에 고정될 때 전자 장치와 접촉할 수 있으며, 제어부(140)와 연결될 수 있다. 제어부(140)는 한 쌍의 전극(131a, 131b) 사이에 전압을 인가할 수 있다. 한 쌍의 전극(131a, 131b) 사이에 전압이 인가되면 전류는 한 쌍의 전극(131a, 131b)과 전자 장치를 통과하여 흐를 수 있다.

제어부(140)는 한 쌍의 전극(131a, 131b)과 전자 장치를 통과하여 흐르는 전류값에 기초하여 전자 장치의 전기 전도도 및/또는 전기적 저항값 등의 전기적 특성을 판단할 수 있다. 구체적으로, 제어부(140)는 전자 장치의 전기적 특성이 저장된 룩업 테이블을 기초로 수신 장치(100)가 부착된 전자 장치를 식별할 수 있다.

다만, 이에 한정되는 것은 아니며, 제어부(140)는 부착된 전자 장치의 전기적 특성을 저장하고, 아래에서 설명하는 바와 같이 부착된 전자 장치의 전기적 특성을 음향 장치(200)로 전송할 수 있다.

다른 예로, 부착 위치 감지부(130)는 수신 장치(100)가 부착된 전자 장치의 자기적 특성을 수집하는 자기장 센서(132)를 포함할 수 있다.

자기장 센서(132)는 수신 장치(100)가 부착된 전자 장치의 자기적 특성 예를 들어 자성체인지 또는 비자성체인지를 판단하기 위한 정보를 수집하기 위한 홀 센서(132a)를 포함할 수 있다.

수신 장치(100)는 자석에 의하여 전자 장치에 부착될 수 있으며, 전자 장치가 자성체이면 자석의 자기장에 의하여 전자 장치에 자기장이 형성되며, 홀 센서(132a)는 전자 장치에 형성된 자기장을 검출할 수 있다 반면, 전자 장치가 비자성체이면 전자 장치에 자기장이 형성되지 아니하며 홀 센서(132a)는 자기장을 검출하지 못할 수 있다. 홀 센서(132a)는 자기장의 검출 결과를 제어부(140)로 전달할 수 있다.

제어부(140)는 홀 센서(132a)로부터의 신호를 기초로 전자 장치의 자기적 특성을 판단할 수 있다. 구체적으로, 제어부(140)는 전자 장치의 자기적 특성이 저장된 룩업 테이블을 기초로 수신 장치(100)가 부착된 전자 장치를 식별할 수 있다.

다만, 이에 한정되는 것은 아니며, 제어부(140)는 부착된 전자 장치의 자기적 특성을 저장하고, 아래에서 설명하는 바와 같이 부착된 전자 장치의 자기적 특성을 음향 장치(200)로 전송할 수 있다.

도 22에 도시된 바와 같이 수신 장치(100)가 전자레인지(5)의 측벽에 부착된 경우, 부착 위치 감지부(130)는 전자레인지(5)의 측벽의 전기적 특성 및/또는 자기적 특성을 수집할 수 있으며, 전자레인지(5)의 측벽의 전기적 특성 및/또는 자기적 특성을 제어부(140)로 전송할 수 있다. 제어부(140)는 전자레인지(5)의 측벽의 전기적 특성 및/또는 자기적 특성과 룩업 테이블에 저장된 전기적 특성 및/또는 자기적 특성을 비교하여, 수신 장치(100)가 부착된 전자 장치를 전자레인지(5)로 판단할 수 있다.

수신 장치(100)는 사용자로부터 음성 인식 개시를 위한 입력을 수신한다(1410).

동작 1410은 도 8의 동작 1010과 동일할 수 있다. 예를 들어, 도 22에 도시된 바와 같이 사용자(U)는 수신 장치(100)가 사용자 발화 음성을 수신하고 음향 장치(200)가 음성 인식을 활성화하도록 "음향 장치"라고 발화할 수 있다. 사용자(U)의 음성 인식 개시어("음향 장치")에 응답하여, 수신 장치(100)는 사용자 발화 음성의 수신을 개시할 수 있다.

수신 장치(100)는 사용자로부터 사용자 발화 음성을 수신한다(1420).

동작 1420은 도 8의 동작 1020과 동일할 수 있다. 예를 들어, 도 22에 도시된 바와 같이 사용자(U)는 음성 인식 개시어 "음향 장치"를 발화한 이후 "요리 남은 시간을 알려줘"라고 발화할 수 있다. 수신 장치(100)는 사용자의 "요리 남은 시간을 알려줘"라는 사용자 발화 음성을 수신하고, 사용자 발화 음성을 음성 데이터로 변환할 수 있다.

수신 장치(100)는 수신 장치(100)가 부착된 전자 장치에 관한 정보와 음성 데이터를 음향 장치(200)로 전송하고 음향 장치(200)는 수신 장치(100)가 부착된 전자 장치에 관한 정보와 음성 데이터를 수신한다(1430).

부착된 전자 장치에 관한 정보는 예를 들어 전자레인지(5)의 식별 정보를 포함하거나, 또는 전자레인지(5)의 전기적 특성/자기적 특성을 포함할 수 있다.

음향 장치(200)는 음성 인식을 이용하여 음성 데이터로부터 사용자의 발화 음성에 의한 제어 명령(들)을 인식한다(1440).

예를 들어, 도 22에 도시된 바와 같이 음향 장치(200)는 "요리 남은 시간을 알려줘"를 나타내는 음성 데이터에 대하여 음성 인식을 수행할 수 있다. 음성 인식에 의하여 음향 장치(200)는 남은 시간을 체크하는 제어 명령을 판단할 수 있다.

음향 장치(200)는 수신 장치(100)가 부착된 전자 장치에 관한 정보를 기초로 제어 명령(들)의 대상 전자 장치(2~5)를 판단한다(1450).

수신 장치(100)는 수신 장치(100)가 부착된 전자 장치의 전기적 특성 및/또는 자기적 특성을 수집하고, 이후 부착된 전자 장치의 전기적 특성 및/또는 자기적 특성을 기초로 부착된 전자 장치를 식별할 수 있다. 이후, 수신 장치(100)는 수신 장치(100)가 부착된 전자 장치의 식별 정보를 음향 장치(200)로 전송할 수 있다. 수신 장치(100)가 부착된 전자 장치의 식별 정보를 수신한 경우, 음향 장치(200)는 전자 장치의 식별 정보를 기초로 제어 명령(들)의 대상 전자 장치(2~5)를 판단할 수 있다.

또한, 수신 장치(100)는 수신 장치(100)가 부착된 전자 장치의 전기적 특성 및/또는 자기적 특성을 수집하고, 이후 전자 장치의 전기적 특성 및/또는 자기적 특성을 음향 장치(200)로 전송할 수 있다. 전자 장치의 전기적 특성 및/또는 자기적 특성을 수신한 경우, 음향 장치(200)는 전자 장치의 전기적 특성 및/또는 자기적 특성이 저장된 룩업 테이블을 기초로 수신 장치(100)가 부착된 전자 장치를 식별할 수 있으며 사용자 명령의 대상 전자 장치(2~5)를 판단할 수 있다.

예를 들어, 도 22에 도시된 바와 같이 음향 장치(200)는 수신 장치(100)로부터 전송된 전자레인지(5)의 식별 정보 또는 전자레인지(5)의 전기적 특성/자기적 특성을 기초로 제어 명령(들)의 대상 전자 장치를 전자레인지(5)로 판단할 수 있다.

음향 장치(200)는 제어 명령(들)의 대상 전자 장치(2~5)로 제어 명령(들)을 전송한다(1460).

제어부(240)는 음성 데이터로부터 인식된 제어 명령(들)을 대상 전자 장치(2~5)로 통신부(220)를 통하여 전송할 수 있다.

전자 장치(2, 5)는 음향 장치(200)로부터 수신된 제어 명령(들)에 따라 동작한다(1470).

동작 1470은 도 19에 도시된 동작 1360 및 1365과 동일할 수 있다. 예를 들어, 도 22에 도시된 바와 같이 전자레인지(5)는 시간 체크 명령을 수신할 수 있으며, 시간 체크 명령에 응답하여 조리 잔여 시간을 체크할 수 있다.

전자 장치(2, 5)는 음향 장치(200)로 응답 신호를 전송하고, 음향 장치(200)는 전자 장치(2, 5)로부터 응답 신호를 수신한다(1480).

동작 1480은 도 19에 도시된 동작 1370 및 1375과 동일할 수 있다. 예를 들어, 도 22에 도시된 바와 같이 전자레인지(5)는 조리 잔여 시간을 나타내는 응답 신호를 전송할 수 있다.

음향 장치(200)는 전자 장치(2, 5)의 응답 신호에 따라 응답을 출력한다(1490).

동작 1490는 도 19에 도시된 동작 1380과 동일할 수 있다. 예를 들어, 도 22에 도시된 바와 같이 음향 장치(200)는 음향 장치(200)는 전자레인지(5)의 응답 신호에 응답하여 "전자레인지가 5분 남았습니다"라는 음성을 합성하고, 합성된 응답 음성을 출력할 수 있다.

이상에서 설명된 바와 같이, 음향 출력 시스템(1c)은 수신 장치(100)가 부착된 전자 장치를 식별할 수 있으며, 사용자 발화 음성에 대하여 음성 인식을 수행할 수 있다. 음향 출력 시스템(1c)은 수신 장치(100)가 부착된 전자 장치(2~5)가 음성 인식에 의하여 인식된 제어 명령(들)에 따라 동작하도록 제어 명령(들)을 수신 장치(100)가 부착된 전자 장치(2~5)가로 전송할 수 있다. 또한, 음향 장치(200)는 전자 장치(2~5)로부터 동작 결과를 수신하고, 전자 장치(2~5)의 동작 결과를 음성을 출력할 수 있다.

이처럼, 음향 출력 시스템(1c)은 수신 장치(100)가 부착된 전자 장치에 사용자 발화 음성에 의한 제어 명령(들)을 전송할 수 있으며, 사용자(U)가 쉽게 제어 대상을 설정할 수 있도록 할 수 있다.

이상에서는 수신 장치(100)가 부착 위치를 감지하고 사용자 발화 음성을 수신하고, 음향 장치(200)가 사용자 발화 음성에 대하여 음성 인식을 수행하고 이후 수신 장치(100)의 부착 위치로부터 판단된 전자 장치(5)로 제어 명령을 전송하는 것이 설명되었으나, 이에 한정되는 것은 아니다. 예를 들어, 수신 장치(100)가 수신 장치(100)가 부착된 전자 장치(5)를 판단하고 사용자 발화 음성에 대하여 음성 인식을 수행하고, 이후 수신 장치(100)가 부착된 전자 장치(5)의 판단 결과와 음성 인식 결과에 따라 제어 명령을 생성할 수 있다. 또한, 음향 장치(200)는 수신 장치(100)로부터 수신된 제어 명령을 해당 전자 장치(5)로 전송할 수 있다.

한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.

컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.

이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 게시된 실시예가 속하는 기술분야에서 통상의 지식을 가진 자는 게시된 실시예의 기술적 사상이나 필수적인 특성을 변경하지 않고도, 개시된 실시예들과 다른 형태로 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.

1, 1a, 1b, 1c: 음향 출력 시스템
100: 수신 장치 200: 음향 장치
300: 사용자 장치 400: AI 서버 장치

Claims

사용자 조작을 입력 받는 수신 장치; 및
상기 수신 장치로부터 수신된 사용자 조작에 따른 동작을 수행하는 음향 장치를 포함하되,
상기 음향 장치는,
음향 출력부;
상기 수신 장치와 통신하는 제1 통신부; 및
상기 제1 통신부를 통하여 상기 수신 장치로부터 수신된 명령에 따라 동작을 수행하도록 상기 음향 장치를 제어하는 제어부를 포함하고
상기 수신 장치는 상기 음향 장치에 탈부착이 가능하며, 상기 수신 장치의 서로 다른 부착 위치에 따라 동일한 사용자 조작에 응답하여 서로 다른 명령을 상기 음향 장치로 전송하는 음향 출력 시스템.
제1항에 있어서,
상기 사용자 조작은 음성 명령을 포함하며,
상기 수신 장치는 상기 음성 명령을 상기 음향 장치로 전송하고,
상기 제어부는 상기 수신 장치로부터 수신된 음성 명령을 인식하여, 상기 인식된 음성 명령에 따른 동작을 수행하도록 상기 음향 장치를 제어하는 음향 출력 시스템.
제2항에 있어서,
상기 음향 장치는 사용자 장치와 통신하는 제2 통신부를 더 포함하고,
상기 제어부는 상기 음성 명령을 상기 사용자 장치로 전송하도록 상기 제2 통신부를 제어하고, 상기 제2 통신부를 통하여 상기 사용자 장치로부터 상기 사용자 장치에 의하여 인식된 음성 명령을 수신하는 음향 출력 시스템.
제2항에 있어서,
상기 음향 장치는 복수의 전자 장치들과 통신하는 제2 통신부를 더 포함하고,
상기 제어부는 상기 인식된 음성 명령을 상기 복수의 전자 장치들 중 적어도 하나로 전송하도록 상기 제2 통신부를 제어하는 음향 출력 시스템.
제2항에 있어서,
상기 음향 장치는 복수의 전자 장치들과 통신하는 제2 통신부를 더 포함하고,
상기 제어부는 상기 제1 통신부를 통하여 상기 수신 장치가 부착된 전자 장치에 관한 정보와 상기 음성 명령을 수신하고, 상기 수신 장치가 부착된 전자 장치로 상기 인식된 음성 명령을 상기 제2 통신부를 통하여 전송하는 음향 출력 시스템.
제5항에 있어서,
상기 수신 장치가 부착된 전자 장치에 관한 정보는 상기 전자 장치의 전기적 특성 또는 자기적 특성을 포함하고,
상기 제어부는 상기 전자 장치의 전기적 특성 또는 자기적 특성과 사전에 메모리에 저장된 전기적 특성 또는 자기적 특성을 비교하여 상기 수신 장치가 부착된 전자 장치를 식별하는 음향 출력 시스템.
제1항에 있어서,
상기 사용자 조작은 복수의 음성 명령들을 포함하며,
상기 수신 장치는 상기 복수의 음성 명령들을 상기 음향 장치로 전송하고,
상기 제어부는 상기 제1 통신부를 통해 수신된 복수의 음성 명령들을 인식하여, 상기 인식된 복수의 음성 명령에 따라 복수의 동작들을 순차적으로 수행하도록 상기 음향 장치를 제어하는 음향 출력 시스템.
제1항에 있어서,
상기 사용자 조작은 음성 명령을 포함하며,
상기 수신 장치는 상기 음성 명령을 사용자 장치로 전송하고, 상기 사용자 장치로부터 상기 사용자 장치에 의하여 인식된 음성 명령을 수신하고, 상기 인식된 음성 명령을 상기 음향 장치로 전송하고,
상기 제어부는 상기 수신 장치로부터 수신된 음성 명령에 따른 동작을 수행하도록 상기 음향 장치를 제어하는 음향 출력 시스템.
수신 장치에 의하여, 사용자 조작을 수신하고;
음향 장치에 의하여, 상기 수신 장치로부터 수신된 사용자 조작에 따른 명령에 따라 동작을 수행하는 것을 포함하고,
상기 수신 장치는 상기 음향 장치에 탈부착이 가능하며, 상기 수신 장치의 서로 다른 부착 위치에 따라 동일한 사용자 조작에 응답하여 서로 다른 명령을 음향 장치로 전송하는 음성 처리 방법.
제9항에 있어서,
상기 사용자 조작은 음성 명령을 포함하며,
상기 동작을 수행하는 것은,
상기 음향 장치에 의하여 상기 수신 장치로부터 상기 음성 명령을 수신하고, 상기 수신 장치로부터 수신된 음성 명령을 인식하여 상기 인식된 음성 명령에 따른 동작을 수행하는 것을 포함하는 음성 처리 방법.
제10항에 있어서, 상기 동작을 수행하는 것은,
상기 음향 장치에 의하여, 상기 음성 명령 사용자 장치로 전송하고, 상기 사용자 장치에 의하여 인식된 음성 명령에 따른 동작을 수행하는 것을 포함하는 음성 처리 방법.
제10항에 있어서, 상기 동작을 수행하는 것은,
상기 음향 장치에 의하여, 상기 인식된 음성 명령을 복수의 전자 장치들 중 적어도 하나로 전송하는 것을 포함하는 음성 처리 방법.
제10항에 있어서, 상기 동작을 수행하는 것은,
상기 음향 장치에 의하여, 상기 수신 장치가 부착된 전자 장치에 관한 정보와 상기 음성 명령을 수신하고, 상기 수신 장치가 부착된 전자 장치로 상기 인식된 음성 명령을 상기 수신 장치가 부착된 전자 장치로 전송하는 것을 포함하는 음성 처리 방법.
제13항에 있어서,
상기 수신 장치가 부착된 전자 장치에 관한 정보는 상기 전자 장치의 전기적 특성 또는 자기적 특성을 포함하고,
상기 음향 장치에 의하여, 상기 전자 장치의 전기적 특성 또는 자기적 특성과 사전에 메모리에 저장된 전기적 특성 또는 자기적 특성을 비교하여 상기 수신 장치가 부착된 전자 장치를 식별하는 것을 더 포함하는 음성 처리 방법.
제9항에 있어서,
상기 사용자 조작은 복수의 음성 명령들을 포함하며,
상기 동작을 수행하는 것은, 상기 음향 장치에 의하여 상기 수신 장치로부터 상기 복수의 음성 명령들을 수신하고, 상기 수신 장치로부터 수신된 복수의 음성 명령들을 인식하여 상기 인식된 복수의 음성 명령들에 따른 동작을 순차적으로 수행하는 것을 포함하는 음성 처리 방법.
제9항에 있어서,
상기 사용자 조작은 복수의 음성 명령들을 포함하며,
상기 수신 장치에 의하여, 상기 음성 명령을 사용자 장치로 전송하고, 상기 사용자 장치로부터 상기 사용자 장치에 의하여 인식된 음성 명령을 수신하고, 상기 인식된 음성 명령을 상기 음향 장치로 전송하고;
상기 음향 장치에 의하여, 상기 수신 장치로부터 수신된 음성 명령에 따른 동작을 수행하는 것을 더 포함하는 음성 처리 방법.
사용자 음성 명령을 수신하는 수신 장치; 및
상기 수신 장치로부터 수신된 사용자 음성 명령에 따라 동작하는 음향 장치를 포함하되,
상기 수신 장치는
상기 사용자 음성 명령을 수신하는 마이크로폰;
상기 음향 장치와 통신하는 통신부;
상기 수신 장치가 부착된 위치에 관한 정보를 수집하는 부착 위치 감지부; 및
상기 수신 장치가 부착된 위치에 관한 정보와 상기 사용자 음성 명령을 상기 음향 장치로 전송하도록 상기 통신부를 제어하는 제어부를 포함하는 음향 출력 시스템.
제17항에 있어서,
상기 위치에 관한 정보는 상기 수신 장치가 부착된 위치의 전기적 특성 및 자기적 특성 중에 적어도 하나를 포함하는 음향 출력 시스템.
제17항에 있어서,
상기 부착 위치 감지부는 상기 수신 장치가 부착된 위치의 전기적 특성 또는 자기적 특성을 감지하고, 상기 제어부는 상기 전기적 특성 또는 자기적 특성과 사전에 메모리에 저장된 전기적 특성 또는 자기적 특성을 비교하여 상기 수신 장치가 부착된 위치를 식별하는 음향 출력 시스템.
제17항에 있어서,
상기 음향 장치는 상기 수신 장치가 부착된 서로 다른 부착 위치에 따라 동일한 사용자 음성 명령에 응답하여 서로 다른 동작을 수행하는 음향 출력 시스템.