WO2016032021A1

WO2016032021A1 - 음성 명령 인식을 위한 장치 및 방법

Info

Publication number: WO2016032021A1
Application number: PCT/KR2014/007984
Authority: WO
Inventors: 김경태; 김현수; 송가진
Original assignee: 삼성전자주식회사
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2016-03-03
Also published as: US20170286049A1

Abstract

본 개시의 다양한 실시 예는 전자 장치에서 음성 인식을 위한 장치 및 방법에 관한 것이다. 이때, 음성 인식 방법은, 다수 개의 연속적인 구성 요소(component)들을 포함하는 음성 신호 또는 오디오 신호를 출력하는 동작; 음성 신호를 수신하는 동작; 상기 음성 신호를 수신한 시점을 이용하여 상기 다수 개의 구성 요소들 중 하나 또는 그 이상의 구성 요소를 결정하는 동작; 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분을 기반하여 상기 음성 신호에 대한 응답 정보를 생성하는 동작을 포함할 수 있다.

Description

음성 명령 인식을 위한 장치 및 방법

본 개시의 다양한 실시 예는 음성 명령 인식에 관한 것으로, 보다 상세하게는, 사용자의 발화시점을 고려하여 음성 명령을 인식하기 위한 장치 및 방법에 관한 것이다.

전자 장치는 반도체 기술 및 통신 기술의 발전으로 인해 음성 통화 및 데이터 통신을 이용한 멀티미디어 서비스를 제공하는 멀티미디어 장치로 발전하고 있다. 예를 들어, 전자 장치는 데이터 검색 및 음성 인식 서비스 등과 같은 다양한 멀티미디어 서비스를 제공할 수 있다.

더욱이, 전자 장치는 별도의 학습 없이 사용자가 직관적으로 사용할 수 있는 자연어 입력에 따른 음성 인식 서비스를 제공할 수 있다.

따라서, 본 개시의 다양한 실시 예에 따라 전자 장치에서 사용자의 발화시점을 고려하여 음성 명령을 인식하기 위한 장치 및 방법을 제공하고자 한다.

본 개시의 다양한 실시 예에 따라 전자 장치에서 음성 신호를 수신하는 시점에 따른 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 장치 및 방법을 제공하고자 한다.

본 개시의 다양한 실시 예에 따라 전자 장치에서 음성 신호를 수신하는 시점에 따른 컨텐츠 정보를 음성 명령 인식을 위한 서버로 전송하기 위한 장치 및 방법을 제공하고자 한다.

본 개시의 다양한 실시 예에 따라 서버에서 전자 장치로부터 제공받은 컨텐츠 정보 및 음성 신호를 고려하여 음성 명령을 인식하기 위한 장치 및 방법을 제공하고자 한다.

본 발명의 다양한 실시 예에 따르면, 전자 시스템(electronic system)의 동작 방법은, 다수 개의 구성 요소(component)들을 포함하는 음성 신호 또는 오디오 신호를 제공하는 동작과, 음성 신호(voice signal)를 수신하는 동작과; 상기 음성 신호를 수신한 시점을 이용하여 상기 다수 개의 구성 요소들 중 하나 또는 그 이상의 구성 요소를 결정하는 동작과, 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분을 기반하여 상기 음성 신호에 대한 응답 정보를 생성하는 동작을 포함할 수 있다.

본 발명의 실시 예에서, 상기 음성 신호 또는 오디오 신호는, 다수 개의 연속적인 구성 요소(component)들을 포함 할 수 있다.

본 발명의 실시 예에서, 상기 구성 요소에 대한 정보는, 구성 요소의 세션 정보, 음악 파일 정보 중 하나 또는 그 이상을 포함 할 수 있다.

본 발명의 실시 예에서, 상기 음성 신호를 수신한 시점은, 사용자의 발화시점, 상기 음성 신호에 포함된 명령어 입력 시점, 상기 음성 신호를 포함하는 오디오 신호의 수신 시점, 상기 음성 신호를 수신한 시점 중 하나 또는 그 이상을 포함 할 수 있다.

본 발명의 실시 예에서, 상기 응답 정보를 생성하는 동작은,

상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분을 기반으로 상기 음성 신호에 대응하는 컨텐츠를 생성하는 동작을 포함할 수 있다.

본 발명의 다양한 실시 예에 따르면, 전자 장치의 동작 방법은, 다수 개의 연속적인 구성 요소(component)들을 포함하는 음성 신호 또는 오디오 신호를 출력하는 동작과, 음성 신호를 수신하는 동작과, 상기 음성 신호를 수신한 시점을 이용하여 상기 다수 개의 구성 요소들 중 하나 또는 그 이상의 구성 요소를 결정하는 동작과, 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분을 기반하여 상기 음성 신호에 대한 응답 정보를 생성하는 동작을 포함 할 수 있다.

본 발명의 실시 예에서, 상기 음성 신호를 수신하는 동작은, 마이크를 통해 오디오 신호를 수신하는 동작과 상기 오디오 신호에 포함된 음성 신호를 추출하는 동작을 포함 할 수 있다.

본 발명의 실시 예에서, 상기 응답 정보를 생성하는 동작은, 상기 음성 신호를 문자 데이터로 변환하는 동작과 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분 및 상기 문자 데이터를 이용하여 자연어 정보를 생성하는 동작과 상기 자연어 정보를 기반하여 상기 음성 신호에 따른 컨텐츠를 결정하는 동작을 포함할 수 있다.

본 발명의 다양한 실시 예에 따르면, 전자 장치의 동작 방법은, 다수 개의 연속적인 구성 요소(component)들을 포함하는 음성 신호 또는 오디오 신호를 출력하는 동작 과, 음성 신호를 수신하는 동작과, 상기 음성 신호를 수신한 시점을 이용하여 상기 다수 개의 구성 요소들 중 하나 또는 그 이상의 구성 요소를 결정하는 동작과, 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분 및 상기 음성 신호를 서버로 전송하는 동작을 포함할 수 있다.

본 발명의 다양한 실시 예에 따르면, 서버의 동작 방법은, 전자 장치로부터 음성 신호를 수신하는 동작과, 상기 전자 장치에서 출력하는 음성 신호 또는 오디오 신호에 포함되는 다수 개의 구성 요소(component)들 중 상기 음성 신호에 따른 하나 또는 그 이상의 구성 요소를 확인하는 동작과, 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분을 기반하여 상기 음성 신호에 대한 응답 정보를 생성하는 동작과, 상기 음성 신호에 대한 응답 정보를 상기 전자 장치로 전송하는 동작을 포함할 수 있다.

본 발명의 다양한 실시 예에 따르면, 전자 장치의 동작 방법은, 다수 개의 연속적인 구성 요소(component)들을 포함하는 음성 신호 또는 오디오 신호를 출력하는 동작과, 상기 출력하는 음성 신호 또는 오디오 신호에 대한 정보를 서버로 전송하는 동작과, 음성 신호를 수신하는 동작과, 상기 음성 신호를 서버로 전송하는 동작을 포함 할 수 있다.

본 발명의 실시 예에서, 상기 음성 신호 또는 오디오 신호를 출력하는 동작은, TTS(Text To Speech) 모듈을 이용하여 컨텐츠를 상기 음성 신호 또는 상기 오디오 신호로 변환하는 동작과 상기 음성 신호 또는 상기 오디오 신호를 스피커를 통해 출력하는 동작을 포함 할 수 있다.

본 발명의 실시 예에서, 상기 서버로부터 상기 음성 신호에 대한 응답 정보를 수신하는 동작과 상기 응답 정보를 출력하는 동작을 더 포함 할 수 있다.

본 발명의 실시 예에서, 상기 서버로부터 상기 음성 신호에 대한 응답 정보를 수신하는 동작과 메모리 및 적어도 하나의 컨텐츠 서버로부터 상기 응답 정보에 따른 컨텐츠를 추출하는 동작과 상기 컨텐츠를 출력하는 동작을 더 포함할 수 있다.

본 발명의 다양한 실시 예에 따르면, 서버의 동작 방법은, 전자 장치로부터 출력 중인 다수 개의 구성 요소들을 포함하는 음성 신호 또는 오디오 신호에 대한 정보를 수신하는 동작과, 상기 전자 장치로부터 음성 신호를 수신하는 동작과, 상기 음성 신호를 이용하여 상기 전자 장치가 상기 음성 신호를 수신한 시점을 결정하는 동작과, 상기 음성 신호 또는 오디오 신호에 대한 정보 및 상기 전자 장치가 상기 음성 신호를 수신한 시점을 이용하여 상기 전자 장치에서 음성 신호 수신 시점에 출력되는 하나 또는 그 이상의 구성 요소를 결정하는 동작과, 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분을 기반하여 상기 음성 신호에 대한 응답 정보를 생성하는 동작과, 상기 음성 신호에 대한 응답 정보를 상기 전자 장치로 전송하는 동작을 포함 할 수 있다.

본 발명의 실시 예에서, 상기 응답 정보를 생성하는 동작은, 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분 및 상기 음성 신호를 이용하여 자연어 정보를 생성하는 동작과 상기 자연어 정보를 기반하여 상기 음성 신호에 따른 컨텐츠를 결정하는 동작을 포함 할 수 있다.

본 발명의 실시 예에서, 상기 응답 정보를 생성하는 동작은, 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분 및 상기 음성 신호를 이용하여 자연어 정보를 생성하는 동작과 상기 자연어 정보를 기반하여 상기 음성 신호에 따른 컨텐츠의 선택을 위한 제어 신호를 생성하는 동작을 포함할 수 있다.

본 발명의 다양한 실시 예에 따르면, 전자 장치는, 다수 개의 연속적인 구성 요소(component)들을 포함하는 음성 신호 또는 오디오 신호를 출력하는 출력부와, 음성 신호를 수신하는 수신부와, 상기 음성 신호를 수신한 시점을 이용하여 상기 다수 개의 구성 요소들 중 하나 또는 그 이상의 구성 요소를 결정하는 제어부와, 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분을 기반하여 상기 음성 신호에 대한 응답 정보를 생성하는 동작 결정부를 포함 할 수 있다.

본 발명의 실시 예에서, 마이크를 더 포함하여, 상기 수신부는, 상기 마이크를 통해 수신한 오디오 신호에서 음성 신호를 추출 할 수 있다.

본 발명의 실시 예에서, 상기 수신부에서 수신한 음성 신호를 문자 데이터로 변환하는 언어 인식부(speech recognition)와 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분 및 상기 문자 데이터를 이용하여 자연어 정보를 생성하는 자연어 처리부를 더 포함하며, 상기 동작 결정부는, 상기 자연어 정보를 기반으로 상기 음성 신호에 따른 컨텐츠를 결정할 수 있다.

본 발명의 다양한 실시 예에 따르면, 전자 장치는, 다수 개의 연속적인 구성 요소(component)들을 포함하는 음성 신호 또는 오디오 신호를 출력하는 출력부와, 음성 신호를 수신하는 수신부와, 상기 음성 신호를 수신한 시점을 이용하여 상기 다수 개의 구성 요소들 중 하나 또는 그 이상의 구성 요소를 결정하는 제어부를 포함하며, 상기 전자 장치는, 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분 및 상기 음성 신호를 서버로 전송할 수 있다.

본 발명의 다양한 실시 예에 따르면, 서버는, 전자 장치로부터 음성 신호를 수신하는 언어 인식부와, 상기 전자 장치에서 출력하는 음성 신호 또는 오디오 신호에 포함되는 다수 개의 구성 요소(component)들 중 상기 음성 신호에 따른 하나 또는 그 이상의 구성 요소를 확인하는 자연어 처리부와, 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분을 기반하여 상기 음성 신호에 대한 응답 정보를 생성하여, 상기 전자 장치로 전송하는 동작 결정부를 포함할 수 있다.

본 발명의 다양한 실시 예에 따르면, 전자 장치는, 다수 개의 연속적인 구성 요소(component)들을 포함하는 음성 신호 또는 오디오 신호를 출력하는 출력부와, 상기 출력부를 통해 출력하는 음성 신호 또는 오디오 신호에 대한 정보를 생성하는 제어부와, 음성 신호를 수신하는 수신부를 포함하며, 상기 전자 장치는, 상기 음성 신호 또는 오디오 신호에 대한 정보 및 상기 음성 신호를 서버로 전송 할 수 있다.

본 발명의 다양한 실시 예에 따르면, 서버는, 전자 장치로부터 음성 신호를 수신하고, 상기 음성 신호를 이용하여 상기 전자 장치가 상기 음성 신호를 수신한 시점을 결정하는 언어 인식부와, 전자 장치로부터 출력 중인 다수 개의 구성 요소들을 포함하는 음성 신호 또는 오디오 신호에 대한 정보를 수신하고, 상기 음성 신호 또는 오디오 신호에 대한 정보 및 상기 언어 인식부에서 결정한 음성 신호를 수신한 시점을 이용하여 상기 전자 장치에서 음성 신호 수신 시점에 출력되는 하나 또는 그 이상의 구성 요소를 결정하는 컨텐츠 결정부와, 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분을 기반하여 상기 음성 신호에 대한 응답 정보를 생성하여, 상기 전자 장치로 전송하는 동작 결정부를 할 수 있다.

본 발명의 실시 예에서, 상기 컨텐츠 결정부에서 결정한 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분 및 상기 음성 신호를 이용하여 자연어 정보를 생성하는 자연어 처리부를 더 할 수 있다.

본 발명의 실시 예에서, 상기 동작 결정부는, 상기 자연어 처리부에서 생성한 상기 자연어 정보를 기반하여 상기 음성 신호에 따른 컨텐츠를 할 수 있다.

본 발명의 실시 예에서, 상기 동작 결정부는, 상기 자연어 처리부에서 생성한 상기 자연어 정보를 기반하여 상기 음성 신호에 따른 컨텐츠의 선택을 위한 제어 신호를 생성할 수 있다.

도 1은 본 발명의 다양한 실시 예에 따른 음성 명령을 인식하기 위한 전자 장치의 블록 구성을 도시하고 있다.

도 2는 본 발명의 다양한 실시 예에 따른 전자 장치에서 음성 명령을 인식하기 위한 절차를 도시하고 있다.

도 3은 본 발명의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 4는 본 발명의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 5는 본 발명의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 6은 본 발명의 다양한 실시 예에 따른 전자 장치에서 컨텐츠 정보를 서버로 전송하기 위한 절차를 도시하고 있다.

도 7은 본 발명의 다양한 실시 예에 따른 서버에서 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 절차를 도시하고 있다.

도 8은 본 발명의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 9는 본 발명의 다양한 실시 예에 따른 전자 장치에서 컨텐츠 정보를 서버로 전송하기 위한 절차를 도시하고 있다.

도 10은 본 발명의 다양한 실시 예에 따른 서버에서 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 절차를 도시하고 있다.

도 11은 본 발명의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 12는 본 발명의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 13은 본 발명의 다양한 실시 예에 따른 전자 장치에서 컨텐츠 정보를 서버로 전송하기 위한 절차를 도시하고 있다.

도 14는 본 발명의 다양한 실시 예에 따른 서버에서 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 절차를 도시하고 있다.

도 15는 본 발명의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 16은 본 발명의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 17은 본 발명의 다양한 실시 예에 따른 전자 장치에서 컨텐츠 정보를 서버로 전송하기 위한 절차를 도시하고 있다.

도 18은 본 발명의 다양한 실시 예에 따른 서버에서 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 절차를 도시하고 있다.

도 19는 본 발명의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 20은 본 발명의 다양한 실시 예에 따른 음성 명령을 인식하기 위한 화면 구성을 도시하고 있다.

도 21은 본 발명의 다양한 실시 예에 따른 음성 명령을 인식하기 위한 화면 구성을 도시하고 있다.

이하 본 개시의 다양한 실시 예에 대한 도면을 참조하여 상세히 설명한다. 그리고, 본 개시의 다양한 실시 예를 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 실시 예의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다. 그리고 후술되는 용어들은 본 개시의 다양한 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

이하 본 개시의 다양한 실시 예는 전자 장치에서 음성 신호를 수신하는 시점에 대한 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 기술에 대해 설명한다.

이하 설명에서 전자 장치는 휴대용 전자 장치(portable electronic device), 휴대용 단말기(portable terminal), 이동 단말기(mobile terminal), 이동 패드(mobile pad), 미디어 플레이어(media player), PDA(Personal Digital Assistant), 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(Laptop computer), 스마트폰(Smart Phone), 넷북(Netbook), 텔레비전(Television), 휴대 인터넷 장치(MID: Mobile Internet Device), 울트라 모바일 PC(UMPC: Ultra Mobile PC), 태블릿 PC(Tablet Personal Computer), 네비게이션 또는 MP3 등과 같은 장치 일 수 있다. 또한, 전자 장치는 상술한 장치들 중 두 가지 이상의 장치들의 기능을 결합한 임의의 전자 장치일 수도 있다.

도 1은 본 개시의 다양한 실시 예에 따른 음성 명령을 인식하기 위한 전자 장치의 블록 구성을 도시하고 있다.

도 1을 참조하면 전자 장치(100)는 제어부(101), 데이터 저장부(103), 음성 검출부(105), 언어 인식부(107) 및 자연어 처리부(109)를 포함할 수 있다.

제어부(101)는 전자 장치(100)의 전반적인 동작을 제어할 수 있다. 이때, 제어부(101)는 자연어 처리부(109)로부터 제공받은 제어 명령에 따른 컨텐츠를 스피커를 통해 출력하도록 제어할 수 있다. 여기서, 컨텐츠는 다수 개의 구성 요소(component)들의 시퀀스를 포함하는 음성 또는 오디오 신호를 포함할 수 있다. 예를 들어, 제어부(101)는 TTS(Text To Speech) 모듈을 포함할 수 있다. 만일, 자연어 처리부(109)로부터 "날씨" 재생에 대한 제어 명령을 제공받은 경우, 제어부(101)는 데이터 저장부(103) 또는 외부 서버로부터 날씨 데이터를 추출할 수 있다. TTS 모듈은 제어부(101)에서 추출한 날씨 데이터를 "2013년 07월 01일 서울 지역의 날씨는 현재 섭씨 34도, 습도 60%로 고온 다습합니다", "금주는 전반적으로 고온 다습하며 주 후반에는 장마 전선의 영향으로 많은 양의 비가 내리겠습니다"와 같은 다수 개의 구성 요소들을 순차적으로 포함하는 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력할 수 있다.

제어부(101)는 음성 검출부(105)에서 음성 신호를 추출한 시점에 스피커를 통해 출력 중인 컨텐츠 정보를 자연어 처리부(109)로 전송할 수 있다. 이때, 제어부(101)는 음성 검출부(105)로부터 수신한 음성 신호 추출 정보에서 음성 검출부(105)가 음성 신호를 추출한 시점 정보를 확인할 수 있다. 예를 들어, 도 20a를 참조하여 데일리 브리핑(daily briefing) 서비스를 제공하는 경우, 제어부(101)는 데일리 브리핑 서비스의 설정 정보에 따라 날씨 정보(2001), 주식 정보(2003) 및 주요 뉴스(2005)와 같은 다수 개의 콤퍼넌트들의 시퀀스를 추출하여 스피커를 통해 출력할 수 있다. 주요 뉴스(2005) 재생 중 음성 검출부(105)에서 음성 신호를 추출한 경우, 제어부(101)는 주요 뉴스(2005)에 대한 컨텐츠 정보를 자연어 처리부(109)로 전송할 수 있다. 다른 예를 들어, 도 21a을 참조하여 음악 재생 서비스를 제공하는 경우, 제어부(101)는 재생 목록에 포함된 하나 이상의 음악 파일을 재생하여 스피커를 통해 출력할 수 있다. "노래 1" 재생 중 음성 검출부(105)에서 음성 신호를 추출한 경우, 제어부(101)는 "노래 1"에 대한 컨텐츠 정보를 자연어 처리부(109)로 전송할 수 있다. 또 다른 예를 들어, 제어부(101)는 음성 검출부(105)에서 음성 신호를 추출한 시점부터 기준 시간만큼 이전에 재생한 컨텐츠 정보를 자연어 처리부(109)로 전송할 수도 있다. 하지만, 음성 검출부(105)에서 음성 신호를 추출한 시점에 스피커를 통해 출력 중인 컨텐츠가 존재하지 않는 경우, 제어부(101)는 자연어 처리부(109)로 컨텐츠 정보를 전송하지 않을 수도 있다.

데이터 저장부(103)는 전자장치(100)의 동작을 제어하기 위한 적어도 하나의 프로그램, 프로그램 수행을 위한 데이터 및 프로그램 수행 중에 발생되는 데이터를 저장할 수 있다. 예를 들어, 데이터 저장부(103)는 음성 명령에 대한 다양한 컨텐츠 정보를 저장할 수 있다.

음성 검출부(105)는 마이크를 통해 수집된 오디오 신호에서 음성 신호를 추출하여 언어 인식부(107)로 제공할 수 있다. 예를 들어, 음성 검출부(105)는 마이크를 통해 수집된 오디오 신호에서 에코 성분을 제거할 수 있는 에코 제어부(AEC: Adaptive Echo Canceller) 및 에코 제거부로부터 제공받은 오디오 신호에서 배경 잡음(background noise)을 제거할 수 있는 잡음 제거부(NS: Noise Suppressor)를 포함할 수 있다. 이에 따라, 음성 검출부(105)는 에코 제거부 및 잡음 제거부를 통해 에코 성분 및 배경 잡음이 제거된 오디오 신호에서 음성 신호를 추출할 수 있다. 여기서, 에코는 스피커를 통해 출력되는 오디오 신호가 마이크로 유입되는 현상을 나타낼 수 있다.

상술한 바와 같이 마이크를 통해 수집된 오디오 신호에서 음성 신호를 추출한 경우, 음성 검출부(105)는 음성 신호를 추출한 시점에 제어부(101)로 음성 신호 추출 정보를 제공할 수 있다. 여기서, 음성 신호 추출 정보는 음성 검출부(105)에서 음성 신호를 추출한 시점 정보를 포함할 수 있다.

언어 인식부(107)는 음성 검출부(105)로부터 제공받은 음성 신호를 문자 데이터로 변환할 수 있다.

자연어 처리부(109)는 언어 인식부(107)로부터 제공받은 문자 데이터를 분석하여 문자 데이터에 포함된 사용자의 의도(intent) 및 핵심 정보(keyword)를 추출할 수 있다. 예컨대, 자연어 처리부(109)는 언어 인식부(107)로부터 제공받은 문자 데이터를 분석하여 음성 신호에 포함된 음성 명령을 추출할 수 있다.

자연어 처리부(109)는 동작 결정부를 포함할 수 있다. 동작 결정부는 자연어 처리부(109)에서 추출한 음성 명령에 따른 제어부(101)의 동작을 위한 제어 명령을 생성할 수 있다.

자연어 처리부(109)는 제어부(101)로부터 제공받은 컨텐츠 정보를 이용하여 언어 인식부(107)로부터 제공받은 문자 데이터를 분석함으로써 음성 신호에 포함된 음성 명령을 추출할 수 있다. 예를 들어, 언어 인식부(107)로부터 "지금 뉴스 상세 정보"의 문자 데이터를 제공받은 경우, 자연어 처리부(109)는 언어 인식부(107)로부터 제공받은 문자 데이터를 분석하여 음성 신호가 지금 재생 중인 뉴스에 대한 상세한 정보를 요구하는 것으로 인지할 수 있다. 이때, 자연어 처리부(109)는 제어부(101)로부터 제공받은 컨텐츠 정보를 고려하여 지금 재생 중인 뉴스에 대한 정확한 정보를 인지할 수 있다.

도 2는 본 개시의 다양한 실시 예에 따른 전자 장치에서 음성 명령을 인식하기 위한 절차를 도시하고 있다.

도 2를 참조하면 전자 장치는 201 동작에서 컨텐츠를 제공할 수 있다. 예를 들어, 전자 장치는 자연어 처리부(109)에서 추출한 제어 명령에 따른 컨텐츠를 데이터 저장부(103) 또는 외부 서버로부터 추출하여 재생할 수 있다. 이때, 전자 장치는 데이터 저장부(103) 또는 외부 서버로부터 추출한 컨텐츠를 TTS 모듈을 이용하여 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력할 수 있다. 여기서, 음성 신호 또는 오디오 신호는 다수 개의 구성 요소(component)들의 시퀀스를 포함할 수 있다.

컨텐츠 제공 중 전자 장치는 203 동작에서 음성 신호를 수신할 수 있다. 예를 들어, 전자 장치는 마이크를 통해 수신된 오디오 신호에서 음성 신호를 추출할 수 있다.

음성 신호를 수신한 경우, 전자 장치는 205 동작에서 음성 신호를 수신한 시점에 재생 중인 컨텐츠에 대한 정보를 생성할 수 있다. 전자 장치는 재생 중인 다수 개의 구성 요소들의 시퀀스를 포함하는 음성 또는 오디오 신호 재생 중 음성 신호 수신 시점에 따른 하나 또는 그 이상의 구성 요소를 선택할 수 있다. 예를 들어, 도 20a를 참조하여 데일리 브리핑 서비스에 따라 주요 뉴스(2005) 재생 중 음성 신호를 수신한 경우, 전자 장치는 주요 뉴스(2005)에 대한 컨텐츠 정보를 생성할 수 있다. 다른 예를 들어, 도 21a을 참조하여 재생 목록에 포함된 음악 파일 재생 중 음성 신호를 수신한 경우, 전자 장치는 재생 중인 "노래 1"에 대한 컨텐츠 정보를 생성할 수도 있다. 또 다른 예를 들어, 전자 장치는 음성 신호를 수신한 시점부터 기준 시간만큼 이전에 재생한 컨텐츠에 대한 컨텐츠 정보를 생성할 수도 있다. 하지만, 음성 신호를 수신하는 시점에 스피커를 통해 출력 중인 컨텐츠가 존재하지 않는 경우, 전자 장치는 컨텐츠 정보를 생성하지 않을 수도 있다. 여기서, 컨텐츠 정보는 재생중인 컨텐츠에 포함되는 다수 개의 구성 요소들 중 음성 신호를 수신한 시점에 재생 중인 하나 또는 그 이상의 구성 요소에 대한 정보를 포함할 수 있다. 구성 요소에 대한 정보는 구성 요소 세션 정보, 음악 파일 정보 중 하나 또는 그 이상을 포함할 수 있다.

전자 장치는 207 동작에서 음성 신호를 수신한 시점에 재생 중인 컨텐츠에 대한 정보를 기반으로 203 동작에서 수신한 음성 신호에 대한 응답 정보를 생성할 수 있다. 예를 들어, 전자 장치는 음성 신호를 수신한 시점에 재생 중인 컨텐츠에 대한 정보와 203 동작에서 수신한 음성 신호에 따른 제어 명령을 생성할 수 있다. 예컨대, 음성 신호를 "지금 뉴스 상세 정보"의 문자 데이터로 변환한 경우, 전자 장치의 자연어 처리부(109)는 문자 데이터를 분석하여 음성 신호가 "지금 재생 중인 뉴스에 대한 상세한 정보를 요구"하는 것으로 인지할 수 있다. 이때, 자연어 처리부(109)는 음성 신호 수신 시점에 재생 중인 컨텐츠 정보에 따라 "휴대폰 전격 공개"에 대한 상세 정보를 요구하는 것으로 인지할 수 있다. 전자 장치는 "휴대폰 전격 공개"에 대한 상세 정보를 재생하기 위한 제어 명령을 생성할 수 있다. 전자 장치는 음성 신호를 수신한 시점에 재생 중인 컨텐츠에 대한 정보와 203 동작에서 수신한 음성 신호에 따른 제어 명령을 고려하여 음성 신호에 대한 컨텐츠를 생성할 수 있다. 예를 들어, 도 20a를 참조하여 데일리 브리핑 서비스 제공 중 "지금 뉴스 상세 정보"의 음성 신호를 수신한 경우, 전자 장치는 도 20b와 같이 "휴대폰 전격 공개"에 대한 상세 뉴스 정보를 재생할 수 있다. 이때, 전자 장치는 TTS 모듈을 통해 "휴대폰 전격 공개"에 대한 상세 뉴스를 음성 신호로 변환하여 스피커를 통해 출력할 수도 있다. 다른 예를 들어, 도 21a를 참조하여 음악 재생 중 "지금 노래 가수 정보"의 음성 신호를 수신한 경우, 전자 장치는 도 21b와 같이 "노래 1"에 대한 가수 정보를 재생할 수 있다. 이때, 전자 장치는 TTS 모듈을 통해 "노래 1"에 대한 가수 정보를 음성 신호로 변환하여 스피커를 통해 출력할 수도 있다.

상술한 실시 예에서 전자 장치는 제어부(101), 데이터 저장부(103), 음성 검출부(105), 언어 인식부(107) 및 자연어 처리부(109)를 포함하여 음성 신호에 대한 음성 명령을 추출할 수 있다.

다른 실시 예에서 전자 장치는 서버를 이용하여 음성 신호에 대한 음성 명령을 추출하도록 구성될 수도 있다.

도 3은 본 개시의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 3을 참조하면 음성 인식 시스템은 전자 장치(300)와 서버(310)를 포함할 수 있다.

전자 장치(300)는 마이크를 통해 음성 신호를 수신하고, 서버(310)로부터 제공받은 컨텐츠를 재생할 수 있다. 예를 들어, 전자 장치(300)는 제어부(301), TTS 모듈(303) 및 음성 검출부(305)를 포함할 수 있다.

제어부(301)는 전자 장치(300)의 전반적인 동작을 제어할 수 있다. 제어부(301)는 서버(310)로부터 제공받은 컨텐츠를 재생하도록 제어할 수 있다. 예를 들어, 제어부(301)는 서버(310)로부터 제공받은 컨텐츠를 TTS 모듈(303)에서 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력하도록 제어할 수 있다. 여기서, 음성 신호 또는 오디오 신호는 다수 개의 구성 요소들의 시퀀스를 포함할 수 있다.

제어부(301)는 음성 검출부(305)에서 음성 신호를 추출한 시점에 스피커를 통해 출력 중인 컨텐츠 정보를 서버(310)로 전송할 수 있다. 예를 들어, 도 20a를 참조하여 데일리 브리핑(daily briefing) 서비스를 제공하는 경우, 제어부(301)는 데일리 브리핑 서비스의 설정 정보에 따라 날씨 정보(2001), 주식 정보(2003) 및 주요 뉴스(2005)와 같은 다수 개의 콤퍼넌트들의 시퀀스를 추출하여 스피커를 통해 출력하도록 제어할 수 있다. 주요 뉴스(2005) 재생 중 음성 검출부(305)에서 음성 신호를 추출한 경우, 제어부(301)는 주요 뉴스(2005)에 대한 컨텐츠 정보를 서버(310)로 전송할 수 있다. 다른 예를 들어, 도 21a을 참조하여 음악 재생 서비스를 제공하는 경우, 제어부(301)는 재생 목록에 포함된 하나 이상의 음악 파일을 재생하여 스피커를 통해 출력하도록 제어할 수 있다. "노래 1" 재생 중 음성 검출부(305)에서 음성 신호를 추출한 경우, 제어부(301)는 "노래 1"에 대한 컨텐츠 정보를 서버(310)로 전송할 수 있다. 또 다른 예를 들어, 제어부(301)는 음성 신호 추출 정보를 수신한 시점부터 기준 시간만큼 이전에 재생한 컨텐츠 정보를 서버(310)로 전송할 수도 있다. 하지만, 음성 검출부(305)에서 음성 신호를 추출한 시점에 스피커를 통해 출력 중인 컨텐츠가 존재하지 않는 경우, 제어부(301)는 컨텐츠 정보를 서버(310)로 전송하지 않을 수도 있다.

TTS 모듈(303)은 제어부(301)로부터 제공받은 컨텐츠를 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력할 수 있다.

음성 검출부(305)는 마이크를 통해 수집된 오디오 신호에서 음성 신호를 추출하여 서버(310)로 제공할 수 있다. 예를 들어, 음성 검출부(305)는 마이크를 통해 수집된 오디오 신호에서 에코 성분을 제거할 수 있는 에코 제어부 및 에코 제거부로부터 제공받은 오디오 신호에서 배경 잡음을 제거할 수 있는 잡음 제거부를 포함할 수 있다. 이에 따라, 음성 검출부(305)는 에코 제거부 및 잡음 제거부를 통해 에코 성분 및 배경 잡음이 제거된 오디오 신호에서 음성 신호를 추출할 수 있다. 여기서, 에코는 스피커를 통해 출력되는 오디오 신호가 마이크로 유입되는 현상을 나타낼 수 있다.

상술한 바와 같이 전자 장치(300)에서 컨텐츠 정보와 음성 신호를 서버(310)로 전송하는 경우, 전자 장치(300)는 컨텐츠 정보와 음성 신호를 독립적으로 서버(310)로 전송하거나 음성 신호에 컨텐츠 정보를 추가하여 서버(310)로 전송할 수 있다.

서버(310)는 전자 장치(300)로부터 제공받은 컨텐츠 정보 및 음성 신호를 이용하여 음성 명령을 추출하고, 컨텐츠 제공 서버들(320-1 내지 320-n)로부터 음성 명령에 따른 컨텐츠를 추출하여 전자 장치(300)로 전송할 수 있다. 예를 들어, 서버(310)는 언어 인식부(311), 자연어 처리부(313), 동작 결정부(315) 및 컨텐츠 수집부(317)를 포함할 수 있다.

언어 인식부(311)는 전자 장치(300)의 음성 검출부(305)로부터 제공받은 음성 신호를 문자 데이터로 변환할 수 있다.

자연어 처리부(313)는 언어 인식부(311)로부터 제공받은 문자 데이터를 분석하여 문자 데이터에 포함된 사용자의 의도 및 핵심 정보를 추출할 수 있다. 자연어 처리부(313)는 언어 인식부(311)로부터 제공받은 문자 데이터를 분석하여 음성 신호에 포함된 음성 명령을 추출할 수 있다. 이때, 자연어 처리부(313)는 전자 장치(300)의 제어부(301)로부터 제공받은 컨텐츠 정보를 이용하여 언어 인식부(311)로부터 제공받은 문자 데이터를 분석함으로써 음성 신호에 포함된 음성 명령을 추출할 수 있다. 예를 들어, 언어 인식부(311)로부터 "지금 뉴스 상세 정보"의 문자 데이터를 제공받은 경우, 자연어 처리부(313)는 언어 인식부(311)로부터 제공받은 문자 데이터를 분석하여 음성 신호가 지금 재생 중인 뉴스에 대한 상세한 정보를 요구하는 것으로 인지할 수 있다. 이때, 자연어 처리부(313)는 제어부(301)로부터 제공받은 컨텐츠 정보를 고려하여 지금 재생 중인 뉴스에 대한 정확한 정보를 인지할 수 있다.

동작 결정부(315)는 자연어 처리부(313)에서 추출한 음성 명령에 따른 제어부(301)의 동작을 위한 제어 명령을 생성할 수 있다. 예를 들어, 자연어 처리부(313)에서 "지금 재생 중인 뉴스(예: 휴대폰 전격 공개)에 대한 상세한 정보를 요구하는 것으로 인지한 경우, 동작 결정부(315)는 "휴대폰 전격 공개"에 대한 상세 정보를 재생하기 위한 제어 명령을 생성할 수 있다.

컨텐츠 수집부(317)는 동작 결정부(315)로부터 제공받은 제어 명령에 따라 컨텐츠 제공 서버들(320-1 내지 320-n)로부터 전자 장치(300)로 제공하기 위한 컨텐츠를 수집하여 전자 장치(300)로 전송할 수 있다. 예를 들어, 동작 결정부(315)로부터 "휴대폰 전격 공개"에 대한 상세 정보를 재생하기 위한 제어 명령을 제공받은 경우, 컨텐츠 수집부(317)는 컨텐츠 제공 서버들(320-1 내지 320-n)로부터 "휴대폰 전격 공개"와 관련된 하나 이상의 컨텐츠를 수집하여 전자 장치(300)로 전송할 수 있다.

상술한 바와 같이 전자 장치(300)의 제어부(301)는 음성 검출부(305)에서 음성 신호를 검출한 시점에 스피커를 통해 출력 중인 컨텐츠에 대한 컨텐츠 정보를 서버(310)로 전송할 수 있다. 이때, 전자 장치(300)는 하기 도 4 또는 도 5를 참조하여 컨텐츠 추정부(407 또는 507)를 이용하여 음성 검출부(305)에서 음성 신호를 검출한 시점에 재생 중인 컨텐츠를 확인할 수 있다.

도 4는 본 개시의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 4를 참조하면 음성 인식 시스템은 전자 장치(400)와 서버(410)를 포함할 수 있다. 이하 설명에서 서버(410)는 도 3에 도시된 서버(310)와 구성 및 동작이 동일하므로 상세한 설명을 생략한다.

전자 장치(400)는 마이크를 통해 음성 신호를 수신하고, 서버(410)로부터 제공받은 컨텐츠를 재생할 수 있다. 예를 들어, 전자 장치(400)는 제어부(401), TTS 모듈(403), 음성 검출부(405) 및 컨텐츠 추정부(407)를 포함할 수 있다.

제어부(401)는 전자 장치(400)의 전반적인 동작을 제어할 수 있다. 제어부(401)는 서버(410)로부터 제공받은 컨텐츠를 재생하도록 제어할 수 있다. 예를 들어, 제어부(401)는 서버(410)로부터 제공받은 컨텐츠를 TTS 모듈(403)을 통해 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력하도록 제어할 수 있다.

TTS 모듈(403)은 제어부(401)로부터 제공받은 컨텐츠를 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력할 수 있다. 여기서, 음성 신호 또는 오디오 신호는 다수 개의 구성 요소들의 시퀀스를 포함할 수 있다.

음성 검출부(405)는 마이크를 통해 수집된 오디오 신호에서 음성 신호를 추출하여 서버(410)로 제공할 수 있다. 예를 들어, 음성 검출부(405)는 마이크를 통해 수집된 오디오 신호에서 에코 성분을 제거할 수 있는 에코 제어부 및 에코 제거부로부터 제공받은 오디오 신호에서 배경 잡음을 제거할 수 있는 잡음 제거부를 포함할 수 있다. 이에 따라, 음성 검출부(405)는 에코 제거부 및 잡음 제거부를 통해 에코 성분 및 배경 잡음이 제거된 오디오 신호에서 음성 신호를 추출할 수 있다. 여기서, 에코는 스피커를 통해 출력되는 오디오 신호가 마이크로 유입되는 현상을 나타낼 수 있다.

마이크를 통해 수집된 오디오 신호에서 음성 신호를 추출한 경우, 음성 검출부(405)는 음성 신호를 추출한 시점에 음성 신호 추출 정보를 생성하여 컨텐츠 추정부(407)로 전송할 수 있다. 여기서, 음성 신호 추출 정보는 음성 검출부(405)에서 음성 신호를 추출한 시점 정보를 포함할 수 있다.

컨텐츠 추정부(407)는 제어부(401)에서 TTS 모듈(403)로 전송하는 컨텐츠를 모니터링할 수 있다. 이에 따라, 컨텐츠 추정부(407)는 음성 검출부(405)에서 음성 수신 신호를 추출한 시점에 제어부(401)에서 TTS 모듈(403)로 전송하는 컨텐츠에 대한 정보를 확인하여 서버(410)로 전송할 수 있다. 이때, 컨텐츠 추정부(407)는 음성 검출부(405)로부터 제공받은 음성 신호 추출 정보에서 음성 검출부(405)에서 음성 수신 신호를 추출한 시점을 확인할 수 있다. 예를 들어, 도 20a를 참조하여 데일리 브리핑(daily briefing) 서비스를 제공하는 경우, 제어부(401)는 데일리 브리핑 서비스의 설정 정보에 따라 날씨 정보(2001), 주식 정보(2003) 및 주요 뉴스(2005)와 같은 다수 개의 콤퍼넌트들의 시퀀스를 TTS 모듈(403)로 전송할 수 있다. 주요 뉴스(2005)를 TTS 모듈(403)로 전송 중 음성 검출부(405)에서 음성 신호를 추출한 경우, 컨텐츠 추정부(407)는 주요 뉴스(2005)에 대한 컨텐츠 정보를 서버(410)로 전송할 수 있다. 이때, 컨텐츠 추정부(407)는 음성 검출부(405)에서 음성 신호를 추출한 시점부터 기준 시간만큼 이전에 제어부(401)에서 TTS 모듈(403)로 전송한 컨텐츠에 대한 정보를 서버(410)로 전송할 수도 있다. 하지만, 음성 검출부(405)에서 음성 신호를 추출한 시점에 제어부(401)에서 TTS 모듈(403)로 전송하는 컨텐츠가 존재하지 않는 경우, 컨텐츠 추정부(407)는 컨텐츠 정보를 서버(410)로 전송하지 않을 수도 있다.

도 5는 본 개시의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 5를 참조하면 음성 인식 시스템은 전자 장치(500)와 서버(510)를 포함할 수 있다. 이하 설명에서 서버(510)는 도 3에 도시된 서버(310)와 구성 및 동작이 동일하므로 상세한 설명을 생략한다.

전자 장치(500)는 마이크를 통해 음성 신호를 수신하고, 서버(510)로부터 제공받은 컨텐츠를 재생할 수 있다. 예를 들어, 전자 장치(500)는 제어부(501), TTS 모듈(503), 음성 검출부(505) 및 컨텐츠 추정부(507)를 포함할 수 있다.

제어부(501)는 전자 장치(500)의 전반적인 동작을 제어할 수 있다. 제어부(501)는 서버(510)로부터 제공받은 컨텐츠를 재생하도록 제어할 수 있다. 예를 들어, 제어부(501)는 서버(510)로부터 제공받은 컨텐츠를 TTS 모듈(503)을 통해 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력하도록 제어할 수 있다.

TTS 모듈(503)은 제어부(501)로부터 제공받은 컨텐츠를 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력할 수 있다. 여기서, 음성 신호 또는 오디오 신호는 다수 개의 구성 요소들의 시퀀스를 포함할 수 있다.

음성 검출부(505)는 마이크를 통해 수집된 오디오 신호에서 음성 신호를 추출하여 서버(510)로 제공할 수 있다. 예를 들어, 음성 검출부(505)는 마이크를 통해 수집된 오디오 신호에서 에코 성분을 제거할 수 있는 에코 제어부 및 에코 제거부로부터 제공받은 오디오 신호에서 배경 잡음을 제거할 수 있는 잡음 제거부를 포함할 수 있다. 이에 따라, 음성 검출부(505)는 에코 제거부 및 잡음 제거부를 통해 에코 성분 및 배경 잡음이 제거된 오디오 신호에서 음성 신호를 추출할 수 있다. 여기서, 에코는 스피커를 통해 출력되는 오디오 신호가 마이크로 유입되는 현상을 나타낼 수 있다.

만일, 마이크를 통해 수집된 오디오 신호에서 음성 신호를 추출한 경우, 음성 검출부(505)는 음성 신호를 추출한 시점에 음성 신호 추출 정보를 생성하여 컨텐츠 추정부(507)로 전송할 수 있다. 여기서, 음성 신호 추출 정보는 음성 검출부(505)에서 음성 신호를 추출한 시점 정보를 포함할 수 있다.

컨텐츠 추정부(507)는 TTS 모듈(503)에서 출력되는 컨텐츠를 모니터링할 수 있다. 이에 따라, 컨텐츠 추정부(507)는 음성 검출부(505)에서 음성 신호를 추출하는 시점에 TTS 모듈(503)에서 출력하는 컨텐츠에 대한 정보를 확인하여 서버(510)로 전송할 수 있다. 이때, 컨텐츠 추정부(507)는 음성 검출부(505)로부터 제공받은 음성 신호 추출 정보에서 음성 검출부(505)에서 음성 신호를 추출한 시점을 확인할 수 있다. 예를 들어, 도 20a를 참조하여 데일리 브리핑(daily briefing) 서비스를 제공하는 경우, TTS 모듈(503)은 데일리 브리핑 서비스의 설정 정보에 따라 날씨 정보(2001), 주식 정보(2003) 및 주요 뉴스(2005)를 음성 신호로 변환하여 스피커를 통해 출력할 수 있다. 만일, TTS 모듈(503)에서 주요 뉴스(2005)에 대한 음성 신호를 스피커를 통해 출력 중 음성 검출부(505)에서 음성 신호를 추출한 경우, 컨텐츠 추정부(507)는 주요 뉴스(2005)에 대한 컨텐츠 정보를 서버(510)로 전송할 수 있다. 이때, 컨텐츠 추정부(507)는 음성 검출부(505)에서 음성 신호를 추출한 시점부터 기준 시간만큼 이전에 TTS 모듈(503)에서 스피커를 통해 출력한 컨텐츠에 대한 컨텐츠 정보를 서버(510)로 전송할 수도 있다. 하지만, 음성 검출부(505)에서 음성 신호를 추출한 시점에 TTS 모듈(503)에서 전송되는 컨텐츠가 존재하지 않는 경우, 컨텐츠 추정부(507)는 컨텐츠 정보를 서버(510)로 전송하지 않을 수도 있다.

도 6은 본 개시의 다양한 실시 예에 따른 전자 장치에서 컨텐츠 정보를 서버로 전송하기 위한 절차를 도시하고 있다.

도 6을 참조하면 전자 장치는 601 동작에서 컨텐츠를 재생할 수 있다. 예를 들어, 전자 장치는 서버로부터 제공받은 컨텐츠를 TTS 모듈을 이용하여 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력할 수 있다. 여기서, 음성 신호 또는 오디오 신호는 다수 개의 구성 요소들의 시퀀스를 포함할 수 있다.

컨텐츠 재생 중 전자 장치는 603 동작에서 음성 신호를 수신할 수 있다. 예를 들어, 전자 장치는 마이크를 통해 수신된 오디오 신호에서 음성 신호를 추출할 수 있다.

음성 신호를 수신한 경우, 전자 장치는 605 동작에서 음성 신호를 수신한 시점에 재생 중인 컨텐츠 정보를 생성할 수 있다. 전자 장치는 재생 중인 다수 개의 구성 요소들의 시퀀스를 포함하는 음성 또는 오디오 신호 재생 중 음성 신호 수신 시점에 따른 하나 또는 그 이상의 구성 요소를 선택할 수 있다. 예를 들어, 도 4를 참조하면, 전자장치는 컨텐츠 추정부(407)를 이용하여 음성 검출부(405)에서 음성 수신 신호를 추출한 시점에 제어부(401)에서 TTS 모듈(403)로 전송하는 컨텐츠를 확인하여 컨텐츠 정보를 생성할 수 있다. 이때, 전자 장치는 음성 검출부(405)에서 음성 수신 신호를 추출한 시점보다 기준 시간만큼 이전에 제어부(401)에서 TTS 모듈(403)로 전송하는 컨텐츠를 확인하여 컨텐츠 정보를 생성할 수도 있다. 하지만, 음성 신호를 수신하는 시점에 제어부(401)에서 TTS 모듈(403)로 전송하는 컨텐츠가 존재하지 않는 경우, 전자 장치는 컨텐츠 정보를 생성하지 않을 수도 있다. 다른 예를 들어, 도 5를 참조하면 전자장치는 컨텐츠 추정부(507)를 이용하여 음성 검출부(505)에서 음성 수신 신호를 추출한 시점에 TTS 모듈(503)에서 출력되는 컨텐츠를 확인하여 컨텐츠 정보를 생성할 수 있다. 이때, 전자 장치는 음성 검출부(505)에서 음성 수신 신호를 추출한 시점보다 기준 시간만큼 이전에 TTS 모듈(503)에서 출력되는 컨텐츠를 확인하여 컨텐츠 정보를 생성할 수도 있다. 하지만, 음성 신호를 수신하는 시점에 TTS 모듈(503)에서 출력되는 컨텐츠가 존재하지 않는 경우, 전자 장치는 컨텐츠 정보를 생성하지 않을 수도 있다. 여기서, 컨텐츠 정보는 재생중인 컨텐츠에 포함되는 다수 개의 구성 요소들 중 음성 신호를 수신한 시점에 재생 중인 하나 또는 그 이상의 구성 요소에 대한 정보를 포함할 수 있다. 구성 요소에 대한 정보는 구성 요소 세션 정보, 음악 파일 정보 중 하나 또는 그 이상을 포함할 수 있다.

이후, 전자 장치는 607 동작에서 컨텐츠 정보와 음성 신호를 서버로 전송할 수 있다. 이때, 전자 장치는 컨텐츠 정보와 음성 신호를 독립적으로 서버로 전송하거나 음성 신호에 컨텐츠 정보를 추가하여 서버로 전송할 수 있다.

이후, 전자 장치는 609 동작에서 서버로부터 컨텐츠가 수신되는지 확인할 수 있다. 전자 장치는 607 동작에서 서버로 전송한 음성 신호에 대한 응답이 수신되는지 확인할 수 있다.

서버로부터 컨텐츠를 수신한 경우, 전자 장치는 611 동작에서 서버로부터 제공받은 컨텐츠를 재생할 수 있다. 이때, 전자 장치는 TTS 모듈을 통해 서버로부터 제공받은 컨텐츠를 음성 신호로 변환하여 스피커를 통해 출력할 수도 있다.

도 7은 본 개시의 다양한 실시 예에 따른 서버에서 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 절차를 도시하고 있다.

도 7을 참조하면 서버는 701 동작에서 전자 장치로부터 음성 신호가 수신되는지 확인할 수 있다.

전자 장치로부터 음성 신호를 수신한 경우, 서버는 703 동작에서 전자 장치로부터 제공받은 음성 신호를 문자 데이터로 변환할 수 있다.

서버는 705 동작에서 전자 장치가 음성 신호를 수신한 시점에 재생 중이던 컨텐츠에 대한 정보를 확인할 수 있다. 예를 들어, 서버는 전자 장치로부터 컨텐츠 정보를 수신할 수 있다. 다른 예를 들어, 서버는 701 동작에서 전자 장치로부터 수신한 음성 신호에 포함된 컨텐츠 정보를 확인할 수도 있다.

전자 장치는 707 동작에서 컨텐츠 정보와 음성 신호를 고려하여 제어 명령을 생성할 수 있다. 예를 들어, 음성 신호를 "지금 뉴스 상세 정보"의 문자 데이터로 변환한 경우, 서버는 자연어 처리부를 통해 문자 데이터를 분석하여 음성 신호가 "지금 재생 중인 뉴스에 대한 상세한 정보를 요구"하는 것으로 인지할 수 있다. 이때, 자연어 처리부는 전자 장치로부터 제공받은 컨텐츠 정보에 따라 "휴대폰 전격 공개"에 대한 상세 정보를 요구하는 것으로 인지할 수 있다. 이에 따라, 전자 장치는 "휴대폰 전격 공개"에 대한 상세 정보를 재생하기 위한 제어 명령을 생성할 수 있다.

서버는 709 동작에서 제어 명령에 따른 컨텐츠를 추출하여 전자 장치로 전송할 수 있다. 예를 들어, 도 3을 참조하면 서버는 컨텐츠 제공 서버들(320-1 내지 320-n)로부터 제어 명령에 따른 컨텐츠를 추출하여 전자 장치(300)로 전송할 수 있다.

상술한 실시 예에서 전자 장치는 음성 신호를 수신한 시점에 스피커를 통해 출력 중인 컨텐츠에 대한 컨텐츠 정보를 서버로 전송할 수 있다.

다른 실시 예에서 전자 장치는 도 8을 참조하여 전자 장치에서 재생하는 컨텐츠 및 컨텐츠의 재생 시점 정보를 서버로 전송할 수도 있다.

도 8은 본 개시의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 8을 참조하면 음성 인식 시스템은 전자 장치(800)와 서버(810)를 포함할 수 있다.

전자 장치(800)는 마이크를 통해 음성 신호를 수신하고, 서버(810)로부터 제공받은 컨텐츠를 스피커를 통해 출력할 수 있다. 예를 들어, 전자 장치(800)는 제어부(801), TTS 모듈(803) 및 음성 검출부(805)를 포함할 수 있다.

제어부(801)는 전자 장치(800)의 전반적인 동작을 제어할 수 있다. 이때, 제어부(801)는 서버(810)로부터 제공받은 컨텐츠를 스피커를 통해 출력하도록 제어할 수 있다. 여기서, 컨텐츠는 다수 개의 구성 요소들의 시퀀스를 포함하는 음성 또는 오디오 신호를 포함할 수 있다.

제어부(801)는 스피커를 통해 출력하는 컨텐츠 재생 정보를 서버(810)로 전송할 수 있다. 여기서, 컨텐츠 재생 정보는 제어부(801)의 제어에 따라 전자 장치(800)에서 재생하는 컨텐츠 및 해당 컨텐츠의 재생 시점 정보를 포함할 수 있다. 예를 들어, 도 20a을 참조하여 데일리 브리핑(daily briefing) 서비스를 제공하는 경우, 제어부(801)는 데일리 브리핑 서비스의 설정 정보에 따라 날씨 정보(2001), 주식 정보(2003) 및 주요 뉴스(2005)와 같은 다수 개의 콤퍼넌트들의 시퀀스를 추출하여 스피커를 통해 출력하도록 제어할 수 있다. 이 경우, 제어부(801)는 스피커를 통해 출력하는 날씨 정보(2001), 주식 정보(2003) 및 주요 뉴스(2005)의 정보 및 각각의 재생 시점 정보를 서버(810)로 전송할 수 있다. 다른 예를 들어, 도 21a를 참조하여 음악 재생 서비스를 제공하는 경우, 제어부(801)는 재생 목록에 포함된 음악 파일들을 재생하여 스피커를 통해 출력하도록 제어할 수 있다. 이 경우, 제어부(801)는 재생되는 음악 파일 정보 및 각 음악 파일의 재생 시점 정보를 서버(810)로 전송할 수 있다. 이때, 제어부(801)는 컨텐츠가 재생될 때 마다 해당 컨텐츠 정보 및 재생 시점 정보를 서버(810)로 전송할 수 있다.

TTS 모듈(803)은 제어부(801)로부터 제공받은 컨텐츠를 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력할 수 있다.

음성 검출부(805)는 마이크를 통해 수집된 오디오 신호에서 음성 신호를 추출하여 서버(810)로 제공할 수 있다. 이때, 음성 검출부(805)는 음성 신호를 추출한 시점 정보를 음성 신호와 함께 서버(810)로 전송할 수 있다. 예를 들어, 음성 검출부(805)는 마이크를 통해 수집된 오디오 신호에서 에코 성분을 제거할 수 있는 에코 제어부 및 에코 제거부로부터 제공받은 오디오 신호에서 배경 잡음을 제거할 수 있는 잡음 제거부를 포함할 수 있다. 이에 따라, 음성 검출부(805)는 에코 제거부 및 잡음 제거부를 통해 에코 성분 및 배경 잡음이 제거된 오디오 신호에서 음성 신호를 추출할 수 있다. 여기서, 에코는 스피커를 통해 출력되는 오디오 신호가 마이크로 유입되는 현상을 나타낼 수 있다.

서버(810)는 전자 장치(800)로부터 제공받은 컨텐츠 재생 정보 및 음성 신호를 이용하여 음성 명령을 추출하고, 컨텐츠 제공 서버들(820-1 내지 820-n)로부터 음성 명령에 따른 컨텐츠를 추출하여 전자 장치(800)로 전송할 수 있다. 예를 들어, 서버(810)는 언어 인식부(811), 컨텐츠 결정부(813), 자연어 처리부(815), 동작 결정부(817) 및 컨텐츠 수집부(819)를 포함할 수 있다.

언어 인식부(811)는 전자 장치(800)의 음성 검출부(805)로부터 제공받은 음성 신호를 문자 데이터로 변환할 수 있다. 이때, 언어 인식부(811)는 음성 신호의 추출 시점 정보를 컨텐츠 결정부(813)로 전송할 수 있다.

컨텐츠 결정부(813)는 전자 장치(800)로부터 제공받은 컨텐츠 재생 정보와 언어 인식부(811)로부터 제공받은 음성 신호 추출 시점 정보를 이용하여 전자 장치(800)가 음성 신호를 수신하는 시점에 전자 장치(800)에서 재생 중인 컨텐츠를 확인할 수 있다. 예를 들어, 컨텐츠 결정부(813)는 수신 시점 검출부와 세션 선택부를 포함할 수 있다. 수신 시점 검출부는 언어 인식부(811)로부터 제공받은 음성 신호 추출 시점 정보를 이용하여 전자 장치(800)가 음성 신호를 수신한 시점을 검출할 수 있다. 세션 선택부는 전자 장치(800)로부터 제공받은 컨텐츠 재생 정보와 수신 시점 검출부에서 검출한 전자 장치(800)가 음성 신호를 수신한 시점을 비교하여 전자 장치(800)가 음성 신호를 수신하는 시점에 전자 장치(800)에서 재생 중인 컨텐츠를 확인할 수 있다. 여기서, 컨텐츠 재생 정보는 전자 장치(800)에서 재생하거나 재생 중인 컨텐츠 및 해당 컨텐츠의 재생 시점을 포함할 수 있다.

자연어 처리부(815)는 언어 인식부(811)로부터 제공받은 문자 데이터를 분석하여 문자 데이터에 포함된 사용자의 의도 및 핵심 정보를 추출할 수 있다. 자연어 처리부(815)는 언어 인식부(811)로부터 제공받은 문자 데이터를 분석하여 음성 신호에 포함된 음성 명령을 추출할 수 있다. 이때, 자연어 처리부(815)는 컨텐츠 결정부(813)를 통해 확인한 전자 장치(800)가 음성 신호를 수신하는 시점에 전자 장치(800)에서 재생 중인 컨텐츠에 대한 정보를 이용하여 언어 인식부(811)로부터 제공받은 문자 데이터를 분석함으로써 음성 신호에 포함된 음성 명령을 추출할 수 있다. 예를 들어, 언어 인식부(811)로부터 "지금 뉴스 상세 정보"의 문자 데이터를 제공받은 경우, 자연어 처리부(815)는 언어 인식부(811)로부터 제공받은 문자 데이터를 분석하여 음성 신호가 지금 재생 중인 뉴스에 대한 상세한 정보를 요구하는 것으로 인지할 수 있다. 이때, 자연어 처리부(815)는 컨텐츠 결정부(813)로부터 제공받은 컨텐츠 정보를 고려하여 지금 재생 중인 뉴스에 대한 정확한 정보를 인지할 수 있다.

동작 결정부(817)는 자연어 처리부(815)에서 추출한 음성 명령에 따른 제어부(801)의 동작을 위한 제어 명령을 생성할 수 있다. 예를 들어, 자연어 처리부(815)에서 "지금 재생 중인 뉴스(예: 휴대폰 전격 공개)에 대한 상세한 정보를 요구하는 것으로 인지한 경우, 동작 결정부(817)는 "휴대폰 전격 공개"에 대한 상세 정보를 재생하기 위한 제어 명령을 생성할 수 있다.

컨텐츠 수집부(819)는 동작 결정부(817)로부터 제공받은 제어 명령에 따라 컨텐츠 제공 서버들(820-1 내지 820-n)로부터 전자 장치(800)로 제공하기 위한 컨텐츠를 수집하여 전자 장치(800)로 전송할 수 있다. 예를 들어, 동작 결정부(817)로부터 "휴대폰 전격 공개"에 대한 상세 정보를 재생하기 위한 제어 명령을 제공받은 경우, 컨텐츠 수집부(819)는 컨텐츠 제공 서버들(820-1 내지 820-n)로부터 "휴대폰 전격 공개"와 관련된 하나 이상의 컨텐츠를 수집하여 전자 장치(800)로 전송할 수 있다.

도 9는 본 개시의 다양한 실시 예에 따른 전자 장치에서 컨텐츠 정보를 서버로 전송하기 위한 절차를 도시하고 있다.

도 9를 참조하면 전자 장치는 901 동작에서 컨텐츠를 재생할 수 있다. 예를 들어, 전자 장치는 서버로부터 제공받은 컨텐츠를 TTS 모듈을 이용하여 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력할 수 있다. 여기서, 음성 신호 또는 오디오 신호는 다수 개의 구성 요소들의 시퀀스를 포함할 수 있다.

컨텐츠를 재생하는 경우, 전자 장치는 903 동작에서 재생하는 컨텐츠 및 재생 시점 정보를 포함하는 컨텐츠 재생 정보를 생성할 수 있다.

전자 장치는 905 동작에서 컨텐츠 재생 정보를 서버로 전송할 수 있다. 예를 들어, 도 8을 참조하면, 전자 장치(800)의 제어부(801)는 컨텐츠 재생 정보를 서버(810)의 컨텐츠 결정부(813)로 전송할 수 있다.

전자 장치는 907 동작에서 음성 신호를 수신할 수 있다. 예를 들어, 전자 장치는 마이크를 통해 수신된 오디오 신호에서 음성 신호를 추출할 수 있다.

음성 신호를 수신한 경우, 전자 장치는 909 동작에서 음성 신호를 서버로 전송할 수 있다. 이때, 전자 장치는 음성 신호 및 음성 신호를 추출한 시점 정보를 서버로 전송할 수 있다.

전자 장치는 911 동작에서 서버로부터 컨텐츠가 수신되는지 확인할 수 있다.

서버로부터 컨텐츠를 수신한 경우, 전자 장치는 913 동작에서 서버로부터 제공받은 컨텐츠를 재생할 수 있다. 이때, 전자 장치는 TTS 모듈을 통해 서버로부터 제공받은 컨텐츠를 음성 신호로 변환하여 스피커를 통해 출력할 수도 있다.

도 10은 본 개시의 다양한 실시 예에 따른 서버에서 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 절차를 도시하고 있다.

도 10을 참조하면 서버는 1001 동작에서 전자 장치의 컨텐츠 재생 정보를 확인할 수 있다. 예를 들어, 서버는 전자 장치로부터 제공받은 컨텐츠 재생 정보에서 전자 장치에서 재생하는 컨텐츠 및 해당 컨텐츠의 재생 시간 정보를 확인할 수 있다.

서버는 1003 동작에서 전자 장치로부터 음성 신호가 수신되는지 확인할 수 있다.

전자 장치로부터 음성 신호를 수신한 경우, 서버는 1005 동작에서 전자 장치로부터 제공받은 음성 신호를 문자 데이터로 변환할 수 있다.

서버는 1007 동작에서 전자 장치의 컨텐츠 재생 정보와 전자 장치가 음성 신호를 추출한 시점을 이용하여 전자 장치가 음성 신호를 수신한 시점에 재생 중이던 컨텐츠에 대한 정보를 확인할 수 있다. 이때, 서버는 음성 신호에 포함된 전자 장치에서의 음성 신호의 추출 시점 정보를 확인할 수 있다.

전자 장치는 1009 동작에서 컨텐츠 정보와 음성 신호를 고려하여 제어 명령을 생성할 수 있다. 예를 들어, 음성 신호를 "지금 뉴스 상세 정보"의 문자 데이터로 변환한 경우, 서버는 자연어 처리부를 통해 문자 데이터를 분석하여 음성 신호가 "지금 재생 중인 뉴스에 대한 상세한 정보를 요구"하는 것으로 인지할 수 있다. 이때, 자연어 처리부는 전자 장치로부터 제공받은 컨텐츠 정보에 따라 "휴대폰 전격 공개"에 대한 상세 정보를 요구하는 것으로 인지할 수 있다. 이에 따라, 전자 장치는 "휴대폰 전격 공개"에 대한 상세 정보를 재생하기 위한 제어 명령을 생성할 수 있다.

서버는 1011 동작에서 제어 명령에 따른 컨텐츠를 추출하여 전자 장치로 전송할 수 있다. 예를 들어, 도 8을 참조하면, 서버는 컨텐츠 제공 서버들(820-1 내지 820-n)로부터 제어 명령에 따른 컨텐츠를 추출하여 전자 장치(800)로 전송할 수 있다.

도 11은 본 개시의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 11을 참조하면 음성 인식 시스템은 전자 장치(1100)와 서버(1110)를 포함할 수 있다.

전자 장치(1100)는 마이크를 통해 음성 신호를 수신하고, 서버(1110)로부터 제공받은 제어 명령에 따른 컨텐츠를 추출하여 재생할 수 있다. 예를 들어, 전자 장치(1100)는 제어부(1101), TTS 모듈(1103) 및 음성 검출부(1105)를 포함할 수 있다.

제어부(1101)는 전자 장치(1100)의 전반적인 동작을 제어할 수 있다. 제어부(1101)는 컨텐츠 제공 서버들(1120-1 내지 1120-n)로부터 서버(1110)로부터 제공받은 제어 명령에 따른 컨텐츠를 추출하여 재생하도록 제어할 수 있다. 예를 들어, 제어부(1101)는 서버(1110)로부터 제공받은 제어 명령에 따른 컨텐츠를 TTS 모듈(1103)에서 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력하도록 제어할 수 있다.

제어부(1101)는 음성 검출부(1105)에서 음성 신호를 추출한 시점에 스피커를 통해 출력 중인 컨텐츠 정보를 서버(1110)로 전송할 수 있다. 예를 들어, 도 20a을 참조하여 주요 뉴스(2005) 재생 중 음성 검출부(1105)에서 음성 신호를 추출한 경우, 제어부(1101)는 주요 뉴스(2005)에 대한 컨텐츠 정보를 서버(1110)로 전송할 수 있다. 다른 예를 들어, 도 21a을 참조하여 "노래 1" 재생 중 음성 검출부(1105)에서 음성 신호를 추출한 경우, 제어부(1101)는 "노래 1"에 대한 컨텐츠 정보를 서버(1110)로 전송할 수 있다. 또 다른 예를 들어, 제어부(1101)는 음성 신호 추출 정보를 수신한 시점부터 기준 시간만큼 이전에 재생한 컨텐츠 정보를 서버(1110)로 전송할 수도 있다. 하지만, 음성 검출부(1105)에서 음성 신호를 추출한 시점에 스피커를 통해 출력 중인 컨텐츠가 존재하지 않는 경우, 제어부(1101)는 컨텐츠 정보를 서버(1110)로 전송하지 않을 수도 있다.

TTS 모듈(1103)은 제어부(1101)로부터 제공받은 컨텐츠를 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력할 수 있다. 여기서, 음성 신호 또는 오디오 신호는 다수 개의 구성 요소들의 시퀀스를 포함할 수 있다.

음성 검출부(1105)는 마이크를 통해 수집된 오디오 신호에서 음성 신호를 추출하여 서버(1110)로 제공할 수 있다. 예를 들어, 음성 검출부(1105)는 마이크를 통해 수집된 오디오 신호에서 에코 성분을 제거할 수 있는 에코 제어부 및 에코 제거부로부터 제공받은 오디오 신호에서 배경 잡음을 제거할 수 있는 잡음 제거부를 포함할 수 있다. 이에 따라, 음성 검출부(1105)는 에코 제거부 및 잡음 제거부를 통해 에코 성분 및 배경 잡음이 제거된 오디오 신호에서 음성 신호를 추출할 수 있다. 여기서, 에코는 스피커를 통해 출력되는 오디오 신호가 마이크로 유입되는 현상을 나타낼 수 있다.

상술한 바와 같이 전자 장치(1100)에서 컨텐츠 정보와 음성 신호를 서버(1110)로 전송하는 경우, 전자 장치(1100)는 컨텐츠 정보와 음성 신호를 독립적으로 서버(1110)로 전송하거나 음성 신호에 컨텐츠 정보를 추가하여 서버(1110)로 전송할 수 있다.

서버(1110)는 전자 장치(1100)로부터 제공받은 컨텐츠 정보 및 음성 신호를 이용하여 음성 명령을 추출하고, 음성 명령에 따른 제어 명령을 생성하여 전자 장치(1100)로 전송할 수 있다. 예를 들어, 서버(1110)는 언어 인식부(1111), 자연어 처리부(1113) 및 동작 결정부(1115)를 포함할 수 있다.

언어 인식부(1111)는 전자 장치(1100)의 음성 검출부(1105)로부터 제공받은 음성 신호를 문자 데이터로 변환할 수 있다.

자연어 처리부(1113)는 언어 인식부(1111)로부터 제공받은 문자 데이터를 분석하여 문자 데이터에 포함된 사용자의 의도 및 핵심 정보를 추출할 수 있다. 자연어 처리부(1113)는 언어 인식부(1111)로부터 제공받은 문자 데이터를 분석하여 음성 신호에 포함된 음성 명령을 추출할 수 있다. 이때, 자연어 처리부(1113)는 전자 장치(1100)의 제어부(1101)로부터 제공받은 컨텐츠 정보를 이용하여 언어 인식부(1111)로부터 제공받은 문자 데이터를 분석함으로써 음성 신호에 포함된 음성 명령을 추출할 수 있다. 예를 들어, 언어 인식부(1111)로부터 "지금 뉴스 상세 정보"의 문자 데이터를 제공받은 경우, 자연어 처리부(1113)는 언어 인식부(1111)로부터 제공받은 문자 데이터를 분석하여 음성 신호가 지금 재생 중인 뉴스에 대한 상세한 정보를 요구하는 것으로 인지할 수 있다. 이때, 자연어 처리부(1113)는 제어부(1101)로부터 제공받은 컨텐츠 정보를 고려하여 지금 재생 중인 뉴스에 대한 정확한 정보를 인지할 수 있다.

동작 결정부(1115)는 자연어 처리부(1113)에서 추출한 음성 명령에 따른 제어부(1101)의 동작을 위한 제어 명령을 생성하여 전자 장치(1100)로 전송할 수 있다. 예를 들어, 자연어 처리부(1113)에서 "지금 재생 중인 뉴스(예: 휴대폰 전격 공개)에 대한 상세한 정보를 요구하는 것으로 인지한 경우, 동작 결정부(1115)는 "휴대폰 전격 공개"에 대한 상세 정보를 재생하기 위한 제어 명령을 생성하여 전자 장치(1100)로 전송할 수 있다.

상술한 바와 같이 전자 장치(1100)의 제어부(1101)는 음성 검출부(1105)에서 음성 신호를 검출한 시점에 스피커를 통해 출력 중인 컨텐츠에 대한 컨텐츠 정보를 서버(1110)로 전송할 수 있다. 이때, 전자 장치(1100)는 하기 도 12와 같이 컨텐츠 추정부(1207)를 이용하여 음성 검출부(1205)에서 음성 신호를 검출한 시점에 재생 중인 컨텐츠를 확인할 수 있다.

도 12는 본 개시의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 12를 참조하면 음성 인식 시스템은 전자 장치(1200)와 서버(1210)를 포함할 수 있다. 이하 설명에서 서버(1210)는 도 11에 도시된 서버(1110)와 구성 및 동작이 동일하므로 상세한 설명을 생략한다.

전자 장치(1200)는 마이크를 통해 음성 신호를 수신하고, 서버(1210)로부터 제공받은 제어 명령에 따른 컨텐츠를 재생할 수 있다. 예를 들어, 전자 장치(1200)는 제어부(1201), TTS 모듈(1203), 음성 검출부(1205) 및 컨텐츠 추정부(1207)를 포함할 수 있다.

제어부(1201)는 전자 장치(1200)의 전반적인 동작을 제어할 수 있다. 제어부(1201)는 컨텐츠 제공 서버들(1220-1 내지 1220-n)로부터 서버(1210)로부터 제공받은 제어 명령에 따른 컨텐츠를 추출하여 재생하도록 제어할 수 있다. 예를 들어, 제어부(1201)는 서버(1210)로부터 제공받은 제어 명령에 따른 컨텐츠를 TTS 모듈(1203)에서 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력하도록 제어할 수 있다.

TTS 모듈(1203)은 제어부(1201)로부터 제공받은 컨텐츠를 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력할 수 있다. 여기서, 음성 신호 또는 오디오 신호는 다수 개의 구성 요소들의 시퀀스를 포함할 수 있다.

음성 검출부(1205)는 마이크를 통해 수집된 오디오 신호에서 음성 신호를 추출하여 서버(1210)로 제공할 수 있다. 예를 들어, 음성 검출부(1205)는 마이크를 통해 수집된 오디오 신호에서 에코 성분을 제거할 수 있는 에코 제어부 및 에코 제거부로부터 제공받은 오디오 신호에서 배경 잡음을 제거할 수 있는 잡음 제거부를 포함할 수 있다. 이에 따라, 음성 검출부(1205)는 에코 제거부 및 잡음 제거부를 통해 에코 성분 및 배경 잡음이 제거된 오디오 신호에서 음성 신호를 추출할 수 있다. 여기서, 에코는 스피커를 통해 출력되는 오디오 신호가 마이크로 유입되는 현상을 나타낼 수 있다.

마이크를 통해 수집된 오디오 신호에서 음성 신호를 추출한 경우, 음성 검출부(1205)는 음성 신호를 추출한 시점에 음성 신호 추출 정보를 생성하여 컨텐츠 추정부(1207)로 전송할 수 있다. 여기서, 음성 신호 추출 정보는 음성 검출부(1205)에서 음성 신호를 추출한 시점 정보를 포함할 수 있다.

컨텐츠 추정부(1207)는 제어부(1201)에서 TTS 모듈(1203)로 전송하는 컨텐츠를 모니터링할 수 있다. 이에 따라, 컨텐츠 추정부(1207)는 음성 검출부(1205)에서 음성 수신 신호를 추출한 시점에 제어부(1201)에서 TTS 모듈(1203)로 전송하는 컨텐츠에 대한 정보를 확인하여 서버(1210)로 전송할 수 있다. 이때, 컨텐츠 추정부(1207)는 음성 검출부(1205)로부터 제공받은 음성 신호 추출 정보에서 음성 검출부(1205)에서 음성 수신 신호를 추출한 시점을 확인할 수 있다.

상술한 실시 예에서 컨텐츠 추정부(1207)는 제어부(1201)에서 TTS 모듈(1203)로 전송하는 컨텐츠를 모니터링하여 음성 검출부(1205)에서 음성 수신 신호를 추출한 시점에 제어부(1201)에서 TTS 모듈(1203)로 전송하는 컨텐츠에 대한 정보를 확인할 수 있다.

다른 실시 예에서 컨텐츠 추정부(1207)는 TTS 모듈(1203)에서 출력되는 컨텐츠를 모니터링할 수도 있다. 이에 따라, 컨텐츠 추정부(1207)는 음성 검출부(1205)에서 음성 수신 신호를 추출한 시점에 TTS 모듈(1203)에서 출력되는 컨텐츠에 대한 정보를 확인하여 서버(1210)로 전송할 수도 있다.

도 13은 본 개시의 다양한 실시 예에 따른 전자 장치에서 컨텐츠 정보를 서버로 전송하기 위한 절차를 도시하고 있다.

도 13을 참조하면 전자 장치는 1301 동작에서 컨텐츠를 재생할 수 있다. 예를 들어, 전자 장치는 서버로부터 제공받은 컨텐츠를 TTS 모듈을 이용하여 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력할 수 있다. 여기서, 음성 신호 또는 오디오 신호는 다수 개의 구성 요소들의 시퀀스를 포함할 수 있다.

컨텐츠 재생 중 전자 장치는 1303 동작에서 음성 신호를 수신할 수 있다. 예를 들어, 전자 장치는 마이크를 통해 수신된 오디오 신호에서 음성 신호를 추출할 수 있다.

음성 신호를 수신한 경우, 전자 장치는 1305 동작에서 음성 신호를 수신한 시점에 재생 중인 컨텐츠에 대한 정보를 생성할 수 있다. 예를 들어, 도 12를 참조하면, 전자장치는 컨텐츠 추정부(1207)를 이용하여 음성 검출부(1205)에서 음성 수신 신호를 추출한 시점에 제어부(1201)에서 TTS 모듈(1203)로 전송하는 컨텐츠를 확인하여 컨텐츠 정보를 생성할 수 있다. 이때, 전자 장치는 음성 검출부(1205)에서 음성 수신 신호를 추출한 시점보다 기준 시간만큼 이전에 제어부(1201)에서 TTS 모듈(1203)로 전송하는 컨텐츠를 확인하여 컨텐츠 정보를 생성할 수도 있다. 하지만, 음성 신호를 수신하는 시점에 제어부(1201)에서 TTS 모듈(1203)로 전송하는 컨텐츠가 존재하지 않는 경우, 전자 장치는 컨텐츠 정보를 생성하지 않을 수도 있다. 다른 예를 들어, 도 12를 참조하면, 전자장치는 컨텐츠 추정부(1207)를 이용하여 음성 검출부(1205)에서 음성 수신 신호를 추출한 시점에 TTS 모듈(1203)에서 출력되는 컨텐츠를 확인하여 컨텐츠 정보를 생성할 수도 있다. 이때, 전자 장치는 음성 검출부(1205)에서 음성 수신 신호를 추출한 시점보다 기준 시간만큼 이전에 TTS 모듈(1203)에서 출력되는 컨텐츠를 확인하여 컨텐츠 정보를 생성할 수도 있다. 하지만, 음성 신호를 수신하는 시점에 TTS 모듈(1203)에서 출력되는 컨텐츠가 존재하지 않는 경우, 전자 장치는 컨텐츠 정보를 생성하지 않을 수도 있다.

전자 장치는 1307 동작에서 컨텐츠 정보와 음성 신호를 서버로 전송할 수 있다. 이때, 전자 장치는 컨텐츠 정보와 음성 신호를 독립적으로 서버로 전송하거나 음성 신호에 컨텐츠 정보를 추가하여 서버로 전송할 수 있다.

전자 장치는 1309 동작에서 서버로부터 제어 명령이 수신되는지 확인할 수 있다.

서버로부터 제어 명령을 수신한 경우, 전자 장치는 1311 동작에서 서버로부터 제공받은 제어 명령에 따른 컨텐츠를 추출하여 재생할 수 있다. 예를 들어, 전자 장치는 데이터 저장부 또는 컨텐츠 제공 서버들로부터 서버로부터 제공받은 제어 명령에 따른 컨텐츠를 추출할 수 있다. 이후, 전자 장치는 TTS 모듈을 통해 제어 명령에 따른 컨텐츠를 음성 신호로 변환하여 스피커를 통해 출력할 수도 있다.

도 14는 본 개시의 다양한 실시 예에 따른 서버에서 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 절차를 도시하고 있다.

도 14를 참조하면 서버는 1401 동작에서 전자 장치로부터 음성 신호가 수신되는지 확인할 수 있다.

전자 장치로부터 음성 신호를 수신한 경우, 서버는 1403 동작에서 전자 장치로부터 제공받은 음성 신호를 문자 데이터로 변환할 수 있다.

서버는 1405 동작에서 전자 장치가 음성 신호를 수신한 시점에 재생 중이던 컨텐츠에 대한 정보를 확인할 수 있다. 예를 들어, 서버는 전자 장치로부터 컨텐츠 정보를 수신할 수 있다. 다른 예를 들어, 서버는 1401 동작에서 전자 장치로부터 수신한 음성 신호에 포함된 컨텐츠 정보를 확인할 수도 있다.

전자 장치는 1407 동작에서 컨텐츠 정보와 음성 신호를 고려하여 제어 명령을 생성할 수 있다. 예를 들어, 음성 신호를 "지금 뉴스 상세 정보"의 문자 데이터로 변환한 경우, 서버는 자연어 처리부를 통해 문자 데이터를 분석하여 음성 신호가 "지금 재생 중인 뉴스에 대한 상세한 정보를 요구"하는 것으로 인지할 수 있다. 이때, 자연어 처리부는 전자 장치로부터 제공받은 컨텐츠 정보에 따라 "휴대폰 전격 공개"에 대한 상세 정보를 요구하는 것으로 인지할 수 있다. 이에 따라, 전자 장치는 "휴대폰 전격 공개"에 대한 상세 정보를 재생하기 위한 제어 명령을 생성할 수 있다.

서버는 1409 동작에서 제어 명령을 전자 장치로 전송할 수 있다.

다른 실시 예에서 전자 장치는 도 15 또는 도 16을 참조하여 전자 장치에서 재생하는 컨텐츠 및 컨텐츠의 재생 시점 정보를 서버로 전송할 수도 있다.

도 15는 본 개시의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 15를 참조하면 음성 인식 시스템은 전자 장치(1500)와 서버(1510)를 포함할 수 있다.

전자 장치(1500)는 마이크를 통해 음성 신호를 수신하고, 서버(1510)로부터 제공받은 제어 명령에 따른 컨텐츠를 추출하여 재생할 수 있다. 예를 들어, 전자 장치(1500)는 제어부(1501), TTS 모듈(1503) 및 음성 검출부(1505)를 포함할 수 있다.

제어부(1501)는 전자 장치(1500)의 전반적인 동작을 제어할 수 있다. 제어부(1501)는 컨텐츠 제공 서버들(1520-1 내지 1520-n)로부터 서버(1510)로부터 제공받은 제어 명령에 따른 컨텐츠를 추출하여 재생하도록 제어할 수 있다. 예를 들어, 제어부(1501)는 서버(1510)로부터 제공받은 제어 명령에 따른 컨텐츠를 TTS 모듈(1503)에서 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력하도록 제어할 수 있다.

제어부(1501)는 스피커를 통해 출력하도록 제어한 컨텐츠 재생 정보를 서버(1510)로 전송할 수 있다. 여기서, 컨텐츠 재생 정보는 제어부(1501)의 제어에 따라 전자 장치(1500)에서 재생하는 컨텐츠 및 해당 컨텐츠의 재생 시점 정보를 포함할 수 있다. 예를 들어, 데일리 브리핑(daily briefing) 서비스를 제공하는 경우, 도 20a을 참조하여 제어부(1501)는 데일리 브리핑 서비스의 설정 정보에 따라 날씨 정보(2001), 주식 정보(2003) 및 주요 뉴스(2005)를 순차적으로 추출하여 스피커를 통해 출력하도록 제어할 수 있다. 이 경우, 제어부(1501)는 스피커를 통해 출력하는 날씨 정보(2001), 주식 정보(2003) 및 주요 뉴스(2005)의 정보 및 각각의 재생 시점 정보를 서버(1510)로 전송할 수 있다. 다른 예를 들어, 음악 재생 서비스를 제공하는 경우, 도 21a를 참조하여 제어부(1501)는 재생 목록에 포함된 음악 파일들을 재생하여 스피커를 통해 출력하도록 제어할 수 있다. 이 경우, 제어부(1501)는 재생되는 음악 파일 정보 및 각 음악 파일의 재생 시점 정보를 서버(1510)로 전송할 수 있다. 이때, 제어부(1501)는 컨텐츠가 재생될때 마다 해당 컨텐츠 정보 및 재생 시점 정보를 서버(1510)로 전송할 수 있다.

TTS 모듈(1503)은 제어부(1501)로부터 제공받은 컨텐츠를 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력할 수 있다. 여기서, 음성 신호 또는 오디오 신호는 다수 개의 구성 요소들의 시퀀스를 포함할 수 있다.

음성 검출부(1505)는 마이크를 통해 수집된 오디오 신호에서 음성 신호를 추출하여 서버(1510)로 제공할 수 있다. 이때, 음성 검출부(1505)는 음성 신호를 추출한 시점 정보를 음성 신호와 함께 서버(1510)로 전송할 수 있다. 예를 들어, 음성 검출부(1505)는 마이크를 통해 수집된 오디오 신호에서 에코 성분을 제거할 수 있는 에코 제어부 및 에코 제거부로부터 제공받은 오디오 신호에서 배경 잡음을 제거할 수 있는 잡음 제거부를 포함할 수 있다. 이에 따라, 음성 검출부(1505)는 에코 제거부 및 잡음 제거부를 통해 에코 성분 및 배경 잡음이 제거된 오디오 신호에서 음성 신호를 추출할 수 있다. 여기서, 에코는 스피커를 통해 출력되는 오디오 신호가 마이크로 유입되는 현상을 나타낼 수 있다.

서버(1510)는 전자 장치(1500)로부터 제공받은 컨텐츠 재생 정보 및 음성 신호를 이용하여 음성 명령을 추출하고, 음성 명령에 따른 제어 명령을 생성하여 전자 장치(1500)로 전송할 수 있다. 예를 들어, 서버(1510)는 언어 인식부(1511), 컨텐츠 결정부(1513), 자연어 처리부(1515) 및 동작 결정부(1517)를 포함할 수 있다.

언어 인식부(1511)는 전자 장치(1500)의 음성 검출부(1505)로부터 제공받은 음성 신호를 문자 데이터로 변환할 수 있다. 이때, 언어 인식부(1511)는 음성 신호의 추출 시점 정보를 컨텐츠 결정부(1513)로 전송할 수 있다.

컨텐츠 결정부(1513)는 전자 장치(1500)로부터 제공받은 컨텐츠 재생 정보와 언어 인식부(1511)로부터 제공받은 음성 신호 추출 시점 정보를 이용하여 전자 장치(1500)가 음성 신호를 수신하는 시점에 전자 장치(1500)에서 재생 중인 컨텐츠를 확인할 수 있다. 예를 들어, 컨텐츠 결정부(1513)는 수신 시점 검출부와 세션 선택부를 포함할 수 있다. 수신 시점 검출부는 언어 인식부(1511)로부터 제공받은 음성 신호 추출 시점 정보를 이용하여 전자 장치(1500)가 음성 신호를 수신한 시점을 검출할 수 있다. 세션 선택부는 전자 장치(1500)로부터 제공받은 컨텐츠 재생 정보와 수신 시점 검출부에서 검출한 전자 장치(1500)가 음성 신호를 수신한 시점을 비교하여 전자 장치(1500)가 음성 신호를 수신하는 시점에 전자 장치(1500)에서 재생 중인 컨텐츠를 확인할 수 있다. 여기서, 컨텐츠 재생 정보는 전자 장치(1500)에서 재생하거나 재생 중인 컨텐츠 및 해당 컨텐츠의 재생 시점을 포함할 수 있다.

자연어 처리부(1515)는 언어 인식부(1511)로부터 제공받은 문자 데이터를 분석하여 문자 데이터에 포함된 사용자의 의도 및 핵심 정보를 추출할 수 있다. 자연어 처리부(1515)는 언어 인식부(1511)로부터 제공받은 문자 데이터를 분석하여 음성 신호에 포함된 음성 명령을 추출할 수 있다. 이때, 자연어 처리부(1515)는 컨텐츠 결정부(1513)를 통해 확인한 전자 장치(1500)가 음성 신호를 수신하는 시점에 전자 장치(1500)에서 재생 중인 컨텐츠에 대한 정보를 이용하여 언어 인식부(1511)로부터 제공받은 문자 데이터를 분석함으로써 음성 신호에 포함된 음성 명령을 추출할 수 있다. 예를 들어, 언어 인식부(1511)로부터 "지금 뉴스 상세 정보"의 문자 데이터를 제공받은 경우, 자연어 처리부(1515)는 언어 인식부(1511)로부터 제공받은 문자 데이터를 분석하여 음성 신호가 지금 재생 중인 뉴스에 대한 상세한 정보를 요구하는 것으로 인지할 수 있다. 이때, 자연어 처리부(1515)는 컨텐츠 결정부(813)로부터 제공받은 컨텐츠 정보를 고려하여 지금 재생 중인 뉴스에 대한 정확한 정보를 인지할 수 있다.

동작 결정부(1517)는 자연어 처리부(1515)에서 추출한 음성 명령에 따른 제어부(1501)의 동작을 위한 제어 명령을 생성하여 전자 장치(1500)로 전송할 수 있다. 예를 들어, 자연어 처리부(1515)에서 "지금 재생 중인 뉴스(예: 휴대폰 전격 공개)에 대한 상세한 정보를 요구하는 것으로 인지한 경우, 동작 결정부(1517)는 "휴대폰 전격 공개"에 대한 상세 정보를 재생하기 위한 제어 명령을 생성하여 전자 장치(1500)로 전송할 수 있다.

도 16은 본 개시의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 16을 참조하면 음성 인식 시스템은 전자 장치(1600)와 서버(1610)를 포함할 수 있다. 이하 설명에서 전자 장치(1600)는 도 15에 도시된 전자 장치(1500)와 구성 및 동작이 동일하므로 상세한 설명을 생략한다.

서버(1610)는 전자 장치(1600)로부터 제공받은 컨텐츠 재생 정보 및 음성 신호를 이용하여 음성 명령을 추출하고, 음성 명령에 따른 제어 명령을 생성하여 전자 장치(1600)로 전송할 수 있다. 예를 들어, 서버(1610)는 언어 인식부(1611), 컨텐츠 결정부(1613), 자연어 처리부(1615) 및 동작 결정부(1617)를 포함할 수 있다.

언어 인식부(1611)는 전자 장치(1600)의 음성 검출부(1605)로부터 제공받은 음성 신호를 문자 데이터로 변환할 수 있다. 이때, 언어 인식부(1611)는 음성 신호의 추출 시점 정보를 컨텐츠 결정부(1613)로 전송할 수 있다.

자연어 처리부(1615)는 언어 인식부(1611)로부터 제공받은 문자 데이터를 분석하여 문자 데이터에 포함된 사용자의 의도 및 핵심 정보를 추출할 수 있다. 자연어 처리부(1615)는 언어 인식부(1611)로부터 제공받은 문자 데이터를 분석하여 음성 신호에 포함된 음성 명령을 추출할 수 있다. 이때, 자연어 처리부(1615)는 음성 신호에 포함된 명확한 사용자 의도 및 핵심 정보를 추출하기 위해 언어 인식부(1611)로부터 제공받은 문자 데이터를 분석하여 추출한 음성 명령을 컨텐츠 결정부(1613)로 전송할 수 있다. 예를 들어, 언어 인식부(1611)로부터 "음~ 방금 전 뉴스 상세 정보 알려줘"라는 문자 데이터를 제공받은 경우, 자연어 처리부(1615)는 "음~"를 제외한 "방금 전"이 음성 신호에 포함된 음성 명령의 시작 시점으로 인식할 수 있다. 이에 따라, 자연어 처리부(1615)는 "방금 전 뉴스 상세 정보"의 음성 명령을 컨텐츠 결정부(1613)로 전송할 수 있다. 자연어 처리부(1615)는 컨텐츠 결정부(1613)를 통해 확인한 전자 장치(1600)가 음성 신호를 수신하는 시점에 전자 장치(1600)에서 재생 중인 컨텐츠에 대한 정보를 이용하여 언어 인식부(1611)로부터 제공받은 문자 데이터를 분석함으로써 음성 신호에 포함된 음성 명령을 추출할 수 있다. 예를 들어, 자연어 처리부(1615)는 전자 장치(1600)에서 "음~ 방금 전 뉴스 상세 정보 알려줘"의 음성 신호를 수신한 경우, "음~"를 수신한 시점이 아닌 "방금 전"을 수신한 시점에 전자 장치(1600)에서 재생 중인 뉴스 정보를 명확히 인지할 수 있다.

컨텐츠 결정부(1613)는 전자 장치(1600)로부터 제공받은 컨텐츠 재생 정보와 언어 인식부(1611)로부터 제공받은 음성 신호 추출 시점 정보 및 자연어 처리부(1615)로부터 제공받은 음성 명령을 이용하여 전자 장치(1600)가 음성 신호를 수신하는 시점에 전자 장치(1600)에서 재생 중인 컨텐츠를 확인할 수 있다. 예를 들어, 컨텐츠 결정부(1613)는 음성 명령 검출부와 수신 시점 검출부 및 세션 선택부를 포함할 수 있다.

음성 명령 검출부는 자연어 처리부(1615)로부터 제공받은 음성 명령 정보를 이용하여 제어 명령 생성을 위한 핵심 정보를 검출할 수 있다. 예를 들어, 자연어 처리부(1615)로부터 "방금 전 뉴스 상세 정보"의 음성 명령 정보를 제공받은 경우, 음성 명령 검출부는 "방금 전 뉴스"를 제어 명령 생성을 위한 핵심 정보로 검출할 수 있다.

수신 시점 검출부는 언어 인식부(1611)로부터 제공받은 음성 신호 추출 시점 정보 및 음성 명령 검출부로부터 제공받은 핵심 정보를 이용하여 전자 장치(1600)가 음성 신호를 수신한 시점을 검출할 수 있다. 예를 들어, 전자 장치(1600)에서 "음~ 방금 전 뉴스 상세 정보 알려줘"의 음성 신호를 수신한 경우, 수신 시점 검출부는 언어 인식부(1611)로부터 전자 장치(1600)가 "음~"을 수신한 시점 정보를 제공받을 수 있다. 하지만, 수신 시점 검출부는 음성 명령 검출부로부터 제공받은 핵심 정보에 따라 "음~"을 수신한 시점이 아닌 "방금 전 뉴스"를 수신한 시점에 전자 장치(1600)에서 재생 중인 컨텐츠를 확인해야 되는 것으로 결정할 수 있다.

세션 선택부는 전자 장치(1600)로부터 제공받은 컨텐츠 재생 정보와 수신 시점 검출부에서 검출한 전자 장치(1600)가 음성 신호를 수신한 시점을 비교하여 전자 장치(1600)가 음성 신호를 수신하는 시점에 전자 장치(1600)에서 재생 중인 컨텐츠를 확인할 수 있다. 여기서, 컨텐츠 재생 정보는 전자 장치(1600)에서 재생하거나 재생 중인 컨텐츠 및 해당 컨텐츠의 재생 시점을 포함할 수 있다.

동작 결정부(1617)는 자연어 처리부(1615)에서 추출한 음성 명령에 따른 제어부(1601)의 동작을 위한 제어 명령을 생성하여 전자 장치(1600)로 전송할 수 있다. 예를 들어, 자연어 처리부(1615)에서 "방금 전 뉴스(예: 휴대폰 전격 공개)에 대한 상세한 정보를 요구하는 것으로 인지한 경우, 동작 결정부(1617)는 "휴대폰 전격 공개"에 대한 상세 정보를 재생하기 위한 제어 명령을 생성하여 전자 장치(1600)로 전송할 수 있다.

도 17은 본 개시의 다양한 실시 예에 따른 전자 장치에서 컨텐츠 정보를 서버로 전송하기 위한 절차를 도시하고 있다.

도 17을 참조하면 전자 장치는 1701 동작에서 컨텐츠를 재생할 수 있다. 예를 들어, 전자 장치는 서버로부터 제공받은 컨텐츠를 TTS 모듈을 이용하여 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력할 수 있다. 여기서, 음성 신호 또는 오디오 신호는 다수 개의 구성 요소들의 시퀀스를 포함할 수 있다.

컨텐츠를 재생하는 경우, 전자 장치는 1703 동작에서 재생하는 컨텐츠 및 재생 시점 정보를 포함하는 컨텐츠 재생 정보를 생성할 수 있다.

전자 장치는 1705 동작에서 컨텐츠 재생 정보를 서버로 전송할 수 있다. 예를 들어, 도 15에 도시된 전자 장치(1500)의 제어부(1501)는 컨텐츠 재생 정보를 서버(1510)의 컨텐츠 결정부(1513)로 전송할 수 있다.

전자 장치는 1707 동작에서 음성 신호를 수신할 수 있다. 예를 들어, 전자 장치는 마이크를 통해 수신된 오디오 신호에서 음성 신호를 추출할 수 있다.

음성 신호를 수신한 경우, 전자 장치는 1709 동작에서 음성 신호를 서버로 전송할 수 있다. 이때, 전자 장치는 음성 신호 및 음성 신호를 추출한 시점 정보를 서버로 전송할 수 있다.

전자 장치는 1711 동작에서 서버로부터 서버로부터 제어 명령이 수신되는지 확인할 수 있다.

서버로부터 제어 명령을 수신한 경우, 전자 장치는 1713 동작에서 서버로부터 제공받은 제어 명령에 따른 컨텐츠를 추출하여 재생할 수 있다. 예를 들어, 전자 장치는 데이터 저장부 또는 컨텐츠 제공 서버들로부터 서버로부터 제공받은 제어 명령에 따른 컨텐츠를 추출할 수 있다. 이후, 전자 장치는 TTS 모듈을 통해 제어 명령에 따른 컨텐츠를 음성 신호로 변환하여 스피커를 통해 출력할 수도 있다.

도 18은 본 개시의 다양한 실시 예에 따른 서버에서 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 절차를 도시하고 있다.

도 18을 참조하면 서버는 1801 동작에서 전자 장치의 컨텐츠 재생 정보를 확인할 수 있다. 예를 들어, 서버는 전자 장치로부터 제공받은 컨텐츠 재생 정보에서 전자 장치에서 재생하는 컨텐츠 및 해당 컨텐츠의 재생 시간 정보를 확인할 수 있다.

서버는 1803 동작에서 전자 장치로부터 음성 신호가 수신되는지 확인할 수 있다.

전자 장치로부터 음성 신호를 수신한 경우, 서버는 1805 동작에서 전자 장치로부터 제공받은 음성 신호를 문자 데이터로 변환할 수 있다.

서버는 1807 동작에서 전자 장치의 컨텐츠 재생 정보와 전자 장치가 음성 신호를 추출한 시점을 이용하여 전자 장치가 음성 신호를 수신한 시점에 재생 중이던 컨텐츠에 대한 정보를 확인할 수 있다. 이때, 서버는 음성 신호에 포함된 전자 장치에서의 음성 신호의 추출 시점 정보를 확인할 수 있다.

전자 장치는 1809 동작에서 컨텐츠 정보와 음성 신호를 고려하여 제어 명령을 생성할 수 있다. 예를 들어, 음성 신호를 "지금 뉴스 상세 정보"의 문자 데이터로 변환한 경우, 서버는 자연어 처리부를 통해 문자 데이터를 분석하여 음성 신호가 "지금 재생 중인 뉴스에 대한 상세한 정보를 요구"하는 것으로 인지할 수 있다. 이때, 자연어 처리부는 전자 장치로부터 제공받은 컨텐츠 정보에 따라 "휴대폰 전격 공개"에 대한 상세 정보를 요구하는 것으로 인지할 수 있다. 이에 따라, 전자 장치는 "휴대폰 전격 공개"에 대한 상세 정보를 재생하기 위한 제어 명령을 생성할 수 있다.

서버는 1811 동작에서 제어 명령을 전자 장치로 전송할 수 있다.

상술한 실시 예에서 서버는 전자 장치의 컨텐츠 재생 정보와 전자 장치가 음성 신호를 추출한 시점을 이용하여 전자 장치가 음성 신호를 수신한 시점에 재생 중이던 컨텐츠에 대한 정보를 확인할 수 있다.

다른 실시 예에서 서버는 전자 장치의 컨텐츠 재생 정보와 전자 장치가 음성 신호를 추출한 시점 및 음성 신호에 대한 음성 명령을 이용하여 전자 장치가 음성 신호를 수신한 시점에 재생 중이던 컨텐츠에 대한 정보를 확인할 수도 있다.

도 19는 본 개시의 다양한 실시 예에 따른 전자 장치의 컨텐츠 정보를 고려하여 음성 명령을 인식하기 위한 음성 인식 시스템의 블록 구성을 도시하고 있다.

도 19를 참조하면 음성 인식 시스템은 전자 장치(1900)와 서버(1910)를 포함할 수 있다.

전자 장치(1900)는 마이크를 통해 음성 신호를 수신하고, 서버(1910)로부터 제공받은 제어 명령에 따른 컨텐츠를 추출하여 재생할 수 있다. 예를 들어, 전자 장치(1900)는 제어부(1901), TTS 모듈(1903), 음성 검출부(1905), 제 1 언어 인식부(1907), 제 1 자연어 처리부(1909) 및 컨텐츠 결정부(1911)를 포함할 수 있다.

제어부(1901)는 전자 장치(1900)의 전반적인 동작을 제어할 수 있다. 제어부(1901)는 컨텐츠 제공 서버들(1930-1 내지 1930-n)로부터 서버(1920)로부터 제공받은 제어 명령에 따른 컨텐츠를 추출하여 재생하도록 제어할 수 있다. 예를 들어, 제어부(1901)는 서버(1920)로부터 제공받은 제어 명령에 따른 컨텐츠를 TTS 모듈(1903)에서 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력하도록 제어할 수 있다. 여기서, 음성 신호 또는 오디오 신호는 다수 개의 구성 요소들의 시퀀스를 포함할 수 있다.

제어부(1901)는 스피커를 통해 출력하도록 제어한 컨텐츠 재생 정보를 컨텐츠 결정부(1911)로 전송할 수 있다. 여기서, 컨텐츠 재생 정보는 제어부(1901)의 제어에 따라 전자 장치(1900)에서 재생하는 컨텐츠 및 해당 컨텐츠의 재생 시점 정보를 포함할 수 있다. 예를 들어, 도 20a를 참조하여 데일리 브리핑(daily briefing) 서비스를 제공하는 경우, 제어부(1901)는 데일리 브리핑 서비스의 설정 정보에 따라 날씨 정보(2001), 주식 정보(2003) 및 주요 뉴스(2005)를 순차적으로 추출하여 스피커를 통해 출력하도록 제어할 수 있다. 이 경우, 제어부(1901)는 스피커를 통해 출력하는 날씨 정보(2001), 주식 정보(2003) 및 주요 뉴스(2005)의 정보 및 각각의 재생 시점 정보를 컨텐츠 결정부(1911)로 전송할 수 있다. 다른 예를 들어, 도 21a를 참조하여 음악 재생 서비스를 제공하는 경우, 제어부(1901)는 재생 목록에 포함된 음악 파일들을 재생하여 스피커를 통해 출력하도록 제어할 수 있다. 이 경우, 제어부(1901)는 재생되는 음악 파일 정보 및 각 음악 파일의 재생 시점 정보를 컨텐츠 결정부(1911)로 전송할 수 있다. 이때, 제어부(1901)는 컨텐츠가 재생될 때마다 해당 컨텐츠 정보 및 재생 시점 정보를 컨텐츠 결정부(1911)로 전송할 수 있다.

TTS 모듈(1903)은 제어부(1901)로부터 제공받은 컨텐츠를 음성 신호 또는 오디오 신호로 변환하여 스피커를 통해 출력할 수 있다.

음성 검출부(1905)는 마이크를 통해 수집된 오디오 신호에서 음성 신호를 추출하여 서버(1920)와 제 1 언어 인식부(1907)로 제공할 수 있다. 이때, 음성 검출부(1905)는 제 1 언어 인식부(1907)로 음성 신호의 추출 시점 정보를 음성 신호와 함께 제공할 수 있다. 예를 들어, 음성 검출부(1905)는 마이크를 통해 수집된 오디오 신호에서 에코 성분을 제거할 수 있는 에코 제어부 및 에코 제거부로부터 제공받은 오디오 신호에서 배경 잡음을 제거할 수 있는 잡음 제거부를 포함할 수 있다. 이에 따라, 음성 검출부(1905)는 에코 제거부 및 잡음 제거부를 통해 에코 성분 및 배경 잡음이 제거된 오디오 신호에서 음성 신호를 추출할 수 있다. 여기서, 에코는 스피커를 통해 출력되는 오디오 신호가 마이크로 유입되는 현상을 나타낼 수 있다.

제 1 언어 인식부(1907)는 음성 검출부(1905)로부터 제공받은 음성 신호를 문자 데이터로 변환할 수 있다. 이때, 언어 인식부(1907)는 음성 신호의 추출 시점 정보를 컨텐츠 결정부(1911)로 전송할 수 있다.

제 1 자연어 처리부(1909)는 제 1 언어 인식부(1907)로부터 제공받은 문자 데이터를 분석하여 문자 데이터에 포함된 사용자의 의도 및 핵심 정보를 추출할 수 있다. 제 1 자연어 처리부(1909)는 제 1 언어 인식부(1907)로부터 제공받은 문자 데이터를 분석하여 음성 신호에 포함된 음성 명령을 추출할 수 있다. 예를 들어, 제 1 언어 인식부(1907)로부터 "음~ 방금 전 뉴스 상세 정보 알려줘"라는 문자 데이터를 제공받은 경우, 제 1 자연어 처리부(1909)는 "음~"를 제외한 "방금 전"이 음성 신호에 포함된 음성 명령의 시작 시점으로 인식할 수 있다. 이에 따라, 제 1 자연어 처리부(1909)는 "방금 전 뉴스 상세 정보"의 음성 명령을 컨텐츠 결정부(1911)로 전송할 수 있다.

컨텐츠 결정부(1911)는 제어부(1901)로부터 제공받은 컨텐츠 재생 정보를 이용하여 전자 장치(1900)에서의 컨텐츠 재생 정보를 확인할 수 있다. 여기서, 컨텐츠 재생 정보는 전자 장치(1900)에서 재생하거나 재생 중인 컨텐츠 및 해당 컨텐츠의 재생 시점을 포함할 수 있다. 이에 따라, 컨텐츠 결정부(1911)는 전자 장치(1900)에서의 컨텐츠 재생 정보와 제 1 언어 인식부(1907)로부터 제공받은 음성 신호 추출 시점 정보 및 제 1 자연어 처리부(1909)로부터 제공받은 음성 명령 정보를 이용하여 전자 장치(1900)가 음성 신호를 수신하는 시점에 전자 장치(1900)에서 재생 중인 컨텐츠를 확인할 수 있다. 예를 들어, 전자 장치(1900)에서 "음~ 방금 전 뉴스 상세 정보 알려줘"라는 음성 신호를 수신한 경우, 컨텐츠 결정부(1911)는 제 1 언어 인식부(1907)로부터 전자 장치(1900)가 "음~"을 추출한 시점 정보를 수신할 수 있다. 이후, 컨텐츠 결정부(1911)는 제 1 자연어 처리부(1909)로부터 "방금 전 뉴스 상세 정보"의 음성 명령을 제공받은 경우, 전자 장치(1900)가 "음~"을 추출한 시점이 아닌 "방금 전"을 추출한 시점에 대한 컨텐츠를 확인하여 서버(1920)로 제공할 수 있다.

컨텐츠 결정부(1911)는 제어부(1901)로부터 제공받은 컨텐츠 재생 정보와 제 1 언어 인식부(1907)로부터 제공받은 음성 신호 추출 시점 정보 및 제 1 자연어 처리부(1909)로부터 제공받은 음성 명령을 이용하여 전자 장치(1900)가 음성 신호를 수신하는 시점에 전자 장치(1900)에서 재생 중인 컨텐츠를 확인할 수 있다. 예를 들어, 컨텐츠 결정부(1911)는 음성 명령 검출부와 수신 시점 검출부 및 세션 선택부를 포함할 수 있다.

음성 명령 검출부는 제 1 자연어 처리부(1909)로부터 제공받은 음성 명령 정보를 이용하여 제어 명령 생성을 위한 핵심 정보를 검출할 수 있다. 예를 들어, 제 1 자연어 처리부(1909)로부터 "방금 전 뉴스 상세 정보"의 음성 명령 정보를 제공받은 경우, 음성 명령 검출부는 "방금 전 뉴스"를 제어 명령 생성을 위한 핵심 정보로 검출할 수 있다.

수신 시점 검출부는 제 1 언어 인식부(1907)로부터 제공받은 음성 신호 추출 시점 정보 및 음성 명령 검출부로부터 제공받은 핵심 정보를 이용하여 전자 장치(1900)가 음성 신호를 수신한 시점을 검출할 수 있다. 예를 들어, 전자 장치(1900)에서 "음~ 방금 전 뉴스 상세 정보 알려줘"의 음성 신호를 수신한 경우, 수신 시점 검출부는 제 1 언어 인식부(1907)로부터 전자 장치(1900)가 "음~"을 수신한 시점 정보를 제공받을 수 있다. 하지만, 수신 시점 검출부는 음성 명령 검출부로부터 제공받은 핵심 정보에 따라 "음~"을 수신한 시점이 아닌 "방금 전 뉴스"를 수신한 시점에 전자 장치(1900)에서 재생 중인 컨텐츠를 확인해야 되는 것으로 결정할 수 있다.

세션 선택부는 제어부(1901)로부터 제공받은 컨텐츠 재생 정보와 수신 시점 검출부에서 검출한 전자 장치(1900)가 음성 신호를 수신한 시점을 비교하여 전자 장치(1900)가 음성 신호를 수신하는 시점에 전자 장치(1900)에서 재생 중인 컨텐츠를 확인할 수 있다. 여기서, 컨텐츠 재생 정보는 전자 장치(1900)에서 재생하거나 재생 중인 컨텐츠 및 해당 컨텐츠의 재생 시점을 포함할 수 있다.

서버(1920)는 전자 장치(1900)로부터 제공받은 컨텐츠 정보 및 음성 신호를 이용하여 음성 명령을 추출하고, 음성 명령에 대한 제어 명령을 생성하여 전자 장치(1900)로 전송할 수 있다. 예를 들어, 서버(1920)는 제 2 언어 인식부(1921), 제 2 자연어 처리부(1923) 및 동작 결정부(1925)를 포함할 수 있다.

제 2 언어 인식부(1921)는 전자 장치(1900)의 음성 검출부(1905)로부터 제공받은 음성 신호를 문자 데이터로 변환할 수 있다.

제 2 자연어 처리부(1923)는 제 2 언어 인식부(1921)로부터 제공받은 문자 데이터를 분석하여 문자 데이터에 포함된 사용자의 의도 및 핵심 정보를 추출할 수 있다. 제 2 자연어 처리부(1923)는 제 2 언어 인식부(1921)로부터 제공받은 문자 데이터를 분석하여 음성 신호에 포함된 음성 명령을 추출할 수 있다. 이때, 제 2 자연어 처리부(1923)는 전자 장치(1900)의 제어부(1901)로부터 제공받은 컨텐츠 정보를 이용하여 제 2 언어 인식부(1921)로부터 제공받은 문자 데이터를 분석함으로써 음성 신호에 포함된 음성 명령을 추출할 수 있다. 예를 들어, 제 2 언어 인식부(1921)로부터 "지금 뉴스 상세 정보"의 문자 데이터를 제공받은 경우, 제 2 자연어 처리부(1923)는 제 2 언어 인식부(1921)로부터 제공받은 문자 데이터를 분석하여 음성 신호가 지금 재생 중인 뉴스에 대한 상세한 정보를 요구하는 것으로 인지할 수 있다. 이때, 제 2 자연어 처리부(1923)는 제어부(1901)로부터 제공받은 컨텐츠 정보를 고려하여 지금 재생 중인 뉴스에 대한 정확한 정보를 인지할 수 있다.

동작 결정부(1925)는 제 2 자연어 처리부(1923)에서 추출한 음성 명령에 따른 제어부(1901)의 동작을 위한 제어 명령을 생성할 수 있다. 예를 들어, 제 2 자연어 처리부(1923)에서 "지금 재생 중인 뉴스(예: 휴대폰 전격 공개)에 대한 상세한 정보를 요구하는 것으로 인지한 경우, 동작 결정부(1925)는 "휴대폰 전격 공개"에 대한 상세 정보를 재생하기 위한 제어 명령을 생성하여 전자 장치(1900)로 전송할 수 있다.

상술한 실시 예에서 전자 장치는 음성 신호 수신 시점에 재생 중인 컨텐츠 정보를 생성할 수 있다.

다른 실시 예에서 전자 장치는 사용자의 발화(發話)시점, 음성 신호에 포함된 명령어 입력 시점, 음성 신호를 포함하는 오디오 신호의 수신 시점 중 하나 또는 그 이상의 시점에 재생 중인 컨텐츠 정보를 생성할 수 있다.

본 발명의 청구항 및/또는 명세서에 기재된 실시 예들에 따른 방법들은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합의 형태로 구현될(implemented) 수 있다.

소프트웨어로 구현하는 경우, 하나 이상의 프로그램(소프트웨어 모듈)을 저장하는 컴퓨터 판독 가능 저장 매체가 제공될 수 있다. 컴퓨터 판독 가능 저장 매체에 저장되는 하나 이상의 프로그램은, 전자 장치(device) 내의 하나 이상의 프로세서에 의해 실행 가능하도록 구성된다(configured for execution). 하나 이상의 프로그램은, 전자 장치로 하여금, 본 발명의 청구항 및/또는 명세서에 기재된 실시 예들에 따른 방법들을 실행하게 하는 명령어(instructions)를 포함한다.

이러한 프로그램(소프트웨어 모듈, 소프트웨어)은 랜덤 액세스 메모리 (random access memory), 플래시(flash) 메모리를 포함하는 불휘발성(non-volatile) 메모리, 롬(ROM, Read Only Memory), 전기적 삭제가능 프로그램가능 롬(EEPROM, Electrically Erasable Programmable Read Only Memory), 자기 디스크 저장 장치(magnetic disc storage device), 컴팩트 디스크 롬(CD-ROM, Compact Disc-ROM), 디지털 다목적 디스크(DVDs, Digital Versatile Discs) 또는 다른 형태의 광학 저장 장치, 마그네틱 카세트(magnetic cassette)에 저장될 수 있다. 또는, 이들의 일부 또는 전부의 조합으로 구성된 메모리에 저장될 수 있다. 또한, 각각의 구성 메모리는 다수 개 포함될 수도 있다.

또한, 전자 장치에 인터넷(Internet), 인트라넷(Intranet), LAN(Local Area Network), WLAN(Wide LAN), 또는 SAN(Storage Area Network)과 같은 통신 네트워크, 또는 이들의 조합으로 구성된 통신 네트워크를 통하여 접근(access)할 수 있는 부착 가능한(attachable) 저장 장치(storage device)에 저장될 수 있다. 이러한 저장 장치는 외부 포트를 통하여 전자 장치에 접속할 수 있다.

또한, 통신 네트워크상의 별도의 저장장치가 휴대용 전자 장치에 접속할 수도 있다.

상술한 바와 같이 전자장치가 음성 신호를 수신하는 시점에 전자 장치에서 재생 중인 컨텐츠 정보를 고려하여 음성 명령을 인식함으로써, 음성 신호에 대한 음성 명령을 명확히 인식할 수 있다.

한편 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능하다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

Claims

전자 장치의 동작 방법에 있어서,

다수 개의 연속적인 구성 요소(component)들을 포함하는 음성 신호 또는 오디오 신호를 출력하는 동작;

음성 신호를 수신하는 동작;

상기 음성 신호를 수신한 시점을 이용하여 상기 다수 개의 구성 요소들 중 하나 또는 그 이상의 구성 요소를 결정하는 동작; 및

상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분 및 상기 음성 신호를 서버로 전송하는 동작을 포함하는 방법.
제 1항에 있어서,

상기 음성 신호 또는 오디오 신호를 출력하는 동작은,

TTS(Text To Speech) 모듈을 이용하여 컨텐츠를 상기 음성 신호 또는 상기 오디오 신호로 변환하는 동작, 및

상기 음성 신호 또는 상기 오디오 신호를 스피커를 통해 출력하는 동작을 포함하는 방법.
제 2항에 있어서,

상기 하나 또는 그 이상의 구성 요소를 결정하는 동작은,

상기 음성 신호를 수신한 시점을 이용하여 상기 음성 신호 또는 상기 오디오 신호에 포함된 구성 요소들 중 상기 TTS 모듈로 입력되거나, 상기 TTS 모듈에서 출력되는 상기 하나 또는 그 이상의 구성 요소를 결정하는 동작을 포함하는 방법.
제 1항에 있어서,

상기 서버로부터 상기 음성 신호에 대한 응답 정보를 수신하는 동작; 및

상기 응답 정보를 출력하는 동작을 더 포함하는 방법.
제 1항에 있어서,

상기 서버로부터 상기 음성 신호에 대한 응답 정보를 수신하는 동작;

메모리 및 적어도 하나의 컨텐츠 서버로부터 상기 응답 정보에 대응하는 컨텐츠를 추출하는 동작; 및

상기 컨텐츠를 출력하는 동작을 더 포함하는 방법.
서버의 동작 방법에 있어서,

전자 장치로부터 음성 신호를 수신하는 동작;

상기 전자 장치에서 출력하는 음성 신호 또는 오디오 신호에 포함되는 다수 개의 구성 요소(component)들 중 상기 음성 신호에 따른 하나 또는 그 이상의 구성 요소를 확인하는 동작;

상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분을 기반하여 상기 음성 신호에 대한 응답 정보를 생성하는 동작; 및

상기 음성 신호에 대한 응답 정보를 상기 전자 장치로 전송하는 동작을 포함하는 방법.
제 6항에 있어서,

상기 응답 정보를 생성하는 동작은,

상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분 및 상기 음성 신호를 이용하여 자연어 정보를 생성하는 동작; 및

상기 자연어 정보를 기반하여 상기 음성 신호에 대응하는 컨텐츠 또는 컨텐츠의 선택을 위한 제어 신호를 생성하는 동작을 포함하는 방법.
전자 장치에 있어서,

다수 개의 연속적인 구성 요소(component)들을 포함하는 음성 신호 또는 오디오 신호를 출력하는 출력부;

음성 신호를 수신하는 수신부; 및

상기 음성 신호를 수신한 시점을 이용하여 상기 다수 개의 구성 요소들 중 하나 또는 그 이상의 구성 요소를 결정하는 제어부를 포함하며,

상기 전자 장치는, 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분 및 상기 음성 신호를 서버로 전송하는 장치.
제 8항에 있어서,

상기 출력부는,

컨텐츠를 상기 음성 신호 또는 상기 오디오 신호로 변환하는 TTS(Text To Speech) 모듈; 및

상기 음성 신호 또는 상기 오디오 신호를 외부로 출력하는 스피커를 포함하는 장치.
제 9항에 있어서,

상기 제어부는, 상기 수신부에서 음성 신호를 수신한 시점을 이용하여 상기 음성 신호 또는 상기 오디오 신호에 포함된 구성 요소들 중 상기 TTS 모듈로 입력되거나, 상기 TTS 모듈에서 출력되는 상기 하나 또는 그 이상의 구성 요소를 결정하는 장치.
제 8항에 있어서,

상기 제어부는, 상기 서버로부터 상기 음성 신호에 대한 응답 정보를 수신하여 상기 출력부를 통해 출력하도록 제어하는 장치.
제 8항에 있어서,

상기 제어부는, 메모리 및 적어도 하나의 컨텐츠 서버로부터 상기 서버로부터 제공받은 상기 음성 신호에 대한 응답 정보에 따른 컨텐츠를 추출하고, 상기 추출한 컨텐츠를 상기 출력부를 통해 출력하도록 제어하는 장치.
서버에 있어서,

전자 장치로부터 음성 신호를 수신하는 언어 인식부;

상기 전자 장치에서 출력하는 음성 신호 또는 오디오 신호에 포함되는 다수 개의 구성 요소(component)들 중 상기 음성 신호에 따른 하나 또는 그 이상의 구성 요소를 확인하는 자연어 처리부; 및

상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분을 기반하여 상기 음성 신호에 대한 응답 정보를 생성하여, 상기 전자 장치로 전송하는 동작 결정부를 포함하는 장치.
제 13항에 있어서,

상기 자연어 처리부는, 상기 하나 또는 그 이상의 구성 요소 또는 상기 구성 요소에 대한 정보의 적어도 일부분 및 상기 음성 신호를 이용하여 자연어 정보를 생성하는 장치.
제 13항에 있어서,

상기 동작 결정부는, 상기 자연어 처리부에서 생성한 상기 자연어 정보를 기반하여 상기 음성 신호에 대응하는 컨텐츠 또는 컨텐츠의 선택을 위한 제어 신호를 생성하는 장치.