KR20140074229A

KR20140074229A - 음성 인식 장치 및 그 제어 방법

Info

Publication number: KR20140074229A
Application number: KR1020130151129A
Authority: KR
Inventors: 박은상; 김경덕; 김명재; 리우유; 류성한; 이근배
Original assignee: 삼성전자주식회사
Priority date: 2012-12-07
Filing date: 2013-12-06
Publication date: 2014-06-17
Also published as: KR102211595B1; US9953645B2; US20150310855A1

Abstract

음성 인식 장치 및 그 제어 방법이 개시된다. 본 발명에 따르면, 음성 인식 장치는 사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나를 추출하는 추출부, 제1 및 제2 발화 요소에 기초하여 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 도메인 결정부 및 현재 도메인과 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제어부를 포함한다. 이에 따라, 음성 인식 장치는 사용자의 발화 음성에 대해서 다양한 경우의 수를 고려하여 사용자 의도에 적합한 응답 정보를 제공할 수 있다.

Description

음성 인식 장치 및 그 제어 방법{Speech recognition apparatus and control method thereof}

본 발명은 음성 인식 장치 및 응답 정보 제공 방법에 관한 것으로서, 보다 상세하게는 사용자의 발화 음성에 대응하는 응답 정보를 제공하기 위한 음성 인식 장치 및 응답 정보 제공 방법에 관한 것이다.

종래의 사용자의 발화 음성에 대한 응답 정보를 제공하는 음성 인식 장치는 사용자의 발화 음성이 수신되면, 수신된 발화 음성을 분석하여 사용자가 의도한 도메인을 결정하고, 그 결정된 도메인에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공한다.

그러나, 종래의 음성 인식 장치는 사용자의 현재 발화 음성에 기초하여 도메인을 결정하고, 그 결정된 도메인에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공한다. 즉, 종래의 음성 인식 장치는 사용자의 이전 발화 음성과 현재 발화 음성 간의 대화 문맥을 고려하지 않고, 사용자의 현재 발화 음성에 따라 사용자의 의도를 파악하여 사용자의 발화 음성에 대한 응답 정보를 제공한다.

예를 들어, "액션 영화가 뭐 있지?"라는 이전 발화 음성에는 TV 프로그램에서 제공하는 액션 영화에 대한 사용자 의도를 포함할 수 있다. 이후, "그럼 VOD에는?"이라는 현재 발화 음성이 입력된 경우, 음성 인식 장치는 이전 발화 음성과 관련된 대화 문맥을 고려하지 않고, 현재 입력된 발화 음성에 기초하여 사용자 의도를 파악한다. 그러나, 전술한 예와 같이, "그럼 VOD에는?"이라는 현재 발화 음성의 경우, 실행하고자 하는 실행 대상이 없기 때문에 음성 인식 장치(100)는 "그럼 VOD에는?"이라는 현재 발화 음성으로부터 사용자 의도를 올바르게 파악하지 못하게 된다. 이에 따라, 음성 인식 장치는 사용자의 의도와 다른 응답 정보를 제공하거나 혹은 사용자에게 재발화를 요청한다. 이에 따라, 사용자는 자신이 의도한 응답 정보를 제공받기 위해서 보다 디테일한 발화 음성을 제공해야 하는 불편함을 감수해야 한다.

본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 대화형 시스템에서 사용자의 발화 음성에 대한 응답 정보를 제공하는 음성 인식 장치에서 사용자의 발화 음성에 대해서 다양한 경우의 수를 고려하여 사용자 의도에 적합한 응답 정보를 제공함을 목적으로 한다.

이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 음성 인식 장치는 사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나를 추출하는 추출부, 상기 제1 및 제2 발화 요소에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 도메인 결정부 및 상기 현재 도메인과 상기 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제어부를 포함한다.

그리고, 상기 도메인 결정부는, 상기 추출부로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정할 수 있다.

또한, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인의 동일 여부와, 상기 현재 대화 프레임 및 상기 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단하여, 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정할 수 있다.

그리고, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.

또한, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 상기 이전 대화 프레임에 기초하여 상기 이전 도메인 및 상기 현재 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.

그리고, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 도메인 상에서 상기 현재 대화 프레임 및 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.

또한, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임, 상기 이전 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임 및 상기 현재 도메인 상에서 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.

그리고, 각 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 상기 대화 예제 정보와 관련된 발화 음성에 대한 빈도 정도에 따른 카운팅 정보를 매칭시켜 저장하는 저장부를 더 포함할 수 있다.

또한, 상기 제어부는, 상기 저장부에 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 상기 후보 대화 프레임의 우선 순위를 결정하고, 상기 우선 순위가 높은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.

그리고, 상기 저장부는, 상기 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 포함된 적어도 하나의 발화 요소를 인덱싱하기 위한 인덱싱 정보를 더 저장하며, 상기 제어부는, 상기 저장부에 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.

한편, 본 발명의 일 실시예에 따르면, 음성 인식 장치의 제어 방법에 있어서, 상기 방법은 사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나를 추출하는 단계, 상기 제1 및 제2 발화 요소에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 단계, 상기 현재 도메인과 상기 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 단계 및 상기 후보 대화 프레임에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하는 단계를 포함한다.

그리고, 상기 결정하는 단계는, 상기 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정할 수 있다.

또한, 상기 제공하는 단계는, 상기 현재 상기 현재 도메인과 상기 이전 도메인의 동일 여부와, 상기 현재 대화 프레임 및 상기 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단하여, 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정할 수 있다.

그리고, 상기 제공하는 단계는, 상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.

또한, 상기 제공하는 단계는, 상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 상기 이전 대화 프레임에 기초하여 상기 이전 도메인 및 상기 현재 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.

그리고, 상기 제공하는 단계는, 상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 도메인 상에서 상기 현재 대화 프레임 및 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.

또한, 상기 제공하는 단계는, 상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임, 상기 이전 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임 및 상기 현재 도메인 상에서 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.

그리고, 각 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 상기 대화 예제 정보와 관련된 발화 음성에 대한 빈도 정도에 따른 카운팅 정보를 매칭시켜 저장하는 단계를 더 포함할 수 있다.

또한, 상기 제공하는 단계는, 상기 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 상기 후보 대화 프레임의 우선 순위를 결정하고, 우선 순위가 높은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.

그리고, 상기 저장하는 단계는, 상기 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 포함된 적어도 하나의 발화 요소를 인덱싱하기 위한 인덱싱 정보를 더 저장하며, 상기 제공하는 단계는, 상기 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.

이상과 같이 본 발명의 다양한 실시 예에 따르면, 대화형 시스템에서 음성 인식 장치는 사용자의 발화 음성에 대해서 다양한 경우의 수를 고려하여 사용자 의도에 적합한 응답 정보를 제공할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 대화형 시스템의 예시도,
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 블록도,
도 3은 본 발명의 일 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제1 예시도,
도 4는 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제2 예시도,
도 5는 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제3 예시도,
도 6은 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제4 예시도,
도 7은 본 발명의 일 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법의 흐름도이다.

이하에서는 첨부된 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 1은 본 발명의 일 실시 예에 따른 대화형 시스템의 예시도이다.

도 1에 도시된 바와 같이, 대화형 시스템은 음성 인식 장치(100) 및 디스플레이 장치(200)를 포함한다. 음성 인식 장치(100)는 디스플레이 장치(200)로부터 수신된 사용자의 발화 음성 신호(이하 발화 음성이라 함)를 수신하고, 수신된 사용자의 발화 음성이 어느 도메인에 속하는지를 결정한다. 이후, 음성 인식 장치(100)는 결정된 도메인(이하 현재 도메인이라 함)과 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 패턴에 기초하여 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.

디스플레이 장치(200)는 스마트 TV일 수 있으나, 이는 일 예에 불과할 뿐, 스마트폰과 같은 휴대폰, 데스크탑 PC, 노트북, 네비게이션 등과 같은 다양한 전자 장치로 구현될 수 있다. 이 같은 디스플레이 장치(200)는 사용자의 발화 음성을 수집하고, 수집된 사용자의 발화 음성을 음성 인식 장치(100)로 전송한다. 이에 따라, 음성 인식 장치(100)는 전술한 바와 같이, 디스플레이 장치(200)로부터 수신된 사용자의 발화 음성에 속하는 현재 도메인을 결정하고, 결정된 현재 도메인과 사용자의 이전 발화 음성으로부터 결정된 이번 도메인 상에서의 대화 패턴을 기초로 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다. 이에 따라, 디스플레이 장치(200)는 음성 인식 장치(100)로부터 수신한 응답 정보를 스피커로 출력하거나 또는 화면상에 디스플레이할 수 있다.

구체적으로, 음성 인식 장치(100)는 디스플레이 장치(200)로부터 사용자의 발화 음성이 수신되면, 수신된 발화 음성을 분석하여 발화 음성에 대한 현재 도메인을 결정한다. 이후, 음성 인식 장치(100)는 해당 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인과 현재 도메인 상에서의 대화 상태에 기초하여 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공한다.

구체적으로, 음성 인식 장치(100)는 이전 도메인과 현재 도메인의 동일 여부를 판단하고, 두 도메인이 동일하면, 두 도메인 상에서의 대화 패턴을 분석하여 동일한 대화 문맥이 유지되는지 여부를 판단한다. 판단 결과, 동일한 대화 문맥이 유지되면, 음성 인식 장치(100)는 이전 도메인 상에서 현재 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.

그러나, 두 도메인 상에서의 대화 패턴 분석을 통해 대화 문맥이 전환되거나, 서로 다른 도메인 상에서 동일한 대화 문맥이 유지되거나 혹은 서로 다른 도메인 상에서 대화 문맥이 전환된 경우, 두 도메인 상에서 현재 사용자의 발화 음성에 대한 현재 대화 프레임 및 해당 사용자의 이전 발화 음성에 대한 이전 대화 프레임에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다.

예를 들어, "애니메이션 VOD 뭐 있어?"라는 사용자의 이전 발화 음성으로부터 VDO 도메인이라는 이전 도메인이 결정된 상태에서, "TV 프로그램은?"이라는 사용자의 발화 음성이 수신될 수 있다. 이 경우, 음성 인식 장치(100)는 "TV 프로그램은?"이라는 발화 음성으로부터 "TV 프로그램"이라는 실행 명령을 나타내는 제1 발화 요소를 추출하고, 추출된 제1 발화 요소에 기초하여 "search_program()"라는 현재 대화 프레임을 생성할 수 있다. 또한, 음성 인식 장치(100)는 "TV 프로그램은?"이라는 발화 음성으로부터 사용자의 발화 음성을 제공할 현재 도메인이 TV 프로그램 도메인 것으로 결정될 수 있다.

이 같은 현재 도메인이 결정되면, 음성 인식 장치(100)는 이전 도메인과 현재 도메인을 비교하여 두 도메인이 서로 상이하면, 두 도메인 상에서의 대화 패턴을 분석하여 대화 문맥의 전환 여부를 판단한다. 전술한 예와 같이, VOD 도메인이라는 이전 도메인 상에서 사용자로부터 발화된 발화 음성은 "애니메이션 VOD 뭐 있어?"가 될 수 있으며, TV 프로그램 도메인인 현재 도메인 상에서 사용자로부터 발화된 발화 음성은 "TV 프로그램은?"이 될 수 있다. 이와 같이, 두 도메인이 서로 상이하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 음성 인식 장치(100)는 두 도메인 상에서 사용자의 현재 발화 음성에 대한 응답 정보를 제공하기 위한 복수의 후보 대화 프레임을 결정할 수 있다. 여기서, 후보 대화 프레임은 사용자의 이전 발화 음성으로부터 생성된 이전 대화 프레임, 현재 발화 음성으로부터 생성된 현재 대화 프레임 및 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임이 될 수 있다.

이 같은 복수의 후보 대화 프레임이 결정되면, 음성 인식 장치(100)는 각 도메인별 결정된 후보 대화 프레임에 기초하여 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다.

이와 같이, 본 발명에 따른 음성 인식 장치(100)는 사용자의 현재 발화가 이전 발화와 연관되지 않거나 혹은 두 발화와 관련된 도메인이 서로 상이하여 사용자의 의도가 불명확하여도 다양한 경우의 수를 적용하여 사용자의 발화에 대한 응답 정보를 제공할 수 있다.

지금까지, 본 발명에 따른 대화형 시스템에 대해서 개략적으로 설명하였다. 이하에서는, 본 발명에 따른 대화형 시스템에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 음성 인식 장치(100)에 대해서 상세히 설명하도록 한다.

도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 블록도이다.

도 2에 도시된 바와 같이, 음성 인식 장치(100)는 통신부(110), 음성 인식부(120), 추출부(130), 도메인 결정부(140), 제어부(150) 및 저장부(160)를 포함한다.

통신부(110)는 디스플레이 장치(200)와 유선 또는 무선으로 데이터 통신을 수행하여 디스플레이 장치(200)를 통해 인식된 사용자의 발화 음성을 수신하고, 수신된 발화 음성에 대응되는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다. 여기서, 응답 정보는 사용자가 요청한 컨텐츠 관련 정보 또는 키워드 검색 결과 정보 등을 포함할 수 있다.

이 같은 통신부(110)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기에서, 근거리 무선 통신 모듈이란 블루투스, 지그비 방식 등과 같은 근거리 무선 통신 방식에 따라, 근거리에 위치한 외부 기기와 통신을 수행하기 위한 모듈이다. 또한, 무선 통신 모듈이란 WIFI, IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.

음성 인식부(120)는 통신부(110)를 통해 디스플레이 장치(200)로부터 수신된 사용자의 발화 음성을 인식하여 텍스트로 변환한다. 실시예에 따라, 음성 인식부(120)는 STT(Speech to Text) 알고리즘을 이용하여 수신된 사용자의 발화 음성을 텍스트로 변환할 수 있다. 음성 인식부(120)를 통해 사용자의 발화 음성이 텍스트로 변환되면, 추출부(130)는 텍스트로 변환된 사용자의 발화 음성으로부터 발화 요소를 추출한다. 구체적으로, 추출부(130)는 저장부(160)에 기저장된 말뭉치 테이블에 기초하여 사용자의 발화 음성으로부터 변환된 텍스트로부터 발화 요소를 추출할 수 있다. 여기서, 발화 요소는 사용자의 발화 음성 내에서 사용자가 요청한 동작을 수행하기 위한 키워드로써, 이 같은 발화 요소는 실행 명령(user action)을 나타내는 제1 발화 요소와 주요 특징(feature) 즉, 대상을 나타내는 제2 발화 요소로 분류될 수 있다. 예를 들어, "액션 영화 보여줘!"라는 사용자의 발화 음성의 경우, 추출부(130)는 "보여줘!"라는 실행 명령을 나타내는 제1 발화 요소와 "액션 영화"라는 대상을 나타내는 제2 발화 요소를 추출할 수 있다.

이 같은 제1 및 제2 발화 요소 중 적어도 하나의 발화 요소가 추출되면, 도메인 결정부(140)는 추출부(130)로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정한다. 구체적으로, 도메인 결정부(140)는 추출부(130)로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 대화 프레임(이하 현재 대화 프레임이라 함)을 생성할 수 있으며, 이 같은 현재 대화 프레임이 생성되면, 도메인 결정부(140)는 저장부(160)에 기저장된 도메인 테이블을 참조하여 현재 대화 프레임이 속하는 현재 도메인을 결정할 수 있다.

여기서, 도메인 테이블은 기설정된 복수의 도메인별로 사용자의 이전 발화 음성으로부터 추출된 제1 발화 요소에 대응하는 주행 및 제2 발화 요소에 대응하는 매개변수에 기초하여 생성된 대화 프레임이 매칭된 테이블이 될 수 있다. 따라서, 도메인 결정부(140)는 현재 대화 프레임이 생성되면, 저장부(160)에 기저장된 도메인 테이블을 참조하여 현재 대화 프레임이 속하는 적어도 하나의 도메인을 획득하고, 획득한 도메인을 현재 도메인으로 결정할 수 있다.

한편, 제어부(150)는 음성 인식 장치(100)의 각 구성에 대한 동작을 전반적으로 제어한다. 특히, 제어부(150)는 도메인 결정부(140)를 통해 결정된 현재 도메인과 해당 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정한다.

구체적으로, 제어부(150)는 현재 도메인과 이전 도메인의 동일 여부와, 현재 대화 프레임 및 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단한다. 이후, 제어부(150)는 두 도메인의 동일 여부에 대한 판단 결과와 대화 문맥의 전환 여부에 대한 판단 결과에 따라 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정할 수 있다.

실시예에 따라, 제어부(150)는 현재 도메인과 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.

한편, 제어부(150)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 이전 도메인 및 현재 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.

한편, 제어부(150)는 현재 도메인과 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 도메인 상에서 현재 대화 프레임 및 현재 대화 프레임과 관련하여 초기화된 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.

한편, 제어부(150)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임, 이전 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임, 현재 도메인 상에서 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.

이와 같이, 현재 도메인과 이전 도메인의 동일 여부 및 두 도메인 상에서의 대화 문맥의 전환 여부에 따라 적어도 하나의 후보 대화 프레임이 결정되면, 제어부(150)는 결정된 후보 대화 프레임에 대한 응답 정보를 생성하고, 생성된 응답 정보를 디스플레이 장치(200)로 전송할 수 있다.

이하에서는, 도 3 내지 도 6을 통해 사용자의 발화 음성과 이전 발화 음성에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 동작에 대해서 구체적으로 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제1 예시도이다.

도 3에 도시된 바와 같이, 제어부(150)는 사용자의 이전 발화 음성 및 현재 발화 음성과 관련하여 결정된 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 제어부(150)는 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.

예를 들어, 대화 문맥 영역(310)에 도시된 바와 같이, 사용자의 이전 발화 음성이 "애니메이션 VOD 뭐 있어?"이고, 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 이전 대화 프레임이 "search_program(genre=애니메이션)"이며, 이전 대화 프레임에 기초하여 결정된 이전 도메인이 VOD 도메인이 될 수 있다. 그리고, 사용자의 현재 발화 음성이 "전체 관람가만 보여줘"이고, 현재 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 현재 대화 프레임이 "search_program(content_rating)"이며, 현재 대화 프레임에 기초하여 결정된 현재 도메인이 VDO 도메인이 될 수 있다.

이 경우, 제어부(150)는 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 도메인이 모두 VDO 도메인인 것으로 판단할 수 있다. 또한, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"과 현재 대화 프레임인 "search_program(content_rating)"으로부터 사용자의 대화 패턴을 분석하여 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단할 수 있다. 즉, 제어부(150)는 사용자의 현재 발화 음성이 이전 발화 음성과 관련하여 이어지는 VOD 대화 문맥인 것으로 판단할 수 있다.

이와 같이, 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임(320)을 결정할 수 있다.

구체적으로, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"에 기초하여 현재 대화 프레임인 "search_program(content_rating)"을 후보 대화 프레임(320)으로 결정할 수 있다.

이와 같이, 후보 대화 프레임(320)이 결정되면, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 이전 대화 프레임인 "search_program(genre=애니메이션)" 및 후보 대화 프레임(320)으로 결정된 "search_program(content_rating)"에 기초하여 기검색된 애니메이션 중 전체 관람이 가능한 애니메이션에 대한 검색을 수행하고, 검색된 검색 결과 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다.

도 4는 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제2 예시도이다.

도 4에 도시된 바와 같이, 제어부(150)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 두 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.

예를 들어, 대화 문맥 영역(410)에 도시된 바와 같이, 사용자의 이전 발화 음성이 "애니메이션 VOD 뭐 있어?"이고, 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 이전 대화 프레임이 "search_program(genre=애니메이션)"이며, 이전 대화 프레임에 기초하여 결정된 이전 도메인이 VOD 도메인이 될 수 있다. 그리고, 사용자의 현재 발화 음성이 "○○○ 애니메이션 보여줘"이고, 현재 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 현재 대화 프레임이 "search_program(title=○○○ 애니메이션)"이며, 현재 대화 프레임에 기초하여 결정된 현재 도메인이 TV 프로그램 도메인 및 VDO 도메인이 될 수 있다.

따라서, 제어부(150)는 사용자의 현재 발화 음성과 관련하여 결정된 도메인이 TV 프로그램 도메인 경우, 이전 발화 음성과 관련하여 결정된 이전 도메인인 VOD 도메인과 서로 상이한 것으로 판단할 수 있다. 또한, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"과 현재 대화 프레임인 "search_program(title=○○○ 애니메이션)"으로부터 사용자의 대화 패턴을 분석하여 서로 다른 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단할 수 있다.

이와 같이, 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 두 도메인이 서로 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 제어부(150)는 두 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 제1 및 제2 후보 도메인(420,430)을 결정할 수 있다.

구체적으로, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"에 기초하여 현재 대화 프레임인 "search_program(title=○○○ 애니메이션)"을 "play_program(title=○○○ 애니메이션)"로 변경하고, 변경된 "play_program(title=○○○ 애니메이션)"을 제1 후보 대화 프레임(420)으로 결정할 수 있다. 또한, 제어부(150)는 현재 대화 프레임인 "search_program(title=○○○ 애니메이션)"을 제2 후보 대화 프레임(430)으로 결정할 수 있다.

이와 같이, 제1 및 제2 후보 대화 프레임(420,430)이 결정되면, 제어부(150)는 결정된 제1 및 제2 후보 대화 프레임(420,430)에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다.

구체적으로, 제1 후보 대화 프레임(420)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 이전 대화 프레임인 "search_program(genre=애니메이션)" 및 제1 후보 대화 프레임(420)인 "play_program(title=○○○ 애니메이션)"에 기초하여 기검색된 애니메이션 중 ○○○ 애니메이션에 대한 검색을 수행하고, 검색된 ○○○ 애니메이션에 대한 실행 정보를 생성한다.

또한, 제2 후보 대화 프레임(420)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 현재 도메인인 TV 프로그램 도메인 상에서 제2 후보 대화 프레임인 "search_program(title=○○○ 애니메이션)"에 기초하여 ○○○ 애니메이션에 대한 검색을 수행하고, 검색된 ○○○ 애니메이션에 대한 검색 결과 정보를 생성한다.

이후, 제어부(150)는 제1 후보 대화 프레임(420)과 관련하여 생성된 ○○○ 애니메이션에 대한 실행 정보 및 제2 후보 대화 프레임(430)과 관련하여 생성된 ○○○ 애니메이션에 대한 검색 결과 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.

도 5는 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제3 예시도이다.

도 5에 도시된 바와 같이, 제어부(150)는 현재 도메인과 이전 도메인이 서로 동일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 도메인 상에서 현재 대화 프레임 및 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.

예를 들어, 대화 문맥 영역(510)에 도시된 바와 같이, 사용자의 이전 발화 음성이 "애니메이션 VOD 뭐 있어?"이고, 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 이전 대화 프레임이 "search_program(genre=애니메이션)"이며, 이전 대화 프레임에 기초하여 결정된 이전 도메인이 VOD 도메인이 될 수 있다. 그리고, 사용자의 현재 발화 음성이 "액션 VOD 뭐 있어?"이고, 현재 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 현재 대화 프레임이 "search_program(genre=액션)"이며, 현재 대화 프레임에 기초하여 결정된 현재 도메인이 VDO 도메인이 될 수 있다.

이 경우, 제어부(150)는 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 도메인이 모두 VOD 도메인 것으로 판단할 수 있다. 또한, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"과 현재 대화 프레임인 "search_program(genre=액션)"으로부터 사용자의 대화 패턴을 분석하여 서로 동일한 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단할 수 있다.

이와 같이, 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 두 도메인이 서로 동일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 제1 및 제2 후보 대화 프레임(520,530)을 결정할 수 있다.

구체적으로, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"에 기초하여 현재 대화 프레임인 "search_program(genre=액션)"을 "search_program(genre= 액션 애니메이션)"로 변경하고, 변경된 "search_program(genre= 액션 애니메이션)"은 제1 후보 대화 프레임(520)으로 결정할 수 있다. 또한, 제어부(150)는 현재 대화 프레임인 "search_program(genre=액션)"을 제2 후보 대화 프레임(530)으로 결정할 수 있다.

이와 같이, 제1 및 제2 후보 대화 프레임(520,530)이 결정되면, 제어부(150)는 결정된 제1 및 제2 후보 대화 프레임(520,530)에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다.

구체적으로, 제1 후보 대화 프레임(520)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 이전 대화 프레임인 "search_program(genre=애니메이션)" 및 제1 후보 대화 프레임(520)인 "search_program(genre= 액션 애니메이션)"에 기초하여 기검색된 애니메이션 중 액션 애니메이션에 대한 검색을 수행하고, 검색된 액션 애니메이션에 대한 검색 결과 정보를 생성한다.

또한, 제2 후보 대화 프레임(530)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 제2 후보 대화 프레임(530)인 search_program(genre= 액션)에 기초하여 VOD 상에서 제공하는 컨텐츠 중 액션 관련 컨텐츠에 대한 검색 결과 정보를 생성한다.

이후, 제어부(150)는 제1 후보 대화 프레임(520)과 관련하여 생성된 액션 애니메이션에 대한 검색 결과 정보 및 제2 후보 대화 프레임(530)과 관련하여 생성된 액션 관련 컨텐츠에 대한 검색 결과 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.

도 6은 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제4 예시도이다.

도 6에 도시된 바와 같이, 제어부(150)는 현재 도메인과 이전 도메인이 서로 상일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임, 이전 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임 및 현재 도메인 상에서 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.

예를 들어, 대화 문맥 영역(610)에 도시된 바와 같이, 사용자의 이전 발화 음성이 "애니메이션 VOD 뭐 있어?"이고, 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 이전 대화 프레임이 "search_program(genre=애니메이션)"이며, 이전 대화 프레임에 기초하여 결정된 이전 도메인이 VOD 도메인이 될 수 있다. 그리고, 사용자의 현재 발화 음성이 "그럼 TV 프로그램은?"이고, 현재 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 현재 대화 프레임이 "search_program()"이며, 현재 대화 프레임에 기초하여 결정된 현재 도메인이 TV 프로그램 도메인이 될 수 있다.

이 경우, 제어부(150)는 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 도메인이 상이한 것으로 판단할 수 있다. 또한, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"과 현재 대화 프레임인 "search_program()"으로부터 사용자의 대화 패턴을 분석하여 서로 상이한 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단할 수 있다.

이와 같이, 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 두 도메인이 서로 상이하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 제어부(150)는 두 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 제1 내지 제3 후보 대화 프레임(620~640)을 결정할 수 있다.

구체적으로, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"에 기초하여 현재 대화 프레임인 "search_program()"을 "search_program(genre=애니메이션)"로 변경하고, 변경된 "search_program(genre=애니메이션)"을 제1 후보 대화 프레임(620)으로 결정할 수 있다. 또한, 제어부(150)는 현재 대화 프레임인 "search_program()"을 제2 후보 대화 프레임(630)으로 결정할 수 있다. 또한, 제어부(150)는 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임을 제3 후보 대화 프레임(640)으로 결정할 수 있다. 여기서, 현재 대화 프레임이 "search_program()"이기 때문에 초기화 대화 프레임은 현재 대화 프레임인 "search_program()"와 동일할 수 있다. 만약, 현재 대화 프레임이 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 생성된 대화 프레임인 경우, 초기화 대화 프레임은 제2 발화 요소에 대응하는 매개변수를 제외한 제1 발화 요소에 대응하는 주행에 기초하여 생성된 대화 프레임이 될 수 있다.

이와 같이, 제1 내지 제3 후보 대화 프레임(620~640)이 결정되면, 제어부(150)는 결정된 제1 내지 제3 후보 대화 프레임(620~640)에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다.

구체적으로, 제1 후보 대화 프레임(620)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 현재 도메인인 TV 프로그램 도메인 상에서 제1 후보 대화 프레임(620)인 "search_program(genre=애니메이션)"에 기초하여 애니메이션에 대한 검색을 수행하고, 검색된 애니메이션에 대한 검색 결과 정보를 생성한다.

또한, 제2 후보 대화 프레임(630)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 제2 후보 대화 프레임(630)인 "search_program()"에 기초하여 TV 프로그램 상에서 제공하는 TV 프로그램 관련 컨텐츠에 대한 검색 결과 정보를 생성한다.

또한, 제3 후보 대화 프레임(640)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 현재 도메인인 TV 프로그램 도메인 상에서 제3 후보 대화 프레임(640)인 "search_program()"에 기초하여 TV 프로그램 상에서 제공하는 TV 프로그램 관련 컨텐츠에 대한 검색 결과 정보를 생성한다.

이후, 제어부(150)는 제1 후보 대화 프레임(620)과 관련하여 생성된 애니메이션에 대한 검색 결과 정보와 제2 및 제3 후보 대화 프레임(630,640)과 관련하여 생성된 TV 프로그램 관련 컨텐츠에 대한 검색 결과 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.

한편, 제어부(150)는 위 실시예에 기초하여 결정된 적어도 하나의 후보 대화 프레임에 대해서 기설정된 조건에 따라 우선 순위를 결정하고, 우선 순위가 높은 후보 대화 프레임 순으로 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.

일 실시예에 따라, 제어부(150)는 저장부(160)에 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 기결정된 적어도 하나의 후보 대화 프레임의 우선 순위를 결정한다. 이후, 제어부(150)는 결정된 우선 순위에 기초하여 가장 높은 순위에 해당하는 후보 대화 프레임 순으로 해당 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.

구체적으로, 저장부(160)는 전술한 바와 같이, 기설정된 복수의 도메인별로 사용자의 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 이전 대화 프레임이 매칭된 도메인 테이블을 저장할 수 있다. 또한, 저장부(160)는 복수의 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 대화 예제 정보와 관련된 사용자의 발화 음성에 대한 빈도 정도에 따른 카운팅 정보를 매칭시켜 저장할 수 있다.

예를 들어, VOD 도메인 및 TV 프로그램 도메인에는 "search_program(genre=애니메이션)"에 대한 이전 대화 프레임이 매칭될 수 있다. 그리고, 각 도메인에 매칭된 "search_program(genre=애니메이션)"에 대한 이전 대화 프레임은 "애니메이션 뭐 있어?", "애니메이션 찾아줘" 등의 사용자의 이전 발화 음성과 관련된 대화 예제 정보 및 해당 대화 예제 정보와 관련된 사용자의 발화 음성에 대한 빈도 정도에 따른 카운팅 정보가 매칭될 수 있다.

따라서, 제어부(150)는 복수의 후보 대화 프레임이 결정되면, 결정된 각각의 후보 대화 프레임과 관련하여 매칭된 대화 예제 정보에 대한 카운팅 정보에 기초하여 각각의 후보 대화 프레임에 대한 순위를 결정할 수 있다.

예를 들어, 도 6에서 설명한 바와 같이, 제1 내지 제3 후보 대화 프레임(620~640)이 결정되고, 이중 TV 프로그램 도메인 상에서의"search_program(genre=애니메이션)"에 대한 제1 후보 대화 프레임(620)과 관련된 대화 예제 정보에 대한 빈도 수가 가장 높고, VOD 도메인 상에서의 "search_program()"에 대한 제2 후보 대화 프레임(630)과 관련된 대화 예제 정보에 대한 빈도 수가 가장 낮을 수 있다.

이 경우, 제어부(150)는 제1 내지 제3 후보 대화 프레임(620~640)에 기초하여 생성된 검색 결과 정보 및 제1 내지 제3 후보 대화 프레임(620~640)에 대한 순위 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다. 이에 따라, 디스플레이 장치(200)는 수신한 응답 정보에 포함된 순위 정보에 기초하여 가장 순위가 높은 후보 대화 프레임에 대한 검색 결과 정보 순으로 각각의 검색 결과 정보를 디스플레이 할 수 있다.

또다른 실시예에 따라, 제어부(150)는 저장부(160)에 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.

구체적으로, 저장부(160)는 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 포함된 적어도 하나의 발화 요소를 인덱싱하기 위한 인덱싱 정보를 더 저장할 수 있다. 예를 들어, "search_program(genre=애니메이션)"에 대한 이전 대화 프레임의 경우, 제1 및 제2 발화 요소에 기초하여 생성된 대화 프레임으로서, 제1 및 제2 발화 요소 각각에 대한 인덱싱 정보를 포함할 수 있다. 한편, "search_program()"에 대한 이전 대화 프레임의 경우, 제1 발화 요소에 기초하여 생성된 대화 프레임으로써, 제1 발화 요소에 대한 인덱싱 정보만을 포함할 수 있다.

따라서, 제어부(150)는 복수의 후보 대화 프레임이 결정되면, 각각의 후보 대화 프레임을 구성하는 각 발화 요소에 대한 인덱싱 정보의 수를 참조하여 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 복수의 후보 대화 프레임에 대한 순위를 결정한다. 이후, 제어부(150)는 각각의 후보 대화 프레임에 대한 검색 결과 정보 및 각각의 후보 대화 프레임별로 결정된 순위 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다.

이에 따라, 디스플레이 장치(200)는 수신한 응답 정보에 포함된 순위 정보에 기초하여 가장 순위가 높은 후보 대화 프레임에 대한 검색 결과 정보 순으로 각각의 검색 결과 정보를 디스플레이 할 수 있다.

지금까지, 본 발명에 따른 대화형 시스템에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 음성 인식 장치(100)의 각 구성에 대해서 상세히 설명하였다. 이하에서는, 본 발명에 따른 대화형 시스템의 음성 인식 장치(100)에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법에 대해서 상세히 설명하도록 한다.

도 7은 본 발명의 일 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법의 흐름도이다.

도 7에 도시된 바와 같이, 음성 인식 장치(100)는 디스플레이 장치(200)로부터 수집된 사용자의 발화 음성 신호(이하 발화 음성이라 함)가 수신되면, 수신된 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나의 발화 요소를 추출한다(S710,S720).

구체적으로, 음성 인식 장치(100)는 디스플레이 장치(200)부터 사용자의 발화 음성이 수신되면, 수신된 사용자의 발화 음성을 인식하여 텍스트로 변환한다. 실시예에 따라, 음성 인식 장치(100)는 STT(Speech to Text) 알고리즘을 이용하여 수신된 사용자의 발화 음성을 텍스트로 변환할 수 있다. 사용자의 발화 음성이 텍스트로 변환되면, 음성 인식 장치(100)는 텍스트로 변환된 사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나의 발화 요소를 추출한다. 예를 들어, "액션 영화 찾아줘!"라는 사용자의 발화 음성의 경우, 음성 인식 장치(100)는 "찾아줘!"라는 실행 명령을 나타내는 제1 발화 요소와 "액션 영화"라는 대상을 나타내는 제2 발화 요소를 추출할 수 있다.

이 같은 발화 요소가 추출되면, 음성 인식 장치(100)는 추출된 제1 및 제2 발화 요소에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정한다(S730). 구체적으로, 음성 인식 장치(100)는 기추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개 변수에 기초하여 사용자의 발화 음성에 응답 정보를 제공하기 위한 현재 도메인을 결정할 수 있다. 보다 구체적으로, 음성 인식 장치(100)는 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 현재 대화 프레임을 생성한다. 이 같은 현재 대화 프레임이 생성되면, 음성 인식 장치(100)는 기설정된 도메인 테이블을 참조하여 현재 대화 프레임이 속하는 현재 도메인을 결정할 수 있다. 여기서, 도메인 테이블은 기설정된 복수의 도메인별로 사용자의 이전 발화 음성으로부터 추출된 제1 발화 요소에 대응하는 주행 및 제2 발화 요소에 대응하는 매개변수에 기초하여 생성된 대화 프레임이 매칭된 테이블이 될 수 있다.

따라서, 음성 인식 장치(100)는 현재 대화 프레임이 생성되면, 기저장된 도메인 테이블을 참조하여 현재 대화 프레임이 속하는 적어도 하나의 도메인을 획득하고, 획득한 도메인을 현재 도메인으로 결정할 수 있다.

이와 같이, 사용자의 발화 음성에 대한 현재 도메인이 결정되면, 음성 인식 장치(100)는 현재 도메인과 해당 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정한다(S740).

구체적으로, 음성 인식 장치(100)는 사용자의 발화 음성에 대한 현재 도메인이 결정되면, 현재 도메인과 이전 도메인의 동일 여부와, 현재 대화 프레임 및 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단한다. 이후, 음성 인식 장치(100)는 두 도메인의 동일 여부에 대한 판단 결과, 대화 문맥의 전환 여부에 대한 판단 결과에 따라 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정할 수 있다.

실시예에 따라, 음성 인식 장치(100)는 현재 도메인과 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.

한편, 음성 인식 장치(100)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 이전 도메인 및 현재 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.

한편, 음성 인식 장치(100)는 현재 도메인과 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 도메인 상에서 현재 대화 프레임 및 현재 대화 프레임과 관련하여 초기화된 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.

한편, 음성 인식 장치(100)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임, 이전 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임, 현재 도메인 상에서 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.

이와 같이, 현재 도메인과 이전 도메인의 동일 여부 및 두 도메인 상에서의 대화 문맥의 전환 여부에 따라 적어도 하나의 후보 대화 프레임이 결정되면, 음성 인식 장치(100)는 결정된 후보 대화 프레임에 대한 응답 정보를 생성하고, 생성된 응답 정보를 디스플레이 장치(200)로 전송할 수 있다(S750).

구체적으로, 음성 인식 장치(100)는 위 실시예에 기초하여 결정된 적어도 하나의 후보 대화 프레임에 대해서 기설정된 조건에 따라 우선 순위를 결정하고, 우선 순위가 높은 후보 대화 프레임 순으로 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.

일 실시예에 따라, 음성 인식 장치(100)는 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 기결정된 적어도 하나의 후보 대화 프레임의 우선 순위를 결정한다. 이후, 음성 인식 장치(100)는 결정된 우선 순위에 기초하여 가장 높은 순위에 해당하는 후보 대화 프레임 순으로 해당 후보 대화 프레임에 대한 응답 정보를 디스플레이 장치(200)로 제공할 수 있다.

구체적으로 전술한 각각의 단계 이전에 음성 인식 장치(100)는 복수의 도메인별로 매칭된 이전 대화 프레임과, 각 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 대화 예제 정보와 관련된 사용자의 발화 음성에 대한 빈도 정보에 따른 카운팅 정보를 매칭시켜 저장할 수 있다.

따라서, 음성 인식 장치(100)는 복수의 후보 대화 프레임이 결정되면, 결정된 각각의 후보 대화 프레임과 관련하여 매칭된 대화 예제 정보에 대한 카운팅 정보에 기초하여 각각의 후보 대화 프레임에 대한 순위를 결정할 수 있다. 이 같은 복수의 후보 대화 프레임에 대한 순위가 결정되면, 음성 인식 장치(100)는 복수의 후보 대화 프레임에 기초하여 생성된 각각의 검색 결과 정보 및 각각의 후보 대화 프레임에 대한 순위 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다. 이에 따라, 디스플레이 장치(200)는 수신한 응답 정보에 포함된 순위 정보에 기초하여 가장 순위가 높은 후보 대화 프레임에 대한 검색 결과 정보 순으로 각각의 검색 결과 정보를 디스플레이 할 수 있다.

또다른 실시예에 따라, 음성 인식 장치(100)는 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 후보 대화 프레임에 대한 순위를 결정한다. 이후, 음성 인식 장치(100)는 각각이 후보 대화 프레임에 대한 검색 결과 정보 및 각각의 후보 대화 프레임별로 결정된 순위 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100 : 음성 인식 장치 110 : 통신부
120 : 음성 인식부 130 : 추출부
140 : 도메인 결정부 150 : 제어부
160 : 저장부 200 : 디스플레이부

Claims

사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나를 추출하는 추출부;
상기 제1 및 제2 발화 요소에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 도메인 결정부; 및
상기 현재 도메인과 상기 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제어부;
를 포함하는 음성 인식 장치.
제 1 항에 있어서,
상기 도메인 결정부는,
상기 추출부로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 것을 특징으로 하는 음성 인식 장치.
제 2 항에 있어서,
상기 제어부는,
상기 현재 도메인과 상기 이전 도메인의 동일 여부와, 상기 현재 대화 프레임 및 상기 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단하여, 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 것을 특징으로 하는 음성 인식 장치.
제 3 항에 있어서,
상기 제어부는,
상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정하는 것을 특징으로 하는 음성 인식 장치.
제 3 항에 있어서,
상기 제어부는,
상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 상기 이전 대화 프레임에 기초하여 상기 이전 도메인 및 상기 현재 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정하는 것을 특징으로 하는 음성 인식 장치.
제 3 항에 있어서,
상기 제어부는,
상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 도메인 상에서 상기 현재 대화 프레임 및 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정하는 것을 특징으로 하는 음성 인식 장치.
제 3 항에 있어서,
상기 제어부는,
상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임, 상기 이전 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임 및 상기 현재 도메인 상에서 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정하는 것을 특징으로 하는 음성 인식 장치.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
각 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 상기 대화 예제 정보와 관련된 발화 음성에 대한 빈도 정도에 따른 카운팅 정보를 매칭시켜 저장하는 저장부;를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
제 8 항에 있어서,
상기 제어부는,
상기 저장부에 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 상기 후보 대화 프레임의 우선 순위를 결정하고, 상기 우선 순위가 높은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공하는 것을 특징으로 하는 음성 인식 장치.
제 8 항에 있어서,
상기 저장부는,
상기 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 포함된 적어도 하나의 발화 요소를 인덱싱하기 위한 인덱싱 정보를 더 저장하며,
상기 제어부는,
상기 저장부에 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공하는 것을 특징으로 하는 음성 인식 장치.
음성 인식 장치의 제어 방법에 있어서,
사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나를 추출하는 단계;
상기 제1 및 제2 발화 요소에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 단계;
상기 현재 도메인과 상기 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 단계; 및
상기 후보 대화 프레임에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하는 단계;
를 포함하는 제어 방법.
제 11 항에 있어서,
상기 결정하는 단계는,
상기 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 것을 특징으로 하는 제어 방법.
제 12 항에 있어서,
상기 제공하는 단계는,
상기 현재 상기 현재 도메인과 상기 이전 도메인의 동일 여부와, 상기 현재 대화 프레임 및 상기 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단하여, 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 것을 특징으로 하는 제어 방법.
제 13 항에 있어서,
상기 제공하는 단계는,
상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정하는 것을 특징으로 하는 제어 방법.
제 13 항에 있어서,
상기 제공하는 단계는,
상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 상기 이전 대화 프레임에 기초하여 상기 이전 도메인 및 상기 현재 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정하는 것을 특징으로 하는 제어 방법.
제 13 항에 있어서,
상기 제공하는 단계는,
상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 도메인 상에서 상기 현재 대화 프레임 및 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정하는 것을 특징으로 하는 제어 방법.
제 13 항에 있어서,
상기 제공하는 단계는,
상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임, 상기 이전 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임 및 상기 현재 도메인 상에서 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정하는 것을 특징으로 하는 제어 방법.
제 11 항 내지 제 17 항 중 어느 한 항에 있어서,
각 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 상기 대화 예제 정보와 관련된 발화 음성에 대한 빈도 정도에 따른 카운팅 정보를 매칭시켜 저장하는 단계;
를 더 포함하는 것을 특징으로 하는 제어 방법.
제 18 항에 있어서,
상기 제공하는 단계는,
상기 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 상기 후보 대화 프레임의 우선 순위를 결정하고, 우선 순위가 높은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공하는 것을 특징으로 하는 제어 방법.
제 18 항에 있어서,
상기 저장하는 단계는,
상기 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 포함된 적어도 하나의 발화 요소를 인덱싱하기 위한 인덱싱 정보를 더 저장하며,
상기 제공하는 단계는,
상기 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공하는 것을 특징으로 하는 제어 방법.