KR20140074229A - 음성 인식 장치 및 그 제어 방법 - Google Patents

음성 인식 장치 및 그 제어 방법 Download PDF

Info

Publication number
KR20140074229A
KR20140074229A KR1020130151129A KR20130151129A KR20140074229A KR 20140074229 A KR20140074229 A KR 20140074229A KR 1020130151129 A KR1020130151129 A KR 1020130151129A KR 20130151129 A KR20130151129 A KR 20130151129A KR 20140074229 A KR20140074229 A KR 20140074229A
Authority
KR
South Korea
Prior art keywords
frame
domain
conversation
current
previous
Prior art date
Application number
KR1020130151129A
Other languages
English (en)
Other versions
KR102211595B1 (ko
Inventor
박은상
김경덕
김명재
리우유
류성한
이근배
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US14/650,471 priority Critical patent/US9953645B2/en
Priority to PCT/KR2013/011321 priority patent/WO2014088377A1/ko
Publication of KR20140074229A publication Critical patent/KR20140074229A/ko
Application granted granted Critical
Publication of KR102211595B1 publication Critical patent/KR102211595B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)

Abstract

음성 인식 장치 및 그 제어 방법이 개시된다. 본 발명에 따르면, 음성 인식 장치는 사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나를 추출하는 추출부, 제1 및 제2 발화 요소에 기초하여 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 도메인 결정부 및 현재 도메인과 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제어부를 포함한다. 이에 따라, 음성 인식 장치는 사용자의 발화 음성에 대해서 다양한 경우의 수를 고려하여 사용자 의도에 적합한 응답 정보를 제공할 수 있다.

Description

음성 인식 장치 및 그 제어 방법{Speech recognition apparatus and control method thereof}
본 발명은 음성 인식 장치 및 응답 정보 제공 방법에 관한 것으로서, 보다 상세하게는 사용자의 발화 음성에 대응하는 응답 정보를 제공하기 위한 음성 인식 장치 및 응답 정보 제공 방법에 관한 것이다.
종래의 사용자의 발화 음성에 대한 응답 정보를 제공하는 음성 인식 장치는 사용자의 발화 음성이 수신되면, 수신된 발화 음성을 분석하여 사용자가 의도한 도메인을 결정하고, 그 결정된 도메인에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공한다.
그러나, 종래의 음성 인식 장치는 사용자의 현재 발화 음성에 기초하여 도메인을 결정하고, 그 결정된 도메인에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공한다. 즉, 종래의 음성 인식 장치는 사용자의 이전 발화 음성과 현재 발화 음성 간의 대화 문맥을 고려하지 않고, 사용자의 현재 발화 음성에 따라 사용자의 의도를 파악하여 사용자의 발화 음성에 대한 응답 정보를 제공한다.
예를 들어, "액션 영화가 뭐 있지?"라는 이전 발화 음성에는 TV 프로그램에서 제공하는 액션 영화에 대한 사용자 의도를 포함할 수 있다. 이후, "그럼 VOD에는?"이라는 현재 발화 음성이 입력된 경우, 음성 인식 장치는 이전 발화 음성과 관련된 대화 문맥을 고려하지 않고, 현재 입력된 발화 음성에 기초하여 사용자 의도를 파악한다. 그러나, 전술한 예와 같이, "그럼 VOD에는?"이라는 현재 발화 음성의 경우, 실행하고자 하는 실행 대상이 없기 때문에 음성 인식 장치(100)는 "그럼 VOD에는?"이라는 현재 발화 음성으로부터 사용자 의도를 올바르게 파악하지 못하게 된다. 이에 따라, 음성 인식 장치는 사용자의 의도와 다른 응답 정보를 제공하거나 혹은 사용자에게 재발화를 요청한다. 이에 따라, 사용자는 자신이 의도한 응답 정보를 제공받기 위해서 보다 디테일한 발화 음성을 제공해야 하는 불편함을 감수해야 한다.
본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 대화형 시스템에서 사용자의 발화 음성에 대한 응답 정보를 제공하는 음성 인식 장치에서 사용자의 발화 음성에 대해서 다양한 경우의 수를 고려하여 사용자 의도에 적합한 응답 정보를 제공함을 목적으로 한다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 음성 인식 장치는 사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나를 추출하는 추출부, 상기 제1 및 제2 발화 요소에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 도메인 결정부 및 상기 현재 도메인과 상기 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제어부를 포함한다.
그리고, 상기 도메인 결정부는, 상기 추출부로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정할 수 있다.
또한, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인의 동일 여부와, 상기 현재 대화 프레임 및 상기 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단하여, 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정할 수 있다.
그리고, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.
또한, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 상기 이전 대화 프레임에 기초하여 상기 이전 도메인 및 상기 현재 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.
그리고, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 도메인 상에서 상기 현재 대화 프레임 및 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.
또한, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임, 상기 이전 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임 및 상기 현재 도메인 상에서 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.
그리고, 각 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 상기 대화 예제 정보와 관련된 발화 음성에 대한 빈도 정도에 따른 카운팅 정보를 매칭시켜 저장하는 저장부를 더 포함할 수 있다.
또한, 상기 제어부는, 상기 저장부에 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 상기 후보 대화 프레임의 우선 순위를 결정하고, 상기 우선 순위가 높은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.
그리고, 상기 저장부는, 상기 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 포함된 적어도 하나의 발화 요소를 인덱싱하기 위한 인덱싱 정보를 더 저장하며, 상기 제어부는, 상기 저장부에 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.
한편, 본 발명의 일 실시예에 따르면, 음성 인식 장치의 제어 방법에 있어서, 상기 방법은 사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나를 추출하는 단계, 상기 제1 및 제2 발화 요소에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 단계, 상기 현재 도메인과 상기 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 단계 및 상기 후보 대화 프레임에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하는 단계를 포함한다.
그리고, 상기 결정하는 단계는, 상기 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정할 수 있다.
또한, 상기 제공하는 단계는, 상기 현재 상기 현재 도메인과 상기 이전 도메인의 동일 여부와, 상기 현재 대화 프레임 및 상기 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단하여, 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정할 수 있다.
그리고, 상기 제공하는 단계는, 상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.
또한, 상기 제공하는 단계는, 상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 상기 이전 대화 프레임에 기초하여 상기 이전 도메인 및 상기 현재 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.
그리고, 상기 제공하는 단계는, 상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 도메인 상에서 상기 현재 대화 프레임 및 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.
또한, 상기 제공하는 단계는, 상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임, 상기 이전 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임 및 상기 현재 도메인 상에서 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.
그리고, 각 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 상기 대화 예제 정보와 관련된 발화 음성에 대한 빈도 정도에 따른 카운팅 정보를 매칭시켜 저장하는 단계를 더 포함할 수 있다.
또한, 상기 제공하는 단계는, 상기 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 상기 후보 대화 프레임의 우선 순위를 결정하고, 우선 순위가 높은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.
그리고, 상기 저장하는 단계는, 상기 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 포함된 적어도 하나의 발화 요소를 인덱싱하기 위한 인덱싱 정보를 더 저장하며, 상기 제공하는 단계는, 상기 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.
이상과 같이 본 발명의 다양한 실시 예에 따르면, 대화형 시스템에서 음성 인식 장치는 사용자의 발화 음성에 대해서 다양한 경우의 수를 고려하여 사용자 의도에 적합한 응답 정보를 제공할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 대화형 시스템의 예시도,
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 블록도,
도 3은 본 발명의 일 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제1 예시도,
도 4는 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제2 예시도,
도 5는 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제3 예시도,
도 6은 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제4 예시도,
도 7은 본 발명의 일 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법의 흐름도이다.
이하에서는 첨부된 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시 예에 따른 대화형 시스템의 예시도이다.
도 1에 도시된 바와 같이, 대화형 시스템은 음성 인식 장치(100) 및 디스플레이 장치(200)를 포함한다. 음성 인식 장치(100)는 디스플레이 장치(200)로부터 수신된 사용자의 발화 음성 신호(이하 발화 음성이라 함)를 수신하고, 수신된 사용자의 발화 음성이 어느 도메인에 속하는지를 결정한다. 이후, 음성 인식 장치(100)는 결정된 도메인(이하 현재 도메인이라 함)과 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 패턴에 기초하여 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.
디스플레이 장치(200)는 스마트 TV일 수 있으나, 이는 일 예에 불과할 뿐, 스마트폰과 같은 휴대폰, 데스크탑 PC, 노트북, 네비게이션 등과 같은 다양한 전자 장치로 구현될 수 있다. 이 같은 디스플레이 장치(200)는 사용자의 발화 음성을 수집하고, 수집된 사용자의 발화 음성을 음성 인식 장치(100)로 전송한다. 이에 따라, 음성 인식 장치(100)는 전술한 바와 같이, 디스플레이 장치(200)로부터 수신된 사용자의 발화 음성에 속하는 현재 도메인을 결정하고, 결정된 현재 도메인과 사용자의 이전 발화 음성으로부터 결정된 이번 도메인 상에서의 대화 패턴을 기초로 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다. 이에 따라, 디스플레이 장치(200)는 음성 인식 장치(100)로부터 수신한 응답 정보를 스피커로 출력하거나 또는 화면상에 디스플레이할 수 있다.
구체적으로, 음성 인식 장치(100)는 디스플레이 장치(200)로부터 사용자의 발화 음성이 수신되면, 수신된 발화 음성을 분석하여 발화 음성에 대한 현재 도메인을 결정한다. 이후, 음성 인식 장치(100)는 해당 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인과 현재 도메인 상에서의 대화 상태에 기초하여 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공한다.
구체적으로, 음성 인식 장치(100)는 이전 도메인과 현재 도메인의 동일 여부를 판단하고, 두 도메인이 동일하면, 두 도메인 상에서의 대화 패턴을 분석하여 동일한 대화 문맥이 유지되는지 여부를 판단한다. 판단 결과, 동일한 대화 문맥이 유지되면, 음성 인식 장치(100)는 이전 도메인 상에서 현재 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.
그러나, 두 도메인 상에서의 대화 패턴 분석을 통해 대화 문맥이 전환되거나, 서로 다른 도메인 상에서 동일한 대화 문맥이 유지되거나 혹은 서로 다른 도메인 상에서 대화 문맥이 전환된 경우, 두 도메인 상에서 현재 사용자의 발화 음성에 대한 현재 대화 프레임 및 해당 사용자의 이전 발화 음성에 대한 이전 대화 프레임에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다.
예를 들어, "애니메이션 VOD 뭐 있어?"라는 사용자의 이전 발화 음성으로부터 VDO 도메인이라는 이전 도메인이 결정된 상태에서, "TV 프로그램은?"이라는 사용자의 발화 음성이 수신될 수 있다. 이 경우, 음성 인식 장치(100)는 "TV 프로그램은?"이라는 발화 음성으로부터 "TV 프로그램"이라는 실행 명령을 나타내는 제1 발화 요소를 추출하고, 추출된 제1 발화 요소에 기초하여 "search_program()"라는 현재 대화 프레임을 생성할 수 있다. 또한, 음성 인식 장치(100)는 "TV 프로그램은?"이라는 발화 음성으로부터 사용자의 발화 음성을 제공할 현재 도메인이 TV 프로그램 도메인 것으로 결정될 수 있다.
이 같은 현재 도메인이 결정되면, 음성 인식 장치(100)는 이전 도메인과 현재 도메인을 비교하여 두 도메인이 서로 상이하면, 두 도메인 상에서의 대화 패턴을 분석하여 대화 문맥의 전환 여부를 판단한다. 전술한 예와 같이, VOD 도메인이라는 이전 도메인 상에서 사용자로부터 발화된 발화 음성은 "애니메이션 VOD 뭐 있어?"가 될 수 있으며, TV 프로그램 도메인인 현재 도메인 상에서 사용자로부터 발화된 발화 음성은 "TV 프로그램은?"이 될 수 있다. 이와 같이, 두 도메인이 서로 상이하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 음성 인식 장치(100)는 두 도메인 상에서 사용자의 현재 발화 음성에 대한 응답 정보를 제공하기 위한 복수의 후보 대화 프레임을 결정할 수 있다. 여기서, 후보 대화 프레임은 사용자의 이전 발화 음성으로부터 생성된 이전 대화 프레임, 현재 발화 음성으로부터 생성된 현재 대화 프레임 및 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임이 될 수 있다.
이 같은 복수의 후보 대화 프레임이 결정되면, 음성 인식 장치(100)는 각 도메인별 결정된 후보 대화 프레임에 기초하여 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다.
이와 같이, 본 발명에 따른 음성 인식 장치(100)는 사용자의 현재 발화가 이전 발화와 연관되지 않거나 혹은 두 발화와 관련된 도메인이 서로 상이하여 사용자의 의도가 불명확하여도 다양한 경우의 수를 적용하여 사용자의 발화에 대한 응답 정보를 제공할 수 있다.
지금까지, 본 발명에 따른 대화형 시스템에 대해서 개략적으로 설명하였다. 이하에서는, 본 발명에 따른 대화형 시스템에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 음성 인식 장치(100)에 대해서 상세히 설명하도록 한다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 블록도이다.
도 2에 도시된 바와 같이, 음성 인식 장치(100)는 통신부(110), 음성 인식부(120), 추출부(130), 도메인 결정부(140), 제어부(150) 및 저장부(160)를 포함한다.
통신부(110)는 디스플레이 장치(200)와 유선 또는 무선으로 데이터 통신을 수행하여 디스플레이 장치(200)를 통해 인식된 사용자의 발화 음성을 수신하고, 수신된 발화 음성에 대응되는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다. 여기서, 응답 정보는 사용자가 요청한 컨텐츠 관련 정보 또는 키워드 검색 결과 정보 등을 포함할 수 있다.
이 같은 통신부(110)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기에서, 근거리 무선 통신 모듈이란 블루투스, 지그비 방식 등과 같은 근거리 무선 통신 방식에 따라, 근거리에 위치한 외부 기기와 통신을 수행하기 위한 모듈이다. 또한, 무선 통신 모듈이란 WIFI, IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.
음성 인식부(120)는 통신부(110)를 통해 디스플레이 장치(200)로부터 수신된 사용자의 발화 음성을 인식하여 텍스트로 변환한다. 실시예에 따라, 음성 인식부(120)는 STT(Speech to Text) 알고리즘을 이용하여 수신된 사용자의 발화 음성을 텍스트로 변환할 수 있다. 음성 인식부(120)를 통해 사용자의 발화 음성이 텍스트로 변환되면, 추출부(130)는 텍스트로 변환된 사용자의 발화 음성으로부터 발화 요소를 추출한다. 구체적으로, 추출부(130)는 저장부(160)에 기저장된 말뭉치 테이블에 기초하여 사용자의 발화 음성으로부터 변환된 텍스트로부터 발화 요소를 추출할 수 있다. 여기서, 발화 요소는 사용자의 발화 음성 내에서 사용자가 요청한 동작을 수행하기 위한 키워드로써, 이 같은 발화 요소는 실행 명령(user action)을 나타내는 제1 발화 요소와 주요 특징(feature) 즉, 대상을 나타내는 제2 발화 요소로 분류될 수 있다. 예를 들어, "액션 영화 보여줘!"라는 사용자의 발화 음성의 경우, 추출부(130)는 "보여줘!"라는 실행 명령을 나타내는 제1 발화 요소와 "액션 영화"라는 대상을 나타내는 제2 발화 요소를 추출할 수 있다.
이 같은 제1 및 제2 발화 요소 중 적어도 하나의 발화 요소가 추출되면, 도메인 결정부(140)는 추출부(130)로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정한다. 구체적으로, 도메인 결정부(140)는 추출부(130)로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 대화 프레임(이하 현재 대화 프레임이라 함)을 생성할 수 있으며, 이 같은 현재 대화 프레임이 생성되면, 도메인 결정부(140)는 저장부(160)에 기저장된 도메인 테이블을 참조하여 현재 대화 프레임이 속하는 현재 도메인을 결정할 수 있다.
여기서, 도메인 테이블은 기설정된 복수의 도메인별로 사용자의 이전 발화 음성으로부터 추출된 제1 발화 요소에 대응하는 주행 및 제2 발화 요소에 대응하는 매개변수에 기초하여 생성된 대화 프레임이 매칭된 테이블이 될 수 있다. 따라서, 도메인 결정부(140)는 현재 대화 프레임이 생성되면, 저장부(160)에 기저장된 도메인 테이블을 참조하여 현재 대화 프레임이 속하는 적어도 하나의 도메인을 획득하고, 획득한 도메인을 현재 도메인으로 결정할 수 있다.
한편, 제어부(150)는 음성 인식 장치(100)의 각 구성에 대한 동작을 전반적으로 제어한다. 특히, 제어부(150)는 도메인 결정부(140)를 통해 결정된 현재 도메인과 해당 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정한다.
구체적으로, 제어부(150)는 현재 도메인과 이전 도메인의 동일 여부와, 현재 대화 프레임 및 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단한다. 이후, 제어부(150)는 두 도메인의 동일 여부에 대한 판단 결과와 대화 문맥의 전환 여부에 대한 판단 결과에 따라 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정할 수 있다.
실시예에 따라, 제어부(150)는 현재 도메인과 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.
한편, 제어부(150)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 이전 도메인 및 현재 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.
한편, 제어부(150)는 현재 도메인과 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 도메인 상에서 현재 대화 프레임 및 현재 대화 프레임과 관련하여 초기화된 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.
한편, 제어부(150)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임, 이전 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임, 현재 도메인 상에서 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.
이와 같이, 현재 도메인과 이전 도메인의 동일 여부 및 두 도메인 상에서의 대화 문맥의 전환 여부에 따라 적어도 하나의 후보 대화 프레임이 결정되면, 제어부(150)는 결정된 후보 대화 프레임에 대한 응답 정보를 생성하고, 생성된 응답 정보를 디스플레이 장치(200)로 전송할 수 있다.
이하에서는, 도 3 내지 도 6을 통해 사용자의 발화 음성과 이전 발화 음성에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 동작에 대해서 구체적으로 설명하도록 한다.
도 3은 본 발명의 일 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제1 예시도이다.
도 3에 도시된 바와 같이, 제어부(150)는 사용자의 이전 발화 음성 및 현재 발화 음성과 관련하여 결정된 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 제어부(150)는 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.
예를 들어, 대화 문맥 영역(310)에 도시된 바와 같이, 사용자의 이전 발화 음성이 "애니메이션 VOD 뭐 있어?"이고, 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 이전 대화 프레임이 "search_program(genre=애니메이션)"이며, 이전 대화 프레임에 기초하여 결정된 이전 도메인이 VOD 도메인이 될 수 있다. 그리고, 사용자의 현재 발화 음성이 "전체 관람가만 보여줘"이고, 현재 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 현재 대화 프레임이 "search_program(content_rating)"이며, 현재 대화 프레임에 기초하여 결정된 현재 도메인이 VDO 도메인이 될 수 있다.
이 경우, 제어부(150)는 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 도메인이 모두 VDO 도메인인 것으로 판단할 수 있다. 또한, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"과 현재 대화 프레임인 "search_program(content_rating)"으로부터 사용자의 대화 패턴을 분석하여 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단할 수 있다. 즉, 제어부(150)는 사용자의 현재 발화 음성이 이전 발화 음성과 관련하여 이어지는 VOD 대화 문맥인 것으로 판단할 수 있다.
이와 같이, 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임(320)을 결정할 수 있다.
구체적으로, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"에 기초하여 현재 대화 프레임인 "search_program(content_rating)"을 후보 대화 프레임(320)으로 결정할 수 있다.
이와 같이, 후보 대화 프레임(320)이 결정되면, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 이전 대화 프레임인 "search_program(genre=애니메이션)" 및 후보 대화 프레임(320)으로 결정된 "search_program(content_rating)"에 기초하여 기검색된 애니메이션 중 전체 관람이 가능한 애니메이션에 대한 검색을 수행하고, 검색된 검색 결과 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다.
도 4는 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제2 예시도이다.
도 4에 도시된 바와 같이, 제어부(150)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 두 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.
예를 들어, 대화 문맥 영역(410)에 도시된 바와 같이, 사용자의 이전 발화 음성이 "애니메이션 VOD 뭐 있어?"이고, 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 이전 대화 프레임이 "search_program(genre=애니메이션)"이며, 이전 대화 프레임에 기초하여 결정된 이전 도메인이 VOD 도메인이 될 수 있다. 그리고, 사용자의 현재 발화 음성이 "○○○ 애니메이션 보여줘"이고, 현재 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 현재 대화 프레임이 "search_program(title=○○○ 애니메이션)"이며, 현재 대화 프레임에 기초하여 결정된 현재 도메인이 TV 프로그램 도메인 및 VDO 도메인이 될 수 있다.
따라서, 제어부(150)는 사용자의 현재 발화 음성과 관련하여 결정된 도메인이 TV 프로그램 도메인 경우, 이전 발화 음성과 관련하여 결정된 이전 도메인인 VOD 도메인과 서로 상이한 것으로 판단할 수 있다. 또한, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"과 현재 대화 프레임인 "search_program(title=○○○ 애니메이션)"으로부터 사용자의 대화 패턴을 분석하여 서로 다른 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단할 수 있다.
이와 같이, 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 두 도메인이 서로 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 제어부(150)는 두 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 제1 및 제2 후보 도메인(420,430)을 결정할 수 있다.
구체적으로, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"에 기초하여 현재 대화 프레임인 "search_program(title=○○○ 애니메이션)"을 "play_program(title=○○○ 애니메이션)"로 변경하고, 변경된 "play_program(title=○○○ 애니메이션)"을 제1 후보 대화 프레임(420)으로 결정할 수 있다. 또한, 제어부(150)는 현재 대화 프레임인 "search_program(title=○○○ 애니메이션)"을 제2 후보 대화 프레임(430)으로 결정할 수 있다.
이와 같이, 제1 및 제2 후보 대화 프레임(420,430)이 결정되면, 제어부(150)는 결정된 제1 및 제2 후보 대화 프레임(420,430)에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다.
구체적으로, 제1 후보 대화 프레임(420)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 이전 대화 프레임인 "search_program(genre=애니메이션)" 및 제1 후보 대화 프레임(420)인 "play_program(title=○○○ 애니메이션)"에 기초하여 기검색된 애니메이션 중 ○○○ 애니메이션에 대한 검색을 수행하고, 검색된 ○○○ 애니메이션에 대한 실행 정보를 생성한다.
또한, 제2 후보 대화 프레임(420)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 현재 도메인인 TV 프로그램 도메인 상에서 제2 후보 대화 프레임인 "search_program(title=○○○ 애니메이션)"에 기초하여 ○○○ 애니메이션에 대한 검색을 수행하고, 검색된 ○○○ 애니메이션에 대한 검색 결과 정보를 생성한다.
이후, 제어부(150)는 제1 후보 대화 프레임(420)과 관련하여 생성된 ○○○ 애니메이션에 대한 실행 정보 및 제2 후보 대화 프레임(430)과 관련하여 생성된 ○○○ 애니메이션에 대한 검색 결과 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.
도 5는 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제3 예시도이다.
도 5에 도시된 바와 같이, 제어부(150)는 현재 도메인과 이전 도메인이 서로 동일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 도메인 상에서 현재 대화 프레임 및 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.
예를 들어, 대화 문맥 영역(510)에 도시된 바와 같이, 사용자의 이전 발화 음성이 "애니메이션 VOD 뭐 있어?"이고, 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 이전 대화 프레임이 "search_program(genre=애니메이션)"이며, 이전 대화 프레임에 기초하여 결정된 이전 도메인이 VOD 도메인이 될 수 있다. 그리고, 사용자의 현재 발화 음성이 "액션 VOD 뭐 있어?"이고, 현재 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 현재 대화 프레임이 "search_program(genre=액션)"이며, 현재 대화 프레임에 기초하여 결정된 현재 도메인이 VDO 도메인이 될 수 있다.
이 경우, 제어부(150)는 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 도메인이 모두 VOD 도메인 것으로 판단할 수 있다. 또한, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"과 현재 대화 프레임인 "search_program(genre=액션)"으로부터 사용자의 대화 패턴을 분석하여 서로 동일한 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단할 수 있다.
이와 같이, 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 두 도메인이 서로 동일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 제1 및 제2 후보 대화 프레임(520,530)을 결정할 수 있다.
구체적으로, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"에 기초하여 현재 대화 프레임인 "search_program(genre=액션)"을 "search_program(genre= 액션 애니메이션)"로 변경하고, 변경된 "search_program(genre= 액션 애니메이션)"은 제1 후보 대화 프레임(520)으로 결정할 수 있다. 또한, 제어부(150)는 현재 대화 프레임인 "search_program(genre=액션)"을 제2 후보 대화 프레임(530)으로 결정할 수 있다.
이와 같이, 제1 및 제2 후보 대화 프레임(520,530)이 결정되면, 제어부(150)는 결정된 제1 및 제2 후보 대화 프레임(520,530)에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다.
구체적으로, 제1 후보 대화 프레임(520)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 이전 대화 프레임인 "search_program(genre=애니메이션)" 및 제1 후보 대화 프레임(520)인 "search_program(genre= 액션 애니메이션)"에 기초하여 기검색된 애니메이션 중 액션 애니메이션에 대한 검색을 수행하고, 검색된 액션 애니메이션에 대한 검색 결과 정보를 생성한다.
또한, 제2 후보 대화 프레임(530)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 제2 후보 대화 프레임(530)인 search_program(genre= 액션)에 기초하여 VOD 상에서 제공하는 컨텐츠 중 액션 관련 컨텐츠에 대한 검색 결과 정보를 생성한다.
이후, 제어부(150)는 제1 후보 대화 프레임(520)과 관련하여 생성된 액션 애니메이션에 대한 검색 결과 정보 및 제2 후보 대화 프레임(530)과 관련하여 생성된 액션 관련 컨텐츠에 대한 검색 결과 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.
도 6은 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제4 예시도이다.
도 6에 도시된 바와 같이, 제어부(150)는 현재 도메인과 이전 도메인이 서로 상일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임, 이전 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임 및 현재 도메인 상에서 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.
예를 들어, 대화 문맥 영역(610)에 도시된 바와 같이, 사용자의 이전 발화 음성이 "애니메이션 VOD 뭐 있어?"이고, 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 이전 대화 프레임이 "search_program(genre=애니메이션)"이며, 이전 대화 프레임에 기초하여 결정된 이전 도메인이 VOD 도메인이 될 수 있다. 그리고, 사용자의 현재 발화 음성이 "그럼 TV 프로그램은?"이고, 현재 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 현재 대화 프레임이 "search_program()"이며, 현재 대화 프레임에 기초하여 결정된 현재 도메인이 TV 프로그램 도메인이 될 수 있다.
이 경우, 제어부(150)는 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 도메인이 상이한 것으로 판단할 수 있다. 또한, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"과 현재 대화 프레임인 "search_program()"으로부터 사용자의 대화 패턴을 분석하여 서로 상이한 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단할 수 있다.
이와 같이, 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 두 도메인이 서로 상이하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 제어부(150)는 두 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 제1 내지 제3 후보 대화 프레임(620~640)을 결정할 수 있다.
구체적으로, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"에 기초하여 현재 대화 프레임인 "search_program()"을 "search_program(genre=애니메이션)"로 변경하고, 변경된 "search_program(genre=애니메이션)"을 제1 후보 대화 프레임(620)으로 결정할 수 있다. 또한, 제어부(150)는 현재 대화 프레임인 "search_program()"을 제2 후보 대화 프레임(630)으로 결정할 수 있다. 또한, 제어부(150)는 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임을 제3 후보 대화 프레임(640)으로 결정할 수 있다. 여기서, 현재 대화 프레임이 "search_program()"이기 때문에 초기화 대화 프레임은 현재 대화 프레임인 "search_program()"와 동일할 수 있다. 만약, 현재 대화 프레임이 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 생성된 대화 프레임인 경우, 초기화 대화 프레임은 제2 발화 요소에 대응하는 매개변수를 제외한 제1 발화 요소에 대응하는 주행에 기초하여 생성된 대화 프레임이 될 수 있다.
이와 같이, 제1 내지 제3 후보 대화 프레임(620~640)이 결정되면, 제어부(150)는 결정된 제1 내지 제3 후보 대화 프레임(620~640)에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다.
구체적으로, 제1 후보 대화 프레임(620)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 현재 도메인인 TV 프로그램 도메인 상에서 제1 후보 대화 프레임(620)인 "search_program(genre=애니메이션)"에 기초하여 애니메이션에 대한 검색을 수행하고, 검색된 애니메이션에 대한 검색 결과 정보를 생성한다.
또한, 제2 후보 대화 프레임(630)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 제2 후보 대화 프레임(630)인 "search_program()"에 기초하여 TV 프로그램 상에서 제공하는 TV 프로그램 관련 컨텐츠에 대한 검색 결과 정보를 생성한다.
또한, 제3 후보 대화 프레임(640)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 현재 도메인인 TV 프로그램 도메인 상에서 제3 후보 대화 프레임(640)인 "search_program()"에 기초하여 TV 프로그램 상에서 제공하는 TV 프로그램 관련 컨텐츠에 대한 검색 결과 정보를 생성한다.
이후, 제어부(150)는 제1 후보 대화 프레임(620)과 관련하여 생성된 애니메이션에 대한 검색 결과 정보와 제2 및 제3 후보 대화 프레임(630,640)과 관련하여 생성된 TV 프로그램 관련 컨텐츠에 대한 검색 결과 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.
한편, 제어부(150)는 위 실시예에 기초하여 결정된 적어도 하나의 후보 대화 프레임에 대해서 기설정된 조건에 따라 우선 순위를 결정하고, 우선 순위가 높은 후보 대화 프레임 순으로 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.
일 실시예에 따라, 제어부(150)는 저장부(160)에 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 기결정된 적어도 하나의 후보 대화 프레임의 우선 순위를 결정한다. 이후, 제어부(150)는 결정된 우선 순위에 기초하여 가장 높은 순위에 해당하는 후보 대화 프레임 순으로 해당 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.
구체적으로, 저장부(160)는 전술한 바와 같이, 기설정된 복수의 도메인별로 사용자의 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 이전 대화 프레임이 매칭된 도메인 테이블을 저장할 수 있다. 또한, 저장부(160)는 복수의 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 대화 예제 정보와 관련된 사용자의 발화 음성에 대한 빈도 정도에 따른 카운팅 정보를 매칭시켜 저장할 수 있다.
예를 들어, VOD 도메인 및 TV 프로그램 도메인에는 "search_program(genre=애니메이션)"에 대한 이전 대화 프레임이 매칭될 수 있다. 그리고, 각 도메인에 매칭된 "search_program(genre=애니메이션)"에 대한 이전 대화 프레임은 "애니메이션 뭐 있어?", "애니메이션 찾아줘" 등의 사용자의 이전 발화 음성과 관련된 대화 예제 정보 및 해당 대화 예제 정보와 관련된 사용자의 발화 음성에 대한 빈도 정도에 따른 카운팅 정보가 매칭될 수 있다.
따라서, 제어부(150)는 복수의 후보 대화 프레임이 결정되면, 결정된 각각의 후보 대화 프레임과 관련하여 매칭된 대화 예제 정보에 대한 카운팅 정보에 기초하여 각각의 후보 대화 프레임에 대한 순위를 결정할 수 있다.
예를 들어, 도 6에서 설명한 바와 같이, 제1 내지 제3 후보 대화 프레임(620~640)이 결정되고, 이중 TV 프로그램 도메인 상에서의"search_program(genre=애니메이션)"에 대한 제1 후보 대화 프레임(620)과 관련된 대화 예제 정보에 대한 빈도 수가 가장 높고, VOD 도메인 상에서의 "search_program()"에 대한 제2 후보 대화 프레임(630)과 관련된 대화 예제 정보에 대한 빈도 수가 가장 낮을 수 있다.
이 경우, 제어부(150)는 제1 내지 제3 후보 대화 프레임(620~640)에 기초하여 생성된 검색 결과 정보 및 제1 내지 제3 후보 대화 프레임(620~640)에 대한 순위 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다. 이에 따라, 디스플레이 장치(200)는 수신한 응답 정보에 포함된 순위 정보에 기초하여 가장 순위가 높은 후보 대화 프레임에 대한 검색 결과 정보 순으로 각각의 검색 결과 정보를 디스플레이 할 수 있다.
또다른 실시예에 따라, 제어부(150)는 저장부(160)에 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.
구체적으로, 저장부(160)는 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 포함된 적어도 하나의 발화 요소를 인덱싱하기 위한 인덱싱 정보를 더 저장할 수 있다. 예를 들어, "search_program(genre=애니메이션)"에 대한 이전 대화 프레임의 경우, 제1 및 제2 발화 요소에 기초하여 생성된 대화 프레임으로서, 제1 및 제2 발화 요소 각각에 대한 인덱싱 정보를 포함할 수 있다. 한편, "search_program()"에 대한 이전 대화 프레임의 경우, 제1 발화 요소에 기초하여 생성된 대화 프레임으로써, 제1 발화 요소에 대한 인덱싱 정보만을 포함할 수 있다.
따라서, 제어부(150)는 복수의 후보 대화 프레임이 결정되면, 각각의 후보 대화 프레임을 구성하는 각 발화 요소에 대한 인덱싱 정보의 수를 참조하여 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 복수의 후보 대화 프레임에 대한 순위를 결정한다. 이후, 제어부(150)는 각각의 후보 대화 프레임에 대한 검색 결과 정보 및 각각의 후보 대화 프레임별로 결정된 순위 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다.
이에 따라, 디스플레이 장치(200)는 수신한 응답 정보에 포함된 순위 정보에 기초하여 가장 순위가 높은 후보 대화 프레임에 대한 검색 결과 정보 순으로 각각의 검색 결과 정보를 디스플레이 할 수 있다.
지금까지, 본 발명에 따른 대화형 시스템에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 음성 인식 장치(100)의 각 구성에 대해서 상세히 설명하였다. 이하에서는, 본 발명에 따른 대화형 시스템의 음성 인식 장치(100)에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법에 대해서 상세히 설명하도록 한다.
도 7은 본 발명의 일 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법의 흐름도이다.
도 7에 도시된 바와 같이, 음성 인식 장치(100)는 디스플레이 장치(200)로부터 수집된 사용자의 발화 음성 신호(이하 발화 음성이라 함)가 수신되면, 수신된 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나의 발화 요소를 추출한다(S710,S720).
구체적으로, 음성 인식 장치(100)는 디스플레이 장치(200)부터 사용자의 발화 음성이 수신되면, 수신된 사용자의 발화 음성을 인식하여 텍스트로 변환한다. 실시예에 따라, 음성 인식 장치(100)는 STT(Speech to Text) 알고리즘을 이용하여 수신된 사용자의 발화 음성을 텍스트로 변환할 수 있다. 사용자의 발화 음성이 텍스트로 변환되면, 음성 인식 장치(100)는 텍스트로 변환된 사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나의 발화 요소를 추출한다. 예를 들어, "액션 영화 찾아줘!"라는 사용자의 발화 음성의 경우, 음성 인식 장치(100)는 "찾아줘!"라는 실행 명령을 나타내는 제1 발화 요소와 "액션 영화"라는 대상을 나타내는 제2 발화 요소를 추출할 수 있다.
이 같은 발화 요소가 추출되면, 음성 인식 장치(100)는 추출된 제1 및 제2 발화 요소에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정한다(S730). 구체적으로, 음성 인식 장치(100)는 기추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개 변수에 기초하여 사용자의 발화 음성에 응답 정보를 제공하기 위한 현재 도메인을 결정할 수 있다. 보다 구체적으로, 음성 인식 장치(100)는 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 현재 대화 프레임을 생성한다. 이 같은 현재 대화 프레임이 생성되면, 음성 인식 장치(100)는 기설정된 도메인 테이블을 참조하여 현재 대화 프레임이 속하는 현재 도메인을 결정할 수 있다. 여기서, 도메인 테이블은 기설정된 복수의 도메인별로 사용자의 이전 발화 음성으로부터 추출된 제1 발화 요소에 대응하는 주행 및 제2 발화 요소에 대응하는 매개변수에 기초하여 생성된 대화 프레임이 매칭된 테이블이 될 수 있다.
따라서, 음성 인식 장치(100)는 현재 대화 프레임이 생성되면, 기저장된 도메인 테이블을 참조하여 현재 대화 프레임이 속하는 적어도 하나의 도메인을 획득하고, 획득한 도메인을 현재 도메인으로 결정할 수 있다.
이와 같이, 사용자의 발화 음성에 대한 현재 도메인이 결정되면, 음성 인식 장치(100)는 현재 도메인과 해당 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정한다(S740).
구체적으로, 음성 인식 장치(100)는 사용자의 발화 음성에 대한 현재 도메인이 결정되면, 현재 도메인과 이전 도메인의 동일 여부와, 현재 대화 프레임 및 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단한다. 이후, 음성 인식 장치(100)는 두 도메인의 동일 여부에 대한 판단 결과, 대화 문맥의 전환 여부에 대한 판단 결과에 따라 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정할 수 있다.
실시예에 따라, 음성 인식 장치(100)는 현재 도메인과 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.
한편, 음성 인식 장치(100)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 이전 도메인 및 현재 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.
한편, 음성 인식 장치(100)는 현재 도메인과 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 도메인 상에서 현재 대화 프레임 및 현재 대화 프레임과 관련하여 초기화된 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.
한편, 음성 인식 장치(100)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임, 이전 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임, 현재 도메인 상에서 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.
이와 같이, 현재 도메인과 이전 도메인의 동일 여부 및 두 도메인 상에서의 대화 문맥의 전환 여부에 따라 적어도 하나의 후보 대화 프레임이 결정되면, 음성 인식 장치(100)는 결정된 후보 대화 프레임에 대한 응답 정보를 생성하고, 생성된 응답 정보를 디스플레이 장치(200)로 전송할 수 있다(S750).
구체적으로, 음성 인식 장치(100)는 위 실시예에 기초하여 결정된 적어도 하나의 후보 대화 프레임에 대해서 기설정된 조건에 따라 우선 순위를 결정하고, 우선 순위가 높은 후보 대화 프레임 순으로 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.
일 실시예에 따라, 음성 인식 장치(100)는 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 기결정된 적어도 하나의 후보 대화 프레임의 우선 순위를 결정한다. 이후, 음성 인식 장치(100)는 결정된 우선 순위에 기초하여 가장 높은 순위에 해당하는 후보 대화 프레임 순으로 해당 후보 대화 프레임에 대한 응답 정보를 디스플레이 장치(200)로 제공할 수 있다.
구체적으로 전술한 각각의 단계 이전에 음성 인식 장치(100)는 복수의 도메인별로 매칭된 이전 대화 프레임과, 각 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 대화 예제 정보와 관련된 사용자의 발화 음성에 대한 빈도 정보에 따른 카운팅 정보를 매칭시켜 저장할 수 있다.
따라서, 음성 인식 장치(100)는 복수의 후보 대화 프레임이 결정되면, 결정된 각각의 후보 대화 프레임과 관련하여 매칭된 대화 예제 정보에 대한 카운팅 정보에 기초하여 각각의 후보 대화 프레임에 대한 순위를 결정할 수 있다. 이 같은 복수의 후보 대화 프레임에 대한 순위가 결정되면, 음성 인식 장치(100)는 복수의 후보 대화 프레임에 기초하여 생성된 각각의 검색 결과 정보 및 각각의 후보 대화 프레임에 대한 순위 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다. 이에 따라, 디스플레이 장치(200)는 수신한 응답 정보에 포함된 순위 정보에 기초하여 가장 순위가 높은 후보 대화 프레임에 대한 검색 결과 정보 순으로 각각의 검색 결과 정보를 디스플레이 할 수 있다.
또다른 실시예에 따라, 음성 인식 장치(100)는 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 후보 대화 프레임에 대한 순위를 결정한다. 이후, 음성 인식 장치(100)는 각각이 후보 대화 프레임에 대한 검색 결과 정보 및 각각의 후보 대화 프레임별로 결정된 순위 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다.
이에 따라, 디스플레이 장치(200)는 수신한 응답 정보에 포함된 순위 정보에 기초하여 가장 순위가 높은 후보 대화 프레임에 대한 검색 결과 정보 순으로 각각의 검색 결과 정보를 디스플레이 할 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100 : 음성 인식 장치 110 : 통신부
120 : 음성 인식부 130 : 추출부
140 : 도메인 결정부 150 : 제어부
160 : 저장부 200 : 디스플레이부

Claims (20)

  1. 사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나를 추출하는 추출부;
    상기 제1 및 제2 발화 요소에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 도메인 결정부; 및
    상기 현재 도메인과 상기 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제어부;
    를 포함하는 음성 인식 장치.
  2. 제 1 항에 있어서,
    상기 도메인 결정부는,
    상기 추출부로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 것을 특징으로 하는 음성 인식 장치.
  3. 제 2 항에 있어서,
    상기 제어부는,
    상기 현재 도메인과 상기 이전 도메인의 동일 여부와, 상기 현재 대화 프레임 및 상기 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단하여, 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 것을 특징으로 하는 음성 인식 장치.
  4. 제 3 항에 있어서,
    상기 제어부는,
    상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정하는 것을 특징으로 하는 음성 인식 장치.
  5. 제 3 항에 있어서,
    상기 제어부는,
    상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 상기 이전 대화 프레임에 기초하여 상기 이전 도메인 및 상기 현재 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정하는 것을 특징으로 하는 음성 인식 장치.
  6. 제 3 항에 있어서,
    상기 제어부는,
    상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 도메인 상에서 상기 현재 대화 프레임 및 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정하는 것을 특징으로 하는 음성 인식 장치.
  7. 제 3 항에 있어서,
    상기 제어부는,
    상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임, 상기 이전 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임 및 상기 현재 도메인 상에서 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정하는 것을 특징으로 하는 음성 인식 장치.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    각 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 상기 대화 예제 정보와 관련된 발화 음성에 대한 빈도 정도에 따른 카운팅 정보를 매칭시켜 저장하는 저장부;를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
  9. 제 8 항에 있어서,
    상기 제어부는,
    상기 저장부에 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 상기 후보 대화 프레임의 우선 순위를 결정하고, 상기 우선 순위가 높은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공하는 것을 특징으로 하는 음성 인식 장치.
  10. 제 8 항에 있어서,
    상기 저장부는,
    상기 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 포함된 적어도 하나의 발화 요소를 인덱싱하기 위한 인덱싱 정보를 더 저장하며,
    상기 제어부는,
    상기 저장부에 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공하는 것을 특징으로 하는 음성 인식 장치.
  11. 음성 인식 장치의 제어 방법에 있어서,
    사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나를 추출하는 단계;
    상기 제1 및 제2 발화 요소에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 단계;
    상기 현재 도메인과 상기 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 단계; 및
    상기 후보 대화 프레임에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하는 단계;
    를 포함하는 제어 방법.
  12. 제 11 항에 있어서,
    상기 결정하는 단계는,
    상기 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 것을 특징으로 하는 제어 방법.
  13. 제 12 항에 있어서,
    상기 제공하는 단계는,
    상기 현재 상기 현재 도메인과 상기 이전 도메인의 동일 여부와, 상기 현재 대화 프레임 및 상기 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단하여, 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 것을 특징으로 하는 제어 방법.
  14. 제 13 항에 있어서,
    상기 제공하는 단계는,
    상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정하는 것을 특징으로 하는 제어 방법.
  15. 제 13 항에 있어서,
    상기 제공하는 단계는,
    상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 상기 이전 대화 프레임에 기초하여 상기 이전 도메인 및 상기 현재 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정하는 것을 특징으로 하는 제어 방법.
  16. 제 13 항에 있어서,
    상기 제공하는 단계는,
    상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 도메인 상에서 상기 현재 대화 프레임 및 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정하는 것을 특징으로 하는 제어 방법.
  17. 제 13 항에 있어서,
    상기 제공하는 단계는,
    상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임, 상기 이전 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임 및 상기 현재 도메인 상에서 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정하는 것을 특징으로 하는 제어 방법.
  18. 제 11 항 내지 제 17 항 중 어느 한 항에 있어서,
    각 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 상기 대화 예제 정보와 관련된 발화 음성에 대한 빈도 정도에 따른 카운팅 정보를 매칭시켜 저장하는 단계;
    를 더 포함하는 것을 특징으로 하는 제어 방법.
  19. 제 18 항에 있어서,
    상기 제공하는 단계는,
    상기 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 상기 후보 대화 프레임의 우선 순위를 결정하고, 우선 순위가 높은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공하는 것을 특징으로 하는 제어 방법.
  20. 제 18 항에 있어서,
    상기 저장하는 단계는,
    상기 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 포함된 적어도 하나의 발화 요소를 인덱싱하기 위한 인덱싱 정보를 더 저장하며,
    상기 제공하는 단계는,
    상기 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공하는 것을 특징으로 하는 제어 방법.
KR1020130151129A 2012-12-07 2013-12-06 음성 인식 장치 및 그 제어 방법 KR102211595B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/650,471 US9953645B2 (en) 2012-12-07 2013-12-09 Voice recognition device and method of controlling same
PCT/KR2013/011321 WO2014088377A1 (ko) 2012-12-07 2013-12-09 음성 인식 장치 및 그 제어 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261734644P 2012-12-07 2012-12-07
US61/734,644 2012-12-07

Publications (2)

Publication Number Publication Date
KR20140074229A true KR20140074229A (ko) 2014-06-17
KR102211595B1 KR102211595B1 (ko) 2021-02-04

Family

ID=51127483

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130151129A KR102211595B1 (ko) 2012-12-07 2013-12-06 음성 인식 장치 및 그 제어 방법

Country Status (2)

Country Link
US (1) US9953645B2 (ko)
KR (1) KR102211595B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160132748A (ko) * 2015-05-11 2016-11-21 삼성전자주식회사 전자 장치 및 그 제어 방법
WO2021060728A1 (ko) * 2019-09-26 2021-04-01 삼성전자 주식회사 사용자 발화를 처리하는 전자 장치 및 그 작동 방법
WO2023158076A1 (ko) * 2022-02-16 2023-08-24 삼성전자주식회사 전자 장치 및 전자 장치의 발화 처리 방법

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10795902B1 (en) * 2016-04-12 2020-10-06 Tableau Software, Inc. Applying natural language pragmatics in a data visualization user interface
US10515121B1 (en) * 2016-04-12 2019-12-24 Tableau Software, Inc. Systems and methods of using natural language processing for visual analysis of a data set
US10817527B1 (en) * 2016-04-12 2020-10-27 Tableau Software, Inc. Systems and methods of using natural language processing for visual analysis of a data set
US11010396B1 (en) * 2016-04-12 2021-05-18 Tableau Software, Inc. Data visualization user interface using cohesion of sequential natural language commands
US11030207B1 (en) * 2016-04-12 2021-06-08 Tableau Software, Inc. Updating displayed data visualizations according to identified conversation centers in natural language commands
US10431202B2 (en) * 2016-10-21 2019-10-01 Microsoft Technology Licensing, Llc Simultaneous dialogue state management using frame tracking
KR20180058476A (ko) * 2016-11-24 2018-06-01 삼성전자주식회사 다양한 입력 처리를 위한 방법, 이를 위한 전자 장치 및 서버
US10572220B2 (en) * 2017-04-12 2020-02-25 American Megatrends International, Llc Method for controlling controller and host computer with voice
KR20190114321A (ko) * 2018-03-29 2019-10-10 삼성전자주식회사 전자 장치 및 그 제어 방법
US11048871B2 (en) 2018-09-18 2021-06-29 Tableau Software, Inc. Analyzing natural language expressions in a data visualization user interface
US11455339B1 (en) 2019-09-06 2022-09-27 Tableau Software, LLC Incremental updates to natural language expressions in a data visualization user interface
US11698933B1 (en) 2020-09-18 2023-07-11 Tableau Software, LLC Using dynamic entity search during entry of natural language commands for visual data analysis
US11301631B1 (en) 2020-10-05 2022-04-12 Tableau Software, LLC Visually correlating individual terms in natural language input to respective structured phrases representing the natural language input

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050033582A1 (en) * 2001-02-28 2005-02-10 Michael Gadd Spoken language interface
KR20070102267A (ko) * 2006-04-14 2007-10-18 학교법인 포항공과대학교 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법
US20100204986A1 (en) * 2002-06-03 2010-08-12 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
KR20120075585A (ko) * 2010-12-16 2012-07-09 한국전자통신연구원 대화 방법 및 이를 위한 시스템

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7305624B1 (en) * 1994-07-22 2007-12-04 Siegel Steven H Method for limiting Internet access
US20050261907A1 (en) 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US6901366B1 (en) * 1999-08-26 2005-05-31 Matsushita Electric Industrial Co., Ltd. System and method for assessing TV-related information over the internet
US6757362B1 (en) * 2000-03-06 2004-06-29 Avaya Technology Corp. Personal virtual assistant
US7920682B2 (en) * 2001-08-21 2011-04-05 Byrne William J Dynamic interactive voice interface
WO2003096669A2 (en) * 2002-05-10 2003-11-20 Reisman Richard R Method and apparatus for browsing using multiple coordinated device
US7480619B1 (en) * 2003-03-04 2009-01-20 The Board Of Trustees Of The Leland Stanford Junior University Integration manager and natural interaction processor
JP3711986B2 (ja) * 2003-03-20 2005-11-02 オムロン株式会社 情報出力装置および方法、記録媒体、並びにプログラム
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP4666648B2 (ja) 2006-09-01 2011-04-06 本田技研工業株式会社 音声応答システム、音声応答プログラム
KR20100030223A (ko) 2008-09-10 2010-03-18 주식회사 씨에스메소드 음성 비화 통신 장치 및 그 제어방법
KR20120010433A (ko) * 2010-07-26 2012-02-03 엘지전자 주식회사 영상표시기기의 동작 방법
US8359020B2 (en) * 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
US9473809B2 (en) * 2011-11-29 2016-10-18 At&T Intellectual Property I, L.P. Method and apparatus for providing personalized content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050033582A1 (en) * 2001-02-28 2005-02-10 Michael Gadd Spoken language interface
US20100204986A1 (en) * 2002-06-03 2010-08-12 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
KR20070102267A (ko) * 2006-04-14 2007-10-18 학교법인 포항공과대학교 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법
KR20120075585A (ko) * 2010-12-16 2012-07-09 한국전자통신연구원 대화 방법 및 이를 위한 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160132748A (ko) * 2015-05-11 2016-11-21 삼성전자주식회사 전자 장치 및 그 제어 방법
WO2021060728A1 (ko) * 2019-09-26 2021-04-01 삼성전자 주식회사 사용자 발화를 처리하는 전자 장치 및 그 작동 방법
WO2023158076A1 (ko) * 2022-02-16 2023-08-24 삼성전자주식회사 전자 장치 및 전자 장치의 발화 처리 방법

Also Published As

Publication number Publication date
KR102211595B1 (ko) 2021-02-04
US9953645B2 (en) 2018-04-24
US20150310855A1 (en) 2015-10-29

Similar Documents

Publication Publication Date Title
KR20140074229A (ko) 음성 인식 장치 및 그 제어 방법
US11114099B2 (en) Method of providing voice command and electronic device supporting the same
JP6802305B2 (ja) 対話型サーバ、ディスプレイ装置及びその制御方法
KR102445927B1 (ko) 질의 응답을 위한 디스플레이 장치 및 방법
US11854570B2 (en) Electronic device providing response to voice input, and method and computer readable medium thereof
US9886952B2 (en) Interactive system, display apparatus, and controlling method thereof
US20140350933A1 (en) Voice recognition apparatus and control method thereof
KR20180119070A (ko) 전자기기
KR20170032096A (ko) 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체
KR102084739B1 (ko) 대화형 서버, 디스플레이 장치 및 제어 방법
KR20170093629A (ko) 음성인식 장치 및 방법, 음성인식시스템
JP2014089437A (ja) 音声認識装置及び音声認識方法
KR102072826B1 (ko) 음성 인식 장치 및 응답 정보 제공 방법
EP2991073A1 (en) Display apparatus and method for recognizing voice
US20130041666A1 (en) Voice recognition apparatus, voice recognition server, voice recognition system and voice recognition method
KR102297519B1 (ko) 서버 및 이의 가이드 문장 생성 방법
KR20140138011A (ko) 음성 인식 장치 및 그 제어 방법
KR101660269B1 (ko) 대화형 서버, 그 제어 방법 및 대화형 시스템
KR102049833B1 (ko) 대화형 서버, 디스플레이 장치 및 그 제어 방법
KR20140137263A (ko) 대화형 서버, 디스플레이 장치 및 제어 방법
KR20140115844A (ko) 대화형 서버, 디스플레이 장치 및 제어 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right