KR20160056548A

KR20160056548A - 질의 응답을 위한 디스플레이 장치 및 방법

Info

Publication number: KR20160056548A
Application number: KR1020140156901A
Authority: KR
Inventors: 박은상
Original assignee: 삼성전자주식회사
Priority date: 2014-11-12
Filing date: 2014-11-12
Publication date: 2016-05-20
Also published as: CN114596861A; EP3021321B1; US10339823B2; US20210065572A1; CN105592343A; US11817013B2; EP3021321A1; US20240038088A1; CN105592343B; US20190279523A1; KR20240040689A; KR20220130655A; KR102649208B1; KR102445927B1; US20160133146A1; US10922990B2; KR20210075040A

Abstract

질의 응답을 위한 디스플레이 장치 및 방법이 개시된다. 본 발명에 따른 디스플레이부를 포함하는 디스플레이 장치는, 사용자의 발화 음성을 입력받는 입력부, 응답 서버와 데이터 통신을 수행하는 통신부 및 발화 음성이 단어 형태의 발화이면, 발화 음성을 이용하여 적어도 하나의 질의 문장을 생성하여 디스플레이 되도록 하고, 디스플레이된 적어도 하나의 질의 문장 중 선택된 질의 문장에 대응되는 질의어를 생성하여 통신부를 통해 응답 서버로 전송 되도록 하며, 응답 서버로부터 질의어와 관련된 적어도 하나의 응답 결과가 수신되면, 수신된 응답 결과를 디스플레이 되도록 하는 프로세서를 포함한다. 이에 따라, 디스플레이 장치는 비문장 형태의 발화가 입력되어도, 사용자의 질의 의도에 적합한 응답 결과를 제공할 수 있다.

Description

질의 응답을 위한 디스플레이 장치 및 방법{Apparatus and method for qusetion-answering}

본 발명은 질의 응답을 위한 디스플레이 장치 및 방법에 관한 것으로써, 보다 상세하게는 비문장 형태의 발화에 대한 질의 응답 서비스를 제공하기 위한 디스플레이 장치 및 방법에 관한 것이다.

디스플레이 장치에서 사용자의 음성 인식이 가능해짐에 따라, 디스플레이 장치는 사용자의 발화 음성을 인식하여 사용자가 의도한 음성 인식 결과를 제공하거나 혹은 제어 명령에 대한 수행이 가능해졌다.

특히, 사용자가 의도한 음성 인식 결과를 제공하는 음성 대화 서비스와 관련하여 가장 보편적인 방식은 검색 엔진을 통해 사용자와 디스플레이 장치 간의 대화를 수행하는 키워드 인식 방식이다. 이 같은 키워드 인식 방식은 디스플레이 장치에서 핵심 키워드와 관련된 발화 음성에 기초하여 해당 핵심 키워드와 연관된 검색을 수행하고, 그 검색 결과를 제공하는 방식이다. 그러나, 이 같은 방식은 핵심 키워드에 대한 발화 음성과 관련하여 무수히 많은 검색 결과를 제공함으로써, 사용자는 많은 양의 검색 결과로부터 자신이 원하는 정보를 검색해야 하는 불편함을 감수해야 한다.

또다른 방식은 디스플레이 장치에서 사용자의 질의 문장에 대한 발화 음성을 분석하여 사용자의 발화 의도를 결정하고, 그 결정된 발화 의도에 기초하여 검색을 수행하여 그에 따른 응답 결과를 제공하는 문장 인식 방식이다.

이 같은 문장 인식 방식은 전술한 키워드 인식 방식에 비해 사용자의 발화 의도에 근접한 응답 결과를 제공하는 장점이 있다. 그러나, 이 같은 문장 인식 방식은 기설정된 패턴에 적합한 문장 발화가 입력되지 않거나 혹은 외부 환경에 의해 문장 발화에 노이즈가 섞이게 될 경우, 사용자의 문장 발화에 대해서 올바른 음성 인식을 수행하지 못하는 문제가 있다.

발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 디스플레이 장치에서 사용자의 비문장 발화 음성으로부터 사용자의 질의 의도를 명확히 판단하여 그에 따른 응답 결과를 제공하도록 함을 목적으로 한다.

이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 디스플레이부를 포함하는 디스플레이 장치는, 사용자의 발화 음성을 입력받는 입력부, 응답 서버와 데이터 통신을 수행하는 통신부 및 상기 발화 음성이 단어 형태의 발화이면, 상기 발화 음성을 이용하여 적어도 하나의 질의 문장을 생성하여 디스플레이 되도록 하고, 상기 디스플레이된 적어도 하나의 질의 문장 중 선택된 질의 문장에 대응되는 질의어를 생성하여 상기 통신부를 통해 상기 응답 서버로 전송 되도록 하며, 상기 응답 서버로부터 상기 질의어와 관련된 적어도 하나의 응답 결과가 수신되면, 상기 수신된 응답 결과를 디스플레이 되도록 하는 프로세서를 포함한다.

그리고, 복수의 문장 및 상기 복수의 문장별 특징 백터에 대응되는 키워드를 저장하는 저장부를 더 포함하며, 상기 프로세서는, 상기 저장부에 저장된 복수의 문장별 특징 백터에 대응되는 키워드의 발음열과 상기 발화된 단어에 대한 발음열의 유사도를 비교하여 상기 발화된 단어와 유사도가 높은 키워드를 포함하는 문장을 상기 발화 음성과 관련된 질의 문장으로 결정하여 디스플레이 되도록 할 수 있다. 또한, 상기 프로세서는, 상기 질의 문장으로 결정된 문장이 복수 개이면, 상기 질의 문장으로 결정된 복수의 문장별 선택 이력 정보에 기초하여 질의 문장으로 기선택된 횟수가 높은 순으로 디스플레이 되도록 할 수 있다.

또한, 상기 프로세서는, 상기 질의 문장으로 결정된 문장이 복수 개이면, 상기 질의 문장으로 결정된 복수의 문장별 선택 이력 정보에 기초하여 질의 문장으로 기선택된 횟수가 가장 높은 문장부터 기설정된 개수의 해당하는 문장을 선택하여 디스플레이 되도록 할 수 있다.

그리고, 상기 프로세서는, 상기 응답 서버로부터 상기 발화된 단어와 연관된 키워드가 수신되면, 상기 수신된 키워드를 조합하여 상기 발화 음성에 대한 질의 문장을 생성하여 디스플레이 되도록 할 수 있다.

또한, 상기 응답 서버는, 트리플(Triple) 구조의 지식베이스 서버이며, 상기 발화된 단어와 관련된 속성 정보를 이용하여 상기 발화된 단어와 연관된 키워드를 추출할 수 있다.

그리고, 상기 프로세서는, 상기 발화된 단어와 유사도가 높은 키워드를 포함하는 문장이 없으면, 상기 응답 서버로부터 상기 발화된 단어와 키워드를 수신하고, 상기 수신된 키워드를 조합하여 상기 발화 음성와 관련된 질의 문장을 생성할 수 있다.

또한, 상기 프로세서는, 상기 질의어와 관련된 응답 결과가 복수 개이면, 복수의 응답 결과에 대한 리스트를 디스플레이 되도록 할 수 있다.

그리고, 상기 프로세서는, 상기 디스플레이된 리스트로부터 선택된 적어도 하나의 응답 결과를 디스플레이 되도록 할 수 있다.

또한, 상기 프로세서는, 상기 사용자의 발화 음성이 문장 형태의 발화이면, 자연어 처리 기반 알고리즘을 이용하여 상기 사용자의 발화 음성으로부터 개체명을 추출하고, 상기 추출된 개체명에 기초하여 질의어를 생성할 수 있다.

한편, 본 발명의 또다른 실시 예에 따르면, 디스플레이 장치에서 질의 응답을 제공하는 방법은 사용자의 발화 음성을 입력받는 단계, 상기 사용자의 발화 음성이 단어 형태의 발화이면, 상기 사용자의 발화 음성을 이용하여 적어도 하나의 질의 문장을 생성하여 디스플레이하는 단계, 상기 디스플레이된 적어도 하나의 질의 문장 중 선택된 질의 문장에 대응되는 질의어를 생성하여 응답 서버로 전송하는 단계 및 상기 응답 서버로부터 상기 질의어와 관련된 적어도 하나의 응답 결과를 수신하여 디스플레이하는 단계를 포함한다.

그리고, 상기 적어도 하나의 질의 문장을 생성하여 디스플레이하는 단계는, 상기 기저장된 복수의 문장별 특징 백터에 대응되는 키워드의 발음열과 상기 발화된 단어에 대한 발음열의 유사도를 비교하여 상기 발화된 단어와 유사도가 높은 키워드를 포함하는 문장을 질의 문장으로 결정하여 디스플레이 할 수 있다.

또한, 상기 적어도 하나의 질의 문장을 생성하여 디스플레이하는 단계는, 상기 질의 문장으로 결정된 문장이 복수 개이면, 상기 질의 문장으로 결정된 복수의 문장별 선택 이력 정보에 기초하여 질의 문장으로 기선택된 횟수가 높은 순으로 디스플레이 할 수 있다.

그리고, 상기 적어도 하나의 질의 문장을 생성하여 디스플레이하는 단계는, 상기 질의 문장으로 결정된 문장이 복수 개이면, 상기 질의 문장으로 결정된 복수의 문장별 선택 이력 정보에 기초하여 질의 문장으로 기선택된 횟수가 가장 높은 문장부터 기설정된 개수의 해당하는 문장을 선택하여 제공할 수 있다.

또한, 상기 적어도 하나의 질의 문장을 생성하여 디스플레이하는 단계는, 상기 응답 서버로부터 상기 발화된 단어와 연관된 키워드가 수신되면, 상기 수신된 키워드를 조합하여 상기 발화 음성과 관련된 질의 문장을 생성하고, 상기 생성된 질의 문장을 디스플레이 할 수 있다.

그리고, 상기 응답 서버는, 트리플(Triple) 구조의 지식베이스 서버이며, 상기 핵심 어휘와 관련된 속성 정보를 이용하여 상기 핵심 어휘와 연관된 키워드를 추출할 수 있다.

또한, 상기 적어도 하나의 질의 문장을 생성하여 디스플레이하는 단계는, 상기 발화된 단어와 유사도가 높은 키워드를 포함하는 문장이 없으면, 상기 응답 서버로부터 상기 발화된 단어와 연관된 키워드를 수신하고, 상기 수신된 키워드를 조합하여 상기 발화 음성와 관련된 질의 문장을 생성 및 디스플레이 할 수 있다.

그리고, 상기 디스플레이하는 단계는, 상기 질의어와 관련된 응답 결과가 복수 개이면, 복수의 응답 결과에 대한 리스트를 디스플레이 할 수 있다.

또한, 상기 디스플레이하는 단계는, 상기 디스플레이된 리스트로부터 선택된 적어도 하나의 응답 결과를 디스플레이 할 수 있다.

그리고, 상기 사용자의 발화 음성이 단어 형태의 발화인지 혹은 문장 형태의 발화인지 여부를 판단하는 단계를 더 포함하며, 상기 전송하는 단계는, 상기 사용자의 발화 음성이 문장 형태의 발화이면, 자연어 처리 기반 알고리즘을 이용하여 상기 사용자의 발화 음성으로부터 개체명을 추출하고, 상기 추출된 개체명에 기초하여 질의어를 생성하여 상기 응답 서버로 전송할 수 있다.

한편, 본 발명의 또다른 실시 예에 따르면, 디스플레이 장치와 결합되어 하기의 단계를 실행시키기 위하여 기록 매체에 저장된 컴퓨터 프로그램은, 사용자의 발화 음성을 입력받는 단계, 상기 사용자의 발화 음성이 단어 형태의 발화이면, 상기 사용자의 발화 음성을 이용하여 적어도 하나의 질의 문장을 생성하여 디스플레이하는 단계, 상기 디스플레이된 적어도 하나의 질의 문장 중 선택된 질의 문장에 대응되는 질의어를 생성하여 응답 서버로 전송하는 단계 및 상기 응답 서버로부터 상기 질의어와 관련된 적어도 하나의 응답 결과를 수신하여 디스플레이하는 단계를 포함한다.

이상과 같이 본 발명의 다양한 실시 예에 따르면, 디스플레이 장치는 비문장 형태의 발화가 입력되어도, 사용자의 질의 의도에 적합한 응답 결과를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 대화형 시스템의 블록도,
도 2는 본 발명의 일 실시예에 따른 디스플레이 장치의 개략적인 블록도,
도 3은 본 발명의 일 실시예에 따른 디스플레이 장치의 세부 블록도,
도 4는 본 발명의 일 실시예에 따른 디스플레이 장치에서 질의 문장을 생성하는 예시도,
도 5는 본 발명의 일 실시예에 따른 디스플레이 장치에서 질의 문장을 디스플레이하는 예시도,
도 6은 본 발명의 일 실시예에 따른 디스플레이 장치에서 응답 서버를 통해 질의 문장 관련 키워드를 제공받는 예시도,
도 7은 본 발명의 일 실시예에 따른 디스플레이 장치에서 응답 서버에서 제공된 키워드에 기초하여 생성된 질의 문장을 디스플레이하는 예시도,
도 8은 본 발명의 일 실시예에 따른 디스플레이 장치에서 질의 응답 서비스를 제공하는 방법의 흐름도이다.

이하 첨부된 도면들을 참조하여 본 발명의 일 실시예를 보다 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 대화형 시스템의 블록도이다.

도 1에 도시된 바와 같이, 대화형 시스템은 디스플레이 장치(100), 음성 인식 장치(200) 및 응답 서버(300)를 포함한다.

디스플레이 장치(100)는 사용자의 발화 음성을 인식하여 사용자가 의도한 동작을 수행하는 장치로써, 스마트 TV, 스마트 폰, 테블릿 PC 등과 같은 다양한 전자 장치로 구현될 수 있다.

음성 인식 장치(200)는 디스플레이 장치(100)로부터 수신된 사용자의 발화 음성에 대한 음성 신호를 텍스트 형태로 변환하고, 텍스트 형태로 변환된 음성 인식 결과를 디스플레이 장치(100)로 전송한다. 그러나, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)와 음성 인식 장치(200) 간의 데이터 통신이 이루어지지 않거나 혹은 마이크(미도시)를 통해 발화 음성이 입력된 경우, 디스플레이 장치(100)는 입력된 사용자의 발화 음성에 대한 음성 신호를 텍스트 형태로 변환할 수 있다.

응답 서버(300)는 트리플(Triple) 구조의 지식베이스 서버로써, 사용자의 발화 음성으로부터 변화된 텍스트가 단어 형태로 이루어진 경우, 사용자로부터 발화된 단어와 연관된 키워드를 제공한다. 또한, 응답 서버(300)는 디스플레이 장치(100)로부터 수신된 질의어와 관련된 응답 정보를 제공한다.

구체적으로, 디스플레이 장치(100)가 음성 인식 모드로 동작하고 있는 상태에서, 사용자는 디스플레이 장치(100)를 통해 자신이 원하는 정보를 제공받기 위하여 해당 정보에 대한 질의 관련 발화를 수행할 수 있다. 실시예에 따라, 사용자의 발화 음성이 마이크(미도시)를 통해 입력되면, 디스플레이 장치(100)는 내부적으로 사용자의 발화 음성에 대한 음성 인식을 수행하여 텍스트로 변환할 수 있다. 한편, 사용자의 발화 음성이 리모컨과 같은 원격 제어 장치(미도시)를 통해 입력되면, 디스플레이 장치(100)는 사용자의 발화 음성에 대한 음성 신호를 음성 인식 장치(200)로 전송한다. 이에 따라, 음성 인식 장치(200)는 디스플레이 장치(100)로부터 수신된 발화 음성에 대한 음성 신호를 텍스트 형태로 변환하고, 그에 따른 음성 인식 결과를 전송한다.

이 같은 과정을 통해 사용자의 발화 음성이 텍스트 형태로 변환되면, 디스플레이 장치(100)는 사용자의 발화 음성에 대한 텍스트를 분석하여 해당 발화 음성이 문장 형태의 발화인지 아니면 적어도 하나의 단어 형태인지 여부를 판단한다.

판단 결과, 사용자의 발화 음성이 적어도 하나의 단어 형태의 발화이면, 디스플레이 장치(100)는 적어도 하나의 단어와 관련된 적어도 하나의 질의 문장을 디스플레이한다. 여기서, 적어도 하나의 질의 문장은 사용자의 질의 의도로 예측되는 문장으로써, 이 같은 질의 문장은 다음과 같은 실시예를 통해 획득하거나 생성할 수 있다.

일 실시예에 따라, 디스플레이 장치(100)는 기저장된 복수의 문장 중 사용자에 의해 발화된 적어도 하나의 단어와 관련된 키워드를 포함하는 문장을 질의 문장으로 결정할 수 있다. 또다른 실시예에 따라, 디스플레이 장치(100)는 응답 서버(300)로부터 사용자에 의해 발화된 단어와 연관된 키워드를 수신하고, 수신된 키워드를 조합하여 발화 음성과 관련된 질의 문장을 생성할 수 있다. 이 같은 실시예를 통해 질의 문장을 결정하거나 생성하는 동작은 하기에서 상세히 설명하도록 한다.

이후, 디스플레이 장치(100)는 사용자의 발화 음성으로부터 사용자의 질의 의도로 예측되는 적어도 하나의 질의 문장을 디스플레이한다. 이에 따라, 사용자는 디스플레이 장치(100)를 통해 디스플레이된 적어도 하나의 질의 문장 중 자신이 생각한 질의 의도와 부합되는 질의 문장을 선택할 수 있다.

한편, 디스플레이 장치(100)는 사용자로부터 질의 문장이 선택되거나, 혹은 사용자의 발화 음성이 문장 형태의 발화이면, 자연어 처리 기반 알고리즘을 이용하여 문형 구조를 파악하고, 문장 내에 존재하는 개체명을 추출한다. 이후, 디스플레이 장치(100)는 추출된 개체명에 기초하여 질의어를 생성한다. 여기서, 질의어는 응답 서버(300)에서 인식 가능한 언어로써, 실시예에 따라, 질의어는 스파클(SPARQL Protocol And RDF Query Language : SPARQL) 기반의 언어가 될 수 있다. 스파클 기반의 언어는 W3C(World Wide Web Consortium) 표준으로 규정된 시멘틱 웹 온톨로지 언어(RDF(Resource Description Framework), RDFs(Resource Description Framework Schema), OWL(ONTOLOO Web Language))의 문서를 질의하기 위한 언어가 될 수 있다.

이 같은 스파클 기반의 질의어가 생성되면, 디스플레이 장치(100)는 생성된 질의어를 응답 서버(300)로 전송한다. 디스플레이 장치(100)로부터 질의어를 수신한 응답 서버(300)는 수신된 질의어에 기초하여 적어도 하나의 응답 결과를 획득하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 응답 서버(300)로부터 전송된 적어도 하나의 응답 결과를 수신하여 화면상에 디스플레이함으로써, 사용자는 디스플레이 장치(100)의 화면상에 디스플레이된 적어도 하나의 응답 결과를 통해 자신의 질의 의도에 가장 적합한 응답 결과를 제공받을 수 있다.

지금까지, 본 발명에 따른 대화형 시스템에서 사용자의 질의 의도에 적합한 질의 응답 서비스를 제공하는 동작에 대해서 상세히 설명하였다. 이하에서는, 본 발명에 따른 디스플레이 장치(100)에서 사용자의 질의 의도에 적합한 질의 응답 서비스를 제공하는 동작에 대해서 상세히 설명하도록 한다.

도 2는 본 발명의 일 실시예에 따른 디스플레이 장치의 개략적인 블록도이며, 도 3은 본 발명의 일 실시예에 따른 디스플레이 장치의 세부 블록도이다.

도 2에 도시된 바와 같이, 디스플레이 장치(100)는 입력부(110), 디스플레이부(120), 통신부(130) 및 프로세서(140)를 포함한다. 뿐만 아니라, 디스플레이 장치(100)는 도 3에 도시된 바와 같이, 음성 처리부(150) 및 저장부(160)를 더 포함할 수 있다.

입력부(110)는 다양한 사용자 조작을 입력받아 프로세서(140)로 전달하기 위한 입력 수단으로써, 입력 패널로 구현될 수 있다. 여기서, 입력 패널은 터치패드(Touch Pad) 혹은 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad) 또는 터치 스크린(Touch Screen) 방식으로 이루어질 수 있다. 특히, 입력부(110)는 마이크(미도시)를 통해 사용자의 발화 음성을 입력받는다.

디스플레이부(120)는 사용자의 발화 음성과 관련된 질의 문장 및 사용자의 발화 음성에 대한 응답 결과를 디스플레이한다. 이 같은 디스플레이부(120)는 액정 표시 장치(Liquid Crystal Display,LCD), 유기 전기 발광 다이오드(Organic Light Emiiting Display, OLED) 또는 플라즈마 표시 패널(Plasma Display Panel,PDP) 등으로 구현될 수 있다. 뿐만 아니라, 디스플레이부(120)는 터치 패널로 구현되어 사용자의 터치 명령을 입력받을 수 있다.

통신부(130)는 응답 서버(300)와 데이터 통신을 수행하여 사용자의 발화 음성과 관련된 응답 결과를 수신할 수 있다. 또한, 통신부(130)는 리모컨과 같은 원격 제어 장치(미도시)와 데이터 통신을 수행하여 사용자의 발화 음성에 대한 음성 신호를 수신할 수 있다. 이 같은 통신부(130)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다.

여기서, 근거리 무선 통신 모듈(미도시)은 근거리에 위치한 대화형 서버(200) 및 컨텐츠를 제공하는 외부 서버(미도시)와 무선 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스, 지그비 등이 될 수 있다. 무선 통신 모듈(미도시)은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.

프로세서(130)는 일반적으로 장치의 제어를 담당하는 구성으로, 중앙처리장치, 마이크로 프로세서, 제어부 등과 혼용될 수 있으며, 장치의 전반적인 동작을 제어할 수 있도록 하는 것으로 음성처리부(150), 통신부(130) 등 다른 기능부분과 결합되어 단일칩 시스템 (System-on-a-chip 또는 System on chip, SOC, SoC)으로 구현될 수 있다.

프로세서(140)는 발화 음성의 텍스트가 단어 형태이면, 적어도 하나의 단어와 관련된 적어도 하나의 질의 문장을 디스플레이하도록 디스플레이부(120)를 제어한다. 이후, 프로세서(140)는 디스플레이된 적어도 하나의 질의 문장 중 사용자에 의해 선택된 질의 문장을 분석하여 해당 질의 문장에 대응되는 질의어를 생성하고, 생성된 질의어를 응답 서버(300)로 전송하도록 통신부(130)를 제어한다. 이후, 응답 서버(300)로부터 질의어와 관련된 적어도 하나의 응답 결과가 수신되면, 디스플레이부(120)는 프로세서(140)의 제어 명령에 따라, 응답 서버(300)로부터 수신된 적어도 하나의 응답 결과를 디스플레이한다.

구체적으로, 프로세서(140)는 다음과 같은 실시예에 기초하여 사용자의 발화 음성에 대한 텍스트를 획득할 수 있다.

일 실시예에 따라, 프로세서(140)는 사용자의 발화 음성과 관련된 발화 음성이 마이크(미도시)를 통해 입력부(110)에 입력되는지 아니면, 원격 제어 장치(미도시)를 통해 발화 음성이 입력되는지에 따라 사용자의 발화 음성에 대한 음성 인식을 수행할 주체를 결정할 수 있다.

사용자의 발화 음성이 입력부(110)를 통해 입력되면, 프로세서(140)는 음성 처리부(150)를 통해 사용자의 발화 음성에 대한 음성 인식을 수행하도록 제어한다. 이 같은 제어 명령에 따라, 음성 처리부(150)는 STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트로 변환할 수 있다.

한편, 사용자의 발화 음성에 대한 음성 신호가 통신부(130)를 통해 수신되면, 프로세서(140)는 사용자의 발화 음성에 대한 음성 신호를 음성 인식 장치(200)로 전송한다. 이에 따라, 음성 인식 장치(200)는 수신된 발화 음성에 대한 음성 신호의 음성 인식을 수행하여 텍스트로 변환한 후, 그에 따른 음성 인식 결과를 디스플레이 장치(100)로 전송한다.

또다른 실시예에 따라, 프로세서(140)는 통신부(130)를 통해 음성 인식 장치(200)와 데이터 통신이 가능한지 여부에 따라, 사용자의 발화 음성에 대한 음성 인식을 수행할 주체를 결정할 수 있다. 즉, 프로세서(140)는 음성 인식 장치(200)와 통신이 가능하면, 음성 인식 장치(200)로부터 사용자의 발화 음성에 대한 음성 인식 결과를 수신하고, 음성 인식 장치(200)와 통신이 불가능하면, 음성 처리부(150)를 통해 사용자의 발화 음성에 대한 음성 인식을 수행할 수 있다.

이 같은 실시예를 통해 사용자의 발화 음성에 대한 텍스트가 생성되면, 프로세서(140)는 사용자의 발화 음성으로부터 생성된 텍스트를 분석하여 사용자의 발화가 문장 형태의 발화인지 아니면 단어 형태의 발화인지 여부를 판단할 수 있다. 실시예에 따라, 프로세서(140)는 자연어 처리 기술인 형태소 분석 및 구문 분석(Syntax Analysis)을 통해 발화 음성에 대한 텍스트의 문형 구조를 분석하여 사용자의 발화가 문장 형태의 발화인지 아니면 단어 형태의 발화인지 여부를 판단할 수 있다. 이 같은 자연어 처리(Natural Language Processing) 기술은 공지된 기술이기에 본 발명에서는 상세한 설명을 생략하도록 한다.

이 같은 발화 음성에 대한 텍스트 분석을 통해 사용자의 발화가 적어도 하나의 단어 형태로 이루어진 발화이면, 프로세서(140)는 다음과 같은 실시예를 통해 사용자의 의도로 예측되는 질의 문장을 결정하고, 결정된 질의 문장을 디스플레이부(120)를 통해 디스플레이한다.

일 실시예에 따라, 프로세서(140)는 기저장된 복수의 문장 중 사용자에 의해 발화된 적어도 하나의 단어와 관련된 키워드를 포함하는 적어도 하나의 문장을 사용자의 발화 음성과 관련된 질의 문장으로 결정할 수 있다. 구체적으로, 저장부(160)는 복수의 문장 및 복수의 문장별 특징 벡터에 대응되는 키워드를 저장할 수 있다. 따라서, 프로세서(140)는 저장부(160)에 기저장된 복수의 문장별 특징 벡터에 대응되는 키워드의 발음열과 적어도 하나의 단어에 대한 발음열의 유사도를 비교한다. 이후, 프로세서(140)는 사용자에 의해 발화된 적어도 하나의 단어와 유사도가 높은 키워드를 포함하는 문장을 발화 음성과 관련된 질의 문장으로 결정할 수 있다.

또다른 실시예에 따라, 프로세서(160)는 사용자에 의해 발화된 적어도 하나의 단어를 응답 서버(300)로 전송하고, 응답 서버(300)로부터 적어도 하나의 단어와 연관된 키워드가 수신되면, 수신된 키워드를 조합하여 사용자의 발화 음성에 대한 질의 문장을 생성할 수 있다. 여기서, 응답 서버(300)는 트리플 구조의 지식베이스 서버로써, 사용자에 의해 발화된 단어와 관련된 속성 정보를 이용하여 해당 단어와 연관된 키워드를 추출하고, 추출된 키워드를 디스플레이 장치(100)로 전송하는 동작을 수행한다.

또다른 실시예에 따라, 프로세서(140)는 기저장된 복수의 문장 중 사용자에 의해 발화된 적어도 하나의 단어와 관련된 키워드를 포함하는 문장이 없는 경우, 해당 단어를 응답 서버(300)로 전송할 수 있다. 따라서, 응답 서버(300)는 디스플레이 장치(100)로부터 수신한 적어도 하나의 단어와 관련된 속정 정보를 이용하여 해당 단어와 연관된 키워드를 추출하여 디스플레이 장치(100)로 전송하는 동작을 수행할 수 있다.

이 같이, 디스플레이 장치(100)로부터 수신된 적어도 하나의 단어와 관련된 키워드를 제공하는 응답 서버(300)는 질의 문장과 관련된 질의어가 수신되면, 수신된 질의어에 기초하여 질의 문장에 대한 응답 결과를 디스플레이 장치(100)로 전송하는 동작을 수행한다. 여기서, 질의어는 응답 서버(300)에서 인식 가능한 스파클(SPARQL Protocol And RDF Query Language :SPARQL) 기반의 언어가 될 수 있다. 이 같이, 질의 문장을 생성을 위한 키워드 제공 및 스파클 형태의 언어로 이루어진 질의어에 기초하여 질의 문장에 대한 응답 결과를 제공하는 응답 서버(300)에 대한 상세한 설명은 하기에서 상세히 설명하도록 한다.도 4는 본 발명의 일 실시예에 따른 디스플레이 장치에서 질의 문장을 생성하는 예시도이다.

도 4에 도시된 바와 같이, 저장부(160)는 복수의 문장 및 복수의 문장별 특징 벡터에 대응되는 키워드를 서로 매칭시켜 저장할 수 있다. 한편, 사용자의 발화 음성으로부터 추출된 단어는 "AAA", "영화" 및 "출연"이 될 수 있다. 이 같은 단어가 추출되면, 프로세서(140)는 저장부(160)에 기저장된 복수의 문장별 특징 백터에 대응되는 키워드와 사용자의 발화 음성으로부터 추출된 단어의 유사도를 측정한다.

구체적으로, 프로세서(140)는 사용자의 발화 음성으로부터 추출된 단어인 "AAA", "영화" 및 "출연" 각각에 대한 발음 기호를 생성한다. 이후, 프로세서(140)는 Confusion Matrix와 같은 유사도 알고리즘을 이용하여 저장부(160)에 기저장된 복수의 문장별 특징 백터에 대응되는 키워드별 발음 기호와 "AAA", "영화" 및 "출연" 각각에 대한 발음 기호에 대한 유사도를 측정한다. 이후, 프로세서(140)는 기저장된 복수의 문장 중 측정된 유사도 결과에 기초하여 "AAA", "영화" 및 "출연"와 관련하여 기설정된 임계값 이상의 유사도 결과가 측정된 키워드를 포함하는 문장을 추출한다.

도시된 바와 같이, 저장부(160)는 "AAA", "영화" 및 "출연" 중 적어도 하나와 관련하여 유사도가 높은 제1 내지 제6 문장(410~460)을 저장할 수 있다. 이 같이, "AAA", "영화" 및 "출연" 중 적어도 하나와 관련하여 제1 내지 제6 문장(410~460)이 저장되어 있으면, 프로세서(140)는 제1 내지 제6 문장(410~460) 중 "AAA", "영화" 및 "출연" 각각에 대해서 유사도가 높은 문장을 추출할 수 있다. 도시된 바와 같이, 제6 문장(460)에 매칭된 키워드 중 "AAB"에 대한 제1 키워드는 "AAA"와 유사도가 낮을 수 있다. 이 경우, 프로세서(140)는 제1 내지 제6 문장(410~460) 중 제6 문장(460)을 제외한 나머지 제1 내지 제5 문장(410~450)을 "AAA", "영화" 및 "출연"와 유사도가 높은 문장을 결정하고, 제1 내지 제5 문장(410~450)을 사용자의 발화 의도로 예측 가능한 질의 문장을 결정할 수 있다.

도 5는 본 발명의 일 실시예에 따른 디스플레이 장치에서 질의 문장을 디스플레이하는 예시도이다.

도 4에서 설명한 바와 같이, "AAA", "영화" 및 "출연" 각각에 대한 단어 (510)와 관련하여 제1 내지 제5 문장(410~450)이 사용자의 발화 의도로 예측 가능한 질의 문장으로 결정될 수 있다. 이 같이 "AAA", "영화" 및 "출연" 각각에 대한 단어 (510)와 관련하여 복수의 질의 문장이 결정되면, 프로세서(140)는 질의 문장으로 결정된 제1 내지 제5 문장(410~450)별 선택 이력 정보에 기초하여 질의 문장으로 선택된 횟수가 가장 높은 순으로 디스플레이하도록 디스플레이부(120)를 제어할 수 있다. 예를 들어, 질의 문장으로 결정된 제1 내지 제5 문장(410~450)과 관련하여 제4 문장(440), 제1 문장(410), 제3 문장(430), 제2 문장(420) 및 제5 문장(450) 순으로 사용자에 의해 질의 문장으로 가장 많이 선택될 수 있다.

이 경우, 디스플레이부(120)는 제4 문장(440), 제1 문장(410), 제3 문장(430), 제2 문장(420) 및 제5 문장(450) 순으로 나열된 질의 문장 리스트(520)를 화면상에 디스플레이할 수 있다.

한편, 프로세서(140)는 질의 문장으로 선택된 제1 내지 제5 문장(410~450) 중 기설정된 개수만을 디스플레이하도록 제어할 수 있다. 예를 들어, 질의 문장 리스트(520)에 포함될 질의 문장 개수가 3개로 설정되어 있으면, 프로세서(140)는 제1 내지 제5 문장(410~450) 중 질의 문장으로 기선택된 횟수가 많은 순으로 상위 3 개에 속하는 문장을 질의 문장으로 결정할 수 있다. 따라서, 디스플레이부(120)는 제1 내지 제5 문장(410~450) 중 질의 문장으로 기선택된 횟수가 많은 제4 문장(440), 제1 문장(410) 및 제3 문장(430)을 포함하는 질의 문장 리스트(520)를 화면상에 디스플레이할 수 있다.

따라서, 사용자는 화면상에 디스플레이된 질의 문장 리스트(520) 상에 나열된 질의 문장 중 자신이 의도한 질의 문장을 선택할 수 있다.

도 6은 본 발명의 일 실시예에 따른 디스플레이 장치에서 응답 서버를 통해 질의 문장 관련 키워드를 제공받는 예시도이며, 도 7은 본 발명의 일 실시예에 따른 디스플레이 장치에서 응답 서버에서 제공된 키워드에 기초하여 생성된 질의 문장을 디스플레이하는 예시도이다.

도 6에 도시된 바와 같이, 사용자의 발화 음성은 "AAA"라는 제1 단어 (610) 및 "영화"라는 제2 단어(620)를 포함하는 어휘 열로 이루어질 수 있다. 이 경우, 프로세서(140)는 통신부(130)를 통해 트리플 구조의 지식베이스 서버인 응답 서버(300)로 제1 및 제2 단어 (610,620)에 대한 텍스트를 전송할 수 있다. 이 같은 제1 및 제2 단어 (610,620)에 대한 텍스트가 수신되면, 응답 서버(300)는 제1 및 제2 단어(610,620) 각각에 대한 속성 정보를 이용하여 제1 및 제2 단어(610,620) 각각과 연관된 키워드를 추출할 수 있다.

여기서, 응답 서버(300)는 트리플 기반의 지식베이스 서버로써, 각각의 단어와 관련된 속성 정보를 이용하여 각각의 단어와 연관된 키워드를 추출할 수 있다. 구체적으로, 응답 서버(300)는 제1 및 제2 단어 (610,620)로부터 "영화"라는 상위 속성 정보(a)를 획득할 수 있다. 이 같은 제1 및 제2 단어 (610,620)로부터 "영화"라는 상위 속성 정보(a)가 획득되면, 응답 서버(300)는 상위 속성 정보(a)와 연관된 "배우", "감독" 및 "OST" 각각에 대한 하위 속성 정보(b)를 획득할 수 있다. 따라서, 응답 서버(300)는 제1 및 제2 단어(610,620)와 연관된 "영화"라는 상위 속성 정보(a)와 "배우", "제목", "감독" 및 "OST" 각각에 대한 하위 속성 정보(b)를 제1 및 제2 단어610,620)와 연관된 키워드로 결정하고, 이에 대한 검색 결과를 디스플레이 장치(100)로 전송할 수 있다.

이 같은 검색 결과가 수신되면, 프로세서(140)는 기정의된 표준 문장 테이블에 기초하여 제1 및 제2 단어 (610,620)를 포함하는 어휘 열(710)과 응답 서버(300)로부터 수신된 검색 결과에 포함된 키워드(배우, 제목, 감독, OST)(720)를 조합하여 질의 문장을 생성한다.

도 7에 도시된 바와 같이, 디스플레이부(120)는 제1 및 제2 단어 (610,620)를 포함하는 어휘 열(710)과 응답 서버(300)로부터 수신된 검색 결과에 포함된 키워드(배우, 제목, 감독, OST)(720)에 기초하여 생성된 복수의 질의 문장을 포함하는 질의 문장 리스트(730)를 화면상에 디스플레이할 수 있다. 즉, 디스플레이부(120)는 "AAA가 출연한 영화 제목은?"이라는 제1 질의 문장, "AAA와 영화에 함께 출연한 배우는"?"이라는 제2 질의 문장, "AAA가 출연한 영화 OST는?"이라는 제3 질의 문장 및 "AAA가 출연한 영화의 감독은?"이라는 제4 질의 문장을 포함하는 질의 문장 리스트(730)를 화면상에 디스플레이할 수 있다. 따라서, 사용자는 화면상에 디스플레이된 질의 문장 리스트(730) 상에 나열된 질의 문장 중 자신이 의도한 질의 문장을 선택할 수 있다.

이 같은 다양한 실시예를 통해 하나의 질의 문장이 선택되거나, 전술한 바와 같이, 사용자의 발화가 문장 형태의 발화이면, 프로세서(140)는 선택된 질의 문장 혹은 텍스트 형태로 변환된 사용자의 발화 문장(이하 질의 문장이라 함)을 분석하여 질의어를 생성한다. 구체적으로, 프로세서(140)는 사용자에 의해 선택되거나 발화된 질의 문장을 자연어 처리 기반 알고리즘을 이용하여 문형 구조를 파악하고, 문장 내에 존재하는 개체명을 추출한다. 이후, 프로세서(140)는 추출된 개체명에 기초하여 사용자가 알고자 하는 지식과의 관계를 파악한다.

실시예에 따라, 프로세서(140)는 LAT(Lexical Answer Type) 혹은 포커스(Focus) 방식을 통해 사용자가 알고자 하는 지식과의 관계를 파악할 수 있다. 여기서, LAT 방식은 질의 문장을 그 형태에 구분하여 질의 의도 분석을 수행하는 방식이며, 포커스 방식은 질의 문장 내에 존재하는 응답의 속성을 찾는 방식이다. 이 같은 LAT 방식 및 포커스 방식은 공지된 기술이기에 본 발명에서는 상세한 설명을 생략하도록 한다.

이 같은 다양한 방식을 통해 사용자에 의해 선택되거나 혹은 발화된 질의 문장 내에서 특징 백터에 해당하는 키워드가 추출되면, 프로세서(140)는 질의 문장으로부터 추출된 키워드를 응답 서버(300)에서 인식 가능한 스파클 언어로 변화하고, 스파클 언어로 변환된 질의어를 응답 서버(300)로 전송한다. 이에 따라, 응답 서버(300)는 디스플레이 장치(100)로부터 수신된 질의어에 기초하여 사용자의 질의 문장에 대한 응답 결과를 생성하거나 추출하여 디스플레이 장치(100)로 전송한다.

예를 들어, 사용자에 의해 선택되거나 혹은 발화된 질의 문장이 "AAA가 출연한 영화 제목은?"이고, 이 같은 질의 문장 내에서 추출된 특징 백터에 해당하는 키워드는 "AAA", "영화", "제목"이 될 수 있다. 이 경우, 응답 서버(300)는 도 7에 도시된 바와 같이, "AAA", "영화", "제목"에 기초하여 "영화_01"이라는 제1 객체(c)와 "영화_02"라는 제2 객체(c)를 추출하고, 그에 따른 응답 결과를 디스플레이 장치(100)로 전송한다. 따라서, 디스플레이부(120)는 응답 서버(300)로부터 수신된 응답 결과에 기초하여 "AAA가 출연한 영화 제목은?"이라는 질의 문장과 관련된 "영화_01"이라는 제1 객체(c) 및 "영화_02"라는 제2 객체(c)에 대한 응답 결과를 화면상에 디스플레이할 수 있다.

이하에서는, 디스플레이 장치(100)에서 사용자의 발화 음성에 기초하여 질의 응답 서비스를 제공하는 방법에 대해서 상세히 설명하도록 한다.

도 8은 본 발명의 일 실시예에 따른 디스플레이 장치에서 질의 응답 서비스를 제공하는 방법의 흐름도이다.

도 8에 도시된 바와 같이, 디스플레이 장치(100)는 음성 인식 모드로 진입한 상태에서 사용자의 발화 음성이 입력되면, 입력된 발화 음성의 텍스트가 적어도 하나의 단어 형태인지 여부를 판단한다(S810,S820). 실시예에 따라, 디스플레이 장치(100)는 사용자의 발화 음성이 마이크(미도시)를 통해 입력되면, STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트로 변환할 수 있다. 한편, 원격 제어 장치(미도시)를 통해 사용자의 발화 음성에 대한 음성 신호가 입력되면, 디스플레이 장치(100)는 사용자의 발화 음성에 대한 음성 신호를 음성 인식 장치(200)로 전송한다. 이에 따라, 음성 인식 장치(200)는 발화 음성에 대한 음성 신호의 음성 인식을 수행하여 텍스트로 변환한 후, 그에 따른 음성 인식 결과를 디스플레이 장치(100)로 전송한다.

이 같은 실시예를 통해 사용자의 발화 음성에 대한 텍스트가 생성되면, 디스플레이 장치(100)는 사용자의 발화 음성으로부터 생성된 텍스트를 분석하여 사용자의 발화가 문장 형태의 발화인지 아니면 단어 형태의 발화인지 여부를 판단할 수 있다. 실시예에 따라, 디스플레이 장치(100)는 자연어 처리 기술인 형태소 분석 및 구문 분석을 통해 발화 음성에 대한 텍스트의 문형 구조를 분석하여 사용자의 발화가 문장 형태의 발화인지 아니면 단어 형태의 발화인지 여부를 판단할 수 있다.

이 같은 발화 음성에 대한 텍스트 분석을 통해 사용자의 발화가 적어도 하나의 단어로 이루어진 발화이면, 디스플레이 장치(100)는 적어도 하나의 단어와 관련된 적어도 하나의 질의 문장을 디스플레이한다(S830).

일 실시예에 따라, 디스플레이 장치(100)는 기저장된 복수의 문장 중 적어도 하나의 단어와 관련된 키워드를 포함하는 적어도 하나의 문장을 사용자의 발화 음성과 관련된 질의 문장으로 결정할 수 있다. 구체적으로, 디스플레이 장치(100)는 기저장된 복수의 문장별 특징 벡터에 대응되는 키워드의 발음열과 적어도 하나의 단어에 대한 발음열의 유사도를 비교한다. 이후, 디스플레이 장치(100)는 적어도 하나의 단어와 유사도가 높은 키워드를 포함하는 문장을 발화 음성과 관련된 질의 문장으로 결정하여 디스플레이할 수 있다.

한편, 질의 문장으로 결정된 문장이 복수 개이면, 디스플레이 장치(100)는 질의 문장으로 결정된 복수의 문장별 선택 이력 정보에 기초하여 질의 문장으로 기선택된 횟수가 높은 순으로 디스플레이할 수 있다.

한편, 질의 문장으로 결정된 복수의 문장이 기설정된 개수 이상 초과하면, 디스플레이 장치(100)는 질의 문장으로 결정된 복수의 문장 중 기선택된 횟수가 높은 문장부터 기설정된 개수에 해당하는 문장을 질의 문장으로 선택하여 디스플레이할 수 있다.

또다른 실시예에 따라, 디스플레이 장치(100)는 적어도 하나의 단어를 응답 서버(300)로 전송하고, 응답 서버(300)로부터 적어도 하나의 단어와 연관된 키워드가 수신되면, 수신된 키워드를 조합하여 사용자의 발화 음성에 대한 질의 문장을 생성할 수 있다. 여기서, 응답 서버(300)는 트리플 구조의 지식베이스 서버로써, 사용자에 의해 발화된 단어와 관련된 속성 정보를 이용하여 해당 단어와 연관된 키워드를 추출하고, 추출된 키워드를 디스플레이 장치(00)로 전송하는 동작을 수행한다.

또다른 실시예에 따라, 디스플레이 장치(100)는 기저장된 복수의 문장 중 적어도 하나의 단어와 관련된 키워드를 포함하는 문장이 없는 경우, 해당 단어를 응답 서버(300)로 전송할 수 있다. 따라서, 응답 서버(300)는 디스플레이 장치(100)로부터 수신한 적어도 하나의 단어와 관련된 속정 정보를 이용하여 해당 단어와 연관된 키워드를 추출하여 디스플레이 장치(100)로 전송하는 동작을 수행할 수 있다. 이 같은 다양한 실시예를 통해, 디스플레이 장치(100)는 사용자의 발화 음성과 관련된 적어도 하나의 질의 문장을 디스플레이할 수 있다.

이에 따라, 사용자는 디스플레이 장치(100)에 디스플레이된 질의 문장을 통해 자신이 의도한 질의 문장을 선택할 수 있다. 이 같이, 사용자에 의해 하나의 질의 문장이 선택되거나 혹은 전술한 단계 S820에서 사용자의 발화가 문장 형태의 발화인 것으로 판단되면, 디스플레이 장치(100)는 선택된 질의 문장 혹은 텍스트 형태로 변환된 사용자의 발화 문장(이하 질의 문장이라 함)을 분석하여 질의어를 생성하여 응답 서버(300)로 전송한다(S840). 이에 따라, 응답 서버(300)는 수신된 질의어에 기초하여 사용자가 알고자 하는 정보와 관련된 적어도 하나의 응답 결과를 획득하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 응답 서버(300)로부터 수신된 적어도 하나의 응답 결과를 디스플레이한다(S850).

구체적으로, 디스플레이 장치(100)는 사용자에 의해 선택되거나 발화된 질의 문장을 자연어 처리 기반 알고리즘을 이용하여 문형 구조를 파악하고, 문장 내에 존재하는 개체명을 추출한다. 이후, 디스플레이 장치(100)는 추출된 개체명에 기초하여 사용자가 알고자 하는 지식과의 관계를 파악한다. 실시예에 따라, 디스플레이 장치(100)는 LAT(Lexical Answer Type) 혹은 포커스(Focus) 방식을 통해 사용자가 알고자 하는 지식과의 관계를 파악할 수 있다.

이 같은 다양한 방식을 통해 사용자에 의해 선택되거나 혹은 발화된 질의 문장 내에서 특징 백터에 해당하는 키워드가 추출되면, 디스플레이 장치(100)는 질의 문장으로부터 추출된 키워드를 응답 서버(300)에서 인식 가능한 스파클 언어로 변환하고, 스파클 언어로 변환된 질의어를 응답 서버(300)로 전송한다. 여기서, 스파클 기반의 언어는 W3C(World Wide Web Consortium) 표준으로 규정된 시멘틱 웹 온톨로지 언어(RDF(Resource Description Framework), RDFs(Resource Description Framework Schema), OWL(ONTOLOO Web Language))의 문서를 질의하기 위한 언어가 될 수 있다.

한편, 응답 서버(300)는 스파클 언어로 변화된 질의어가 수신되면, 수신된 질의어에 기초하여 사용자의 질의 문장에 대한 응답 결과를 생성하거나 추출하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 응답 서버(300)로부터 수신된 응답 결과에 기초하여

또한, 상술한 바와 같은 디스플레이 장치에서 질의 응답을 제공하는 방법은, 상술한 바와 같은 질의 응답을 제공하기 위한 적어도 하나의 실행 프로그램으로 구현될 수 있으며, 이러한 실행 프로그램은 비일시적 컴퓨터 판독 가능 매체에 저장될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로, 상술한 프로그램들은 RAM(Random Access Memory), 플레시메모리, ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electronically Erasable and Programmable ROM), 레지스터, 하드디스크, 리무버블 디스크, 메모리 카드, USB 메모리, CD-ROM 등과 같이, 단말기에서 판독 가능한 다양한 유형의 기록 매체에 저장되어 있을 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100 : 디스플레이 장치 110 : 입력부
120 : 디스플레이부 130 : 통신부
140 : 프로세서 150 : 음성 처리부
160 : 저장부 200 : 음성 인식 장치
300 : 응답 서버

Claims

디스플레이부를 포함하는 디스플레이 장치에 있어서,
사용자의 발화 음성을 입력받는 입력부;
응답 서버와 데이터 통신을 수행하는 통신부; 및
상기 발화 음성이 단어 형태의 발화이면, 상기 발화 음성을 이용하여 적어도 하나의 질의 문장을 생성하여 디스플레이 되도록 하고,
상기 디스플레이된 적어도 하나의 질의 문장 중 선택된 질의 문장에 대응되는 질의어를 생성하여 상기 통신부를 통해 상기 응답 서버로 전송 되도록하며,
상기 응답 서버로부터 상기 질의어와 관련된 적어도 하나의 응답 결과가 수신되면, 상기 수신된 응답 결과를 디스플레이 되도록 하는 프로세서;
를 포함하는 디스플레이 장치.
제 1 항에 있어서,
복수의 문장 및 상기 복수의 문장별 특징 백터에 대응되는 키워드를 저장하는 저장부;를 더 포함하며,
상기 프로세서는,
상기 저장부에 저장된 복수의 문장별 특징 백터에 대응되는 키워드의 발음열과 상기 발화된 단어에 대한 발음열의 유사도를 비교하여 상기 발화된 단어와 유사도가 높은 키워드를 포함하는 문장을 상기 발화 음성과 관련된 질의 문장으로 결정하여 디스플레이 되도록 하는 것을 특징으로 하는 디스플레이 장치.
제 2 항에 있어서,
상기 프로세서는,
상기 질의 문장으로 결정된 문장이 복수 개이면, 상기 질의 문장으로 결정된 복수의 문장별 선택 이력 정보에 기초하여 질의 문장으로 기선택된 횟수가 높은 순으로 디스플레이 되도록 하는 것을 특징으로 하는 디스플레이 장치.
제 2 항에 있어서,
상기 프로세서는,
상기 질의 문장으로 결정된 문장이 복수 개이면, 상기 질의 문장으로 결정된 복수의 문장별 선택 이력 정보에 기초하여 질의 문장으로 기선택된 횟수가 가장 높은 문장부터 기설정된 개수의 해당하는 문장을 선택하여 디스플레이 되도록하는 것을 특징으로 하는 디스플레이 장치.
제 1 항에 있어서,
상기 프로세서는,
상기 응답 서버로부터 상기 발화된 단어와 연관된 키워드가 수신되면, 상기 수신된 키워드를 조합하여 상기 발화 음성에 대한 질의 문장을 생성하여 디스플레이 되도록 하는 것을 특징으로 하는 디스플레이 장치.
제 5 항에 있어서,
상기 응답 서버는,
트리플(Triple) 구조의 지식베이스 서버이며, 상기 발화된 단어와 관련된 속성 정보를 이용하여 상기 발화된 단어와 연관된 키워드를 추출하는 것을 특징으로 하는 디스플레이 장치.
제 2 항에 있어서,
상기 프로세서는,
상기 발화된 단어와 유사도가 높은 키워드를 포함하는 문장이 없으면, 상기 응답 서버로부터 상기 발화된 단어와 키워드를 수신하고, 상기 수신된 키워드를 조합하여 상기 발화 음성와 관련된 질의 문장을 생성하는 것을 특징으로 하는 디스플레이 장치.
제 1 항에 있어서,
상기 프로세서는,
상기 질의어와 관련된 응답 결과가 복수 개이면, 복수의 응답 결과에 대한 리스트를 디스플레이 되도록 하는 것을 특징으로 하는 디스플레이 장치.
제 8 항에 있어서,
상기 프로세서는,
상기 디스플레이된 리스트로부터 선택된 적어도 하나의 응답 결과를 디스플레이 되도록 하는 것을 특징으로 하는 디스플레이 장치.
제 1 항에 있어서,
상기 프로세서는,
상기 사용자의 발화 음성이 문장 형태의 발화이면, 자연어 처리 기반 알고리즘을 이용하여 상기 사용자의 발화 음성으로부터 개체명을 추출하고, 상기 추출된 개체명에 기초하여 질의어를 생성하는 것을 특징으로 하는 디스플레이 장치.
디스플레이 장치에서 질의 응답을 제공하는 방법에 있어서,
사용자의 발화 음성을 입력받는 단계;
상기 사용자의 발화 음성이 단어 형태의 발화이면, 상기 사용자의 발화 음성을 이용하여 적어도 하나의 질의 문장을 생성하여 디스플레이하는 단계;
상기 디스플레이된 적어도 하나의 질의 문장 중 선택된 질의 문장에 대응되는 질의어를 생성하여 응답 서버로 전송하는 단계; 및
상기 응답 서버로부터 상기 질의어와 관련된 적어도 하나의 응답 결과를 수신하여 디스플레이하는 단계;
를 포함하는 질의 응답 방법.
제 11 항에 있어서,
상기 적어도 하나의 질의 문장을 생성하여 디스플레이하는 단계는,
기저장된 복수의 문장별 특징 백터에 대응되는 키워드의 발음열과 상기 발화된 단어에 대한 발음열의 유사도를 비교하여 상기 발화된 단어와 유사도가 높은 키워드를 포함하는 문장을 질의 문장으로 결정하여 디스플레이하는 것을 특징으로 하는 질의 응답 방법.
제 12 항에 있어서,
상기 적어도 하나의 질의 문장을 생성하여 디스플레이하는 단계는,
상기 질의 문장으로 결정된 문장이 복수 개이면, 상기 질의 문장으로 결정된 복수의 문장별 선택 이력 정보에 기초하여 질의 문장으로 기선택된 횟수가 높은 순으로 디스플레이하는 것을 특징으로 하는 질의 응답 방법.
제 12 항에 있어서,
상기 적어도 하나의 질의 문장을 생성하여 디스플레이하는 단계는,
상기 질의 문장으로 결정된 문장이 복수 개이면, 상기 질의 문장으로 결정된 복수의 문장별 선택 이력 정보에 기초하여 질의 문장으로 기선택된 횟수가 가장 높은 문장부터 기설정된 개수의 해당하는 문장을 선택하여 제공하는 것을 특징으로 하는 질의 응답 방법.
제 11 항에 있어서,
상기 적어도 하나의 질의 문장을 생성하여 디스플레이하는 단계는,
상기 응답 서버로부터 상기 발화된 단어와 연관된 키워드가 수신되면, 상기 수신된 키워드를 조합하여 상기 발화 음성과 관련된 질의 문장을 생성하고, 상기 생성된 질의 문장을 디스플레이하는 것을 특징으로 하는 질의 응답 방법.
제 15 항에 있어서,
상기 응답 서버는,
트리플(Triple) 구조의 지식베이스 서버이며, 상기 핵심 어휘와 관련된 속성 정보를 이용하여 상기 핵심 어휘와 연관된 키워드를 추출하는 것을 특징으로 하는 질의 응답 방법.
제 12 항에 있어서,
상기 적어도 하나의 질의 문장을 생성하여 디스플레이하는 단계는,
상기 발화된 단어와 유사도가 높은 키워드를 포함하는 문장이 없으면, 상기 응답 서버로부터 상기 발화된 단어와 연관된 키워드를 수신하고, 상기 수신된 키워드를 조합하여 상기 발화 음성와 관련된 질의 문장을 생성 및 디스플레이하는 것을 특징으로 하는 질의 응답 방법.
제 11 항에 있어서,
상기 디스플레이하는 단계는,
상기 질의어와 관련된 응답 결과가 복수 개이면, 복수의 응답 결과에 대한 리스트를 디스플레이하는 것을 특징으로 하는 질의 응답 방법.
제 18 항에 있어서,
상기 디스플레이하는 단계는,
상기 디스플레이된 리스트로부터 선택된 적어도 하나의 응답 결과를 디스플레이하는 것을 특징으로 하는 질의 응답 방법.
제 11 항에 있어서,
상기 사용자의 발화 음성이 단어 형태의 발화인지 혹은 문장 형태의 발화인지 여부를 판단하는 단계;를 더 포함하며,
상기 전송하는 단계는,
상기 사용자의 발화 음성이 문장 형태의 발화이면, 자연어 처리 기반 알고리즘을 이용하여 상기 사용자의 발화 음성으로부터 개체명을 추출하고, 상기 추출된 개체명에 기초하여 질의어를 생성하여 상기 응답 서버로 전송하는 것을 특징으로 하는 질의 응답 방법.
디스플레이 장치와 결합되어 하기의 단계를 실행시키기 위하여 기록 매체에 저장된 컴퓨터 프로그램에 있어서,
사용자의 발화 음성을 입력받는 단계;
상기 사용자의 발화 음성이 단어 형태의 발화이면, 상기 사용자의 발화 음성을 이용하여 적어도 하나의 질의 문장을 생성하여 디스플레이하는 단계;
상기 디스플레이된 적어도 하나의 질의 문장 중 선택된 질의 문장에 대응되는 질의어를 생성하여 응답 서버로 전송하는 단계; 및
상기 응답 서버로부터 상기 질의어와 관련된 적어도 하나의 응답 결과를 수신하여 디스플레이하는 단계;
를 포함하며 질의 응답을 제공하는, 기록 매체에 저장된 컴퓨터 프로그램.