KR101473264B1 - Tv 디바이스 및 tv 디바이스에서의 대화 서비스 제공 방법 - Google Patents

Tv 디바이스 및 tv 디바이스에서의 대화 서비스 제공 방법 Download PDF

Info

Publication number
KR101473264B1
KR101473264B1 KR1020120127521A KR20120127521A KR101473264B1 KR 101473264 B1 KR101473264 B1 KR 101473264B1 KR 1020120127521 A KR1020120127521 A KR 1020120127521A KR 20120127521 A KR20120127521 A KR 20120127521A KR 101473264 B1 KR101473264 B1 KR 101473264B1
Authority
KR
South Korea
Prior art keywords
candidate
user
candidate sentence
keyword
search
Prior art date
Application number
KR1020120127521A
Other languages
English (en)
Other versions
KR20140060780A (ko
Inventor
성주원
장두성
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020120127521A priority Critical patent/KR101473264B1/ko
Publication of KR20140060780A publication Critical patent/KR20140060780A/ko
Application granted granted Critical
Publication of KR101473264B1 publication Critical patent/KR101473264B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/232Content retrieval operation locally within server, e.g. reading video streams from disk arrays

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

TV 디바이스 및 이를 이용하는 대화 서비스 제공 방법이 제공된다. 보다 상세하게는, 사용자에 의하여 이전에 입력된 복수의 질의 문장을 상기 사용자의 대화 이력 정보로서 저장하고, 음성 입력 디바이스를 통해 입력된 사용자의 음성을 텍스트 형태의 키워드로 변환하고, 상기 대화 이력 정보 및 상기 변환된 키워드에 기초하여 상기 사용자의 의도를 나타내는 복수의 후보 문장을 생성하고, 상기 변환된 키워드를 디스플레이의 키워드 검색 영역에 표시하고, 생성된 후보 문장을 상기 디스플레이의 후보 문장 영역에 표시하되, 사용자 인터페이스를 통해 상기 표시된 복수의 후보 문장 중 어느 하나의 후보 문장이 선택되는 경우, 상기 선택된 후보 문장에 대응하는 검색 결과를 생성하는 TV 디바이스 및 이를 이용하는 대화 서비스 제공 방법이 제공된다.

Description

TV 디바이스 및 TV 디바이스에서의 대화 서비스 제공 방법 {TV DEVICE AND METHOD FORPROVIDING DIALOG SERVICE IN TV DEVICE}
TV 디바이스 및 TV 디바이스에서의 대화 서비스 제공 방법에 관한 것으로, 보다 상세하게는 자연어에 기반한 대화로 사용자와 기기간의 커뮤니케이션을 제공하는 TV 디바이스 및 TV 디바이스에서의 대화 서비스 제공 방법에 관한 것이다.
IPTV는 인터넷을 이용해 정보서비스, 영화 및 방송 등을 TV로 제공하는 서비스를 일컫는다. IPTV를 이용하기 위해서는 TV와 함께 인터넷이 연결된 셋톱박스(set-top box)가 필요하다. 인터넷과 TV의 융합이라는 점에서 디지털 컨버전스(digital convergence)의 한 유형이라고 할 수 있는데, 기존의 인터넷 TV와 다른 점이라면 컴퓨터 모니터 대신 TV를 이용하고, 마우스 대신 리모컨을 사용한다는 점이다. 따라서 컴퓨터에 익숙하지 않은 사람이라도 리모컨을 이용하여 간단하게 인터넷 검색은 물론 영화감상, 홈쇼핑, 온라인 게임 등 인터넷이 제공하는 다양한 컨텐츠 및 부가 서비스를 제공받을 수 있다. IPTV는 비디오를 비롯한 방송 컨텐츠를 제공한다는 점에서는 일반 케이블 방송이나 위성방송과 차이점이 없지만, 양방향성이 추가된다는 점이 특징이다. 일반 공중파 방송이나 케이블방송 및 위성방송과는 달리 시청자가 자신이 편리한 시간에 자신이 보고 싶은 프로그램만 볼 수 있고, 이러한 양방향성은 다양한 형태의 서비스 도출을 가능하게 한다.
현재의 IPTV서비스는 사용자가 리모컨의 버튼을 클릭하여 VOD나 기타 서비스들을 제공받는 형상이다. 키보드 및 마우스를 통한 사용자 인터페이스를 갖는 컴퓨터에 비해, IPTV의 경우 현재까지 리모컨 이외에 별다른 사용자 인터페이스가 나타나지 않고 있다. 이는 아직까지는 IPTV를 통한 서비스의 형태가 제한된 형태이고 반대로 리모컨에 의존적인 서비스 형태만 제공되고 있기 때문으로, 앞으로 다양한 서비스가 제공될 경우 리모컨은 인터페이스로서 활용하기에 적합하지 않게 된다.
따라서 가장 자연스러운 커뮤니케이션방식의 하나인 대화를 통한 방법이 IPTV 등 그 입력이 복잡하고 어려운 서비스 환경의 한계를 대체할 수 있는 핵심 기술 요소로 부각되고 있다.
그러나, 실생활에서 쓰이는 언어를 기반으로 하는 대화 시스템은 음성을 인식하는 과정, 인식된 음성이 변환된 자연어 텍스트에서 언어적 해석을 통해 사용자의 정확한 의도 및 핵심 키워드를 인식해내는 과정에서 필연적으로 오류의 가능성을 포함하고 있다. 이에 따라, 오류의 요소는 목적을 수행하고자 하는 서비스 영역에서 대화의 성공여부에 가장 중요한 문제가 된다.
이와 관련하여, 한국공개특허공보 제10-2011-0027362호(발명의 명칭: 음성 인식을 이용한 메타데이터 검색기, 검색 방법, IPTV 수신 장치)에는 컨텐츠 메타데이터로부터 추출한 컨텐츠명에 대한 이형태(異形態)를 저장한 상태에서 음성 인터페이스를 통해 입력되는 사용자의 발화 데이터를 음성 인식하여 대응하는 이형태의 컨텐츠 메타데이터를 검색하는 메타데이터 검색기와 그 메타데이터 검색 방법 및 이들을 이용하여 IPTV 서비스를 제공하는 IPTV 수신 장치가 개시되어 있다.
사용자 단말을 통해 입력된 사용자의 음성에 기초하여 복수의 후보 문장을 생성하고, 복수의 후보 문장에 순위를 적용하여 사용자 단말에게 제공하며, 이에 따라 사용자는 순위가 적용된 N 개의 복수의 후보 문장 중 어느 하나의 후보 문장을 선택하여 대화 서비스를 제공할 수 있는 TV 디바이스 및 TV 디바이스에서의 대화 서비스 제공 방법을 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는 사용자에 의하여 이전에 입력된 복수의 질의 문장을 상기 사용자의 대화 이력 정보로서 저장하는 데이터베이스, 음성 입력 디바이스를 통해 입력된 사용자의 음성을 텍스트 형태의 키워드로 변환하는 음성 인식부, 상기 대화 이력 정보 및 상기 변환된 키워드에 기초하여 상기 사용자의 의도를 나타내는 복수의 후보 문장을 생성하는 후보 문장 생성부, 상기 변환된 키워드를 디스플레이의 키워드 검색 영역에 표시하고, 생성된 후보 문장을 상기 디스플레이의 후보 문장 영역에 표시하는 표시부 및 사용자 인터페이스를 통해 상기 표시된 복수의 후보 문장 중 어느 하나의 후보 문장이 선택되는 경우, 상기 선택된 후보 문장에 대응하는 검색 결과를 생성하는 검색 처리부를 포함하는 TV 디바이스를 제공할 수 있다.
또한, 본 발명의 다른 실시예에 따르면, 상기 TV 디바이스는 상기 이전에 입력된 복수의 질의 문장 각각을 복수의 검색 유형으로 분류하고, 상기 분류된 검색 유형별 빈도를 결정하는 히스토리 결정부를 더 포함할 수 있다. 또한, 본 발명의 또 다른 실시예에 따르면, 상기 복수의 후보 문장 중 제 1 후보 문장은 상기 복수의 검색 유형 중 제 1 검색 유형에 대응하고, 상기 복수의 후보 문장 중 제 2 후보 문장은 상기 복수의 검색 유형 중 제 2 검색 유형에 대응되며, 이때 상기 표시부는 상기 제 1 후보 문장을 상기 제 2 후보 문장보다 위에 표시시킬 수 있다.
또한, 본 발명의 또 다른 실시예는 사용자에 의하여 이전에 입력된 복수의 질의 문장을 사용자의 대화 이력 정보로서 데이터베이스에 저장하는 단계, 음성 디바이스를 통해 입력된 사용자의 음성을 텍스트 형태의 키워드로 변환하는 단계, 상기 대화 이력 정보 및 상기 변환된 키워드에 기초하여 상기 사용자의 의도를 나타내는 복수의 후보 문장을 생성하는 단계, 상기 변환된 키워드를 디스플레이의 키워드 검색 영역에 표시하는 단계, 상기 생성된 복수의 후보 문장을 상기 디스플레이의 후보 문장 영역에 표시하는 단계 및 사용자 인터페이스를 통해 상기 표시된 복수의 후보 문장 중 어느 하나의 후보 문장이 선택되는 경우, 상기 선택된 후보 문장에 대응하는 검색결과를 생성하는 단계를 포함하는 TV 디바이스에서의 대화 서비스 제공방법을 제공할 수 있다.
과거의 대화 진행 상황에 따른 상태의 추론과 현재 입력된 사용자의 발화 입력 키워드에 대한 신뢰도에 기반하여 대화의 성능을 높일 수 있는 완전한 사용자 명령문을 동적으로 추천할 수 있다. 이에 따라, 반복 학습된 시나리오 패턴으로 자연스럽게 사용자를 유도할 수 있으므로 대화 시스템의 성능을 높일 수 있다.
또한, 사용자는 효과적인 발화 패턴을 미리 가이드해 주는 새로운 형태의 UX를 제공받음으로써 입력이 불편한 디바이스 환경에서 편의성을 제공받을 수 있다. 또한, 대화 시스템에서 목적 달성을 위해 제공 가능한 주요 시나리오 패턴을 자연스럽게 학습할 수 있다.
도 1은 본 발명의 제 1 실시예에 따른 TV 디바이스(100)의 구성도이다.
도 2는 도 1에 도시된 후보 문장 생성부(130)에서 생성된 복수의 후보 문장을 생성하는 일 예를 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 TV 디바이스(100)에서 후보 문장 생성 및 이에 대응하는 검색 결과의 일 예를 나타낸 도면이다.
도 4는 본 발명의 제 2 실시예에 따른 TV 디바이스(400)의 구성도이다.
도 5는 본 발명의 일 실시예에 따른 TV 디바이스(100)에서의 대화 서비스 제공 방법을 나타낸 동작 흐름도이다.
도 6은 본 발명에 따른 TV 디바이스(100)에서의 대화 추론 과정을 나타낸 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 제 1 실시예에 따른 TV 디바이스(100)의 구성도이다.
도 1을 참조하면, TV 디바이스(100)는 데이터베이스(110), 음성 인식부(120), 후보 문장 생성부(130), 표시부(150) 및 검색 처리부(160)를 포함한다.
참고로, 본 발명의 실시예에 따른 도 1에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 구성 요소를 의미하며, 소정의 역할들을 수행한다.
그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.
구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.
데이터베이스(110)는 사용자에 의하여 이전에 입력된 복수의 질의 문장을 사용자의 대화 이력 정보로서 저장한다. 이 때, 대화 이력 정보는 현재까지 대화가 진행되면서 추론된 사용자의 관심 영역, 사용자의 목적, 목적 달성을 위해 필요한 필수 키워드의 인식 내역과 그 신뢰 수준 등을 포함할 수 있다.
또한, 데이터베이스(110)는 사용자의 아이디에 따라 구분하여 복수의 질의 문장을 사용자의 대화 이력 정보로서 저장할 수 있다. 이에 따라, 복수의 사용자가 TV 디바이스(100)를 이용하더라도 사용자 별로 각각 아이디가 부여되므로, 개별 사용자의 대화 이력 정보가 다른 사용자들의 대화 이력 정보와 중첩되어 저장되는 것을 방지할 수 있다.
음성 인식부(120)는 음성 입력 디바이스를 통해 입력된 사용자의 음성을 텍스트 형태의 키워드로 변환한다. 이 때, 음성 인식부(120)는 표시부(150)에 표시된 복수의 후보 문장 중 사용자가 의도하는 후보 문장이 포함되어 있지 않은 경우, 음성 디바이스를 통해 새롭게 입력된 사용자의 음성을 텍스트 키워드로 변환한다.
예를 들어, 사용자가 '자동차'라는 단어를 음성으로 입력하여 5개의 후보 문장을 제시 받았으나, 이 중 원하는 후보 문장이 포함되어 있지 않은 경우, '자동차' 대신 다른 새로운 단어나 문장을 음성 인식부(120)에 입력할 수 있다. 이에 따라, 음성 인식부(120)는 사용자에 의해 입력된 새로운 단어나 문장에 기초하여 사용자의 음성을 새로운 텍스트 키워드로 변환한다.
한편, 음성 입력 디바이스는 리모트 컨트롤러 또는 TV 디바이스(100)와 바인딩된 모바일 디바이스일 수 있다. 다만, 음성 입력 디바이스의 이와 같은 형태는 일 실시예에 불과하므로 이에 한정 해석되는 것은 아니다.
도 2는 도 1에 도시된 후보 문장 생성부(130)에서 생성된 복수의 후보 문장을 생성하는 일 예를 나타낸 도면이다. 도 2를 참조하여 후보 문장 생성부(130)를 설명하면 다음과 같다.
후보 문장 생성부(130)는 대화 이력 정보 및 음성 인식부(120)를 통해 변환된 키워드에 기초하여 사용자의 의도를 나타내는 복수의 후보 문장을 생성한다. 이 때, 후보 문장 생성부(130)는 변환된 키워드뿐만 아니라 데이터베이스에 미리 저장된 후보 문장 색인 정보에 기초하여 후보 문장을 생성할 수 있다.
예를 들어, 사용자가 '비가'라는 질의 문장을 음성으로 제시하면, 음성 인식부(120)는 '비가'라는 음성을 텍스트 형태로 변환한다. 그리고, 후보 문장 생성부(130)는 데이터베이스(110)에 저장된 이전의 대화 이력 정보 및 변환된 키워드에 기초하여 복수의 후보 문장을 생성하게 된다. 따라서, '비가'라는 질의와 연결되어 가장 자연스러운 문장을 구성할 수 있는 후보 문장을 제시하게 된다. 이 때, 후보 문장 생성부(130)가 제공하는 후보 문장은 사용자의 입장에서 TV 디바이스(100)와 대화하는 것과 같이 자연스럽고 완전한 문장 형태이어야 한다.
또한, 후보 문장 생성부(130)는 변환된 키워드와 유사 키워드를 추출하여 복수의 후보 문장을 생성할 수 있다. 이 때, 유사 키워드에 기초하여 생성된 후보 문장은 디스플레이의 후보 문장 영역 중 가장 아래에 표시된다.
이와 같이, 후보 문장 생성부(130)는 오류의 가능성을 감안하여 하나의 후보 문장만을 생성하는 것이 아니라 상위 N개의 후보 문장을 생성하며, 이 때 결과로 추출된 각 후보 문장에 대한 신뢰도까지 그 결과로 제공할 수 있다
또한, 후보 문장 생성부(130)는 유사 키워드를 반영하여 후보 문장을 생성함으로써 사용자의 음성 인식에 따른 오류를 미연에 방지할 수 있으므로 사용자 편의성을 더욱 증대시킬 수 있다.
다시 도 1을 참조하면, 표시부(150)는 변환된 키워드를 디스플레이의 키워드 영역에 표시하고, 생성된 후보 문장을 디스플레이의 후보 문장 영역에 표시한다. 사용자에 의하여 입력된 음성은 디스플레이의 키워드 영역에 표시되고, 이에 대응하는 복수의 후보 문장을 후보 문장 영역에 표시한다.
도 2를 참조하면, 사용자가 '비가'라는 질의 문장을 음성으로 입력한 경우, '비가'라는 질의 문장이 음성 인식부(120)에 의하여 텍스트 키워드로 변환된다. 그리고, 변환된 텍스트 키워드는 디스플레이의 키워드 영역에 표시된다. 또한, '비가'라는 질의 문장에 대응하는 5개의 후보 문장은 디스플레이의 후보 문장 영역에 표시된다.
검색 처리부(160)는 사용자 인터페이스를 통해 표시된 복수의 후보 문장 중 어느 하나의 후보 문장이 선택되는 경우, 선택된 후보 문장에 대응하는 검색 결과를 생성한다. 이 때, 검색 처리부(160)는 사용자에 의하여 선택된 후보 문장이 사용자에 의하여 수정되는 경우, 수정된 후보 문장에 대응하는 검색 결과를 생성할 수 있다.
또한, 검색 처리부(160)는 표시부(150)에 표시된 복수의 후보 문장 중 사용자가 의도하는 문장이 포함되어 있지 않은 경우, 음성 디바이스를 통해 새롭게 입력된 사용자의 음성에 기초하여 변환된 텍스트 형태의 키워드에 대응하는 검색 결과를 생성할 수 있다.
한편, 본 발명에 따른 TV 디바이스(100)는 히스토리 결정부(140)를 더 포함할 수 있다. 히스토리 결정부(140)는 이전에 입력된 복수의 질의 문장 각각을 복수의 검색 유형으로 분류하고, 분류된 검색 유형별 빈도를 결정한다. 이 때, 대화 이력 정보는 결정된 검색 유형별 빈도를 포함한다.
이 때, 복수의 후보 문장 중 제 1 후보 문장은 복수의 검색 유형 중 제 1 검색 유형에 대응하고, 복수의 후보 문장 중 제 2 후보 문장은 복수의 검색 유형 중 제 2 검색 유형에 대응한다.
이에 대응하여, 표시부(150)는 제 1 후보 문장을 제 2 후보 문장보다 위에 표시시킨다. 이 때, 제 1 검색 유형의 빈도는 제 2 검색 유형의 빈도보다 큰 것으로 파악된다.
이와 같이, 히스토리 결정부(140)는 대화 이력 정보 및 변환된 키워드에 기초하여 복수의 후보 문장에 대하여 순위를 결정하여 후보 문장을 추출할 수 있다.
한편, 본 발명에 따른 TV 디바이스(100)는 변환된 텍스트 형태의 키워드에 기초하여 대화 추론과정을 거쳐 적절한 후보 문장을 도출할 수 있다.
도 6은 본 발명에 따른 TV 디바이스(100)에 포함된 대화 추론부(170)에서의 대화 추론 과정을 나타낸 도면이다.
구체적으로, 대화 추론 과정은 먼저, 변환된 텍스트 형태의 키워드를 언어적으로 해석하여 대화 추론의 기본적인 요소를 추출한다(S610). 다음으로, 대화 추론의 기본적인 요소가 추출되면, 추출된 요소를 표준화된 형태로 변환하는 정규화 과정을 거치게 된다(S620). 다음으로, 사용자가 관심있어 하는 세부 서비스 영역과 사용자의 세부 목적 및 핵심 의미 키워드(NE, Named Entity)를 추론하게 된다(S630). 다음으로, 타겟팅하고 있는 서비스 영역에 특화된 룰(Domain Rule)에 기초하여 규칙 검사 및 이를 적용하고(S640), 예제 DB에서 조회하거나 규칙 및 통계적 방식에 의해 구축된 추론 정책(Inference Rule)에 기초하여 응답을 추론하게 된다(S650). 마지막으로, 최종적으로 추론된 응답에 기초하여 사용자가 이해할 수 있는 자연어 문장의 형로 후보 문장을 생성하게 된다(S660).
이상 살펴본 바와 같이, 본 발명에 따른 TV 디바이스(100)는 사용자에 의하여 입력된 음성을 누적하여 저장하고 있으므로, 추후 사용자에 의하여 질의 문장이 입력될 때 더욱 적절한 후보 문장을 생성하여 사용자에게 제공할 수 있다.
또한, 사용자는 TV 디바이스(100)에 의하여 추천 받은 후보 문장의 패턴을 제공받음으로써 새로운 UI/UX의 경험으로 편의성을 제공받을 수 있으며, 대화 시스템에서 목적 달성을 위해 제공 가능한 주요 시나리오 패턴을 자연스럽게 학습할 수 있게 된다. 또한, TV 디바이스(100)는 사용자에게 주요 시나리오 패턴 중에서도 사용자의 의도에 가장 부합되는 후보 문장을 제공할 수 있으므로 사용자에게 검색 성공율 및 만족도를 제공할 수 있다.
이하에서는 도 1의 TV 디바이스(100)에 포함된 각각의 구성요소의 동작에 대해서 보다 상세하게 설명한다.
도 3은 본 발명의 일 실시예에 따른 TV 디바이스(100)에서 후보 문장 생성 및 이에 대응하는 검색 결과의 일 예를 나타낸 도면이다.
본 발명에 따른 TV 디바이스(100)는 VOD, 웹, 앱, 음악, eBook, 날씨 등의 다양한 분의의 검색 유형에서 웹 검색, 영화 검색 및 시청, 드라마 검색 및 시청, eBook 조회, 음악 재생, 악보 다운, 날씨 조회, 웹 페이지 이동, 단순 채팅 등의 특정 목적의 달성을 도와주기 위한 장치에 해당한다.
구체적으로, TV 디바이스(100)가 검색 유형에 따른 특정 목적을 달성하기 위한 동작 방법 및 이에 대한 일 예를 설명하면 다음과 같다.
먼저, 사용자가 질의 문장으로 '장동건'이라는 단어를 음성 입력 디바이스를 통해 음성으로 입력하면, 음성 인식부(120)는 입력된 사용자의 음성을 텍스트 형태의 키워드로 변환한다. 또한, 표시부(150)는 변환된 텍스트 형태의 키워드를 디스플레이의 키워드 검색 영역에 표시한다.
한편, 후보 문장 생성부(130)는 사용자의 음성이 '장동건'이 아닌 경우, 즉 오류의 가능성을 미리 예측하여 이와 관련된 유사 키워드를 추출하게 된다. 따라서, 후보 문장 생성부(130)는 '장동건'과 유사 키워드에 해당하는 '장동우', '장동민' 등을 기존에 저장된 대화 이력 정보에 기초하여 추출하게 된다. 그리고, 추출된 유사 키워드와 관련된 후보 문장을 표시부(150)의 아래에 표시한다.
예를 들어, 도 3의 3.1을 참조하면, 사용자의 음성에 대응하는 키워드인 '장동건'과 대응되는 후보 문장은 표시부(150)의 상단에 표시되어 있으나, '장동건'이 아닌 '장동우, '장동민'과 대응되는 후보 문장은 표시부(150)의 하단에 표시된다. 이때, 유사 키워드인 '장동우', '장동민'에 대응되는 후보 문장이 표시되는 순서는 기존에 저장된 대화 이력 정보의 신뢰도에 기초하여 결정된다. 따라서, 도 3에서는 기존에 '장동우'라는 단어에 대한 신뢰도가 '0.58', '장동민'이라는 단어에 대한 신뢰도는 '0.47'로서 전자가 더 높은 신뢰도를 가지게 되므로, '장동우'와 관련된 후보 문장은 '장동민'과 관련된 후보 문장보다 더 위에 표시된다.
한편, 사용자가 의도하는 후보 문장을 선택하기 전에는 히스토리 결정부(140)에 포함된 복수의 검색 유형은 동일한 빈도를 갖는다. 이 때, 사용자가 '장동건이 주연한 영화를 찾아줘'라는 후보 문장을 선택할 경우, 검색 처리부(160)는 검색 결과 '총 12건의 영화가 검색되었습니다.'라는 안내 메시지를 사용자에게 전달하고, 히스토리 결정부(140)는 복수의 검색 유형 중 '영화' 및 'VOD'의 빈도를 다른 검색 유형의 빈도보다 더 크도록 갱신한다.
또한, 사용자가 다시 새로운 질의 문장을 음성을 통해 제시하면, 후보 문장 생성부(130)는 이에 대응하는 복수의 후보 문장을 생성하고, 히스토리 결정부(140)는 갱신된 검색 유형의 신뢰도를 다시 새롭게 갱신한다. 예를 들어, 도 3의 3.3에 나타난 바와 같이'장동건을 취소하고, 모든 액션으로 찾아봐'라는 음성이 입력되면, 사용자의 의도 및 관심은 더욱 명확해 지는 것이므로, 히스토리 결정부(140)는 응답도출과 함께 'VOD' 및 '영화'의 신뢰도를 기존의 신뢰도보다 더욱 높게 갱신한다.
한편, 검색 유형에 따른 신뢰도가 갱신된 상태에서, '비가'는 질의 문장을 입력하게 되면, 후보 문장 생성부(130)는 도 2에 도시된 바와 전혀 상이한 후보 문장을 생성하게 된다. 즉, 히스토리 결정부(140)는 검색 유형 중 'VOD' 및 '영화'신뢰도를 다른 검색 유형의 신뢰도보다 더 크도록 갱신한 상태이므로, '비가'라는 질의 문장을 입력하면, 후보 문장 생성부(130)는 '영화' 및 'VOD'와 관련된 정보를 포함하고 있는 후보 문장을 생성하게 된다.
다만, 후보 문장 영역의 상위 부분에 표시된 결과 이외에, 차 순위 결과들의 확률이 비교적 높다면 그에 준하는 후보 문장도 포함될 수 있으며, 도 3의 3.5에 나타난 예시는 다른 결과를 무시할 만큼 상위 부분에 표시된 결과의 빈도가 월등히 높은 경우에 해당된다.
이와 같이, 본 발명에 따른 TV 디바이스(100)는 히스토리 결정부(140)에 의하여 검색 유형에 따른 신뢰도를 갱신함으로써, 추후 사용자가 키워드를 입력할 경우 사용자의 검색 성향에 맞는 후보 문장을 더욱 적절하게 추출하여 제시할 수 있게 된다.
도 4는 본 발명의 제 2 실시예에 따른 TV 디바이스(400)의 구성도이다.
도 4를 참조하면, TV 디바이스(400)는 대화 제어부(410), 음성 인식부(420), 추천어 생성부(430) 및 대화 관리부(440)를 포함한다.
대화 제어부(410)는 사용자에 의해 입력된 음성 데이터를 수신한 후, 음성 인식부(420)를 호출하여 음성 인식 결과를 얻어 발화를 해석한다. 이때, 음성 인식 결과는 오류의 가능성을 감안하여 하나의 결과만이 아니라 상위 N개의 인식 결과를 추출할 수 있으며, 또한 각 결과에 대한 신뢰도까지 결과로 제공할 수 있다.
또한, 대화 제어부(410)는 현재 입력된 발화 키워드를 인식한 후, 대화 요청을 하고 있는 클라이언트 단말의 사용자 아이디에 기초하여, 이전까지 입력된 대화 이력 정보를 대화 세션 히스토리 DB로부터 검색한다. 이에 따라, 대화 제어부(410)는 연속되는 대화 흐름 상의 대화 상태를 조회할 수 있다. 또한, 대화 제어부(410)는 음성 인식 결과와 대화 상태 정보를 추천어 생성부(430)에 전달한다.
한편, 대화의 상태는 현재까지 진행된 대화에 따라 추론된 사용자의 관심 영역, 사용자의 목적 및 목적 달성을 위해 필요한 필수 키워드의 인식 내역과 그 신뢰 수준 등을 포함한 상태 공간에서 관리된다.
추천어 생성부(430)는 대화 제어부(410)로부터 전달받은 음성 인식 결과 및 대화 상태 정보에 기초하여 미리 구축된 추천어 색인 정보로부터 발화문 추천 문장을 조회한다. 그리고, 대화의 상태 공간 확률 정보와 이전까지 입력된 음성 인식 결과의 신뢰도 가중치 정보를 적용하여 사용자의 의도와 목적에 가장 부합되는 발화문에 우선 순위를 부여한 후, 최종적인 발화문 추천 결과를 생성한다.
이로 인해, 본 발명에 따른 TV 디바이스(400)는 통계적으로 예측되는 사용자의 행동 패턴에 부합하는 사용자 발화가 입력될수록 대화의 성공률이 높아질 수 있다는 효과가 있다. 또한, 사용자는 특별한 제한사항이 부가되지 않은 발화를 할 수 있고, 이와 더불어 추천 발화 패턴을 제공받음으로써 편의성을 제공받을 수 있다. 또한, 대화 시스템에서 목적 달성을 위해 제공 가능한 주요 시나리오 패턴을 자연스럽게 학습할 수 있으며, 시나리오 패턴 중에서도 사용자의 의도와 가장 부합하는 추천문을 동적으로 제공받음으로써 대화 서비스의 성공률과 만족도를 향상시킬 수 있다.
한편, 추천어 생성부(430)를 통해 생성된 발화문 리스트는 사용자에게 제공되고, 이때 사용자는 발화문 추천 후보 중에서 선택된 발화를 활용하여 서비스 검색을 할 수 있다. 이와 달리, 사용자가 문장의 일부를 수정하거나 또는 원하는 문장이 없는 경우, 새로운 문장을 자유롭게 입력하여 대화를 계속할 수 있다.
대화 관리부(440)는 최종적으로 완성된 발화문을 대화 제어부(410)로부터 전달받아 대화 추론 과정을 통해 시스템의 응답을 생성한다. 구체적으로, 대화 관리부(440)의 추론과정은 입력 텍스트 문장을 언어적으로 해석하여 대화 추론의 기본적인 요소를 추출하는 과정, 추출된 요소를 표준화된 형태로 변환하는 정규화 과정, 사용자가 관심 있어 하는 세부 서비스 영역과 사용자의 세부 목적, 핵심 의미 키워드를 추출하는 과정, 타켓팅하고 있는 서비스 영역에 특화된 룰에 의거하여 규칙 검사 및 적용하는 과정, 예제 DB에서 조회하거나 규칙, 통계적 방식에 의해 구축된 추론 정책에 의거하여 응답을 추론하는 과정 및 최종적으로 추론된 시스템 응답을 자연어 문장으로 생성해 내는 과정을 포함한다.
한편, 대화 제어부(410)는 대화 관리부(440)에서 생성한 시스템 응답의 유형이 추론된 사용자의 목적에 따라 VOD를 검색하는 등의 추가적인 서비스 수행이 필요한 경우, 관련 서비스 서버를 호출할 수 있다. 또한, 현재 진행중인 대화 관련 아이디의 해당 대화 히스토리 정보를 개신하여 다음 대화를 준비할 수 있으며, 이에 따라 최종적으로 완전한 시스템 응답을 생성하여 사용자에게 제공할 수 있다.
도 5는 본 발명의 일 실시예에 따른 TV 디바이스(100)에서의 대화 서비스 제공 방법을 나타낸 동작 흐름도이다.
도 5에 도시된 실시예에 따른 TV 디바이스(100)에서의 대화 서비스 제공 방법은 먼저, 사용자에 의하여 이전에 입력된 복수의 질의 문장을 사용자의 대화 이력 정보로서 데이터베이스(110)에 저장한다(S510). 이 때, 대화 이력 정보는 사용자의 아이디에 따라 구분되어 저장될 수 있다.
다음으로, 음성 디바이스를 통해 입력된 사용자의 음성을 텍스트 형태의 키워드로 변환한다(S520).
다음으로, 대화 이력 정보 및 변환된 키워드에 기초하여 사용자의 의도를 나타내는 복수의 후보 문장을 생성한다(S530). 이 때, 복수의 후보 문장은 변환된 키워드 및 유사 키워드를 추출하여 생성하되, 유사 키워드에 기초하여 생성된 후보 문장은 디스플레이의 후보 문장 영역 중 가장 아래에 표시된다.
다음으로, 변환된 키워드를 디스플레이의 키워드 검색 영역에 표시하고(S540), 생성된 복수의 후보 문장을 디스플레이의 후보 문장 영역에 표시한다(S550).
다음으로, 사용자 인터페이스를 통해 표시된 복수의 후보 문장 중 어느 하나의 후보 문장이 선택되는 경우, 선택된 후보 문장에 대응하는 검색결과를 생성한다(S560).
한편, TV 디바이스(100)에서의 대화 서비스 제공 방법은 이전에 입력된 복수의 질의 문장을 복수의 검색유형으로 분류하는 단계 및 분류된 검색 유형별 빈도를 결정하는 단계를 더 포함할 수 있다. 이 때, 대화 이력 정보는 결정된 검색 유형별 빈도를 포함하고 있다. 또한, 복수의 후보 문장 중 제 1 후보 문장은 복수의 검색 유형 중 제 1 검색 유형에 대응하고, 복수의 후보 문장 중 제 2 후보 문장은 복수의 검색 유형 중 제 2 검색 유형에 대응한다.
도 5를 통해 설명된 실시예에 따른 TV 디바이스(100)에서의 대화 서비스 제공 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
110: 데이터베이스
120: 음성 인식부
130: 후보 문장 생성부
140: 히스토리 결정부
150: 표시부
160: 검색 처리부
170: 대화 추론부

Claims (15)

  1. TV 디바이스에 있어서,
    사용자에 의하여 이전에 입력된 복수의 질의 문장을 상기 사용자의 대화 이력 정보로서 저장하는 데이터베이스;
    음성 입력 디바이스를 통해 입력된 사용자의 음성을 텍스트 형태의 키워드로 변환하는 음성 인식부;
    상기 이전에 입력된 복수의 질의 문장 각각을 복수의 검색 유형으로 분류하고, 상기 분류된 검색 유형별 빈도를 결정하는 히스토리 결정부;
    상기 대화 이력 정보 및 상기 변환된 키워드에 기초하여 상기 사용자의 의도를 나타내는 복수의 후보 문장을 생성하는 후보 문장 생성부;
    상기 변환된 키워드를 디스플레이의 키워드 검색 영역에 표시하고, 생성된 후보 문장을 상기 디스플레이의 후보 문장 영역에 표시하는 표시부; 및
    사용자 인터페이스를 통해 상기 표시된 복수의 후보 문장 중 어느 하나의 후보 문장이 선택되는 경우, 상기 선택된 후보 문장에 대응하는 검색 결과를 생성하는 검색 처리부를 포함하되,
    상기 대화 이력 정보는 상기 결정된 검색 유형별 빈도를 포함하는 것인, TV 디바이스.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 복수의 후보 문장 중 제 1 후보 문장은 상기 복수의 검색 유형 중 제 1 검색 유형에 대응하고, 상기 복수의 후보 문장 중 제 2 후보 문장은 상기 복수의 검색 유형 중 제 2 검색 유형에 대응하는 것인, TV 디바이스.
  4. 제 3 항에 있어서,
    상기 표시부는 상기 제 1 후보 문장을 상기 제 2 후보 문장보다 위에 표시시키고,
    상기 제 1 검색 유형의 빈도는 상기 제 2 검색 유형의 빈도보다 큰 것인, TV 디바이스.
  5. 제 1 항에 있어서,
    상기 음성 입력 디바이스는 리모트 컨트롤러 또는 상기 TV 디바이스와 바인딩된 모바일 디바이스인 것인, TV 디바이스.
  6. 제 1 항에 있어서,
    상기 데이터베이스는 사용자의 아이디에 따라 구분하여 상기 복수의 질의 문장을 상기 사용자의 대화 이력 정보로서 저장하는 것인, TV 디바이스.
  7. 제 1 항에 있어서,
    상기 검색 처리부는 상기 선택된 후보 문장이 사용자에 의하여 수정되는 경우, 수정된 후보 문장에 대응하는 검색 결과를 생성하는 것인, TV 디바이스.
  8. 제 1항에 있어서,
    상기 음성 인식부는 상기 표시된 복수의 후보 문장 중 사용자가 의도하는 후보 문장이 포함되어 있지 않은 경우,
    상기 음성 디바이스를 통해 새롭게 입력된 사용자의 음성을 텍스트 형태의 키워드로 변환하는 것인, TV 디바이스.
  9. 제 1 항에 있어서,
    상기 후보 문장 생성부는 상기 변환된 키워드와 유사 키워드를 추출하여 상기 복수의 후보 문장을 생성하되,
    상기 유사 키워드에 기초하여 생성된 후보 문장은 상기 디스플레이의 후보 문장 영역 중 가장 아래에 표시되는 것인, TV 디바이스.
  10. 제 1 항에 있어서,
    상기 변환된 키워드 및 미리 저장된 사전에 기초하여 언어 해석 및 추론 과정을 통해 후보 문장을 생성하는 대화 추론부를 더 포함하는 것인, TV 디바이스.
  11. TV 디바이스에서의 대화 서비스 제공 방법에 있어서,
    사용자에 의하여 이전에 입력된 복수의 질의 문장을 사용자의 대화 이력 정보로서 데이터베이스에 저장하는 단계;
    음성 디바이스를 통해 입력된 사용자의 음성을 텍스트 형태의 키워드로 변환하는 단계;
    상기 이전에 입력된 복수의 질의 문장을 복수의 검색유형으로 분류하는 단계 및 상기 분류된 검색 유형별 빈도를 결정하는 단계;
    상기 대화 이력 정보 및 상기 변환된 키워드에 기초하여 상기 사용자의 의도를 나타내는 복수의 후보 문장을 생성하는 단계;
    상기 변환된 키워드를 디스플레이의 키워드 검색 영역에 표시하는 단계;
    상기 생성된 복수의 후보 문장을 상기 디스플레이의 후보 문장 영역에 표시하는 단계; 및
    사용자 인터페이스를 통해 상기 표시된 복수의 후보 문장 중 어느 하나의 후보 문장이 선택되는 경우, 상기 선택된 후보 문장에 대응하는 검색결과를 생성하는 단계를 포함하되,
    상기 대화 이력 정보는 상기 결정된 검색 유형별 빈도를 포함하는 것인, TV 디바이스에서의 대화 서비스 제공 방법.
  12. 삭제
  13. 제 11 항에 있어서,
    상기 복수의 후보 문장 중 제 1 후보 문장은 상기 복수의 검색 유형 중 제 1 검색 유형에 대응하고, 상기 복수의 후보 문장 중 제 2 후보 문장은 상기 복수의 검색 유형 중 제 2 검색 유형에 대응하는 것인, TV 디바이스에서의 대화 서비스 제공 방법.
  14. 제 11 항에 있어서,
    복수의 후보 문장을 생성하는 단계는,
    상기 변환된 키워드와 유사 키워드를 추출하여 상기 복수의 후보 문장을 생성하되, 상기 유사 키워드에 기초하여 생성된 후보 문장은 상기 디스플레이의 후보 문장 영역 중 가장 아래에 표시되는 것인, TV 디바이스에서의 대화 서비스 제공 방법.
  15. 제 11 항에 있어서,
    상기 변환된 키워드 및 미리 저장된 사전에 기초하여 언어 해석 및 추론 과정을 통해 후보 문장을 생성하는 단계를 더 포함하는 것인, TV 디바이스에서의 대화 서비스 제공 방법.
KR1020120127521A 2012-11-12 2012-11-12 Tv 디바이스 및 tv 디바이스에서의 대화 서비스 제공 방법 KR101473264B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120127521A KR101473264B1 (ko) 2012-11-12 2012-11-12 Tv 디바이스 및 tv 디바이스에서의 대화 서비스 제공 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120127521A KR101473264B1 (ko) 2012-11-12 2012-11-12 Tv 디바이스 및 tv 디바이스에서의 대화 서비스 제공 방법

Publications (2)

Publication Number Publication Date
KR20140060780A KR20140060780A (ko) 2014-05-21
KR101473264B1 true KR101473264B1 (ko) 2014-12-16

Family

ID=50889984

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120127521A KR101473264B1 (ko) 2012-11-12 2012-11-12 Tv 디바이스 및 tv 디바이스에서의 대화 서비스 제공 방법

Country Status (1)

Country Link
KR (1) KR101473264B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101698369B1 (ko) * 2015-11-24 2017-01-20 주식회사 인텔로이드 사용자 음성 신호를 이용하는 정보 제공 장치 및 정보 제공 방법
JP7043593B2 (ja) * 2018-04-23 2022-03-29 株式会社Nttドコモ 対話サーバ
CN112669847A (zh) * 2020-12-03 2021-04-16 安徽宝信信息科技有限公司 一种可用于会议记录自动编辑整理的智慧屏

Also Published As

Publication number Publication date
KR20140060780A (ko) 2014-05-21

Similar Documents

Publication Publication Date Title
US20230026181A1 (en) Systems and methods for determining whether a negation statement applies to a current or past query
US11626101B2 (en) Dynamic language and command recognition
AU2020207867B2 (en) Intelligent automated assistant in a media environment
US11809483B2 (en) Intelligent automated assistant for media search and playback
EP3175442B1 (en) Systems and methods for performing asr in the presence of heterographs
JP2019537307A (ja) キャプションテキストにおける間違いを訂正するためのシステムおよび方法
US20150052169A1 (en) Method, electronic device, and computer program product
KR101473264B1 (ko) Tv 디바이스 및 tv 디바이스에서의 대화 서비스 제공 방법
US12038954B2 (en) Query correction based on reattempts learning
KR101962126B1 (ko) 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법
CN113938755A (zh) 服务器、终端设备以及资源推荐方法
KR20200008341A (ko) 화면을 제어하는 미디어 재생 장치, 방법 및 화면을 분석하는 서버
US20230197067A1 (en) Methods and systems for responding to a natural language query
US20230196033A1 (en) Methods and systems for responding to a natural language query
KR101606170B1 (ko) Iptv 방송 시스템, 서버 및 발성목록 생성 장치
WO2023122455A1 (en) Methods and systems for responding to a natural language query
DK201770173A1 (en) Intelligent automated assistant for media search and playback

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant