KR20120135449A - 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법 - Google Patents

웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법 Download PDF

Info

Publication number
KR20120135449A
KR20120135449A KR1020110053400A KR20110053400A KR20120135449A KR 20120135449 A KR20120135449 A KR 20120135449A KR 1020110053400 A KR1020110053400 A KR 1020110053400A KR 20110053400 A KR20110053400 A KR 20110053400A KR 20120135449 A KR20120135449 A KR 20120135449A
Authority
KR
South Korea
Prior art keywords
vector space
vector
database
extended
basic
Prior art date
Application number
KR1020110053400A
Other languages
English (en)
Other versions
KR101252397B1 (ko
Inventor
이근배
김석환
김경덕
이동현
최준휘
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020110053400A priority Critical patent/KR101252397B1/ko
Priority to CN201280026904.0A priority patent/CN103562919B/zh
Priority to PCT/KR2012/004405 priority patent/WO2012165929A2/ko
Priority to US14/123,449 priority patent/US9213746B2/en
Priority to EP12792843.0A priority patent/EP2717176A4/en
Publication of KR20120135449A publication Critical patent/KR20120135449A/ko
Application granted granted Critical
Publication of KR101252397B1 publication Critical patent/KR101252397B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

웹을 이용한 정보 검색 방법 및 이를 사용한 음성 대화 방법이 개시된다. 정보 검색 시스템의 웹을 이용한 정보 검색 방법에 있어서, 제공된 사용자 질의 및 언어 분석 결과 중 적어도 하나에 대한 기본 단어 벡터를 생성하고, 기본 단어 벡터를 이용하여 벡터 공간 데이터베이스에서 기본 단어 벡터에 대응되는 벡터 공간을 검색한 후, 기본 단어 벡터와 검색된 벡터 공간과의 유사도가 미리 설정된 기준 이하인 경우, 사용자 질의 및 언어 분석 결과 중 적어도 하나를 이용하여 수행된 웹 검색 결과로부터, 생성한 확장 단어 벡터를 이용하여 벡터 공간 데이터베이스에서 확장 단어 벡터에 대응되는 벡터 공간을 검색하고, 기본 검색 단계 또는 확장 검색 단계에서 검색된 벡터 공간에 기초하여 지식 정보를 검색하는 웹을 이용한 정보 검색 방법 및 이를 사용한 음성 대화 방법을 구성한다. 따라서, 웹을 활용하여 지식 정보 및 사용자 질의에 관한 정보를 확장함으로써 사용자 질의에 대하여 보다 나은 검색 결과를 제공할 수 있고, 정보 확장이 웹을 통하여 수행되므로 사람의 개입이 필요 없고, Q&A나 소셜 네트워크 정보 등 수많은 정보들이 실시간으로 반영될 수 있다.

Description

웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법{Information Searching Method Using WEB and Spoken Dialogue Method Using The Same}
본 발명은 검색 방법에 관한 것으로, 더욱 상세하게는 웹을 이용하여 정보 검색을 보다 효과적으로 수행할 수 있는 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법에 관한 것이다.
정보 검색은 특정 지식 정보를 바탕으로 사용자의 질의에 대해 적절한 응답을 내어주는 것이다. 예를 들어, 스마트 TV 시스템에서 사용자가 특정 프로그램을 찾는 질의를 했을 때, 정보 검색을 통해 TV 프로그램 일정을 담고 있는 지식 정보 데이터베이스에 접근하여 사용자의 질의에 대한 응답을 내어 줄 수 있다. 그러나, 기존의 검색 방법에서 사용되는 지식 정보 데이터베이스는 주로 관계형 데이터베이스 형태로 저장이 되며, 이 경우에 사용자가 특정 정보에 대해 데이터베이스에 저장된 형태로 발화하지 않은 경우 적절한 항목을 찾아낼 수 없는 문제가 있다. 또한, 의미적인 추론이 필요한 복잡한 형태의 질의인 경우에는 적절한 응답을 나타내지 못하는 경향이 있다. 예를 들어 스마트 TV에서 ‘박지성 경기 보자’라는 사용자 질의에 대해 TV 스케쥴에 저장된 ‘아시안컵’이라는 검색 결과를 내지 못한다. 왜냐하면‘아시안컵’항목에는 박지성과 관련된 정보가 포함되어 있지 않기 때문이다. 이를 제대로 수행하려면 박지성이 아시안컵에 참석하고 있다는 정보가 추가로 필요하다. 이런 의미적인 부분을 고려하기 위한 접근 방법으로 온톨로지를 활용하는 경우가 있으나, 온톨로지를 구축하고 관리하는 것은 매우 힘든 작업이며 지식 정보와 관련된 질의를 추론하기 위한 수많은 온톨로지를 구축하는 것은 불가능하다. 또한, 실시간으로 변화하는 정보를 반영하는 것에도 한계가 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 사용자 질의에 대해 웹을 이용하여 사용자 질의에 대한 보다 향상된 응답을 제공할 수 있는 웹을 이용한 정보 검색 방법을 제공하는데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 음성 형태의 사용자 질의에 대해 웹을 이용하여 사용자 질의에 대한 보다 향상된 응답을 음성 형태로 제공할 수 있는 웹을 이용한 정보 검색 방법을 사용하는 음성 대화 방법을 제공하는데 있다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기한 본 발명의 목적을 달성하기 위한 본 발명의 일 측면에 따른 웹을 이용한 정보 검색 방법은, 정보 검색 시스템의 웹을 이용한 정보 검색 방법에 있어서, 제공된 사용자 질의 및 언어 분석 결과 중 적어도 하나에 대한 기본 단어 벡터를 생성하고, 상기 기본 단어 벡터를 이용하여 벡터 공간 데이터베이스에서 상기 기본 단어 벡터에 대응되는 벡터 공간을 검색하는 기본 검색 단계와, 상기 기본 단어 벡터와 검색된 상기 벡터 공간과의 유사도를 판단하는 단계와, 상기 유사도가 미리 설정된 기준 이하인 경우, 상기 사용자 질의 및 상기 언어 분석 결과 중 적어도 하나를 이용하여 수행된 웹 검색 결과로부터, 확장 단어 벡터를 생성하고, 생성된 상기 확장 단어 벡터를 이용하여 상기 벡터 공간 데이터베이스에서 상기 확장 단어 벡터에 대응되는 벡터 공간을 검색하는 확장 검색 단계와, 상기 기본 검색 단계 또는 상기 확장 검색 단계에서 검색된 상기 벡터 공간에 기초하여 지식 정보를 검색하는 단계를 포함한다.
상기한 본 발명의 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 웹을 이용한 정보 검색 방법을 사용하는 음성 대화 방법은 정보 검색 시스템의 웹을 이용한 정보 검색 방법을 사용하는 음성 대화 방법에 있어서, 제공된 음성 형태의 사용자 질의를 텍스트 형태로 변환하는 음성 인식 단계와, 상기 텍스트 형태로 변환된 사용자 질의에 언어 분석을 수행하는 언어 분석 단계와, 변환된 상기 사용자 질의 및 상기 언어 분석 결과 중 적어도 하나에 대한 기본 단어 벡터를 생성하고, 상기 기본 단어 벡터를 이용하여 벡터 공간 데이터베이스에서 상기 기본 단어 벡터에 대응되는 벡터 공간을 검색한 후, 상기 기본 단어 벡터와 검색된 상기 벡터 공간과의 유사도가 미리 설정된 기준 이하인 경우, 상기 사용자 질의 및 상기 언어 분석 결과 중 적어도 하나를 이용하여 수행된 웹 검색 결과로부터, 생성한 확장 단어 벡터를 이용하여 상기 벡터 공간 데이터베이스에서 상기 확장 단어 벡터에 대응되는 벡터 공간을 검색하고, 상기 기본 단어 벡터 또는 상기 확장 단어 벡터에 대응되어 검색된 상기 벡터 공간에 기초하여 지식 정보를 검색하는 웹을 이용한 정보 검색 단계와, 검색된 상기 지식 정보를 상기 사용자의 질의에 대응되는 응답으로 변환하는 응답 생성 단계와, 상기 응답을 음성 형태로 변환하는 음성 합성 단계를 포함한다.
상기와 같은 본 발명에 따른 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법은 정보 검색을 위해 웹을 활용하여 지식 정보 및 사용자 질의에 관한 정보를 확장함으로써 사용자 질의에 대하여 보다 나은 검색 결과를 제공할 수 있다.
또한, 정보 확장이 웹을 통하여 수행되므로 사람의 개입이 필요 없고, 기존의 벡터 공간 모델을 이용할 수 있고, 최근에 성행하는 Q&A나 소셜 네트워크 정보 등 수많은 정보들이 실시간으로 반영되므로 추론 및 추천 기능의 수행이 가능한 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 웹을 이용한 정보 검색 방법을 나타내는 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 웹을 이용한 정보 검색 방법 중 기본 검색 과정을 나타내는 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 웹을 이용한 정보 검색 방법 중 확장 검색 과정을 나타내는 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 웹을 이용한 정보 검색 방법 중 벡터 공간 데이터베이스를 형성 과정을 나타내는 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 웹을 이용한 정보 검색 방법을 사용한 음성 대화 방법을 나타내는 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명의 실시예에서, 웹을 이용한 정보 검색 방법 및 이를 사용한 음성 대화 방법은 적어도 하나의 서버를 포함하는 시스템으로 구현될 수 있고, 상기 시스템에는 적어도 하나의 서버와 다수의 사용자 단말이 포함될 수 있다.
상기 적어도 하나의 서버와 다수의 사용자 단말은 직접적으로 연결될 수도 있고, 유선 또는 무선 네트워크를 통하여 상호 연결될 수 있다. 또한, 상기 서버는 웹 서버(Web Server) 등이 될 수 있고, 상기 사용자 단말은 PMP(Portable Multimedia Player), 노트북, DTV, 스마트 폰(Smart Phone) 등 상기 서버와 통신이 가능하고, 정보 처리 기능을 구비한 다양한 단말이 될 수 있다.
이하, 본 발명의 실시예에서는 설명의 편의를 위하여 상기 웹을 이용한 정보 검색 방법 및 이를 사용한 음성 대화 방법을 수행하는 시스템을 정보 검색 시스템이라 지칭한다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 웹을 이용한 정보 검색 방법을 사용한 음성 대화 방법을 나타내는 흐름도이다.
도 1을 참조하면, 웹을 이용한 정보 검색 방법을 사용한 음성 대화 방법은 음성 형태의 사용자 질의를 제공받는 단계(S100)와, 상기 음성 형태의 사용자 질의를 텍스트 형태로 변환하는 단계(S200)와, 상기 텍스트 형태로 변환된 사용자 질의에 언어 분석을 수행하는 단계(S300)와, 상기 사용자 질의 및 상기 언어 분석 결과 중 적어도 하나를 제공받아 정보 검색을 하는 웹을 이용한 정보 검색 단계(S400)와, 상기 웹을 이용한 정보 검색 단계에서 검색된 결과를 상기 사용자 질의에 대응되는 응답으로 변환하여 응답을 생성하는 응답 생성 단계(S500)와, 상기 응답을 음성 형태로 변환하는 음성 합성 단계(S600)를 포함한다. 상기 응답은 상기 사용자 질의에 대응되는 응답을 의미할 수 있다.
상기 웹을 이용한 정보 검색 방법을 사용한 음성 대화 방법은 사용자가 음성 형태로 질의를 발화하고, 상기 음성 형태의 사용자 질의를 텍스트 형태의 사용자 질의로 변환하고, 상기 텍스트 형태로 변환된 사용자 질의에 대하여 언어 분석을 수행하며, 상기 언어 분석을 수행한 결과인 언어 분석 결과 및 텍스트 형태의 상기 사용자 질의 중 적어도 하나를 이용하여 웹 검색을 수행하여 상기 사용자 질의에 대한 적절한 응답을 검색한다. 상기 검색된 결과를 상기 사용자 질의에 대응되는 응답으로 변환하고, 상기 응답을 음성 형태의 응답으로 변환하여 사용자 질의에 대한 응답을 제공하는 기능을 수행한다. 상기 웹을 이용한 정보 검색 단계(S400)에 대하여 이하에서 구체적으로 설명한다.
도 2는 본 발명의 일 실시예에 따른 웹을 이용한 정보 검색 방법을 나타내는 흐름도이고, 도 3은 본 발명의 일 실시예에 따른 웹을 이용한 정보 검색 방법 중 기본 검색 과정을 나타내는 흐름도이고, 도 4는 본 발명의 일 실시예에 따른 웹을 이용한 정보 검색 방법 중 확장 검색 과정을 나타내는 흐름도이고, 도 5는 본 발명의 일 실시예에 따른 웹을 이용한 정보 검색 방법 중 벡터 공간 데이터베이스를 형성 과정을 나타내는 흐름도이다.
도 2 내지 도 5를 참조하면, 웹을 이용한 정보 검색 방법(S400)은 사용자 질의 및 사용자 질의에 대한 언어 분석 결과 중 적어도 하나를 제공받아 지식 정보 데이터베이스(1000)에 저장된 지식 정보를 검색하여 사용자 질의에 대응되는 응답을 제공할 수 있다.
상기 언어 분석은 형태소 분석, 구문 분석, 의미 분석 등의 언어 분석 기법을 의미할 수 있다.
상기 언어 분석 결과는 화행, 주행 및 구조적 정보가 포함될 수 있다. 상기 화행(Dialog Act)은 반드시 문형과 일치하지는 않으나, 일반적으로 서술문, 의문문, 요청문 등의 문형 정보를 나타내며, 상기 주행(Main Action)은 예를 들어, TV 켜기, TV 끄기, 프로그램 찾기 등의 사용자가 원하는 행위를 나타내는 의미적인 정보를 의미하며, 상기 구조 정보는 예를 들어, 장르, 프로그램명, 채널명, 시작시간, 출연진 등의 사용자의 질의에 나타나는 개체명 정보를 의미할 수 있다. 또한, 상기 사용자 질의는 텍스트 형태의 사용자 발화 또는 음성 형태로 입력된 사용자 발화를 텍스트 형태로 변환된 것을 의미할 수 있다.
도 2를 참조하면, 웹을 이용한 정보 검색 방법(S400)은 사용자 질의 및 언어 분석 결과 중 적어도 하나를 제공 받는다(S410).
제공받은 상기 사용자 질의 및 상기 언어 분석 결과 중 적어도 하나에 대한 기본 단어 벡터를 생성하고, 상기 기본 단어 벡터를 이용하여 상기 벡터 공간 데이터베이스(2000)에서 상기 기본 단어 벡터에 대응되는 벡터 공간을 검색하는 기본 검색을 수행한다(S420).
상기 벡터 공간 데이터베이스(2000)에서 상기 기본 단어 벡터에 대응되는 검색 결과 유무 또는 기본 검색 점수가 미리 설정된 기준 점수 이하인지를 판단한다(S430). 상기 기준 점수는 시스템의 설계에 따라 다양하게 설정될 수 있다.
판단 결과 상기 벡터 공간 데이터베이스(2000)에서 상기 기본 단어 벡터에 대응되는 검색 결과가 없거나, 상기 기본 검색 점수가 상기 기준 점수 이하인 경우에 확장 검색을 수행한다(S440).
상기 확장 검색 단계(S440)에서는 먼저 상기 사용자 질의 및 상기 언어 분석 결과 중 적어도 하나와 관련된 검색 키워드를 생성하여 웹 검색을 수행한 후, 검색된 웹 문서에 대한 확장 단어 벡터를 생성하고, 상기 생성된 확장 단어 벡터를 이용하여 벡터 공간 데이터베이스(2000)에서 상기 확장 단어 벡터에 대응되는 벡터 공간을 검색한다.
상기 기본 검색 단계 또는 상기 확장 검색 단계에서 검색된 상기 벡터 공간에 대응되는 상기 지식 정보 데이터베이스에 저장된 지식 정보를 검색 결과로 출력한다.
또한, 웹을 이용한 정보 검색 방법(S400)은 지식 정보 데이터베이스(1000)에 저장된 지식 정보에 대한 벡터 공간(Vector Space)을 생성하여 벡터 공간 데이터베이스(2000)에 저장하는 단계(S450)를 더 포함하여 구성될 수 있다.
여기서, 상기 벡터 공간을 생성하여 벡터 공간 데이터베이스에 저장하는 단계는 기본 검색 또는 확장 검색 단계 이전에 수행되는 것이 바람직하나, 여기에 한정되는 것은 아니며 상기 단계 S410 내지 S440의 순서와 무관하게 수행될 수도 있다.
상기 기본 단어 벡터는 상기 사용자 질의 및 상기 사용자 질의의 언어 분석 결과 중 적어도 하나에 대한 벡터 공간을 의미하고, 상기 확장 단어 벡터는 상기 사용자 질의 및 상기 사용자 질의의 언어 분석 결과 중 적어도 하나와 관련된 검색 키워드를 생성하여 웹 검색을 통하여 검색된 웹 문서에 포함된 단어들에 대한 벡터 공간을 의미한다.
또한, 상기 단어는 하나의 단어, 키워드, 구(句) 등이 될 수 있으며, 상기 단어의 의미는 응용 분야에 따라 달라질 수 있다.
상기 사용자 질의 및 언어 분석 결과를 제공받는 단계(S410)는 텍스트 형태의 사용자 질의와, 상술한 화행, 주행 및 구조 정보가 포함될 수 있는 언어 분석 결과를 제공받는 것을 의미할 수 있다.
도 3을 참조하면, 상기 기본 검색 단계(S420)는 제공받은 상기 사용자 질의 및 상기 언어 분석 결과 중 적어도 하나에 대한 기본 단어 벡터를 생성하고(S421), 상기 기본 단어 벡터를 이용하여 상기 벡터 공간 데이터베이스(2000)에서 상기 기본 단어 벡터에 대응되는 벡터 공간을 검색할 수 있다(S422). 상기 기본 단어 벡터는 상기 사용자 질의 및 상기 언어 분석 결과 중 적어도 하나를 사용하여 형성된 벡터 공간을 의미할 수 있다.
상기 판단하는 단계(S430)는 상기 벡터 공간 데이터베이스(2000)에 저장된 벡터 공간 중에 상기 기본 단어 벡터와 대응되는 벡터 공간의 유무 또는 기본 검색 점수가 미리 설정된 기준 점수 이하인지를 판단하는 기능을 수행할 수 있다. 또한, 상기 판단하는 단계(S430)는 확장 검색 단계가 웹을 이용한 검색을 수행하므로 응답시간이 상기 기본 검색 단계보다 늦기 때문에 상기 기본 검색 단계를 통하여 처리할 수 있는 경우는 상기 기본 검색 단계만을 수행할 수 있도록 판단하는 기능을 수행할 수 있다. 상기 기본 검색 점수는 상기 기본 단어 벡터와 상기 벡터 공간 데이터베이스(2000)에 저장된 벡터 공간과의 대응되는 정도를 수치화한 것을 의미할 수 있고, 상기 기본 검색 점수는 코사인 유사도(Cosine Similarity) 등의 다양한 점수 계산 방법을 통해 산출될 수 있다. 또한, 상기 코사인 유사도는 수학식 1을 통해 산출될 수 있다.
Figure pat00001
상기의 수학식 1에서, S는 코사인 유사도, A와 B는 벡터 공간, ∥A∥와 ∥B∥는 벡터 공간의 절대값(크기)을 의미한다.
또한, 상기 언어 분석 결과에서 나타난 기본 단어 벡터의 구조 정보와 상기 벡터 공간 데이터베이스(2000)에 저장된 벡터 공간의 구조 정보가 동일한지 여부에 따라 차등된 가중치를 부여하여 대응되는 정도를 더 높일 수 있다.
예를 들어, 사용자의 질의가 "아시안컵 축구 좀 보자", 사용자 질의에 대한 언어 분석 결과가 "TITLE: 아시안컵 축구"인 경우에 기본 단어 벡터는 <(TITLE: 아시안컵, 0.5)>, <(TITLE: 축구, 0.5)>로 생성되고, 상기 벡터 공간 데이터베이스(2000)에 저장된 벡터 공간의 각 필드가 <(TITLE: 아시안컵, 0.2)>, <(CATEGORY: 축구, 0.3)>인 경우에 코사인 유사도를 사용하면, 기본 검색 점수가 (0.5×0.2+0.5×0.3)/(0.707+0.361)=0.234로 계산되고, 만약, 구조 정보에 대한 가중치를 구조 정보가 같은 경우에는 0.7, 다른 경우에는 0.3으로 설정한 경우에 상기 구조 정보를 고려한 기본 검색 점수는 (0.5×0.2×0.7+0.5×0.3×0.3)/(0.707+0.361) =0.108로 계산된다.
상기 확장 검색 단계(S440)는 벡터 공간 데이터베이스(2000)에서 상기 기본 단어 벡터와 대응되는 벡터 공간이 없거나, 상기 기본 검색 점수가 미리 설정된 기준 점수 이하인 경우, 상기 사용자 질의 및 상기 언어 분석 결과 중 적어도 하나와 관련된 검색 키워드를 생성(S441)하여, 웹 검색을 수행하고(S443), 검색된 웹 문서에 대한 확장 단어 벡터를 생성하고(S444), 상기 확장 단어 벡터를 이용하여 벡터 공간 데이터베이스(2000)에 저장된 벡터 공간 중에 상기 확장 단어 벡터와 대응되는 벡터 공간을 검색할 수 있다(S445). 상기 검색 키워드는 상기 사용자 질의 및 상기 언어 분석 결과 중 적어도 하나의 중요한 필드를 상기 검색 키워드로 사용할 수 있으며, 상기 중요한 필드의 결정은 사용자가 가장 많이 찾고 대표성이 있는 필드일 수 있으며, 휴리스틱(Heuristic)하게 결정될 수 있다. 여기서, 상기 사용자 질의를 검색 키워드의 생성에 고려하는 이유는 중요한 단어임에도 언어 분석 결과에 나타나지 않을 수 있는 경우를 고려하기 위한 것이다. 예를 들어, 사용자 질의가 "재미있는 영화 좀 보자"인 경우에 "재미있는"은 중요한 단어임에도 언어 분석 결과에 나타나지 않을 수 있기 때문이다.
상기 검색 키워드를 사용하여 웹 검색을 수행하고(S443), 검색된 웹 문서에 대한 확장 단어 벡터를 생성할 수 있다(S444). 상기 확장 단어 벡터는 검색된 웹 문서에서 각각의 단어에 대해 벡터 공간을 형성하는 것을 의미할 수 있다. 상기 확장 단어 벡터를 사용하여 상기 벡터 공간 데이터베이스(2000)에 저장된 벡터 공간 중에 상기 확장 단어 벡터와 대응되는 벡터 공간을 검색할 수 있다. 상기 대응되는 벡터 공간인지의 판단은 확장 검색 점수가 미리 설정된 기준 점수 이상인 경우에 대응되는 벡터 공간으로 판단할 수 있으며, 상기 확장 검색 점수가 높은 순으로 상기 검색된 벡터 공간에 대응되는 정보를 정렬시킬 수 있다.
상기 확장 검색 점수는 상기 확장 단어 벡터와 상기 벡터 공간 데이터베이스에 저장된 벡터 공간과의 유사도로 산출될 수 있으며, 상기 확장 단어 벡터와 상기 벡터 공간 데이터베이스에 저장된 벡터 공간의 형성 방식에 따라 가중치를 차등적으로 설정할 수 있다.
구체적으로, 상기 확장 검색 점수는 수학식 2를 통하여 산출될 수 있다.
Figure pat00002
상기 수학식 2에서
Figure pat00003
는 웹 검색 전의 언어 분석 결과로부터 생성한 기본 단어 벡터,
Figure pat00004
는 웹 검색 전의 사용자 질의로부터 생성한 기본 단어 벡터,
Figure pat00005
는 웹 검색 후의 언어 분석 결과로부터 생성한 확장 단어 벡터,
Figure pat00006
는 웹 검색 후의 사용자 질의로부터 생성한 확장 단어 벡터를 의미한다.
또한,
Figure pat00007
는 벡터 공간 기본 데이터베이스(2100)에 저장된 지식 정보 데이터베이스(1000)에 저장된 지식 정보의 각 필드에 대한 벡터 공간,
Figure pat00008
는 벡터 공간 확장 데이터베이스(2200)에서 검색된 문서의 각 필드에 대한 단어 벡터를 의미한다.
또한,
Figure pat00009
는 언어 분석 결과로부터 생성된 확장 단어 벡터가 벡터 공간 기본 데이터베이스(2100)에 저장된 벡터 공간에 대응되는 경우의 가중치이고,
Figure pat00010
는 사용자 질의로부터 생성된 확장 단어 벡터가 벡터 공간 기본 데이터베이스(2100)에 저장된 벡터 공간에 대응되는 경우의 가중치이고,
Figure pat00011
는 언어 분석 결과로부터 생성된 확장 단어 벡터가 벡터 공간 확장 데이터베이스(2200)에 저장된 벡터 공간에 대응되는 경우의 가중치이고,
Figure pat00012
는 사용자 질의로부터 생성된 확장 단어 벡터가 벡터 공간 확장 데이터베이스(2200)에 저장된 벡터 공간에 대응되는 경우의 가중치이고, 상기 가중치들은 확장 단어 벡터와 벡터 공간 데이터베이스의 벡터 공간의 형성 방식에 따라 변경될 수 있고, 차등적으로 설정될 수 있다.
예를 들어, 웹 검색을 거치지 않은 벡터 공간 기본 데이터베이스(2100)에 저장된 벡터 공간의 신뢰도가 웹 검색을 거친 벡터 공간 확장 데이터베이스(2200)에 저장된 벡터 공간의 신뢰도보다 높다고 볼 수 있기 때문에 α1 , α2가 β1, β2보다 큰 값으로 가중치를 설정할 수 있다.
또한, 언어 분석 결과에서의 키워드가 사용자 질의에서의 키워드보다 중요하다고 볼 수 있기 때문에 α1 는 α2, β1는 β2 보다 큰 값으로 설정될 수 있다.
상기 벡터 공간을 생성하여 벡터 공간 데이터베이스(2000)에 저장하는 단계(S450)는 지식 정보 데이터베이스(1000)에 저장된 지식 정보를 벡터 공간으로 형성한 기본 벡터 공간을 벡터 공간 기본 데이터베이스(2100)에 저장하는 단계(S451)와, 지식 정보 데이터베이스(1000)에 저장된 지식 정보에서 키워드를 추출하고, 상기 추출된 키워드로 웹 검색을 수행(S452)하여 검색된 웹 문서로부터 확장 벡터 공간을 형성하고, 상기 확장 벡터 공간을 벡터 공간 확장 데이터베이스(2200)에 저장하는 단계(S453)를 포함하여 구성될 수 있다.
상기 기본 벡터 공간은 지식 정보 데이터베이스(1000)에 저장된 문서로부터 각각의 단어들에 대해 미리 저장하여 생성된 벡터 공간(Vector Space), 구조 정보를 포함할 수 있다.
예를 들어, 지식 정보 데이터베이스(1000)의 엔트리 ID 10번에 "박지성 맨체스터 유나이티드 경기"라는 문서가 저장된 경우에 <박지성, 10, 0.3>, <맨체스터, 10, 0.2>, <유나이티드, 10, 0.1>, <경기, 10, 0.1>의 기본 벡터 공간이 벡터 공간 기본 데이터베이스(2100)에 저장될 수 있다. 여기서, "박지성"은 단어를 의미하고, "10"은 단어가 저장된 엔트리 ID를 의미하고, "0.3"은 단어에 대한 가중치를 의미할 수 있다. 상기 구조 정보는 단어가 속한 필드 정보를 의미할 수 있고, 상기 구조 정보는 예를 들어, 지식 정보 데이터베이스(1000)에서는 컬럼(column) 명이 될 수 있고, 사용자 질의에 대한 언어 분석 결과에서는 개체명이 될 수 있다. 또한, 상기 구조 정보는 상기 기본 검색 단계(S420)에서 사용되는 기본 검색 점수에 추가 정보로서 사용될 수 있다.
예를 들어, 지식 정보 데이터베이스(1000)에서 "출연진" 정보와 언어 분석 결과에서 "출연진"으로 검색된 경우에 보다 높은 가중치를 줄 수 있다.
상기 지식 정보 데이터베이스(1000)에 저장된 지식 정보의 각 단어에 대한 상기 가중치는 단어 빈도(TF: Term Frequency)와 역 문서 빈도(IDF: Inverse Document Frequency)의 곱 연산인 수학식 3을 통하여 산출될 수 있다.
Figure pat00013
상기 수학식 3에서 단어 빈도(
Figure pat00014
)는 문서(
Figure pat00015
)에서 특정 단어가 나타난 개수(
Figure pat00016
)를 문서(
Figure pat00017
)의 전체 단어 개수(
Figure pat00018
)로 나누어 계산되며, 역 문서 빈도(
Figure pat00019
)는 전체 문서의 개수(
Figure pat00020
)를 단어가 나타난 문서 개수로 나눈것(
Figure pat00021
)의 로그 값으로 계산된다.
상기 벡터 공간 확장 데이터베이스(2200)는 상기 지식 정보 데이터베이스(1000)에 저장된 지식 정보에서 키워드를 추출하고, 상기 추출된 키워드를 사용하여 웹을 통하여 검색을 수행하고(S452), 검색된 문서에서 각각의 단어에 대해 확장 벡터 공간을 형성할 수 있다(S453).
상기 키워드로는 지식 정보 데이터베이스(1000)에 저장된 지식 정보의 중요한 필드를 사용할 수 있으며, 상기 중요한 필드의 결정은 사용자가 가장 많이 찾고, 대표성이 있는 필드일 수 있으며, 휴리스틱(Heuristic)하게 결정될 수 있다.
예를 들어, TV 일정 도메인의 경우 프로그램 제목, 도서 검색의 경우 책의 제목이 중요한 필드로서 키워드로 사용될 수 있다. 웹 문서는 지식 정보 데이터베이스(1000)에 저장된 지식 정보에서 부족한 정보를 포함할 수 있어 상기 지식 정보를 보충할 수 있다. 예를 들어, 지식 정보 데이터베이스에 저장된 지식 정보인 "아시안컵"에 관한 정보는 웹 검색을 통하여 "조광래", "박지성" 등의 추가 정보를 획득하여 확장될 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
1000: 지식 정보 데이터베이스 2000: 벡터 공간 데이터베이스
2100: 벡터 공간 기본 데이터베이스
2200: 벡터 공간 확장 데이터베이스

Claims (14)

  1. 정보 검색 시스템의 웹을 이용한 정보 검색 방법에 있어서,
    제공된 사용자 질의 및 언어 분석 결과 중 적어도 하나에 대한 기본 단어 벡터를 생성하고, 상기 기본 단어 벡터를 이용하여 벡터 공간 데이터베이스에서 상기 기본 단어 벡터에 대응되는 벡터 공간을 검색하는 기본 검색 단계;
    상기 기본 단어 벡터와 검색된 상기 벡터 공간과의 유사도를 판단하는 단계;
    상기 유사도가 미리 설정된 기준 이하인 경우, 상기 사용자 질의 및 상기 언어 분석 결과 중 적어도 하나를 이용하여 수행된 웹 검색 결과로부터, 확장 단어 벡터를 생성하고, 생성된 상기 확장 단어 벡터를 이용하여 상기 벡터 공간 데이터베이스에서 상기 확장 단어 벡터에 대응되는 벡터 공간을 검색하는 확장 검색 단계; 및
    상기 기본 검색 단계 또는 상기 확장 검색 단계에서 검색된 상기 벡터 공간에 기초하여 지식 정보를 검색하는 단계를 포함하는 웹을 이용한 정보 검색 방법.
  2. 제1항에 있어서,
    상기 기본 단어 벡터, 상기 확장 단어 벡터 및 상기 벡터 공간 데이터베이스에 저장된 벡터 공간은 단어, 가중치 정보 필드 및 구조 정보 필드 중 적어도 하나를 포함하는 것을 특징으로 하는 웹을 이용한 정보 검색 방법.
  3. 제1항에 있어서,
    상기 벡터 공간 데이터베이스는,
    상기 지식 정보를 벡터 공간으로 형성한 벡터 공간 기본 데이터베이스; 및
    상기 지식 정보를 이용하여 수행된 웹 검색 결과로부터 벡터 공간을 형성한 벡터 공간 확장 데이터베이스를 포함하는 것을 특징으로 하는 웹을 이용한 정보 검색 방법.
  4. 제1항에 있어서,
    상기 지식 정보를 검색하는 단계는,
    상기 확장 단어 벡터와 상기 검색된 적어도 하나의 벡터 공간과의 확장 검색 점수를 산출하고, 상기 확장 검색 점수에 따라 정렬하는 단계를 포함하는 것을 특징으로 하는 웹을 이용한 정보 검색 방법.
  5. 제4항에 있어서,
    상기 확장 검색 점수의 산출시에,
    상기 언어 분석 결과 또는 상기 사용자 질의로부터 생성되는 상기 확장 단어 벡터 및 벡터 공간 기본 데이터베이스와 벡터 공간 확장 데이터베이스에 저장된 상기 벡터 공간에 따라 가중치를 차등적으로 설정하는 것을 특징으로 하는 웹을 이용한 정보 검색 방법.
  6. 제5항에 있어서,
    상기 가중치는,
    상기 언어 분석 결과로부터 생성된 확장 단어 벡터가 상기 벡터 공간 기본 데이터베이스에 저장된 벡터 공간에 대응되는 경우 및 상기 사용자 질의로부터 생성된 확장 단어 벡터가 상기 벡터 공간 기본 데이터베이스에 저장된 벡터 공간에 대응되는 경우가, 상기 언어 분석 결과로부터 생성된 확장 단어 벡터가 벡터 공간 확장 데이터베이스에 저장된 벡터 공간에 대응되는 경우 및 상기 사용자 질의로부터 생성된 확장 단어 벡터가 벡터 공간 확장 데이터베이스에 저장된 벡터 공간에 대응되는 경우보다 큰 값으로 설정되는 것을 특징으로 하는 웹을 이용한 정보 검색 방법.
  7. 제5항에 있어서,
    상기 가중치는,
    상기 언어 분석 결과로부터 생성된 확장 단어 벡터가 상기 벡터 공간 기본 데이터베이스에 저장된 벡터 공간에 대응되는 경우에는 상기 사용자 질의로부터 생성된 확장 단어 벡터가 상기 벡터 공간 기본 데이터베이스에 저장된 벡터 공간에 대응되는 경우보다 큰 값으로 설정되고, 상기 언어 분석 결과로부터 생성된 확장 단어 벡터가 벡터 공간 확장 데이터베이스에 저장된 벡터 공간에 대응되는 경우에는 상기 사용자 질의로부터 생성된 확장 단어 벡터가 벡터 공간 확장 데이터베이스에 저장된 벡터 공간에 대응되는 경우보다 큰 값으로 설정되는 것을 특징으로 하는 웹을 이용한 정보 검색 방법.
  8. 정보 검색 시스템의 웹을 이용한 정보 검색 방법을 사용하는 음성 대화 방법에 있어서,
    제공된 음성 형태의 사용자 질의를 텍스트 형태로 변환하는 음성 인식 단계;
    상기 텍스트 형태로 변환된 사용자 질의에 언어 분석을 수행하는 언어 분석 단계;
    변환된 상기 사용자 질의 및 상기 언어 분석 결과 중 적어도 하나에 대한 기본 단어 벡터를 생성하고, 상기 기본 단어 벡터를 이용하여 벡터 공간 데이터베이스에서 상기 기본 단어 벡터에 대응되는 벡터 공간을 검색한 후, 상기 기본 단어 벡터와 검색된 상기 벡터 공간과의 유사도가 미리 설정된 기준 이하인 경우, 상기 사용자 질의 및 상기 언어 분석 결과 중 적어도 하나를 이용하여 수행된 웹 검색 결과로부터, 생성한 확장 단어 벡터를 이용하여 상기 벡터 공간 데이터베이스에서 상기 확장 단어 벡터에 대응되는 벡터 공간을 검색하고, 상기 기본 단어 벡터 또는 상기 확장 단어 벡터에 대응되어 검색된 상기 벡터 공간에 기초하여 지식 정보를 검색하는 웹을 이용한 정보 검색 단계;
    검색된 상기 지식 정보를 상기 사용자의 질의에 대응되는 응답으로 변환하는 응답 생성 단계; 및
    상기 응답을 음성 형태로 변환하는 음성 합성 단계를 포함하는 웹을 이용한 정보 검색 방법을 사용한 음성 대화 방법.
  9. 제8항에 있어서,
    상기 기본 단어 벡터, 상기 확장 단어 벡터 및 상기 벡터 공간 데이터베이스에 저장된 벡터 공간은 단어, 가중치 정보 필드 및 구조 정보 필드 중 적어도 하나를 포함하는 것을 특징으로 하는 웹을 이용한 정보 검색 방법을 사용한 음성 대화 방법.
  10. 제8항에 있어서,
    상기 벡터 공간 데이터베이스는,
    상기 지식 정보를 벡터 공간으로 형성한 벡터 공간 기본 데이터베이스; 및
    상기 지식 정보를 이용하여 수행된 웹 검색 결과로부터 벡터 공간을 형성한 벡터 공간 확장 데이터베이스를 포함하는 것을 특징으로 하는 웹을 이용한 정보 검색 방법을 사용한 음성 대화 방법.
  11. 제8항에 있어서,
    상기 지식 정보를 검색하는 단계는,
    상기 확장 단어 벡터와 상기 검색된 적어도 하나의 벡터 공간과의 확장 검색 점수를 산출하고, 상기 확장 검색 점수에 따라 정렬하는 단계를 포함하는 것을 특징으로 하는 웹을 이용한 정보 검색 방법을 사용한 음성 대화 방법.
  12. 제11항에 있어서,
    상기 확장 검색 점수의 산출시에,
    상기 언어 분석 결과 또는 상기 사용자 질의로부터 생성되는 상기 확장 단어 벡터 및 벡터 공간 기본 데이터베이스와 벡터 공간 확장 데이터베이스에 저장된 상기 벡터 공간에 따라 가중치를 차등적으로 설정하는 것을 특징으로 하는 웹을 이용한 정보 검색 방법을 사용한 음성 대화 방법.
  13. 제12항에 있어서,
    상기 가중치는,
    상기 언어 분석 결과로부터 생성된 확장 단어 벡터가 상기 벡터 공간 기본 데이터베이스에 저장된 벡터 공간에 대응되는 경우 및 상기 사용자 질의로부터 생성된 확장 단어 벡터가 상기 벡터 공간 기본 데이터베이스에 저장된 벡터 공간에 대응되는 경우가, 상기 언어 분석 결과로부터 생성된 확장 단어 벡터가 벡터 공간 확장 데이터베이스에 저장된 벡터 공간에 대응되는 경우 및 상기 사용자 질의로부터 생성된 확장 단어 벡터가 벡터 공간 확장 데이터베이스에 저장된 벡터 공간에 대응되는 경우 보다 큰 값으로 설정되는 것을 특징으로 하는 웹을 이용한 정보 검색 방법을 사용한 음성 대화 방법.
  14. 제12항에 있어서,
    상기 가중치는,
    상기 언어 분석 결과로부터 생성된 확장 단어 벡터가 상기 벡터 공간 기본 데이터베이스에 저장된 벡터 공간에 대응되는 경우에는 상기 사용자 질의로부터 생성된 확장 단어 벡터가 상기 벡터 공간 기본 데이터베이스에 저장된 벡터 공간에 대응되는 경우보다 큰 값으로 설정되고, 상기 언어 분석 결과로부터 생성된 확장 단어 벡터가 벡터 공간 확장 데이터베이스에 저장된 벡터 공간에 대응되는 경우에는 상기 사용자 질의로부터 생성된 확장 단어 벡터가 벡터 공간 확장 데이터베이스에 저장된 벡터 공간에 대응되는 경우보다 큰 값으로 설정되는 것을 특징으로 하는 웹을 이용한 정보 검색 방법을 사용한 음성 대화 방법.
KR1020110053400A 2011-06-02 2011-06-02 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법 KR101252397B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020110053400A KR101252397B1 (ko) 2011-06-02 2011-06-02 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법
CN201280026904.0A CN103562919B (zh) 2011-06-02 2012-06-04 利用网络的信息检索方法及相应的语音对话方法
PCT/KR2012/004405 WO2012165929A2 (ko) 2011-06-02 2012-06-04 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법
US14/123,449 US9213746B2 (en) 2011-06-02 2012-06-04 Method for searching for information using the web and method for voice conversation using same
EP12792843.0A EP2717176A4 (en) 2011-06-02 2012-06-04 METHOD FOR SEARCHING FOR INFORMATION ON THE INTERNET AND LANGUAGE CONVERSION METHOD THEREFOR

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110053400A KR101252397B1 (ko) 2011-06-02 2011-06-02 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법

Publications (2)

Publication Number Publication Date
KR20120135449A true KR20120135449A (ko) 2012-12-14
KR101252397B1 KR101252397B1 (ko) 2013-04-08

Family

ID=47260131

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110053400A KR101252397B1 (ko) 2011-06-02 2011-06-02 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법

Country Status (5)

Country Link
US (1) US9213746B2 (ko)
EP (1) EP2717176A4 (ko)
KR (1) KR101252397B1 (ko)
CN (1) CN103562919B (ko)
WO (1) WO2012165929A2 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015102124A1 (ko) * 2013-12-31 2015-07-09 엘지전자 주식회사 대화 서비스 제공 장치 및 방법
KR20180008199A (ko) * 2016-07-15 2018-01-24 삼성전자주식회사 단어 임베딩 방법, 단어 임베딩 장치, 음성 인식 방법 및 음성 인식 장치
WO2019216551A1 (ko) * 2018-05-11 2019-11-14 경북대학교 산학협력단 대화문장 생성 장치, 이를 포함하는 대화로봇 및 대화문장 생성 방법

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116649B (zh) * 2013-02-28 2016-09-14 用友网络科技股份有限公司 数据分析系统和数据分析方法
US20150120723A1 (en) * 2013-10-24 2015-04-30 Xerox Corporation Methods and systems for processing speech queries
JP6400038B2 (ja) * 2016-03-18 2018-10-03 ヤフー株式会社 抽出装置および抽出方法
JP6787770B2 (ja) * 2016-12-14 2020-11-18 東京都公立大学法人 言語記憶方法及び言語対話システム
CN111611798B (zh) 2017-01-22 2023-05-16 创新先进技术有限公司 一种词向量处理方法及装置
CN107993650A (zh) * 2017-11-30 2018-05-04 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
US11055329B2 (en) * 2018-05-31 2021-07-06 Microsoft Technology Licensing, Llc Query and information meter for query session
US11615144B2 (en) * 2018-05-31 2023-03-28 Microsoft Technology Licensing, Llc Machine learning query session enhancement
US20200135189A1 (en) * 2018-10-25 2020-04-30 Toshiba Tec Kabushiki Kaisha System and method for integrated printing of voice assistant search results
CN109635093B (zh) * 2018-12-17 2022-05-27 北京百度网讯科技有限公司 用于生成回复语句的方法和装置
CN109920430A (zh) * 2019-01-10 2019-06-21 上海言通网络科技有限公司 语音识别语义处理系统及其方法
CN110277086B (zh) * 2019-06-25 2021-11-19 中国科学院自动化研究所 基于电网调度知识图谱的语音合成方法、系统及电子设备
KR20240050164A (ko) 2022-10-11 2024-04-18 재단법인 아산사회복지재단 인공 지능 기반의 의료기기 상담 지원 서비스를 제공하는 방법 및 장치

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6480819B1 (en) * 1999-02-25 2002-11-12 Matsushita Electric Industrial Co., Ltd. Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television
KR100467104B1 (ko) 2001-05-11 2005-01-24 김시환 정보 검색 시스템과 그 방법
KR100792208B1 (ko) * 2005-12-05 2008-01-08 한국전자통신연구원 음성 대화 시스템에서 답변 문장 생성 방법 및 장치
KR100816923B1 (ko) 2006-04-13 2008-03-26 엘지전자 주식회사 문서 분류 시스템 및 그 방법
CA2653932C (en) * 2006-06-02 2013-03-19 Telcordia Technologies, Inc. Concept based cross media indexing and retrieval of speech documents
KR100862583B1 (ko) 2007-08-20 2008-10-09 인하대학교 산학협력단 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법
KR101300839B1 (ko) 2007-12-18 2013-09-10 삼성전자주식회사 음성 검색어 확장 방법 및 시스템
US7809715B2 (en) * 2008-04-15 2010-10-05 Yahoo! Inc. Abbreviation handling in web search
KR101289081B1 (ko) * 2009-09-10 2013-07-22 한국전자통신연구원 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법
US8630860B1 (en) * 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015102124A1 (ko) * 2013-12-31 2015-07-09 엘지전자 주식회사 대화 서비스 제공 장치 및 방법
KR20180008199A (ko) * 2016-07-15 2018-01-24 삼성전자주식회사 단어 임베딩 방법, 단어 임베딩 장치, 음성 인식 방법 및 음성 인식 장치
WO2019216551A1 (ko) * 2018-05-11 2019-11-14 경북대학교 산학협력단 대화문장 생성 장치, 이를 포함하는 대화로봇 및 대화문장 생성 방법
KR20190129490A (ko) * 2018-05-11 2019-11-20 경북대학교 산학협력단 대화문장 생성 장치, 이를 포함하는 대화로봇 및 대화문장 생성 방법

Also Published As

Publication number Publication date
US9213746B2 (en) 2015-12-15
WO2012165929A3 (ko) 2013-02-07
CN103562919A (zh) 2014-02-05
US20140108389A1 (en) 2014-04-17
EP2717176A2 (en) 2014-04-09
KR101252397B1 (ko) 2013-04-08
EP2717176A4 (en) 2015-02-25
CN103562919B (zh) 2017-02-15
WO2012165929A2 (ko) 2012-12-06

Similar Documents

Publication Publication Date Title
KR101252397B1 (ko) 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
US20200311167A1 (en) Method of and system for inferring user intent in search input in a conversational interaction system
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
JP5355949B2 (ja) 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム
US10380125B2 (en) Information processing apparatus and information processing method
KR102468481B1 (ko) 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템
KR20200084260A (ko) 전자 장치 및 이의 제어 방법
CN106653006B (zh) 基于语音交互的搜索方法和装置
CN109063182B (zh) 一种基于语音搜题的内容推荐方法及电子设备
US10957313B1 (en) System command processing
JP2008152641A (ja) 類似例文検索装置
JP6882975B2 (ja) 対話ログ群からコンテキストを決定可能な対話シナリオ生成装置、プログラム及び方法
US20220318318A1 (en) Systems and methods for automated information retrieval
KR102411778B1 (ko) 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램
JP4153843B2 (ja) 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体
US20210406291A1 (en) Dialog driven search system and method
KR102117281B1 (ko) 빈도 테이블을 이용한 챗봇 발언 생성 방법
CN113672768A (zh) 用于内容发现的人工智能
JP2021144633A (ja) ユーザの関心度に応じて対話内容を切り替える対話装置、プログラム及び方法
CN116628142B (zh) 知识检索方法、装置、设备及可读存储介质
KR100545550B1 (ko) 문장 이해 장치 및 방법
JP2015225414A (ja) 対話装置、辞書生成装置、方法、及びプログラム
CN115602159A (zh) 资源名权重确定方法、语音信息处理方法以及装置
JPH04182871A (ja) 類似文書検索装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180403

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190319

Year of fee payment: 7