KR102457821B1

KR102457821B1 - 자연어 이해 및 질의응답 기반의 의사결정 지원 장치 및 방법

Info

Publication number: KR102457821B1
Application number: KR1020160031048A
Authority: KR
Inventors: 배용진; 이형직; 허정; 김현기; 박상규; 왕지현; 이충희; 임수종; 임준호; 장명길; 최미란
Original assignee: 한국전자통신연구원
Priority date: 2016-03-15
Filing date: 2016-03-15
Publication date: 2022-10-24
Also published as: KR20170107282A

Abstract

본 발명은 자연어 이해 및 질의응답 기반의 의사결정 지원 장치 및 방법에 관한 것으로서, 더욱 상세하게는 사용자로부터 의사결정 대상이 되는 의사결정 문장과 의사결정 후보를 입력받는 입력부; 미리 수집된 비정형 텍스트 데이터를 분석하여 비정형 텍스트의 자연어를 이해하고, 상기 비정형 텍스트의 자연어 이해 결과를 기반으로 비정형 텍스트를 색인하는 근거 색인부; 상기 입력된 의사결정 문장 및 의사결정 후보를 조합하여 검색 질의어를 생성하고, 상기 생성된 검색 질의어를 이용하여 근거를 검색하는 근거 수집부; 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 문장 유사도를 분석하는 근거 검증부; 및 상기 문장 유사도의 분석 결과에서 최고 유사도 점수를 가지는 의사결정 후보와 해당 의사결정 후보에 대해 검색된 근거 검색결과를 제공하는 출력부를 포함한다.

Description

자연어 이해 및 질의응답 기반의 의사결정 지원 장치 및 방법{APPARATUS AND METHOD FOR SUPPORTING DECISION MAKING BASED ON NATURAL LANGUAGE UNDERSTANDING AND QUESTION AND ANSWER}

본 발명은 의사결정 지원 장치 및 방법에 관한 것으로서, 더욱 상세하게는 자연어 이해 및 질의응답 기반으로 사용자의 질문/상황에 가장 적합한 의사결정 후보를 판단하여 근거 검색 결과와 함께 제공할 수 있는, 자연어 이해 및 질의응답 기반의 의사결정 지원 장치 및 방법에 관한 것이다.

과거 의사결정 지원 시스템은 의료, 마켓, 금융, 산업 등 다양한 도메인에서 사용되어 왔으며, 데이터가 많이 생성되는 분야에서는 빅 데이터를 기반으로 더욱 빛을 발하고 있다. 그러나 종래의 의사결정 지원 시스템은 아래와 같은 3가지 공통적인 단점을 가진다.

첫째, 종래의 의사결정 지원 기술들은 특정 도메인에 국한된 형태로 서비스가 제공되었다. 종래의 의사결정 지원 기술들은 특정 도메인을 제외한 분야에서는 사용하기 어려운 단점이 있다. 가령, 의료분야의 의사결정 지원 시스템은 마켓이나 금융분야에는 적용이 되지 못한다.

둘째, 종래의 의사결정 지원 기술은 입/출력에 있어서 자유롭지 못한 단점을 가진다. 즉, 종래의 의사결정 지원 기술은 소수의 전문가들의 특정한 형태의 입력으로 의사결정 후보들에 대한 출력을 받아 이해하는 형태의 서비스들이 대부분이다. 비 전문가들은 입/출력에 대한 이해 없이 접근하기 어렵다. 또한, 어떤 과정을 거처 결과까지 나오게 되었는지에 대한 디버깅이 어렵고, 결과에 대한 부연설명이 부족하다.

셋째, 종래의 의사결정 지원 시스템들은 지식 기반이라 불리는 일련의 규칙들로 인간지식을 모델화하고, 규칙들이 상호 연결되어있어 결과의 수는 미리 정해져 있는 상태이다. 따라서, 종래의 의사결정 지원 시스템들은 사전에 지식을 구축해야 하는 비용을 감안해야 하며, 시대적 흐름이나 변수에 따른 변화에 둔감할 수밖에 없다. 가령, 사례기반으로 지식을 구축한다 할지라도 새로운 사례를 추가하거나, 추가되는 사례를 의사결정 지원 시스템에 적용하기 위해 가공하는 중간비용이 발생한다.

대한민국 등록특허공보 제10-1261177호(2013.04.29. 등록)

첫째, 본 명세서의 실시 예들은 의사결정지원 시스템이 기존의 영역보다 확장되고, 비 전문가라도 사용할 수 있는 자연어 이해 및 질의응답 기반의 의사결정 지원 장치 및 방법을 제공하고자 한다. 종래의 의사결정 지원 시스템의 사용범위는 의료, 마켓, 금융 등 다양한 도메인에 분포되어 있으나, 해당 분야의 전문가들만 접근해서 사용할 수 있는 시스템이다. 그러나 본 명세서의 실시 예들은 특정 분야의 비 전문가일지라도 사용할 수 있다. 또한, 본 명세서의 실시 예들은 특정 도메인에서만 사용 가능한 것이 아니라 일정 지식이 요구되는 상황 또는 일상생활에서 사용자들이 결정하기 애매한 질문에 대한 의사결정을 지원할 수 있게 한다.

둘째, 본 명세서의 실시 예들은 자연어 이해 및 질의응답 기반의 의사결정 지원 장치의 입력이 사용자들이 이해하기 쉬운 자연어를 입력할 수 있는 형태를 가지며, 출력은 사용자들이 제어할 수 있는 의사결정 후보들로 되어 있다. 종래의 의사결정 지원 시스템의 입력은 특정한 형태의 가공된 데이터가 입력되어야 의사결정 지원할 수 있었다. 그리고 종래의 의사결정 지원 시스템은 의사 결정 결과에 대한 이유를 가늠하기 어렵거나 특정한 형태의 가공된 정보로 확인할 수 있었다. 그러나 본 명세서의 실시 예들은 입력과 의사 결정 결과에 대한 근거를 자연어로 제시해 준다. 또한, 본 명세서의 실시 예들은 의사결정 후보들을 사용자가 제어할 수 있어, 사용자의 만족도가 높다. 가령, 두 개 혹은 세 개의 의사결정 후보들을 사용자들의 상황에 맞게 제어할 수 있다.

셋째, 본 명세서의 실시 예들은 종래의 의사결정 지원 시스템의 지식 규칙들을 구축하지 않고, 적은 비용으로 지식자원을 구축하는 색인/검색 방법을 제공할 수 있다. 본 명세서의 실시 예들에서 사용되는 지식자원들은 비정형 텍스트 데이터로부터 생성할 수 있다. 예를 들어, 사회적 트렌드나 일상 생활위주의 의사결정을 지원을 요구하면, 본 명세서의 실시 예들은 소셜 웹 데이터들을 수집하여 지식자원을 구축할 수 있으며 전문적인 의사결정을 지원할 때는 특정 도메인의 텍스트 데이터들을 사용할 수 있다.

넷째, 본 명세서의 실시 예들은 사용자가 의사결정을 하는데 사용자의 의도와 근거를 다양한 방법으로 유사도를 측정함으로써, 사용자가 설명하는 질문/상황과 의사결정 후보에 대한 근거를 깊게 이해해야 사용자에게 정확한 의사결정을 지원할 수 있다. 본 명세서의 실시 예들은 사용자의 의도와 근거를 비교할 때 문장 간의 유사도를 표층적/의미적 요소를 고려해서 분석할 수 있다.

다섯째, 본 명세서의 실시 예들은 사용자들이 의사결정 시스템을 사용하는 데 있어 편리한 인터페이스를 제공한다. 본 명세서의 실시 예들은 사용자의 질문/상황을 자연어로 설명하고, 자신이 필요한 의사결정 후보들을 자연어로 입력하면 의사결정 지원 결과와 결과에 대한 근거를 자연어로 확인할 수 있다. 또한, 본 명세서의 실시 예들은 다른 의사결정 후보들에 대한 근거 문장을 확인하여 의사결정이 되지 않은 이유를 확인할 수 있기 때문에 시스템에 대한 신뢰가 높을 수 있다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 제1 측면에 따르면, 사용자로부터 의사결정 대상이 되는 의사결정 문장과 의사결정 후보를 입력받는 입력부; 미리 수집된 비정형 텍스트 데이터를 분석하여 비정형 텍스트의 자연어를 이해하고, 상기 비정형 텍스트의 자연어 이해 결과를 기반으로 비정형 텍스트를 색인하는 근거 색인부; 상기 입력된 의사결정 문장 및 의사결정 후보를 조합하여 검색 질의어를 생성하고, 상기 생성된 검색 질의어를 이용하여 근거를 검색하는 근거 수집부; 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 문장 유사도를 분석하는 근거 검증부; 및 상기 문장 유사도의 분석 결과에서 최고 유사도 점수를 가지는 의사결정 후보와 해당 의사결정 후보에 대해 검색된 근거 검색결과를 제공하는 출력부를 포함하는 의사결정 지원 장치가 제공될 수 있다.

상기 근거 색인부는 미리 수집된 비정형 텍스트 데이터를 분석하여 비정형 텍스트의 자연어를 이해하는 자연어 이해부; 및 상기 비정형 텍스트의 자연어 이해 결과를 기반으로 비정형 색인 데이터베이스를 생성하여 비정형 텍스트를 색인하는 텍스트 색인부를 포함할 수 있다.

상기 자연어 이해부는 미리 수집된 비정형 텍스트 데이터의 형태소 분석, 개체명 인식, 구문 분석 및 의미역 인식 중 적어도 하나의 정보를 추출하여 자연어 이해 결과로 산출할 수 있다.

상기 텍스트 색인부는 형태소 단위, 개체명 단위, 주어-동사 또는 목적어-동사로 이루어진 튜플, 주어-동사-목적어로 이루어진 트리플 중에서 적어도 하나의 색인 단위로 색인할 수 있다.

상기 근거 수집부는 상기 입력된 의사결정 문장 및 의사결정 후보를 조합하여 검색 질의어를 생성하는 질의어 생성부; 및 상기 생성된 검색 질의어를 이용하여 근거를 검색하는 근거 검색부를 포함할 수 있다.

상기 질의어 생성부는 상기 입력된 의사결정 문장 및 의사결정 후보를 조합하되, 불리언으로 조합하는 검색 질의어를 생성하거나, 의사결정 후보에 기설정된 가중치를 주어 검색 질의어를 생성할 수 있다.

상기 근거 검색부는 상기 입력된 의사결정 후보들의 개수만큼 복수의 검색 질의어가 생성되면, 상기 생성된 복수의 검색 질의어의 개수만큼 반복 수행하여 각각의 의사결정 후보에 대해 근거를 검색할 수 있다.

상기 근거 검증부는 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 표층적 문장 유사도인 제1 문장 유사도를 분석하는 제1 유사도 분석부; 및 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 의미적 문장 유사도인 제2 문장 유사도를 분석하는 제2 유사도 분석부를 포함할 수 있다.

상기 제1 유사도 분석부는 벡터 공간 유사도, 철자 오류를 수정하는 레벤쉬타인(levenshtein) 알고리즘, 단어의 순서를 고려하는 스미스-워터만(smith-waterman) 알고리즘 중 적어도 하나를 이용하여, 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 표층 상으로 보이는 단어들의 형태를 기반으로 표층적 문장 유사도인 제1 문장 유사도를 분석할 수 있다.

상기 제2 유사도 분석부는 상기 자연어 이해 결과 정보를 이용하여 어휘 레벨 또는 문장 레벨의 유사도를 측정하여, 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 의미적 문장 유사도인 제2 문장 유사도를 분석할 수 있다.

한편, 본 발명의 제2 측면에 따르면, 사용자로부터 의사결정 대상이 되는 의사결정 문장과 의사결정 후보를 입력받는 단계; 미리 수집된 비정형 텍스트 데이터를 분석하여 비정형 텍스트의 자연어를 이해하고, 상기 비정형 텍스트의 자연어 이해 결과를 기반으로 비정형 텍스트를 색인하는 단계; 상기 입력된 의사결정 문장 및 의사결정 후보를 조합하여 검색 질의어를 생성하고, 상기 생성된 검색 질의어를 이용하여 근거를 검색하는 단계; 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 문장 유사도를 분석하는 단계; 및 상기 문장 유사도의 분석 결과에서 최고 유사도 점수를 가지는 의사결정 후보와 해당 의사결정 후보에 대해 검색된 근거 검색결과를 제공하는 단계를 포함하는 의사결정 지원 방법이 제공될 수 있다.

상기 비정형 텍스트를 색인하는 단계는 미리 수집된 비정형 텍스트 데이터를 분석하여 비정형 텍스트의 자연어를 이해하는 단계; 및 상기 비정형 텍스트의 자연어 이해 결과를 기반으로 비정형 색인 데이터베이스를 생성하여 비정형 텍스트를 색인하는 단계를 포함할 수 있다.

상기 비정형 텍스트의 자연어를 이해하는 단계는 미리 수집된 비정형 텍스트 데이터의 형태소 분석, 개체명 인식, 구문 분석 및 의미역 인식 중 적어도 하나의 정보를 추출하여 자연어 이해 결과로 산출할 수 있다.

상기 비정형 텍스트를 색인하는 단계는 형태소 단위, 개체명 단위, 주어-동사 또는 목적어-동사로 이루어진 튜플, 주어-동사-목적어로 이루어진 트리플 중에서 적어도 하나의 색인 단위로 색인할 수 있다.

상기 근거를 검색하는 단계는 상기 입력된 의사결정 문장 및 의사결정 후보를 조합하여 검색 질의어를 생성하는 단계; 및 상기 생성된 검색 질의어를 이용하여 근거를 검색하는 단계를 포함할 수 있다.

상기 검색 질의어를 생성하는 단계는 상기 입력된 의사결정 문장 및 의사결정 후보를 조합하되, 불리언으로 조합하는 검색 질의어를 생성하거나, 의사결정 후보에 기설정된 가중치를 주어 검색 질의어를 생성할 수 있다.

상기 근거를 검색하는 단계는 상기 입력된 의사결정 후보들의 개수만큼 복수의 검색 질의어가 생성되면, 상기 생성된 복수의 검색 질의어의 개수만큼 반복 수행하여 각각의 의사결정 후보에 대해 근거를 검색할 수 있다.

상기 문장 유사도를 분석하는 단계는 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 표층적 문장 유사도인 제1 문장 유사도를 분석하는 단계; 및 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 의미적 문장 유사도인 제2 문장 유사도를 분석하는 단계를 포함할 수 있다.

상기 제1 문장 유사도를 분석하는 단계는 벡터 공간 유사도, 철자 오류를 수정하는 레벤쉬타인(levenshtein) 알고리즘, 단어의 순서를 고려하는 스미스-워터만(smith-waterman) 알고리즘 중 적어도 하나를 이용하여, 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 표층 상으로 보이는 단어들의 형태를 기반으로 표층적 문장 유사도인 제1 문장 유사도를 분석할 수 있다.

상기 제2 문장 유사도를 분석하는 단계는 상기 자연어 이해 결과 정보를 이용하여 어휘 레벨 또는 문장 레벨의 유사도를 측정하여, 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 의미적 문장 유사도인 제2 문장 유사도를 분석할 수 있다.

본 명세서의 실시 예들은 종래에 사용되었던 의사결정 지원 시스템이 특정 분야에서만 사용되었던 것을 시스템 활용의 범용성 측면에서 실생활까지 활용성을 높일 수 있다. 이에 따라, 사용자가 전문가에서 비 전문가까지 확대되면 수요가 점차 늘어날 것이고, 의사결정 지원 시스템의 시장이 활발해질 수 있다.

본 명세서의 실시 예들은 종래의 의사결정 지원 시스템의 정형화된 입/출력에서 벗어나, 편리한 인터페이스인 자연어로 입력 및 출력을 수행할 수 있다. 현재의 검색 시스템은 자연어의 입력 및 출력만 가능하지만, 본 명세서의 실시 예들은 출력되는 의사결정 후보에 대한 제어 또한 가능하며, 의사결정 지원 결과에 따른 근거도 함께 제시해 주기 때문에 사용자의 높은 신뢰를 받을 수 있다.

종래의 의사결정 지원 시스템은 지식 규칙들이 사전에 정의되고 구축되어 있어야 의사결정 지원이 가능하다. 그러나 본 명세서의 실시 예들은 도메인의 확장성 및 유연성 측면에서 비정형 텍스트 데이터만 있으면 지식 자원을 구축할 수 있다. 또한, 본 명세서의 실시 예들은 비정형 텍스트의 도메인을 변경함으로써 의사결정 지원 도메인의 변경이 자유로우며, 새롭게 생성되는 데이터를 재색인 하면서 지식 자원의 확장도 용이하게 할 수 있다.

도 1은 본 발명의 실시 예에 따른 자연어 이해 및 질의응답 기반의 의사결정 지원 장치의 구성도이다.
도 2는 본 발명의 실시 예에 따른 사용자가 요구하는 의사결정이 필요한 의사결정 문장에 대한 예시도이다.
도 3은 본 발명의 실시 예에 따른 비정형 텍스트 데이터에 대한 자연어 이해 및 색인 과정에 대한 예시도이다.
도 4는 본 발명의 실시 예에 따른 의사결정 후보를 판단하기 위한 근거 수집 과정에 대한 예시도이다.
도 5는 본 발명의 실시 예에 따른 의사결정 후보에 대한 근거 검증 과정에 대한 예시도이다.
도 6은 본 발명의 실시 예에 따른 의사결정 후보에 대해 의사결정 지원 결과에 대한 예시도이다.
도 7은 본 발명의 실시 예에 따른 자연어 이해 및 질의응답 기반의 의사결정 지원 방법에 대한 흐름도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

도 1은 본 명세서의 실시 예에 따른 자연어 이해 및 질의응답 기반의 의사결정 지원 장치의 구성도이다.

본 명세서의 실시 예에 따른 자연어 이해 및 질의응답 기반의 의사결정 지원 장치(100)에서는 종래의 의사결정 지원 시스템이 가지고 있는 단점을 극복하기 위한 것이다. 본 명세서의 실시 예에 따른 의사결정 지원 장치(100)에서는 기본적으로 사용자가 누구든지 간에 전문적인 지식 없이 사용하는 형태의 시스템을 위해, 자연어로 입/출력하는 것을 기준으로 하며, 출력변수 또한 제어할 수 있다. 그리고 의사결정 지원 장치(100)는 출력된 결과에 대한 근거(이유)를 제시한다. 아울러, 의사결정 지원 장치(100)에서는 자연어로 입/출력할 수 있어 종래의 의사결정 지원 기술의 단점인 다양한 도메인으로의 확장이 가능하다. 또한, 의사결정 지원 장치(100)는 사전 지식 규칙을 생성하는 비용을 절감하기 위해 비정형 데이터의 색인/검색으로 활용할 수 있다.

본 명세서의 실시 예에 따른 의사결정 지원 장치(100)는 사용자의 질문이나 상황을 자연어로 입력받아 다수의 의사결정 후보들 중에 어떤 선택이 적합한지 우선순위를 합리적으로 제공하여 의사결정을 도와줄 수 있다. 본 명세서의 실시 예에 따른 의사결정 지원 장치(100)와 관련해서 종래에도 다양한 방법들이 제안되어 왔다. 그러나 본 명세서의 실시 예는 종래의 기술보다 사용함에 있어 편리한 입출력, 다양한 활용 범위, 비용대비 높은 성능을 낼 수 있는 차별화된 의사결정 지원 기술과 그 의사결정 지원 서비스를 제공할 수 있다.

본 명세서의 실시 예에 따른 의사결정 지원 장치(100)는 자연어 이해 기술, 문서 색인/검색 기술, 질의어 생성 기술, 문장 유사도 추론 기술을 이용한다.

자연어 이해 기술은 본 명세서의 실시 예의 기반이 되는 기술로서, 문서를 색인/검색, 문장 유사도 추론을 하기 위해 이용된다. 자연어 이해 기술은 어휘 레벨에서 문장 레벨까지 다각적으로 문장의 정보를 분석한다. 예를 들면, 자연어 이해 기술에는 형태소 분석 기술, 개체명 인식 기술, 의존구문 분석 기술, 의미역 인식 기술 등이 있다.

문서 색인/검색 기술은 미리 중요 단어나 구 등을 추출해서 데이터베이스화시킨다. 그리고 문서 색인/검색 기술은 입력되는 질문에서 색인단위와 동일한 정보를 추출하여 사용자의 요구에 맞는 정보를 제공할 수 있다. 본 명세서의 실시 예에 따른 의사결정 지원 장치(100)는 다수의 의사결정 후보군들의 근거를 수집하기 위해 문서 색인/검색 기술을 이용한다.

질의어 생성 기술은 사용자로부터 입력받은 질문에서 문서 색인에 이용되었던 색인 단위 정보를 추출하여 검색 성능에 도움이 되는 형태로 재가공한다. 본 명세서의 실시 예에 따른 의사결정 지원 장치(100)는 사용자의 질문이나 상황을 자연어로 입력받고, 검색 질의어를 생성하기 위해 질의어 생성 기술을 이용한다.

문장 유사도 추론 기술은 두 문장 간의 표층적/의미적인 특성을 고려하여 문장간 유사도를 측정한다. 본 명세서의 실시 예에 따른 의사결정 지원 장치(100)는 의사결정 후보들의 근거 문장들과 사용자가 입력한 질문/상황과 얼마나 적합한지 판단하기 위해 문장 유사도 추론 기술을 이용한다. 의사결정 지원 장치(100)는 표면적으로 쓰인 문장들 간의 유사도를 측정하는 표층적 문장 유사도와 문장 간의 의미를 고려하여 유사도를 측정하는 의미적 문장 유사도를 측정한다.

도 1에 도시된 바와 같이, 본 명세서의 실시 예에 따른 자연어 이해 및 질의응답 기반의 의사결정 지원 장치(100)는 입력부(110), 근거 색인부(120), 근거 수집부(130), 근거 검증부(140) 및 출력부(150)를 포함한다.

이하, 도 1의 자연어 이해 및 질의응답 기반의 의사결정 지원 장치(100)의 각 구성요소들의 구체적인 구성 및 동작을 설명한다.

입력부(110)는 사용자들로부터 질문/상황과 의사결정 후보를 입력받는다. 즉, 입력부(110)는 사용자로부터 의사결정 대상이 되는 의사결정 문장과 의사결정 후보를 입력받는다.

그리고 근거 색인부(120)는 사용자의 의사결정에 도움이 되는 적합한 근거들을 포함하는 비정형 문서들을 색인한다. 즉, 근거 색인부(120)는 미리 수집된 비정형 텍스트 데이터(101)를 분석하여 비정형 텍스트의 자연어를 이해하고, 그 비정형 텍스트의 자연어 이해 결과를 기반으로 비정형 텍스트를 색인한다.

일례로, 근거 색인부(120)는 자연어 이해부(121) 및 텍스트 색인부(122)를 포함할 수 있다.

자연어 이해부(121)는 미리 수집된 비정형 텍스트 데이터(101)를 분석하여 비정형 텍스트의 자연어를 이해한다.

텍스트 색인부(122)는 비정형 텍스트의 자연어 이해 결과를 기반으로 비정형 색인 데이터베이스(102)를 생성하여 비정형 텍스트를 색인한다.

이후, 근거 수집부(130)는 사용자가 요구한 의사결정에 필요한 근거들을 수집한다. 즉, 근거 수집부(130)는 입력부(110)에서 입력된 의사결정 문장 및 의사결정 후보를 조합하여 검색 질의어를 생성하고, 그 생성된 검색 질의어를 이용하여 근거를 검색한다.

일례로, 근거 수집부(130)는 질의어 생성부(131) 및 근거 검색부(132)를 포함할 수 있다.

질의어 생성부(131)는 입력부(110)에서 입력된 의사결정 문장 및 의사결정 후보를 조합하여 검색 질의어를 생성한다.

근거 검색부(132)는 질의어 생성부(131)에서 생성된 검색 질의어를 이용하여 근거를 검색한다.

그리고 근거 검증부(140)는 근거 수집 장치에서 수집된 근거 문장들과 사용자가 묘사한 질문/상황이 얼마나 일치하는지 검증한다. 즉, 근거 검증부(140)는 입력부(110)에서 입력된 의사결정 문장과 근거 수집부(130)에서 검색된 근거 검색 결과 간의 문장 유사도를 분석한다.

일례로, 근거 검증부(140)는 제1 유사도 분석부(141) 및 제2 유사도 분석부(142)를 포함할 수 있다.

제1 유사도 분석부(141)는 입력부(110)에서 입력된 의사결정 문장과 근거 수집부(130)에서 검색된 근거 검색 결과 간의 표층적 문장 유사도인 제1 문장 유사도를 분석한다.

제2 유사도 분석부(142)는 입력부(110)에서 입력된 의사결정 문장과 근거 수집부(130)에서 검색된 근거 검색 결과 간의 의미적 문장 유사도인 제2 문장 유사도를 분석한다.

한편, 출력부(150)는 근거 검증부(140)에서 추론된 유사도 결과 값에 기반을 두어 의사결정 후보들 중 적합한 후보와 근거를 제공한다. 즉, 출력부(150)는 문장 유사도의 분석 결과에서 최고 유사도 점수를 가지는 의사결정 후보와 해당 의사결정 후보에 대해 검색된 근거 검색결과를 제공한다.

도 2는 본 명세서의 실시 예에 따른 사용자가 요구하는 의사결정이 필요한 의사결정 문장에 대한 예시도이다.

도 2를 참조하면, 입력부(110)에서는 사용자가 요구하는 의사결정이 필요한 내용을 입력받는다. 사용자는 입력 값으로 의사결정에 필요한 내용에 대한 상황 묘사나 질문 형식으로 입력할 수 있다. 그리고 입력부(110)는 사용자로부터 의사결정 후보 또한 입력을 받는다.

입력부(110)는 사용자로부터 도 2의 (a) 및 (b)에 도시된 <예제1> 및 <예제 2>와 같이 입력을 받을 수 있다. 예를 들어, <예제1>에는 질문/상황(예컨대, 소화가 잘 안되고, 몸에 열이 나면 어떤 약을 먹을까요?)과 의사결정 후보(예컨대, 소화제, 감기약)가 포함된다.

여기서, 의사결정이 필요한 내용에 대한 도메인은 특정 도메인으로 한정되지 않는다. 입력부(110)는 의사결정이 필요한 내용을 자연어로 입력을 받을 수 있다. 의사결정 후보는 사용자가 제어할 수 있으며 1개 이상의 의사결정 후보를 가진다. 만약, 입력부(110)에 1개의 의사결정 후보가 입력되면, 의사결정 지원 장치(100)는 그 의사결정 후보에 대해 적합 또는 부적합으로 최종 의사결정에 지원을 할 수 있다.

도 3은 본 명세서의 실시 예에 따른 비정형 텍스트 데이터에 대한 자연어 이해 및 색인 과정에 대한 예시도이다.

우선, 비정형 텍스트 데이터(101)는 뉴스나 전문정보인 논문, 특허뿐 아니라 사전, 위키 문서나 소셜 네트워크 서비스에서 생성되는 데이터인 블로그, 카페의 게시글, 페이스 북 등 웹상에서 생성되는 모든 텍스트 데이터로 정의될 수 있다.

자연어 이해부(121)는 이러한 비정형 텍스트 데이터(101)에 대해 자연어를 이해하여 입력된 문장이나 문서의 형태소 분석, 개체명 인식, 구문 분석 및 의미역 인식 중에서 적어도 하나의 분석 또는 인식 정보를 추출할 수 있다.

텍스트 색인부(122)는 비정형 텍스트의 자연어 이해 결과를 기반으로 비정형 색인 데이터베이스(102)를 생성하여 비정형 텍스트를 색인한다. 이러한 비정형 텍스트의 색인 결과는 도 3의 입력문장(301) 및 색인예제(302)로 확인할 수 있다.

도 3에 도시된 바와 같이, "감기의 증상은 재채기, 콧물, 코의 울혈, 아프고 가래가 나온다."라는 입력문장(301)을 대상으로 한 예이다.

여기서, 텍스트 색인부(122)는 형태소 단위, 개체명 단위, 의존구문분석 단위, 의미역인식 단위 중에서 적어도 하나의 단위로 색인할 수 있다. 구체적으로 살펴보면, 텍스트 색인부(122)는 색인 단위로 문장의 형태소를 분석하여 명사와 동사와 같은 기본적인 형태소 단위, 문장 속에 포함되어 있는 개체명 단위와 같은 어휘 레벨과 문장 구조를 분석하여 튜플(주어-동사, 목적어-동사)과 트리플(주어-동사-목적어)를 하나의 단위로 색인할 수 있다. 이때, 텍스트 색인부(122)는 색인시 문서 랭킹을 위해 알고리즘으로 TF-IDF(Term Frequency-Inverse Document Frequency)나 BM25, BM25F와 같은 알고리즘 등을 이용할 수 있다.

도 4는 본 명세서의 실시 예에 따른 의사결정 후보를 판단하기 위한 근거 수집 과정에 대한 예시도이다.

질의어 생성부(131)는 사용자의 질문/상황과 의사결정 후보를 조합하여 검색 질의어를 생성한다. 질의어 생성부(131)는 의사결정 후보가 포함되면서, 사용자가 입력한 질문/상황과 적합한 문장들을 검색할 수 있다. 따라서 질의어 생성부(131)는 불리언으로 조합하는 검색 질의어나, 의사결정 후보에 기설정된 가중치만큼 높은 가중치를 주어 검색 질의어를 생성한다.

근거 검색부(132)는 질의어가 생성되면 근거 검색을 수행한다. 근거 검색의 결과는 의사결정 후보를 판단하는 근거가 되므로 정확도가 매우 중요하다. 따라서 근거 검색부(132)는 근거 검색으로 나온 문장들 중 기설정된 랭킹이 높은 문장만을 근거 검색의 결과로 이용한다. 여기서, 사용자가 입력부(110)에 의사결정 후보로 여러 개의 후보를 입력한 경우, 근거 수집부(130)는 그 입력한 복수의 후보들의 개수만큼 검색 질의어를 생성하고 근거를 검색한다.

현재는 어떤 의사결정 후보가 적합할지 모르는 상태이기 때문에 어떠한 후보도 가능성이 있다는 가정하에, 근거 수집부(130)는 복수의 의사결정 후보 개수만큼 근거 수집 과정을 반복 수행한다. 그리고 근거 검색부(132)는 각 의사결정 후보에 근거 검색한 결과를 따로 저장한다.

근거 수집부(130)에 의해 수행된 근거 검색 결과의 예제는 도 6에 도시된 바와 같이 나타낼 수 있다. 도 4의 <예제1>에는 사용자가 작성한 질문(401)과 의사결정 후보의 예제가 나타나 있다. 도 4의 <예제2> 및 <예제3>에는 의사결정 후보가 소화제 및 감기약인 각각의 경우에 대해 검색 질의어(402, 403)를 생성하여 근거를 검색한 결과가 나타나 있다.

도 5는 본 명세서의 실시 예에 따른 의사결정 후보에 대한 근거 검증 과정에 대한 예시도이다.

근거 검증부(140)는 근거 수집부(130)에서 수집된 근거 검색 결과와 사용자가 입력부(110)에서 입력한 질문/상황 문장을 비교하여 의사결정 후보가 얼마나 타당한지 검증한다.

근거 검증부(140)는 표층적 문장 유사도를 분석하는 과정과 의미적 문장 유사도를 분석하는 과정을 구분하여 수행한다. 이러한 근거 검증 과정을 도 5의 예로 설명하기로 한다. 도 5는 도 4에서 사용자의 질문과 의사결정 후보로 근거 검색한 결과이며, 질문/상황과 근거 검색 결과 문장간의 유사도를 측정하는 예이다.

근거 검증부(140)의 제1 문장 유사도 분석부는 표층적 문장 유사도를 분석한다. 제1 문장 유사도 분석부는 문장 간의 유사도를 비교할 때 표층 상으로 보이는 단어들의 형태를 기반으로 유사도를 비교한다.

예를 들어, 도 5의 <예제1>(501)에서 근거 검색 결과 2의 '소화'와 <예제1>의 질문/상황에서의 '소화'가 표층 상으로 동일한 단어가 쓰여있기 때문에, 제1 문장 유사도 분석부는 근거 검색 결과 2의 어휘 유사도 측정시 특정 유사도 점수(예컨대, 0.2)를 부여할 수 있다. 이러한 유사도 점수는 문장간 유사도를 비교하는 방법에 따라 다를 수 있다. 예를 들면, 제1 문장 유사도 분석부는 벡터 공간 유사도, 레벤쉬타인(levenshtein) 알고리즘, 단어의 순서를 고려하는 스미스-워터만(smith-waterman) 알고리즘 중 적어도 하나를 이용하여, 표층적 문장 유사도를 분석한다. 제1 문장 유사도 분석부는 입력된 의사결정 문장과 검색된 근거 검색 결과 간의 표층 상으로 보이는 단어들의 형태를 기반으로 표층적 문장 유사도인 제1 문장 유사도를 분석한다. 제1 문장 유사도 분석부는 표층적 문장 유사도를 분석할 때에도 자연어 이해 결과 정보를 이용하여 비교하며, 어휘 레벨의 유사도와 문장 레벨의 유사도를 측정할 수 있다.

근거 검증부(140)의 제2 문장 유사도 분석부는 문장 간의 유사도를 측정할 때 두 문장 간에 표층 상의 단어형태는 다르지만 의미가 동일한 단어로 표현되어 있으면 유사성이 있다고 판단하여 유사도 점수를 부여한다. 여기서, 제2 문장 유사도 분석부는 유사한 의미가 있는 단어들을 판단하기 위해 유의어 사전과 같은 자원을 이용할 수 있다. 하지만, 제2 문장 유사도 분석부는 워드 임베딩(Word Embedding)이나 명시적 의미 분석(Explicit Semantic Analysis)과 같은 알고리즘으로 유의어 사전 리소스를 저비용으로 구축하여 이용할 수도 있다.

도 5에 도시된 바와 같이, 도 5의 <예제2>(501)에서 근거 검색 결과1의 '발열하다'와 질문/상황에서 '열이나다'는 형태는 다르지만 같은 의미가 있는 단어이다. 따라서, 제2 문장 유사도 분석부는 근거 검색 결과1의 어휘 유사도 측정시 특정 유사도 점수(예컨대, 0.2)를 부여할 수 있다.

이와 같이, 제2 문장 유사도 분석부는 표층적 문장 유사도 분석 과정과 유사하게 문장간 유사도를 다양한 방법을 이용하여 측정할 수 있다. 제2 문장 유사도 분석부는 자연어 이해 결과 정보를 이용하여 어휘 레벨, 문장 레벨의 유사도를 측정할 수 있다.

도 6은 본 명세서의 실시 예에 따른 의사결정 후보에 대해 의사결정 지원 결과에 대한 예시도이다.

출력부(150)는 근거 검증부(140)의 근거 검증 결과를 기반으로 의사결정 후보군(602) 중에서 어떤 의사결정 후보가 사용자의 질문/상황(601)에 가장 적합한지 연산하여 사용자에게 제공한다.

도 6의 예에서, 출력부(150)는 하나의 의사결정 후보에 대해 표층적 문장 유사도 값들과 의미적 문장 유사도 값들로 순위화 알고리즘을 이용하여 가장 높은 유사도 점수를 가지는 의사결정 후보와 근거 검색 결과(603)를 사용자에게 제공한다.

최종적으로 사용자가 입력한 내용에 대한 결과 화면이 도 6에 도시되어 있다. 여기서, 도 6에서 질문/상황(602)에 이용된 질문 이외에 다른 도메인의 질문을 이용해도 문제가 되지 않는다. 예를 들면, 퀴즈 쇼의 객관식 질문과 보기를 도 6의 예제 넣어도 문제가 없다. 의사결정 지원 장치(100)는 일반인들이 실생활에서도 맛집, 영화, 패션에 대한 질문/상황(602)을 입력받으면 이러한 질문/상황(602)에 대해 의사결정을 지원할 수 있다.

도 7은 본 명세서의 실시 예에 따른 자연어 이해 및 질의응답 기반의 의사결정 지원 방법에 대한 흐름도이다.

입력부(110)는 의사결정 문장(질문/상황)과 의사결정 후보를 입력받는다(S702).

그리고 근거 색인부(120)는 수집된 비정형 텍스트를 분석하여 자연어를 이해한다(S704).

이어서, 근거 색인부(120)는 자연어 이해 결과를 기반으로 비정형 텍스트를 색인한다(S706).

이후, 근거 수집부(130)는 사용자의 질문/상황과 의사결정 후보를 조합하여 검색 질의어를 생성한다(S708).

그리고 근거 수집부(130)는 생성된 검색 질의어를 이용하여 근거를 검색한다(S710).

근거 검증부(140)는 표층적 문장 유사도인 제1 문장 유사도를 분석한다(S712).

또한, 근거 검증부(140)는 의미적 문장 유사도인 제2 문장 유사도를 분석한다(S714).

이후, 출력부(150)는 최고 유사도 점수를 가지는 의사결정 후보와 근거 검색결과를 사용자에게 제공한다(S716).

이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.

100: 의사결정 지원 장치
110: 입력부
101: 비정형 텍스트 데이터
120: 근거 색인부
121: 자연어 이해부
122: 텍스트 색인부
102: 비정형 색인 DB
130; 근거 수집부
131: 질의어 생성부
132: 근거 검색부
140: 근거 검증부
141: 제1 유사도 분석부
142: 제2 유사도 분석부
150: 출력부

Claims

사용자로부터 의사결정 대상이 되는 의사결정 문장과 의사결정 후보를 입력받는 입력부;
미리 수집된 비정형 텍스트 데이터를 분석하여 비정형 텍스트의 자연어를 이해하고, 상기 비정형 텍스트의 자연어 이해 결과를 기반으로 비정형 텍스트를 색인하는 근거 색인부;
상기 입력된 의사결정 문장 및 의사결정 후보를 조합하여 검색 질의어를 생성하고, 상기 생성된 검색 질의어를 이용하여 근거를 검색하는 근거 수집부;
상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 문장 유사도를 분석하는 근거 검증부; 및
상기 문장 유사도의 분석 결과에서 최고 유사도 점수를 가지는 의사결정 후보와 해당 의사결정 후보에 대해 검색된 근거 검색결과를 제공하는 출력부를 포함하되,
상기 근거 검증부는
상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 표층적 문장 유사도인 제1 문장 유사도를 분석하는 제1 유사도 분석부; 및 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 의미적 문장 유사도인 제2 문장 유사도를 분석하는 제2 유사도 분석부를 포함하고
상기 제1 유사도 분석부는 벡터 공간 유사도, 철자 오류를 수정하는 레벤쉬타인(levenshtein) 알고리즘, 단어의 순서를 고려하는 스미스-워터만(smith-waterman) 알고리즘 중 적어도 하나를 이용하여, 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 표층 상으로 보이는 단어들의 형태를 기반으로 표층적 문장 유사도인 제1 문장 유사도를 분석하고,
상기 제2 유사도 분석부는 상기 자연어 이해 결과 정보를 이용하여 어휘 레벨 또는 문장 레벨의 유사도를 측정하여, 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 의미적 문장 유사도인 제2 문장 유사도를 분석하는 것을 특징으로 하는 의사결정 지원 장치.
제1항에 있어서,
상기 근거 색인부는
미리 수집된 비정형 텍스트 데이터를 분석하여 비정형 텍스트의 자연어를 이해하는 자연어 이해부; 및
상기 비정형 텍스트의 자연어 이해 결과를 기반으로 비정형 색인 데이터베이스를 생성하여 비정형 텍스트를 색인하는 텍스트 색인부
를 포함하는 의사결정 지원 장치.
제2항에 있어서,
상기 자연어 이해부는
미리 수집된 비정형 텍스트 데이터의 형태소 분석, 개체명 인식, 구문 분석 및 의미역 인식 중 적어도 하나의 정보를 추출하여 자연어 이해 결과로 산출하는 의사결정 지원 장치.
제2항에 있어서,
상기 텍스트 색인부는
형태소 단위, 개체명 단위, 주어-동사 또는 목적어-동사로 이루어진 튜플, 주어-동사-목적어로 이루어진 트리플 중에서 적어도 하나의 색인 단위로 색인하는 의사결정 지원 장치.
제1항에 있어서,
상기 근거 수집부는
상기 입력된 의사결정 문장 및 의사결정 후보를 조합하여 검색 질의어를 생성하는 질의어 생성부; 및
상기 생성된 검색 질의어를 이용하여 근거를 검색하는 근거 검색부
를 포함하는 의사결정 지원 장치.
제5항에 있어서,
상기 질의어 생성부는
상기 입력된 의사결정 문장 및 의사결정 후보를 조합하되, 불리언으로 조합하는 검색 질의어를 생성하거나, 의사결정 후보에 기설정된 가중치를 주어 검색 질의어를 생성하는 의사결정 지원 장치.
제5항에 있어서,
상기 근거 검색부는
상기 입력된 의사결정 후보들의 개수만큼 복수의 검색 질의어가 생성되면, 상기 생성된 복수의 검색 질의어의 개수만큼 반복 수행하여 각각의 의사결정 후보에 대해 근거를 검색하는 의사결정 지원 장치.
삭제
삭제
삭제
사용자로부터 의사결정 대상이 되는 의사결정 문장과 의사결정 후보를 입력받는 단계;
미리 수집된 비정형 텍스트 데이터를 분석하여 비정형 텍스트의 자연어를 이해하고, 상기 비정형 텍스트의 자연어 이해 결과를 기반으로 비정형 텍스트를 색인하는 단계;
상기 입력된 의사결정 문장 및 의사결정 후보를 조합하여 검색 질의어를 생성하고, 상기 생성된 검색 질의어를 이용하여 근거를 검색하는 단계;
상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 문장 유사도를 분석하는 단계; 및
상기 문장 유사도의 분석 결과에서 최고 유사도 점수를 가지는 의사결정 후보와 해당 의사결정 후보에 대해 검색된 근거 검색결과를 제공하는 단계를 포함하되,
상기 문장 유사도를 분석하는 단계는
상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 표층적 문장 유사도인 제1 문장 유사도를 분석하는 단계; 및 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 의미적 문장 유사도인 제2 문장 유사도를 분석하는 단계를 포함하고,
상기 제1 문장 유사도를 분석하는 단계는 벡터 공간 유사도, 철자 오류를 수정하는 레벤쉬타인(levenshtein) 알고리즘, 단어의 순서를 고려하는 스미스-워터만(smith-waterman) 알고리즘 중 적어도 하나를 이용하여, 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 표층 상으로 보이는 단어들의 형태를 기반으로 표층적 문장 유사도인 제1 문장 유사도를 분석하고,
상기 제2 문장 유사도를 분석하는 단계는
상기 자연어 이해 결과 정보를 이용하여 어휘 레벨 또는 문장 레벨의 유사도를 측정하여, 상기 입력된 의사결정 문장과 상기 검색된 근거 검색 결과 간의 의미적 문장 유사도인 제2 문장 유사도를 분석하는 것을 특징으로 하는 의사결정 지원 방법.
제11항에 있어서,
상기 비정형 텍스트를 색인하는 단계는
미리 수집된 비정형 텍스트 데이터를 분석하여 비정형 텍스트의 자연어를 이해하는 단계; 및
상기 비정형 텍스트의 자연어 이해 결과를 기반으로 비정형 색인 데이터베이스를 생성하여 비정형 텍스트를 색인하는 단계
를 포함하는 의사결정 지원 방법.
제12항에 있어서,
상기 비정형 텍스트의 자연어를 이해하는 단계는
미리 수집된 비정형 텍스트 데이터의 형태소 분석, 개체명 인식, 구문 분석 및 의미역 인식 중 적어도 하나의 정보를 추출하여 자연어 이해 결과로 산출하는 의사결정 지원 방법.
제12항에 있어서,
상기 비정형 텍스트를 색인하는 단계는
형태소 단위, 개체명 단위, 주어-동사 또는 목적어-동사로 이루어진 튜플, 주어-동사-목적어로 이루어진 트리플 중에서 적어도 하나의 색인 단위로 색인하는 의사결정 지원 방법.
제11항에 있어서,
상기 근거를 검색하는 단계는
상기 입력된 의사결정 문장 및 의사결정 후보를 조합하여 검색 질의어를 생성하는 단계; 및
상기 생성된 검색 질의어를 이용하여 근거를 검색하는 단계;
를 포함하는 의사결정 지원 방법.
제15항에 있어서,
상기 검색 질의어를 생성하는 단계는
상기 입력된 의사결정 문장 및 의사결정 후보를 조합하되, 불리언으로 조합하는 검색 질의어를 생성하거나, 의사결정 후보에 기설정된 가중치를 주어 검색 질의어를 생성하는 의사결정 지원 방법.
제15항에 있어서,
상기 근거를 검색하는 단계는
상기 입력된 의사결정 후보들의 개수만큼 복수의 검색 질의어가 생성되면, 상기 생성된 복수의 검색 질의어의 개수만큼 반복 수행하여 각각의 의사결정 후보에 대해 근거를 검색하는 의사결정 지원 방법.
삭제
삭제
삭제