WO2020009297A1

WO2020009297A1 - 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법

Info

Publication number: WO2020009297A1
Application number: PCT/KR2019/000131
Authority: WO
Inventors: 송민규; 최정영
Original assignee: 미디어젠 주식회사
Priority date: 2018-07-05
Filing date: 2019-01-04
Publication date: 2020-01-09
Also published as: KR101913191B1

Abstract

본 발명은 도메인 추출기반의 언어 이해 성능 향상장치 및 성능 향상방법에 관한 것으로서, 더욱 상세하게는 음성 인식 또는 텍스트로 입력된 검색어를 획득하여 화자의 발화 의미를 파악하여 도메인 서비스 모델을 판단하고, 판단된 도메인 서비스 모델에 최적화된 언어 모델을 통하여 자연어 분석을 수행하여 입력된 화자의 발화 의미에 내재된 사용자의 의도와 대상(개체명)에 맞는 결과물을 화자에게 제공할 수 있는 도메인 추출기반의 언어 이해 성능 향상장치 및 성능 향상방법에 관한 것이다.

Description

도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법

검색 서비스를 제공하는 네이버나 다음과 같은 포털 업체, 그리고 구글과 같은 검색 엔진의 경우, 사용자의 검색어의 키워드를 중심으로, 해당 키워드가 가지는 최근의 이슈화된 정보나, 이들 키워드들을 묶고 있는 특정 연산자를 통해, 사용자가 원하는 정보에 보다 가까운 정보를 제공하는 노력을 기울이고 있다.

검색 서비스를 제공하는 이들 업체들은 사용자가 입력하는 키워드에만 수동적으로 반응하지 않고, 다수의 사용자들이 입력하는 복수 개의 키워드 혹은 순차적으로 입력하는 키워드간의 연관성을 부여하여, 연관어로 채택한 후 특정 키워드만을 입력하여도, 연관된 키워드를 제공하는 시스템을 개발하여 서비스를 진행하고 있다.

이러한 연관 검색어 제공 서비스는 사용자의 검색을 용이하게 할 뿐만 아니라, 그 자체 역시 하나의 정보로서의 역할을 하게 된다.

검색어를 구성하는 키워드 간의 연관성을 부여하여, 연관어를 추출하는 기술적인 시도는 많이 존재한다.

관련 특허 문헌으로는, "키워드 시각화 장치 및 그 방법(공개 번호 제10-2011-0035001호, 이하 '선행기술1'이라 한다)"이 존재한다.

상기 선행기술1은 키워드 시각화 장치 및 그 방법에 관한 것으로, 인터넷을 통해 획득한 데이터로부터 키워드를 추출하는 키워드 추출부; 키워드가 추출될 때마다 해당 키워드의 발생빈도 값을 상향시키는 빈도 분석부; 단일 데이터 내에서 다수의 키워드가 추출되면 추출된 각 키워드들간의 연관도 값을 상향시키는 연관도 분석부; 추출된 키워드들을 저장하되, 각 키워드들에 대한 발생빈도 값 및 각 키워드들간 연관도 값을 저장하는 정보 저장부; 및 다수의 키워드, 키워드들의 발생빈도 값 및 키워드들간 연관도 값을 이용하여 다수의 노드 및 에지를 갖는 그래프가 화면상에 표시되도록 처리하되, 그래프의 각 노드에는 키워드가 표시되며, 키워드의 발생빈도 값이 높은 노드의 크기가 크게 표시되고, 키워드의 발생빈도 값이 낮은 노드의 크기가 작게 표시되되, 에지에 의해 연결된 두 노드의 키워드들간 연관도 값이 높으면 에지가 두껍게 표시되고, 연관도 값이 낮으면 에지가 얇게 표시되도록 처리하는 시각화 처리부를 구비하는 것을 특징으로 하여, 키워드의 발생빈도와 키워드들간 연관도의 변화 추이를 제시한다.

관련된 다른 특허 문헌으로는 "키워드의 연관 순위를 사용한 검색 방법 및 시스템(특허 등록 번호 제10-1072113호, 이하 '선행기술2'라 한다)"이 존재한다.

상기 선행기술2는 키워드의 연관 순위를 사용한 검색 방법 및 시스템으로서, 키워드의 자체 속성을 지표화하여 독립 지표를 생성하고, 키워드와 다른 키워드 간의 연관성을 지표화하여 연관 지표를 생성하는 지표 모듈; 연관 지표를 기초로 키워드와 다른 키워드 간의 연관도를 연관 점수로 수치화하는 연관 점수 산정 모듈; 연관 점수와 독립 지표를 기초로 사용 용도에 따른 순위 점수를 계산하는 순위 점수 계산 모듈; 및 순위 점수에 기초하여 검색어에 대한 연관 키워드를 제공하는 검색 모듈을 개시한다.

그러나, 선행기술 2는 키워드에 대한 연관 검색어를 추출하도록 하는 기술적 사상만을 개시하고 있을 뿐이며, 해당 연관 검색에 대한 전반적인 정보를 제공하지는 못하였다.

다만, 선행기술1은 키워드에 대한 연관 검색어들 간의 순위 등을 그래프화 하여, 검색어에 대한 어떤 연관 검색어가 가장 빈도수가 높은지 등을 제공하고 있으나, 이 역시, 연관 검색어에 중에서 빈도수가 가장 높은 것을 자동 연관 검색어 리스트 중에서 가장 상위에 랭크 시키는 공지 기술과 크게 다를 바 없다.

한편, 현재 인공 지능 기반을 탑재한 검색 시스템은 검색 방식 측면에서 크롤러 기반, 디렉토리 기반, 하이브리드 검색, 메타 검색 방식으로 구분할 수 있다.

상기 크롤러 기반 방식의 검색 시스템에서는 스파이더, 크롤러, 웹봇 등으로 불리는 자동화된 에이전트 프로그램을 이용하여 웹상의 문서를 자신의 데이터베이스에 다운로드하고 저장한다.

사용자의 검색 요청은 검색 키워드를 저장된 웹 문서의 인덱스에서 찾아 해당 문서의 링크를 제공함으로써 처리된다.

이 방식은 구글 검색 시스템이 대표적인 예이다.

또한, 상기 디렉토리 기반 방식의 검색 시스템에서는 사람에 의해 웹 사이트들이 사전에 정의된 특정 디렉터리에 분류 저장되고, 저장된 웹사이트들이 사전에 정의된 규칙에 의해 랭킹된다.

사용자의 검색 요청은 키워드 매칭에 의해 찾아진 웹 문서를 디렉터리 별로 그룹핑하여 제공함으로써 처리된다.

이 방식은 야후, 네이버 검색 시스템이 대표적 예이다. 또한, 상기 하이브리드 방식의 검색 시스템에서는 상기 크롤러 방식과 상기 디렉토리 방식을 병용하며 일반적으로 사용자에게 더 좋은 검색결과를 제공한다.

이 방식은 마이크로소프트의 MSN검색이 대표적 예이다.

또한, 상기 메타 검색 방식의 시스템에서는 다른 검색 시스템의 검색 알고리즘과 평가 기준을 활용한다.

즉, 다른 검색 시스템의 검색결과를 병합하여 사용자에게 제공한다. Metacrawler 시스템이 대표적인 예이다.

한편, 웹 기반 한글 정보검색 시스템의 구현 방법이 존재하고 있는데, 이는 웹 기반의 한글 정보 검색 시스템을 구현하는데 있어서, 핵심 부분이 되는 한글 검색엔진이 갖추어야 할 기능 및 구현 방법, 특히 명사, 조사, 불용어 등 각종 한글 사전 등을 이용하여 한글의 특성에 맞는 형태소 분석을 이용하는 방법을 제시하고 있다.

하지만, 상기 웹 기반 한글 정보검색 시스템의 구현 방법과 크롤러 기반, 디렉토리기반, 하이브리드 검색, 및 메타 검색 방식의 검색 시스템은 검색 키워드만을 사용하여 정보를 검색함에 따라, 사용자가 원하는 속성을 반영하지 못하여 사용자가 진정 원하는 정확한 컨텐츠를 제공하지 못한다는 치명적인 단점이 존재한다.

또한, 언어 이해시스템은 입력된 텍스트 문장에서 Named Entity(개체명 인식)를 추출하고, 그 결과를 반영하여 문장의 의도를 파악한다.

한 번의 처리로 Named Entity와 Intention(의도, 목적)을 추출하여 빠른 처리가 가능하지만, 모호한 문장이나 사전에 없는 단어가 Named Entity로 입력될 경우 성능의 저하가 발생할 수 있다.

예를 들어, '소나기 찾아봐'라는 문장이 입력되었을 때, '소나기'가 식당일 수도 있고, 노래 제목일 수도 있다.

이러한 경우, 확률값이 조금 더 높은 쪽으로 의도가 정해지게 되거나 둘 다 확률이 낮으면 다시 입력하라는 거절 메시지가 출력될 수 있다.

낮은 확률값임에도 불구하고, 어느 하나를 선택해야 하는 상황이나, 또는 둘 다 낮아서 거절을 하는 경우, 모두 오류가 발생하거나 사용자 불만을 야기할 가능성이 매우 높아진다.

이러한 중의적이고 모호한 표현은 일상 대화나 음성인식 수행 상황에서 매우 빈번하게 일어난다.

따라서, 서비스 품질의 향상을 위해 성능 개선을 위한 기술적 조치 방법이 필요하게 되었다.

<선행기술문헌>

(선행문헌1) 대한민국공개특허번호 제10-2011-0035001호

(선행문헌2) 대한민국등록특허번호 제10-1072113호

따라서 본 발명은 상기와 같은 종래 기술의 문제점을 감안하여 제안된 것으로서, 본 발명의 제1 목적은 음성 인식 또는 텍스트로 입력된 검색어를 획득하여 화자의 발화 의미를 파악하여 도메인 서비스 모델을 판단하고, 판단된 도메인 서비스 모델에 최적화된 언어 모델을 통하여 자연어 분석을 수행하여 입력된 화자의 발화 의미에 내재된 사용자의 의도와 대상(개체명)에 맞는 결과물을 화자에게 제공할 수 있도록 하는데 있다.

즉, 도메인에 최적화된 언어 모델을 통해 자연어 분석을 수행하여 문장에 내재된 화자의 의도와 대상(개체명)을 기반으로 문장을 해석함으로써, 범용 모델을 사용하는 종래 기술보다 높은 해석 성공률을 제공하고자 한다.

본 발명의 제2 목적은 자연어분석부에서 분석된 도메인 서비스 모델과 의도및 대상(개체명)의 확률값이 기준 확률값보다 높거나, 분석된 도메인 서비스 모델별 확률값, 의도별 확률값, 대상별 확률값 중 가장 높은 확률값을 가지는 도메인 서비스 모델 정보, 의도 정보, 대상 정보를 결정하여 제공함으로써, 더욱 정확한 도메인 서비스 모델, 의도와 대상(개체명)에 맞는 결과물을 화자에게 제공하고자 한다.

본 발명이 해결하고자 하는 과제를 달성하기 위하여, 도메인 추출기반의 언어 이해 성능 향상장치는,

음성 인식 또는 텍스트로 입력된 검색어를 획득하여 검색 실시 요청 정보를 도메인판단부(200)로 제공하는 문장입력부(100)와,

상기 문장입력부(100)로부터 검색 실시 요청 정보를 획득할 경우, 자연어를 분석하여 입력된 검색어의 핵심어, 문형, 맥락을 판단하여 검색 실시 요청 정보의 도메인 서비스 모델을 판단하여 언어모델결정부(300)로 판단 결과를 제공하기 위한 도메인판단부(200)와,

도메인 서비스 모델 정보를 획득할 경우, 언어 모델과 개체명 사전을 이용하여 해당 도메인에 최적화된 언어 모델과 개체명 사전을 결정하기 위한 언어모델결정부(300)와,

상기 결정된 도메인에 최적화된 언어 모델을 통하여 자연어 분석을 수행하여 입력된 검색어에 내재된 사용자의 의도와 대상(개체명)을 추출하기 위한 자연어분석부(400)와,

상기 추출된 의도와 대상(개체명)의 결과 정보를 출력시키기 위한 검색요청결과출력부(500)를 포함한다.

한편, 도메인 추출기반의 언어 이해 성능 향상방법은,

문장입력부(100)가 음성 인식 또는 텍스트로 입력된 검색어를 획득하여 검색 실시 요청 정보를 도메인판단부(200)로 제공하는 문장입력단계(S100)와,

도메인판단부(200)가 상기 문장입력부(100)로부터 검색 실시 요청 정보를 획득할 경우, 자연어를 분석하여 입력된 검색어의 핵심어, 문형, 맥락을 판단하여 검색 실시 요청 정보의 도메인 서비스 모델을 판단하여 언어모델결정부(300)로 판단 결과를 제공하기 위한 도메인판단단계(S200)와,

언어모델결정부(300)가 도메인 서비스 모델 정보를 획득할 경우, 언어 모델과 개체명 사전을 이용하여 해당 도메인에 최적화된 언어 모델과 개체명 사전을 결정하기 위한 언어모델결정단계(S300)와,

자연어분석부(400)가 상기 결정된 도메인에 최적화된 언어 모델을 통하여 자연어 분석을 수행하여 입력된 검색어에 내재된 사용자의 의도와 대상(개체명)을 추출하기 위한 자연어분석단계(S400)와,

검색요청결과출력부(500)가 상기 추출된 의도와 대상(개체명)의 결과 정보를 출력시키기 위한 검색요청결과출력단계(S500)를 포함한다.

이상의 구성 및 작용을 지니는 본 발명에 따른 도메인 추출기반의 언어 이해 성능 향상장치 및 성능 향상방법을 통해, 음성 인식 또는 텍스트로 입력된 검색어를 획득하여 화자의 발화 의미를 파악하여 도메인 서비스 모델을 판단하고, 판단된 도메인 서비스 모델에 최적화된 언어 모델을 통하여 자연어 분석을 수행하여 입력된 화자의 발화 의미에 내재된 사용자의 의도와 대상(개체명)에 맞는 결과물을 화자에게 제공할 수 있도록 함으로써, 언어 통합 모델을 이용한 분석 방식이 아닌 도메인 서비스 모델을 1차적으로 결정함에 따른 언어 분석 범위를 한정하게 되어 이에 따른 언어 이해 시스템의 성능을 향상시키게 된다.

구체적으로, 도메인 서비스 모델에 최적화된 언어 모델을 통해 자연어 분석을 수행하여 문장에 내재된 화자의 의도와 대상(개체명)을 기반으로 문장을 해석함으로써, 범용 모델을 사용하는 종래 기술보다 높은 해석 성공률을 제공하게 된다.

또한, 자연어분석부에서 분석된 도메인 서비스 모델과 의도및 대상(개체명)의 확률값이 기준 확률값보다 높거나, 분석된 도메인 서비스 모델별 확률값, 의도별 확률값, 대상별 확률값 중 가장 높은 확률값을 가지는 도메인 서비스 모델 정보, 의도 정보, 대상 정보를 결정하여 제공함으로써, 더욱 정확한 도메인 서비스 모델, 의도와 대상(개체명)에 맞는 결과물을 화자에게 제공하여 검색의 신뢰도를 높일 수 있는 효과를 발휘하게 된다.

예를 들어, 도메인 서비스 모델이 음악 검색인지, 상호명 검색인지 확률적으로 낮은 수치를 보이는 경우에 다시 검색어를 입력하도록 유도함으로써, 검색 신뢰도를 높이는 효과를 제공하는 것이다.

도 1은 본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상장치를 개략적으로 나타낸 전체 구성도.

도 2는 본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상장치의 문장입력부(100)를 나타낸 블록도.

도 3은 본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상장치의 도메인판단부(200)를 나타낸 블록도.

도 4는 본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상장치의 언어모델결정부(300)를 나타낸 블록도.

도 5는 본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상장치의 자연어분석부(400)를 나타낸 블록도.

도 6은 본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상장치의 검색요청결과출력부(500)를 나타낸 블록도.

도 7은 본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상방법의 전체 흐름도.

<부호의 설명>

100 : 문장입력부

200 : 도메인판단부

300 : 언어모델결정부

400 : 자연어분석부

500 : 검색요청결과출력부

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만, 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다.

또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

본 발명을 설명함에 있어서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되지 않을 수 있다.

예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 연결되어 있다거나 접속되어 있다고 언급되는 경우는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해될 수 있다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.

본 명세서에서, 포함하다 또는 구비하다 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것으로서, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해될 수 있다.

본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상장치는,

음성 또는 텍스트로 입력되는 검색어를 획득하여 검색 실시 요청 정보를 도메인판단부(200)로 제공하는 문장입력부(100)와,

상기 문장입력부(100)로부터 검색 실시 요청 정보를 획득할 경우, 음성 또는 텍스트로 입력된 자연어를 분석함으로 입력된 검색어의 핵심어, 문형, 맥락을 판단하여 검색 실시 요청 정보에 대한 도메인 서비스 모델을 판단한 도메인 서비스 모델 정보를 생성하여 언어모델결정부(300)로 제공하기 위한 도메인판단부(200)와,

상기 결정된 도메인에 최적화된 언어 모델을 통하여 자연어 분석을 수행함으로 입력된 검색어에 내재된 사용자의 의도와 대상(개체명)을 추출하여 의도와 대상(개체명)의 결과 정보를 생성하기 위한 자연어분석부(400)와,

상기 생성된 의도와 대상(개체명)의 결과 정보를 출력시키기 위한 검색요청결과출력부(500)를 포함하여 구성되는 것을 특징으로 한다.

상기 문장입력부(100)는,

검색을 위해 입력되는 음성에 대한 음성 인식을 수행하여 음성으로 입력된 검색어를 텍스트로 변환하고, 변환된 검색어에 대한 검색 실시 요청 정보를 도메인판단부로 제공하기 위한 음성인식결과입력모듈(110);

검색을 위해 입력되는 자판 또는 터치 신호를 텍스트로 변환하고, 변환된 검색어에 대한 검색 실시 요청 정보를 도메인판단부로 제공하기 위한 텍스트결과입력모듈(120);을 포함하여 구성되는 것을 특징으로 한다.

상기 도메인판단부(200)는,

입력된 검색어에 대해 자연어 분석처리를 하는 도메인자연어분석모듈(210);

도메인을 결정하기 위한 도메인 서비스 모델 정보를 저장하고 있는 도메인서비스모델DB(220);

상기 도메인자연어분석모듈에 의한 자연어 분석 결과를 토대로 검색어에 내재된 핵심어, 문형, 맥락을 분석하고, 분석 결과를 토대로 상기 도메인서비스모델DB에 저장된 도메인 서비스 모델 정보와 비교하여 도메인 서비스 모델을 판단한 도메인 서비스 모델 정보를 생성하기 위한 도메인서비스모델판단모듈(230);

상기 생성된 도메인 서비스 모델 정보를 언어모델결정부(300)로 제공하기 위한 도메인서비스모델출력모듈(240);을 포함하여 구성되는 것을 특징으로 한다.

상기 언어모델결정부(300)는,

도메인별 언어 모델 정보, 언어 모델별 개체명 사전 정보를 저장하고 있는 도메인별언어모델정보DB(310);

도메인별언어모델정보DB(310)를 토대로 해당 도메인에 최적화된 언어 모델을 선정하고, 언어 모델에 부합된 대상(개체명) 사전을 선정하기 위한 언어모델선정모듈(320);을 포함하여 구성되는 것을 특징으로 한다.

상기 자연어분석부(400)는,

결정된 도메인에 최적화된 언어 모델을 이용하여 자연어를 분석하기 위한 자연어분석모듈(410);

상기 자연어분석모듈에 의한 자연어 분석 결과를 토대로 검색어에 내재된 사용자의 의도를 추출하기 위한 의도추출모듈(420);

상기 자연어분석모듈에 의한 자연어 분석 결과를 토대로 검색어에 내재된 대상(개체명)을 추출하기 위한 개체명추출모듈(430);

상기 의도추출모듈(420)에 의해 추출된 의도와 상기 개체명추출모듈(430)에 의해 추출된 대상(개체명)에 대한 결과 정보를 생성하여 검색요청결과출력부(500)로 제공하는 분석결과제공모듈(440)를 포함하여 구성되는 것을 특징으로 한다.

상기 검색요청결과출력부(500)는,

추출된 사용자 의도 결과 정보를 출력하기 위한 의도결과출력모듈(510);

상기 추출된 대상(개체명) 결과 정보를 출력하기 위한 개체명결과출력모듈(520);을 포함하여 구성되는 것을 특징으로 한다.

한편, 도메인 추출기반의 언어 이해 성능 향상방법은,

문장입력부(100)가 음성 또는 텍스트로 입력된 검색어를 획득하여 검색 실시 요청 정보를 도메인판단부(200)로 제공하는 문장입력단계(S100)와,

도메인판단부(200)가 상기 문장입력부(100)로부터 검색 실시 요청 정보를 획득할 경우, 자연어 분석을 통해 입력된 검색어의 핵심어, 문형, 맥락을 판단하여 검색 실시 요청 정보에 대한 도메인 서비스 모델을 판단한 도메인 서비스 모델 정보를 생성하여 언어모델결정부(300)로 제공하는 도메인판단단계(S200)와,

언어모델결정부(300)가 도메인 서비스 모델 정보를 획득할 경우, 언어 모델과 개체명 사전을 이용하여 해당 도메인에 최적화된 언어 모델과 개체명 사전을 결정하는 언어모델결정단계(S300)와,

자연어분석부(400)가 상기 결정된 도메인에 최적화된 언어 모델을 통하여 자연어 분석을 수행하여 입력된 검색어에 내재된 사용자의 의도와 대상(개체명)을 추출하는 자연어분석단계(S400)와,

검색요청결과출력부(500)가 상기 추출된 의도와 대상(개체명)의 결과 정보를 출력시키는 검색요청결과출력단계(S500)를 포함하는 것을 특징으로 한다.

상기 도메인판단단계(S200)는,

도메인자연어분석모듈(210)에 의해, 입력된 검색어의 자연어 분석처리를 하기 위한 도메인자연어분석단계(S210);

도메인서비스모델판단모듈(230)에 의해, 자연어 분석 결과를 토대로 검색어에 내재된 핵심어, 문형, 맥락을 분석하여 분석 결과를 토대로 도메인서비스모델DB에 저장된 도메인 서비스 모델 정보와 비교하여 도메인 서비스 모델을 판단한 도메인 서비스 모델 정보를 생성하기 위한 도메인서비스모델판단단계(S220);

도메인서비스모델출력모듈(240)에 의해, 상기 생성된 도메인 서비스 모델 정보를 언어모델결정부(300)로 제공하기 위한 도메인서비스모델출력단계(S230);를 포함하는 것을 특징으로 한다.

상기 자연어분석단계(S400)는,

자연어분석모듈(410)에 의해, 결정된 도메인에 최적화된 언어 모델을 이용하여 자연어 분석을 수행하기 위한 자연어분석단계(S410);

의도추출모듈(420)에 의해, 상기 자연어분석모듈에 의한 자연어 분석 결과를 토대로 검색어에 내재된 사용자의 의도를 추출하기 위한 의도추출단계(S420);

개체명추출모듈(430)에 의해, 상기 자연어분석모듈에 의한 자연어 분석 결과를 토대로 검색어에 내재된 대상(개체명)을 추출하기 위한 개체명추출단계(S430);를 포함하는 것을 특징으로 한다.

상기 검색요청결과출력단계(S500)는,

의도결과출력모듈(510)에 의해, 추출된 사용자 의도 결과 정보를 출력하기 위한 의도결과출력단계(S510);

개체명결과출력모듈(520)에 의해, 상기 추출된 대상(개체명) 결과 정보를 출력하기 위한 개체명결과출력단계(S520);를 포함하는 것을 특징으로 한다.

이하에서는, 본 발명에 의한 도메인 추출기반의 언어 이해 성능 향상장치 및 향상 방법의 실시예를 통해 상세히 설명하도록 한다.

도 1은 본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상장치를 개략적으로 나타낸 전체 구성도이다.

도 1에 도시한 바와 같이, 본 발명인 도메인 추출기반의 언어 이해 성능 향상장치(1000)는 음성이나 텍스트 입력에 대해 화자의 발화 의미를 파악할 수 있도록 의도(Intention)와 대상(Named Entity)을 자동으로 추출하는 장치이며, 의도와 대상 추출 후보에 대하여 1차적으로 도메인 서비스 모델을 선정한 후, 2차적으로 의도와 대상을 추출하며, 부수적으로 확률값 비교를 이용하기 때문에 복잡하고 중의적인 문장에 대한 처리도 가능한 장점을 발휘한다.

또한, 본 발명인 도메인 추출기반의 언어 이해 성능 향상장치는 복수의 언어 모델을 사용하여 언어 이해 시스템 성능을 향상시키게 된다.

즉, 본 발명의 언어 모델(Language Model)은 도메인(Domain) 서비스 모델을 찾아줄 수 있기 때문에 여러 서비스 중에 특정 서비스 모델을 통해 화자의 의도와 대상(개체명)을 종래의 일반적인 통합 언어 모델보다 더욱 정확하게 판단할 수 있다.

구체적으로, 해당 도메인 서비스에 특화된 언어 모델을 통해 자연어 처리(NLU)를 수행하면, 더 높은 성능의 의미 분석 시스템 운영이 가능하다.

상기 더 높은 성능이란, 분석 속도, 분석 정확도를 의미하며, 본 발명을 통해 종래 기술보다 분석 속도면에서, 분석 정확도에서 더욱 향상된 성능을 제공하게 된다.

종래 기술의 경우에는 한 번의 처리로 개체명 인식(Named Entity)과 의도(Intention)을 추출하여 결과 처리가 가능하지만, 결과 처리를 위하여 상당한 시간을 소요하게 되며, 모호한 문장이나 사전에 없는 단어가 개체명 인식(Named Entity)으로 입력될 경우, 분석 정확도가 떨어지는 성능의 저하가 발생할 수 있다.

이러한 경우, 일반적인 통합 언어 모델의 경우에는 확률값이 조금 더 높은 쪽으로 의도가 정해지게 되거나, 둘 다 확률이 낮으면 다시 입력하라는 거절 메시지가 출력될 수 있다.

낮은 확률값임에도 불구하고 어느 하나를 선택해야 하는 상황이나, 또는 둘 다 낮아서 거절을 하는 경우, 모두 오류가 발생하거나 사용자 불만을 야기할 가능성이 매우 높아진다.

그러나, 본 발명인 도메인 추출기반의 언어 이해 성능 향상장치를 통해, 서비스 품질 향상을 위한 성능 개선이 가능하게 되는 것이다.

본 발명에서 설명하고 있는 언어 이해(Embedded Natural Language Understanding) 기술은 전자 기기 내부에 규칙 기반(Rule Based) 알고리즘 또는 통계 모델(Statistic Model)을 이용하는 자연어 처리 모듈을 내장하여, 음성인식 결과 텍스트에서 사용자의 최종 목표인 명령 의도(Intention, Goal)와 구체적인 명령 대상(Named Entity)을 자동으로 추출하는 방법을 의미하며, 텍스트에서 사용자의 명령 대상값을 추출하게 되는 것이다.

상기 사용자의 명령 대상값을 추출하는 기술은 일반적인 기술이므로 상세한 설명은 생략하겠다.

상기와 같은 서비스 품질 향상을 위한 성능 개선을 제공하기 위한 도메인 추출기반의 언어 이해 성능 향상장치는 문장입력부(100), 도메인판단부(200), 언어모델결정부(300), 자연어분석부(400), 검색요청결과출력부(500)를 포함하여 구성된다.

구체적으로 설명하면, 상기 문장입력부(100)는 음성 또는 텍스트로 입력되는 검색어를 획득하여 검색 실시 요청 정보를 도메인판단부(200)로 제공하게 된다.

예를 들어, '소나기 찾아봐'라는 음성 정보를 획득하게 되면 검색 실시 요청 정보를 생성하여 도메인판단부로 제공하게 되며, '소나기 찾아봐'라는 문장 즉, 텍스트 정보를 획득하게 되면 이에 대한 검색 실시 요청 정보를 생성하여 도메인판단부로 제공하게 되는 것이다.

상기 도메인판단부(200)는 서비스 제공을 위한 도메인 서비스 모델을 판단하는 기능을 수행하는 것이며, 구체적으로는 상기 문장입력부(100)로부터 검색 실시 요청 정보를 획득할 경우, 음성 또는 텍스트로 입력된 자연어를 분석함으로 입력된 검색어의 핵심어, 문형, 맥락을 판단하여 검색 실시 요청 정보에 대한 도메인 서비스 모델을 판단한 도메인 서비스 모델 정보를 생성하여 언어모델결정부(300)로 제공하게 된다.이때 도메인 서비스 모델 판단시 기 저장된 이전발화정보도 이용한다.

예를 들어, '소나기 찾아줘'라는 검색어를 획득하게 되면, 핵심어인 '소나기'와 문형인 '찾아줘'와 맥락인 '소나기 찾아줘'와 이전에 발화한 내용에 대한 이전발화정보 등을 이용하여 도메인 서비스 모델을 판단한 도메인 서비스 모델 정보를 생성하게 되는 것이다.

즉, 핵심어, 문형, 맥락, 이전발화정보 등을 활용하여 상기 문장의 분석을 통해 제공해야 하는 서비스가 음악 검색(멀티미디어 서비스)인지, 상호명 검색(내비게이션 검색)인지를 판단(예측)하게 되는 것이며, 도메인 서비스 모델이 판단되면 언어모델결정부(300)로 판단 결과 정보인 도메인 서비스 모델 정보를 제공하게 된다. 이때 도메인 서비스 모델 판단시 사전에 저장된 이전발화정보를 이용한다.

예를 들어, 사전에 저장된 이전발화정보를 통해 이전에 발화한 내용이 '최근 음악 틀어줘', '아이돌 음악 틀어줘' 인 경우, 이러한 이전발화정보를 토대로 사용자가 제시한 검색어는 상호명 검색이 아닌 음악 검색을 요청하는 것임을 예측하게 되는 것이다. 상기한 이전발화정보는 별도의 메모리부에 저장할 수도 있다.

그리고, 도메인 서비스 모델은 서비스의 종류를 구분하여 정의된 정보를 의미하는 것으로서, 예를 들어, 음악 검색 도메인, 상호명 검색 도메인, 언어사전 검색 도메인, 뉴스 검색 도메인 등으로 사전에 구분해 놓은 서비스 모델을 의미할 수 있다.

상기 언어모델결정부(300)는 도메인 서비스 모델 정보를 획득할 경우, 언어 모델과 개체명 사전을 이용하여 상기 도메인판단부(200)가 생성한 도메인 서비스 모델 정보속의 해당 도메인에 최적화된 언어 모델과 개체명 사전을 결정하게 된다.

예를 들어, 검색어인 '소나기 찾아줘'에 대해 도메인판단부(200)가 생성한 도메인 서비스 모델 정보가 음악 검색 도메인을 나타내는 경우, 음악 검색에 최적화된 언어 모델과 개체명 사전을 결정하게 되는 것이다.

즉, 음악 검색에 최적화된 음악 언어 모델, 상호명 검색에 최적화된 상호명 언어 모델, 주소 검색에 최적화된 주소 언어 모델을 결정하는 것이고, 개체명 사전의 경우에도 음악 검색에 최적화된 음악 개체명 사전, 상호명 검색에 최적화된 상호명 개체명 사전, 주소 검색에 최적화된 주소 개체명 사전을 결정하는 것이다.

상기 자연어분석부(400)는 상기 언어모델결정부(300)가 결정한 언어 모델과 개체명 사전을 이용하여 검색어에 대한 자연어 분석을 수행함으로 입력된 검색어에 내재된 사용자의 의도와 대상(개체명)을 추출한다.

예를 들어, 검색어가 음악 검색에 대한 것이면 상기 언어모델결정부(300)가 결정한 음악 언어 모델과 음악 개체명 사전을 이용하여 자연어 분석을 시도하고,검색어가 상호명 검색에 대한 것이면 상기 언어모델결정부(300)가 결정한 상호명 언어 모델과 상호명 개체명 사전을 이용하여 자연어 분석을 시도하고, 검색어가 주소 검색에 대한 것이면 상기 언어모델결정부(300)가 결정한 주소 언어 모델과 주소 개체명 사전을 이용하여 자연어 분석을 시도한다.

즉, 자연어분석부(400)는 상기 언어모델결정부(300)가 결정한 언어 모델과 개체명 사전을 이용하여 검색어에 대한 자연어 분석을 수행하여 입력된 검색어에 내재된 사용자의 의도와 대상(개체명)을 추출하게 된다. 예를 들어, '소나기 틀어줘'란 검색어에 대해서는 '음악 재생'이라는 사용자 의도와 '소나기'라는 재생 대상(개체명) 정보를 추출하게 되는 것이고, '소나기 찾아줘'란 검색어에 대해서는 '소나기란 음악 정보 검색'이라는 사용자 의도와 '소나기 음악 정보'라는 검색 대상(개체명) 정보를 추출하게 되는 것다.

상기 검색요청결과출력부(500)는 상기 추출된 사용자의 의도와 대상(개체명)에 대한 결과 정보를 출력하게 된다.

예를 들어, '소나기 찾아줘'란 검색어에 대해 음악 소나기에 대한 타이틀명, 장르명, 아티스트명, 음악 파일 등과 같은 음악 정보를 결과정보로 하여 출력하여 검색자에게 제공한다.

또한, 추가적으로 상기 검색요청결과출력부(500)는 음악 파일을 멀티미디어재생장치로 제공하여 결과정보속의 음악파일을 재생하게 할 수도 있다.

본 발명에서 설명하고 있는 언어 모델이란, 자연어 안에서 문법, 구문, 단어 등에 대한 규칙성을 찾아내고, 그 규칙성을 이용하여 검색하고자 하는 대상의 정확도를 높이기 위한 알고리즘을 의미한다.

이때, 일반적으로 사용되는 방식이 확률값을 산출하는 통계적 모델링 기법이며, 이는 대량의 말뭉치에서 언어 규칙을 확률로 나타내고, 확률값을 통해서 탐색 영역을 제한하는 방법이다.

그리고, 음성 인식에서 정확성뿐만 아니라, 탐색 공간을 급격히 줄여주는 장점이 있으며, 모든 가능한 문장의 확률적 분포로 문장의 확률 모델을 기반으로 하기 때문에 학습데이터로부터 확률 모델의 학습이 필요하다.

그리고, 대부분의 언어 모델링 응용분야에서 통계적 언어모델인 N-Gram이 가장 성공적인 언어 모델로 알려져 있으며, 본 발명에서도 바람직하게는 N-Gram을 사용하게 된다.

그리고, 후술할 확률값을 계산하는 기술은 통계학 혹은 음성 인식 기술에서 주로 사용하는 기술로서, 토픽 모델, 오피니언 마이닝, 텍스트 요약, 데이터 분석, 여론 조사 등에서 일반적으로 적용되는 기술이므로 확률값을 계산하는 원리를 설명하지 않아도 당업자들은 상기한 의미를 충분히 이해할 수 있다는 것은 자명한 사실이다.

다음은 문장입력부(100)의 구체적인 구성수단들은 하기의 도면을 참조하여 구체적으로 설명하도록 하겠다.

도 2는 본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상장치의 문장입력부(100)를 나타낸 블록도이다.

도 2에 도시한 바와 같이, 본 발명의 문장입력부(100)는 음성인식결과입력모듈(110), 텍스트결과입력모듈(120)을 포함하여 구성된다.

구체적으로 설명하면, 상기 음성인식결과입력모듈(110)은 검색을 위해 입력되는 음성에 대한 음성 인식을 수행하여 음성으로 입력된 검색어를 텍스트로 변환하고, 변환된 검색어에 대한 검색 실시 요청 정보를 도메인판단부로 제공하기 위한 기능을 수행한다.

즉, 음성인식결과입력모듈은 검색을 위해 입력되는 음성에 대한 음성 인식을 수행하여 음성으로 입력된 검색어를 텍스트로 변환하고, 텍스트로 변환된 검색어에서 사용자의 명령 대상값을 추출하고 추출한 명령 대상값에 대한 검색실시요청 정보를 도메인판단부로 제공게 되는데, 상기 음성인식결과입력모듈은 보통 음성 인식기가 이해할 수 있는 인식 문법(Grammar) 기반으로 음성인식을 수행하는데, 인식 대상 목록이 정해져 있고, 그 대상 목록만이 인식 결과로 출력될 수 있는 구조를 지닌다.

상기 텍스트결과입력모듈(120)은 검색을 위해 입력되는 자판 또는 터치 신호를 텍스트로 변환하고, 변환된 검색어에 대한 검색 실시 요청 정보를 도메인판단부로 제공하게 된다.

즉, PC, 각종 스마트단말기, 차량 네비게이션 등에 형성된 자판 또는 터치 패널을 통해 입력되는 신호를 텍스트로 변환하고, 텍스트로 변환된 검색어에서 사용자의 명령 대상값을 추출하고 추출한 명령 대상값에 대한 검색실시요청 정보를 도메인판단부로 제공하는 것이다.

예를 들어, 음성 혹은 텍스트로 '소나기 틀어줘'를 입력하게 되면 소나기란 음악을 검색하여 재생하라는 검색실시 요청을 하는 것이다.

다음은 도메인판단부(200)의 구체적인 구성수단들은 하기의 도면을 참조하여 구체적으로 설명하도록 하겠다.

도 3은 본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상장치의 도메인판단부(200)를 나타낸 블록도이다.

도 3에 도시한 바와 같이, 상기 도메인판단부(200)는 도메인자연어분석모듈(210), 도메인서비스모델DB(220), 도메인서비스모델판단모듈(230), 도메인서비스모델출력모듈(240)을 포함하여 구성된다.

구체적으로 설명하면,

상기 도메인자연어분석모듈(210)은 입력된 검색어에 대해 자연어 분석 처리를 수행한다.

즉, '소나기 틀어줘'의 문장에 대한 자연어를 분석하게 되는 것이며, 자연어를 분석하는 기술은 일반적인 기술이므로 상세한 설명은 생략하겠다.

상기 도메인서비스모델DB(220)는 도메인서비스모델판단모듈(230)이 도메인 서비스 모델 정보 생성시 이용할 참조정보를 저장하고 있다.

즉, 참조정보는 아래표 1에 예시된 바와 같이 검색어의 핵심어 정보, 문형 정보, 이전발화정보가 매칭된 정보인 것을 특징으로 한다.

상기 도메인서비스모델판단모듈(230)은 상기 도메인자연어분석모듈(210)에 의한 자연어 분석 결과를 토대로 검색어에 내재된 핵심어, 문형, 맥락을 분석하고, 분석 결과를 상기 도메인서비스모델DB에 저장된 참조정보와 비교하여 검색 실시 요청 정보에 대한 도메인 서비스 모델 정보를 생성한다.

<표 1>

표 1을 참조하여 설명하면, 예를 들어, 검색어가 '소나기를 틀어줘'였다면, 도메인서비스모델DB에 저장된 표 1과 같은 데이터 필드를 참조하게 된다.

이때, 자연어 분석 결과를 토대로 '소나기'라는 핵심어와 매칭되어 있는 도메인 서비스 모델 정보를 추출하게 되고, 여기에 문형인 '틀어줘'라는 문형과 매칭되어 있는 도메인 서비스 모델 정보를 추출하게 되는데, 이때에 추가적으로 이전발화정보를 참조하여 과거에 해당 사용자가 최신 가요, 팝송 등의 검색을 요청한 정보가 저장되어 있었다면 사용자가 원하는 검색은 음악 검색이라는 것을 예측할 수 있게 되므로 도메인 서비스 모델로 음악 검색 서비스 모델 정보를 생성하게 되는 것이다.

즉, 도메인서비스모델판단모듈(230)을 통해 검색어의 핵심어는 '소나기', 문형은 '틀어줘', 맥락은 '음악 재생', 이라는 것을 분석하게 되며, 이를 토대로 도메인서비스모델DB에 저장된 음악 검색, 상호명 검색, 언어사전 검색, 뉴스 검색에 대한 참조정보와 비교하여 도메인 서비스 모델을 판단하게 되는데, 특히 참조정보속의 이전발화정보를 통해 도메인 서비스 모델로 음악 검색 서비스라는 것을 판단하게 된다.

부가적으로, 상기 도메인서비스모델판단모듈(230)은 상기 도메인 서비스 모델 정보 생성시 머신 러닝 모델을 이용하여 후보 도메인 서비스 모델들에 대한 확률값을 계산하고, 계산된 확률값중 가장 높은 후보 도메인을 도메인 서비스 모델로 결정하고,도메인 서비스 모델로 결정된 서비스 모델의 확률값이 사전에 설정된 기준 확률값보다 높은 경우에만 도메인 서비스 모델을 생성하는 것을 특징으로 한다.

예를 들어, 머신 러닝 모델에 의해 계산된 후보 도메인 서비스 모델들의 확률값 중 음악 도메인의 확률값이 95%, 상호명 도메인의 확률값이 4%, 주소검색 도메인의 확률값이 1%라면 이중에서 음악 도메인의 확률값이 가장 높으므로 이를 도메인 서비스 모델로 결정하는 것이다.

또한, 확률값이 가장 높아 도메인 서비스 모델로 결정된 서비스 모델이 음악 도메인의 확률값이 95%이며, 사전 설정된 기준 확률값이 85% 라면 음악 도메인을 도메인 서비스 모델로 결정하여 도메인 서비스 모델을 생성하는 것이다.

물론 도메인 서비스 모델로 결정된 서비스 모델의 확률값이 사전에 설정된 기준 확률값보다 낮은 경우에는 도메인 서비스 모델을 생성하지 않는 것을 특징으로 한다.

또한, 상기 도메인서비스모델판단모듈(230)은 확률값 계산시 딥러닝 모델 또는 룰 모델을 사용할 수도 있다.

상기 도메인서비스모델출력모듈(240)은 생성된 상기 도메인 서비스 모델 정보를 언어모델결정부(300)로 제공하게 된다.

즉, 도메인 서비스 모델 정보로 '음악 검색'이라는 정보를 제공하게 된다.

다음은 언어모델결정부(300)의 구체적인 구성수단들은 하기의 도면을 참조하여 구체적으로 설명하도록 하겠다.

도 4는 본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상장치의 언어모델결정부(300)를 나타낸 블록도이다.

도 4에 도시한 바와 같이, 상기 언어모델결정부(300)는 도메인별언어모델정보DB(310), 언어모델선정모듈(320)을 포함하여 구성된다.

구체적으로 설명하자면, 상기 도메인별언어모델정보DB(310)는 도메인별 언어 모델 정보, 언어 모델별 개체명 사전 정보를 저장하고 있게 된다.

<표 2>

표 2를 참조하여 설명하면, 상기 도메인별언어모델정보DB에는 음악 검색-음악 언어 모델, 상호명 검색- 상호명 언어 모델, 언어사전 검색 - 언어사전 언어모델, 뉴스 검색- 뉴스검색 언어 모델로 최적화한 언어 모델을 매칭시켜 저장하게 되며, 언어 모델별 개체명 사전 정보로는 음악 검색-음악 개체명 사전, 상호명 검색- 상호명 개체명 사전, 언어사전 검색 - 언어사전 개체명 사전, 뉴스 검색- 뉴스검색 개체명 사전으로 최적화한 개체명 사전 정보를 매칭시켜 저장하게 된다.

상기 언어모델선정모듈(320)은 도메인별언어모델정보DB(310)를 토대로 해당 도메인에 최적화된 언어 모델을 선정하고, 언어 모델에 부합된 대상(개체명) 사전을 선정하게 된다.

예를 들어, 도메인 서비스 모델을 음악 검색 도메인으로 선정하였다면, 이에 최적화된 언어 모델과 언어 모델에 부합된 대상(개체명) 사전을 선정하게 되는데, 상기한 음악 검색에 최적화된 언어 모델인 음악 언어 모델, 음악 개체명 사전을 선정하게 된다.

다음은 자연어분석부(400)의 구체적인 구성수단들은 하기의 도면을 참조하여 구체적으로 설명하도록 하겠다.

도 5는 본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상장치의 자연어분석부(400)를 나타낸 블록도이다.

도 5에 도시한 바와 같이, 상기 자연어분석부(400)는 자연어분석모듈(410), 의도추출모듈(420), 개체명추출모듈(430), 분석결과제공모듈(440)을 포함하여 구성된다.

구체적으로 설명하면, 상기 자연어분석모듈(410)은 결정된 도메인에 최적화된 언어 모델을 이용하여 자연어를 분석하게 된다.

예를 들어, 음악 검색에 최적화된 음악 언어 모델을 이용하여 자연어를 분석하게 되며, 이때, 필요에 따라 음악 언어 모델과 매칭되어 있는 음악 개체명 사전도 동시에 이용할 수도 있다.

예를 들어, '마음이 울적한데 소나기를 틀어주면 좋겠어'라는 음성 혹은 텍스트에 대하여 사용자의 최종 목표인 명령 의도(Intention, Goal)와 구체적인 명령 대상(Named Entity)을 추출하게 되는 것이다.

즉, '마음', '울적', '소나기', '틀어', '좋겠어'라는 자연어 분석 결과를 제공한다.

이때, 상기 의도추출모듈(420)은 자연어분석모듈에 의한 자연어 분석 결과를 토대로 검색어에 내재된 사용자의 의도를 추출하게 되는데, 예를 들어, 사용자의 의도가 '음악을 재생해달라'는 것임을 추출하게 된다.

특히, 상기 의도추출모듈(420)은 상기 자연어분석모듈에 의한 자연어 분석 결과를 토대로 검색어에 내재된 사용자의 의도들에 대한 확률값을 머신 러닝 모델을 이용하여 계산하고, 계산된 확률값이 가장 높은 것을 사용자의 의도로 추출하는 것을 특징으로 한다.

예를 들어, 머신 러닝 모델을 이용하여 계산된 사용자 의도들에 대한 확률값 중 음악 틀기의 확률값이 95%, 상호명 검색의 확률값이 4%, 주소검색 의도의 확률값이 1%라면 이 중에서 음악 틀기의 확률값이 가장 높으므로 이를 사용자(화자)의 의도로 결정하는 것이다.

상기 의도추출모듈(420)은 확률값 계산을 위해 딥러닝 모델 또는 룰 모델을 사용할 수도 있다.

상기 개체명추출모듈(430)은 자연어분석모듈에 의한 자연어 분석 결과를 토대로 검색어에 내재된 대상(개체명)을 추출하게 되는데, 예를 들어, 대상이 '소나기'라는 것을 추출하게 된다.

특히, 상기 개체명추출모듈(430)은 상기 자연어분석모듈에 의한 자연어 분석 결과를 토대로 검색어에 내재된 대상(개체명)들에 대한 확률값을 머신 러닝 모델을 이용하여 계산하고, 계산된 확률값이 가장 높은 것을 대상(개체명)으로 추출하는 것을 특징으로 한다.

예를 들어, 머신 러닝 모델을 이용하여 계산된 대상(개체명)들에 대한 확률값 중 소나기의 확률값이 95%, 소나 소울의 확률값이 4%, 소나타의 확률값이 1%라면 이 중에서 소나기의 확률값이 가장 높으므로 이를 대상(개체명)으로 결정하는 것이다.

상기 개체명추출모듈(430)은 확률값 계산을 위해 딥러닝 모델 또는 룰 모델을 사용할 수도 있다.

즉, 상기와 같은 동작을 통해 도메인 서비스 모델에 특화된 언어 모델을 통하여 자연어 분석을 하게 되고, 문장에 내재된 사용자의 의도와 개체명을 추출하게 되며, 이를 통해 도메인을 한정하여 문장을 해석하게 되어 범용 모델을 사용하는 종래 기술보다 훨씬 높은 해석 성공률과 훨씬 빠른 분석 속도를 제공하는 효과를 발휘하게 된다.

상기 분석결과제공모듈(440)는 의도추출모듈(420)에 의해 추출된 사용자 의도와 개체명추출모듈(430)에 의해 추출된 대상(개체명)에 대한 결과 정보를 생성하여 검색요청결과출력부(500)로 제공한다.

특히, 상기 분석결과제공모듈(440)는 의도추출모듈(420)에 의해 추출된 의도의 확률값과 개체명추출모듈(430)에 의해 추출된 대상(개체명)의 확률값을 사전에 설정된 기준 확률값과 비교하고, 비교 결과 사전에 설정된 기준 확률값보다 높은 경우에만 상기 의도추출모듈(420)에 의해 추출된 사용자의 의도와 상기 개체명추출모듈(430)에 의해 추출된 대상(개체명)을 결과 정보로 생성하는 것을 특징으로 한다.

즉, 분석결과제공모듈(440)는 의도추출모듈(420)에 의해 추출된 의도와 개체명추출모듈(430)에 의해 추출된 대상(개체명)의 확률값이 기준 확률값보다 높은 경우에만 사용자의 의도와 대상(개체명)에 대한 결과 정보를 생성하는 것이다.

예를 들어, 의도추출모듈(420)에 의해 추출된 의도인 음악 틀기의 확률값(머신 러닝 모델 이용하여 계산된 확률값)이 95%이고 개체명추출모듈(430)에 의해 추출된 대상(개체명)인 소나기의 확률값(머신 러닝 모델 이용하여 계산된 확률값)이 99%이고, 기준 확률값이 85%라면 사용자 의도는 음악 틀기, 대상(개체명)은 소나기로라는 결과정보를 생성하는 것이다.

물론 의도나 대상(개체명)중 적어도 어느 하나가 기준 확률값 미만이면 결과정보를 생성하지 않는다.

다음은 검색요청결과출력부(500)의 구체적인 구성수단들은 하기의 도면을 참조하여 구체적으로 설명하도록 하겠다.

도 6은 본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상장치의 검색요청결과출력부(500)를 나타낸 블록도이다.

도 6에 도시한 바와 같이, 상기 검색요청결과출력부(500)는 의도결과출력모듈(510), 개체명결과출력모듈(520)을 포함하여 구성된다.

구체적으로 설명하면, 의도결과출력모듈(510)은 추출된 사용자 의도 결과 정보를 출력하게 되는데, 예를 들어, 의도 결과 정보로 '음악 재생' 을 출력하게 되며, 개체명결과출력모듈(520)은 추출된 대상(개체명) 결과 정보를 출력하게 되는데, 예를 들어, 소나기와 관련된 타이틀명, 장르명, 아티스트명, 재생 파일 정보를 출력한다.

또한, 추가적으로 상기 검색요청결과출력부(500)는 재생모듈(미도시)을 더 포함할 수 있고, 재생모듈은 개체명결과출력모듈(520)이 출력한 대상(개체명) 결과 정보에 해당하는 음악 파일을 멀티미디어재생장치로 제공하여 음악파일을 재생하게 할 수도 있다.

다음은 본 발명인 도메인 추출기반의 언어 이해 성능 향상방법에 대하여 도 7을 참조하여 구체적으로 설명하도록 하겠다.

도 7은 본 발명의 제1 실시예에 따른 도메인 추출기반의 언어 이해 성능 향상방법의 전체 흐름도이다.

도 7에 도시한 바와 같이, 도메인 추출기반의 언어 이해 성능 향상방법은, 문장입력단계(S100), 도메인판단단계(S200), 언어모델결정단계(S300), 자연어분석단계(S400), 검색요청결과출력단계(S500)를 포함하게 된다.

구체적으로 설명하면, 문장입력단계(S100)는 문장입력부(100)가 음성 또는 텍스트로 입력된 검색어를 획득하여 검색 실시 요청 정보를 도메인판단부(200)로 제공하는 단계이다.

즉, 사용자가 음성 또는 텍스트로 검색어를 제공하게 되면, 음성 인식이나 신호변환을 통해 검색어를 획득하게 되는데, 검색어는 단어 단위를 포함한 문장 단위의 입력 전체를 의미하게 된다.

이후, 획득된 검색어에 대한 검색 실시 요청 정보를 도메인판단부(200)로 제공하게 된다.

상기 문장입력단계(S100)에 대한 구체적 구성적 특징은 도메인 추출기반의 언어 이해 성능 향상장치 부분에서 상술한 바와 동일하여 생략하기로 한다.

상기 도메인판단단계(S200)는 도메인판단부(200)가 상기 문장입력부(100)로부터 검색 실시 요청 정보를 획득할 경우, 자연어 분석을 통해 입력된 검색어의 핵심어, 문형, 맥락을 판단하여 검색 실시 요청 정보에 대한 도메인 서비스 모델을 판단한 도메인 서비스 모델 정보를 생성하여 언어모델결정부(300)로 제공하는 단계이다.

상기 도메인판단단계(S200)는, 도메인자연어분석단계(S210), 도메인서비스모델판단단계(S220), 도메인서비스모델출력단계(S230)를 포함하게 된다.

구체적으로 도메인자연어분석단계(S210)는 도메인자연어분석모듈(210)이 입력된 검색어의 자연어 분석처리를 하게 된다.

이때, 도메인서비스모델판단단계(S220)는 도메인서비스모델판단모듈(230)에 의해, 자연어 분석 결과를 토대로 검색어에 내재된 핵심어, 문형, 맥락을 분석하여 분석 결과를 토대로 도메인서비스모델DB에 저장된 도메인 서비스 모델 정보와 비교하여 도메인 서비스 모델을 판단한 도메인 서비스 모델 정보를 생성하는 단계이다.

예를 들어, 검색어의 핵심어는 '소나기', 문형은 '틀어줘', 맥락은 '음악 재생'이라는 것을 분석하게 되며, 이를 토대로 도메인서비스모델DB에 저장된 참조정보인 음악 검색, 상호명 검색, 언어사전 검색, 뉴스 검색과 비교하여 도메인 서비스 모델을 판단하게 되는데, 여기서는 도메인 서비스 모델로 음악 검색 서비스라는 것을 판단하게 된다.

이후, 도메인서비스모델출력단계(S230)는 도메인서비스모델출력모듈(240)에 의해, 상기 상기 생성된 도메인 서비스 모델 정보를 언어모델결정부(300)로 제공하게 되는 것이다.

상기 도메인판단단계(S200)에 대한 구체적 구성적 특징은 도메인 추출기반의 언어 이해 성능 향상장치 부분에서 상술한 바와 동일하여 생략하기로 한다.

상기 언어모델결정단계(S300)는 언어모델결정부(300)가 도메인 서비스 모델 정보를 획득할 경우, 언어 모델과 개체명 사전을 이용하여 해당 도메인에 최적화된 언어 모델과 개체명 사전을 결정하기 위한 단계이다.

구체적으로, 언어모델결정부(300)의 언어모델선정모듈(320)을 통해 도메인별언어모델정보DB(310)를 참조하여 해당 도메인에 최적화된 언어 모델을 선정하고, 언어 모델에 부합된 대상(개체명) 사전을 선정하게 되는 것이다.

상기 언어모델결정단계(S300)에 대한 구체적 구성적 특징은 도메인 추출기반의 언어 이해 성능 향상장치 부분에서 상술한 바와 동일하여 생략하기로 한다.

상기 자연어분석단계(S400)는 자연어분석부(400)가 상기 결정된 도메인에 최적화된 언어 모델을 통하여 자연어 분석을 수행하여 입력된 검색어에 내재된 사용자의 의도와 대상(개체명)을 추출하기 위한 단계이다.

이때, 자연어분석단계(S400)는 자연어분석단계(S410), 의도추출단계(S420), 개체명추출단계(S430)를 포함하게 된다.

구체적으로, 자연어분석단계(S400)는,

개체명추출모듈(430)에 의해, 상기 자연어분석모듈에 의한 자연어 분석 결과를 토대로 검색어에 내재된 대상(개체명)을 추출하기 위한 개체명추출단계(S430);를 포함한다.

상기 자연어분석단계(S400)에 대한 구체적 구성적 특징은 도메인 추출기반의 언어 이해 성능 향상장치 부분에서 상술한 바와 동일하여 생략하기로 한다.

상기 검색요청결과출력단계(S500)는 검색요청결과출력부(500)가 상기 추출된 의도와 대상(개체명)의 결과 정보를 출력시키는 단계이다.

이때, 검색요청결과출력단계(S500)는 의도결과출력단계(S510), 개체명결과출력단계(S520)를 포함하게 된다.

구체적으로, 의도결과출력단계(S510)는,

개체명결과출력모듈(520)에 의해, 상기 추출된 대상(개체명) 결과 정보를 출력하기 위한 개체명결과출력단계(S520);를 포함한다.

상기 검색요청결과출력단계(S500)에 대한 구체적 구성적 특징은 도메인 추출기반의 언어 이해 성능 향상장치 부분에서 상술한 바와 동일하여 생략하기로 한다.

본 발명에 의하면, 음성 인식 또는 텍스트로 입력된 검색어를 획득하여 화자의 발화 의미를 파악하여 도메인 서비스 모델을 판단하고, 판단된 도메인 서비스 모델에 최적화된 언어 모델을 통하여 자연어 분석을 수행하여 입력된 화자의 발화 의미에 내재된 사용자의 의도와 대상(개체명)에 맞는 결과물을 화자에게 제공할 수 있도록 함으로써, 언어 통합 모델을 이용한 분석 방식이 아닌 도메인 서비스 모델을 1차적으로 결정함에 따른 언어 분석 범위를 한정하게 되어 이에 따른 언어 이해 시스템의 성능을 향상시키게 된다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

본 발명에 따른 도메인 추출기반의 언어 이해 성능 향상장치 및 성능 향상방법을 통해, 음성 인식 또는 텍스트로 입력된 검색어를 획득하여 화자의 발화 의미를 파악하여 도메인 서비스 모델을 판단하고, 판단된 도메인 서비스 모델에 최적화된 언어 모델을 통하여 자연어 분석을 수행하여 입력된 화자의 발화 의미에 내재된 사용자의 의도와 대상(개체명)에 맞는 결과물을 화자에게 제공할 수 있도록 함으로써, 언어 통합 모델을 이용한 분석 방식이 아닌 도메인 서비스 모델을 1차적으로 결정함에 따른 언어 분석 범위를 한정하게 되어 이에 따른 언어 이해 시스템의 성능을 향상시키게 효과가 있어, 산업상 이용가능성도 높다.

Claims

도메인 추출기반의 언어 이해 성능 향상 장치에 있어서,

음성 또는 텍스트로 입력되는 검색어를 획득하여 검색 실시 요청 정보를 도메인판단부(200)로 제공하는 문장입력부(100)와,

상기 문장입력부(100)로부터 검색 실시 요청 정보를 획득할 경우, 음성 또는 텍스트로 입력된 자연어를 분석함으로 입력된 검색어의 핵심어, 문형, 맥락을 판단하여 검색 실시 요청 정보에 대한 도메인 서비스 모델을 판단한 도메인 서비스 모델 정보를 생성하여 언어모델결정부(300)로 제공하기 위한 도메인판단부(200)와,

도메인 서비스 모델 정보를 획득할 경우, 언어 모델과 개체명 사전을 이용하여 상기 도메인판단부(200)가 생성한 도메인 서비스 모델 정보속의 해당 도메인에 최적화된 언어 모델과 개체명 사전을 결정하기 위한 언어모델결정부(300)와,

상기 언어모델결정부(300)가 결정한 언어 모델과 개체명 사전을 이용하여 검색어에 대한 자연어 분석을 수행함으로 입력된 검색어에 내재된 사용자의 의도와 대상(개체명)을 추출하고, 추출된 사용자의 의도와 대상(개체명)에 대한 결과정보를 생성하기 위한 자연어분석부(400)와,

상기 생성된 사용자의 의도와 대상(개체명)에 대한 결과 정보를 출력시키기 위한 검색요청결과출력부(500)를 포함하여 구성되는 도메인 추출기반의 언어 이해 성능 향상장치.
제 1항에 있어서,

상기 문장입력부(100)는,

검색을 위해 입력되는 음성에 대한 음성 인식을 수행하여 음성으로 입력된 검색어를 텍스트로 변환하고, 변환된 검색어에 대한 검색 실시 요청 정보를 도메인판단부로 제공하기 위한 음성인식결과입력모듈(110);

검색을 위해 입력되는 자판 또는 터치 신호를 텍스트로 변환하고, 변환된 검색어에 대한 검색 실시 요청 정보를 도메인판단부로 제공하기 위한 텍스트결과입력모듈(120);을 포함하여 구성되는 도메인 추출기반의 언어 이해 성능 향상장치.
제 1항에 있어서,

상기 도메인판단부(200)는,

입력된 검색어에 대해 자연어 분석처리를 하는 도메인자연어분석모듈(210);

도메인서비스모델판단모듈(230)이 도메인 서비스 모델 정보 생성시 이용할 참조정보를 저장하는 도메인서비스모델DB(220);

상기 도메인자연어분석모듈(210)에 의한 자연어 분석 결과를 토대로 검색어에 내재된 핵심어, 문형, 맥락을 분석하고, 분석 결과를 상기 도메인서비스모델DB에 저장된 참조정보와 비교하여 검색 실시 요청 정보에 대한 도메인 서비스 모델을 판단한 도메인 서비스 모델 정보를 생성하기 위한 도메인서비스모델판단모듈(230);

상기 생성된 도메인 서비스 모델 정보를 언어모델결정부(300)로 제공하기 위한 도메인서비스모델출력모듈(240);을 포함하여 구성되는 도메인 추출기반의 언어 이해 성능 향상장치.
제 1항에 있어서,

상기 언어모델결정부(300)는,

도메인별 언어 모델 정보, 언어 모델별 개체명 사전 정보를 저장하고 있는 도메인별언어모델정보DB(310);

도메인별언어모델정보DB(310)를 토대로 해당 도메인에 최적화된 언어 모델을 선정하고, 언어 모델에 부합된 대상(개체명) 사전을 선정하기 위한 언어모델선정모듈(320);을 포함하여 구성되는 도메인 추출기반의 언어 이해 성능 향상장치.
제 1항에 있어서,

상기 자연어분석부(400)는,

결정된 도메인에 최적화된 언어 모델을 이용하여 자연어를 분석하기 위한 자연어분석모듈(410);

상기 자연어분석모듈에 의한 자연어 분석 결과를 토대로 검색어에 내재된 사용자의 의도를 추출하기 위한 의도추출모듈(420);

상기 자연어분석모듈에 의한 자연어 분석 결과를 토대로 검색어에 내재된 대상(개체명)을 추출하기 위한 개체명추출모듈(430);

의도추출모듈(420)에 의해 추출된 사용자 의도와 개체명추출모듈(430)에 의해 추출된 대상(개체명)에 대한 결과 정보를 생성하여 검색요청결과출력부(500)로 제공하기 위한 분석결과제공모듈(440);을 포함하여 구성되는 도메인 추출기반의 언어 이해 성능 향상장치.
제 1항에 있어서,

상기 검색요청결과출력부(500)는,

추출된 사용자 의도 결과 정보를 출력하기 위한 의도결과출력모듈(510);

상기 추출된 대상(개체명) 결과 정보를 출력하기 위한 개체명결과출력모듈(520);을 포함하여 구성되는 도메인 추출기반의 언어 이해 성능 향상장치.
제 3항에 있어서,

상기 도메인서비스모델판단모듈(230)은 상기 도메인 서비스 모델 정보 생성시 머신 러닝 모델을 이용하여 후보 도메인 서비스 모델들에 대한 확률값을 계산하고, 계산된 확률값중 가장 높은 후보 도메인을 도메인 서비스 모델로 결정하고,

도메인 서비스 모델로 결정된 서비스 모델의 확률값이 사전에 설정된 기준 확률값보다 높은 경우에만 도메인 서비스 모델을 생성하는 것을 특징으로 하는 도메인 추출기반의 언어 이해 성능 향상장치.
도메인 추출기반의 언어 이해 성능 향상방법에 있어서,

문장입력부(100)가 음성 또는 텍스트로 입력된 검색어를 획득하여 검색 실시 요청 정보를 도메인판단부(200)로 제공하는 문장입력단계(S100)와,

도메인판단부(200)가 상기 문장입력부(100)로부터 검색 실시 요청 정보를 획득할 경우, 자연어 분석을 통해 입력된 검색어의 핵심어, 문형, 맥락을 판단하여 검색 실시 요청 정보에 대한 도메인 서비스 모델을 판단한 도메인 서비스 모델 정보를 생성하여 언어모델결정부(300)로 제공하는 도메인판단단계(S200)와,

언어모델결정부(300)가 도메인 서비스 모델 정보를 획득할 경우, 언어 모델과 개체명 사전을 이용하여 해당 도메인에 최적화된 언어 모델과 개체명 사전을 결정하는 언어모델결정단계(S300)와,

자연어분석부(400)가 상기 결정된 도메인에 최적화된 언어 모델을 통하여 자연어 분석을 수행하여 입력된 검색어에 내재된 사용자의 의도와 대상(개체명)을 추출하는 자연어분석단계(S400)와,

검색요청결과출력부(500)가 상기 추출된 의도와 대상(개체명)의 결과 정보를 출력시키는 검색요청결과출력단계(S500)를 포함하는 도메인 추출기반의 언어 이해 성능 향상방법.
제 8항에 있어서,

상기 도메인판단단계(S200)는,

도메인자연어분석모듈(210)에 의해, 입력된 검색어의 자연어 분석처리를 하기 위한 도메인자연어분석단계(S210);

도메인서비스모델판단모듈(230)에 의해, 자연어 분석 결과를 토대로 검색어에 내재된 핵심어, 문형, 맥락을 분석하여 분석 결과를 토대로 도메인서비스모델DB에 저장된 도메인 서비스 모델 정보와 비교하여 도메인 서비스 모델을 판단한 도메인 서비스 모델 정보를 생성하기 위한 도메인서비스모델판단단계(S220);

도메인서비스모델출력모듈(240)에 의해, 상기 생성된 도메인 서비스 모델 정보를 언어모델결정부(300)로 제공하기 위한 도메인서비스모델출력단계(S230);를 포함하는 도메인 추출기반의 언어 이해 성능 향상방법.
제 8항에 있어서,

자연어분석단계(S400)는,

자연어분석모듈(410)에 의해, 결정된 도메인에 최적화된 언어 모델을 이용하여 자연어 분석을 수행하기 위한 자연어분석단계(S410);

의도추출모듈(420)에 의해, 상기 자연어분석모듈에 의한 자연어 분석 결과를 토대로 검색어에 내재된 사용자의 의도를 추출하기 위한 의도추출단계(S420);

개체명추출모듈(430)에 의해, 상기 자연어분석모듈에 의한 자연어 분석 결과를 토대로 검색어에 내재된 대상(개체명)을 추출하기 위한 개체명추출단계(S430);를 포함하는 도메인 추출기반의 언어 이해 성능 향상방법.
제 8항에 있어서,

상기 검색요청결과출력단계(S500)는,

의도결과출력모듈(510)에 의해, 추출된 사용자 의도 결과 정보를 출력하기 위한 의도결과출력단계(S510);

개체명결과출력모듈(520)에 의해, 상기 추출된 대상(개체명) 결과 정보를 출력하기 위한 개체명결과출력단계(S520);를 포함하는 도메인 추출기반의 언어 이해 성능 향상방법.