KR20190103504A - 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 방법 및 시스템 - Google Patents
대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 방법 및 시스템 Download PDFInfo
- Publication number
- KR20190103504A KR20190103504A KR1020180016909A KR20180016909A KR20190103504A KR 20190103504 A KR20190103504 A KR 20190103504A KR 1020180016909 A KR1020180016909 A KR 1020180016909A KR 20180016909 A KR20180016909 A KR 20180016909A KR 20190103504 A KR20190103504 A KR 20190103504A
- Authority
- KR
- South Korea
- Prior art keywords
- scenario
- conversation
- dialogue
- semantic
- ontology
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 53
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000010801 machine learning Methods 0.000 description 11
- 238000012795 verification Methods 0.000 description 5
- 230000002354 daily effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000699 topical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 방법 및 시스템에 관한 것으로서, 더욱 상세하게는 대화 시나리오를 SNS, 라디오, 방송에서 자동으로 수집하고, 수집된 시나리오를 온톨로지 관계로 표시하여, 자연스러운 대화 전개 및 확장에 이용함으로써, 실시간 연속대화가 가능한 방법 및 시스템에 관한 것이다.
이를 위하여, 본 발명은 문장을 추출해서 질문과 답변으로 분류하는 단계;
대화 시나리오를 생성하는 단계;
대화 시나리오를 학습해서 시나리오 의미벡터를 구축하는 단계;
시나리오 의미벡터의 의미관계를 추론해서 대화 관계망에 매핑하는 단계;
대화관계망에 매핑된 시나리오에 따라 연속 대화를 전개하는 단계를 포함하여 구성되는 것을 특징으로 하는 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 방법 및 시스템을 제공한다.
이를 위하여, 본 발명은 문장을 추출해서 질문과 답변으로 분류하는 단계;
대화 시나리오를 생성하는 단계;
대화 시나리오를 학습해서 시나리오 의미벡터를 구축하는 단계;
시나리오 의미벡터의 의미관계를 추론해서 대화 관계망에 매핑하는 단계;
대화관계망에 매핑된 시나리오에 따라 연속 대화를 전개하는 단계를 포함하여 구성되는 것을 특징으로 하는 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 방법 및 시스템을 제공한다.
Description
본 발명은 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 방법 및 시스템에 관한 것으로서, 더욱 상세하게는 대화 시나리오를 SNS, 라디오, 방송에서 자동으로 수집하고, 수집된 시나리오를 온톨로지 관계로 표시하여, 자연스러운 대화 전개 및 확장에 이용함으로써, 실시간 연속대화가 가능한 방법 및 시스템에 관한 것이다.
인간은 인간 이외의 대상과 자연스럽게 대화를 주고 받는 오랜 꿈을 가지고 왔다. 현재 인공지능(AI)과 빅데이터가 몰고온 4차 산업혁명이 진행되고 있으며, 인공지능의 핵심은 인간과 사물과의 자연스러운 대화 커뮤니케이션이다.
본 발병은 시나리오 기반 또는 비시나리오 기반으로 대화를 전개하기 위한 방법을 설명한 것으로써, 대화 시나리오를 자동으로 수집하여 온톨로지 관계망에 매핑하고, 매핑된 시나리오에 따라 대화를 전개하고, 시나리오에 없는 대화는 온톨로지 대화 관계망에서 유사 시나리오를 검색하여 대화를 전개함으로써, 끊김 없이 연속적으로 대화를 전개해나갈 수 있다.
본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 제안된 것으로서, 대화 시나리오를 SNS, 라디오, 방송에서 자동으로 검색, 수집, 정제, 학습하여 온톨로지 관계망에 매핑함으로써, 대화 시나리오에 없는 질문에 대해서도 자유롭게 대화를 전개 및 확장하여 연속적인 대화를 전개해 나가는데 그 목적이 있다.
이와 같은 목적을 달성하기 위한 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 방법 및 시스템은 문장을 추출해서 질문과 답변으로 분류하는 단계; 대화 시나리오를 생성하는 단계; 대화 시나리오를 학습해서 시나리오 의미벡터를 구축하는 단계; 시나리오 의미벡터의 의미관계를 추론해서 대화 관계망에 매핑하는 단계; 대화관계망에 매핑된 시나리오에 따라 연속 대화를 전개하는 단계를 포함하여 구성되는 것을 특징으로 한다.
이와 같이 구성된 본 발명의 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 방법 및 시스템은 다음과 같은 유용한 효과를 발휘한다.
1) 대화 시나리오 수집, 정제, 구축을 자동화해서, 대화 시나리오 구축 비용을 절감할 수 있다.
2) 대화 관계망을 통해서 시나리오에 따라 끊김 없는 연속적인 대화가 가능하다.
3) 사람이 직접 시나리오를 수집하면 정제해서 구축하는데 시간이 많이 필요로 해서 과거의 대화를 하게 되지만, 대화 시나리오를 자동으로 수집해서 대화에 반영하기 때문에, 현재 발생하고 있는 사건이나 사고, 각종 트랜드나 이슈에 대한 즉각적인 대화가 가능해서, 대화 품질을 높일 수 있다.
4) 다양한 주제에 대해서 끊임없이 대화 시나리오를 수집하기 때문에, 다양한 관점이 반영된 다양한 주제에 대한 대화가 가능하다.
5) 대화 진행시 특정 주제뿐만 아니라 다양한 대화 주제를 넘나들며 이야기할 수 있기 때문에, 대화 전환 시 대화 주제의 이동이 자유롭다.
6) 신규 대화 시나리오는 질문/답변 문장의 연속 형태이며, 각각의 질문과 답변은 의도분류 없이 의미벡터 형태로 입력되지만, 기 입력된 의미 단어의 벡터값으로부터 질문과 답변 문장의 의미단어 매핑이 손쉽게 이루어질 수 있다.
7) 대화 관계망을 통해서 특정 대화 시나리오가 끝났을 때, 또는 특정 대화 시나리오를 진행하다가 다른 시나리오로 대화 전환이 이루어질 때는, 벡터 공간의 특정 거리 범위 이내의 시나리오로 이동할 수 있다.
8) 대화 관계망을 통해서 다른 시나리오로 이어가고 싶지만, 가까운 거리에 시나리오가 발견되지 않을 경우에는 이전 대화와 가장 가까운 시나리오를 찾는 과정을 역으로 수행한다.
도 1은 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템을 나타내는 구성도;
이하, 본 발명의 목적이 구체적으로 실현될 수 있는 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다. 본 실시예를 설명함에 있어서, 동일 구성에 대해서는 동일 명칭이 사용되며 이에 따른 부가적인 설명은 생략하기로 한다.
도 1은 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템을 나타내는 구성도이다.
본 발명의 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템은 도 1에 도시된 바와 같이, 문장추출 모듈, 질문답변추론 모듈, 대화시나리오생성 모듈, 대화시나리오학습 모듈, 대화시나리오 의미벡터 데이터베이스, 온톨로지 관계추론 모듈, 온톨로지 대화관계망 모듈, 대화진단 모듈, 대화관리 모듈, 문장이해 모듈, 문장생성 모듈을 포함하여 구성된다.
문장추출 모듈은 콜센터, SNS, 방송, 라디오 등에서 질문 답변 문장을 수집하는 역할을 수행한다.
콜센터에서는 기존 음성녹취 파일을 음성인식해서 Text로 변경 후, 해당 Text로부터 질문과 답변을 추출한다. 콜센터에서 고객과 상담원 간의 상담 내용을 실시간으로 음성인식 후, Text로부터 질문과 답변을 추출할 수도 있다. 음성인식의 경우, 음성인식 오류가 발생한 부분을 복원하는 절차와 욕설, 외래어 등 부적절한 대화 문장을 필터링하는 과정을 거친다.
SNS는 트위트나 페이스 북 등에서 다양한 주제에 대해서 대화를 나눈 게시글로부터 질문과 답변을 추출한다. 먼저 준비된 검색어로 SNS를 검색하고, 특정 단어로 검색된 게시글 링크 각각을 추출한 뒤에, 각 링크의 게시글이 가르키는, 최초로 입력된 게시글의 처음부터 그 게시글로부터 시작된 토론에 대한 마지막 게시글까지를 하나의 대화 주제로 생각하기 때문에 해당 대화 주제에 대한 게시글을 모두 가져온다.
TV 방송, 라디오에서는 매시간 다양한 주제에 대해서 대화가 진행되고 있다. 본 발명에서는 TV 방송, 라디오의 음성을 음성인식 후, 텍스트 변환하여 질문과 답변을 추출한다.
도 2는 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 대화 시나리오 생성, 학습, 온톨로지 대화 관계망에 매핑하는 절차를 나타내는 구성도이다.
SNS에서 수집한 게시글, 콜센터, 라디오, TV방송에서 수집한 음성을 텍스트로 변환한 문장에서 문장분석기를 통해서 오류가 발생한 단어나 문장을 복원하고, 부적절한 대화를 필터링하며, 문장이 질문인지 답변인지 분류하는 기능을 수행한다.
그 후, 대화 시나리오 생성기에 의해서 질문, 답변의 연결된 리스트 형태로 시나리오를 생성하며, 시나리오 전체를 머신러닝에 의해서 의미벡터로 변환하고 온톨로지 대화 관계망에 시나리오를 매핑한다.
온톨로지 대화 관계망은 300~600개의 벡터로 구성된 다차원벡터공간이지만, 다차원 벡터를 물리적으로 표현할 수 없기 때문에 3차원으로 공간압축(PCA 등 공간압축 알고리즘 사용)해서 표시한다. 온톨로지 대화 관계망은 3차원 공간상의 하나의 점을 노드로 표현하는데, 각 노드는 단어 의미벡터, 문장의미벡터, 시나리오 의미벡터를 나타낼 수 있다. 단어 의미벡터, 문장 의미벡터는 기존에 공개된 word2vec, sent2vec 머신러닝 알고리즘을 이용하며, 시나리오도 마찬가지로 scenario2vec형태로 시나리오 자체를 시나리오 의미벡터로 표현할 수 있으며, 시나리오를 질문 답변 문장들의 의미벡터 시퀀스로 표현할 수도 있다.
온톨로지 대화 관계망에는 상기 시나리오를 구성하는 질문, 답변 문장의 의미벡터의 시퀀스로 업로드할 수 있고, 시나리오 자체를 하나의 의미벡터로 만들어서 업로드 할 수 있으며, 유사 문장, 유사 시나리오를 검색할 때에는 입력한 시나리오와 가장 가까운 시나리오를 의미벡터 공간상에서 거리 계산에 의해서 구할 수 있다.
의미벡터 공간상에 단어, 문장, 시나리오를 표현할 수 있지만, 단어, 문장, 시나리오는 각각의 별개의 의미공간을 별도로 가진다. 그리고, 단어, 문장, 시나리오의 의미공간을 하나의 의미공간에 사상하여 동시에 단어, 문장, 시나리오를 공간상에 표현할 수도 있다. 사상하는 방법은 문장은 단어 벡터의 합이나 곱 등으로 표현하고, 시나리오는 문장벡터의 합이나 곱 등으로 표현하는 방법 등을 이용한다.
문장, 시나리오의 의미벡터는 인간이 직관적으로 파악하는데 도움을 주기 위해서 하나 이상의 의미단어로 표시된다.
온톨로지 대화 관계망에서 관리자가 시나리오를 직접 입력할 수 있으며, 시나리오를 구성하는 문장의 관계를 다음과 같이 의미단어의 시퀀스로 표시한다.
예) 시나리오1 = (질문1) - (답변1) - (질문2) - (답변2) .... (질문N) - (답변N)
예) 시나리오1 = (어디서 봤더라?) - (제 이름이 궁금하세요?) - (아니 너를 봤던 장소 말이야) - (우리가 마지막 만났던 장소 말이죠?) .... (그래) - (아마도, 제 생각에는 우리가 지난 얄리 주체 세미나에서 마지막으로 봤던 것 같아요.)
예) 시나리오1 = (이름+모호) - (이름+확인) - (장소+모호) - (장소+확인) .... (별명+승낙) - (별명+답변)
여기서 의미단어 “
이름모호“는
의미단어 “이름”과 의미단어 “모호”의 의미벡터가
결합된
새로운 의미벡터이며, “어디서 봤더라”와 같은 문장을 대표하는 의미단어이다.
하나의 의미단어는 하나 이상의 문장을
의미적으로
표현하며, 같은
뜻을 가진
수 많은
문장을 대표하는 대표단어라고도 할 수 있다.
그리고, “
의미모호
”, “이름확인” 등의 의미단어는 “(
질문1
)”, “(
답변1
)”
처럼
하나의 시나리오를 구성하는 각각의 질문, 답변 시퀀스를 대표하기도 한다.
도 3는 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 대화 시나리오 표현 일예이다.
대화 시나리오는 보통 2turn(질문1-답변1-질문2-답변2 관계) 이상으로 표시되고, 평면적으로 하나의 공간에 표시할 수 있는 시나리오 개수도 제한 적이며, 현재 시나리오와 공간적으로 가까운 시나리오도 알 수 없는 문제가 발생한다. 또한, 시나리오를 입력하거나 수정하더래도, 다른 시나리오와의 의미 공간상의 상관관계를 전혀 알 수 없는 문제점이 있다.
대화시나리오는 의미단어의 연속적인 나열로써 표시하며, 그림 상단 첫 번째 시나리오처럼, “
이름모호
”, “
C이름확인
”, “
C승낙
”, “
KE이름아이유
”
처럼
중복을 방지하기 위해서 특정 문자와 결합하여 표시할 수도 있다.
도 4는 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 3차원 시나리오 저작도구 화면의 일예이다.
시나리오는 3차원 공간상에 표시할 수 있으며, 시나리오의 각 질문과 답변은 하나의 의미노드(의미큐브 또는 의미단어)로 표시된다. 각 시나리오에 소속된 의미노드 사이의 의미적인 밀접성에 따라 가까운 공간상에 표시되기도 하고 멀리 떨어진 공간상에 표시되기도 하기 때문에, 시나리오를 구성하는 노드사이의 의미관계 파악이 훨씬 쉽다.
도 5는 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 3차원 시나리오 저작도구의 시나리오입력 화면의 일예이다.
시나리오는 우측 의미단어( 의미노드 또는 의미큐브 )를 좌측 여백 공간으로 드래그해서 의미단어의 시퀀스(예:주말일정-일정답변-취미질의-취미답변)로 하나의 시나리오를 표현하고, 이렇게 시나리오 입력이 완료되면 3차원 대화 관계망 속에 시나리오가 자동으로 매핑된다.
우측 의미단어패턴은 모두 다차원 의미벡터 값을 가지고 있으며, 의미단어의 조합(주말+일정)을 별도로 학습해서 의미벡터값을 추출하거나 기존 의미단어(주말, 일정)의 의미벡터합이나 곱으로 만들 수도 있다.
우측 의미단어( 예:주말일정 )는 다양한 문장을 대표하며, “주말일정”을 함의하는 아래와 같은 다양한 문장구성을 가진다.
의미단어패턴 | 문장 예 |
주말일정 | 주말 일정이 어떻게 되세요 |
주말 일정을 알려주세요. | |
주말 일정이 궁금해요. | |
주말 일정을 말해줘요. | |
주말 일정이 있나요? |
도 6는 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 3차원 시나리오 저작도구의 시나리오수정 화면의 일예이다.
검색 기능에 의해서 시나리오를 검색할 수 있으며, 검색된 시나리오를 수정하는 기능을 제공한다. 시나리오가 수정되면, 3차원 공간상에서 즉시 수정된 시나리오가 반영된다.
도 7은 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 3차원 시나리오 저작도구의 시나리오삭제 화면의 일예이다.
시나리오는 삭제될 수 있으며, 삭제된 시나리오는 3차원 공간상에서도 완전히 삭제되어서 더 이상 볼 수 없게 된다.
시나리오 입력도구를 사용하지 않고, 시나리오가 온톨로지대화 관계망에 매핑되는 과정을 설명하겠다.
도 8은 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 문장 추출 방법의 일예를 나타낸 화면이다.
DBpedia나 WordNet으로부터 단어(Word)를 추출하여, 이 단어를 검색어로 활용하여, 크롤링 방식으로 SNS 게시글 및 댓글 데이터를 웹을 통해서 파싱한다. 트위트에서 게시물이 올라오면 리트윗하면서 특정 주제에 대해서 대화를 주고 받는 형식과 비슷하게 댓글이 달린다.
도 9는 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 트위터의 리트윗 사용 현황을 나타낸 화면이다.
처음 게시물을 올린 사용자의 글에 대해서 리트윗하면서 다른 사용자가 계속 댓글을 달게 되며, 대화 전개가 트리형태와 유사하다. 각각의 트리를 모두 대화 시나리오로 본다. 편의상 댓글 아이디 별로 대화 시나리오를 표현하면 다음과 같다.
시나리오1 : ffebreze hatter365 - fffebreze
시나리로2 : ffebreze ffebreze Teahya ffebreze - Teahya
도 10은 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 질문 답변 분류 방법의 일예를 나타낸 화면이다.
게시글을 파싱한 뒤에는 해당 게시글이 대화 시나리오에서 질문에 해당하는지 답변에 해당하는지 시스템이 알 수 없다. 따라서, 시스템이 자동으로 질문과 답변 유형을 분류 할 수 있도록 질문답변분류기를 제작한다.
이 질문답변분류기는 규칙기반이나 머신러닝기반, 통계기반으로 만들 수도 있고 규칙기반과 머신러닝기반, 통계기반 중 하나 이상의 조합으로 구성할 수도 있다.
질문답변분류기가 머신러닝기반 일 때는 지도학습에 의해서 학습이 수행되며, 수행된 결과로 구축된 언어모델 데이터에 의해서 입력 문장이 질문인지 답변인지 분석하게 된다.
도 11은 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 시나리오 분류 방법의 일예를 나타낸 화면이다.
문장처럼 시나리오도 해당 시나리오가 어떤 의미를 내포하고 있는지 규칙기반 방법, 통계적인 방법, 머신러닝 방법 등 하나 이상의 조합을 이용해서 분류할 수 있다. 또한 하나의 주제에 대해서 질문, 답변이 번갈아가면서 나타나지 않고, 질문, 답변이 중복되어서 발생할 수도 있어서(예:질문1, 답변1, 질문2, 질문2, 답변2, 질문3, 답변3, 답변3, 답변3 등), 이러한 질문, 답변 중에 시나리오에 적합한 질문과 답변을 선별해야한다.
도 12는 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 선별된 시나리오의 일예를 나타낸 화면이다.
선별된 시나리오는 하나의 질문과 그 질문에 대한 하나의 답변의 반복으로 구성된다. (예: 질문1, 답변1, 질문2, 답변2, 질문3, 답변3,....)
도 13은 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 입력된 시나리오의 온톨로지 대화관계망으로 매핑의 일예를 나타낸 화면이다.
시나리오는 문장단위 질문과 답변으로 구성된 의미벡터의 시퀀스로 표시된다. 하나의 시나리오를 구성하는 각각의 질문과 답변은 다차원 의미벡터를 가지고 있으며, 각각 질문과 답변 문장이 하나의 대화의도(의미단어)로 자동적으로 각각 매핑된다.
상기 대화의도(의미단어)는 word2vec 등을 이용하여, 현재 사용되는 단어와 이 단어의 의미벡터값을 미리 3차원 공간상에 표현하고, 하나 이상의 단어 벡터 조합(합 또는 곱)으로 새로운 대화의도(의미단어)를 3차원 공간상에 표현한다.
대량의 시나리오가 다차원 의미벡터값으로 입력되면, 상기 입력된 의미벡터값과 기존 대화의도(의미단어)의 의미벡터값 사이의 거리를 비교하고, 일정한 값 안에 들어왔을 때, 입력된 의미벡터값에 기존 대화의도(의미단어 또는 의미노드 또는 의미큐브 )를 부여하게 된다. (입력된 의미벡터값은 기존 대화의도 이름으로 명명한다)
대량의 시나리오가 다차원 의미벡터값 뿐만 아니라, 대화의도(의미단어 또는 의미노드 또는 의미큐브), 대화문장과 동시에 입력되어 들어올 때에는 각각의 대화의도(의미단어 또는 의미노드 또는 의미큐브)의 공간으로 대화 시나리오(각각의 질문, 답변)를 매핑하면 된다. 이때, 의미단어는 시나리오의 “ 대화문장 ”을 자동으로 분석해서 의미단어를 부여할 수도 있고, 사람이 직접 “ 대화문장 ”에 어울리는 의미단어를 부착할 수도 있다.
예) 시나리오1 = [의미단어][대화문장][의미벡터], [의미단어][대화문장][의미벡터] ....
예)
시나리오1
= [
이름모호
][어디서 본 것
같아요
][2.382,
6.108, ...
], [이름확인][제이 이름이 궁금하세요][8.730, 1,383, ....] ....
상기 의미단어를 자동으로 분석하는 방법은 자연어처리 방법 중, 규칙기반, 통계기반,
머신러닝
기반으로 분석할 수 있으며,
머신러닝
기반의 경우
, 지도학습에 의한 학습모델을 바탕으로 입력된 문장의 대화의도(의도단어)를 분류하게 된다.
새로운 시나리오가 온톨로지 관계망으로 매핑 되는 과정을 설명하겠다.
도 14는 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 기존에 없는 새로운 대화 시나리오가 입력될 때, 대화 관계망으로 매핑의 일예를 나타낸 화면이다.
새로운 시나리오가 입력되면, 해당 시나리오의 질문과 답변 문장의
의미벡터값을
word2vec와
sent2vec를 이용해서 추출하고, 해당 질문 답변 의미벡터의 대화의도를 각각 분류(규칙기반, 통계기반,
머신러닝기반
중 하나 이상의 방법 사용)해서 입력 시나리오(“대화의도(의미단어),
대화문장
, 의미벡터”의 연속된 리스트)를 대화 관계망에 매핑한다.
상기 각각의 질문과 답변의 의미벡터로부터 대화의도(의미단어)를 분류하지 못할 경우, 기존 온톨로지 대화 관계망 속에
업로드한
의미단어의 의미벡터나 의미단어 조합으로 생성된 의미벡터와의 거리를 계산해서 가장 가까운 거리의 의미단어내지 의미단어 조합을 찾아서 의미단어를 도출한다.
이를 통해서, 입력 시나리오의 “대화의도(의미단어),
대화문장
, 의미벡터” 리스트를 도출하여 온톨로지 대화 관계망에 시나리오를 매핑하게 된다.
의미단어는 “이름”, “모호”, “확인”, 등 개별 단어 내지 “
이름모호
”, “
이름확인” 처럼
개별단어가 하나 이상 결합한 조합된 형태로 표시될 수 있다.
의미단어가 하나 이상이 모여서 대화 문장(질문 또는 답변)의 대화의도를 나타내며, 의미단어가 대화의도를 내포하고 있기 때문에 대화 문장을 대표하게 된다.
하나의 시나리오는 질문 답변의 연속된 쌍으로 표현할 수 있는데, 각 질문 답변이 모여서 하나의 시나리오를 형성하듯이, 시나리오는 특정 대화 영역 정보(교육, 문학, 상식, 일상대화, 스포츠, 영화 등)를 가지고 있으며, 시나리오도 의미단어의 조합으로 나타낼 수 있다.
시나리오 분류도 규칙기반, 통계기반,
머신러닝기반
중 하나 이상의 방법 사용하여 각 시나리오를 분류할 수 있다. 따라서, 각 문장의 대화의도를 분류하기 전에 시나리오 분류를 먼저 선택하여, 해당 시나리오 분류에 속하는 대화의도(의미단어)를 먼저 탐색하여, 검색시간을 줄일 수도 있다.
도 15는 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 온톨로지 대화 관계망 구조의 일예를 나타낸 화면이다.
일반대화(일상대화, 상식대화, 주제대화 등)는 다양한 주제에 대해서 대화관계망(Network)속의 대화 시나리오에 따라 대화를 전개한다.
전문대화(예매, 예약, 구입 등)는 특정 목적의 대화 전략(Strategy)에 따라 사용자에게 특정정보(Argument)를 얻어서 대화를 수행한다. 예를 들자면, KTX예약의 경우 예약시간, 동행자 수, 좌석종류 등 예약에 필요한 정보를 사용자에게 물어봐서, 해당 정보가 충족된 뒤에야 예약을 마무리 하게 된다. 따라서, 특정 목적(Task)에 맞는, 대화 절차(Flow)를 따라야 한다.
온톨로지 대화 관계망에서 일반대화와 전문대화가 자유롭게 이루어진다.
도 16은 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 일반대화 분류 일예를 나타낸 화면이다.
일반대화에는 일상대화, 상식대화, 주제대화, 감성대화, 주제대화 등이 올 수 있으며, 다양한 주제에 대해서 끊임없이 대화 포커스를 이동시키면 대화가 가능하다.
도 17은 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 전문대화 분류 일예를 나타낸 화면이다.
전문대화는 예매, 예약, 구입 등 특정 목적기반 대화를 진행하는 것을 말한다.
도 18은 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 전문대화 중 병원콜센터에서 상담원과 주고 받는 대화의 일예를 나타낸 화면이다.
도 19는 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 대화 흐름 일예를 나타낸 화면이다.
대화가 일상대화와 감성대화, 전문대화를 자유롭게 오고가면서 연속적으로 대화할 수 있다.
도 20은 본 발명에 따른 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 시스템에서 대화품질개선 방법의 일예를 나타낸 화면이다.
사용자는 시스템과 대화를 진행하면서 사용자의 반응이 긍정적인지 부정적인지 즉각적으로 알 수 있다. 긍정적인 반응, 부정적인 반응, 무시 반응, 화제 변경 반응 등 사용자의 반응은 사용자의 대화문장을 분석해서 알 수 있으며, 이때, 규칙기반, 통계기반, 머신러닝기반 등 다양한 분석 방법을 사용할 수 있다.
사용자 반응이 긍적적일 때, 현재 시나리오를 선호 대화 시나리오라고 인식할 수 있으며, 가중치 조정 등을 통해서 현재 시나리오가 채택될 확률을 높여서, 선호 시나리오가 계속 선택되고, 비 선호 시나리오는 우선 순위가 밀리게 하는 등, 실시간 사용자 반응을 통해서 지속적으로 대화 시나리오를 관리하여, 궁극적으로 연속 대화를 하면 할수록 대화품질이 개선되도록 하는 것을 목표로 한다.
이와 같이 본 발명에 따른 바람직한 실시예를 살펴보았으며, 앞서 설명된 실시예 이외에도 본 발명이 그 취지나 범주에서 벗어남이 없이 다른 특정 형태로 구체화될 수 있다는 사실은 해당 기술분야에 있어 통상의 지식을 가진 자에게는 자명한 것이다.
그러므로, 상술된 실시예는 제한적인 것이 아니라 예시적인 것으로 여겨져야 하며, 이에 따라 본 발명은 상술한 설명에 한정되지 않고 첨부된 청구항의 범주 및 그 동등 범위 내에서 변경될 수 있다.
100...문장추론 모듈
200...질문답변추론 모듈
300...대화시나리오생성 모듈
400...대화시나리오학습 모듈
500...대화시나리오의미벡터 데이터베이스 모듈
600...온톨로지 관계추론 모듈
700...온톨로지 대화 관계망 모듈
800...대화진단 모듈
900...대화관리 모듈
1000...문장이해 모듈
1100...문장생성 모듈
200...질문답변추론 모듈
300...대화시나리오생성 모듈
400...대화시나리오학습 모듈
500...대화시나리오의미벡터 데이터베이스 모듈
600...온톨로지 관계추론 모듈
700...온톨로지 대화 관계망 모듈
800...대화진단 모듈
900...대화관리 모듈
1000...문장이해 모듈
1100...문장생성 모듈
Claims (1)
- 문장을 추출해서 질문과 답변으로 분류하는 단계;
대화 시나리오를 생성하는 단계;
대화 시나리오를 학습해서 시나리오 의미벡터를 구축하는 단계;
시나리오 의미벡터의 의미관계를 추론해서 대화 관계망에 매핑하는 단계;
대화관계망에 매핑된 시나리오에 따라 연속 대화를 전개하는 단계를 포함하여 구성되는 것을 특징으로 하는 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 방법 및 시스템
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180016909A KR20190103504A (ko) | 2018-02-12 | 2018-02-12 | 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180016909A KR20190103504A (ko) | 2018-02-12 | 2018-02-12 | 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 방법 및 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190103504A true KR20190103504A (ko) | 2019-09-05 |
Family
ID=67949674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180016909A KR20190103504A (ko) | 2018-02-12 | 2018-02-12 | 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20190103504A (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210027001A (ko) | 2019-09-02 | 2021-03-10 | 보리 주식회사 | 연속대화기반 언어발달장애 치료 시스템 및 그 방법 |
KR20210032872A (ko) | 2019-09-17 | 2021-03-25 | 보리 주식회사 | 연속대화기반 언어발달장애 검사 시스템 및 그 방법 |
CN113076408A (zh) * | 2021-03-19 | 2021-07-06 | 联想(北京)有限公司 | 一种会话信息的处理方法及装置 |
KR20220134408A (ko) * | 2021-03-26 | 2022-10-05 | 주식회사 트랜스버스 | 캐릭터를 활용한 인공지능 자연어 처리 기반의 화상교육 콘텐츠 제공 방법 및 장치 |
-
2018
- 2018-02-12 KR KR1020180016909A patent/KR20190103504A/ko unknown
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210027001A (ko) | 2019-09-02 | 2021-03-10 | 보리 주식회사 | 연속대화기반 언어발달장애 치료 시스템 및 그 방법 |
KR20210032872A (ko) | 2019-09-17 | 2021-03-25 | 보리 주식회사 | 연속대화기반 언어발달장애 검사 시스템 및 그 방법 |
CN113076408A (zh) * | 2021-03-19 | 2021-07-06 | 联想(北京)有限公司 | 一种会话信息的处理方法及装置 |
KR20220134408A (ko) * | 2021-03-26 | 2022-10-05 | 주식회사 트랜스버스 | 캐릭터를 활용한 인공지능 자연어 처리 기반의 화상교육 콘텐츠 제공 방법 및 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Serban et al. | A survey of available corpora for building data-driven dialogue systems | |
CN107135247B (zh) | 一种人与人工智能协同工作的服务系统及方法 | |
JP6753707B2 (ja) | コミュニケーションを支援する人工知能システム | |
US11823074B2 (en) | Intelligent communication manager and summarizer | |
CN110472017A (zh) | 一种话术分析和话题点识别匹配的方法及系统 | |
KR101605430B1 (ko) | 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법 | |
KR20190103504A (ko) | 대화시나리오 자동 수집 및 온톨로지 대화 관계망을 이용한 연속 대화 방법 및 시스템 | |
KR102117287B1 (ko) | 대화 시스템을 위한 대화 시나리오 데이터베이스 구축 방법 및 장치 | |
JP2017511922A (ja) | スマート質問回答の実現方法、システム、および記憶媒体 | |
CN110399470B (zh) | 会话消息处理 | |
CN110032630A (zh) | 话术推荐设备、方法及模型训练设备 | |
KR20190046062A (ko) | 대화 시스템을 위한 대화 시나리오 데이터베이스 구축 방법 및 장치 | |
Stanley | Methodology matters! | |
O’Shea et al. | Systems engineering and conversational agents | |
WO2017183242A1 (ja) | 情報処理装置及び情報処理方法 | |
KR20200089914A (ko) | 교육 플랫폼에서 전문가 자동 매칭 시스템 | |
Zhang | Voice keyword retrieval method using attention mechanism and multimodal information fusion | |
CN111046148A (zh) | 智能交互系统及智能客服机器人 | |
CN116932733A (zh) | 基于生成式大语言模型的信息推荐方法及相关装置 | |
CN110532363A (zh) | 一种基于决策树的任务导向型自动对话方法 | |
CN109766000A (zh) | 一种基于虚拟现实的智慧教育系统及方法 | |
Engelmann et al. | Argumentation as a method for explainable AI: A systematic literature review | |
KR20200143039A (ko) | 대화 시나리오 데이터베이스 구축 방법 및 장치 | |
Liu et al. | The design of a moral education evaluation system for college students based on a deep learning model | |
CN110413627A (zh) | 一种信息优化方法、装置、服务器及存储介质 |