KR102449567B1

KR102449567B1 - 제시문이 없는 질의응답에 대하여 인공지능 기계가 학습하고 추론할 수 있는 다지선다형 질의응답 시스템 구축 방법

Info

Publication number: KR102449567B1
Application number: KR1020200150839A
Authority: KR
Inventors: 박호진; 안영민; 채종현; 하태빈; 서지수; 강윤기; 황지원; 선영욱
Original assignee: (주)아이브릭스
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-09-30
Also published as: KR20220064595A

Abstract

최근 기계독해(MRC, Machine Reading Comprehension) Task에서도 다지선다형 질의응답(Multi-choice Question-Answering)이 다루어지고 있습니다. 해당 Task에서는 질의응답과 제시문(문장, 문서 등 질의를 이해하기 위한 텍스트)이 주어지고 이를 통하여 질의에 대한 답변을 추론합니다. 기계독해에서 제시되는 다지선다형 질의응답은 질의에 대한 제시문을 학습하여 추론하기 때문에 범용적인 질의응답 시스템을 구성할 수 없습니다. 본 발명은 제시문이 존재하지 않는 (일반상식이 포함된) 다지선다형 질의응답에 대해서 인터넷에 공개된 텍스트 형태의 지식베이스와 RDF 형식의 트리플 지식베이스로부터 제시문을 자동으로 생성하고 이를 통하여 학습 및 추론하는 시스템을 제안합니다.

Description

제시문이 없는 질의응답에 대하여 인공지능 기계가 학습하고 추론할 수 있는 다지선다형 질의응답 시스템 구축 방법{THE METHOD OF DEVELOPING MULTI-CHOICE QUESTION ANSWERING SYSTEM CAPABLE OF LEARNING AND REASONING BY AI MACHINE FOR NON TEXT QUESTION-ANSWERING}

본 발명은 인공지능에 사용되는 컴퓨터 언어 처리 기술에 관하며, 특히 기계독해 기술로 인터넷에 공개되어 있는 다양한 지식 베이스에서 지식을 학습하고 추론하는 언어 처리 기술에 관한다.

인공지능 서비스가 본격화되려면 인공지능 시스템이 고난도 지식을 학습해야 하며 오늘날 이런 지식 학습에는 딥러닝(Deep learning)이 이용된다. 인공지능 기술을 적용함에 있어 가장 중요한 요소는 학습 데이터이며, 질의응답 시스템을 통해 양질의 학습 데이터가 구축된다.

일반적으로 지식 기반의 질의응답 시스템은 질의를 구문분석하여 의미적 요소를 패턴(규칙)으로 구축한다. 그리고 구조화된 질의어(Structured Query Language: SQL)와 같은 언어로 구조화된 데이터베이스에서 응답을 추출하는 시스템으로 구성된다. 그러나 다양한 자연어를 처리함에 있어 구축해야 할 구문 패턴이 기하급수적으로 많아지면서 질의응답 시스템의 효용성이 떨어지는 문제가 있다.

최근 인공지능 알고리즘이 스스로 문제를 분석하고 질문에 최적화된 답안을 찾아내는 기술로 기계독해(Machine Reading Comprehension: MRC) 모델이 널리 이용되고 있다. 기계독해 모델은 컴퓨터가 제시문(문장, 문서 등 질의를 이해하기 위한 텍스트)를 읽고 이해하여 질의에 답을 찾아 제시해주는 시스템이다. 기계독해를 이용하여 질의응답 시스템을 효과적으로 활용하려면 먼저 제시문이 존재해야 한다. 제시문이 생성되어 있지 않고 주어지지 않다면 기계독해 모델로는 응답하기 어려운 것이다.

특히 다지선다형 질의응답(Multi-choice Question-Answering)은 질의에 대한 제시문을 학습하여 추론하기 때문에 범용적인 질의응답 시스템을 구성할 수 없다는 문제점이 있다.

본 발명의 발명자들은 위와 같은 문제점을 해결하기 위하여 오랫동안 연구하고 노력한 끝에 본 발명을 완성하기에 이르렀다.

본 발명은 제시문이 없는 질의응답에 대해서도 질의를 설명하고 있는 문장을 자동으로 추출하고, 질의에 포함된 개체 및 개체 간의 개념적 관계를 문장으로 생성하여, 다중 지식베이스로부터 학습 및 추론에 필요한 데이터를 생성한 다음, 이를 통해서 제시문이 주어지지 않는 분야(Domain)에 적용할 수 있는 질의응답 시스템을 구성하는 데 그 목적이 있다.

한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론 할 수 있는 범위 내에서 추가적으로 고려될 것이다.

위와 같은 과제를 달성하기 위한 본 발명은 오브젝트만 있고 제시문이 없는 질의응답에 대하여 인공지능 기계가 학습하고 추론할 수 있는 다지선다형 질의응답 시스템 구축 방법으로서,

질의응답 분리 모듈이 질의응답 데이터에서 상기 오브젝트에 관한 질의와 두 개 이상의 응답들을 분리하여 후보 답변을 하나의 분류(class)로 정의하는 단계;

문장 추출 모듈이 텍스트 지식 베이스를 수집하여 문장으로 분리하고 색인을 실시하여 N(N은 1 이상의 정수)개의 문장을 추출하는 단계;

문장 생성 모듈이 주어, 서술어, 목적어 형식으로 구축된 트리플 지식 베이스에서 주어와 목적어를 개체로 탐색하고 개체 간의 개념적 관계로 서술어를 이용하여 개체 간 상관관계를 이용하여 문장을 생성하는 단계;

지식 통합 모듈이 상기 문장 추출 모듈이 추출한 문장과 상기 문장 생성 모듈이 생성한 문장을 하나의 주요 문단으로 생성하여 통합하는 단계; 및

딥러닝 학습모델이 상기 지식 통합 모듈이 생성한 문단 및 상기 질의응답 분리 모듈에서 분리된 질의를 분류 학습 자질로 사용하고, 답변을 분류로 가정하여 학습을 수행하는 단계;를 포함하는 것을 특징으로 한다.

본 발명의 바람직한 어느 실시예에 따른 제시문이 없는 질의응답에 대하여 인공지능 기계가 학습하고 추론할 수 있는 다지선다형 질의응답 시스템 구축 방법에 있어서, 사용자 단말이 입력한 사용자 질의에 대하여, 상기 질의응답 시스템의 상기 딥러닝 학습모델을 통해 가장 높은 점수의 답변을 추론 결과로 제시되도록 하는 단계를 더 포함하는 것이 좋다.

또한, 본 발명의 바람직한 어느 실시예에 따른 제시문이 없는 질의응답에 대하여 인공지능 기계가 학습하고 추론할 수 있는 다지선다형 질의응답 시스템 구축 방법에 있어서, 상기 오브젝트는 영상 또는 사운드에서 인공지능 기계가 인식하는 오브젝트이다.

본 발명은 영상이나 사운드에서 오브젝트를 인식한 인공지능 기계가 제시문이 주어지지 않은 상황에서 기계독해를 통해 튜링 테스트를 통과할 수 있는 방법론을 제시할 수 있다. 본 발명은 질의응답에 대해서 자동으로 학습데이터를 생성하여 활용하는 시스템으로서 제시문이 주어지지 않는 질의응답에 대해서 학습 및 추론을 수행할 수 있다. 추가 정보를 추출하여 사용함으로 전체 시스템의 자원 사용량은 약간 늘어날 수 있으나 추가 정보 추출 모듈은 시스템을 시작할 때 사용하는 자원이므로 사용자의 질의를 처리하는 시간은 동일하면서 신뢰도 높은 결과를 기대할 수 있다.

한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.

도 1은 본 발명의 개념을 개략적으로 나타내는 도면이다. 오브젝트(3)를 인공지능 기계가 인식한다.
도 2는 도 1에서 인식한 오브젝트(3)에 관하여 질의응답 시스템(100)이 생성한 다지선다형 지식표현을 인공지능 기계(10)가 학습하여 추론결과를 사용자 단말(10)에 내놓는다.
도 3은 본 발명의 바람직한 어느 실시예에 따른 질의응답 시스템(100)의 모듈 구성을 개략적으로 나타내었다.
도 4는 트리플 지식 베이스를 이용하여 문장을 생성하는 과정을 예시한다.
도 5는 본 발명의 질의응답 시스템 전체 구성 예를 프로세스로 다시 표현하였다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.

이하, 도면을 참조하여 본 발명의 다양한 실시예가 안내하는 본 발명의 구성과 그 구성으로부터 비롯되는 효과에 대해 살펴본다. 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

기계는 영상이나 사운드에 등장하는 객체(오브젝트)를 인식할 수 있다. 그러나 영상이나 사운드에는 텍스트로 표현되는 제시문이 없기 때문에 기계는 인간처럼 오브젝트에 관련한 지식을 추론하지 못한다. 기계가 배경지식을 갖고 있지 않기 때문이다. 그저 오브젝트만을 인식할 수 있을 뿐이어서, 기계는 영상이나 사운드에 관해서는 간단한 '튜링 테스트'를 통과하지 못한다. 예를 들어 오브젝트와 관련된 다지선다형 문제를 냈을 때, 인간은 간단하게 통과하지만 기계는 응답하지 못한다. 이러한 영상에 관한 튜링 테스트를 기계가 통과할 수 있도록 질의응답 시스템을 구축해 내는 것이 본 발명의 기술사상이 되겠다.

본 발명의 이러한 기술사상에 대하여 도 1은 이를 개념적으로 나타내고 있다. 예컨대 컴퓨터 디바이스(1) 화면을 통해 재생되는 영상(2)에서 '기타'라는 오브젝트(3)가 표시되어 있다고 가정하자. 기계(컴퓨터 디바이스(1)에 설치되어 있어 화면의 영상을 판독하는 기계일 수도 있으며, 컴퓨터 디바이스(1)의 화면을 바라보도록 설치되어 있는 기계일 수도 있다.)는 이 오브젝트(3)를 '기타'로 인식할 수 있다. 그러나 다른 텍스트가 없고, 제시문이 없기 때문에 따라서 오브젝트에 관련한 의미에 관해 기계독해로 응답하는 것은 불가능하다. 예컨대 "기타를 치는 사람은 어떤 사람인가?" 혹은 "기타를 치는 사람은 다음 중 누구인가?"라는 질의에 대한 응답을 기계독해 모델로는 수행할 수 없는 것이다.

도 2는 본 발명의 바람직한 어느 실시예에 따른 시스템 구성의 예를 개념적으로 간단하게 나타내었다. 인공지능 기계(10)와 질의응답 시스템(100)과 사용자 단말(20)이 포함될 수 있다.

하드웨어 및 소프트웨어 알고리즘으로 이루어진 컴퓨터 시스템인 인공지능 기계(10)는 영상의 오브젝트를 판독한다. 그리고 사용자 단말(20)에 의해 입력되는 사용자 질의에 대해 응답을 한다. 이런 응답을 하기 위해 인공지능 기계(10)는 본 발명의 질의응답 시스템(100)에 접속한다. 이 질의응답 시스템(100)은 통신수단을 통해 액세스하는 복수의 지식 베이스(101, 102)를 통해 여러 지식들을 기계독해가 가능한 하나의 지식 표현(Knowledge Representation)을 생성하여 추론한다. 그리고 이것이 인공지능 기계(10)가 이해할 수 있는 형태로 전달되는데, 인공지능 기계(10)는 추론된 지식 중에서 가장 높은 점수의 답변을 추론결과로 사용자 단말(20)에 제시한다.

질의응답 시스템(100)은 인공지능 기술 분야의 당업자들이 용이하게 이해하는 범위의 컴퓨터 시스템으로 구축된다. 그러므로 딥러닝 기술 등 공지의 기술에 속하는 구성에 대해서는 상세한 설명을 생략한다. 다만 본 발명의 질의응답 시스템(100)은 도 3에 나타난 바와 같이, 질의응답 분리 모듈(110), 문장 추출 모듈(120), 문장 생성 모듈(130), 지식 통합 모듈(140) 및 딥러닝 학습 모듈(150)을 포함한다.

질의응답 분리 모듈은(110)은 질의응답 학습 데이터에서 상기 오브젝트에 관한 질의와 두 개 이상의 응답들을 분리한다. 이는 다지선다형 질의응답에 대한 출원을 분류(Classification) 문제로 정의하기 위함이다. 후보 답변을 하나의 분류(Class)로 정의한다. 예컨대 오지선다형 질의응답은 5개의 분류로 가정한다. 사지선다형 질의응답은 4개의 분류가 된다.

문장 추출 모듈(120)은 텍스트 지식 베이스를 수집하여 문장으로 분리하고 색인을 실시하여 N(N은 1 이상의 정수)개의 문장을 추출한다. 텍스트 지식 베이스의 문장을 추출하는 것이다. 인터넷에 공개된 텍스트 형태의 지식 베이스는 Wikipedia, Wikihow 등의 지식 베이스로 이해할 수 있다. N은 시스템의 학습 성능에 따라 가변적으로 변경할 수 있다. 색인은 일반적으로 검색엔진에 사용되는 역파일 형태로 저장한다. 질의에 대한 문장 추출은 질의에서 불용어(stopword)를 제거한 후 검색엔진의 랭킹 알고리즘인 아래의 BM25의 식 1에 따라 높은 점수의 N개의 문장을 선택한다.

(식 1)

주어진 질의 Q에 대하여, 키워드 q ₁ , q ₂ , ??, q _n 을 포함하고 있는 문서 D에서 f(q _i , D)는 q _i 의 빈도를 뜻하고 |D|는 문서의 D의 길이, avgdl은 평균문서길이, k ₁ 과 b는 자유 파라미터를 뜻한다. 이러한 BM25는 검색기술에서 순위를 결정하는 알고리즘으로 공지의 기술로 알려져 있다.

예컨대 문장 추출 모듈(120)은 위키 문서와 같은 텍스트 지식 베이스에서 문서를 문장으로 분리하여 guitar, music, play 등의 검색을 통해 BM25 알고리즘으로 가장 유사한 문장을 추출하는 것이다. 이를 통해서 예컨대 다음과 같이 문장이 추출될 수 있다. "The guitar is a fretted musical instrument that usually has six strings."

문장 생성 모듈(130)은 주어(Subject), 서술어(Predicate), 목적어(Object) 형식으로 구축된 트리플 지식 베이스에서 개체(주어와 목적어)를 탐색하고, 탐색된 개체 간의 개념적 관계(서술어)를 이용하여 문장을 생성한다. 이때 개체간의 개념적 관계 탐색은 N 단계(N-hop)까지 확장될 수 있으며, 학습 성능에 따라 가변적으로 변할 수 있지만, 최대 3으로 고정한다. 트리플 지식 베이스는 RDF 형식으로 ConceptNet, Wikidata 등의 지식 베이스이다.

이러한 트리플 지식 베이스에서 문장을 생성하는 구성에 대해 좀더 다르게 설명해 보자. 이 문장 생성 모듈(130)은 질의와 답변의 불용어를 제거한 후에, 모든 단어(개체)를 예컨대 그래프 검색 알고리즘을 통하여 개체 간 상관관계를 탐색한다. 탐색 알고리즘은 너비 우선 탐색(Breadth First Search)을 사용할 수 있다. 또한 최대 상관관계는 3단계(3-hop)로 설정한다. 상세하게는 모든 개체를 인접 행렬로 표현한 뒤 한 개체에서 다른 개체로 3단계를 통해 도달할 수 있는 모든 경로를 구한다. 이렇게 구해진 각 경로의 최종 가중치는 각 개체와 개체 사이의 가중치를 모두 곱한 값으로 설정한다. 최종 가중치가 가장 높은 두 개의 경로에 포함된 개체들 사이의 관계를 자연어 문장으로 만들어서 입력으로 사용한다.

도 4는 오브젝트인 "guitar"에 대해 트리플 지식 베이스에서 문장을 생성하는 예를 개략적으로 나타내었다. 도시되어 있는 과정을 통해 "guitar may be used for play a song. band can play a song."이라는 문장을 생성할 수 있다. "Who uses the guitar"라는 질의는 주어진 질의이다. 이 질의와 다섯 개의 답변 쌍을 가지고 위와 같은 문장을 생성한 것이다. 이때 상식(common-sense) 지식을 이용한다.

다시 도 3으로 되돌아가자. 지식 통합 모듈(140)은 문장 추출 모듈(120)이 추출한 문장과 문장 생성 모듈(130)이 생성한 문장을 하나의 주요 문단(제시문, Key phrase)으로 생성하여 통합한다. 이때 문장이 길어질 경우에는 인공지능 기계가 학습이 가능한 수준으로 문장을 자른다.

딥러닝 학습 모듈(150)은 상기 지식 통합 모듈(140)에서 생성된 문단과 질의응답 분리한 질의를 분류 학습 자질로 사용하고, 답변을 분류로 가정하여 학습을 수행한다. 분류 학습을 위해서는 최근 활발히 연구되고 있는 BERT, XLNet이 적용될 수 있다.

이리하여 질의응답 학습 데이터에서 인공지능 기계가 학습할 수 있는 학습모델을 구축하게 되는데 이러한 일련의 시스템을 도 5의 S100 단계 내지 도 S130 단계의 시계열적인 프로세스를 통해 다시 정리하였다. 이처럼 영상이나 사운드에서 오브젝트를 인식한 인공지능 기계는 오브젝트에 관한 질의응답에 대해서 자동으로 학습 데이터를 생성하여 활용할 수 있으며, 제시문이 주어지지 않고 오브젝트만 주어진 질의응답에 대해서도 학습 및 추론을 수행할 수 있게 된다.

다시 도 2로 돌아가서, 사용자 단말(20)이 입력한 사용자 질의에 대하여, 상기 인공지능 기계(10)는 상기 질의응답 시스템(100)의 상기 딥러닝 학습모델(150)을 통해 가장 높은 점수의 답변을 추론 결과로 제시한다.

참고로, 본 발명의 일 실시예에 따른 오브젝트만 있고 제시문이 없는 질의응답에 대하여 인공지능 기계가 학습하고 추론할 수 있는 다지선다형 질의응답 시스템 구축 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계 되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크 (floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어코드뿐 만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.

본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims

오브젝트만 있고 제시문이 없는 질의응답에 대하여 인공지능 기계가 학습하고 추론할 수 있는 다지선다형 질의응답 시스템 구축 방법으로서,
질의응답 분리 모듈이 질의응답 데이터에서 상기 오브젝트에 관한 질의와 두 개 이상의 응답들을 분리하여 후보 답변을 하나의 분류(class)로 정의하는 단계;
문장 추출 모듈이 텍스트 지식 베이스를 수집하여 문장으로 분리하고 색인을 실시하여 N(N은 1 이상의 정수)개의 문장을 추출하는 단계;
문장 생성 모듈이 주어, 서술어, 목적어 형식으로 구축된 트리플 지식 베이스에서 주어와 목적어를 개체로 탐색하고 개체 간의 개념적 관계로 서술어를 이용하여 개체 간 상관관계를 이용하여 문장을 생성하는 단계;
지식 통합 모듈이 상기 문장 추출 모듈이 추출한 문장과 상기 문장 생성 모듈이 생성한 문장을 하나의 주요 문단으로 생성하여 통합하는 단계; 및
딥러닝 학습모델이 상기 지식 통합 모듈이 생성한 문단 및 상기 질의응답 분리 모듈에서 분리된 질의를 분류 학습 자질로 사용하고, 답변을 분류로 가정하여 학습을 수행하는 단계;를 포함하는, 오브젝트만 있고 제시문이 없는 질의응답에 대하여 인공지능 기계가 학습하고 추론할 수 있는 다지선다형 질의응답 시스템 구축 방법.
제1항에 있어서,
사용자 단말이 입력한 사용자 질의에 대하여, 상기 질의응답 시스템의 상기 딥러닝 학습모델을 통해 가장 높은 점수의 답변을 추론 결과로 제시되도록 하는 단계를 더 포함하는, 제시문이 없는 질의응답에 대하여 인공지능 기계가 학습하고 추론할 수 있는 다지선다형 질의응답 시스템 구축 방법.
제1항에 있어서,
상기 오브젝트는 영상 또는 사운드에서 인공지능 기계가 인식하는 오브젝트인, 제시문이 없는 질의응답에 대하여 인공지능 기계가 학습하고 추론할 수 있는 다지선다형 질의응답 시스템 구축 방법.