KR101923650B1

KR101923650B1 - 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법

Info

Publication number: KR101923650B1
Application number: KR1020170060425A
Authority: KR
Inventors: 고영중; 배경만
Original assignee: 동아대학교 산학협력단
Priority date: 2017-05-16
Filing date: 2017-05-16
Publication date: 2018-11-29
Also published as: KR20180125746A

Abstract

본 발명은 워드 임베딩과 격틀 기반의 문장 임베딩 기술을 이용하여 질문 검색 서비스를 개선할 수 있도록 한 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법에 관한 것으로, 사용자가 입력한 질문과 검색 대상이 되는 질문에 대해 언어 분석을 진행하여 질문에서 단어 간의 의존관계 및 문장 성분으로써의 역할을 매핑하고 문장 성분을 추출하는 질문 언어 분석 처리부;상기 질문 언어 분석 처리부에서 추출된 문장 성분을 이용하여 격틀을 생성하는 격틀 생성부;상기 격틀 생성부에서 생성된 격틀 기반의 벡터와 BOW(bag of words) 모델 기반의 벡터를 이용해 사용자 질문과 검색 대상 질문 사이의 의미 유사도를 계산하는 유사도 계산부;상기 유사도 계산부의 유사도 계산 결과를 이용하여 격틀과 워드 임베딩을 이용한 문장 성분 간의 연관성을 고려한 검색 모델(WCFM)을 구축하는 검색 모델 구축부;TRLM(Translation based Language Model)을 통해 얻어진 각 검색 결과의 유사도 및 순위와 상기 검색 모델 구축부에서 구축된 WCFM을 통해 얻어진 유사도를 모두 반영하여 재순위화를 진행하는 재순위화부;를 포함하는 것이다.

Description

문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법{System and Method for Sentence Embedding and Similar Question Retrieving}

본 발명은 질문 검색 서비스에 관한 것으로, 구체적으로 워드 임베딩과 격틀 기반의 문장 임베딩 기술을 이용하여 질문 검색 서비스를 개선할 수 있도록 한 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법에 관한 것이다.

인터넷이 발전하면서 사람들은 인터넷상에 존재하는 다양한 정보를 검색엔진을 이용해 검색한다. 하지만, 사용자가 원하는 정보를 정확히 찾기 위해서는 많은 시간과 노력이 필요하다.

최근에는 사용자가 자신이 원하는 정보에 대한 질문을 등록하면, 다른 사용자가 질문에 대한 응답을 해주는 커뮤니티 기반의 질문-응답 서비스(communitybased Question Answering Service)의 중요성이 늘어나고 있다.

이와 같은 커뮤니티 기반의 질문-응답 서비스에서 사용되는 질문 답변 데이터에 대한 유사 질문 검색에서는 단어 불일치(Word Mismatch) 문제가 이슈가 된다.

이는 공통으로 쓰이는 단어가 적기 때문에 발생하며, 기존의 벡터 스페이스 모델(Vector Space Model)과 같은 단어 매칭(Term Matching) 기반의 검색 모델은 이 문제로 인하여 성능이 낮다.

유사 질문 검색 모델이 사용되는 커뮤니티 기반 질문-응답 서비스에서는 사용자가 자연어로 질문을 하고, 사용자 질문과 의미적으로 유사한 질문들을 검색하는 것이 중요하다.

유미적으로 유사한 질문을 검색하기 위해서는 단어 불일치 문제를 해결할 수 있어야 하며, 단어 간의 의미적 유사도를 효과적으로 계산하는 것이 필요하다.

종래 기술의 대표적인 질문 검색 모델은 언어 모델(Language Model, LM)을 기반으로 사용자 질문에 존재하는 단어가 검색할 대상 질문에서의 어떤 분포를 가지는지를 계산하여 의미적으로 유사한 질문을 검색하였다.

하지만, 이 모델은 의미가 유사하지만 형태가 다른 단어사이의 연관성을 계산하지 못하는 문제가 존재한다. 이를 해결하기 위해 단어 간의 번역확률을 이용해 단어 불일치 문제를 해결하는 번역기반 언어 모델(Translation based Language Model, TRLM)이 제안되었다.

많은 질문 검색 모델들은 번역기반 언어 모델을 개선하기 위한 연구를 진행하였다. 하지만, 종래 기술들의 모델들은 단어가 질문 내에서 문장성분으로써의 역할을 고려하지 않고 있기 때문에 주어 또는 목적어 사이의 의미 연관성이 높은 유사질문임에도 불구하고, 만약 다른 검색 대상 질문의 서술어와 의미 연관성이 높으면 잘못된 검색 결과를 보여주게 된다.

따라서, 커뮤니티 기반 질문-응답 서비스 사용자가 입력한 질문과 가장 유사한 질문을 검색하는 질문 검색 서비스를 개선할 수 있는 새로운 기술의 개발이 요구되고 있다.

대한민국 공개특허 제10-2004-0097814호 대한민국 공개특허 제10-2006-0063345호

본 발명은 이와 같은 종래 기술의 커뮤니티 기반 질문-응답 서비스의 문제를 해결하기 위한 것으로, 워드 임베딩과 격틀 기반의 문장 임베딩 기술을 이용하여 질문 검색 서비스를 개선할 수 있도록 한 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 사용자 질문의 의존관계로부터 문장의 성분으로 이루어진 격틀을 생성하고, 워드 임베딩과 격틀 기반의 문장 임베딩 기술을 이용하여 격틀 간의 단어 불일치 문제를 해결함으로써 커뮤니티 기반 질문-응답 서비스 사용자가 입력한 질문과 가장 유사한 질문을 효과적으로 검색할 수 있도록 한 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 주요 문장 성분으로 이루어진 격틀을 생성한 후 격틀간의 효과적인 의미 유사도 계산을 위해 워드 임베딩을 이용하여 문장 임베딩 기술을 개발하고, 기존 검색 모델의 결과를 재순위화 함으로써 검색 성능을 개선하는 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 주절 및 수식어와 보어 형태의 종속절에서 주어, 목적어, 서술어, 보어를 각각 추출하고 최대 12개의 단어로 이루어진 격틀을 생성한 후 생성된 격틀을 기반으로 문장 성분으로써의 역할이 같은 단어 간의 의미 유사도를 효과적으로 계산함으로써 단어가 문장에서 가지는 역할을 반영할 수 있도록 질문 검색 모델을 개선하는 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 단어 간의 의미 유사도를 잘 표현하는 워드 임베딩 기반의 자질 벡터를 이용하여, 같은 문장 성분 간의 의미 유사도 계산 시 발생하는 단어 불일치 문제를 해결하는 동시에 효과적으로 단어 간 의미 유사도를 계산하는 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

이와 같은 목적을 달성하기 위한 본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 장치는 사용자가 입력한 질문과 검색 대상이 되는 질문에 대해 언어 분석을 진행하여 질문에서 단어 간의 의존관계 및 문장 성분으로써의 역할을 매핑하고 문장 성분을 추출하는 질문 언어 분석 처리부;상기 질문 언어 분석 처리부에서 추출된 문장 성분을 이용하여 격틀을 생성하는 격틀 생성부;상기 격틀 생성부에서 생성된 격틀 기반의 벡터와 BOW(bag of words) 모델 기반의 벡터를 이용해 사용자 질문과 검색 대상 질문 사이의 의미 유사도를 계산하는 유사도 계산부;상기 유사도 계산부의 유사도 계산 결과를 이용하여 격틀과 워드 임베딩을 이용한 문장 성분 간의 연관성을 고려한 검색 모델(WCFM)을 구축하는 검색 모델 구축부;TRLM(Translation based Language Model)을 통해 얻어진 각 검색 결과의 유사도 및 순위와 상기 검색 모델 구축부에서 구축된 WCFM을 통해 얻어진 유사도를 모두 반영하여 재순위화를 진행하는 재순위화부;를 포함하는 것을 특징으로 한다.

여기서, 상기 질문 언어 분석 처리부는, 사용자가 입력한 질문과 검색 대상이 되는 질문에 대해 언어 분석을 진행하는 질문 언어 분석부와,형태소 분석과 개체명 인식을 진행한 후 의존 파싱을 통해 질문에서 단어 간의 의존관계 및 문장 성분으로써의 역할을 매핑하는 역할 매핑부와,의존 파싱을 통해 각 단어의 문장 성분을 확인하여 질문에서 주요 문장 성분인 주어, 목적어, 서술어, 보어를 추출하는 문장 성분 추출부를 포함하는 것을 특징으로 한다.

그리고 상기 격틀 생성부는, 질문에 대한 의존관계를 이용해 주절 및 수식어 기반의 종속절과 보어 기반의 종속절에서 각각 주어, 서술어, 목적어, 보어를 추출하여 최대 12개의 단어로 이루어진 격틀을 생성하는 것을 특징으로 한다.

그리고 상기 유사도 계산부는, 각 단어와 매칭이 되는 워드 임베딩 기반 자질 벡터를 이용해 격틀 벡터를 생성하고, 생성된 격틀 벡터간의 코사인 유사도를 계산하여 격틀 단어 간의 단어 불일치 문제를 해결하는 동시에 학습데이터를 통해 생성된 워드 임베딩 자질 벡터를 이용하여 단어 간 의미 유사도를 계산하는 것을 특징으로 한다.

그리고 상기 유사도 계산부에서, 격틀을 구성하는 각 단어는 고정된 위치를 가지며, 같은 위치에 있는 단어 간의 연관성만을 고려하여, 사용자 질문에서 생성한 격틀에 존재하는 주절의 주어는 검색 대상 질문에서 생성한 격틀에 존재하는 주절의 주어하고만 의미 연관성을 계산하는 것을 특징으로 한다.

그리고 상기 유사도 계산부에서, 각 벡터의 가중치(weight)는 바이너리 값을 사용하고, 각 벡터 간 코사인 유사도를 계산하고, 선형 결합을 통해 최종 질문 간 의미 유사도를 계산하는 것을 특징으로 한다.

그리고 상기 검색 모델 구축부는, 격틀을 구성하는 각 단어와 매칭이 되는 워드 임베딩 기반의 자질 벡터를 매핑하여 새로운 벡터를 구성하여 격틀과 워드 임베딩을 이용한 문장 성분 간의 연관성을 고려한 검색 모델(WCFM) 구축하는 것을 특징으로 한다.

다른 목적을 달성하기 위한 본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 방법은 사용자가 입력한 질문과 검색 대상이 되는 질문에 대해 언어 분석을 진행하여 질문에서 단어 간의 의존관계 및 문장 성분으로써의 역할을 매핑하고 문장 성분을 추출하는 질문 언어 분석 처리 단계;상기 질문 언어분석 처리 단계에서 추출된 문장 성분을 이용하여 격틀을 생성하는 격틀 생성 단계;상기 격틀 생성 단계에서 생성된 격틀 기반의 벡터와 BOW(bag of words) 모델 기반의 벡터를 이용해 사용자 질문과 검색 대상 질문 사이의 의미 유사도를 계산하는 유사도 계산 단계;상기 유사도 계산 단계의 유사도 계산 결과를 이용하여 격틀과 워드 임베딩을 이용한 문장 성분 간의 연관성을 고려한 검색 모델(WCFM)을 구축하는 검색 모델 구축 단계;TRLM(Translation based Language Model)을 통해 얻어진 각 검색 결과의 유사도 및 순위와 상기 구축된 WCFM을 통해 얻어진 유사도를 모두 반영하여 재순위화를 진행하는 재순위화 단계;를 포함하는 것을 특징으로 한다.

여기서, 상기 질문 언어 분석 처리 단계는,사용자가 입력한 질문과 검색 대상이 되는 질문에 대해 언어 분석을 진행하는 질문 언어 분석 단계와,형태소 분석과 개체명 인식을 진행한 후 의존 파싱을 통해 질문에서 단어 간의 의존관계 및 문장 성분으로써의 역할을 매핑하는 역할 매핑 단계와,의존 파싱을 통해 각 단어의 문장 성분을 확인하여 질문에서 주요 문장 성분인 주어, 목적어, 서술어, 보어를 추출하는 문장 성분 추출 단계를 포함하는 것을 특징으로 한다.

그리고 상기 격틀 생성 단계는, 질문에 대한 의존관계를 이용해 주절 및 수식어 기반의 종속절과 보어 기반의 종속절에서 각각 주어, 서술어, 목적어, 보어를 추출하여 최대 12개의 단어로 이루어진 격틀을 생성하는 것을 특징으로 한다.

그리고 상기 유사도 계산 단계는, 각 단어와 매칭이 되는 워드 임베딩 기반 자질 벡터를 이용해 격틀 벡터를 생성하고, 생성된 격틀 벡터간의 코사인 유사도를 계산하여 격틀 단어 간의 단어 불일치 문제를 해결하는 동시에 학습데이터를 통해 생성된 워드 임베딩 자질 벡터를 이용하여 단어 간 의미 유사도를 계산하는 것을 특징으로 한다.

그리고 상기 유사도 계산 단계에서, 격틀을 구성하는 각 단어는 고정된 위치를 가지며, 같은 위치에 있는 단어 간의 연관성만을 고려하여, 사용자 질문에서 생성한 격틀에 존재하는 주절의 주어는 검색 대상 질문에서 생성한 격틀에 존재하는 주절의 주어하고만 의미 연관성을 계산하는 것을 특징으로 한다.

그리고 상기 유사도 계산 단계에서, 각 벡터의 가중치(weight)는 바이너리 값을 사용하고, 각 벡터 간 코사인 유사도를 계산하고, 선형 결합을 통해 최종 질문 간 의미 유사도를 계산하는 것을 특징으로 한다.

이와 같은 본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법은 다음과 같은 효과를 갖는다.

첫째, 워드 임베딩과 격틀 기반의 문장 임베딩 기술을 이용하여 커뮤니티 기반 질문-응답 서비스를 개선할 수 있다.

둘째, 워드 임베딩과 격틀 기반의 문장 임베딩 기술을 이용하여 격틀 간의 단어 불일치 문제를 해결함으로써 커뮤니티 기반 질문-응답 서비스 사용자가 입력한 질문과 가장 유사한 질문을 효과적으로 검색할 수 있도록 한다.

셋째, 주요 문장 성분으로 이루어진 격틀을 생성한 후 격틀간의 효과적인 의미 유사도 계산을 위해 워드 임베딩을 이용하여 문장 임베딩 기술을 개발하고, 기존 검색 모델의 결과를 재순위화 하여 검색 성능을 개선한다.

넷째, 문장 성분으로써의 역할이 같은 단어 간의 의미 유사도를 효과적으로 계산하여 단어가 문장에서 가지는 역할을 반영할 수 있도록 질문 검색 모델을 개선할 수 있다.

다섯째, 단어 간의 의미 유사도를 잘 표현하는 워드 임베딩 기반의 자질 벡터를 이용하여, 같은 문장 성분 간의 의미 유사도 계산 시 발생하는 단어 불일치 문제를 해결하는 동시에 효과적으로 단어 간 의미 유사도를 계산할 수 있다.

도 1은 본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 장치의 구성도
도 2는 본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 방법을 나타낸 플로우 차트
도 3은 한국어와 영어 문장에 대한 의존 파싱 결과와 그래프 기반 의존 관계를 나타낸 구성도
도 4는 주절 및 수식어와 보어 형태의 종속절에서 추출된 격틀의 구조도
도 5는 격틀 기반의 벡터와 bag of words 기반의 벡터를 이용한 사용자 질문과 검색 대상 질문의 의미 유사도 계산 모델 구성도
도 6은 워드 임베딩 기반의 자질 벡터를 이용한 새로운 격틀 벡터 생성 과정을 나타낸 구성도
도 7은 워드 임베딩 기반의 자질 벡터를 이용한 격틀 기반의 질문 검색 모델의 수식화 구성도
도 8은 격틀 및 워드 임베딩을 이용한 유사 질문 검색 모델을 이용한 유사 질문 검색 결과 재순위화를 위한 전체 구성도
도 9는 본 발명을 통해 개발된 검색 모델을 이용한 유사 질문 검색 성능의 비교 결과 그래프

이하, 본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.

본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.

도 1은 본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 장치의 구성도이고, 도 2는 본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 방법을 나타낸 플로우 차트이다.

본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법은 주요 문장 성분으로 이루어진 격틀을 생성한 후 격틀 간의 효과적인 의미 유사도 계산을 위해 워드 임베딩을 이용하여 문장 임베딩 기술을 개발하고, 기존 검색 모델의 결과를 재순위화 하여 검색 성능을 개선하기 위한 것이다.

이를 위하여, 본 발명은 주절 및 수식어와 보어 형태의 종속절에서 주어, 목적어, 서술어, 보어를 각각 추출하고 최대 12개의 단어로 이루어진 격틀을 생성한 후 생성된 격틀을 기반으로 문장 성분으로써의 역할이 같은 단어 간의 의미 유사도를 효과적으로 계산하여 단어가 문장에서 가지는 역할을 반영할 수 있도록 질문 검색 모델을 개선하는 구성을 포함한다.

또한, 본 발명은 단어 간의 의미 유사도를 잘 표현하는 워드 임베딩 기반의 자질 벡터를 이용하여, 같은 문장 성분 간의 의미 유사도 계산 시 발생하는 단어 불일치 문제를 해결하는 동시에 효과적으로 단어 간 의미 유사도를 계산하는 구성을 포함한다.

본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 장치는 도 1에서와 같이, 사용자가 입력한 질문과 검색 대상이 되는 질문에 대해 언어 분석을 진행하는 질문 언어 분석부(10)와, 형태소 분석과 개체명 인식을 진행한 후 의존 파싱을 통해 질문에서 단어 간의 의존관계 및 문장 성분으로써의 역할을 매핑하는 역할 매핑부(20)와, 의존 파싱을 통해 각 단어의 문장 성분을 확인하여 질문에서 주요 문장 성분인 주어, 목적어, 서술어, 보어를 추출하는 문장 성분 추출부(30)와, 주절 및 수식어 기반의 종속절과 보어 기반의 종속절에서 각각 주어, 서술어, 목적어, 보어를 추출하여 최대 12개의 단어로 이루어진 격틀을 생성하는 격틀 생성부(40)와, 격틀 기반의 벡터와 BOW(bag of words) 모델 기반의 벡터를 이용해 사용자 질문과 검색 대상 질문 사이의 의미 유사도를 계산하는 유사도 계산부(50)와, 격틀을 구성하는 각 단어와 매칭이 되는 워드 임베딩 기반의 자질 벡터를 매핑하여 새로운 벡터를 구성하여 격틀과 워드 임베딩을 이용한 문장 성분 간의 연관성을 고려한 검색 모델(Case Frame based Retrieval Model with Word embedding, WCFM) 구축하는 검색 모델 구축부(60)와, TRLM(Translation based Language Model)을 통해 얻어진 각 검색 결과의 유사도 및 순위와 WCFM을 통해 얻어진 유사도를 모두 반영하여 재순위화를 진행하는 재순위화부(70)를 포함한다.

이와 같은 본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 장치는 번역확률 및 언어모델 기반 질문 검색 모델을 개선하기 위해 단어가 질문에서 가지는 문장 성분으로써의 역할을 반영한다.

이를 위해, 질문에 대한 의존 관계 결과를 이용해 주절과 수식어 형태의 종속절 그리고 보어 형태의 종속절에 포함된 주어, 목적어, 서술어, 보어를 각각 추출하고, 최대 12개의 단어로 이루어진 격틀을 생성한 후 각 단어와 매칭이 되는 워드 임베딩 기반 자질 벡터를 이용해 격틀 벡터를 생성한다.

생성된 격틀 벡터간의 코사인 유사도를 계산함으로써 격틀 단어 간의 단어 불일치 문제를 해결하는 동시에 대용량의 학습데이터를 통해 생성된 워드 임베딩 자질 벡터를 이용함으로써 단어 간 의미 유사도 역시 효과적으로 계산할 수 있다.

본 발명을 통해 개발된 검색 모델(Case Frame based Retrieval Model with Word embedding, WCFM)은 번역확률 및 언어 모델 기반의 검색 모델(Translation based Language Model,TRLM)의 검색 결과 상위 N개에 대해 재순위화 하는 방법으로 검색 결과를 개선한다.

본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 방법은 도 2에서와 같이, 사용자가 입력한 질문과 검색 대상이 되는 질문에 대해 언어 분석을 진행하는 질문 언어 분석 단계(S201)와, 형태소 분석과 개체명 인식을 진행한 후 의존 파싱을 통해 질문에서 단어 간의 의존관계 및 문장 성분으로써의 역할을 매핑하는 역할 매핑 단계(S202)와, 의존 파싱을 통해 각 단어의 문장 성분을 확인하여 질문에서 주요 문장 성분인 주어, 목적어, 서술어, 보어를 추출하는 문장 성분 추출 단계(S203)와, 주절 및 수식어 기반의 종속절과 보어 기반의 종속절에서 각각 주어, 서술어, 목적어, 보어를 추출하여 최대 12개의 단어로 이루어진 격틀을 생성하는 격틀 생성 단계(S204)와, 격틀 기반의 벡터와 BOW(bag of words) 모델 기반의 벡터를 이용해 사용자 질문과 검색 대상 질문 사이의 의미 유사도를 계산하는 유사도 계산 단계(S205)와, 격틀을 구성하는 각 단어와 매칭이 되는 워드 임베딩 기반의 자질 벡터를 매핑하여 새로운 벡터를 구성하여 격틀과 워드 임베딩을 이용한 문장 성분 간의 연관성을 고려한 검색 모델(Case Frame based Retrieval Model with Word embedding, WCFM) 구축하는 검색 모델 구축 단계(S206)와, TRLM(Translation based Language Model)을 통해 얻어진 각 검색 결과의 유사도 및 순위와 WCFM을 통해 얻어진 유사도를 모두 반영하여 재순위화를 진행하는 재순위화 단계(S207)를 포함한다.

본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 방법의 각 단계에서의 처리 과정을 구체적으로 설명하면 다음과 같다.

도 3은 한국어와 영어 문장에 대한 의존 파싱 결과와 그래프 기반 의존 관계를 나타낸 구성도이다.

그리고 도 4는 주절 및 수식어와 보어 형태의 종속절에서 추출된 격틀의 구조도이고, 도 5는 격틀 기반의 벡터와 bag of words 기반의 벡터를 이용한 사용자 질문과 검색 대상 질문의 의미 유사도 계산 모델 구성도이다.

본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 방법에서 질문 언어 분석 단계(S201)에서 주요 동작 요소 중 하나인 격틀을 추출하기 위해서 기본적으로 사용자가 입력한 질문과 검색 대상이 되는 질문에 대해 언어 분석을 진행한다.

질문 언어 분석을 위하여 형태소 분석과 개체명 인식을 진행한 후 의존 파싱을 통해 질문에서 단어 간의 의존관계 및 문장 성분으로써의 역할을 매핑한다.

여기서, 의존 파싱을 통해 얻어진 결과를 도 3과 같이 간단한 그래프로 표현할 수 있다.

의존 파싱을 통해 각 단어의 문장 성분을 확인할 수 있으며, 간단한 규칙을 통해 질문에서 주요 문장 성분인 주어, 목적어, 서술어, 보어를 추출한다.

단문으로 이루어진 질문 이외에 종속절을 가지는 복문으로 구성된 질문도 존재한다. 이러한 경우를 모두 고려하기 위해 도 4에서와 같이, 주절 및 수식어 기반의 종속절과 보어 기반의 종속절에서 각각 주어, 서술어, 목적어, 보어를 추출하여 최대 12개의 단어로 이루어진 격틀을 생성한다.

격틀을 구성하는 각 단어는 도 4에서와 같이, 고정된 위치를 가지며, 같은 위치에 있는 단어 간의 연관성만을 고려한다.

즉, 사용자 질문에서 생성한 격틀에 존재하는 주절의 주어는 검색 대상 질문에서 생성한 격틀에 존재하는 주절의 주어하고만 의미 연관성을 계산한다.

그리고 추가적으로 사용자의 질문에 존재하는 모든 단어와 검색 대상이 되는 질문의 모든 단어 간의 의미 연관성을 계산하기 위해 Bag of Words 기반의 벡터를 사용한다.

도 5는 격틀 기반의 벡터와 bag of words 기반의 벡터를 이용해 사용자 질문과 검색 대상 질문 사이의 의미 유사도를 계산하는 모델을 나타낸 것이다.

각 벡터의 weight는 바이너리 값을 사용한다. 각 벡터 간 코사인 유사도를 계산하고, 선형 결합을 통해 최종 질문 간 의미 유사도를 계산한다.

하지만, 격틀 기반의 벡터 간 유사도 계산 시에 같은 의미를 가지지만 다른 형태의 단어들의 경우 유사도 계산이 되지 않는 단어 불일치 문제가 발생한다.

이를 해결하기 위해 본 발명에서는 단어 간의 의미 유사도 계산에 적합한 워드 임베딩 기반의 자질 벡터를 사용한다.

대용량의 말뭉치로부터 구축한 워드 임베딩 자질 벡터들은 단어 하나가 대용량의 말뭉치에서 가지는 의미를 일정한 크기의 벡터로 잘 표현하고 있다.

이러한 장점을 반영하기 위해 본 발명에서는 도 6에서와 같이 격틀을 구성하는 각 단어와 매칭이 되는 워드 임베딩 기반의 자질 벡터를 매핑하여 새로운 벡터를 구성한다.

도 6은 워드 임베딩 기반의 자질 벡터를 이용한 새로운 격틀 벡터 생성 과정을 나타낸 구성도이고, 도 7은 워드 임베딩 기반의 자질 벡터를 이용한 격틀 기반의 질문 검색 모델의 수식화 구성도이다.

64차원으로 이루어진 워드 임베딩 기반의 자질 벡터들을 가지는 룩업 테이블(Lookup Table)에서 격틀을 구성하는 각 단어와 매핑되는 자질 벡터를 가져온 후 각 벡터를 이웃하게 붙임으로써 12차원의 격틀 벡터를 최종적으로 워드 임베딩 기반의 자질 벡터가 포함된 768차원의 새로운 격틀 벡터를 생성한다.

만약, 룩업 테이블에 매핑되는 자질 벡터가 없는 경우는 모든 가중치(weight)가 0인 제로벡터를 사용한다.

그리고 본 발명을 통해 개발된 격틀과 워드 임베딩을 이용한 문장 성분 간의 연관성을 고려한 검색 모델(Case Frame based Retrieval Model with Word embedding,WCFM)을 구축하고, 도 8에서 보는 것과 같이 기존의 TRLM의 검색 결과를 재순위화 하는 형태로 검색 결과를 개선한다.

도 8은 격틀 및 워드 임베딩을 이용한 유사 질문 검색 모델을 이용한 유사 질문 검색 결과 재순위화를 위한 전체 구성도이다.

TRLM을 통해 검색된 상위 400개의 검색 결과에 대해 WCFM을 통해 재순위화를 진행하며, 이때 TRLM를 통해 얻어진 각 검색 결과의 유사도 및 순위와 WCFM을 통해 얻어진 유사도를 모두 반영하여 재순화를 진행한다.

따라서, 단어가 가지는 문장 성분으로써의 역할과 문장 성분 간 연관성을 워드 임베딩을 기반으로 의미 연관성을 계산하여 기존 검색 결과에 반영함으로써 검색 결과가 개선된다.

이와 같은 본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법을 적용한 실시 예를 설명 하면 다음과 같다.

본 발명에서는 한국어와 영어의 대표적인 커뮤니티 기반 질문-응답 서비스인 네이버의 지식인과 Yahoo! Answer의 질문-응답 쌍을 대상으로 실시 예를 작성하였다.

실시 예를 위해 사용한 말뭉치는 표 1에 나타내었다.

본 발명에서는 실시 예를 위해서 사용된 평가 방법은 수학식 1에서와 같다.

여기서, Q는 전체 질문의 개수를 의미하며, q는 하나의 질문을 의미한다.

AP(q)는 하나의 질문 q에 대한 평균정확률(Average precision)을 나타내며, n은 질문 q에 대해 검색된 질문-응답 쌍의 개수를 나타낸다.

k는 검색된 n개의 질문-응답 쌍들 중에서의 순위를 나타내며, P(k)는 k번째 순위까지의 정확률을 의미한다. rel(k)는k 순위를 가지는 질문-응답 쌍이 질문 q와 연관성이 있는 지를 0과 1로 나타낸다. |r|은 질문 q과 연관된 질문-응답 쌍의 개수이다.

도 9는 본 발명을 통해 개발된 검색 모델을 이용한 유사 질문 검색 성능의 비교 결과 그래프이다.

한국어 말뭉치의 경우 랜덤하게 300개의 질문-응답 쌍을 추출한 후 Indri 검색 엔진을 통해 각 질문에 대해 상위 20개의 유사질문 집합을 구축하였다.

관련된 분야를 전공한 평가자 3명을 통해 각 질문에 대한 20개의 유사질문과의 연관성을 판단한 후 3명의 평가자 중 2명이상이 연관성이 높다고 판단한 유사 질문들을 정답 검색 대상 질문으로 지정하였다.

약 1500여개의 정답 질문을 선정하였으며, 이를 포함한 14,401개의 검색 대상 질문 집합을 실험에 사용하였다. 영어 말뭉치의 경우 Yahoo! Answer에서 제공한 말뭉치를 사용하였으며, 평가자가 평가한 평균 점수가 말뭉치에 포함되어 있다.

2점 이상인 질문만을 정답 질문으로 선정하여 실험을 진행하였다.

그리고 기존의 언어 모델 기반 검색 모델(LM)과 번역 확률 및 언어 모델 기반 검색 모델(TRLM)과의 비교를 통해 본 발명에서 개발한 격틀 및 워드 임베딩을 이용한 유사 질문 검색 결과 재순위화 모델이 기존 모델의 검색 성능을 개선하는 것을 보여준다.

도 9는 기존 모델과 본 발명에서 개발한 모델의 유사 질문 검색 성능을 나타낸다.

기존 검색 모델인 TRLM에 본 발명을 통해 개발한 재순위화 모델을 적용했을 때 한국어와 영어 말뭉치에 대해 모두 개선된 성능을 얻었으며, 특히 영어의 경우 한국어 보다 더 나은 성능 개선을 보였다.

이상에서 설명한 본 발명에 따른 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법은 질문 검색 모델을 개선하여 문장간의 유사도를 측정하여 활용하는 검색모델에서 활용할 수 있을 뿐만 아니라 다양한 문장 간 연관성을 계산하는 영역에 활용될 수 있다.

실시 예에서 확인한 바와 같이 커뮤니티 기반 질문-응답 서비스의 검색 성능을 향상시키는 것으로 확인할 수 있었다. 격틀을 이용해 문장 성분을 검색에 활용할 수 있으며, 단어 간 의미 연관성을 효과적으로 계산할 수 있는 워드 임베딩을 사용하기 때문에 다양한 분야에서 단어 간 의미 연관성을 계산하는 곳에 활용할 수 있다.

이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.

그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

10. 질문 언어 분석부 20. 역할 매핑부
30. 문장 성분 추출부 40. 격틀 생성부
50. 유사도 계산부 60. 검색 모델 구축부
70. 재순위화부

Claims

사용자가 입력한 질문과 검색 대상이 되는 질문에 대해 언어 분석을 진행하여 질문에서 단어 간의 의존관계 및 문장 성분으로써의 역할을 매핑하고 문장 성분을 추출하는 질문 언어 분석 처리부;
상기 질문 언어 분석 처리부에서 추출된 문장 성분을 이용하여 격틀을 생성하는 격틀 생성부;
상기 격틀 생성부에서 생성된 격틀 기반의 벡터와 BOW(bag of words) 모델 기반의 벡터를 이용해 사용자 질문과 검색 대상 질문 사이의 의미 유사도를 계산하는 유사도 계산부;
상기 유사도 계산부의 유사도 계산 결과를 이용하여 격틀과 워드 임베딩을 이용한 문장 성분 간의 연관성을 고려한 검색 모델(WCFM)을 구축하는 검색 모델 구축부;
TRLM(Translation based Language Model)을 통해 얻어진 각 검색 결과의 유사도 및 순위와 상기 검색 모델 구축부에서 구축된 WCFM을 통해 얻어진 유사도를 모두 반영하여 재순위화를 진행하는 재순위화부;를 포함하는 것을 특징으로 하는 문장 임베딩 및 유사 질문 검색을 위한 장치.
제 1 항에 있어서, 상기 질문 언어 분석 처리부는,
사용자가 입력한 질문과 검색 대상이 되는 질문에 대해 언어 분석을 진행하는 질문 언어 분석부와,
형태소 분석과 개체명 인식을 진행한 후 의존 파싱을 통해 질문에서 단어 간의 의존관계 및 문장 성분으로써의 역할을 매핑하는 역할 매핑부와,
의존 파싱을 통해 각 단어의 문장 성분을 확인하여 질문에서 주요 문장 성분인 주어, 목적어, 서술어, 보어를 추출하는 문장 성분 추출부를 포함하는 것을 특징으로 하는 문장 임베딩 및 유사 질문 검색을 위한 장치.
제 1 항에 있어서, 상기 격틀 생성부는,
질문에 대한 의존관계를 이용해 주절 및 수식어 기반의 종속절과 보어 기반의 종속절에서 각각 주어, 서술어, 목적어, 보어를 추출하여 최대 12개의 단어로 이루어진 격틀을 생성하는 것을 특징으로 하는 문장 임베딩 및 유사 질문 검색을 위한 장치.
제 1 항에 있어서, 상기 유사도 계산부는,
각 단어와 매칭이 되는 워드 임베딩 기반 자질 벡터를 이용해 격틀 벡터를 생성하고, 생성된 격틀 벡터간의 코사인 유사도를 계산하여 격틀 단어 간의 단어 불일치 문제를 해결하는 동시에 학습데이터를 통해 생성된 워드 임베딩 자질 벡터를 이용하여 단어 간 의미 유사도를 계산하는 것을 특징으로 하는 문장 임베딩 및 유사 질문 검색을 위한 장치.
제 4 항에 있어서, 상기 유사도 계산부에서,
격틀을 구성하는 각 단어는 고정된 위치를 가지며, 같은 위치에 있는 단어 간의 연관성만을 고려하여,
사용자 질문에서 생성한 격틀에 존재하는 주절의 주어는 검색 대상 질문에서 생성한 격틀에 존재하는 주절의 주어하고만 의미 연관성을 계산하는 것을 특징으로 하는 문장 임베딩 및 유사 질문 검색을 위한 장치.
제 4 항에 있어서, 상기 유사도 계산부에서,
각 벡터의 가중치(weight)는 바이너리 값을 사용하고, 각 벡터 간 코사인 유사도를 계산하고, 선형 결합을 통해 최종 질문 간 의미 유사도를 계산하는 것을 특징으로 하는 문장 임베딩 및 유사 질문 검색을 위한 장치.
제 1 항에 있어서, 상기 검색 모델 구축부는,
격틀을 구성하는 각 단어와 매칭이 되는 워드 임베딩 기반의 자질 벡터를 매핑하여 새로운 벡터를 구성하여 격틀과 워드 임베딩을 이용한 문장 성분 간의 연관성을 고려한 검색 모델(WCFM) 구축하는 것을 특징으로 하는 문장 임베딩 및 유사 질문 검색을 위한 장치.
사용자가 입력한 질문과 검색 대상이 되는 질문에 대해 언어 분석을 진행하여 질문에서 단어 간의 의존관계 및 문장 성분으로써의 역할을 매핑하고 문장 성분을 추출하는 질문 언어 분석 처리 단계;
상기 질문 언어 분석 처리 단계에서 추출된 문장 성분을 이용하여 격틀을 생성하는 격틀 생성 단계;
상기 격틀 생성 단계에서 생성된 격틀 기반의 벡터와 BOW(bag of words) 모델 기반의 벡터를 이용해 사용자 질문과 검색 대상 질문 사이의 의미 유사도를 계산하는 유사도 계산 단계;
상기 유사도 계산 단계의 유사도 계산 결과를 이용하여 격틀과 워드 임베딩을 이용한 문장 성분 간의 연관성을 고려한 검색 모델(WCFM)을 구축하는 검색 모델 구축 단계;
TRLM(Translation based Language Model)을 통해 얻어진 각 검색 결과의 유사도 및 순위와 상기 구축된 WCFM을 통해 얻어진 유사도를 모두 반영하여 재순위화를 진행하는 재순위화 단계;를 포함하는 것을 특징으로 하는 문장 임베딩 및 유사 질문 검색을 위한 방법.
제 8 항에 있어서, 상기 질문 언어 분석 처리 단계는,
사용자가 입력한 질문과 검색 대상이 되는 질문에 대해 언어 분석을 진행하는 질문 언어 분석 단계와,
형태소 분석과 개체명 인식을 진행한 후 의존 파싱을 통해 질문에서 단어 간의 의존관계 및 문장 성분으로써의 역할을 매핑하는 역할 매핑 단계와,
의존 파싱을 통해 각 단어의 문장 성분을 확인하여 질문에서 주요 문장 성분인 주어, 목적어, 서술어, 보어를 추출하는 문장 성분 추출 단계를 포함하는 것을 특징으로 하는 문장 임베딩 및 유사 질문 검색을 위한 방법.
제 8 항에 있어서, 상기 격틀 생성 단계는,
질문에 대한 의존관계를 이용해 주절 및 수식어 기반의 종속절과 보어 기반의 종속절에서 각각 주어, 서술어, 목적어, 보어를 추출하여 최대 12개의 단어로 이루어진 격틀을 생성하는 것을 특징으로 하는 문장 임베딩 및 유사 질문 검색을 위한 방법.
제 8 항에 있어서, 상기 유사도 계산 단계는,
각 단어와 매칭이 되는 워드 임베딩 기반 자질 벡터를 이용해 격틀 벡터를 생성하고, 생성된 격틀 벡터간의 코사인 유사도를 계산하여 격틀 단어 간의 단어 불일치 문제를 해결하는 동시에 학습데이터를 통해 생성된 워드 임베딩 자질 벡터를 이용하여 단어 간 의미 유사도를 계산하는 것을 특징으로 하는 문장 임베딩 및 유사 질문 검색을 위한 방법.
제 11 항에 있어서, 상기 유사도 계산 단계에서,
격틀을 구성하는 각 단어는 고정된 위치를 가지며, 같은 위치에 있는 단어 간의 연관성만을 고려하여,
사용자 질문에서 생성한 격틀에 존재하는 주절의 주어는 검색 대상 질문에서 생성한 격틀에 존재하는 주절의 주어하고만 의미 연관성을 계산하는 것을 특징으로 하는 문장 임베딩 및 유사 질문 검색을 위한 방법.
제 11 항에 있어서, 상기 유사도 계산 단계에서,
각 벡터의 가중치(weight)는 바이너리 값을 사용하고, 각 벡터 간 코사인 유사도를 계산하고, 선형 결합을 통해 최종 질문 간 의미 유사도를 계산하는 것을 특징으로 하는 문장 임베딩 및 유사 질문 검색을 위한 방법.