KR20200044178A

KR20200044178A - 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법

Info

Publication number: KR20200044178A
Application number: KR1020180119113A
Authority: KR
Inventors: 고영중; 안재현
Original assignee: 동아대학교 산학협력단
Priority date: 2018-10-05
Filing date: 2018-10-05
Publication date: 2020-04-29
Also published as: KR102109866B1

Abstract

본 발명은 채팅 시스템(Chatting system)에 관한 것으로, 구체적으로 단어 단위 임베딩 벡터(Word embedding)와 합성곱 신경망(Convolutional Neural Networks)을 이용하여 길이가 짧은 발화에 대해 효과적으로 발화 단위 표상을 생성하고 발화를 표현할 수 있도록 한 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법에 관한 것으로, 윈도우 크기를 이용하여 발화 데이터에서 임의의 채팅쌍을 추출하는 채팅쌍 추출부;발화를 기계가 이해할 수 있도록 발화 단위 표상을 생성하는 발화 단위 표상 생성부;기계에서 임의로 만든 채팅 쌍과 미리 구축되어 있는 채팅 말뭉치의 채팅 유사도(Chatting similarity)를 계산하는 채팅 유사도 계산부;채팅 유사도가 임계값(Threshold)보다 높으면 임의의 채팅 쌍은 응답관계가 맞는 채팅 쌍이라고 판단하여 채팅 말뭉치 확장을 하는 채팅 말뭉치 구축부;를 포함하는 것이다.

Description

합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법{System and Method for Expansion Chatting Corpus Based on Similarity Measure Using Utterance Embedding by ＣＮＮ}

본 발명은 채팅 시스템(Chatting system)에 관한 것으로, 구체적으로 단어 단위 임베딩 벡터(Word embedding)와 합성곱 신경망(Convolutional Neural Networks)을 이용하여 길이가 짧은 발화에 대해 효과적으로 발화 단위 표상을 생성하고 발화를 표현할 수 있도록 한 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법에 관한 것이다.

채팅 시스템(Chatting system)이란 사람과 기계 사이에 의사소통을 하는 시스템을 의미한다. 채팅 시스템에서 사용하는 의사소통의 수단은 사람과 사람사이에서만 사용하였던 자연어(Natural language)를 그대로 사용하는 것이 특징이다.

채팅 시스템은 크게 유사도 기반 채팅 시스템과 생성 기반 채팅 시스템이 있다.

먼저, 유사도 기반 채팅 시스템은 대량의 사용자 발화와 시스템 발화 응답 쌍 데이터베이스를 구축하고, 입력으로 사용자 발화가 들어왔을 때 데이터베이스에서 가장 유사한 사용자 발화를 찾고, 시스템 발화를 출력하는 시스템이다.

의미적으로 가장 정확한 발화를 찾을 경우 강건한 응답 발화를 출력할 수 있는 것이 특징이다.

종래 기술의 일 예로는 3단계 문장 검색 방법을 이용하여 의미적으로 가장 유사한 발화를 찾는 방법이 있다. 이 방법은 각 단계에 따라 사용하는 형태소와 휴리스틱 기법을 다르게 두어 커버리지를 높였고, 문장 양상, 긍/부정 등 다양한 자질을 추가로 사용하는 것이다.

다른 방법의 하나는 딥러닝(Deep learning) 모델 중 하나인 LSTM을 이용하여 특별한 자질 선택(Feature selection)의 노력 없이 유사도 기반 채팅 시스템의 성능을 개선하는 방법이 있다.

그리고 생성 기반 채팅 시스템은 뉴럴 기계 번역에서 사용하는 시퀀스 투 시퀀스(Sequence to Sequence) 모델을 그대로 사용하여, 사용자 발화가 입력되었을 때 적절한 응답을 생성하는 시스템이다.

시퀀스 투 시퀀스 모델은 사용자 발화를 요약하는 인코더와 시스템 발화를 생성하는 디코더로 구성되어 있으며, 시스템 발화를 생성하는 단계에서는 문장 구조에 맞게 생성해야 하기 때문에 언어에 대한 지식을 충분히 가지고 있어야 하고, 자연스러운 문장 생성을 위해 선행 연구인 유사도 기반 채팅 시스템보다 더 많은 말뭉치가 요구되는 것이 특징이다.

종래 기술의 일 예에 따른 방법으로 일반적인 시퀀스 투 시퀀스 모델을 사용하여 일상 대화 및 간단한 질의응답이 가능한 시스템을 제안하고, 또 다른 방법에서는 일반적인 시퀀스 투 시퀀스 모델에서 사용자의 감정을 인식하고, 사용자의 감정에 적절한 응답 발화를 생성하는 방법을 제안하고 있다.

이러한 채팅 시스템을 만들기 위해선 사용자 발화와 시스템 발화가 하나의 쌍으로 묶여 있는 대량의 채팅 말뭉치가 반드시 필요하다.

그러나 채팅 말뭉치는 현재 공개되어 있는 말뭉치가 희소하기 때문에 많은 연구에서는 정제되지 않은 발화의 기록(Log)을 사람이 직접 정제하는 등 많은 노력을 통해 채팅 말뭉치를 구축하여 사용하였다.

발화 데이터란 사람이 발화한 모든 데이터를 의미하고, 영화, 극대본과 같이 발화만 존재할 뿐 쌍으로 되어 있지 않은 데이터를 의미한다.

이러한 발화 데이터를 이용하여 채팅 쌍을 생성하기 위해 윈도우 크기(Window size)를 잡아 임의의 채팅 쌍을 구축한다.

그리고 임의의 채팅 쌍과 미리 구축되어 있는 채팅 말뭉치(Golden standard corpus) 간의 유사도를 계산하여 사용자 발화의 응답으로 시스템 발화가 적절한 응답인지 판단한다.

발화 단위 표상은 발화를 기계가 이해할 수 있도록 벡터로 표현해주는 것을 의미한다.

발화 단위 표상을 생성하기 위한 종래 기술의 방법으로는 TF(Term Frequency), IDF(Inverted Document Frequency)를 많이 이용하였다.

그러나 채팅성 발화는 굉장히 짧은 길이로 구성되어 있기 때문에 일반적으로 문장, 문서를 표현할 때 많이 사용하는 TF(Term Frequency), TF*IDF(Inverted Documents Frequency)를 이용하면 굉장히 희소한(High sparsity) 벡터로 표현되며 의미적인 정보는 포함되지 않는 문제가 있다.

대한민국 등록특허 제10-1814958호 대한민국 등록특허 제10-1741248호

본 발명은 종래 기술의 채팅 시스템(Chatting system)의 문제점을 해결하기 위한 것으로, 단어 단위 임베딩 벡터(Word embedding)와 합성곱 신경망(Convolutional Neural Networks)을 이용하여 길이가 짧은 발화에 대해 효과적으로 발화 단위 표상을 생성하고 발화를 표현할 수 있도록 한 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 기계가 이해할 수 있는 벡터로 표현된 발화 쌍을 기계가 올바른 채팅 쌍인지 0과 1로 판단하여 채팅 말뭉치를 확장하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 짧은 길이의 채팅성 발화를 효과적으로 표현하기 위해 단어 단위 임베딩 벡터(Word embedding)와 합성곱 신경망(Convolutional Neural Networks) 모델을 이용하여 저차원(Low dimensions), 의미적 정보가 잘 반영된 발화 단위 표상(Utterance Representation)을 생성하고 이를 이용하여 발화 간 유사도를 계산하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 영화자막, 극대본과 같이 대량의 발화 데이터에서 임의의 쌍을 만들고, 미리 구축된 채팅 말뭉치(Golden standard chatting corpus)와 채팅 유사도를 계산하고, 계산된 채팅 유사도가 실험을 통해 구한 임계값(Threshold)보다 크다면 임의의 쌍은 올바른 채팅 쌍이라고 판단하여 효과적으로 채팅 말뭉치를 확장하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 기계가 구축한 말뭉치(Machine Labeled Chatting corpus)를 사람이 수정할 수 있기 때문에 반자동이며, 기계가 1차적으로 판단하기 때문에 사람이 노력하는 비용이 줄어드는 효과를 갖는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치는 윈도우 크기를 이용하여 발화 데이터에서 임의의 채팅쌍을 추출하는 채팅쌍 추출부;발화를 기계가 이해할 수 있도록 발화 단위 표상을 생성하는 발화 단위 표상 생성부;기계에서 임의로 만든 채팅 쌍과 미리 구축되어 있는 채팅 말뭉치의 채팅 유사도(Chatting similarity)를 계산하는 채팅 유사도 계산부;채팅 유사도가 임계값(Threshold)보다 높으면 임의의 채팅 쌍은 응답관계가 맞는 채팅 쌍이라고 판단하여 채팅 말뭉치 확장을 하는 채팅 말뭉치 구축부;를 포함하는 것을 특징으로 한다.

여기서, 채팅 유사도 계산부는 i번째 임의의 쌍(pair)이 입력으로 들어 왔을 때 채팅 유사도를,

으로 구하고, i번째 쌍은 길이가 n인 미리 구축된 채팅 말뭉치의 전체 쌍과 각각 유사도를 계산하여, 구해진 유사도 중 가장 큰 값을 i번째 쌍의 채팅 유사도라 하고, 이 채팅 유사도가 미리 정의된 임계값보다 크다면 올바른 쌍이라고 판단하는 것을 특징으로 한다.

그리고 채팅 유사도를 계산하기 위해 코사인 유사도(Cosine similarity)를 이용하고, 임의로 추출된 쌍과 미리 구축된 채팅 말뭉치는 모두 사용자 발화와 시스템 발화의 쌍으로 구성되어 있기 때문에 각각의 유사도를 계산하고, 두 유사도의 반영 비율인 감마(

) 이용으로, 선형 결합(Linear combination)하여 하나의 채팅 유사도로 표현하는 것을 특징으로 한다.

그리고 발화 단위 표상 생성부는, 저차원(Low dimensions)의 의미 정보가 포함된 벡터로 표현하기 위하여, 형태소의 DF(Document Frequency)를 이용하여 길이가 짧은 발화를 효과적으로 표현할 수 있는 형태소만을 선택하여 평균 임베딩 벡터를 생성하고, 사용한 형태소는 일반명사, 고유명사, 수사, 동사, 형용사, 일반 부사를 선택적으로 포함하는 것을 특징으로 한다.

그리고 발화 단위 표상 생성부는, 합성곱 신경망(Convolutional Neural Networks) 모델과 단어 단위 임베딩을 이용하여 발화 단위 표상을 생성하는 것을 특징으로 한다.

그리고 발화를 Projection layer를 통해 형태소 단위 임베딩 벡터로 표현하고, Convolution layer와 max polling을 이용하여 심층 자질 표상(Deep feature representation)으로 유도하고, 유도된 심층 자질 표상을 이용하여 최종적인 출력 벡터(Output vector)를 유도하고, 정답 벡터(Answer vector)와 차이를 계산하여 학습하는 것을 특징으로 한다.

그리고 학습을 위해 합성곱 신경망 모델의 정답 벡터는 LSA(Latent Semantic Analysis)와 TF*IDF를 이용하여 생성하고, 발화에 대해 TF*IDF를 이용하여 표현하고 차원을 줄이고 잠재적 의미 분석을 수행하는 LSA를 이용하여 매트릭스를 분리, 저차원의 밀집된(Dense) 벡터를 정답 벡터로 사용하고, 합성곱 신경망 모델을 이용하여 출력 벡터(Output vector)를 유도하고, 정답 벡터와 코사인 거리(Cosine distance)가 줄어들도록 학습을 진행하는 것을 특징으로 한다.

그리고 출력 벡터는 학습을 위해 사용한 것이고, 실제 발화 단위 표상으로 사용하는 벡터는 학습이 완료된 합성곱 신경망 모델의 심층 자질 표상을 발화 단위 표상으로 사용하는 것을 특징으로 한다.

다른 목적을 달성하기 위한 본 발명에 따른 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법은 윈도우 크기를 이용하여 발화 데이터에서 임의의 채팅쌍을 추출하는 채팅쌍 추출 단계;발화를 기계가 이해할 수 있도록 발화 단위 표상을 생성하는 발화 단위 표상 생성 단계;기계에서 임의로 만든 채팅 쌍과 미리 구축되어 있는 채팅 말뭉치의 채팅 유사도(Chatting similarity)를 계산하는 채팅 유사도 계산 단계;채팅 유사도가 임계값(Threshold)보다 높으면 임의의 채팅 쌍은 응답관계가 맞는 채팅 쌍이라고 판단하여 채팅 말뭉치 확장을 하는 채팅 말뭉치 구축 단계;를 포함하는 것을 특징으로 한다.

여기서, 채팅 유사도 계산 단계에서, i번째 임의의 쌍(pair)이 입력으로 들어 왔을 때 채팅 유사도를,

그리고 발화 단위 표상 생성 단계에서, 저차원(Low dimensions)의 의미 정보가 포함된 벡터로 표현하기 위하여, 형태소의 DF(Document Frequency)를 이용하여 길이가 짧은 발화를 효과적으로 표현할 수 있는 형태소만을 선택하여 평균 임베딩 벡터를 생성하고, 사용한 형태소는 일반명사, 고유명사, 수사, 동사, 형용사, 일반 부사를 선택적으로 포함하는 것을 특징으로 한다.

그리고 발화 단위 표상 생성 단계에서, 합성곱 신경망(Convolutional Neural Networks) 모델과 단어 단위 임베딩을 이용하여 발화 단위 표상을 생성하는 것을 특징으로 한다.

이상에서 설명한 바와 같은 본 발명에 따른 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법은 다음과 같은 효과가 있다.

첫째, 단어 단위 임베딩 벡터(Word embedding)와 합성곱 신경망(Convolutional Neural Networks)을 이용하여 길이가 짧은 발화에 대해 효과적으로 발화 단위 표상을 생성하고 발화를 표현할 수 있도록 한다.

둘째, 기계가 이해할 수 있는 벡터로 표현된 발화 쌍을 기계가 올바른 채팅 쌍인지 0과 1로 판단하여 채팅 말뭉치를 효과적으로 확장할 수 있다.

셋째, 단어 단위 임베딩 벡터(Word embedding)와 합성곱 신경망(Convolutional Neural Networks) 모델을 이용하여 저차원(Low dimensions), 의미적 정보가 잘 반영된 발화 단위 표상(Utterance Representation)을 생성하고 이를 이용하여 발화 간 유사도를 계산하는 것에 의해 짧은 길이의 채팅성 발화를 효과적으로 표현할 수 있다.

넷째, 영화자막, 극대본과 같이 대량의 발화 데이터에서 임의의 쌍을 만들고, 미리 구축된 채팅 말뭉치(Golden standard chatting corpus)와 채팅 유사도를 계산하고, 계산된 채팅 유사도가 실험을 통해 구한 임계값(Threshold)보다 크다면 임의의 쌍은 올바른 채팅 쌍이라고 판단하여 효과적으로 채팅 말뭉치를 확장할 수 있다.

다섯째, 기계가 구축한 말뭉치(Machine Labeled Chatting corpus)를 사람이 수정할 수 있기 때문에 반자동이며, 기계가 1차적으로 판단하기 때문에 사람이 노력하는 비용이 줄어드는 효과를 갖는다.

도 1은 본 발명에 따른 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치의 구성도
도 2는 발화 데이터 중 하나인 영화 자막의 일 예를 나타낸 구성도
도 3은 본 발명에 따른 채팅 말뭉치 반자동 구축 모델 전체 구성도
도 4는 평균 임베딩 벡터의 일 예를 나타낸 구성도
도 5는 합성곱 신경망 모델을 이용한 발화 단위 표상 생성을 나타낸 구성도
도 6은 본 발명에 따른 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법을 나타낸 플로우 차트

이하, 본 발명에 따른 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.

본 발명에 따른 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.

도 1은 본 발명에 따른 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치의 구성도이다.

본 발명에 따른 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법은 채팅 말뭉치 구축의 어려움을 줄이기 위해 대량의 발화 데이터를 이용하여 채팅 쌍을 추출, 채팅 말뭉치를 확장하는 것이다.

이와 같이 대량의 발화 데이터를 이용하여 채팅 말뭉치 구축의 어려움을 줄이기 위하여 본 발명에서는 채팅 말뭉치 확장 시스템을 정의하고, 짧은 길이의 채팅성 발화를 효과적으로 표현하기 위해 형태소 단위 임베딩 벡터와 합성곱 신경망을 이용하여 해당 발화를 잘 표현하는 심층 자질 표상을 생성한다.

이를 이용하여 채팅 말뭉치를 손쉽게 확장하고, 다양한 표현을 가지는 채팅 말뭉치를 구축한다.

양질, 대량의 채팅 말뭉치 확보가 어려운 이유는 먼저 사용자 발화와 시스템 발화가 쌍으로 이루어져 있어야 하며, 사용자 발화의 응답으로 시스템 발화가 적합하여야 한다는 점이다.

이러한 채팅 말뭉치는 공개되어 있는 말뭉치가 희소하기 때문에 일반적으로 실제 사람들 간의 대화 기록(Dialogue log)을 사람이 일일이 판단, 직접 구축하여 사용하였다.

그러나 영화 자막, 극대본과 같은 단순히 시간적 순서로 나열되어 있는 발화 데이터는 많이 존재한다. 본 발명에서는 이러한 대량의 발화 데이터에서 올바른 채팅 쌍을 추출하여 채팅 말뭉치 구축 비용(Cost)을 줄일 수 있도록 한다.

본 발명에 따른 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치는 도 1에서와 같이, 윈도우 크기를 이용하여 발화 데이터에서 임의의 채팅쌍을 추출하는 채팅쌍 추출부(10)와, 발화를 기계가 이해할 수 있도록 발화 단위 표상을 생성하는 발화 단위 표상 생성부(20)와, 기계에서 임의로 만든 채팅 쌍과 미리 구축되어 있는 채팅 말뭉치의 채팅 유사도(Chatting similarity)를 계산하는 채팅 유사도 계산부(30)와, 채팅 유사도가 임계값(Threshold)보다 높으면 임의의 채팅 쌍은 응답관계가 맞는 채팅 쌍이라고 판단하여 채팅 말뭉치 확장을 하는 채팅 말뭉치 구축부(40)를 포함한다.

이와 같은 구성을 갖는 본 발명은 채팅 말뭉치 반자동 확장을 위하여 유사도 기법과 미리 구축된 채팅 말뭉치를 이용하여 대량의 발화 데이터에서 올바른 채팅 쌍을 추출하는 것이다.

발화 데이터란 영화 자막, 극대본과 같이 발화가 단순히 시간적인 순서로 나열되어 있는 데이터를 의미한다. 이러한 발화 데이터는 많은 양이 존재하나, 채팅 말뭉치를 구축하기 위해선 응답관계가 맞는 쌍으로 추출되어야 한다.

도 2는 발화 데이터 중 하나인 영화 자막의 일 예를 나타낸 구성도이다.

발화 데이터는 시간적 순서로 구성되어 있기 때문에 본 발명에서는 먼저 임의의 쌍으로 구성한다.

쌍으로 구축하기 위해 윈도우 크기를 두고 t번째 발화는 t+1, t+2, ..., t+window size번째 발화와 채팅 쌍이라고 가정한다.

표 1은 윈도우 크기를 이용하여 임의로 만든 채팅 쌍 예시이다.

번호는 발화 쌍의 인덱스이고, 채팅 유사는 사용자 발화와 시스템 발화의 응답 관계가 맞는지 판별한 것이다.

번호 1은 영화 안에서의 올바른 실제 응답 쌍이고, 번호 4는 영화 안에서 '몇 시예요?'의 실제 응답은 아니지만 사람이 판단하기에 자연스럽다고 판단되는 응답 쌍이다.

그리고 번호 2, 3, 5는 올바르지 않는 응답 쌍이다. 이와 같이 단순히 윈도우 크기를 이용하여 쌍을 구축하면, 영화 속의 실제 응답 쌍과 영화 속의 실제 응답은 아니지만 올바르다고 볼 수 있는 쌍과, 올바르지 않은 쌍이 혼재되어 있음을 알 수 있다.

따라서 본 발명에서는 채팅 말뭉치 반자동 구축을 위한 모델을 다음과 같이 구성한다.

도 3은 본 발명에 따른 채팅 말뭉치 반자동 구축 모델 전체 구성도이다.

Machine이라고 명명되어 있는 기계에서 임의로 만든 채팅 쌍과 미리 구축되어 있는 채팅 말뭉치의 채팅 유사도(Chatting similarity)를 계산하고, 채팅 유사도가 임계값(Threshold)보다 높으면 임의의 채팅 쌍은 응답관계가 맞는 채팅 쌍이라고 판단한다.

기계가 판단하여 구축된 말뭉치(Machine Labeled Chatting corpus)라 하고, 이 말뭉치를 사람이 수정할 수 있기 때문에 반자동이고, 기계가 1차적으로 판단하기 때문에 사람이 노력하는 비용을 줄일 수 있다.

이와 같이 채팅 유사도를 구하기 위해선 먼저 발화를 기계가 이해할 수 있도록 벡터(Vector) 즉 발화 단위 표상을 잘 생성하는 것이 필요하다.

본 발명의 기본 모델에서는 발화를 벡터로 표현하기 위해 일반적으로 많이 사용하는 TF와 TF*IDF를 이용하여 발화 단위 표상을 생성한다.

수학식 1은 i번째 임의의 쌍(pair)이 입력으로 들어 왔을 때 채팅 유사도를 구하는 수식이다.

i번째 쌍은 길이가 n인 미리 구축된 채팅 말뭉치의 전체 쌍과 각각 유사도를 계산한다.

구해진 유사도 중 가장 큰 값을 i번째 쌍의 채팅 유사도라 하고, 이 채팅 유사도가 미리 정의된 임계값보다 크다면 올바른 쌍이라고 판단한다.

본 발명에서는 유사도를 계산하기 위해 코사인 유사도(Cosine similarity)를 이용한다.

그리고 임의로 추출된 쌍과 미리 구축된 채팅 말뭉치는 모두 사용자 발화와 시스템 발화의 쌍으로 구성되어 있기 때문에 각각의 유사도를 계산하고, 두 유사도의 반영 비율인 감마(

) 이용으로, 선형 결합(Linear combination)하여 하나의 채팅 유사도로 표현한다.

본 발명에 따른 기본 모델에서는 발화 단위 표상 생성을 위해 일반적으로 많이 사용하는 TF와 TF*IDF를 사용하였다.

그러나 채팅성 발화는 길이가 굉장히 짧으므로, TF, TF*IDF을 이용하여 발화 단위 표상을 생성하게 되면 굉장히 희소한 벡터로 표현되게 되고, 해당 발화를 잘 표현하지 못하게 된다는 문제점이 발생한다.

따라서 본 발명에서는 단어 단위 임베딩 벡터를 이용하여 발화 단위 표상을 생성한다.

사용하는 단어 단위 임베딩 벡터는 대량의 말뭉치와 word2vec을 이용하여 사전 학습된 형태소 단위 임베딩 벡터를 사용한다.

먼저 첫 번째 방법은 발화에서 출현한 형태소들의 평균 임베딩 벡터(Average embedding vector)를 발화 단위 표상으로 사용하는 것이다.

평균 임베딩 벡터를 만드는 방법은 도 4에서와 같다.

도 4는 평균 임베딩 벡터의 일 예를 나타낸 것으로, '아버지 사랑합니다'라는 발화를 형태소 단위 임베딩 벡터의 평균으로 나타낸 예시이다.

이와 같은 방법으로 평균 임베딩 벡터를 생성하게 되면 저차원(Low dimensions), 의미 정보가 포함된 벡터로 표현이 가능하다.

그러나 이와 같이 전체 형태소를 이용하여 평균 임베딩 벡터를 생성하게 되면 조사와 같이 다른 발화에서도 흔히 출현하는 형태소도 많이 포함하게 된다.

특히 채팅성 발화와 같이 굉장히 짧은 발화의 경우는 조사에 대한 값이 많이 반영되어 유사한 발화와 유사하지 않는 발화를 구별하기가 어려워지는 문제가 있다.

본 발명에서는 형태소의 DF(Document Frequency)를 이용하여 길이가 짧은 발화를 효과적으로 표현할 수 있는 형태소만을 선택하여 평균 임베딩 벡터를 생성한다.

사용한 형태소는 일반명사, 고유명사, 수사, 동사, 형용사, 일반 부사를 사용한다.

두 번째 방법은 합성곱 신경망(Convolutional Neural Networks) 모델과 단어 단위 임베딩을 이용하여 발화 단위 표상을 생성하는 방법이다.

도 5는 합성곱 신경망 모델을 이용한 발화 단위 표상 생성을 나타낸 구성도이다.

도 5는 짧은 발화에 대해 발화 단위 표상을 생성하는 합성곱 신경망 모델의 구조를 나타낸 것으로, 합성곱 신경망 모델의 입력으로는 짧은 길이의 발화를 사용한다.

짧은 길이의 발화를 Projection layer를 통해 형태소 단위 임베딩 벡터로 표현하고, Convolution layer와 max polling을 이용하여 심층 자질 표상(Deep feature representation)으로 유도한다.

유도된 심층 자질 표상을 이용하여 최종적인 출력 벡터(Output vector)를 유도하고, 정답 벡터(Answer vector)와 차이를 계산하여 학습하는 일반적인 합성곱 신경망 모델이다.

그러나 도 5는 합성곱 신경망을 이용하여 정답 태그(Label)를 맞추는 것 일반적인 태스크(Task)가 아니라 발화 단위 표상을 만드는 것이 목적이기 때문에 입력에 대한 정답을 잘 만들어야 학습이 원활하게 진행된다.

본 발명에서는 원활한 학습을 위해 합성곱 신경망 모델의 정답 벡터는 LSA(Latent Semantic Analysis)와 TF*IDF를 이용하여 생성한다.

우선 짧은 발화에 대해 TF*IDF를 이용하여 표현하고 차원을 줄이는 효과와 잠재적 의미 분석을 수행하는 LSA를 이용하여 매트릭스를 분리, 저차원의 밀집된(Dense) 벡터를 정답 벡터로 사용한다.

그리고 합성곱 신경망 모델을 이용하여 출력 벡터(Output vector)를 유도하고, 정답 벡터와 코사인 거리(Cosine distance)가 줄어들도록 학습을 진행한다.

출력 벡터는 학습을 위해 사용한 것이고, 실제 발화 단위 표상으로 사용하는 벡터는 학습이 완료된 합성곱 신경망 모델의 심층 자질 표상을 발화 단위 표상으로 사용한다.

이와 같이 학습을 수행하게 되면 형태소 단위 임베딩 벡터에서 중요한 자질을 잘 추출할 수 있고, 평균 임베딩 벡터를 발화 단위 표상으로 사용하는 것보다 효과적으로 짧은 길이의 발화를 표현할 수 있게 된다.

본 발명에 따른 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법을 구체적으로 설명하면 다음과 같다.

도 6은 본 발명에 따른 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법을 나타낸 플로우 차트이다.

먼저, 발화 데이터에서 임의의 채팅쌍을 추출하고(S601), 발화를 기계가 이해할 수 있도록 발화 단위 표상을 생성하는 발화 단위 표상 생성 단계를 수행한다.(S602)

이어, 기계에서 임의로 만든 채팅 쌍과 미리 구축되어 있는 채팅 말뭉치의 채팅 유사도(Chatting similarity)를 계산한다.(S603)

그리고 계산된 채팅 유사도가 임계값(Threshold)보다 높으면 임의의 채팅 쌍은 응답관계가 맞는 채팅 쌍이라고 판단하여(S604), 채팅 말뭉치 구축을 한다.(S605)

이상에서 설명한 본 발명에 따른 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법의 채팅 말뭉치 확정 성능을 설명하면 다음과 같다.

대량의 발화 데이터에서 임의로 쌍을 만들고, 사람이 채팅 말뭉치로 이용 가능한지 채팅 유사, 채팅 유사하지 않음을 직접 부착하였다. 그리고 채팅 유사를 예측하는 성능을 높이도록 실험을 구성하였다.

또한, 채팅성 발화의 길이가 매우 짧기 때문에 발화를 표현하는 방법에 대해 비교실험을 진행하였다.

먼저 채팅 말뭉치 반자동 구축 실험에서 사용하는 대량의 발화데이터는 Opensubtitle에서 수집한 영화, 외국드라마의 자막을 사용하였다.

임계값 및 자질 실험, 평가를 위해 개발 데이터와 평가 데이터는 영화 및 외국 드라마 각각 6편에서 추출하였으며, 3명의 말뭉치 구축 인원이 채팅 유사 유무를 부착하였다.

표 2는 개발 데이터, 표 3은 평가 데이터의 통계이다.

데이터의 신뢰성을 위해 카파 계수를 측정하였으며, 카파 계수는 0.8114가 측정되었다.

그리고 유사도 계산에서 사용하는 채팅 말뭉치는 약 400,000쌍을 이용하였다. 발화 데이터 및 채팅 말뭉치에 사용하는 형태소 분석기는 [김혜민, 윤정민, 안재현, 배경만, 고영중, "품사 분포와 Bidirectional LSTM-CRFs를 이용한 음절 단위 형태소 분석기", 제28회 한글 및 한국어 정보처리 학술발표 논문집, pp.3-8, 2016.]을 사용하고, 사용한 100차원의 형태소 단위 임베딩 벡터는 대량의 말뭉치와 word2vec을 이용하여 학습하였다.

표 4는 일반적인 TF을 사용하여 발화 단위 표상을 생성한 베이스라인 시스템의 성능 비교표이다.

기본이 되는 베이스라인 시스템에서 사용자 발화와 시스템 발화 각각의 유사도 반영 비율인 감마(

)를 설정하기 위해 진행하였다.

평가 기준은 F1을 이용하였다.

표 4의 실험 결과 반영비율인 감마는 0.5일 때 가장 높은 성능을 보여 모든 실험에서 사용하는 감마는 0.5로 설정하여 실험을 진행하였다.

그리고 이후 보여주는 모든 실험 성능은 개발 데이터를 통해 결정한 F1이 가장 높을 때의 임계 값을 사용하였다.

표 5는 기본 TF, IDF, TF*IDF의 성능 비교표이다.

표 5의 결과와 같이 TF, IDF만을 사용했을 때 보다 TF*IDF를 이용하였을 때 성능이 개선됨을 알 수 있다.

표 6은 발화 단위 표상을 TF*IDF와 평균 임베딩 벡터로 생성하였을 때의 성능 비교표이다.

발화 단위 표상을 생성할 때 TF*IDF를 이용하는 것보다 평균 임베딩 벡터를 이용하는 것이 성능 면에서 개선됨을 알 수 있다.

표 7은 최종 모델인 합성곱 신경망 모델과 형태소 단위 임베딩 벡터를 이용하여 발화 단위 표상을 생성하였을 때의 성능 비교표이다.

표 7의 결과를 통해 형태소 단위 임베딩 벡터와 합성곱 신경망 모델을 사용함으로서 발화를 더욱 효과적으로 표현할 수 있음을 알 수 있다.

이상에서 설명한 본 발명에 따른 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법은 채팅 말뭉치 구축의 어려움을 줄이기 위해 대량의 발화 데이터에서 채팅 쌍을 추출하고 올바른 채팅 쌍을 잘 추출하기 위해 발화 단위 표상을 생성하는 것이다.

그 결과 베이스라인 시스템보다 정확률, 재현율, F1에서 각각 5.16%p, 6.09%p, 5.73%p 증가하여 짧은 길이의 발화를 효과적으로 표현할 수 있는 방법은 형태소 단위 임베딩 벡터와 합성곱 신경망 모델을 이용하는 것이 성능 면에서 개선될 수 있음을 확인할 수 있다.

이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.

그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

10. 채팅쌍 추출부
20. 발화 단위 표상 생성부
30. 채팅 유사도 계산부
40. 채팅 말뭉치 구축부

Claims

윈도우 크기를 이용하여 발화 데이터에서 임의의 채팅쌍을 추출하는 채팅쌍 추출부;
발화를 기계가 이해할 수 있도록 발화 단위 표상을 생성하는 발화 단위 표상 생성부;
기계에서 임의로 만든 채팅 쌍과 미리 구축되어 있는 채팅 말뭉치의 채팅 유사도(Chatting similarity)를 계산하는 채팅 유사도 계산부;
채팅 유사도가 임계값(Threshold)보다 높으면 임의의 채팅 쌍은 응답관계가 맞는 채팅 쌍이라고 판단하여 채팅 말뭉치 확장을 하는 채팅 말뭉치 구축부;를 포함하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.
제 1 항에 있어서, 채팅 유사도 계산부는 i번째 임의의 쌍(pair)이 입력으로 들어 왔을 때 채팅 유사도를,

으로 구하고,
i번째 쌍은 길이가 n인 미리 구축된 채팅 말뭉치의 전체 쌍과 각각 유사도를 계산하여, 구해진 유사도 중 가장 큰 값을 i번째 쌍의 채팅 유사도라 하고, 이 채팅 유사도가 미리 정의된 임계값보다 크다면 올바른 쌍이라고 판단하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.
제 2 항에 있어서, 채팅 유사도를 계산하기 위해 코사인 유사도(Cosine similarity)를 이용하고,
임의로 추출된 쌍과 미리 구축된 채팅 말뭉치는 모두 사용자 발화와 시스템 발화의 쌍으로 구성되어 있기 때문에 각각의 유사도를 계산하고, 두 유사도의 반영 비율인 감마(
) 이용으로, 선형 결합(Linear combination)하여 하나의 채팅 유사도로 표현하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.
제 1 항에 있어서, 발화 단위 표상 생성부는,
저차원(Low dimensions)의 의미 정보가 포함된 벡터로 표현하기 위하여,
형태소의 DF(Document Frequency)를 이용하여 길이가 짧은 발화를 효과적으로 표현할 수 있는 형태소만을 선택하여 평균 임베딩 벡터를 생성하고,
사용한 형태소는 일반명사, 고유명사, 수사, 동사, 형용사, 일반 부사를 선택적으로 포함하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.
제 1 항에 있어서, 발화 단위 표상 생성부는,
합성곱 신경망(Convolutional Neural Networks) 모델과 단어 단위 임베딩을 이용하여 발화 단위 표상을 생성하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.
제 5 항에 있어서, 발화를 Projection layer를 통해 형태소 단위 임베딩 벡터로 표현하고,
Convolution layer와 max polling을 이용하여 심층 자질 표상(Deep feature representation)으로 유도하고, 유도된 심층 자질 표상을 이용하여 최종적인 출력 벡터(Output vector)를 유도하고, 정답 벡터(Answer vector)와 차이를 계산하여 학습하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.
제 6 항에 있어서, 학습을 위해 합성곱 신경망 모델의 정답 벡터는 LSA(Latent Semantic Analysis)와 TF*IDF를 이용하여 생성하고,
발화에 대해 TF*IDF를 이용하여 표현하고 차원을 줄이고 잠재적 의미 분석을 수행하는 LSA를 이용하여 매트릭스를 분리, 저차원의 밀집된(Dense) 벡터를 정답 벡터로 사용하고,
합성곱 신경망 모델을 이용하여 출력 벡터(Output vector)를 유도하고, 정답 벡터와 코사인 거리(Cosine distance)가 줄어들도록 학습을 진행하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.
제 7 항에 있어서, 출력 벡터는 학습을 위해 사용한 것이고, 실제 발화 단위 표상으로 사용하는 벡터는 학습이 완료된 합성곱 신경망 모델의 심층 자질 표상을 발화 단위 표상으로 사용하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.
윈도우 크기를 이용하여 발화 데이터에서 임의의 채팅쌍 추출을 하는 채팅쌍 추출 단계;
발화를 기계가 이해할 수 있도록 발화 단위 표상을 생성하는 발화 단위 표상 생성 단계;
기계에서 임의로 만든 채팅 쌍과 미리 구축되어 있는 채팅 말뭉치의 채팅 유사도(Chatting similarity)를 계산하는 채팅 유사도 계산 단계;
채팅 유사도가 임계값(Threshold)보다 높으면 임의의 채팅 쌍은 응답관계가 맞는 채팅 쌍이라고 판단하여 채팅 말뭉치 확장을 하는 채팅 말뭉치 구축 단계;를 포함하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.
제 9 항에 있어서, 채팅 유사도 계산 단계에서,
i번째 임의의 쌍(pair)이 입력으로 들어 왔을 때 채팅 유사도를,

으로 구하고,
i번째 쌍은 길이가 n인 미리 구축된 채팅 말뭉치의 전체 쌍과 각각 유사도를 계산하여, 구해진 유사도 중 가장 큰 값을 i번째 쌍의 채팅 유사도라 하고, 이 채팅 유사도가 미리 정의된 임계값보다 크다면 올바른 쌍이라고 판단하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.
제 10 항에 있어서, 채팅 유사도를 계산하기 위해 코사인 유사도(Cosine similarity)를 이용하고,
임의로 추출된 쌍과 미리 구축된 채팅 말뭉치는 모두 사용자 발화와 시스템 발화의 쌍으로 구성되어 있기 때문에 각각의 유사도를 계산하고, 두 유사도의 반영 비율인 감마(
) 이용으로, 선형 결합(Linear combination)하여 하나의 채팅 유사도로 표현하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.
제 9 항에 있어서, 발화 단위 표상 생성 단계에서,
저차원(Low dimensions)의 의미 정보가 포함된 벡터로 표현하기 위하여,
형태소의 DF(Document Frequency)를 이용하여 길이가 짧은 발화를 효과적으로 표현할 수 있는 형태소만을 선택하여 평균 임베딩 벡터를 생성하고,
사용한 형태소는 일반명사, 고유명사, 수사, 동사, 형용사, 일반 부사를 선택적으로 포함하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.
제 9 항에 있어서, 발화 단위 표상 생성 단계에서,
합성곱 신경망(Convolutional Neural Networks) 모델과 단어 단위 임베딩을 이용하여 발화 단위 표상을 생성하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.
제 13 항에 있어서, 발화를 Projection layer를 통해 형태소 단위 임베딩 벡터로 표현하고,
Convolution layer와 max polling을 이용하여 심층 자질 표상(Deep feature representation)으로 유도하고, 유도된 심층 자질 표상을 이용하여 최종적인 출력 벡터(Output vector)를 유도하고, 정답 벡터(Answer vector)와 차이를 계산하여 학습하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.
제 14 항에 있어서, 학습을 위해 합성곱 신경망 모델의 정답 벡터는 LSA(Latent Semantic Analysis)와 TF*IDF를 이용하여 생성하고,
발화에 대해 TF*IDF를 이용하여 표현하고 차원을 줄이고 잠재적 의미 분석을 수행하는 LSA를 이용하여 매트릭스를 분리, 저차원의 밀집된(Dense) 벡터를 정답 벡터로 사용하고,
합성곱 신경망 모델을 이용하여 출력 벡터(Output vector)를 유도하고, 정답 벡터와 코사인 거리(Cosine distance)가 줄어들도록 학습을 진행하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.
제 15 항에 있어서, 출력 벡터는 학습을 위해 사용한 것이고, 실제 발화 단위 표상으로 사용하는 벡터는 학습이 완료된 합성곱 신경망 모델의 심층 자질 표상을 발화 단위 표상으로 사용하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.