WO2018016673A1

WO2018016673A1 - 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체

Info

Publication number: WO2018016673A1
Application number: PCT/KR2016/009515
Authority: WO
Inventors: 이수원; 김상윤
Original assignee: 숭실대학교산학협력단
Priority date: 2016-07-21
Filing date: 2016-08-26
Publication date: 2018-01-25
Also published as: KR101806151B1

Abstract

본 발명은 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체를 개시한다. 본 발명의 일 측면에 따른 대체어 자동 추출 장치는, 문서에 포함된 텍스트 데이터를 전처리하는 전처리부; 상기 전처리된 텍스트 데이터에서 신경망 언어 모델을 이용하여 문맥 정보를 추출하는 문맥 정보 추출부; 및 상기 추출된 문맥 정보에서 단어 간에 유사도를 계산하여 대체어 후보를 추출하고, 상기 추출된 대체어 후보들에 대한 정제작업을 통해 대상 단어에 대한 대체어를 추출하는 대체어 자동 추출부;를 포함한다.

Description

대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체

본 발명은 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체에 관한 것으로, 더욱 상세하게는 효율적인 오피니언 마이닝을 위해 Word2Vec 모델을 이용하여 특정 단어의 대체어를 자동으로 추출하는 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체에 관한 것이다.

최근 텍스트 데이터 분석에 대한 산업체 수요가 급증함에 따라 텍스트 데이터 분석에 대한 중요성이 강조되고 있다. 텍스트 데이터 분석에서 오피니언 마이닝 기술은 주로 리뷰, 포럼, SNS(Social Network Services), 블로그 등 사용자 생성 텍스트를 분석하는 것이 목적이다. 사용자 생성 텍스트에서는 사용자마다 같은 의미의 단어를 표현하는 방식이 다양하므로 유용한 정보를 찾고 분석하는데 장애요인이 발생할 수 있다. 예를 들어, '학생'이라는 개념은 '제자', '학도' 등 다양하게 표현이 가능할 수 있다. 도 1은 단어 표현의 다양성을 예시한 도면이다. 도 1을 참조하면, 온라인 상에서의 사용자의 다양한 단어 표현의 예시를 볼 수 있다. 예컨대, '예뻐'는 '이뻐', '이뿌'로, '저렴'은 '싸게', '싸고'로 그리고, '메르스'는 'MERS', '중동호흡기증후군' 등으로 표현이 가능할 수 있다. 다양한 단어 표현 방식에는 신조어, 축약어, 외래어 등이 해당될 수 있다. 따라서, 같은 의미지만 다른 형태로 표현되는 단어를 인식할 수 있는 대체어 추출 기술이 필요한 실정이다.

본 발명은 상기와 같은 문제점을 해결하기 위해 제안된 것으로서, 단어 표현의 다양성으로 인한 분석의 오류를 해결하기 위한 대체어를 추출할 수 있는 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체를 제공하는데 그 목적이 있다.

또한, 특정 도메인에 한정적이지 않고 다양한 도메인에서 사용 가능한 대체어를 추출할 수 있는 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체를 제공하는데 목적이 있다.

본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 일 실시 예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기와 같은 목적을 달성하기 위한 본 발명의 일 측면에 따른 대체어 자동 추출 장치는, 문서에 포함된 텍스트 데이터를 전처리하는 전처리부; 상기 전처리된 텍스트 데이터에서 신경망 언어 모델을 이용하여 문맥 정보를 추출하는 문맥 정보 추출부; 및 상기 추출된 문맥 정보에서 단어 간에 유사도를 계산하여 대체어 후보를 추출하고, 상기 추출된 대체어 후보들에 대한 정제작업을 통해 대상 단어에 대한 대체어를 추출하는 대체어 자동 추출부;를 포함한다.

상기 전처리부는, 문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅하는 형태소 분석부; 및 수집된 온라인 텍스트 데이터에서 불필요한 용어들을 제거하는 불용어 제거부;를 포함할 수 있다.

상기 대체어 자동 추출부는, 상기 추출된 문맥 정보에서 단어 간에 유사도를 계산하고, 유사도가 높은 상위 단어의 일정 개수를 대체어 후보로 추출하는 대체어 후보군 추출부; 및 상기 추출된 대체어 후보군에 속한 단어들에 대하여 정제 작업을 수행하여 최종 대체어를 추출하는 정제부;를 포함할 수 있다.

상기 대체어 후보군 추출부는, 유사도 척도를 이용하여 단어 간에 유사도를 계산할 수 있다.

상기 대체어 후보군 추출부는, 유클리디안 거리(Euclidean distance), 코사인 유사도(Cosine similarity), 타니모토 계수(Tanimoto coeffieient) 중 어느 하나의 유사도 척도를 이용하여 단어 간에 유사도를 계산할 수 있다.

상기 정제부는, 상기 대체어 후보 리스트 중 유사도가 높은 상위 단어와 Word2Vec 알고리즘에 의해 학습된 단어 간의 유사도 계산을 반복 수행하고, 후보 리스트의 대체어 후보 단어 각각에 대한 상위 일정 개수의 대체어 후보 단어들을 재추출하고, 상기 대체어 후보 리스트에 재추출된 대체어 후보 단어가 없을 경우, 상기 최초 추출된 대체어 추출 대상 단어의 대체어 후보 리스트에서 대체어 후보 단어를 제거할 수 있다.

상기와 같은 목적을 달성하기 위한 본 발명의 다른 측면에 따른 대체어 자동 추출 장치에서의 대체어 자동 추출 방법은, 문서에 포함된 텍스트 데이터를 전처리하는 전처리 단계; 상기 전처리된 텍스트 데이터에서 신경망 언어 모델을 이용하여 문맥 정보를 추출하는 문맥 정보 추출 단계; 및 상기 추출된 문맥 정보에서 단어 간에 유사도를 계산하여 대체어 후보를 추출하고, 상기 추출된 대체어 후보들에 대한 정제작업을 통해 대상 단어에 대한 대체어를 추출하는 대체어 자동 추출 단계;를 포함한다.

상기 전처리 단계는, 문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅하는 형태소 분석 단계; 및 수집된 온라인 텍스트 데이터에서 불필요한 용어들을 제거하는 불용어 제거 단계;를 포함할 수 있다.

상기 대체어 자동 추출 단계는, 상기 추출된 문맥 정보에서 단어 간에 유사도를 계산하고, 유사도가 높은 상위 단어의 일정 개수를 대체어 후보로 추출하는 대체어 후보군 추출 단계; 및 상기 추출된 대체어 후보군에 속한 단어들에 대하여 정제 작업을 수행하여 최종 대체어를 추출하는 정제 단계;를 포함할 수 있다.

상기 대체어 후보군 추출 단계에서는, 유사도 척도를 이용하여 단어 간에 유사도를 계산할 수 있다.

상기 대체어 후보군 추출 단계에서는, 유클리디안 거리(Euclidean distance), 코사인 유사도(Cosine similarity), 타니모토 계수(Tanimoto coeffieient) 중 어느 하나의 유사도 척도를 이용하여 단어 간에 유사도를 계산할 수 있다.

상기 정제 단계에서는, 상기 대체어 후보 리스트 중 유사도가 높은 상위 단어와 Word2Vec 알고리즘에 의해 학습된 단어 간의 유사도 계산을 반복 수행하고, 후보 리스트의 대체어 후보 단어 각각에 대한 상위 일정 개수의 대체어 후보 단어들을 재추출하고, 상기 대체어 후보 리스트에 재추출된 대체어 후보 단어가 없을 경우, 상기 최초 추출된 대체어 추출 대상 단어의 대체어 후보 리스트에서 대체어 후보 단어를 제거할 수 있다.

상기와 같은 목적을 달성하기 위한 본 발명의 다른 측면에 따른 기록 매체는, 대체어 자동 추출 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체일 수 있다.

본 발명의 일 측면에 따르면, 특정 단어에 대한 대체어를 자동 추출함으로써 텍스트 데이터 분석의 오류를 방지할 수 있는 효과가 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시 예를 예시하는 것이며, 발명을 실시하기 위한 구체적인 내용들과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.

도 1은 단어 표현의 다양성을 예시한 도면,

도 2는 본 발명의 일 실시 예에 따른 대체어 자동 추출 장치의 구성도,

도 3은 도 2의 전처리부의 기능 블록도,

도 4는 도 2의 대체어 자동 추출부의 기능 블록도,

도 5는 본 발명의 일 실시 예에 따른 대체어 자동 추출 방법의 흐름을 도시한 도면,

도 6은 본 발명의 일 실시 예에 따른 형태소 분석의 일 예를 나타낸 도면,

도 7은 본 발명의 일 실시 예에 따른 Skip-garm 모델을 도시한 도면,

도 8a 및 8b는 본 발명의 일 실시 예에 따른 Word2Vec 알고리즘을 이용하여 학습된 단어의 일 예를 도시한 도면,

도 9는 대체어 추출 대상 단어 '메르스'에 대한 유사도 척도별 대체어 후보의 일 예를 도시한 도면,

도 10은 대체어 추출 대상 단어 '메르스'에 대한 최종 대체어를 추출하는 과정의 일 예를 도시한 도면,

도 11은 추출된 최종 대체어의 일 예를 도시한 도면이다.

<부호의 설명>

200 : 대체어 자동 추출 장치

210 : 전처리부

230 : 문맥 정보 추출부

250 : 대체어 자동 추출부

310 : 형태소 분석부

330 : 불용어 제거부

410 : 대체어 후보군 추출부

430 : 정제부

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일 실시 예를 상세히 설명하기로 한다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 “…부” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 2는 본 발명의 일 실시 예에 따른 대체어 자동 추출 장치의 구성도, 도 3은 도 2의 전처리부의 기능 블록도, 도 4는 도 2의 대체어 자동 추출부의 기능 블록도이다.

본 실시 예를 설명함에 있어서, 각 구성요소들이 독립적으로 동작하는 것으로 설명하지만 이에 한하지 않으며, 제어부(미도시)의 제어에 의해 각 구성요소들이 동작할 수 있다.

도 2를 참조하면, 본 실시 예에 따른 대체어 자동 추출 장치(200)는, 전처리부(210), 문맥 정보 추출부(230) 및 대체어 자동 추출부(250)를 포함한다.

전처리부(210)는 문서에 포함된 텍스트 데이터를 전처리한다. 문서에 포함된 데이터는 텍스트 데이터이므로, 대체어를 추출하기 위해서는 문서의 전처리를 하여야 한다. 즉, 전처리부(210)는 대체어를 추출하기 위해 텍스트 데이터를 전처리한다. 이때, 텍스트 데이터는 온라인 상의 텍스트 데이터일 수 있으며, 크롤러(crawler)를 통해 수집될 수 있다. 예컨대, 텍스트 데이터는 온라인 상에서 수집된 뉴스, 댓글, 상품평 등과 같은 텍스트 데이터일 수 있다. 크롤러(crawler)는 웹상의 다양한 정보를 자동으로 검색하고 색인하기 위해 검색 엔진을 운영하는 사이트에서 사용하는 소프트웨어일 수 있다. 크롤러(crawler)는 스파이더(spider), 봇(bot), 지능 에이전트 등과 같은 용어로도 불릴 수 있다. 크롤러(crawler)는 컴퓨터 프로그램의 미리 입력된 방식에 따라 끊임없이 새로운 웹 페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행한다.

한편, 전처리부(210)는 도 3에 도시된 바와 같이, 형태소 분석부(310) 및 불용어 제거부(330)를 포함할 수 있다.

형태소 분석부(310)는, 문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅할 수 있다. 즉, 형태소 분석부(310)는, 문서에 포함된 텍스트 데이터에서 단어의 형태론적 구조를 기계적으로 태깅할 수 있다. 이때, 형태소란 뜻을 가진 가장 작은 말을 뜻한다. 형태소 분석부(310)는 문서에 포함된 텍스트 데이터에서 문장을 분리하여 뜻을 가진 가장 작은 말 즉, 형태소별로 태깅할 수 있다.

불용어 제거부(330)는, 수집된 온라인 텍스트 데이터에서 불용어를 제거할 수 있다. 즉, 불용어 제거부(330)는 후술할 문맥 정보 추출부(230)에서 전처리된 데이터가 올바르게 학습되도록 하기 위해 수집된 온라인 텍스트 데이터에서 불필요한 용어들을 제거할 수 있다. 이때, 불용어는 불필요한 광고 문구, 숫자 등과 같은 의미없는 단어일 수 있다. 불용어는 별도의 저장소인 데이터베이스(미도시)에 사용자에 의해 사전에 정의되어 저장될 수 있다. 불용어 제거부(330)는 데이터베이스를 참조하여 수집된 온라인 텍스트 데이터에서 불용어를 제거할 수 있다.

문맥 정보 추출부(230)는 전처리된 텍스트 데이터로부터 문맥 정보를 추출한다. 문맥 정보 추출부(230)는 전처리된 데이터로부터 Word2Vec 알고리즘을 이용하여 문장의 문맥 정보를 추출할 수 있다. 이때, Word2Vec 알고리즘은 신경망 언어 모델(NNLM : Neural Network Language Model)을 포함할 수 있다. 신경망 언어 모델은 기본적으로 Input Layer, Projection Layer, Hidden Layer, Output Layer로 이루어진 Neural Network이다. 신경망 언어 모델은 단어를 벡터화하는 방법에 사용되는 것이다. 신경망 언어 모델은 공지된 기술이므로 보다 자세한 설명은 생략하기로 한다. Word2vec 알고리즘은, 텍스트마이닝을 위한 것으로, 각 단어 간의 앞, 뒤 관계를 보고 근접도를 정하는 알고리즘이다. Word2vec 알고리즘은 비지도 학습 알고리즘이다. Word2vec 알고리즘은 이름이 나타내는 바와 같이 단어의 의미를 벡터형태로 표현하는 계량기법일 수 있다. Word2vec 알고리즘은 각 단어를 200차원 정도의 공간에서 백터로 표현할 수 있다. Word2vec 알고리즘을 이용하면, 각 단어마다 단어에 해당하는 벡터를 구할 수 있다. Word2vec 알고리즘은 종래의 다른 알고리즘에 비해 자연어 처리 분야에서 비약적인 정밀도 향상을 가능하게 할 수 있다. Word2vec은 입력한 말뭉치의 문장에 있는 단어와 인접 단어의 관계를 이용해 단어의 의미를 학습할 수 있다. Word2vec 알고리즘은 인공 신경망에 근거한 것으로, 같은 맥락을 지닌 단어는 가까운 의미를 지니고 있다는 전제에서 출발한다. Word2vec 알고리즘은 텍스트 문서를 통해 학습을 진행하며, 한 단어에 대해 근처(전후 5 내지 10 단어 정도)에 출현하는 다른 단어들을 관련 단어로서 인공 신경망에 학습시킨다. 연관된 의미의 단어들은 문서상에서 가까운 곳에 출현할 가능성이 높기 때문에 학습을 반복해 나가는 과정에서 두 단어는 점차 가까운 벡터를 지닐 수 있다. Word2vec 알고리즘의 학습 방법은 CBOW(Continous Bag Of Words) 방식과 skip-gram 방식이 있다. CBOW 방식은 주변 단어가 만드는 맥락을 이용해 타겟 단어를 예측하는 것이다. skip-gram 방식은 한 단어를 기준으로 주변에 올 수 있는 단어를 예측하는 것이다. 대규모 데이터셋에서는 skip-gram 방식이 더 정확한 것으로 알려져 있다. 따라서, 본 발명의 실시 예에서는 skip-gram 방식을 이용한 Word2vec 알고리즘을 사용한다. 예컨대, Word2vec 알고리즘을 통해 학습이 잘 완료되면, 고차원 공간에서 비슷한 단어는 근처에 위치할 수 있다. 상술한 바와 같은 Word2vec 알고리즘에 따르면 학습 문서 내 주위 단어의 분포가 가까운 단어일수록 산출되는 벡터값은 유사해질 수 있으며, 산출된 벡터값이 비슷한 단어는 유사한 것으로 간주할 수 있다. Word2vec 알고리즘은 공지된 기술이므로 벡터값 계산과 관련한 보다 상세한 설명은 생략하기로 한다.

문맥 정보 추출부(230)는 전처리된 데이터에서 형태소 단위로 분리된 문장을 Word2Vec 알고리즘에 학습시켜 단어를 벡터값으로 표현할 수 있다. 이때, 벡터값은 문맥 정보를 의미할 수 있다.

대체어 자동 추출부(250)는 추출된 문맥 정보에서 단어 간 유사도에 기초하여 대체어를 추출할 수 있다. 대체어 자동 추출부(250)는, 추출된 문맥 정보로부터 유사도를 계산하여 대체어 후보군을 추출하고, 대체어 후보 단어들에 대한 정제작업을 거쳐 대상 단어에 대한 최종 대체어를 추출할 수 있다. 이때, 유사도 계산은 유사도 척도를 이용하여 수행될 수 있다.

한편, 도 4에 도시된 바와 같이, 대체어 자동 추출부(250)는 대체어 후보군 추출부(410) 및 정제부(430)를 포함할 수 있다.

대체어 후보군 추출부(410)는 추출된 문맥 정보에서 단어 간의 유사도를 계산하고, 유사도가 높은 상위 단어의 일정 개수를 대체어 후보로 추출할 수 있다. 이때, 대체어 후보군 추출부(410)는 유사도 척도를 이용하여 유사도 계산을 수행할 수 있다. 예컨대, 대체어 후보군 추출부(410)는 Word2Vec 알고리즘을 통해 학습되어 추출된 문맥 정보를 이용하여 대체어 추출 대상 단어와 모든 단어 간에 유사도를 계산하고, 유사도가 가장 높은 상위 n개의 단어를 대체어 후보로 추출할 수 있다. 이때, 유사도가 가장 높은 상위 대체어 후보의 개수는 사용자에 의해 임의로 설정될 수 있다. 한편, 단어 간 유사도 계산 결과는 사용되는 척도에 따라 차이가 날수 있다. 이때, 유사도 계산에 이용되는 유사도 척도는 유클리디안 거리(Euclidean distance), 코사인 유사도(Cosine similarity), 타니모토 계수(Tanimoto coeffieient) 등이 있을 수 있다. 대체어 후보군 추출부(410)는 유클리디안 거리(Euclidean distance), 코사인 유사도(Cosine similarity), 타니모토 계수(Tanimoto coeffieient) 중 성능이 가장 높은 척도를 이용하여 유사도를 계산하고, 대체어 후보를 추출할 수 있다.

상술한 유사도 척도에 대해 설명하면 다음과 같다.

1) 유클리디안 거리(Euclidean distance)

: 유클리디안 거리(Euclidean distance)는 N차원의 공간에서 두 점 간의 상대적 거리 차를 측정하는 척도이다. 유클리디안 거리(Euclidean distance)의 값이 작을수록 두 점의 슈사성이 높은 것으로 판단할 수 있다. 유클리디안 거리(Euclidean distance)는 아래의 수학식 1을 이용하여 산출할 수 있다.

이때, i,j,k는 임의의 상수,

는 두 단어 간의 상대적 거리 차이일 수 있다. 한편, 유클리디안 거리(Euclidean distance)의 결과는 직관적이므로 해석이 쉽지만 방향성이 고려되지 않기 때문에 오류가 발생할 수 있다.

2) 코사인 유사도(Cosine similarity)

: 코사인 유사도(Cosine similarity)는 두 벡터 사이의 유사성을 측정하는 방법으로, 두 벡터 간 각도를 이용하여 측정된 벡터 간의 유사한 정도를 의미한다. 코사인 유사도(Cosine similarity)의 계산값은 -1 내지 1 사이의 값일 수 있다. 유사도 값이 1에 가까울수록 두 문서의 유사성이 높은 것으로 판단할 수 있으며, 일반적으로 0 이상인 경우 두 문서는 유사도가 있는 것으로 판단할 수 있다. 코사인 유사도(Cosine similarity)는 아래의 수학식 2를 이용하여 산출할 수 있다.

이때,

는 벡터 A의 길이,

는 벡터 B의 길이,

는 벡터 A와 B의 내적일 수 있다.

3) 타니모토 계수(Tanimoto coeffieient)

: 타니모토 계수(Tanimoto coeffieient)는 자카드 계수(Jaccard Coefficient)의 확장으로 두 점의 각도와 상대적인 거리를 모두 고려하는 척도이다. 타니모토 계수(Tanimoto coeffieient)의 결과 값이 1에 가까울수록 두 문서의 유사성이 높은 것으로 판단할 수 있다. 타니모토 계수(Tanimoto coeffieient)는 아래의 수학식 3을 이용하여 산출할 수 있다.

이때,

는 벡터 A의 길이,

는 벡터 B의 길이,

는 벡터 A와 B의 내적일 수 있다.

정제부(430)는 추출된 대체어 후보군에 속한 단어들에 대한 정제 작업을 수행하여 최종 대체어를 추출할 수 있다. 정제부(430)는 대체어 후보 리스트 중 유사도가 높은 상위 단어와 Word2Vec 알고리즘에 의해 학습된 단어 간의 유사도 계산을 반복 수행하고, 후보 리스트의 대체어 후보 단어 각각에 대한 상위 일정 개수의 대체어 후보 단어들을 재추출하고, 상기 대체어 후보 리스트에 재추출된 대체어 후보 단어가 없을 경우, 상기 최초 추출된 대체어 추출 대상 단어의 대체어 후보 리스트에서 대체어 후보 단어를 제거할 수 있다. 예컨대, 정제부(430)는 대체어 추출 대상 단어의 대체어 후보 리스트 중 상위 n개의 단어들과 Word2Vec 모델에 학습된 모든 단어 간의 유사도 계산을 반복 수행하고, 후보 리스트의 대체어 후보 단어 각각에 대한 상위 n개의 대체어 후보 단어들을 재추출할 수 있다. 이후, 최초 추출된 대체어 추출 대상 단어의 대체어 후보 리스트에 재추출된 대체어 후보 단어가 없을 경우, 상기 최초 추출된 대체어 추출 대상 단어의 대체어 후보 리스트에서 대체어 후보 단어를 제거할 수 있다.

도 5는 본 발명의 일 실시 예에 따른 대체어 자동 추출 방법의 흐름을 도시한 도면이다.

도 5를 참조하면, 본 실시 예에 따른 대체어 자동 추출 방법은 전처리 단계, 문맥 정보 추출 단계 및 대체어 자동 추출 단계를 포함한다.

전처리 단계에서는, 대체어 자동 추출 장치(200)가 문서에 포함된 텍스트 데이터를 전처리한다(510).

한편, 전처리 단계는, 대체어 자동 추출 장치(200)가 문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅하는 형태소 분석 단계 및 대체어 자동 추출 장치(200)가 수집된 온라인 텍스트 데이터에서 불필요한 용어들을 제거하는 불용어 제거 단계를 포함할 수 있다.

이때, 문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅된 일 예는 다음과 같다.

도 6은 본 발명의 일 실시 예에 따른 형태소 분석의 일 예를 나타낸 도면이다. 도 6에 도시된 바와 같이, 형태소 분석 전에는 문장 형태의 텍스트 데이터가, 형태소 분석 후에는 형태소별로 태깅되어 있는 것을 확인할 수 있다.

문맥 정보 추출 단계에서는, 대체어 자동 추출 장치(200)가 대체어 자동 추출 장치(200)가 전처리된 텍스트 데이터에서 Word2Vec 알고리즘을 이용하여 문맥 정보를 추출한다(530).

Word2Vec 알고리즘은 단어를 수십 내지 수백 차원의 벡터로 변환하여 단어의 의미를 효율적으로 추정하는 방법으로, 자연어 처리 분야에서 비약적인 정밀도 향상을 가능하게 할 수 있다. Word2Vec 알고리즘은 인공신경망(Neural network)을 기반으로 하는 방식으로 단어들의 의미를 특정 차원의 벡터값으로 계산하고 표현하는 비지도 학습 기법이다. Word2Vec 알고리즘을 구현하기 위해 제안한 Skip-gram 모델은 다음과 같다.

도 7은 본 발명의 일 실시 예에 따른 Skip-garm 모델을 도시한 도면이다.

도 7에 도시된 바와 같이, Skip-garm 모델은 w(t)가 입력 단어로 주어졌을 때, 입력 단어를 기준으로 지정된 윈도우 사이즈에 따라 앞, 뒤로 일정한 개수의 다른 단어에 대한 예측을 수행하는 것을 목표로 신경망을 훈련시킬 수 있다. OUTPUT은 입력 단어 w(t)를 기준으로 주변에 올 수 있는 단어 w(t-2), w(t-1), w(t+1), w(t+2)일 수 있다. PROJECTION은 학습의 결과로 입력 단어 w(t)의 주변 단어 w(t-2), w(t-1), w(t+1), w(t+2)를 예측하는데 계산되는 가중치 값으로써, 가중치 값들이 w(t)를 나타내는 벡터값이 될 수 있다. 윈도우 사이즈는 사용자에 의해 설정될 수 있다. OUTPUT 단어의 범위는 사용자에 의해 설정될 수 있다.

한편, Word2Vec 알고리즘은 입력 단어가 주어졌을 때, 출력 단어의 조건부 확률인 softmax function을 사용하여 결과값이 최대가 되도록 학습할 수 있다. 아래의 수학식 4는 입력 단어가 주어졌을 때의 출력 단어의 조건부 확률을 계산하는 식이다.

P(Wo|WI)는 입력단어(WI )가 주어졌을 때, 출력 단어(Wo)가 나올 조건부 확률이다. 상기 수학식에 따라 Word2Vec 알고리즘에서 학습 문서 내 주위 단어의 분포가 가까운 단어일수록 산출되는 벡터값은 유사해지며, 산출된 벡터값이 비슷한 단어는 유사한 것으로 간주할 수 있다.

도 8a 및 8b는 본 발명의 일 실시 예에 따른 Word2Vec 알고리즘을 이용하여 학습된 단어의 일 예를 도시한 도면이다.

대체어 자동 추출 장치(200)는 Word2Vec 알고리즘에 학습시켜 단어를 벡터값으로 표현할 수 있다.

도 8a 및 8b에 도시된 바와 같이, Word2Vec 알고리즘에 학습된 단어는 벡터값으로 표현될 수 있다. 이때, Word2Vec 알고리즘에서 학습 문서 내 주위 단어의 분포가 가까운 단어일수록 산출되는 벡터값은 유사해질 수 있다. 예컨대, 문서 내 주위 단어의 분포가 가까운 단어(도 8b에서 예뻐와 이뻐)일수록 산출되는 벡터값은 유사해짐을 알 수 있다(도 8a의 인덱스 3, 4). 이에 따라, 산출된 벡터값이 비슷한 단어(예뻐와 이뻐)는 유사한 것으로 간주할 수 있다.

대체어 자동 추출 단계에서는, 대체어 자동 추출 장치(200)가 추출된 문맥 정보에서 단어 간 유사도에 기초하여 대체어를 추출한다(550).

한편, 대체어 자동 추출 단계는, 대체어 자동 추출 장치(200)가 추출된 문맥 정보에서 단어 간에 유사도를 계산하고, 유사도가 높은 상위 단어의 일정 개수를 대체어 후보로 추출하는 대체어 후보군 추출 단계 및 대체어 자동 추출 장치(200)가 추출된 대체어 후보군에 속한 단어들에 대하여 정제 작업을 수행하여 최종 대체어를 추출하는 정제 단계를 포함한다.

대체어 후보군 추출 단계에서는, 대체어 자동 추출 장치(200)가 유사도 척도를 이용하여 단어 간에 유사도를 계산할 수 있다. 상기 유사도 척도는, 유클리디안 거리(Euclidean distance), 코사인 유사도(Cosine similarity), 타니모토 계수(Tanimoto coeffieient) 등이 있을 수 있다. 대체어 자동 추출 장치(200)는 유클리디안 거리(Euclidean distance), 코사인 유사도(Cosine similarity), 타니모토 계수(Tanimoto coeffieient) 중 성능이 가장 높은 척도를 이용하여 유사도를 계산하고, 대체어 후보를 추출할 수 있다.

도 9는 대체어 추출 대상 단어 ‘메르스’에 대한 유사도 척도별 대체어 후보의 일 예를 도시한 도면이다.

도 9를 참조하면, 대체어 추출 대상 단어 ‘메르스’에 대한 대체어 후보들(예컨대, 사망, MERS, 중동호흡기증후군 등)의 유사도 척도별 유사도 값을 확인할 수 있다. 이때, 본 실시 예에 따르면, 유사도 척도 중 코사인 유사도(Cosine similarity)가 성능이 가장 높으므로, 대체어 후보 추출에 이용할 수 있다.

정제 단계에서는, 대체어 자동 추출 장치(200)가 대체어 후보 리스트 중 유사도가 높은 상위 단어와 Word2Vec 알고리즘에 의해 학습된 단어 간의 유사도 계산을 반복 수행하고, 후보 리스트의 대체어 후보 단어 각각에 대한 상위 일정 개수의 대체어 후보 단어들을 재추출하고, 대체어 후보 리스트에 재추출된 대체어 후보 단어가 없을 경우, 최초 추출된 대체어 추출 대상 단어의 대체어 후보 리스트에서 대체어 후보 단어를 제거함으로써, 대체어 추출 장치가 최종적으로 대체어를 추출하도록 할 수 있다. 예컨대, 대체어 자동 추출 장치(200)는 대체어 추출 대상 단어의 대체어 후보 리스트 중 상위 n개의 단어들과 Word2Vec 모델에 학습된 모든 단어 간의 유사도 계산을 반복 수행하고, 후보 리스트의 대체어 후보 단어 각각에 대한 상위 n개의 대체어 후보 단어들을 재추출할 수 있다. 이후, 최초 추출된 대체어 추출 대상 단어의 대체어 후보 리스트에 재추출된 대체어 후보 단어가 없을 경우, 상기 최초 추출된 대체어 추출 대상 단어의 대체어 후보 리스트에서 대체어 후보 단어를 제거할 수 있다. 이에 따라, 대체어 자동 추출 장치(200)는 최종적으로 대체어를 추출할 수 있다.

도 10은 대체어 추출 대상 단어 ‘메르스’에 대한 최종 대체어를 추출하는 과정의 일 예를 도시한 도면, 도 11은 추출된 최종 대체어의 일 예를 도시한 도면이다.

도 10을 참조하면, 대체어 추출 대상 단어(메르스)에 대한 대체어 후보들(MERS, 사망, 중동호흡기증후군 등)이 유사도 값을 기준으로 내림차순으로 정렬된 것을 확인할 수 있다(1010). 대체어 자동 추출 장치(200)는, 대체어 후보 리스트 중 유사도가 높은 상위 단어와 Word2Vec 알고리즘에 의해 학습된 단어 간의 유사도 계산을 반복 수행하고, 후보 리스트의 대체어 후보 단어 각각에 대한 상위 일정 개수의 대체어 후보 단어들을 재추출할 수 있다(1030)(1050).

이때, 대체어 자동 추출 장치(200)는, 재추출된 대체어 후보 리스트에 대상 단어(메르스)가 존재할 경우(1030), 대상 단어 대체어 후보 리스트에서 대체어 후보 단어(MERS)를 유지한다.

반면, 대체어 자동 추출 장치(200)는, 재추출된 대체어 후보 리스트에 대상 단어(메르스)가 존재하지 않을 경우(1050), 대상 단어 대체어 후보 리스트에서 대체어 후보 단어(사망)를 삭제한다.

대체어 자동 추출 장치(200)는, 대상 단어의 후보 리스트에 나열된 단어들을 사용자가 임의로 정의한 객수만큼 상위부터 반복적으로 상술한 과정을 반복 수행할 수 있다. 그 결과 대체어 자동 추출 장치(200)는, 도 11에 도시된 바와 같이 대상 단어(메르스)에 대한 최종 대체어 리스트를 추출할 수 있다.

상술한 바와 같은 본 발명의 실시 예에 따르면, 특정 단어에 대한 대체어를 자동 추출함으로써 텍스트 데이터 분석의 오류를 방지할 수 있는 효과가 있다.

본 발명의 실시예에 따른 방법들은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는, 본 발명을 위한 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

본 명세서는 많은 특징을 포함하는 반면, 그러한 특징은 본 발명의 범위 또는 특허청구범위를 제한하는 것으로 해석되어서는 아니 된다. 또한, 본 명세서의 개별적인 실시 예에서 설명된 특징들은 단일 실시 예에서 결합되어 구현될 수 있다. 반대로, 본 명세서의 단일 실시 예에서 설명된 다양한 특징들은 개별적으로 다양한 실시 예에서 구현되거나, 적절히 결합되어 구현될 수 있다.

도면에서 동작들이 특정한 순서로 설명되었으나, 그러한 동작들이 도시된 바와 같은 특정한 순서로 수행되는 것으로 또는 일련의 연속된 순서, 또는 원하는 결과를 얻기 위해 모든 설명된 동작이 수행되는 것으로 이해되어서는 안 된다. 특정 환경에서 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 아울러, 상술한 실시 예에서 다양한 시스템 구성요소의 구분은 모든 실시 예에서 그러한 구분을 요구하지 않는 것으로 이해되어야 한다. 상술한 앱 구성요소 및 시스템은 일반적으로 단일 소프트웨어 제품 또는 멀티플 소프트웨어 제품에 패키지로 구현될 수 있다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것은 아니다.

Claims

문서에 포함된 텍스트 데이터를 전처리하는 전처리부;

상기 전처리된 텍스트 데이터에서 신경망 언어 모델을 이용하여 문맥 정보를 추출하는 문맥 정보 추출부; 및

상기 추출된 문맥 정보에서 단어 간에 유사도를 계산하여 대체어 후보를 추출하고, 상기 추출된 대체어 후보들에 대한 정제작업을 통해 대상 단어에 대한 대체어를 추출하는 대체어 자동 추출부;를 포함하는 대체어 자동 추출 장치.
제 1 항에 있어서,

상기 전처리부는,

문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅하는 형태소 분석부; 및

수집된 온라인 텍스트 데이터에서 불필요한 용어들을 제거하는 불용어 제거부;를 포함하는 대체어 자동 추출 장치.
제 1 항에 있어서,

상기 대체어 자동 추출부는,

상기 추출된 문맥 정보에서 단어 간에 유사도를 계산하고, 유사도가 높은 상위 단어의 일정 개수를 대체어 후보로 추출하는 대체어 후보군 추출부; 및

상기 추출된 대체어 후보군에 속한 단어들에 대하여 정제 작업을 수행하여 최종 대체어를 추출하는 정제부;를 포함하는 대체어 자동 추출 장치.
제 3 항에 있어서,

상기 대체어 후보군 추출부는,

유사도 척도를 이용하여 단어 간에 유사도를 계산하는 대체어 자동 추출 장치.
제 4 항에 있어서,

상기 대체어 후보군 추출부는,

유클리디안 거리(Euclidean distance), 코사인 유사도(Cosine similarity), 타니모토 계수(Tanimoto coeffieient) 중 어느 하나의 유사도 척도를 이용하여 단어 간에 유사도를 계산하는 대체어 자동 추출 장치.
제 3 항에 있어서,

상기 정제부는,

상기 대체어 후보 리스트 중 유사도가 높은 상위 단어와 Word2Vec 알고리즘에 의해 학습된 단어 간의 유사도 계산을 반복 수행하고, 후보 리스트의 대체어 후보 단어 각각에 대한 상위 일정 개수의 대체어 후보 단어들을 재추출하고, 상기 대체어 후보 리스트에 재추출된 대체어 후보 단어가 없을 경우, 상기 최초 추출된 대체어 추출 대상 단어의 대체어 후보 리스트에서 대체어 후보 단어를 제거하는 대체어 자동 추출 장치.
대체어 자동 추출 장치에서의 대체어 자동 추출 방법에 있어서,

문서에 포함된 텍스트 데이터를 전처리하는 전처리 단계;

상기 전처리된 텍스트 데이터에서 신경망 언어 모델을 이용하여 문맥 정보를 추출하는 문맥 정보 추출 단계; 및

상기 추출된 문맥 정보에서 단어 간에 유사도를 계산하여 대체어 후보를 추출하고, 상기 추출된 대체어 후보들에 대한 정제작업을 통해 대상 단어에 대한 대체어를 추출하는 대체어 자동 추출 단계;를 포함하는 대체어 자동 추출 방법.
제 7 항에 있어서,

상기 전처리 단계는,

문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅하는 형태소 분석 단계; 및

수집된 온라인 텍스트 데이터에서 불필요한 용어들을 제거하는 불용어 제거 단계;를 포함하는 대체어 자동 추출 방법.
제 7 항에 있어서,

상기 대체어 자동 추출 단계는,

상기 추출된 문맥 정보에서 단어 간에 유사도를 계산하고, 유사도가 높은 상위 단어의 일정 개수를 대체어 후보로 추출하는 대체어 후보군 추출 단계; 및

상기 추출된 대체어 후보군에 속한 단어들에 대하여 정제 작업을 수행하여 최종 대체어를 추출하는 정제 단계;를 포함하는 대체어 자동 추출 방법.
제 9 항에 있어서,

상기 대체어 후보군 추출 단계에서는,

유사도 척도를 이용하여 단어 간에 유사도를 계산하는 대체어 자동 추출 방법.
제 10 항에 있어서,

상기 대체어 후보군 추출 단계에서는,

유클리디안 거리(Euclidean distance), 코사인 유사도(Cosine similarity), 타니모토 계수(Tanimoto coeffieient) 중 어느 하나의 유사도 척도를 이용하여 단어 간에 유사도를 계산하는 대체어 자동 추출 방법.
제 19 항에 있어서,

상기 정제 단계에서는,

상기 대체어 후보 리스트 중 유사도가 높은 상위 단어와 Word2Vec 알고리즘에 의해 학습된 단어 간의 유사도 계산을 반복 수행하고, 후보 리스트의 대체어 후보 단어 각각에 대한 상위 일정 개수의 대체어 후보 단어들을 재추출하고, 상기 대체어 후보 리스트에 재추출된 대체어 후보 단어가 없을 경우, 상기 최초 추출된 대체어 추출 대상 단어의 대체어 후보 리스트에서 대체어 후보 단어를 제거하는 대체어 자동 추출 방법.
제 7 항 내지 제 12 항 중 어느 한 항에 따른 대체어 자동 추출 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.