KR102543866B1

KR102543866B1 - 단어 임베딩용 라이브러리 생성 방법

Info

Publication number: KR102543866B1
Application number: KR1020210097394A
Authority: KR
Inventors: 김성민; 임혜원; 심윤보; 하유이; 최윤석
Original assignee: 한국전력공사
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2023-06-20
Also published as: KR20230015798A

Abstract

본 발명은 단어 임베딩용 라이브러리 생성 방법에 관한 것으로서, 한글로 구성된 원문을 입력받는 단계, 원문을 형태소별로 분절하고, 분절된 형태소를 기 설정된 규칙에 따라 단계적으로 조합하고, 단계별 형태소의 조합이 갖는 형태론적 속성 또는 통사론적 속성에 따라 단계별 형태소의 조합에 태그를 매칭시키는 단계, 및 단계별 형태소의 조합에 매칭된 태그에 기반하여 원문에 포함된 형태소를 분류하여 단어 임베딩용 라이브러리를 생성하는 단계를 포함하는 것을 특징으로 한다.

Description

단어 임베딩용 라이브러리 생성 방법{METHOD FOR GENERATING LIBRARY FOR WORD EMBEDDING}

본 발명은 단어 임베딩용 라이브러리 생성 방법에 관한 것으로서, 더욱 상세하게는 단어 임베딩을 위한 단어 임베딩용 라이브러리를 생성할 수 있는 단어 임베딩용 라이브러리 생성 방법에 관한 것이다.

영어는 품사별로 단어가 구분되고, 주어를 중심으로 순차적으로 주어를 서술하는 단어가 나열되며, 단어와 이를 꾸며주는 단어가 벡터적으로 결집된 구조를 취하고 있다.

반면, 한국어는 구와 절이 혼용되어 안긴문장 또는 안은문장으로 구성되고, 주절과 종속절이 서로 복합적으로 이어져 있으며, 접미사에 의해 품사의 속성이 바뀔 수 있고, 전성어미에 의해 문장이 명사로 변환되는 등 그 구조가 매우 복잡하다.

전술한 바와 같이, 한국어는 다차원적으로 복합된 구조를 취하므로, 주 단어와 부연 단어가 벡터적으로 결집되어 있다고 볼 수 없으며, 영어를 기준으로 작성된 단어 임베딩 툴을 이용하여 한국어를 임베딩할 경우 그 정확도가 매우 떨어지는 문제점이 존재한다.

이에 따라, 한국어의 문법적 구조를 고려하여 단어 임베딩을 수행할 수 있는 단어 임베딩 방법이 요구되고 있는 실정이다.

본 발명의 배경기술은 대한민국 공개특허공보 제10-2020-0088088호(2020.07.22.)의 '단어 속성 분류 장치 및 방법'에 개시되어 있다.

본 발명은 전술한 문제점을 해결하기 위해 창안된 것으로, 본 발명의 일 측면에 따른 목적은 단어 임베딩을 위한 단어 임베딩용 라이브러리를 생성할 수 있는 단어 임베딩용 라이브러리 생성 방법을 제공하는 것이다.

본 발명의 일 측면에 따른 단어 임베딩용 라이브러리 생성 방법은 한글로 구성된 원문을 입력받는 단계; 상기 원문을 형태소별로 분절하고, 상기 분절된 형태소를 기 설정된 규칙에 따라 단계적으로 조합하고, 단계별 형태소의 조합이 갖는 형태론적 속성 또는 통사론적 속성에 따라 상기 단계별 형태소의 조합에 태그를 매칭시키는 단계; 및 상기 단계별 형태소의 조합에 매칭된 태그에 기반하여 상기 원문에 포함된 형태소를 분류하여 단어 임베딩용 라이브러리를 생성하는 단계;를 포함하는 것을 특징으로 한다.

본 발명의 일 측면에 따르면 원문을 형태소별로 분절하고, 분절된 형태소를 기 설정된 규칙에 따라 단계적으로 조합하고, 단계별 형태소의 조합이 갖는 형태론적 속성 또는 통사론적 속성에 따라 단계별 형태소의 조합에 태그를 매칭시키고, 단계별 형태소의 조합에 매칭된 태그에 기반하여 원문에 포함된 형태소를 분류하여 단어 임베딩용 라이브러리를 생성할 수 있다.

본 발명의 다른 측면에 따르면 원문에 포함된 문장을 문장성분별로 구분할 수 있다.

본 발명의 다른 측면에 따르면 원문에 포함된 태깅 오류를 추출하고, 추출된 태깅 오류를 보정할 수 있다.

본 발명의 다른 측면에 따르면 원문에 포함된 복문을 단문으로 변환하여 문장을 단순화시키고, 생략된 문장성분을 보완하여 하나의 정제된 단문을 생성함으로써 영문으로의 변환 시 정확도를 향상시킬 수 있고, 임베딩용 학습데이터의 순도를 높일 수 있다.

본 발명의 다른 측면에 따르면 원문의 주제 및 문체에 따라 단어 임베딩용 라이브러리를 분류할 수 있다.

도 1은 본 발명의 일 실시예에 따른 단어 임베딩용 라이브러리 생성 장치를 설명하기 위한 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 단어 임베딩용 라이브러리 생성 방법을 설명하기 위한 순서도이다.
도 3은 단계별 형태소의 조합에 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.
도 4는 명사형 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.
도 5는 복합명사형 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.
도 6은 서술형 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.
도 7은 명사구 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.
도 8은 복합명사구 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.
도 9는 명사절 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.
도 10은 복합명사절 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.
도 11은 명사 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.
도 12는 명사를 식별하는 단계를 설명하기 위한 순서도이다.
도 13은 서술어 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.
도 14는 서술어의 유형을 판단하는 단계를 설명하기 위한 순서도이다.
도 15는 문장성분 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.
도 16은 본 발명의 제2 실시예에 따른 단어 임베딩 라이브러리 생성 방법을 설명하기 위한 순서도이다.
도 17은 문장에 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.
도 18은 문장 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.
도 19는 문장유형 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.
도 20은 태그를 보정하는 단계를 설명하기 위한 제1 순서도이다.
도 21은 태그를 보정하는 단계를 설명하기 위한 제2 순서도이다.
도 22는 태그를 보정하는 단계를 설명하기 위한 제3 순서도이다.
도 23은 복문을 단문으로 변환하는 단계를 설명하기 위한 순서도이다.

이하에서는 본 발명의 실시예에 따른 단어 임베딩용 라이브러리 생성 방법을 첨부된 도면들을 참조하여 상세하게 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 단어 임베딩용 라이브러리 생성 장치를 설명하기 위한 순서도이다.

도 1을 참고하면, 본 발명의 일 실시예에 따른 단어 임베딩용 라이브러리 생성 장치는 입력 모듈(100), 출력 모듈(200), 메모리(300) 및 프로세서(400)를 포함할 수 있다.

입력 모듈(100)은 한글로 구성된 원문을 입력받을 수 있다. 즉, 입력 모듈(100)은 한글로 구성된 원문이 저장된 데이터를 입력받고, 입력받은 데이터를 후술하는 프로세서(400)로 출력할 수 있다.

출력 모듈(200)은 프로세서(400)를 입력된 원문에 포함된 단어들에 대한 단어 임베딩용 라이브러리를 생성하는 과정에서 산출되는 각종 결과를 사용자가 확인할 수 있도록 출력할 수 있다.

메모리(300)에는 프로세서(400)가 입력된 원문에 포함된 단어들에 대한 단어 임베딩용 라이브러리를 생성하기 위해 필요한 각종 데이터가 미리 저장되어 있을 수 있다. 또한, 메모리(300)에는 프로세서(400)를 통해 단어 임베딩용 라이브러리를 생성하는 과정에서 산출되는 각종 데이터가 저장될 수 있다.

프로세서(400)는 원문을 형태소별로 분절하고, 기 설정된 규칙에 따라 분절된 형태소를 단계적으로 조합하고, 단계별 형태소의 조합이 갖는 형태론적 속성 또는 통사론적 속성에 따라 단계별 형태소의 조합에 태그를 매칭시키고, 단계별 형태소의 조합에 매칭된 태그에 기반하여 원문에 포함된 형태소를 분류하여 단어 임베딩 라이브러리를 생성할 수 있다.

여기서, 태그는 단어의 언어적인 속성을 나타내는 특징값으로서, 단어 임베딩 시 단어를 벡터적으로 변환하기 위해 이용되는 것일 수 있다. 단어 임베딩용 라이브러리는 매칭된 태그에 따라 분류된 단어(즉, 형태소 또는 형태소의 집합)들의 집합을 의미할 수 있다. 프로세서(400)는 단어에 매칭된 태그에 기반하여 원문에 포함된 단어들을 분류하여 단어 임베딩용 라이브러리를 생성할 수 있다. 단어 임베딩용 라이브러리는 이후 벡터적으로 변환되어 단어 임베딩에 이용될 수 있다.

또한, 프로세서(400)는 단계별 형태소의 조합에 매칭된 태그에 기반하여 원문에 포함된 문장의 유형을 판단하고, 판단된 유형에 따라 문장에 태그를 매칭시키고, 문장에 매칭된 태그에 기반하여 원문에 포함된 형태소 또는 형태소의 조합을 분류하여 단어 임베딩 라이브러리를 생성할 수 있다.

또한, 프로세서(400)는 원문의 주제(카테고리)를 식별하고, 식별된 주제에 따라 단어 임베딩용 라이브러리를 분류할 수 있다. 프로세서(400)는 원문의 문체를 식별하고, 식별된 문체에 따라 단어 임베딩용 라이브러리를 분류하거나, 원문의 주제 및 문체를 식별하고, 식별된 주제 및 문체에 따라 단어 임베딩용 라이브러리를 분류할 수도 있다.

도 2는 본 발명의 제1 실시예에 따른 단어 임베딩용 라이브러리 생성 방법을 설명하기 위한 순서도이다.

이하에서는 도 2를 참고하여, 본 발명의 제1 실시예에 따른 단어 임베딩용 라이브러리 생성 방법을 설명하도록 한다.

먼저, 프로세서(400)는 입력 모듈(100)을 통해 한글로 구성된 원문을 입력받을 수 있다(S201). 예를 들어, 프로세서(400)는 한글로 구성된 원문이 저장된 데이터를 저장 장치(예: USB), 통신망 또는 입력 장치(예: 키보드)를 통해 입력받을 수 있다. 다만, 전술한 실시예에 한정되는 것은 아니며, 프로세서(400)는 다양한 방식으로 한글로 구성된 원문을 입력받을 수 있다.

이어서, 프로세서(400)는 원문을 형태소별로 분절할 수 있다(S203). 즉, 프로세서(400)는 원문에 포함된 단어들을 형태소 단위로 분절할 수 있다. 프로세서(400)는 형태소 분석엔진(예: MeCab)을 이용하여 원문을 형태소별로 분절할 수 있다.

프로세서(400)는 분절된 형태소를 기 설정된 규칙에 따라 단계적으로 조합하고, 단계별 형태소의 조합이 갖는 형태론적 속성 또는 통사론적 속성에 따라 단계별 형태소의 조합에 태그를 매칭시킬 수 있다(S205). 프로세서(400)는 기 설정된 규칙에 따라 형태소 중 일부를 단계적으로 조합하고, 단계별 형태소의 조합이 갖는 형태론적 속성에 따라 단계별 형태소의 조합에 태그를 매칭시키고, 형태론적 속성이 매칭된 형태소의 조합에 기반하여 원문에 포함된 형태소를 문장성분별로 구분하고, 문장성분별로 구분된 형태소의 조합이 갖는 통사론적 속성에 따라 해당 형태소의 조합에 태그를 매칭시킬 수 있다. 즉, 프로세서(400)는 분절된 형태소를 문장에서 하나의 명사적 의미를 갖는 단어, 구 또는 절로 정의되는 명사로 조합하고, 명사에 붙는 조사 또는 보조사의 품사에 따라 명사를 포함하는 어절의 문장성분을 결정할 수 있다. 이와 같이, 본 발명은 문장을 문장성분별로 구분함으로써 복잡한 문장을 단순화시킬 수 있다.

이어서, 프로세서(400)는 단계별 형태소의 조합에 매칭된 태그에 기반하여 원문에 포함된 형태소 또는 형태소의 조합을 분류하여 단어 임베딩용 라이브러리를 생성할 수 있다(S207). 즉, 프로세서(400)는 매칭된 태그가 동일한 형태소의 조합을 함께 묶어 단어 임베딩용 라이브러리로 생성할 수 있다.

이어서, 프로세서(400)는 원문의 주제 또는 문체에 따라 단어 임베딩용 라이브러리를 분류할 수 있다(S209). 즉, 프로세서(400)는 원문의 주제 또는 문체를 식별하고, 식별된 원문의 주제 또는 문체에 따라 단어 임베딩용 라이브러리를 분류할 수 있다. 프로세서(400)는 원문의 주제 및 문체에 따라 단어 임베딩용 라이브러리를 분류할 수도 있다.

일 실시예에 따르면, 프로세서(400)는 사용자로부터 원문의 주제를 입력받고, 입력받은 주제를 원문의 주제로 식별할 수 있다. 다른 실시예에 따르면, 프로세서(400)는 원문에 포함된 모든 단어를 각각 주제별로 분류한 후, 가장 많은 단어를 포함하는 주제를 원문의 주제로 식별할 수도 있다. 일 실시예에 따르면, 프로세서(400)는 기술, 과학, 공학, 법률, 정치, 경제, 경영, 문학, 소설, 수필 및 인문을 포함함 분류항목 중에서 원문의 주제를 결정할 수 있다.

일 실시예에 따르면, 프로세서(400)는 사용자로부터 원문의 문체를 입력받고, 입력받은 문체를 원문의 문체로 식별할 수 있다. 일 실시예에 따르면, 프로세서(400)는 문어체, 구어체, 기사체 및 개조체를 포함한 분류항목 중에서 원문의 문체를 결정할 수 있다. 일 실시예에 따르면, 프로세서(400)는 원문에 포함된 문장별로 문체를 식별하고, 식별된 문체에 따라 원문에 포함된 문장을 분류할 수 있다. 예를 들어, 프로세서(400)는 원문에 포함된 문장 중 큰따옴표로 묶인 인용 문장은 따로 분류하여 문체별 분류항목 중 구어체의 라이브러리에 저장시킬 수 있다.

본 발명은 한국어의 문장은 기본적으로 교착어를 기반으로 한 명사가 문장의 주된 의미를 내포하고 있다는 한국어의 특성으로부터 착안된 것으로서, 원문을 최소한의 형태소로 분리하고, 형태소를 단어, 복합 단어, 구, 복합 구, 절, 복합 절, 문장 등으로 순차적으로 조합한 후 품사, 유형, 문장성분 및 종속 여부 등의 속성을 판단하여 단어 또는 단어의 조합에 자동으로 태그를 매칭시킬 수 있다.

도 3은 단계별 형태소의 조합에 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.

이하에서는 도 3을 참고하여, 단계별 형태소의 조합에 태그를 매칭시키는 단계를 설명하도록 한다.

프로세서(400)는 원문에서 품사가 제1 유형인 제1 형태소, 또는 제1 형태소와 다른 형태소의 조합으로 정의되는 명사형 단어를 식별하고, 명사형 단어의 유형에 따라 식별된 명사형 단어에 명사형 태그를 매칭시킬 수 있다(S301). 여기서, 명사형 태그는 명사형 단어의 유형을 나타내는 특징값을 의미할 수 있다.

이어서, 프로세서(400)는 원문에서 명사형 단어와 제1 유형의 명사형 단어의 조합으로 정의되는 복합 명사형 단어로 식별하고, 식별된 복합 명사형 단어에 복합명사형 태그를 매칭시킬 수 있다(S303). 여기서, 복합명사형 태그는 해당 단어가 복합 명사형 단어임을 나타내는 특징값을 의미할 수 있다.

이어서, 프로세서(400)는 원문에서 품사가 제2 유형인 제2 형태소, 또는 제2 형태소와 다른 형태소의 조합으로 정의되는 서술형 단어를 식별하고, 서술형 단어의 유형에 따라 식별된 서술형 단어에 서술형 태그를 매칭시킬 수 있다(S305). 여기서, 서술형 태그는 서술형 단어의 유형을 나타내는 특징값을 의미할 수 있다.

이어서, 프로세서(400)는 원문에서 서술형 단어와 품사가 제3 유형인 제3 형태소의 조합으로 정의되는 명사구를 식별하고, 명사구의 유형에 따라 식별된 명사구에 명사구 태그를 매칭시킬 수 있다(S307). 여기서, 명사구 태그는 명사구의 유형을 나타내는 특징값을 의미할 수 있다.

이어서, 프로세서(400)는 원문에서 명사구와 명사구의 조합으로 정의되는 복합 명사구를 식별하고, 복합 명사구의 유형에 따라 식별된 복합 명사구에 복합명사구 태그를 매칭시킬 수 있다(S309). 여기서, 복합명사구 태그는 복합 명사구의 유형을 나타내는 특징값을 의미할 수 있다.

이어서, 프로세서(400)는 원문에서 복합 명사구, 명사구, 복합 명사형 단어 또는 명사형 단어와 품사가 제4 유형인 제4 형태소의 조합으로 정의되는 명사구의 종속 성분과, 명사구의 조합으로 정의되는 명사절을 식별하고, 명사절의 유형에 따라 식별된 명사절에 명사절 태그를 매칭시킬 수 있다(S311). 여기서, 명사절 태그는 명사절의 유형을 나타내는 특징값을 의미할 수 있다.

이어서, 프로세서(400)는 원문에서 명사절과 명사절, 또는 명사구와 명사절의 조합으로 정의되는 복합 명사절을 식별하고, 복합 명사절의 유형에 따라 식별된 복합 명사절에 복합명사절 태그를 매칭시킬 수 있다(S313). 여기서, 복합명사절 태그는 복합 명사절의 유형을 나타내는 특징값을 의미할 수 있다.

이어서, 프로세서(400)는 원문에 포함된 복합 명사절, 명사절, 복합 명사구, 명사구, 복합 명사형 단어 및 명사형 단어를 기 설정된 규칙에 따라 명사로 식별하고, 식별된 명사에 명사 태그를 매칭시킬 수 있다(S315). 여기서, 명사 태그는 해당 형태소의 조합이 명사임을 나타내는 특징값을 의미할 수 있다.

이어서, 프로세서(400)는 원문에서 서술형 단어와 품사가 제5 유형인 제5 형태소의 조합으로 정의되는 서술어를 식별하고, 서술어의 유형에 따라 식별된 서술어에 서술어 태그를 매칭시킬 수 있다(S317). 여기서, 서술어 태그는 서술어의 유형을 나타내는 특징값을 의미할 수 있다.

이어서, 프로세서(400)는 명사와 품사가 제6 유형인 제6 형태소의 조합으로 정의되는 제1 단어 조합을 식별하고, 문장성분에 따라 식별된 제1 단어 조합에 문장성분 태그를 매칭시킬 수 있다(S319). 여기서, 문장성분 태그는 해당 단어 조합이 포함된 문장에서 해당 단어 조합의 문장성분을 나타내는 특징값을 의미할 수 있다.

도 4는 명사형 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.

이하에서는 도 4를 참고하여, 명사형 태그를 매칭시키는 단계를 설명하도록 한다.

먼저, 프로세서(400)는 품사에 따라 형태소에 품사 태그를 매칭시킬 수 있다(S401). 프로세서(400)는 형태소 분석엔진(예: MeCab)을 이용하여 형태소의 품사를 판단할 수 있다. 형태소의 품사에 따른 품사 태그가 저장된 룩업 테이블(표 1)이 메모리(300)에 저장되어 있으며, 프로세서(400)는 룩업 테이블을 참고하여 해당 형태소의 품사에 대응하는 품사 태그를 검출하고, 검출된 품사 태그를 해당 형태소에 매칭시킬 수 있다.

품사명	태그	품사명	태그
일반 명사	NNG	보조사	JX
고유 명사	NNP	접속 조사	JC
의존 명사	NNB	선어말 어미	EP
단위 명사	NNBC	종결 어미	EF
수사	NR	연결 어미	EC
대명사	NP	명사형 전성 어미	ETN
동사	VV	관형형 전성 어미	ETM
형용사	VA	체언 접두사	XPN
보조 용언	VX	명사 파생 접미사	XSN
긍정 지정사	VCP	동사 파생 접미사	XSV
부정 지정사	VCN	형용사 파생 접미사	XSA
관형사	MM	어근	XR
일반 부사	MAG	마침,물음,느낌표	SF
접속 부사	MAJ	줄임표	SE
감탄사	IC	여는 괄호	SSO
주격 조사	JKS	닫는 괄호	SSC
보격 조사	JKC	구분자	SC
관형격 조사	JKG	기타 기호	SY
목적격 조사	JKO	외국어	SL
부사격 조사	JKB	한자	SH
호격 조사	JKV	숫자	SN
인용격 조사	JKQ

이어서, 프로세서(400)는 품사 태그에 기반하여, 원문에서 품사가 제1 유형인 제1 형태소와 다른 형태소의 조합으로 정의되는 명사형 단어를 식별할 수 있다(S403). 제1 유형은 일반 명사, 고유 명사 또는 의존 명사 등과 같이 명사적 역할을 수행할 수 있는 품사일 수 있다. 명사형 단어에 대응하는 품사 태그의 조합이 미리 설정되어 메모리(300)에 저장되어 있을 수 있다. 프로세서(400)는 문장의 시작점으로부터 설정된 품사 태그의 조합에 대응하는 형태소의 조합을 검출하고, 검출된 형태소의 조합을 명사형 단어로 식별할 수 있다. 한편, 제1 유형 중 일부(예를 들어, 일반 명사, 고유 명사 및 의존 명사 등)는 단독으로 명사형 단어를 구성할 수도 있으며, 프로세서(400)는 해당 유형의 품사 태그가 매칭된 형태소 그 자체를 명사형 단어로 식별할 수도 있다.

이어서, 프로세서(400)는 명사형 단어에 매칭된 품사 태그의 조합에 기반하여 명사형 단어의 유형을 판단할 수 있다(S405). 명사형 단어의 유형에 따른 품사 태그의 조합이 저장된 룩업 테이블이 미리 메모리(300)에 저장되어 있으며, 프로세서(400)는 룩업 테이블을 참고하여 해당 명사형 단어에 매칭된 품사 태그의 조합에 대응하는 명사형 단어의 유형을 검출하고, 검출된 유형을 해당 명사형 단어의 유형으로 결정할 수 있다. 프로세서(400)는 품사 태그의 조합에 따라 일반명사, 의존명사, 단위명사, 파생명사 및 소유명사 중 하나로 명사형 단어의 유형을 결정할 수 있다.

이어서, 프로세서(400)는 명사형 단어의 유형에 따라 명사형 단어에 명사형 태그를 매칭시킬 수 있다(S407). 프로세서(400)는 명사형 단어의 유형에 따른 명사형 태그가 저장된 룩업 테이블을 참고하여, 해당 명사형 단어의 유형에 대응하는 명사형 태그를 검출하고, 검출된 명사형 태그를 해당 명사형 단어에 매칭시킬 수 있다.

도 5는 복합명사형 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.

이하에서는 도 5를 참고하여, 복합명사형 태그를 매칭시키는 단계를 설명하도록 한다.

먼저, 프로세서(400)는 명사형 태그에 기반하여, 원문에서 명사형 단어와 제1 유형의 명사형 단어의 조합으로 정의되는 복합 명사형 단어를 식별할 수 있다(S501). 여기서, 제1 유형의 명사형 단어는 유형이 일반명사 또는 의존명사인 명사형 단어일 수 있다. 즉, 프로세서(400)는 임의의 명사형 단어와 유형이 일반명사인 명사형 단어의 조합, 또는 임의의 명사형 단어와 유형이 의존명사인 명사형 단어의 조합을 복합 명사형 단어로 식별할 수 있다. 프로세서(400)는 원문의 시작점으로부터 임의의 명사형 태그와, 일반명사 또는 의존명사에 대응하는 명사형 태그의 조합에 대응하는 명사형 단어의 조합을 검출하고, 검출된 명사형 단어의 조합을 복합 명사형 단어로 식별할 수 있다.

한편, 프로세서(400)는 명사형 단어 또는 복합 명사형 단어와, 명사형 단어 또는 복합 명사형 단어가 품사가 제7 유형의 제7 형태소를 통해 연결되는 경우에도, 명사형 단어 또는 복합 명사형 단어와, 제7 형태소와 명사형 단어 또는 복합 명사형 단어의 조합을 복합 명사형 단어로 식별할 수 있다. 제7 유형은 접속 조사일 수 있다.

이어서, 프로세서(400)는 복합 명사형 단어에 복합명사형 태그를 매칭시킬 수 있다(S503). 여기서, 복합명사형 태그는 해당 단어가 복합 명사형 단어임을 나타내는 특징값을 의미할 수 있다.

도 6은 서술형 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.

이하에서는 도 6을 참고하여, 서술형 태그를 매칭시키는 단계를 설명하도록 한다.

먼저, 프로세서(400)는 품사 태그에 기반하여, 원문에서 품사가 제8 유형인 제8 형태소를 식별할 수 있다(S601). 여기서, 제8 유형은 명사형 전성어미, 관형형 전성어미, 종결어미 또는 연결어미일 수 있다. 즉, 프로세서(400)는 원문에서 명사형 전성어미, 관형형 전성어미, 종결어미 및 연결어미를 식별할 수 있다.

이어서, 프로세서(400)는 품사 태그에 기반하여, 제8 형태소 앞에서 품사가 제2 유형인 제2 형태소, 또는 제2 형태소와 다른 형태소의 조합으로 정의되는 기본 서술형 단어를 식별할 수 있다(S603). 제2 유형은 동사, 동사 파생 접미사, 형용사, 형용사 파생 접미사, 긍정지정사 또는 부정지정사일 수 있다. 서술형 단어에 대응하는 품사 태그 또는 품사 태그의 조합이 미리 설정되어 메모리(300)에 저장되어 있을 수 있다. 즉, 프로세서(400)는 제8 형태소 앞에서 설정된 품사 태그 또는 품사 태그의 조합에 대응하는 형태소 또는 형태소의 조합을 검출하고, 검출된 형태소 또는 형태소의 조합을 기본 서술형 단어로 식별할 수 있다.

이어서, 프로세서(400)는 기본 서술형 단어에 포함된 제2 형태소에 매칭된 품사 태그에 기반하여 기본 서술형 단어의 유형을 판단할 수 있다(S605). 즉, 프로세서(400)는 기본 서술형 단어에 포함된 제2 형태소로 정의되는 서술부 성분의 품사에 따라 기본 서술형 단어의 유형을 판단할 수 있다. 서술부 성분은 서술형 단어에서 서술적 역할을 수행하는 형태소를 의미할 수 있다. 프로세서(400)는 서술부 성분의 품사에 따라 동사형, 동사파생접미사형, 형용사형, 형용사파생접미사형, 긍정지정사형 및 부정지정사형 중 하나로 서술형 단어의 유형을 판단할 수 있다.

이어서, 프로세서(400)는 유형에 따라 기본 서술형 단어에 기본서술형 태그를 매칭시킬 수 있다(S607). 기본 서술형 단어의 유형에 따른 기본서술형 태그가 저장된 룩업 테이블이 미리 메모리(300)에 저장되어 있으며, 프로세서(400)는 룩업 테이블을 참고하여 해당 기본 서술형 단어의 유형에 대응하는 기본서술형 태그를 검출하고, 검출된 기본서술형 태그를 해당 기본 서술형 단어에 매칭시킬 수 있다.

이어서, 프로세서(400)는 기본 서술형 단어 앞에 위치한 기본 서술형 단어로 정의되는 부연 서술형 단어를 식별할 수 있다(S609). 즉, 문장에서 기본 서술형 단어가 연속되어 나타나는 경우, 프로세서(400)는 먼저 나타나는 기본 서술형 단어를 뒤따르는 기본 서술형 단어를 서술하는 부연 서술형 단어로 식별할 수 있다.

이어서, 프로세서(400)는 부연 서술형 단어의 유형을 판단하고(S611), 유형에 따라 부연 서술형 단어에 부연서술형 태그를 매칭시킬 수 있다(S613). 프로세서(400)는 기본서술형 태그를 매칭시키는 방법과 동일한 방법으로 부연서술형 태그를 매칭시킬 수 있다.

이어서, 프로세서(400)는 기본 서술형 단어와 부연 서술형 단어의 조합으로 정의되는 서술형 단어를 식별할 수 있다(S615). 즉, 프로세서(400)는 기본 서술형 단어와 부연 서술형 단어를 묶어 서술형 단어로 식별할 수 있다. 한편, 기본 서술형 단어의 앞에 부연 서술형 단어가 존재하지 않는 경우, 프로세서(400)는 기본 서술형 단어 그 자체를 서술형 단어로 식별할 수 있다.

이어서, 프로세서(400)는 기본서술형 태그에 기반하여 서술형 단어의 유형을 판단할 수 있다(S617). 즉, 프로세서(400)는 서술형 단어에 포함된 기본 서술형 단어의 유형을 서술형 단어의 유형으로 인용할 수 있다.

이어서, 프로세서(400)는 유형에 따라 서술형 단어에 서술형 태그를 매칭시킬 수 있다(S619). 프로세서(400)는 서술형 단어의 유형에 따른 서술형 태그가 저장된 룩업 테이블을 참고하여, 해당 서술형 단어의 유형에 대응하는 서술형 태그를 검출하고, 검출된 서술형 태그를 해당 명사형 단어에 매칭시킬 수 있다.

도 7은 명사구 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.

이하에서는 도 7을 참고하여, 명사구 태그를 매칭시키는 단계를 설명하도록 한다.

먼저, 프로세서(400)는 품사 태그 및 서술형 태그에 기반하여, 원문에서 서술형 단어와 품사가 제3 유형인 제3 형태소의 조합으로 정의되는 명사구를 식별할 수 있다. 제3 유형은 명사형 전성어미 또는 관형형 전성어미일 수 있다(S701). 즉, 프로세서(400)는 서술형 단어와 품사가 명사형 전성어미인 형태소의 조합, 또는 서술형 단어와 품사가 관형형 전성어미인 형태소의 조합을 명사구로 식별할 수 있다.

이어서, 프로세서(400)는 서술형 태그 및 품사 태그에 기반하여, 명사구의 유형을 판단할 수 있다(S703). 프로세서(400)는 서술형 단어에 매칭된 서술형 태그와, 제3 형태소에 매칭된 품사 태그에 기반하여 명사구의 유형을 판단할 수 있다. 즉, 프로세서(400)는 명사구에 포함된 서술형 단어의 유형과, 서술형 단어에 조합된 형태소의 품사에 기반하여 명사구의 유형을 판단할 수 있다.

프로세서(400)는 제3 형태소에 매칭된 품사 태그에 따라 전성형과 관형형 중 하나로 명사구의 유형을 판단할 수 있다. 즉, 프로세서(400)는 제3 형태소에 명사형 전성어미에 대응하는 품사 태그가 매칭되어 있는 경우 명사구의 유형을 전성형으로 결정할 수 있고, 제3 형태소에 관형형 정성어미에 대응하는 품사 태그가 매칭되어 있는 경우 명사구의 유형을 관형형으로 결정할 수 있다. 또한, 프로세서(400)는 서술형 단어에 매칭된 서술형 태그에 따라 동사형, 형용사형, 동사파생형, 형용사파생형, 긍정지정사형, 부정지정사형 중 하나로 명사구의 유형을 결정할 수 있다. 예를 들어, 서술형 단어에 동사형에 대응하는 서술형 태그가 매칭되어 있고, 제3 형태소에 명사형 전성어미에 대응하는 품사 태그가 매칭되어 있는 경우, 프로세서(400)는 명사구의 유형을 전성형-동사형으로 판단할 수 있다.

이어서, 프로세서(400)는 명사구의 유형에 따라 명사구에 명사구 태그를 매칭시킬 수 있다(S705). 명사구의 유형에 따른 명사구 태그가 저장된 룩업 테이블이 미리 메모리(300)에 저장되어 있으며, 프로세서(400)는 룩업 테이블을 참고하여, 해당 명사구에 대응하는 명사구 태그를 검출하고, 검출된 명사구 태그를 해당 명사구에 매칭시킬 수 있다.

도 8은 복합명사구 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.

이하에서는 도 8을 참고하여, 복합명사구 태그를 매칭시키는 단계를 설명하도록 한다.

먼저, 프로세서(400)는 명사구 태그에 기반하여, 원문에서 명사구와 다른 명사구의 조합으로 정의되는 복합 명사구를 식별할 수 있다(S801). 즉, 프로세서(400)는 명사구 뒤에 바로 다른 명사구가 이어지는 경우, 해당 명사구와 다른 명사구를 묶어 복합 명사구로 식별할 수 있다.

한편, 프로세서(400)는 명사구와 다른 명사구가 제7 형태소(즉, 품사가 접속 조사인 형태소)를 통해 연결되는 경우에도, 명사구와 제7 형태소와 다른 명사구의 조합을 복합 명사구로 식별할 수 있다.

이어서, 프로세서(400)는 복합 명사구에 포함된 명사구 중 앞에 위치한 명사구에 매칭된 명사구 태그에 기반하여 복합 명사구의 유형을 판단할 수 있다(S803). 즉, 복합 명사구의 유형은 앞에 위치한 명사구의 유형을 따른다.

이어서, 프로세서(400)는 복합 명사구의 유형에 따라 복합 명사구에 복합명사구 태그를 매칭시킬 수 있다(S805). 복합 명사구의 유형에 따른 복합명사구 태그가 저장된 룩업 테이블이 미리 메모리(300)에 저장되어 있으며, 프로세서(400)는 룩업 테이블을 참고하여, 해당 복합 명사구의 유형에 대응하는 복합명사구 태그를 검출하고, 검출된 복합명사구 태그를 해당 복합 명사구에 매칭시킬 수 있다.

도 9는 명사절 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.

이하에서는 도 9를 참고하여, 명사절 태그를 매칭시키는 단계를 설명하도록 한다.

먼저, 프로세서(400)는 원문에서 명사구 앞에 위치하고, 품사가 제4 유형인 제4 형태소로 정의되는 종속 조사를 식별할 수 있다(S901). 제4 유형은 주격 조사, 목적격 조사, 부사격 조사 또는 보격 조사일 수 있다. 즉, 프로세서(400)는 명사구 바로 앞에 위치한 주격 조사, 목적격 조사, 부사격 조사 또는 보격 조사를 종속 조사로 식별할 수 있다.

이어서, 프로세서(400)는 원문에서 종속 조사와, 종속 조사 앞에 위치한 복합 명사구, 명사구, 복합 명사형 단어 또는 명사형 단어를 조합으로 정의되는 명사구의 종속 성분(이하 ‘종속 성분’을 식별할 수 있다(S903). 즉, 프로세서(400)는 명사구 바로 앞에 위치한 종속 조사와, 종속 조사 앞에 위치한 복합 명사구, 명사구, 복합 명사형 단어 또는 명사형 단어를 묶어 종속 성분으로 식별할 수 있다.

이어서, 프로세서(400)는 종속 조사에 매칭된 품사 태그에 기반하여, 종속 성분의 유형을 판단할 수 있다(S905). 즉, 프로세서(400)는 종속 조사의 품사에 따라 종속 성분의 유형을 판단할 수 있다. 프로세서(400)는 종속 조사의 품사에 따라 주격 조사형, 목적격 조사형, 부사격 조사형 또는 보격 조사형 중 하나로 종속 성분의 유형을 판단할 수 있다.

이어서, 프로세서(400)는 종속 성분의 유형에 따라 종속 성분에 종속성분 태그를 매칭시킬 수 있다(S907). 종속 성분의 유형에 따른 종속성분 태그가 저장된 룩업 테이블이 미리 메모리(300)에 저장되어 있으며, 프로세서(400)는 룩업 테이블을 참고하여 해당 종속 성분의 유형에 대응하는 종속성분 태그를 검출하고, 검출된 종속성분 태그를 종속 성분에 매칭시킬 수 있다.

이어서, 프로세서(400)는 종속성분 태그 및 명사구 태그에 기반하여, 원문에서 종속 성분과 명사구의 조합으로 정의되는 명사절을 식별할 수 있다(S909). 즉, 프로세서(400)는 명사구와 해당 명사구 바로 앞에 위치한 종속 성분을 묶어 명사절로 식별할 수 있다. 프로세서(400)는 문장의 시작점으로부터 종속성분 태그와 명사구 태그의 조합에 대응하는 종속 성분과 명사구의 조합을 검출하고, 검출된 종속 성분과 명사구의 조합을 명사절로 식별할 수 있다.

이어서, 프로세서(400)는 명사절에 포함된 명사구에 매칭된 명사구 태그에 기반하여 명사절의 유형을 판단할 수 있다(S911). 즉, 프로세서(400)는 명사구의 유형에 기반하여 명사절의 유형을 판단할 수 있다. 다시 말해, 프로세서(400)는 명사절에 포함된 명사구의 유형을 명사절의 유형으로 인용할 수 있다.

이어서, 프로세서(400)는 명사절의 유형에 따라 명사절에 명사절 태그를 매칭시킬 수 있다(S913). 명사절의 유형에 따른 명사절 태그가 저장된 룩업 테이블이 미리 메모리(300)에 저장되어 있으며, 프로세서(400)는 룩업 테이블을 참고하여, 해당 명사절에 대응하는 명사절 태그를 검출하고, 검출된 명사절 태그를 해당 명사절에 매칭시킬 수 있다.

도 10은 복합명사절 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.

이하에서는 도 10을 참고하여, 복합명사절 태그를 매칭시키는 단계를 설명하도록 한다.

먼저, 프로세서(400)는 명사구 태그 및 명사절 태그에 기반하여, 원문에서 명사구와 명사절의 조합 또는 명사절과 다른 명사절의 조합으로 정의되는 복합 명사절을 식별할 수 있다(S1001). 즉, 프로세서(400)는 명사절과 해당 명사절 바로 앞에 위치한 명사구 또는 명사절을 묶어 복합 명사절로 식별할 수 있다. 또한, 프로세서(400)는 명사절과 해당 명사절 바로 뒤에 위치한 명사구를 묶어 복합 명사절로 식별할 수 있다.

한편, 프로세서(400)는 명사구 또는 명사절이 제7 형태소(즉, 품사가 접속 조사인 형태소)를 통해 명사절과 연결되는 경우에도, 명사구 또는 명사절과 제7 형태소와 명사절의 조합을 복합 명사절로 식별할 수 있다. 또한, 프로세서(400)는 명사절이 품사가 제7 형태소를 통해 명사구와 연결되는 경우에도, 명사절과 제7 형태소와 명사구의 조합을 복합 명사절로 식별할 수 있다.

한편, 프로세서(400)는 복합 명사절 바로 뒤에 명사구가 위치하는 경우, 복합 명사절과 명사구를 조합하여 복합 명사절로 식별할 수 있다. 즉, 프로세서(400)는 복합 명사절과, 복합 명사절 뒤에 위치한 명사구를 묶어 복합 명사절로 식별할 수 있다.

이어서, 프로세서(400)는 복합 명사절에 포함된 명사구 또는 명사절에 매칭된 명사구 태그 또는 명사절 태그에 기반하여 복합 명사절의 유형을 판단할 수 있다(S1003). 즉, 복합 명사절의 유형은 복합 명사절에 포함된 명사절 또는 명사구의 유형을 따른다. 복합 명사절의 유형에 따라 명사절 및 명사구 중 어느 것의 유형을 따를지 여부가 결정되며, 이에 대한 정보는 미리 메모리(300)에 저장되어 있을 수 있다.

이어서, 프로세서(400)는 복합 명사절의 유형에 따라 복합 명사절에 복합 명사절 태그를 매칭시킬 수 있다(S1005). 복합 명사절의 유형에 따른 복합명사절 태그가 저장된 룩업 테이블이 미리 메모리(300)에 저장되어 있으며, 프로세서(400)는 룩업 테이블을 참고하여, 해당 복합 명사절의 유형에 대응하는 복합명사절 태그를 검출하고, 검출된 복합명사절 태그를 해당 복합 명사절에 매칭시킬 수 있다.

도 11은 명사 태그를 매칭시키는 단계를 설명하기 위한 순서도이고, 도 12는 명사를 식별하는 단계를 설명하기 위한 순서도이다.

이하에서는 도 11 및 12를 참고하여, 명사 태그를 매칭시키는 단계를 설명하도록 한다.

먼저, 도 11을 참고하면, 프로세서(400)는 문장에서 명사적 역할을 독자적으로 수행할 수 있는 복합 명사절, 명사절, 복합 명사구, 명사구, 복합 명사형 단어, 명사형 단어 또는 형태소로 정의되는 명사를 원문에서 식별할 수 있다(S1101).

도 12를 참고하면, 프로세서(400)는 복합 명사절을 명사로 식별하고(S1201), 복합 명사절에 포함되어 있지 않은 명사절을 명사로 식별하고(S1203), 복합 명사절 및 명사절에 포함되어 있지 않은 복합 명사구를 명사로 식별하고(S1205), 복합 명사절, 명사절 및 복합 명사구에 포함되어 있지 않은 명사구를 명사로 식별하고(S1207), 복합 명사절, 명사절, 복합 명사구 및 명사구에 포함되어 있지 않은 복합 명사형 단어를 명사로 식별하고(S1209), 복합 명사절, 명사절, 복합 명사구 및 복합 명사형 단어에 포함되어 있지 않은 명사형 단어를 명사로 식별하고(S1211), 복합 명사절, 명사절, 복합 명사구, 복합 명사형 단어 및 명사형 단어에 포함되어 있지 않은 형태소 중 품사가 제9 유형인 제9 형태소를 명사로 식별할 수 있다(S1213). 여기서, 제9 유형은 대명사 또는 수사일 수 있다. 즉, 프로세서(400)는 복합 명사절, 명사절, 복합 명사구, 복합 명사형 단어 또는 명사형 단어가 명사로 식별된 경우, 명사로 식별된 구절 또는 단어 안에 포함된 구절 또는 단어에 대해서는 다시 명사로 식별하지 않는다.

다시 도 11을 참고하면, 프로세서(400)는 명사에 명사 태그를 매칭시킬 수 있다(S1103). 여기서, 명사 태그는 해당 형태소의 조합이 명사임을 나타내는 특징값을 의미할 수 있다. 즉, 프로세서(400)는 특정 형태소의 조합이 문장에서 독자적으로 명사적 역할을 수행함을 나타내기 위해 명사에 대응하는 형태소의 조합에 명사 태그를 매칭시킬 수 있다.

도 13은 서술어 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.

이하에서는 도 13을 참고하여, 서술어 태그를 매칭시키는 단계를 설명하도록 한다.

프로세서(400)는 서술형 태그 및 품사 태그에 기반하여, 원문에서 서술형 단어와 품사가 제5 유형인 제5 형태소의 조합으로 정의되는 서술어를 식별할 수 있다(S1301). 제5 유형은 종결 어미 또는 연결 어미일 수 있다. 즉, 프로세서(400)는 서술형 단어와 품사가 종결 어미인 형태소의 조합, 또는 서술형 단어와 품사가 연결 어미인 형태소의 조합을 서술어로 식별할 수 있다.

이어서, 프로세서(400)는 서술어의 유형을 판단할 수 있다(S1303). 서술어의 유형을 판단하는 방법은 후술하도록 한다.

이어서, 프로세서(400)는 서술어의 유형에 따라 서술어에 서술어 태그를 매칭시킬 수 있다(S1305). 서술어의 유형에 따른 서술어 태그가 저장된 룩업 테이블이 미리 메모리(300)에 저장되어 있으며, 프로세서(400)는 룩업 테이블을 참고하여, 해당 서술어에 대응하는 서술어 태그를 검출하고, 검출된 서술어 태그를 해당 서술어에 매칭시킬 수 있다.

도 14는 서술어의 유형을 판단하는 단계를 설명하기 위한 순서도이다.

이하에서는 도 14를 참고하여, 서술어의 유형을 판단하는 단계를 설명하도록 한다.

먼저, 프로세서(400)는 서술어에 포함된 서술형 단어에 매칭된 서술형 태그에 기반하여 서술어의 1차 유형을 판단할 수 있다(S1401). 프로세서(400)는 서술형 태그에 따라 동사형, 형용사형, 동사파생형, 형용사파생형, 긍정지정사형 및 부정지정사형 중 하나로 서술어의 유형을 판단할 수 있다. 즉, 서술어의 1차 유형은 서술형 단어의 유형을 따른다.

이어서, 프로세서(400)는 제5 형태소에 매칭된 품사 태그에 기반하여 서술어의 2차 유형을 판단할 수 있다(S1403). 프로세서(400)는 제5 형태소(즉, 서술어에 포함된 서술형 단어에 조합된 형태소)에 매칭된 품사 태그에 따라 종결형 및 연결형 중 하나로 서술어의 2차 유형을 판단할 수 있다. 프로세서(400)는 제5 형태소에 종결 어미에 대응하는 품사 태그가 매칭된 경우 서술어의 2차 유형을 종결형으로 판단하고, 제5 형태소에 연결 어미에 대응하는 품사 태그가 매칭된 경우 서술어의 2차 유형을 연결형으로 판단할 수 있다.

서술어의 2차 유형이 종결형인 경우, 프로세서(400)는 서술어의 바로 뒤에 위치한 형태소에 기반하여 서술어의 3차 유형을 판단할 수 있다(S1405). 프로세서(400)는 서술어 바로 뒤에 마침물음에 대응하는 품사 태그가 매칭된 형태소가 존재하는지 여부 및 마침물음의 종류에 기반하여 서술어의 3차 유형을 판단할 수 있다(S1607). 프로세서(400)는 3차 유형을 마침형, 의문형 및 종속형 중 하나로 판단할 수 있다. 프로세서(400)는 서술어 뒤에 마침물음에 대응하는 품사 태그가 매칭된 형태소가 존재하지 않는 경우 해당 서술어의 3차 유형을 종속형으로 판단할 수 있다. 프로세서(400)는 서술어 뒤에 마침물음이 존재하고, 그 마침물음의 유형이 마침표 또는 느낌표인 경우 해당 서술어의 3차 유형을 마침형으로 판단할 수 있다. 프로세서(400)는 서술어 뒤에 마침물음이 존재하고, 그 마침물음의 유형이 물음표인 경우 해당 서술어의 3차 유형을 의문형으로 판단할 수 있다.

이어서, 프로세서(400)는 서술어 바로 앞에 명사가 존재하는지 여부에 따라 서술어의 4차 유형을 판단할 수 있다(S1407). 즉, 프로세서(400)는 서술어 바로 앞에 명사가 존재하지 않는 경우 해당 서술어의 4차 유형을 불완전형으로 판단할 수 있다. 반면, 프로세서(400)는 서술어 바로 앞에 명사가 존재하는 경우 해당 서술어의 4차 유형을 완전형으로 판단할 수 있다. 프로세서(400)는 해당 서술어 자체로 종속절이 되는 문장을 완전형으로 판단하고, 다른 단어의 조합과 결합하여 종속절이 되는 서술어를 불완전형으로 판단할 수 있다.

예를 들어, 서술어에 포함된 서술형 단어가 동사형이고, 서술형 단어에 조합된 형태소(즉, 제5 형태소)의 품사가 종결 어미이며, 서술어 바로 뒤에 품사가 마침물음이고 종류가 물음표인 형태소가 존재하고, 서술어 바로 앞에 명사가 존재하는 경우, 프로세서(400)는 서술어의 유형을 동사형-종결형-의문형-완전형으로 판단할 수 있다.

도 15는 문장성분 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.

이하에서는 도 15를 참고하여, 문장성분 태그를 매칭시키는 단계를 설명하도록 한다.

먼저, 프로세서(400)는 명사 태그 및 품사 태그에 기반하여, 원문에서 명사와 품사가 제6 유형인 제6 형태소의 조합으로 정의되는 제1 단어 조합을 식별할 수 있다(S1501). 제6 유형은 주격 조사, 보조사, 목적격 조사, 부사격 조사 또는 보격 조사일 수 있다. 즉, 프로세서(400)는 명사와 주격 조사, 보조사, 목적격 조사, 부사격 조사 또는 보격 조사를 묶어 제1 단어 조합으로 식별할 수 있다.

이어서, 프로세서(400)는 제6 형태소에 매칭된 품사 태그에 기반하여 제1 단어 조합의 문장성분을 판단할 수 있다(S1503). 즉, 프로세서(400)는 제1 단어 조합에 포함된 조사 또는 보조사의 품사에 기반하여 제1 단어 조합의 문장성분을 판단할 수 있다. 프로세서(400)는 제6 형태소의 품사에 따라 주어, 목적어, 보어, 부사어, 독립어 중 하나로 제1 단어 조합의 문장성분을 판단할 수 있다.

이어서, 프로세서(400)는 서술어 태그에 기반하여, 원문에서 서술어를 식별할 수 있다(S1505). 즉, 프로세서(400)는 서술어 태그가 매칭된 형태소의 조합을 서술어로 식별할 수 있다.

이어서, 프로세서(400)는 문장성분에 따라 제1 단어 조합 및 서술어에 문장성분 태그를 매칭시킬 수 있다(S1507). 문장성분에 따른 문장성분 태그가 저장된 룩업 테이블이 미리 메모리(300)에 저장되어 있으며, 프로세서(400)는 룩업 테이블을 참고하여, 해당 제1 조합에 대응하는 문장성분 태그를 검출하고, 검출된 문장성분 태그를 제1 단어 조합에 매칭시킬 수 있다. 또한, 프로세서(400)는 식별된 서술어에는 서술어에 대응하는 문장성분 태그를 매칭시킬 수 있다.

전술한 바와 같이, 본 발명은 원문에 포함된 문장을 문장성분별로 구분함으로써 원문에 포함된 문장을 단순화시킬 수 있다.

도 16은 본 발명의 제2 실시예에 따른 단어 임베딩 라이브러리 생성 방법을 설명하기 위한 순서도이다.

이하에서는 도 16을 참고하여, 본 발명의 제2 실시예에 따른 단어 임베딩 라이브러리 생성 방법을 설명하도록 한다.

먼저, 프로세서(400)는 입력 모듈(100)을 통해 한글로 구성된 원문을 입력받을 수 있다(S1601). S1601 단계는 S201 단계와 동일한 단계일 수 있다.

이어서, 프로세서(400)는 원문을 형태소별로 분절하고(S1603), 분절된 형태소를 기 설정된 규칙에 따라 단계적으로 조합하고, 단계별 형태소의 조합이 갖는 형태론적 속성 또는 통사론적 속성에 따라 단계별 형태소의 조합에 태그를 매칭시킬 수 있다(S1605). S1603 및 S1605 단계는 S203 및 S205 단계와 동일한 단계일 수 있다.

이어서, 프로세서(400)는 문장의 유형에 따라 원문에 포함된 문장에 태그를 매칭시킬 수 있다(S1607). 프로세서(400)는 문장에 포함된 주어의 유무 및 유형과, 문장에 포함된 서술어의 유형에 따라 문장이 주 문장인지 또는 종속문장인지 여부를 판단하고, 그 판단 결과에 따라 문장에 태그를 매칭시킬 수 있다. 또한, 프로세서(400)는 문장에 포함된 서술어의 유형에 따라 문장이 단문인지 또는 복문인지 여부를 판단하고, 그 판단 결과에 따라 문장에 태그를 매칭시킬 수 있다.

이어서, 프로세서(400)는 형태소 또는 형태소의 조합에 매칭된 태그를 보정할 수 있다(S1609). 프로세서(400)는 원문에 포함된 형태소 또는 형태소의 조합 중 잘못된 태그가 매칭된 형태소 또는 형태소의 조합을 식별하고, 식별된 형태소 또는 형태소의 조합에 매칭된 태그를 보정할 수 있다. 또한, 프로세서(400)는 관용어 라이브러리 또는 사용자정의 고유명사 라이브러리에 등록된 형태소의 조합과 동일한 형태소의 조합에 매칭된 태그를 보정할 수 있다.

이어서, 프로세서(400)는 원문에 포함된 복문을 단문으로 변환할 수 있다(S1611). 프로세서(400)가 복문을 단문으로 변환하는 구체적인 방법은 후술하도록 한다.

이어서, 프로세서(400)는 단계별 형태소의 조합에 태그를 매칭시키는 단계 중 일부를 다시 수행할 수 있다(S1613). 프로세서(400)는 단계별 태그를 매칭시키는 단계(S203) 중 명사형 태그를 매칭시키는 단계(S301) 및 복합명사형 태그를 매칭시키는 단계(S303)를 제외한 단계들을 다시 수행할 수 있다.

이어서, 프로세서(400)는 단계별 형태소의 조합에 매칭된 태그에 기반하여 원문에 포함된 형태소를 분류하여 단어 임베딩용 라이브러리를 생성할 수 있다(S1615).

도 17은 문장에 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.

이하에서는 도 17을 참고하여, 문장에 태그를 매칭시키는 단계를 설명하도록 한다.

먼저, 프로세서(400)는 주 문장인지 또는 종속 문장(즉, 주 문장을 한정하는 문장)인지 여부에 따라 원문에 포함된 문장에 문장 태그를 매칭시킬 수 있다(S1701). 여기서, 문장 태그는 문장이 주 문장인지 또는 종속 문장인지 여부를 나타내는 특징값을 의미할 수 있다.

이어서, 프로세서(400)는 단문인지 또는 복문인지 여부에 따라 원문에 포함된 문장에 문장유형 태그를 매칭시킬 수 있다(S1703). 여기서, 문장유형 태그는 문장이 단문인지 또는 복문인지 여부를 나타내는 특징값을 의미할 수 있다.

한편, 프로세서(400)는 종속 문장의 유형에 따라 원문에 포함된 종속 문장에 종속문장 태그를 매칭시킬 수도 있다. 여기서, 종속문장 태그는 종속 문장의 유형을 나타내는 특징값을 의미할 수 있다.

도 18은 문장 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.

이하에서는 도 18을 참고하여, 문장 태그를 매칭시키는 단계를 설명하도록 한다.

먼저, 프로세서(400)는 원문에서 문장을 식별할 수 있다(S1801). 프로세서(400)는 마침물음에 대응하는 품사 태그가 매칭된 형태소를 기준으로 문장을 구분할 수 있다.

이어서, 프로세서(400)는 문장에서 주어에 대응하는 문장성분 태그가 매칭된 형태소의 조합을 검출하여 제2 단어 조합으로 식별할 수 있다(S1803). 즉, 프로세서(400)는 문장에서 문장성분이 주어인 단어의 조합을 검출하고, 검출된 단어의 조합을 제2 단어 조합으로 식별할 수 있다.

이어서, 프로세서(400)는 기 설정된 규칙에 따라 제2 단어 조합의 유형을 판단할 수 있다(S1805). 프로세서(400)는 제2 단어 조합의 유형을 진주어 및 가주어 중 하나로 결정할 수 있다. 일 실시예에 따르면, 프로세서(400)는 제2 단어 조합이 포함된 문장에 제2 단어 조합이 1개만 포함되어 있는 경우 해당 제2 단어 조합을 진주어로 판단하고, 식별된 문장에 제2 단어 조합이 2개 이상 포함되어 있는 경우 먼저 나오는 제2 단어 조합을 진주어로 판단하고, 나중에 나오는 제2 단어 조합은 모두 가주어로 판단할 수 있다.

이어서, 프로세서(400)는 유형에 따라 제2 단어 조합에 주어 태그를 매칭시킬 수 있다(S1807). 즉, 프로세서(400)는 해당 제2 단어 조합의 유형이 진주어인 경우 진주어에 대응하는 주어 태그를 해당 제2 단어 조합에 매칭시킬 수 있고, 해당 제2 단어 조합의 유형이 가주어인 경우 가주어에 대응하는 주어 태그를 해당 제2 단어 조합에 매칭시킬 수 있다.

이어서, 프로세서(400)는 문장에 포함된 주어에 매칭된 주어 태그, 문장에 포함된 서술어에 매칭된 서술어 태그, 및 문장에 주어가 존재하는지 여부에 기반하여, 문장이 주 문장인지 또는 종속 문장인지 여부를 판단할 수 있다(S1809). 즉, 프로세서(400)는 해당 문장에 주어가 존재하는지 여부, 해당 문장에 포함된 주어가 진주어인지 또는 가주어인지 여부, 및 해당 문장에 포함된 서술어의 유형에 따라 문장이 주 문장인지 또는 종속 문장인지 여부를 판단할 수 있다. 한편, 해당 문장이 주 문장인지 또는 종속 문장인지 여부를 판단하기 위해 해당 문장에 목적어에 대응하는 문장성분 태그가 매칭된 형태소의 조합이 존재하는지 여부 등이 추가적으로 고려될 수 있다. 문장이 주 문장이기 위한 조건과 문장이 종속 문장이기 위한 조건은 미리 설정되어 메모리(300)에 저장되어 있을 수 있다.

이어서, 문장이 주 문장인지 또는 종속 문장인지 여부를 판단한 결과에 따라 문장에 문장 태그를 매칭시킬 수 있다(S1811). 즉, 프로세서(400)는 해당 문장이 주 문장인 경우 주문장에 대응하는 문장 태그를 해당 문장에 매칭시킬 수 있고, 해당 문장이 종속 문장인 경우 종속 문장에 대응하는 문장 태그를 해당 문장에 매칭시킬 수 있다.

한편, 문장이 종속 문장인 것으로 판단된 경우, 프로세서(400)는 종속 문장 바로 뒤에 기 설정된 유형의 서술어(예를 들어, 불완전형-종결/의문형인 서술어)가 위치하는지 여부, 및 종속 문장의 서술어에 포함된 제5 형태소(즉, 연결어미에 대응하는 품사 태그가 매칭된 형태소)의 음절규칙(즉, 형태소의 종류 또는 모양)에 따라 종속 문장의 유형을 판단하고, 그 판단 결과에 따라 종속 문장에 종속문장 태그를 매칭시킬 수 있다. 프로세서(400)는 종속 문장의 유형을 종속절, 부사절, 인용절, 목적절, 대등절 중 하나로 판단할 수 있다. 예를 들어, 종속 문장의 바로 뒤에 불완전형-종결형인 서술어가 위치하고, 연결 어미에 대응하는 품사 태그가 매칭된 형태소의 모양(종류)이 “듯이”인 경우, 프로세서(400)는 해당 종속 문장의 유형을 부사절로 판단할 수 있다. 종속 문장의 유형별 조건은 미리 설정되어 메모리(300)에 저장되어 있을 수 있다.

도 19는 문장유형 태그를 매칭시키는 단계를 설명하기 위한 순서도이다.

이하에서는 도 19를 참고하여, 문장유형 태그를 매칭시키는 단계를 설명하도록 한다.

먼저, 프로세서(400)는 문장 태그에 기반하여, 원문에서 종속 문장을 식별할 수 있다(S1901). 프로세서(400)는 원문에서 종속 문장에 대응하는 문장 태그가 매칭된 문장을 식별할 수 있다.

이어서, 프로세서(400)는 문장에 포함된 서술어를 식별할 수 있다(S1903). 프로세서(400)는 서술어에 대응하는 문장성분 태그가 매칭된 단어의 조합을 검출하여 서술어로 식별할 수 있다.

이어서, 프로세서(400)는 서술어에 매칭된 서술어 태그에 기반하여, 문장이 단문인지 또는 복문인지 여부를 판단할 수 있다(S1905). 프로세서(400)는 서술어에 연결형에 대응하는 서술어 태그가 매칭되어 있는 경우 해당 문장을 복문으로 판단할 수 있고, 서술어에 연결형에 대응하는 서술어 태그가 매칭되어 있지 않은 경우 해당 문장을 단문으로 판단할 수 있다.

이어서, 프로세서(400)는 문장이 단문인지 또는 복문인지 여부를 판단한 결과에 따라 문장에 문장유형 태그를 매칭시킬 수 있다(S1907). 프로세서(400)는 해당 문장이 단문인 것으로 판단되는 경우 단문에 대응하는 문장유형 태그를 해당 문장에 매칭시킬 수 있고, 해당 문장이 복문인 것으로 판단되는 경우 복문에 대응하는 문장유형 태그를 해당 문장에 매칭시킬 수 있다.

도 20은 태그를 보정하는 단계를 설명하기 위한 제1 순서도이다.

이하에서는 도 20을 참고하여, 태그를 보정하는 단계를 설명하도록 한다.

먼저, 프로세서(400)는 원문에서 사용자로부터 입력된 대상 태그가 매칭된 대상 단어 조합을 식별할 수 있다(S2001). 프로세서(400)는 태그 중 하나를 사용자로부터 입력받고, 입력받은 태그가 매칭된 단어의 조합을 원문에서 검출하여 대상 단어 조합으로 식별할 수 있다.

이어서, 프로세서(400)는 대상 단어 조합에 매칭된 품사 태그의 조합(배열)을 식별할 수 있다(S2003).

이어서, 프로세서(400)는 품사 태그의 동일성에 따라 대상 단어 조합을 분류할 수 있다(S2005). 즉, 프로세서(400)는 품사 태그의 동일성에 따라 대상 단어 조합을 분류하여 그 빈도를 산출하고, 빈도에 따라 내림차순으로 대상 단어 조합을 배열할 수 있다. 표 2는 사용자로부터 복합명사형 단어 태그가 선택된 경우에 대한 실시예이다.

이어서, 프로세서(400)는 품사 태그의 동일성에 따라 대상 단어 조합을 분류한 결과를 출력 모듈(200)을 통해 출력할 수 있다(S2007). 즉, 프로세서(400)는 [표 2]와 같이 분류 결과를 출력할 수 있다.

순번	빈도	형식
1	7	NNG_NNG
2	5	NNG_NNB
3	4	NNG_JKG_NNG
4	2	NP_NNG_NNB
5	1	MM_NP_NNG

이어서, 프로세서(400)는 출력된 품사 태그의 조합(배열) 중 하나를 사용자로부터 선택된 품사 태그의 조합(예를 들어, 표 2의 순번 1 내지 5중 하나)이 매칭된 형태소의 조합을 식별하고(S2009), 식별된 형태소의 조합을 음에 따라 분류할 수 있다(S2011). 프로세서(400)는 출력된 품사 태그의 조합 중 하나를 선택받을 수 있다. 프로세서(400)는 사용자로부터 입력된 품사 태그의 조합이 매칭된 단어의 조합을 음에 따라 분류하여 빈도를 산출하고, 빈도에 따라 내림차순으로 단어의 조합을 배열할 수 있다. 표 3은 사용자로부터 NNG-NNG에 대응하는 품사 태그의 조합(표 2의 순번 1)이 선택된 경우에 대한 일 예시이다.

순번	빈도	형식
1	4	의학		박사
1	4	NNG	SPACE	NNG
2	3	솔로몬		병원
2	3	NNP	SPACE	NNG

이어서, 프로세서(400)는 사용자로부터 선택된 품사 태그의 조합이 매칭된 형태소의 조합을 음(즉, 모양)에 따라 분류한 결과를 출력 모듈(200)을 통해 출력할 수 있다(S2013). 즉, 프로세서(400)는 [표 3]과 같은 분류 결과를 출력할 수 있다.

이어서, 프로세서(400)는 출력 모듈(200)을 통해 사용자로부터 선택된 형태소의 조합에 매칭된 태그를 출력할 수 있다(S2015). 즉, 프로세서(400)는 [표 4]와 같이 단어의 조합에 매칭된 태그를 출력할 수 있다.

작년

_

미국

_

뉴욕

에서

_

피

솝

_

사건

이

라는

1

NNG

SPACE

NNP

SPACE

NNP

JKB

SPACE

VV

EC

SPACE

NNG

VCP

ETM

2

noun_gen

JKB

SPACE

VV

EC

SPACE

noun

bs_desc

ETM

이어서, 프로세서(400)는 출력된 태그에 대한 보정 정보를 사용자로부터 입력받고(S2017), 입력받은 보정 정보를 토대로 해당 단어의 조합에 매칭된 태그를 보정할 수 있다(S2019). 프로세서(400)는 [표 5]과 같이 사용자로부터 입력받은 수정 정보를 토대로 해당 단어의 조합에 매칭된 태그를 보정할 수 있다. 표 5는 명사형 태그의 범위를 보정한 일 실시예이다. 이와 같이, 본 발명은 형태소의 조합에 매칭된 태그를 보정할 수 있다.

작년

_

미국

_

뉴욕

에서

_

피

솝

_

사건

이

라는

1

NNG

SPACE

NNP

SPACE

NNP

JKB

SPACE

VV

EC

SPACE

NNG

VCP

ETM

2

NNG

SPACE

noun_gen

JKB

SPACE

VV

EC

SPACE

noun

bs_desc

ETM

다른 실시예에 따르면, 프로세서(400)는 원문에 음(즉, 모양)이 동일하나 매칭된 태그가 서로 다른 형태소의 조합으로 정의되는 오류 단어 조합을 식별하고, 식별된 오류 단어 조합에 매칭된 태그를 출력하고, 사용자로부터 오류 단어 조합에 대한 보정 정보를 입력받고, 입력받은 보정 정보에 기반하여 오류 단어 조합에 매칭된 태그를 보정할 수 있다.

도 21은 태그를 보정하는 단계를 설명하기 위한 제2 순서도이다.

이하에서는 도 21을 참고하여, 태그를 보정하는 단계를 설명하도록 한다.

프로세서(400)는 원문에서 기 설정된 관용어 라이브러리에 등록된 형태소의 조합과 동일한 형태소의 조합을 검출할 수 있다(S2101). 여기서, 동일성은 형태적 동일성(즉, 모양)을 의미할 수 있다. 관용어 라이브러리에는 관용적 표현 및 관용적 표현에 대응하는 품사 태그의 조합이 등록되어 있을 수 있다. 프로세서(400)는 사용자로부터 새로운 관용적 표현을 입력받고, 입력받은 관용적 표현을 관용어 라이브러리에 추가하여 관용어 라이브러리를 업데이트할 수 있다.

이어서, 프로세서(400)는 검출된 형태소의 조합에 매칭된 품사 태그의 조합을 관용어에 대응하는 품사 태그로 치환할 수 있다(S2103). 즉, 프로세서(400)는 관용어 라이브러리에 등록된 관용적 표현에 대응하는 형태소의 조합을 품사가 관용어인 하나의 형태소로 간주할 수 있다.

이처럼, 본 발명은 원문에 포함된 관용적 표현을 하나의 품사처럼 취급함으로써 원문에 포함된 복잡한 문장을 단순화 시킬 수 있다.

도 22는 태그를 보정하는 단계를 설명하기 위한 제3 순서도이다.

이하에서는 도 22를 참고하여, 태그를 보정하는 단계를 설명하도록 한다.

프로세서(400)는 기 설정된 사용자정의 고유명사 라이브러리에 등록된 명사형 단어의 조합과 동일한 명사형 단어의 조합을 원문에서 검출할 수 있다(S2201). 여기서, 동일성은 형태적 동일성(즉, 모양)을 의미할 수 있다. 사용자정의 고유명사 라이브러리에는 사용자에 의해 정의된 사용자정의 고유명사와, 사용자정의 고유명사에 대응하는 명사형 단어의 조합이 등록되어 있을 수 있다. 프로세서(400)는 사용자로부터 새로운 사용자정의 고유명사를 입력받고, 입력받은 사용자정의 고유명사를 사용자정의 고유명사 라이브러리에 추가하여 사용자정의 고유명사 라이브러리를 업데이트할 수 있다.

이어서, 프로세서(400)는 검출된 명사형 단어의 조합에 복합명사형 태그를 매칭시킬 수 있다(S2203). 즉, 프로세서(400)는 사용자정의 고유명사 라이브러리에 등록된 사용자정의 고유명사에 대응하는 명사형 단어의 조합을 복합 명사형 단어로 간주할 수 있다.

이처럼, 본 발명은 원문에 포함된 사용자정의 고유명사 그 자체를 하나의 복합 명사형 단어처럼 취급함으로써 원문에 포함된 복잡한 문장을 단순화시킬 수 있다.

도 23은 복문을 단문으로 변환하는 단계를 설명하기 위한 순서도이다.

이하에서는 도 23을 참고하여, 복문을 단문으로 변환하는 단계를 설명하도록 한다.

먼저, 프로세서(400)는 원문에 포함된 복문을 식별할 수 있다(S2301). 프로세서(400)는 복문에 대응하는 문장유형 태그가 매칭된 단어의 문장을 검출하여 복문으로 식별할 수 있다.

이어서, 프로세서(400)는 복문을 전문과 후문으로 분리할 수 있다(S2303). 식별된 복문에 포함된 서술어 중 연결형에 대응하는 서술어 태그가 매칭된 서술어에 기반하여 복문을 전문과 후문으로 분리할 수 있다. 프로세서(400)는 연결형 서술어를 포함하여 앞 문장 전체를 전문으로 구분하고, 뒷 문장 전체를 후문으로 구분할 수 있다. 복문이 3개 이상의 문장으로 이루어진 경우에도 전술한 방법과 동일한 방법으로 두 번째 문장과 세 번째 문장을 구분할 수 있다.

이어서, 프로세서(400)는 전문에서 기 설정된 유형의 서술어 태그가 매칭된 서술어를 대상 서술어로 식별할 수 있다(S2305). 여기서, 기 설정된 유형의 서술어 태그는 연결형에 대응하는 서술어 태그일 수 있다.

이어서, 프로세서(400)는 대상 서술어에 포함된 형태소 중 기 설정된 유형의 품사 태그가 매칭된 형태소를 제거할 수 있다(S2307). 여기서, 기 설정된 유형의 품사 태그는 연결 어미에 대응하는 품사 태그일 수 있다. 즉, 프로세서(400)는 대상 서술어에 포함된 연결 어미를 제거할 수 있다.

이어서, 프로세서(400)는 형태소가 제거된 위치에 종결 어미를 삽입할 수 있다(S2309). 프로세서(400)는 연결형에 대응하는 서술어 태그가 매칭된 서술어의 서술부 성분 또는 서술부 성분 바로 뒤에 위치한 선어말어미 뒤에 종결 어미를 삽입할 수 있다.

이어서, 프로세서(400)는 종결 어미 뒤에 마침표를 삽입할 수 있다(S2311).

이어서, 프로세서(400)는 마침표 뒤에 접속 부사를 삽입할 수 있다(S2313). 프로세서(400)는 제거된 연결 어미의 종류에 기반하여 마침표 뒤에 삽입할 접속 부사의 종류를 결정할 수 있다. 연결 어미의 종류에 따른 접속 부사가 미리 설정되어 메모리(300)에 저장되어 있을 수 있다. 예를 들어, 연결 어미의 종류가 “는데”인 경우, 프로세서(400)는 접속 부사로 “그런데”를 삽입할 수 있다. 연결 어미의 종류에 따른 접속 부사의 종류는 미리 설정되어 메모리(300)에 저장되어 있을 수 있다.

이어서, 프로세서(400)는 전문과 후문의 시제가 일치하도록 전문에 포함된 서술어의 시제를 보정할 수 있다(S2315). 프로세서(400)는 후문에 포함된 서술어 중 종결형에 대응하는 서술어 태그가 매칭된 서술어의 시제에 따라 전문에 포함된 서술어의 시제를 보정할 수 있다.

이어서, 프로세서(400)는 후문에 주어를 삽입할 수 있다(S2317). 복문을 단문으로 분리시킬 경우, 대부분의 경우 후문의 주어가 생략되어 있다. 따라서, 완전한 단문의 구성을 위해서는 후문에 주어를 추가하여야 한다. 프로세서(400)는 전문에서 진주어에 대응하는 주어 태그가 매칭된 단어의 조합을 식별하고, 식별된 단어의 조합을 접속 부사 바로 뒤에 삽입함으로써 후문에 주어를 추가할 수 있다. 한편, 전문에 진주어에 대응하는 주어 태그가 매칭된 단어의 조합이 존재하지 않는 경우, 프로세서(400)는 그 전문 직전 문장에서 진주어에 대응하는 주어 태그가 매칭된 단어의 조합을 식별하고, 식별된 단어의 조합을 접속 부사 바로 뒤에 삽입함으로써 후문에 주어를 추가할 수 있다.

한편, 프로세서(400)는 원문에서 단문을 식별하고, 식별된 단문에 진주어에 대응하는 주어 태그가 매칭된 형태소의 조합이 포함되어 있는지 판단하고, 단문에 진주어에 대응하는 주어 태그가 매칭된 형태소의 조합이 포함되어 있지 않은 경우, 직전 문장에서 진주어에 대응하는 주어 태그가 매칭된 형태소의 조합을 식별하고, 식별된 형태소의 조합을 해당 단문의 서두에 삽입시킴으로써 해당 단문에 주어를 추가할 수 있다.

전술한 바와 같이, 본 발명은 복문을 단문으로 변환시킴으로써 문장을 단순화시킬 수 있고, 생략된 문장성분을 보완하여 하나의 정제된 단문을 생성할 수 있으며, 이에 따라 영문으로의 변환 또는 임베딩용 학습데이터의 순도를 높일 수 있다.

상술한 바와 같이, 본 발명의 일 실시예에 따른 한글 단어 임베딩용 라이브러리 생성 방법은 원문을 형태소별로 분절하고, 분절된 형태소를 기 설정된 규칙에 따라 단계적으로 조합하고, 단계별 형태소의 조합이 갖는 형태론적 속성 또는 통사론적 속성에 따라 단계별 형태소의 조합에 태그를 매칭시키고, 단계별 형태소의 조합에 매칭된 태그에 기반하여 원문에 포함된 형태소를 분류하여 단어 임베딩용 라이브러리를 생성할 수 있다.

본 명세서에서 설명된 구현은, 예컨대, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현의 맥락에서만 논의(예컨대, 방법으로서만 논의)되었더라도, 논의된 특징의 구현은 또한 다른 형태(예컨대, 장치 또는 프로그램)로도 구현될 수 있다. 장치는 적절한 하드웨어, 소프트웨어 및 펌웨어 등으로 구현될 수 있다. 방법은, 예컨대, 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍가능한 로직 디바이스 등을 포함하는 프로세싱 디바이스를 일반적으로 지칭하는 프로세서 등과 같은 장치에서 구현될 수 있다. 프로세서는 또한 최종-사용자 사이에 정보의 통신을 용이하게 하는 컴퓨터, 셀 폰, 휴대용/개인용 정보 단말기(personal digital assistant: "PDA") 및 다른 디바이스 등과 같은 통신 디바이스를 포함한다.

본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며 당해 기술이 속하는 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

100: 입력 모듈
200: 출력 모듈
300: 메모리
400: 프로세서

Claims

프로세서를 포함하는 컴퓨팅 장치에서 수행되는 단어 임베딩용 라이브러리 생성 방법으로서,
한글로 구성된 원문을 입력받는 단계;
상기 원문을 형태소별로 분절하고, 상기 분절된 형태소를 기 설정된 규칙에 따라 단계적으로 조합하고, 단계별 형태소의 조합이 갖는 형태론적 속성 또는 통사론적 속성에 따라 상기 단계별 형태소의 조합에 태그를 매칭시키는 단계; 및
상기 단계별 형태소의 조합에 매칭된 태그에 기반하여 상기 원문에 포함된 형태소를 분류하여 단어 임베딩용 라이브러리를 생성하는 단계;를 포함하고,
상기 단계별 형태소의 조합은 단어, 복합 단어, 구, 복합 구, 절 및 복합 절을 포함하고,
상기 원문의 주제를 식별하는 단계;
상기 원문의 문체를 식별하는 단계; 및
상기 원문의 주제 및 문체에 따라 상기 생성된 단어 임베딩 라이브러리를 분류하는 단계;를 더 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 1항에 있어서,
상기 단계별 형태소의 조합에 태그를 매칭시키는 단계는,
품사에 따라 상기 분절된 형태소에 품사 태그를 매칭시키는 단계;
상기 품사 태그에 기반하여, 상기 원문에서 품사가 제1 유형인 제1 형태소, 또는 상기 제1 형태소와 다른 형태소의 조합으로 정의되는 명사형 단어를 식별하는 단계;
상기 명사형 단어에 매칭된 품사 태그에 기반하여 상기 명사형 단어의 유형을 판단하는 단계; 및
상기 명사형 단어의 유형에 따라 상기 명사형 단어에 명사형 태그를 매칭시키는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 2항에 있어서,
상기 단계별 형태소의 조합에 태그를 매칭시키는 단계는,
상기 명사형 태그에 기반하여, 상기 원문에서 명사형 단어와 제1 유형의 명사형 단어의 조합으로 정의되는 복합 명사형 단어를 상기 원문에서 식별하는 단계; 및
상기 복합 명사형 단어에 복합명사형 태그를 매칭시키는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 3항에 있어서,
상기 단계별 형태소의 조합에 태그를 매칭시키는 단계는,
상기 품사 태그에 기반하여, 상기 원문에서 품사가 제2 유형인 제2 형태소, 또는 상기 제2 형태소와 다른 형태소의 조합으로 정의되는 기본 서술형 단어를 식별하는 단계;
상기 제2 형태소에 매칭된 품사 태그에 기반하여 상기 기본 서술형 단어의 유형을 판단하는 단계;
상기 기본 서술형 단어의 유형에 따라 상기 기본 서술형 단어에 기본서술형 태그를 매칭시키는 단계;
상기 기본서술형 태그에 기반하여, 상기 원문에서 기본 서술형 단어 앞에 위치한 기본 서술형 단어로 정의되는 부연 서술형 단어를 식별하는 단계;
상기 부연 서술형 단어에 부연서술형 태그를 매칭시키는 단계;
상기 기본서술형 태그 및 부연서술형 태그에 기반하여, 상기 원문에서 상기 기본 서술형 단어와 상기 부연 서술형 단어의 조합으로 정의되는 서술형 단어를 식별하는 단계; 및
상기 서술형 단어에 포함된 기본 서술형 단어의 유형에 따라 상기 서술형 단어에 서술형 태그를 매칭시키는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 4항에 있어서,
상기 단계별 형태소의 조합에 태그를 매칭시키는 단계는,
상기 품사 태그 및 서술형 태그에 기반하여, 상기 원문에서 서술형 단어와 품사가 제3 유형인 제3 형태소의 조합으로 정의되는 명사구를 식별하는 단계;
상기 서술형 태그 및 상기 제3 형태소에 매칭된 품사 태그에 기반하여 상기 명사구의 유형을 판단하는 단계; 및
상기 명사구의 유형에 따라 상기 명사구에 명사구 태그를 매칭시키는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 5항에 있어서,
상기 단계별 형태소의 조합에 태그를 매칭시키는 단계는,
상기 명사구 태그에 기반하여, 상기 원문에서 명사구와 다른 명사구의 조합으로 정의되는 복합 명사구를 식별하는 단계; 및
상기 복합 명사구에 복합명사구 태그를 매칭시키는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 6항에 있어서,
상기 단계별 형태소의 조합에 태그를 매칭시키는 단계는,
상기 명사구 태그 및 품사 태그에 기반하여, 상기 원문에서 복합 명사형 단어, 명사형 단어 또는 명사구와, 품사가 제4 유형인 제4 형태소의 조합으로 정의되는 명사구의 종속성분을 식별하는 단계;
상기 제4 형태소에 매칭된 품사 태그에 기반하여 상기 종속성분의 유형을 판단하는 단계;
상기 종속성분의 유형에 따라 상기 종속성분에 종속성분 태그를 매칭시키는 단계;
상기 명사구 태그 및 종속성분 태그에 기반하여, 상기 원문에서 종속성분과 명사구의 조합으로 정의되는 명사절을 식별하는 단계;
상기 명사구 태그에 기반하여 상기 명사절의 유형을 판단하는 단계; 및
상기 명사절의 유형에 따라 상기 명사절에 명사절 태그를 매칭시키는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 7항에 있어서,
상기 단계별 형태소의 조합에 태그를 매칭시키는 단계는,
상기 명사구 태그 및 명사절 태그에 기반하여, 상기 원문에서 명사구와 명사절의 조합, 또는 명사절과 다른 명사절의 조합으로 정의되는 복합 명사절을 식별하는 단계; 및
상기 복합 명사절에 복합명사절 태그를 매칭시키는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 8항에 있어서,
상기 단계별 형태소의 조합에 태그를 매칭시키는 단계는,
자신이 포함된 문장에서 명사적 역할을 독자적으로 수행할 수 있는 복합 명사절, 명사절, 복합 명사구, 명사구, 복합 명사형 단어, 명사형 단어 또는 형태소로 정의되는 명사를 식별하는 단계; 및
상기 명사에 명사 태그를 매칭시키는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 9항에 있어서,
상기 단계별 형태소의 조합에 태그를 매칭시키는 단계는,
상기 서술형 태그 및 품사 태그에 기반하여, 상기 원문에서 서술형 단어와 품사가 제5 유형인 제5 형태소의 조합으로 정의되는 서술어를 식별하는 단계;
상기 서술어의 유형을 판단하는 단계; 및
상기 서술어의 유형에 따라 상기 서술어에 서술어 태그를 매칭시키는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 10항에 있어서,
상기 서술어의 유형을 판단하는 단계는,
상기 서술형 태그에 기반하여 상기 서술어의 1차 유형을 판단하는 단계;
상기 제5 형태소에 매칭된 품사 태그에 기반하여 상기 서술어의 2차 유형을 판단하는 단계;
상기 서술어의 뒤에 위치한 형태소에 기반하여 상기 서술어의 3차 유형을 판단하는 단계; 및
상기 서술어의 앞에 명사가 존재하는지 여부에 기반하여 서술어의 4차 유형을 판단하는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 10항에 있어서,
상기 단계별 형태소의 조합에 태그를 매칭시키는 단계는,
상기 명사 태그 및 품사 태그에 기반하여, 상기 원문에서 명사와 품사가 제6 유형인 제6 형태소의 조합으로 정의되는 제1 단어 조합을 식별하는 단계;
상기 제6 형태소에 매칭된 품사 태그에 기반하여 상기 제1 단어 조합의 문장성분을 판단하는 단계;
상기 서술어 태그에 기반하여, 상기 원문에서 서술어를 식별하는 단계; 및
상기 문장성분에 따라 상기 제1 단어 조합 및 서술어에 문장성분 태그를 매칭시키는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 12항에 있어서,
상기 원문에 포함된 문장이 주 문장인지 또는 종속 문장인지 여부에 따라 상기 문장에 문장 태그를 매칭시키는 단계;
상기 원문에 포함된 종속 문장의 유형에 따라 상기 종속 문장에 종속문장 태그를 매칭시키는 단계; 및
상기 문장이 단문인지 또는 복문인지 여부에 따라 상기 문장에 문장유형 태그를 매칭시키는 단계;를 더 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 13항에 있어서,
상기 문장 태그를 매칭시키는 단계는,
상기 원문에서 문장을 식별하는 단계;
상기 문장에서 주어에 대응하는 문장성분 태그가 매칭된 형태소의 조합을 검출하여 제2 단어 조합으로 식별하는 단계;
기 설정된 규칙에 따라 상기 제2 단어 조합의 유형을 판단하는 단계;
상기 제2 단어 조합의 유형에 따라 상기 제2 단어 조합에 주어 태그를 매칭시키는 단계;
상기 주어 태그 및 상기 문장에 포함된 서술어에 매칭된 서술어 태그에 기반하여, 상기 문장이 주 문장인지 또는 종속 문장인지 여부를 판단하는 단계; 및
상기 문장이 주 문장인지 또는 종속 문장인지 여부를 판단한 결과에 따라 상기 문장에 문장 태그를 매칭시키는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 14항에 있어서,
상기 종속문장 태그를 매칭시키는 단계는,
상기 문장 태그에 기반하여, 상기 원문에서 종속 문장을 식별하는 단계;
상기 종속 문장의 뒤에 기 설정된 유형의 서술어가 위치하는지 여부, 및 상기 종속 문장의 서술어에 포함된 제5 형태소의 종류에 따라 종속 문장의 유형을 판단하는 단계; 및
상기 종속 문장의 유형에 따라 상기 종속 문장에 상기 종속문장 태그를 매칭시키는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 14항에 있어서,
상기 문장유형 태그를 매칭시키는 단계는,
상기 문장 태그에 기반하여, 상기 원문에서 종속 문장을 식별하는 단계;
상기 문장에 포함된 서술어에 매칭된 서술어 태그에 기반하여 상기 문장이 단문인지 또는 복문인지 여부를 판단하는 단계; 및
상기 문장이 단문인지 또는 복문인지 여부를 판단한 결과에 따라 상기 문장에 문장유형 태그를 매칭시키는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 13항에 있어서,
상기 문장유형 태그를 매칭시키는 단계 이후에,
상기 원문에 포함된 형태소의 조합에 매칭된 태그를 보정하는 단계;
상기 원문에 포함된 복문을 단문으로 변환하는 단계; 및
상기 단계별 형태소의 조합에 태그를 매칭시키는 단계 중 일부를 다시 수행하는 단계;를 더 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 17항에 있어서,
상기 보정하는 단계는,
상기 원문에서 음이 동일하나 매칭된 태그가 서로 다른 형태소의 조합으로 정의되는 오류 단어 조합을 식별하는 단계;
상기 오류 단어 조합에 매칭된 태그를 출력하는 단계;
사용자로부터 상기 오류 단어 조합에 대한 보정 정보를 입력받는 단계; 및
상기 입력받은 보정 정보에 기반하여 상기 오류 단어 조합에 매칭된 태그를 보정하는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 17항에 있어서,
상기 보정하는 단계는,
상기 원문에서 기 설정된 관용어 라이브러리에 등록된 형태소의 조합과 동일한 형태소의 조합을 검출하는 단계; 및
상기 검출된 형태소의 조합에 매칭된 품사 태그의 조합을 관용어에 대응하는 품사 태그로 치환하는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
제 17항에 있어서,
상기 변환하는 단계는,
상기 원문에 포함된 복문을 식별하는 단계;
상기 복문을 전문과 후문으로 분리하는 단계;
상기 전문에 포함된 서술어를 식별하는 단계;
상기 서술어에 포함된 연결 어미를 제거하는 단계;
상기 연결 어미가 제거된 위치에 종결 어미를 삽입하는 단계;
상기 종결 어미 뒤에 마침표를 삽입하는 단계;
상기 마침표 뒤에 접속 부사를 삽입하는 단계;
상기 전문과 후문의 시제가 일치하도록 상기 전문에 포함된 서술어의 시제를 보정하는 단계; 및
상기 후문에 주어를 삽입하는 단계;를 포함하는 것을 특징으로 하는 단어 임베딩용 라이브러리 생성 방법.
삭제