KR20190064910A - Method for restoring Korean omitted components based on language model - Google Patents

Method for restoring Korean omitted components based on language model Download PDF

Info

Publication number
KR20190064910A
KR20190064910A KR1020170164239A KR20170164239A KR20190064910A KR 20190064910 A KR20190064910 A KR 20190064910A KR 1020170164239 A KR1020170164239 A KR 1020170164239A KR 20170164239 A KR20170164239 A KR 20170164239A KR 20190064910 A KR20190064910 A KR 20190064910A
Authority
KR
South Korea
Prior art keywords
sentence
candidate
restoration
language model
probability value
Prior art date
Application number
KR1020170164239A
Other languages
Korean (ko)
Other versions
KR102157390B1 (en
Inventor
임수종
김현기
김민호
류지희
배경만
배용진
왕지현
이형직
임준호
장명길
최미란
허정
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020170164239A priority Critical patent/KR102157390B1/en
Publication of KR20190064910A publication Critical patent/KR20190064910A/en
Application granted granted Critical
Publication of KR102157390B1 publication Critical patent/KR102157390B1/en

Links

Images

Classifications

    • G06F17/28
    • G06F17/271

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

The present invention relates to a method for restoring a Korean omitted component based on a language model. The method comprises: an input step of receiving a sentence; an analysis step of analyzing construction for the received sentence; a determination step of determining whether an omitted word exists through construction analysis; an extraction step of extracting a restoration candidate word in the sentence for a phrase not directly related to a result of the construction analysis if the omitted word exists in the determination step; a language model applying step of generating configurable restoration candidate sentences using components in which omitted components exist; and an omission target determination step of calculating a configuration probability value for each generated restoration candidate sentence and selecting a restoration candidate sentence using the calculated configuration probability value.

Description

언어모델에 기반한 한국어 생략 성분 복원 방법{Method for restoring Korean omitted components based on language model}Method for restoring Korean omitted components based on language model [

본 발명은 한국어 생략 성분 복원 방법 및 장치에 관한 것으로, 더욱 상세하게는 언어모델을 사용하여 생략된 단어를 복원하기 위해 장치 및 방법에 관한 것이다. BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and apparatus for restoring a Korean abbreviated component, and more particularly, to an apparatus and method for restoring an omitted word using a language model.

한국어는 어순이 자유로울 뿐 아니라, 문장을 이루기 위해서 반드시 필요한 주어, 목적어 같은 성분도 생략되는 현상이 빈번한 언어이다. 이러한 생략 현상 때문에, 한국어에서 용언 중심으로 정보를 추출할 경우 다음과 같은 문제가 발생한다. Korean is not only free from the order of words, but also has a frequent phenomenon in which omitted elements such as subject and object, which are necessary to form a sentence, are omitted. Due to such an omission phenomenon, the following problems arise when information is extracted in Korean from a vernacular center.

예를 들어, "대통령은 남항국민학교를 졸업하고, 경남중학교에 입학하였다."라는 문장에서 용언을 중심으로 정보를 추출할 경우, "졸업하다(대통령 : 주어, 남항국민학고 : 목적어)", "입학하다(?? : 주어, 경남중학교)와 같은 형태가 되어, 경남중학교에 입학한 주어가 누구인지를 알 수가 없게 되어 정보의 완전성이 결여되는데, 이러한 생략된 성분을 복원하는 것이 생략복원 기술이다. For example, in the case of extracting information based on a verb in the sentence "The President graduated from Namhang Elementary School and entered Kyungnam Junior High School", the words "Graduation (President: Subject, It is the same shape as entrance (??: subject, Gyeongnam middle school), and it is impossible to know who is the subject who entered Gyeongnam middle school and lacks information integrity. .

기본적으로 생략된 성분은 같은 문장에 존재하지만, 다음과 같은 경우에는 생략된 성분이 존재해도 복원할 수 없는 경우도 있다. Basically omitted components exist in the same sentence, but in some cases the omitted components can not be restored even if they exist.

예를 들어, "공납은 호구 수가 아닌 토지를 기준으로 부과하였다."라는 문장에서 '부과하였다'의 주어는 생략되어 있지만, 문장 내에서는 부과한 주어가 어떤 단어인지 찾을 수 없다. 즉, 어떠한 문장 성분이 생략되었다 하더라도 무조건 복원을 하는 것이 아닌 경우도 존재한다. For example, the subject of "imposed" is omitted in the sentence "The imputation is based on the land, not the number of hutongs", but the subject which is imposed can not be found in the sentence. In other words, there is a case where unconditional restoration is not performed even if any sentence component is omitted.

종래 기술은 생략 성분을 복원함에 있어, 규칙을 사용하거나, 학습데이터에 기반하는 기계학습 기법을 사용하여 이를 분류 문제로 접근하였다. The prior art approaches classification problems by using rules or using machine learning techniques based on learning data in restoring omitted components.

그러나 종래 규칙을 사용하는 방법은 확장성에 문제가 있고, 다양한 한국어 현상에 모두 대처하는 규칙을 구축하는 것도 쉽지 않은 문제이다. However, there is a problem in scalability using the conventional rule, and it is not easy to construct a rule for coping with various Korean phenomena.

그리고 종래 기계학습을 이용한 방법은 학습 데이터를 구축하는데 시간, 비용이 많이 소요되는 문제가 있다. The conventional method using the machine learning has a problem in that it takes much time and cost to construct learning data.

본 발명은 종래 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 단어 순서에 대한 확률 분포로 n개의 단어가 주어졌을 때, 이 단어들의 순서(즉, 문장)가 나타날 확률을 판별해 주는 언어모델을 이용하여 한국어 문장에서 생략된 성분을 복원하는 언어모델에 기반한 한국어 생략 성분 복원 방법 및 장치를 제공하고자 한다. SUMMARY OF THE INVENTION The present invention has been made in order to solve the conventional problems, and it is an object of the present invention to provide a language for discriminating the probability that a sequence (that is, a sentence) of the words appears when n words are given as a probability distribution of word order A method and an apparatus for restoring Korean omitted components based on a language model for restoring omitted components in a Korean sentence using a model.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The objects of the present invention are not limited to the above-mentioned objects, and other objects not mentioned can be clearly understood by those skilled in the art from the following description.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 장치는 문장을 입력받는 입력부; 상기 입력부를 통해 입력된 문장에 대한 구문을 분석하는 분석부; 상기 분석부를 통해 분석된 구문 중 생략된 단어가 존재하는지 판단하는 판단부; 상기 판단부를 통해 생략된 단어가 존재함을 확인하면, 구문 분석 결과 직접 관련이 없는 어구를 대상으로 문장 내에서 복원 후보 단어를 추출하는 추출부; 상기 추출부를 통해 생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성하는 문장 후보 생성부; 및 상기 문장 후보 생성부를 통해 생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택하는 생략 대상 결정부;를 포함한다. According to an aspect of the present invention, there is provided an apparatus for restoring a Korean omitted component based on a language model, the apparatus comprising: an input unit receiving a sentence; An analysis unit for analyzing a syntax of a sentence input through the input unit; A determination unit for determining whether an omitted word exists among the analyzed sentences through the analysis unit; An extraction unit for extracting a restoration candidate word in a sentence with respect to a phrase that is not directly related to the result of the syntax analysis, when it is confirmed through the determination unit that an omitted word exists; A sentence candidate generating unit for generating restructured candidate sentences that can be configured using components having the omitted components through the extracting unit; And an omission decision unit for calculating a configuration probability value for each restoration candidate sentence generated through the sentence candidate generation unit and selecting a restoration candidate sentence using the calculated configuration probability value.

상기 판단부는, 구문 분석된 결과를 바탕으로 용언의 주어, 목적어와 같은 성분이 생략되었는지를 판단하고, 상기 추출부는, 복원 대상이 주어인 경우, 문장의 맨 앞에 복원 후보를 위치시키고, 복원 대상이 주어가 아닌 경우, 용언 바로 앞에 위치시키는 것이 바람직하다. Wherein the judging unit judges whether or not a component such as subject and object of the verb is omitted based on the parsed result and the extracting unit positions the restoration candidate at the head of the sentence when the restoration target is the subject, If it is not a subject, it is preferable to place it in front of the forehead.

그리고 상기 생략 대상 결정부는, 언어 모델의 확률 값을 문장의 길이로 나눈 값을 최종 확률 값으로 결정하는 것이 바람직하다. The omission destination determining unit may determine a value obtained by dividing the probability value of the language model by the length of the sentence as a final probability value.

본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 방법은 문장을 입력받는 입력 단계; 입력된 문장에 대한 구문을 분석하는 분석 단계; 구문 분석을 통해 생략된 단어가 존재하는지 판단하는 판단 단계; 상기 판단 단계에서 생략된 단어가 존재하면, 구문 분석 결과 직접 관련이 없는 어구를 대상으로 문장 내에서 복원 후보 단어를 추출하는 추출 단계; 생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성하는 언어모델 적용 단계; 및 생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택하는 생략 대상 결정 단계;를 포함한다. According to an embodiment of the present invention, there is provided a method for restoring a Korean omitted component based on a language model, the method comprising: inputting a sentence; An analysis step of analyzing the syntax of the inputted sentence; A determination step of determining whether an omitted word exists through a syntax analysis; An extraction step of extracting a restoration candidate word in a sentence with respect to a phrase that is not directly related as a result of a syntax analysis if a word omitted in the determination step exists; A language model application step of generating restorative candidate sentences that can be configured using components in which an omitted component exists; And an omission target determination step of calculating a configuration probability value for each generated restoration candidate sentence and selecting a restoration candidate sentence using the calculated configuration probability value.

상기 판단하는 단계는, 구문 분석된 결과를 바탕으로 용언의 주어, 목적어와 같은 성분이 생략되었는지를 판단하는 것이 바람직하다. It is preferable that the determining step determines whether or not a component such as subject and object of the verb is omitted based on the result of parsing.

그리고 상기 언어모델 적용 단계는, 복원 대상이 주어인 경우, 문장의 맨 앞에 복원 후보를 위치시키고, 복원 대상이 주어가 아닌 경우, 용언 바로 앞에 위치시키는 것이 바람직하다. In the case where the restoration target is the subject, the restoration candidate is positioned at the front of the sentence, and when the restoration target is not the subject, the language model application step is preferably positioned in front of the word.

또한 상기 생략 대상 결정 단계는, 언어 모델의 확률 값을 문장의 길이로 나눈 값을 최종 확률 값으로 결정하는 것이 바람직하다. It is also preferable that the omission target determining step determines a value obtained by dividing the probability value of the language model by the length of the sentence as a final probability value.

본 발명의 일 실시예에 따르면, 질의응답, 정보추출, 문서 요약 시스템에서 생략된 주어나 목적어 등 주요 성분을 복원하여 추출하고, 해당 시스템의 정보 품질 향상 효과를 기대할 수 있는 효과가 있다.According to one embodiment of the present invention, major components such as a query response, an information extraction, and a subject or object omitted in the document summary system are restored and extracted, and the effect of improving the information quality of the corresponding system can be expected.

그리고 본 발명의 일 실시예에 따르면, 자동번역 시스템에서 생략현상을 허용하지 않는 언어(예:영어)로 번역을 할 경우, 한국어 생략 성분을 복원하지 않으면 완전한 번역이 불가능하기 때문에 생략성분 복원을 통해 번역 품질 향상 효과를 기대할 수 있다. According to an embodiment of the present invention, when a translation is performed in a language (e.g., English) that does not allow an omission phenomenon in an automatic translation system, a complete translation is not possible unless the omission component is restored. The translation quality improvement effect can be expected.

또한, 본 발명의 일 실시예에 따르면, 생략복원 기술을 개발함에 있어, 인터넷에서 쉽게 구할 수 있는 한국어 문장으로 구축된 언어모델을 사용하기 때문에, 종래 기술과 다르게 학습데이터나 규칙을 위한 언어자원 구축 시간 및 비용을 절감할 수 있는 장점이 있다.In addition, according to the embodiment of the present invention, since the language model constructed with Korean sentences easily available on the Internet is used in developing the omission recovery technology, language resources for learning data and rules It has the advantage of saving time and money.

도 1은 본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 장치를 설명하기 위한 기능블럭도.
도 2는 본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 방법을 설명하기 위한 순서도이다.
1 is a functional block diagram for explaining a Korean omnipresent component restoration apparatus based on a language model according to an embodiment of the present invention.
2 is a flowchart illustrating a method for restoring a Korean omitted component based on a language model according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the present invention and the manner of achieving them will become apparent with reference to the embodiments described in detail below with reference to the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as being limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the scope of the invention to those skilled in the art. Is provided to fully convey the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims. It is to be understood that the terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. In the present specification, the singular form includes plural forms unless otherwise specified in the specification. As used herein, the terms " comprises, " and / or "comprising" refer to the presence or absence of one or more other components, steps, operations, and / Or additions.

이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 장치를 설명하기 위한 기능블럭도이다. FIG. 1 is a functional block diagram for explaining a Korean omission component restoration apparatus based on a language model according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 장치는 입력부(110), 분석부(120), 판단부(130), 추출부(140), 문장 후보 생성부(150) 및 생략 대상 결정부(160)를 포함하여 이루어진다. 1, an apparatus for restoring Korean omnipola components based on a language model according to an embodiment of the present invention includes an input unit 110, an analysis unit 120, a determination unit 130, an extraction unit 140, A candidate generating unit 150 and an omission destination determining unit 160. [

입력부(110)는 문장을 입력받는 역할을 한다. The input unit 110 serves to receive a sentence.

그리고 분석부(120)는 문장 구조에서 주어, 목적어 등을 파악하여 생략 여부를 판단하는 기본적인 분석 정보를 획득할 수 있도록, 입력부(110)를 통해 입력된 문장에 대한 구문을 분석하는 역할을 한다. The analysis unit 120 analyzes the syntax of the sentence input through the input unit 110 in order to acquire basic analysis information for determining whether or not to omit the subject in the sentence structure.

또한, 판단부(130)는 분석부(120)를 통해 분석된 구문 중 생략된 단어가 존재하는지 판단하는 역할을 한다. 본 발명의 일 실시예에 채용된 판단부(130)는, 구문 분석된 결과를 바탕으로 용언의 주어, 목적어와 같은 성분이 생략되었는지를 판단하는 것이 바람직하다. In addition, the determination unit 130 determines whether there is an omitted word among the analyzed sentences through the analysis unit 120. The determination unit 130 employed in the embodiment of the present invention preferably determines whether or not the components such as the subject and object of the verb are omitted based on the result of the parsing.

추출부(140)는 상기 판단부(130)를 통해 생략된 단어가 존재함을 확인하면, 구문 분석 결과 직접 관련이 없는 명사(구)를 대상으로 문장 내에서 복원 후보 단어를 추출하는 역할을 한다. The extracting unit 140 extracts restoration candidate words in the sentence with respect to nouns (phrases) not directly related to the result of the syntax analysis, when it is confirmed that the omitted words are present through the determination unit 130 .

그리고 문장 후보 생성부(150)는 상기 추출부(140)를 통해 생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성하는 역할을 한다. The sentence candidate generating unit 150 generates restoration candidate sentences that can be configured using the components having the omitted components through the extracting unit 140.

또한, 생략 대상 결정부(160)는 상기 문장 후보 생성부(150)를 통해 생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택하는 역할을 한다. The omitted object determining unit 160 calculates a constituent probability value for each restored candidate sentence generated through the sentence candidate generating unit 150 and selects a restored candidate sentence using the calculated constructed probability value It plays a role.

본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 장치에 대하여 하기의 예를 참조하여 설명하기로 한다. An apparatus for restoring a Korean omission component based on a language model according to an embodiment of the present invention will be described with reference to the following examples.

먼저, 입력부(110)를 통해, "대통령은 남항국민학교를 졸업하고, 경남중학교에 입학하였다."와 같은 문장을 입력받는다.First, through the input unit 110, a sentence such as "the president graduates from the south port primary school and has entered the middle school of Kyungnam."

그러면, 분석부(120)는 "대통령은"은 주어, "남항국민학교를"은 목적어, "졸업하고"는 서술어로 판단하고, "입학하였다"는 서술어로 분석한다. Then, the analysis unit 120 analyzes the term "president" as a subject, "south river primary school as an object", "predicate" as a predicate, and the phrase "entered".

이후, 판단부(130)는 분석된 구문 중, "졸업하고"에 대하여 주어와 목적어가 모두 존재하여 생략 성분이 없다고 판단하고, "입학하였다"는 구분 분석 결과 주어가 탐지되지 않기 때문에 주어를 복원해야함을 판단할 수 있다. Then, the judging unit 130 judges that there is no omission component in both the subject and the object in relation to the "graduated" in the analyzed phrase, and the subject is not detected because the category analysis result of " It can be judged that it is necessary.

이에, 추출부(140)는 판단부(130)를 통해 "대통령은 남항국민학교를 졸업하고"와 같은 문장에 생략된 성분이 없다고 판단하여 주어가 생략된 다음 문장 즉, "경남중학교에 입학하였다"에 대하여 복원 후보를 추출하게 된다. Accordingly, the extraction unit 140 determines that there is no omitted element in the sentence such as "the president has graduated from the south port primary school" through the determination unit 130, and the following sentence in which the subject is omitted is " The restoration candidate is extracted.

이를 위해, 추출부(140)는 "대통령은", "남항국민학교를", 경남중학교에"와 같은 구문을 후보로 추출한다. To this end, the extraction unit 140 extracts phrases such as "President "," Namhang elementary school ", and "

다만, 추출부(140)는 "경남중학교에"는 구문분석 결과 "입학하였다"와 직접적인 관련이 있기 때문에, 제외하고, 복원 후보로 "대통령은"과 "남항국민학교를"를 채택한다. However, the extraction unit 140 adopts the "presidential" and "south port primary school" as the restoration candidates, except that it is directly related to the "entrance to the Kyungnam Middle School" as a result of the phrase analysis.

이후, 문장 후보 생성부(150)는 추출부(140)를 통해 생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성한다. Thereafter, the sentence candidate generating unit 150 generates restoration candidate sentences that can be configured by using the components having the omitted components through the extracting unit 140.

예를 들어, 문장 후보 생성부(150)는 1) "경남중학교에 입학하였다.", 2) 대통령이(주어) 경남중학교에 입학하였다. 3) "남항국민학교가(주어) 경남중학교에 입학하였다."와 같은 문장들을 생성한다. 즉, 1) 문장은 복원을 하지 않은 그대로의 문장이고, 2) 문장은 '대통령은'을 복원한 문장이며, 3) 문장은 '남항국민학교를'을 복원한 문장이다. For example, the sentence candidate generation unit 150 1) entered "Kyungnam Junior High School." 2) The President entered the Kyungnam Middle School. 3) Generate sentences such as "Namhang elementary school entered the (subject) Gyeongnam middle school." In other words, 1) sentence is a sentence without restoration, 2) sentence is a restored sentence of 'President', and 3) sentence is a sentence restoring 'south port primary school'.

이때 복원 대상이 주어일 경우는 문장의 맨 앞에 복원 후보를 위치시키고, 그렇지 않을 경우 용언 바로 앞에 위치시킨다. In this case, if the restoration target is given, the restoration candidate is positioned at the front of the sentence, and if not, the restoration candidate is positioned in front of the word.

만약, 주격조사, 목적격 조사가 필요한 경우에는 이에 맞게 교체하여 준다. 예문에서 원 단어는 '남항국민학교를' 이지만, '를'의 경우 목적격 조사이고, 필요한 것을 주격 조사이기 때문에 '남항국민학교가'로 교체하여 복원 후보 문장을 생성한다. If there is a need to investigate personality or objectivity, please replace it. In the example sentence, the original word is 'Namhang Elementary School', but in case of 'U', it is the object survey.

이후, 생략 대상 결정부(160)는 문장 후보 생성부(150)를 통해 생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택한다. Hereinafter, the omitted object determining unit 160 calculates a constituent probability value for each of the restored candidate sentences generated through the sentence candidate generator 150, and selects a restored candidate sentence using the calculated constituent probability values.

즉, 생략 대상 결정부(160)는 각 복원 후보 문장에 대해 언어모델을 적용하여 각 문장들이 문장을 구성할 확률을 알 수 있다. That is, the omission-target determining unit 160 can apply a language model to each restoration candidate sentence to know the probability that each sentence constitutes a sentence.

따라서, 생략 대상 결정부(160)는 각 후보 문장을 대상으로 하여 계산된 확률을 이용하여 확률이 가장 높은 복원 후보 문장을 선택하고, 만약 복원하지 않은 원문장이 가장 확률이 높으면 '복원 불필요', 그렇지 않은 경우는 해당 복원 후보와 주어 목적어 등의 복원 격 정보를 같이 출력하고 종료하여 다음 문장을 처리한다. Therefore, the omitted object determining unit 160 selects the restored candidate sentence having the highest probability by using the calculated probability for each candidate sentence, and if the original sentence that has not been restored has the highest probability, " restoration unnecessary & The restoration information such as the restoration candidate and the subject object is outputted together, and the next sentence is processed.

이와 같이, 생략 대상 결정부(160)는 언어모델 특성상 문장의 길이에 따라 확률 값이 달라지기 때문에, 정확한 비교를 위해서는 정규화 과정이 필요하기 때문에 언어모델의 확률값을 문장의 길이로 나눈 값을 최종 확률 값으로 결정한다. Since the normalization process is required for the accurate comparison, the omission decision unit 160 divides the probability value of the language model by the length of the sentence, so that the final probability Value.

본 발명의 일 실시예에 따르면, 질의응답, 정보추출, 문서 요약 시스템에서 생략된 주어나 목적어 등 주요 성분을 복원하여 추출하고, 해당 시스템의 정보 품질 향상 효과를 기대할 수 있는 효과가 있다.According to one embodiment of the present invention, major components such as a query response, an information extraction, and a subject or object omitted in the document summary system are restored and extracted, and the effect of improving the information quality of the corresponding system can be expected.

그리고 본 발명의 일 실시예에 따르면, 자동번역 시스템에서 생략현상을 허용하지 않는 언어(예:영어)로 번역을 할 경우, 한국어 생략 성분을 복원하지 않으면 완전한 번역이 불가능하기 때문에 생략성분 복원을 통해 번역 품질 향상 효과를 기대할 수 있다. According to an embodiment of the present invention, when a translation is performed in a language (e.g., English) that does not allow an omission phenomenon in an automatic translation system, a complete translation is not possible unless the omission component is restored. The translation quality improvement effect can be expected.

또한, 본 발명의 일 실시예에 따르면, 생략복원 기술을 개발함에 있어, 인터넷에서 쉽게 구할 수 있는 한국어 문장으로 구축된 언어모델을 사용하기 때문에, 종래 기술과 다르게 학습데이터나 규칙을 위한 언어자원 구축 시간 및 비용을 절감할 수 있는 장점이 있다.In addition, according to the embodiment of the present invention, since the language model constructed with Korean sentences easily available on the Internet is used in developing the omission recovery technology, language resources for learning data and rules It has the advantage of saving time and money.

도 2는 본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 방법을 설명하기 위한 순서도이다. 2 is a flowchart illustrating a method for restoring a Korean omitted component based on a language model according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 먼저 문장을 입력받는다(S110). 즉, 입력부(110)를 통해, "대통령은 남항국민학교를 졸업하고, 경남중학교에 입학하였다."와 같은 문장을 입력받는다. As shown in FIG. 2, a sentence is input first (S110). That is, through the input unit 110, a sentence such as "the president graduates from the south port primary school and enters the gyeongnam middle school"

이어서, 입력된 문장에 대한 구문을 분석한다(S120). 그러면, 분석부(120)는 "대통령은"은 주어, "남항국민학교를"은 목적어, "졸업하고"는 서술어로 판단하고, "입학하였다"는 서술어로 분석한다. Then, the syntax of the input sentence is analyzed (S120). Then, the analysis unit 120 analyzes the term "president" as a subject, "south river primary school as an object", "predicate" as a predicate, and the phrase "entered".

이후, 구문 분석을 통해 생략된 단어가 존재하는지 판단한다(S130). 즉, 판단부(130)는 분석된 구문 중, "졸업하고"에 대하여 주어와 목적어가 모두 존재하여 생략 성분이 없다고 판단하고, "입학하였다"는 구분 분석 결과 주어가 탐지되지 않기 때문에 주어를 복원해야함을 판단할 수 있다. 이와 같이, 상기 판단하는 단계(S130)는, 구문 분석된 결과를 바탕으로 용언의 주어, 목적어와 같은 성분이 생략되었는지를 판단하는 것이 바람직하다. Thereafter, it is determined whether an omitted word exists through the syntax analysis (S130). That is, the judging unit 130 judges that there is no omission component due to both the subject and the object exist in the analyzed phrase "graduate ", and the subject is not detected because the classification result analysis result of" It can be judged that it is necessary. As described above, it is preferable that the determining step (S130) determines whether or not the components such as subject and object of the verb are omitted based on the result of the parsing.

상기 판단 단계(S130)에서 생략된 단어가 존재하면(YES), 구문 분석 결과 직접 관련이 없는 명사(구)를 대상으로 문장 내에서 복원 후보 단어를 추출한다(S140). 즉, 상기 언어모델 적용 단계(S140)는 복원 대상이 주어인 경우, 문장의 맨 앞에 복원 후보를 위치시키고, 복원 대상이 주어가 아닌 경우 용언 바로 앞에 위치시킨다. If there is a word omitted in the determination step (S130) (YES), a restoration candidate word is extracted in a sentence with respect to a noun (phrase) not directly related to the result of the parsing (S140). That is, if the restoration target is the subject, the language model application step (S140) positions the restoration candidate at the head of the sentence, and places the restoration candidate immediately before the restoration target.

이에, 추출부(140)는 판단부(130)를 통해 "대통령은 남항국민학교를 졸업하고"와 같은 문장에 생략된 성분이 없다고 판단하여 주어가 생략된 다음 문장 즉, "경남중학교에 입학하였다"에 대하여 복원 후보를 추출하게 된다. Accordingly, the extraction unit 140 determines that there is no omitted element in the sentence such as "the president has graduated from the south port primary school" through the determination unit 130, and the following sentence in which the subject is omitted is " The restoration candidate is extracted.

이를 위해, 추출부(140)는 "대통령은", "남항국민학교를", 경남중학교에"와 같은 구문을 후보로 추출한다. To this end, the extraction unit 140 extracts phrases such as "President "," Namhang elementary school ", and "

다만, 추출부(140)는 "경남중학교에"는 구문분석 결과 "입학하였다"와 직접적인 관련이 있기 때문에, 제외하고, 복원 후보로 "대통령은"과 "남항국민학교를"를 채택한다. However, the extraction unit 140 adopts the "presidential" and "south port primary school" as the restoration candidates, except that it is directly related to the "entrance to the Kyungnam Middle School" as a result of the phrase analysis.

이어서, 생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성한다(S150). 이후, 문장 후보 생성부(150)는 추출부(140)를 통해 생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성한다. Then, restructured candidate sentences that can be configured using the components in which the omitted components exist are generated (S150). Thereafter, the sentence candidate generating unit 150 generates restoration candidate sentences that can be configured by using the components having the omitted components through the extracting unit 140.

예를 들어, 문장 후보 생성부(150)는 1) "경남중학교에 입학하였다.", 2) 대통령이(주어) 경남중학교에 입학하였다. 3) "남항국민학교가(주어) 경남중학교에 입학하였다."와 같은 문장들을 생성한다. 즉, 1) 문장은 복원을 하지 않은 그대로의 문장이고, 2) 문장은 '대통령은'을 복원한 문장이며, 3) 문장은 '남항국민학교를'을 복원한 문장이다. For example, the sentence candidate generation unit 150 1) entered "Kyungnam Junior High School." 2) The President entered the Kyungnam Middle School. 3) Generate sentences such as "Namhang elementary school entered the (subject) Gyeongnam middle school." In other words, 1) sentence is a sentence without restoration, 2) sentence is a restored sentence of 'President', and 3) sentence is a sentence restoring 'south port primary school'.

이때 복원 대상이 주어일 경우는 문장의 맨 앞에 복원 후보를 위치시키고, 그렇지 않을 경우 용언 바로 앞에 위치시킨다. In this case, if the restoration target is given, the restoration candidate is positioned at the front of the sentence, and if not, the restoration candidate is positioned in front of the word.

만약, 주격조사, 목적격 조사가 필요한 경우에는 이에 맞게 교체하여 준다. 예문에서 원 단어는 '남항국민학교를' 이지만, '를'의 경우 목적격 조사이고, 필요한 것을 주격 조사이기 때문에 '남항국민학교가'로 교체하여 복원 후보 문장을 생성한다. If there is a need to investigate personality or objectivity, please replace it. In the example sentence, the original word is 'Namhang Elementary School', but in case of 'U', it is the object survey.

이후, 생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택한다(S160). 이후, 생략 대상 결정부(160)는 문장 후보 생성부(150)를 통해 생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택한다. Thereafter, a construction probability value for each generated restoration candidate sentence is calculated, and a restoration candidate sentence is selected using the calculated construction probability value (S160). Hereinafter, the omitted object determining unit 160 calculates a constituent probability value for each of the restored candidate sentences generated through the sentence candidate generator 150, and selects a restored candidate sentence using the calculated constituent probability values.

즉, 생략 대상 결정부(160)는 각 복원 후보 문장에 대해 언어모델을 적용하여 각 문장들이 문장을 구성할 확률을 알 수 있다. That is, the omission-target determining unit 160 can apply a language model to each restoration candidate sentence to know the probability that each sentence constitutes a sentence.

따라서, 생략 대상 결정부(160)는 각 후보 문장을 대상으로 하여 계산된 확률을 이용하여 확률이 가장 높은 복원 후보 문장을 선택하고, 만약 복원하지 않은 원문장이 가장 확률이 높으면 '복원 불필요', 그렇지 않은 경우는 해당 복원 후보와 주어 목적어 등의 복원 격 정보를 같이 출력하고 종료하여 다음 문장을 처리한다. Therefore, the omitted object determining unit 160 selects the restored candidate sentence having the highest probability by using the calculated probability for each candidate sentence, and if the original sentence that has not been restored has the highest probability, " restoration unnecessary & The restoration information such as the restoration candidate and the subject object is outputted together, and the next sentence is processed.

이와 같이, 생략 대상 결정부(160)는 언어모델 특성상 문장의 길이에 따라 확률 값이 달라지기 때문에, 정확한 비교를 위해서는 정규화 과정이 필요하기 때문에 언어모델의 확률값을 문장의 길이로 나눈 값을 최종 확률 값으로 결정한다. Since the normalization process is required for the accurate comparison, the omission decision unit 160 divides the probability value of the language model by the length of the sentence, so that the final probability Value.

이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진 자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다. While the present invention has been described in detail with reference to the accompanying drawings, it is to be understood that the invention is not limited to the above-described embodiments. Those skilled in the art will appreciate that various modifications, Of course, this is possible. Accordingly, the scope of protection of the present invention should not be limited to the above-described embodiments, but should be determined by the description of the following claims.

110 : 입력부 120 : 분석부
130 : 판단부 140 : 추출부
150 : 문장 후보 생성부 160 : 생략 대상 결정부
110: input unit 120:
130: determination unit 140:
150: sentence candidate generation unit 160: omission target determination unit

Claims (1)

문장을 입력받는 입력 단계;
입력된 문장에 대한 구문을 분석하는 분석 단계;
구문 분석을 통해 생략된 단어가 존재하는지 판단하는 판단 단계;
상기 판단 단계에서 생략된 단어가 존재하면, 구문 분석 결과 직접 관련이 없는 어구를 대상으로 문장 내에서 복원 후보 단어를 추출하는 추출 단계;
생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성하는 언어모델 적용 단계; 및
생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택하는 생략 대상 결정 단계;를 포함하는 언어모델에 기반한 한국어 생략 성분 복원 방법.

An input step of inputting a sentence;
An analysis step of analyzing the syntax of the inputted sentence;
A determination step of determining whether an omitted word exists through a syntax analysis;
An extraction step of extracting a restoration candidate word in a sentence with respect to a phrase that is not directly related as a result of a syntax analysis if a word omitted in the determination step exists;
A language model application step of generating restorative candidate sentences that can be configured using components in which an omitted component exists; And
Determining a restoration candidate sentence by using the calculated construction probability value; and calculating a construction probability value for each generated restoration candidate sentence and selecting a restoration candidate sentence based on the calculated construction probability value.

KR1020170164239A 2017-12-01 2017-12-01 Method for restoring Korean omitted components based on language model KR102157390B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170164239A KR102157390B1 (en) 2017-12-01 2017-12-01 Method for restoring Korean omitted components based on language model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170164239A KR102157390B1 (en) 2017-12-01 2017-12-01 Method for restoring Korean omitted components based on language model

Publications (2)

Publication Number Publication Date
KR20190064910A true KR20190064910A (en) 2019-06-11
KR102157390B1 KR102157390B1 (en) 2020-09-18

Family

ID=66846834

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170164239A KR102157390B1 (en) 2017-12-01 2017-12-01 Method for restoring Korean omitted components based on language model

Country Status (1)

Country Link
KR (1) KR102157390B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102621869B1 (en) * 2023-04-24 2024-01-05 고려대학교 산학협력단 Device and method for constructing dataset in korean document-level relation extraction

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100641053B1 (en) * 2005-10-06 2006-11-02 한국전자통신연구원 Apparatus and method for restoration of ellipsis statement constituent
KR100725723B1 (en) * 2005-12-09 2007-06-08 한국전자통신연구원 Method and apparatus for recovering omitted component of korean subject using conjunctive ending restriction
KR100805191B1 (en) * 2006-09-20 2008-02-21 한국전자통신연구원 Ellipsis component restoration method and apparatus in korean sentence
KR20120105063A (en) * 2010-12-16 2012-09-25 한국전자통신연구원 Method of recovering omitted component based on sentence features information and apparatus for the same
JP2014521158A (en) * 2011-07-14 2014-08-25 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 Text input method, apparatus, and system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100641053B1 (en) * 2005-10-06 2006-11-02 한국전자통신연구원 Apparatus and method for restoration of ellipsis statement constituent
KR100725723B1 (en) * 2005-12-09 2007-06-08 한국전자통신연구원 Method and apparatus for recovering omitted component of korean subject using conjunctive ending restriction
KR100805191B1 (en) * 2006-09-20 2008-02-21 한국전자통신연구원 Ellipsis component restoration method and apparatus in korean sentence
KR20120105063A (en) * 2010-12-16 2012-09-25 한국전자통신연구원 Method of recovering omitted component based on sentence features information and apparatus for the same
JP2014521158A (en) * 2011-07-14 2014-08-25 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 Text input method, apparatus, and system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102621869B1 (en) * 2023-04-24 2024-01-05 고려대학교 산학협력단 Device and method for constructing dataset in korean document-level relation extraction

Also Published As

Publication number Publication date
KR102157390B1 (en) 2020-09-18

Similar Documents

Publication Publication Date Title
US20140067379A1 (en) Automatic sentence evaluation device using shallow parser to automatically evaluate sentence, and error detection apparatus and method of the same
US20190013012A1 (en) System and method for learning sentences
Opitz et al. Dissecting content and context in argumentative relation analysis
Tesfaye A rule-based Afan Oromo Grammar Checker
KR101836996B1 (en) Apparatus and the method for automatic detecting error of annotated corpus using rough set
Dubossarsky et al. Coming to your senses: on controls and evaluation sets in polysemy research
JP2018206262A (en) Word linking identification model learning device, word linking detection device, method and program
Schwarzer et al. Human evaluation for text simplification: The simplicity-adequacy tradeoff
CN112650836B (en) Text analysis method and device based on syntax structure element semantics and computing terminal
KR100892004B1 (en) Apparatus and method for detecting verb centric grammar error automatically and providing correction information in system for leading english composition
KR20190064910A (en) Method for restoring Korean omitted components based on language model
KR20150092879A (en) Language Correction Apparatus and Method based on n-gram data and linguistic analysis
KR20100062834A (en) Apparatus and method for translation-error post-editing
KR101706827B1 (en) Apparatus and method for extracting social relation between entity
JP5911931B2 (en) Predicate term structure extraction device, method, program, and computer-readable recording medium
KR102571435B1 (en) Apparatus and method for capturing temporal context information of natural language text
KR20200003329A (en) Method and apparatus for constructing chunk based on natural language processing
KR101735314B1 (en) Apparatus and method for Hybride Translation
Yan et al. Word-based domain adaptation for neural machine translation
CN114896269A (en) Structured query statement detection method and device, electronic equipment and storage medium
US20230140938A1 (en) Sentence data analysis information generation device using ontology, sentence data analysis information generation method, and sentence data analysis information generation program
Yang et al. Huq: An english-hungarian corpus for quality estimation
Hirakawa et al. Automatic refinement of a PoS tagger using a reliable parser and plain text corpora
Toole et al. Time-constrained Machine Translation
JP2007148630A (en) Patent analyzing device, patent analyzing system, patent analyzing method and program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right