WO2024101554A1 - 키워드를 이용한 패러프레이즈 문장 생성장치 및 방법 - Google Patents

키워드를 이용한 패러프레이즈 문장 생성장치 및 방법 Download PDF

Info

Publication number
WO2024101554A1
WO2024101554A1 PCT/KR2023/005196 KR2023005196W WO2024101554A1 WO 2024101554 A1 WO2024101554 A1 WO 2024101554A1 KR 2023005196 W KR2023005196 W KR 2023005196W WO 2024101554 A1 WO2024101554 A1 WO 2024101554A1
Authority
WO
WIPO (PCT)
Prior art keywords
paraphrase
sentence
order
unit
generating
Prior art date
Application number
PCT/KR2023/005196
Other languages
English (en)
French (fr)
Inventor
차정원
홍성태
Original Assignee
창원대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 창원대학교 산학협력단 filed Critical 창원대학교 산학협력단
Publication of WO2024101554A1 publication Critical patent/WO2024101554A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to an apparatus and method for generating paraphrase sentences with diverse expressions using just one sentence.
  • the natural language processing field is showing better performance by utilizing artificial intelligence and deep learning.
  • understanding natural language may require grasping the same meaning from variously expressed sentences. This is because language can be expressed in various ways despite the same meaning.
  • a paraphrase sentence refers to two or more sentences that convey the same meaning using different expressions.
  • Paraphrase sentence creation involves creating another sentence with the same meaning for one sentence used as input.
  • the publicly available learning corpus for paraphrase research consists of pairs of two or more sentences, but there is a problem in that it takes a considerable amount of time and money to build such a learning corpus. In particular, reviewing the constructed learning corpus is not easy.
  • the purpose of the present invention was to solve the above problems, and to provide a device and method that can generate paraphrase sentences with various expressions using just one sentence.
  • a paraphrase sentence generating device includes a morpheme analysis unit that analyzes morphemes in an input sentence; a keyword extraction unit that extracts only actual morphemes as keywords from the analysis results; an order changing unit that changes the order of the extracted keywords; and a learning/generating unit that learns the changed keyword sequence and generates a paraphrase sentence.
  • the order change unit may be performed at least once, and the number of paraphrase sentences is determined according to the number of changes of the order change unit.
  • the order change unit may be repeatedly performed until keyword order change can no longer be performed.
  • the order change unit can change the keyword order only the number of times preset by the user.
  • It may further include an additional feature use unit that applies syntactic or semantic information to each keyword whose order has been changed by the order change unit.
  • It may further include an extraction unit that re-learns at least two paraphrase sentences generated by the learning/generation unit to extract a paraphrase sentence that has a different meaning from the input sentence.
  • a method of generating a paraphrase sentence for achieving another object of the present invention includes an analysis step in which a device for generating a paraphrase sentence for one input sentence analyzes morphemes of the input sentence; An extraction step of extracting only actual morphemes as keywords from the analysis results of the morphemes; A change step of changing the order of the extracted keywords; And a generation step of learning the keywords whose order has been changed and generating at least one paraphrase sentence for the input sentence.
  • the number of paraphrase sentences in the creation step is determined in correspondence with the number of keyword order changes in the change step.
  • Changing the keyword order is repeated a preset number of times or until it can no longer be changed.
  • the change step further includes a word change step of changing the keyword into another usable word using a thesaurus.
  • an extraction step may be further performed to compare the input sentence with the generated at least two paraphrase sentences and extract paraphrase sentences with different meanings.
  • FIG. 1 is a configuration diagram of a paraphrase sentence generating device according to a preferred embodiment of the present invention.
  • Figure 2 is a flowchart of a method for generating a paraphrase sentence according to a preferred embodiment of the present invention.
  • Figure 3 is an example configuration diagram for generating a paraphrase sentence according to an embodiment of the present invention.
  • Spatially relative terms such as below, beneath, lower, above, upper, etc. facilitate the correlation between one element or component and other elements or components as shown in the drawing. It can be used to describe. Spatially relative terms should be understood as terms that include different directions of the element during use or operation in addition to the direction shown in the drawings. For example, when an element shown in a drawing is turned over, an element described as below (below, beneath) another element may be placed above (upper) the other element. Accordingly, the illustrative term below may include both downward and upward directions. Elements can also be oriented in other directions, so spatially relative terms can be interpreted according to orientation.
  • expressions indicating a part such as “part” or “part” mean that the corresponding component is a device that can include a specific function, software that can include a specific function, or a device that can include a specific function. It means that it can represent a combination of and software, but it cannot be said that it is necessarily limited to the expressed functions. This is only provided to help a more general understanding of the present invention, and is provided to those with ordinary knowledge in the field to which the present invention pertains. Various modifications and variations are possible from this description.
  • FIG. 1 is a configuration diagram of a paraphrase sentence generating device according to a preferred embodiment of the present invention.
  • the paraphrase sentence generating device 100 includes a morpheme analysis unit 110, a keyword extraction unit 120, an order change unit 130, an additional feature use unit 140, and a learning/generation unit. Includes (150).
  • the morpheme analysis unit 110 is a unit that performs the task of analyzing morphemes for an input sentence.
  • a morpheme is the minimum linguistic element that makes up a word or phrase.
  • These morphemes can be divided into substantive (meaning) morphemes, which have actual meaning, and formal (functional) morphemes, which have functional elements.
  • morphological analysis is the first step in natural language analysis and refers to the process of recognizing each morpheme that makes up a word or phrase and restoring the original form when irregular use, abbreviation, or omission occurs.
  • the morpheme analysis unit 110 may refer to a morpheme analyzer capable of performing sentence analysis through, for example, machine learning.
  • the keyword extraction unit 120 is a unit that extracts keywords from the analysis results of the morpheme analysis unit 110.
  • the keywords extracted by the keyword extraction unit 120 extract only actual morphemes from information based on morpheme analysis.
  • morphemes can be classified into two types. In this case, formal morphemes are morphemes attached to substantive morphemes that mainly express the relationship between words, and mainly include particles, affixes, and endings. Since formal morphemes are not important information in constructing the meaning of a sentence, the keyword extractor 120 uses only substantive morphemes that have actual lexical meaning.
  • the order change unit 130 is a unit that performs the task of shuffling the keywords extracted by the keyword extractor 120 in order to extract various structural and semantic changes from the paraphrase generated later. According to this embodiment, there is a difference in the paraphrase sentence generated according to the shuffling of the keyword.
  • the expressiveness of sentences generated without performing shuffling and sentences generated after performing shuffling may be different. By shuffling keywords, it is possible to efficiently create sentences that can be expressed in a variety of ways while maintaining the meaning of the original sentence initially entered.
  • the order changing unit 130 changes the order of keywords to generate paraphrase sentences with various expressions.
  • the order changing unit 130 may be performed at least once, and the number of paraphrase sentences finally generated is determined according to the number of changes of the order changing unit 130. Additionally, the order change unit 130 may perform the keyword order change repeatedly until it can no longer be performed, or may be performed a number of times preset by the user.
  • the order change unit 130 may use syntactic or semantic information as needed. Therefore, an additional feature usage unit 140 may be needed.
  • a method of shuffling a sentence while preserving phrase information using a syntax analyzer can generally easily maintain information that needs to be continuous even in long sentences.
  • the present invention can also be applied to a method of simply shuffling randomly and without any order information in the sentence, or a method without shuffling.
  • the order changing unit 130 can also perform the function of replacing words with other words that can be used in the same context using a thesaurus.
  • the learning/generating unit 150 is a unit that learns, infers, and provides sentences according to the change results of the order changing unit 130.
  • the result of the learning/generation unit 140 becomes a paraphrase sentence.
  • an extraction unit may be further included to extract a paraphrase sentence with a different meaning from the input sentence from among the generated paraphrase sentences.
  • a paraphrase sentence with a different meaning from the input sentence from among the generated paraphrase sentences.
  • Figure 2 is a flowchart explaining a method of generating a paraphrase sentence according to a preferred embodiment of the present invention.
  • the paraphrase sentence generating device 100 starts by receiving a sentence for generating a paraphrase sentence.
  • the morpheme analysis unit 110 performs a morpheme analysis task on the input sentence.
  • Morphological analysis can be the task of distinguishing between substantive morphemes and formal morphemes, and can actually refer to extracting words with lexical meaning from a sentence. Therefore, when the morpheme analysis task of the morpheme analysis unit 110 is completed, the sentence can be provided by dividing it into substantive morphemes and formal morphemes such as particles/affixes/suffixes that have actual meanings constituting the sentence. If this morphological analysis is not performed, unnecessary information may be included in understanding the meaning of the sentence, which may lead to difficulties in generating a paraphrase sentence, which is the final result with the same meaning as the initially input sentence and with diverse expressions.
  • the keyword extraction unit 120 receives the analysis result of the morpheme analysis unit 110.
  • the analysis result includes both substantive and formal morphemes in the sentence, and the keyword extractor 120 extracts only substantive morphemes containing actual lexical meaning as keywords. According to the embodiment, only real morphemes may be used to generate paraphrase sentences.
  • the order changing unit 130 receives the keywords extracted by the keyword extracting unit 120 and changes the arrangement order of the keywords.
  • Methods for mixing keywords include simple shuffle, shuffle using syntactic information, and shuffle using semantic information.
  • the reason for performing shuffling to change the order of keywords is to induce various structural and semantic changes in the paraphrase sentence to be created. Therefore, the additional feature usage unit 140 can be performed to apply structural and semantic changes. Of course, it is possible to simply shuffle keywords and then apply structural/semantic information, but structural/semantic information may not be used after keyword shuffling.
  • a word change step of changing the keyword to another usable word using a dictionary of thesaurus provided in advance can be further performed. Therefore, it is possible to provide richer learning data than the training data provided by changing the order of keywords.
  • the learning and generation unit 150 uses learning data such as keywords for which no shuffling has been performed, keywords for which only shuffling has been performed, and keywords using structural/semantic information after shuffling. Machine learning can be performed on the target and paraphrase sentences can be generated and provided.
  • the paraphrase sentences generated in each case are different, and the result of performing a shuffling process to change the order of keywords allows for the creation of more diverse paraphrase sentences.
  • An example of a paraphrase sentence generated according to this embodiment may refer to FIG. 3.
  • the keyword extraction unit 120 selects 'society', 'psychology', 'academic', 'culture', 'institution', 'norm', and 'human'. , keywords such as ‘psychology’, ‘mitch’, ‘influence’, ‘series’, and ‘research’ can be extracted (S120).
  • the keyword order is 'research', 'norm', 'culture', 'society', 'psychology', 'institution', 'influence', 'story', and 'michi'. ', 'psychology', 'academic', 'human'.
  • the present invention it is also possible to change the above-mentioned keywords into other words that can be used in a sentence using a thesaurus. Therefore, more keyword combinations can be provided, and as a result, more diverse and rich paraphrase sentences can be created although the meaning is the same.
  • the present invention can be used in the field of natural language processing using artificial intelligence and deep learning.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 하나의 문장만으로 표현이 다양한 패러프레이즈 문장들을 생성하는 장치 및 방법을 제안한다. 본 발명의 패러프레이즈 문장 생성장치는, 입력 문장에 대해 형태소를 분석하는 형태소 분석부, 상기 분석 결과에서 실질 형태소만 키워드로 추출하는 키워드 추출부, 상기 추출된 키워드의 순서를 변경하는 순서 변경부, 및 상기 변경된 키워드 순서를 학습하여 패러프레이즈 문장을 생성하는 학습/생성부를 포함하여 구성된다. 상기 순서 변경부의 변경 횟수만큼 패러프레이즈 문장의 개수는 상이하게 제공된다.

Description

키워드를 이용한 패러프레이즈 문장 생성장치 및 방법
본 발명은 하나의 문장만으로 표현이 다양한 패러프레이즈 문장들을 생성하는 장치 및 방법에 관한 것이다.
자연어 처리분야는 인공지능과 딥러닝(deep learning)을 활용하면서 더 우수한 성능을 보이고 있다. 자연어 처리분야에서 자연어의 이해를 위해서는 다양하게 표현된 문장들로부터 동일한 의미를 파악하는 것이 요구될 수 있다. 동일한 의미에도 불구하고 언어는 다양하게 표현될 수 있기 때문이다.
따라서 동일한 의미에 대응하는 다수의 문장들, 즉 패러프레이즈(paraphrase) 문장들을 준비하는 것은 자연어 이해의 중요한 기반이 될 수 있다. 패러프레이즈 문장은 서로 다른 표현을 사용하여 동일한 의미를 전달하는 두 개 이상의 문장을 의미한다. 패러프레이즈 문장 생성은 입력으로 사용되는 하나의 문장에 대해 동일한 의미의 또 다른 문장을 생성하는 방법이 있다.
그러나 종래의 패러프레이즈 문장 생성은 유의어 및 동의어 등의 어휘로 대체하여 코퍼스를 구축하는 방법으로 단순하게 문장 내의 단어를 치환하는 경우가 대부분이다. 이처럼 단어가 구로 치환되거나 구조가 치환되어 패러프레이즈 문장을 생성하는 경우, 해당하는 표현들이 다양하게 생성할 수 없는 문제가 있다.
또 패러프레이즈 연구를 위한 공개된 학습 코퍼스는 두 문장 이상으로 이루어진 쌍으로 구성되는데, 이러한 학습 코퍼스를 구축하기 위해서는 상당한 시간과 비용이 소요되는 문제가 있다. 특히 구축된 학습 코퍼스에 대한 검토도 쉽지 않다.
본 발명의 목적은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 하나의 문장만으로 표현이 다양한 패러프레이즈 문장들을 생성할 수 있는 장치 및 방법을 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
이와 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 패러프레이즈 문장 생성장치는, 입력 문장에 대해 형태소를 분석하는 형태소 분석부; 상기 분석 결과에서 실질 형태소만 키워드로 추출하는 키워드 추출부; 상기 추출된 키워드의 순서를 변경하는 순서 변경부; 및 상기 변경된 키워드 순서를 학습하여 패러프레이즈 문장을 생성하는 학습/생성부를 포함하여 구성되는 것을 특징으로 한다.
상기 순서 변경부는, 적어도 1회 이상 수행될 수 있고, 상기 순서 변경부의 변경 횟수에 따라 상기 패러프레이즈 문장의 개수가 결정된다.
상기 순서 변경부는, 키워드 순서 변경을 더 이상 수행할 수 없을 때까지 반복 수행될 수 있다.
상기 순서 변경부는, 사용자에 의해 기 설정된 횟수로만 키워드 순서의 변경을 수행할 수 있다.
상기 순서 변경부에 의해 순서가 변경된 키워드마다 구문론적 또는 의미론적 정보를 적용하는 추가 자질 사용부를 더 포함할 수 있다.
상기 학습/생성부가 생성한 적어도 둘 이상의 패러프레이즈 문장을 재 학습하여, 상기 입력 문장과 의미가 다른 패러프레이즈 문장을 추출하는 추출부를 더 포함할 수 있다.
본 발명의 다른 목적을 달성하기 위한 패러프레이즈 문장 생성방법은, 하나의 입력된 문장에 대해 패러프레이즈 문장을 생성하는 장치가, 입력 문장의 형태소를 분석하는 분석 단계; 상기 형태소의 분석결과에서 실질 형태소만 키워드로 추출하는 추출 단계; 상기 추출된 키워드의 순서를 변경하는 변경 단계; 및 상기 순서가 변경된 키워드를 학습하여 상기 입력된 문장에 대해 적어도 하나의 패러프레이즈 문장을 생성하는 생성 단계를 포함하는 것을 특징으로 한다.
상기 변경 단계의 키워드 순서 변경 회수와 대응하여 상기 생성 단계의 패러프레이즈 문장 개수가 정해진다.
상기 키워드 순서의 변경은, 기 설정된 횟수 또는 더 이상 변경할 수 없을 때까지 반복하여 실시된다.
상기 변경 단계는, 유의어 사전을 이용하여 상기 키워드를 사용 가능한 다른 단어로 변경하는 단어 변경 단계를 더 포함한다.
상기 생성 단계 이후, 상기 입력된 문장과 상기 생성된 적어도 둘 이상의 패러프레이즈 문장을 비교하고, 의미가 다른 패러프레이즈 문장을 추출하는 추출 단계를 더 수행할 수 있다.
이와 같은 본 발명에 따르면, 하나의 입력 문장에 대해 다양한 표현을 가지는 패러프레이즈 문장을 생성할 수 있는 효과가 있다.
도 1은 본 발명의 바람직한 실시 예에 따른 패러프레이즈 문장 생성장치의 구성도이다.
도 2는 본 발명의 바람직한 실시 예에 따른 패러프레이즈 문장 생성방법의 흐름도이다.
도 3은 본 발명의 실시 예에 따라 패러프레이즈 문장을 생성하는 예시 구성도이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 발명에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
공간적으로 상대적인 용어인 아래(below, beneath, lower), 위(above, upper) 등은 도면에 도시되어 있는 바와 같이 하나의 소자 또는 구성 요소들과 다른 소자 또는 구성 요소들과의 상관 관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 소자의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들면, 도면에 도시되어 있는 소자를 뒤집을 경우, 다른 소자의 아래(below, beneath)로 기술된 소자는 다른 소자의 위(above, upper)에 놓여질 수 있다. 따라서, 예시적인 용어인 아래는 아래와 위의 방향을 모두 포함할 수 있다. 소자는 다른 방향으로도 배향될 수 있고, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.
본 발명에서 사용되는 “부” 또는 “부분” 등의 일부분을 나타내는 표현은 해당 구성요소가 특정 기능을 포함할 수 있는 장치, 특정 기능을 포함할 수 있는 소프트웨어, 또는 특정 기능을 포함할 수 있는 장치 및 소프트웨어의 결합을 나타낼 수 있음을 의미하나, 꼭 표현된 기능에 한정된다고 할 수는 없으며, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시 예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
이하에서는 도면에 도시한 실시 예에 기초하면서 본 발명에 대하여 더욱 상세하게 설명하기로 한다.
도 1은 본 발명의 바람직한 실시 예에 따른 패러프레이즈 문장 생성장치의 구성도이다.
도 1에 도시한 바와 같이 패러프레이즈 문장 생성장치(100)는, 형태소 분석부(110), 키워드 추출부(120), 순서 변경부(130), 추가 자질 사용부(140) 및 학습/생성부(150)를 포함한다.
형태소 분석부(110)는 입력 문장에 대한 형태소를 분석하는 작업을 수행하는 유닛이다. 알려진 바와 같이 형태소는 단어 또는 어절을 구성하고 있는 최소한의 언어요소이다. 이러한 형태소는 실질적인 의미를 가지고 있는 실질(의미) 형태소(meaning morpheme)와 기능적 요소를 가지는 형식(기능) 형태소로 구분할 수 있다. 또 형태소 분석은 자연 언어 분석의 첫 단계로서 단어 또는 어절을 구성하는 각각의 형태소들을 인식하고 불규칙 활용이나, 축약, 탈락 현상이 일어난 경우 원형을 복원하는 과정을 말하기도 한다.
본 실시 예에서 형태소 분석부(110)는, 예를 들어 기계학습을 통해 문장 분석을 수행할 수 있는 형태소 분석기를 말할 수 있다.
키워드 추출부(120)는 형태소 분석부(110)의 분석 결과에서 키워드를 추출하는 작업을 수행하는 유닛이다. 키워드 추출부(120)가 추출하는 키워드는 형태소 분석에 따른 정보 중 실질 형태소만 추출한다. 앞서 언급했듯이 형태소는 2가지로 분류할 수 있고, 이때 형식 형태소는 실질 형태소에 붙어 주로 말과 말 사이의 관계를 표시하는 형태소로서, 주로 조사, 접사, 어미 등이 해당된다. 이처럼 형식 형태소는 문장의 의미를 구성하는데 중요한 정보가 아니기 때문에, 키워드 추출부(120)는 실제 어휘적 의미를 가지고 있는 실질 형태소만 사용하는 것이다.
순서 변경부(130)는 나중에 생성된 패러프레이즈에서 다양한 구조적 및 의미적 변경을 추출하기 위하여 상기 키워드 추출부(120)가 추출한 키워드를 섞는(shuffle) 작업을 수행하는 유닛이다. 본 실시 예에 따르면 키워드의 셔플 수행에 따라 생성되는 패러프레이즈 문장에는 차이가 있다. 셔플을 수행하지 않고 생성된 문장과 셔플을 수행한 후에 생성된 문장의 표현력이 다를 수 있는 것이다. 키워드를 셔플시킬 경우 최초에 입력된 원 문장의 의미는 유지하면서 다양한 표현이 가능한 문장을 효율적으로 생성하는 것이 가능하다.
즉 순서 변경부(130)는 키워드의 순서를 변경하여 다양한 표현을 가지는 패러프레이즈 문장이 생성되도록 하는 것이다.
본 실시 예에서 순서 변경부(130)는 적어도 1회 이상 수행될 수 있고, 상기 순서 변경부(130)의 변경 횟수에 따라 최종 생성되는 패러프레이즈 문장의 개수가 정해진다. 또한 순서 변경부(130)는, 키워드 순서 변경을 더 이상 수행할 수 없을 때까지 반복하여 수행되거나 사용자에 의해 기 설정된 횟수만큼 수행될 수 있다.
본 실시 예에 따르면 순서 변경부(130)는 필요에 따라 구문론적 또는 의미론적 정보를 사용할 수도 있다. 그래서 추가 자질 사용부(140)가 필요할 수 있다. 예를 들어 구문 분석기를 이용하여 문장의 구의 정보를 보존하면서 셔플링하는 방법은 대체로 긴 문장에서도 연속될 필요가 있는 정보들을 쉽게 유지할 수 있다. 물론 본 발명은 단순하게 랜덤으로 섞어 문장 내의 어떠한 순서 정보도 없이 셔플링하는 방법, 또는 셔플링하지 않는 방법도 적용할 수 있다.
본 실시 예에서 순서 변경부(130)는 키워드의 순서를 변경하는 것 이외에 유의어 사전을 이용하여 같은 문맥에서 사용 가능한 다른 단어로 치환하는 기능도 수행할 수 있다.
학습/생성부(150)는 상기 순서 변경부(130)의 변경 결과에 따른 문장을 학습하고 추론하여 제공하는 유닛이다. 학습/생성부(140)의 결과가 패러프레이즈 문장이 된다.
본 발명에 따르면 생성된 패러프레이즈 문장들 중에서 입력 문장과 비교하여 의미가 다른 패러프레이즈 문장을 추출하는 추출부(도면 미도시)가 더 포함될 수 있다. 즉 키워드의 순서를 변경하기 때문에 매우 다양한 표현을 가지는 패러프레이즈 문장을 생성할 수 있는데, 이렇게 생성된 패러프레이즈 문장들 중에서 입력 문장과 의미가 다른 문장이 있을 수 있기 때문이다.
도 2는 본 발명의 바람직한 실시 예에 따라 패러프레이즈 문장을 생성하는 방법을 설명하는 흐름도이다.
패러프레이즈 문장 생성장치(100)가 패러프레이즈 문장 생성을 위한 문장을 입력받는 것에 의해 개시된다.
형태소 분석부(110)는 입력된 문장에 대한 형태소 분석 작업을 수행하게 된다. 형태소 분석은 실질 형태소와 형식 형태소를 구분하는 작업일 수 있고, 실질적으로 문장에서 어휘적 의미를 가지는 단어들을 추출하는 것을 말할 수 있다. 그래서 형태소 분석부(110)의 형태소 분석 작업이 완료되면, 문장은 그 문장을 구성하는 실질적인 의미를 가지는 실질 형태소와 조사/접사/어미 등과 같은 형식 형태소로 구분되어 제공될 수 있을 것이다. 이러한 형태소 분석을 수행하지 않게 되면 문장 의미를 파악하는데 불필요한 정보들이 포함될 수 있고, 이는 최초 입력된 문장과 의미가 그대로이고 표현이 다양한 최종 결과물인 패러프레이즈 문장을 생성하는데 어려움이 생길 수 있다.
키워드 추출부(120)는 형태소 분석부(110)의 분석 결과를 전달받는다. 상기 분석 결과는 문장에서 실질 형태소와 형식 형태소를 모두 포함하며, 키워드 추출부(120)는 실질적인 어휘적 의미를 포함하는 실질 형태소만 키워드로 추출한다. 실시 예에 따르면 실질 형태소만이 패러프레이즈 문장을 생성하는데 사용될 수 있다.
순서 변경부(130)는 키워드 추출부(120)가 추출한 키워드를 전달받고 키워드의 배치 순서 등을 변경한다. 키워드를 섞는 방법은 단순한 shuffle, 구문정보를 이용한 shuffle, 의미정보를 이용한 shuffle 등이 가능하다.
키워드의 순서를 변경하는 셔플링을 수행하는 이유는 생성될 패러프레이즈 문장에서 다양한 구조적 및 의미적 변경을 이끌어내기 위해서이다. 그래서 구조적 및 의미적 변경을 적용하기 위하여 추가자질 사용부(140)가 수행될 수 있다. 물론 이처럼 단순히 키워드를 셔플링한 후 구조적/의미적 정보를 적용할 수도 있지만, 키워드 셔플링 후 구조적/의미적 정보를 사용하지 않을 수도 있다.
한편 본 실시 예는 키워드의 순서를 변경하는 것 이외에, 미리 제공되는 유의어 사전을 이용하여 상기 키워드를 사용 가능한 다른 단어로 변경하는 단어 변경 단계를 더 수행할 수 있다. 따라서 키워드의 순서를 변경하여 제공되는 학습 데이터보다 더 풍부한 학습 데이터를 제공할 수 있다.
도 2에서 보듯이 본 실시 예는 학습 및 생성부(150)가 셔플링 미수행된 키워드들, 셔플링만 수행한 키워드들, 셔플링 수행 후 구조적/의미적 정보를 사용한 키워드 등의 학습 데이터를 대상으로 기계학습을 수행하고 패러프레이즈 문장을 생성하여 제공할 수 있다.
각각의 경우에 따라 생성되는 패러프레이즈 문장은 차이가 있는데, 키워드의 순서를 변경하는 셔플링 과정을 수행한 결과가 더 다양한 패러프레이즈 문장을 생성할 수 있게 된다.
본 실시 예에 따라 생성된 패러프레이즈 문장의 예는 도 3을 참조할 수 있다.
도 3a를 참조하면, “사회심리학이라는 학문은 문화, 제도, 규범 등이 인간 심리에 미치는 영향에 대해서 연구한다.”의 문장이 입력된다고 가정한다(S100).
그러면 형태소 분석부(110)의 분석 결과(S110)에 따라, 키워드 추출부(120)는 '사회', '심리학', '학문', '문화', '제도', '규범', '인간', '심리', '미치', '영향', '대하', '연구'의 키워드를 추출할 수 있다(S120).
이렇게 추출된 키워드를 대상으로 만약 키워드를 섞지 않고 기계학습을 수행하여 패러프레이즈 문장을 추론하면, “사회심리학이라는 학문은 문화, 제도, 규범 등이 인간 심리에 미치는 영향에 대해 연구한다.”와 같이 최초 입력된 문장 대비 거의 차이가 없는 상태의 문장을 생성하게 된다. 입력 문장과 표현이 거의 동일하다고 할 수 있다.
그러나 추출된 키워드를 섞는 작업을 하여(S130), 예를 들어 '대하', '미치', '사회', '심리학', '심리', '연구', '규범', '문화', '제도', '영향', '학문', '인간'과 같이 키워드의 순서를 변경하고 구조적/의미적 정보를 적용한 후 기계학습을 수행하면(S140, S150), “사회심리학은 문화, 제도, 규범 등이 인간 심리에 미치는 영향에 대해 연구하는 학문이다.”와 같이 입력 문장과 의미는 그대로 유지하면서 다르게 표현된 패러프레이즈 문장을 생성할 수 있게 된다(S160).
도면에는 도시하지 않았지만, 다른 예로 키워드 셔플링에 따라 키워드 순서가 '연구', '규범', '문화', '사회', '심리학', '제도', '영향', '대하', '미치', '심리', '학문', '인간'과 같이 변경될 수 있다. 이 경우 위에서 생성된 패러프레이즈 문장과는 다른 문장으로 예를 들어, “인간 심리에 문화, 제도, 규범 등이 미치는 영향에 대해 연구하는 학문이 사회심리학이다.”와 같은 문장을 생성할 수 있다.
즉 추출된 키워드의 순서를 변경하여 학습을 할 경우, 입력된 문장의 의미는 그대로 유지하면서 다른 표현으로 사용이 가능한 패러프레이즈 문장을 생성하는 것이 가능함을 알 수 있다.
본 발명에 따르면 상기한 키워드를 유의어 사전을 이용하여 문장 내에서 사용 가능한 다른 단어로 변경하는 것도 가능하다. 따라서 더 많은 키워드 조합을 제공할 수 있을 것이고, 결과적으로 의미는 동일하지만 더 다양하고 풍부한 패러프레이즈 문장을 생성할 수 있다.
이상과 같이 본 발명의 도시된 실시 예를 참고하여 설명하고 있으나, 이는 예시적인 것들에 불과하며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자라면 본 발명의 요지 및 범위에 벗어나지 않으면서도 다양한 변형, 변경 및 균등한 타 실시 예들이 가능하다는 것을 명백하게 알 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적인 사상에 의해 정해져야 할 것이다.
본 발명은 인공지능과 딥러닝 등을 이용하는 자연어 처리 분야에 이용할 수 있다.

Claims (11)

  1. 입력 문장에 대해 형태소를 분석하는 형태소 분석부;
    상기 분석 결과에서 실질 형태소만 키워드로 추출하는 키워드 추출부;
    상기 추출된 키워드의 순서를 변경하는 순서 변경부; 및
    상기 변경된 키워드 순서를 학습하여 패러프레이즈 문장을 생성하는 학습/생성부를 포함하여 구성되는, 패러프레이즈 문장 생성장치.
  2. 제1항에 있어서,
    상기 순서 변경부는, 적어도 1회 이상 수행될 수 있고,
    상기 순서 변경부의 변경 횟수에 따라 상기 패러프레이즈 문장의 개수가 결정되는, 패러프레이즈 문장 생성장치.
  3. 제2항에 있어서,
    상기 순서 변경부는, 키워드 순서 변경을 더 이상 수행할 수 없을 때까지 반복 수행되는, 패러프레이즈 문장 생성장치.
  4. 제2항에 있어서,
    상기 순서 변경부는, 사용자에 의해 기 설정된 횟수로만 키워드 순서의 변경을 수행하는, 패러프레이즈 문장 생성장치.
  5. 제1항에 있어서,
    상기 순서 변경부에 의해 순서가 변경된 키워드마다 구문론적 또는 의미론적 정보를 적용하는 추가 자질 사용부를 더 포함하여 구성되는, 패러프레이즈 문장 생성장치.
  6. 제1항에 있어서,
    상기 학습/생성부가 생성한 적어도 둘 이상의 패러프레이즈 문장을 재 학습하여, 상기 입력 문장과 의미가 다른 패러프레이즈 문장을 추출하는 추출부를 더 포함하여 구성되는, 패러프레이즈 문장 생성장치.
  7. 하나의 입력된 문장에 대해 패러프레이즈 문장을 생성하는 장치가,
    입력 문장의 형태소를 분석하는 분석 단계;
    상기 형태소의 분석결과에서 실질 형태소만 키워드로 추출하는 추출 단계;
    상기 추출된 키워드의 순서를 변경하는 변경 단계; 및
    상기 순서가 변경된 키워드를 학습하여 상기 입력된 문장에 대해 적어도 하나의 패러프레이즈 문장을 생성하는 생성 단계를 포함하는, 패러프레이즈 문장 생성방법.
  8. 제7항에 있어서,
    상기 변경 단계의 키워드 순서 변경 회수와 대응하여 상기 생성 단계의 패러프레이즈 문장 개수가 정해지는, 패러프레이즈 문장 생성방법.
  9. 제7항에 있어서,
    상기 키워드의 순서 변경은, 기 설정된 횟수 또는 더 이상 변경할 수 없을 때까지 반복하여 실시되는, 패러프레이즈 문장 생성방법.
  10. 제7항에 있어서,
    상기 변경 단계는, 유의어 사전을 이용하여 상기 키워드를 사용 가능한 다른 단어로 변경하는 단어 변경 단계를 더 포함하여 수행되는, 패러프레이즈 문장 생성방법.
  11. 제7항에 있어서,
    상기 생성 단계 이후, 상기 입력된 문장과 상기 생성된 적어도 둘 이상의 패러프레이즈 문장을 비교하고, 의미가 다른 패러프레이즈 문장을 추출하는 추출 단계를 더 수행하는, 패러프레이즈 문장 생성방법.
PCT/KR2023/005196 2022-11-09 2023-04-18 키워드를 이용한 패러프레이즈 문장 생성장치 및 방법 WO2024101554A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0148588 2022-11-09
KR1020220148588A KR20240067507A (ko) 2022-11-09 2022-11-09 키워드를 이용한 패러프레이즈 문장 생성장치 및 방법

Publications (1)

Publication Number Publication Date
WO2024101554A1 true WO2024101554A1 (ko) 2024-05-16

Family

ID=91033112

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/005196 WO2024101554A1 (ko) 2022-11-09 2023-04-18 키워드를 이용한 패러프레이즈 문장 생성장치 및 방법

Country Status (2)

Country Link
KR (1) KR20240067507A (ko)
WO (1) WO2024101554A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106594A1 (en) * 2004-11-15 2006-05-18 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US20060136194A1 (en) * 2004-12-20 2006-06-22 Fujitsu Limited Data semanticizer
KR20100062826A (ko) * 2008-12-02 2010-06-10 한국전자통신연구원 자동번역을 위한 번역메모리 적용 방법 및 그 장치
KR102107341B1 (ko) * 2019-09-27 2020-05-28 최영 공유주방 기반의 외식점 관리 시스템
KR20220123170A (ko) * 2021-02-28 2022-09-06 조지수 인공지능 아바타 튜터를 활용한 회화 학습 시스템 및 그 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9484261B2 (en) 2013-07-05 2016-11-01 Silicon Storage Technology, Inc. Formation of self-aligned source for split-gate non-volatile memory cell
KR102143157B1 (ko) 2018-11-26 2020-08-11 주식회사 솔트룩스 온톨로지 기반 패러프레이즈 문장 생성을 위한 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106594A1 (en) * 2004-11-15 2006-05-18 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US20060136194A1 (en) * 2004-12-20 2006-06-22 Fujitsu Limited Data semanticizer
KR20100062826A (ko) * 2008-12-02 2010-06-10 한국전자통신연구원 자동번역을 위한 번역메모리 적용 방법 및 그 장치
KR102107341B1 (ko) * 2019-09-27 2020-05-28 최영 공유주방 기반의 외식점 관리 시스템
KR20220123170A (ko) * 2021-02-28 2022-09-06 조지수 인공지능 아바타 튜터를 활용한 회화 학습 시스템 및 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HONG SEONG-TAE, CHA JEONG-WON: "Paraphrase sentence generation using keywords", PROCEEDINGS OF KOREA COMPUTER CONGRESS 2022, 1 January 2022 (2022-01-01), pages 1 - 3, XP093172238 *

Also Published As

Publication number Publication date
KR20240067507A (ko) 2024-05-17

Similar Documents

Publication Publication Date Title
Yuan et al. Constrained grammatical error correction using statistical machine translation
Kouylekov et al. Recognizing textual entailment with tree edit distance algorithms
Ciaramita et al. Supersense tagging of unknown nouns in WordNet
US4942526A (en) Method and system for generating lexicon of cooccurrence relations in natural language
Barlow Parallel texts in language teaching
Yeniterzi Exploiting morphology in Turkish named entity recognition system
Brill A report of recent progress in transformation-based error-driven learning
WO2021049706A1 (ko) 앙상블 질의 응답을 위한 시스템 및 방법
Lixun Exploring parallel concordancing in English and Chinese
Fung et al. BiFrameNet: bilingual frame semantics resource construction by cross-lingual induction
Peters et al. Parallel and comparable bilingual corpora in language teaching and learning
Crisma et al. Syntactic diversity and language learnability
Laviosa Corpora and the translator
McEnery et al. The Role of Corpora in Computer‐Assisted Language Learning
WO2024101554A1 (ko) 키워드를 이용한 패러프레이즈 문장 생성장치 및 방법
Abu Bakar et al. NUWT: Jawi-specific Buckwalter corpus for Malays word tokenization
Yoshimi et al. Distractor generation for fill-in-the-blank exercises by question type
Piasecki et al. plwordnet 3.0–almost there
Xu et al. Sub-word alignment is still useful: A vest-pocket method for enhancing low-resource machine translation
Galvan A Sensitive Period for the Acquisition of Complex Morphology: Evidence from American Sign Language.
Sheang Context-aware automatic text simplification
Forti Learner corpora and the design of data-driven learning activities
Johansson et al. Training a Swedish constituency parser on six incompatible treebanks
WO2022060061A1 (ko) 딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법, 그 컴퓨터 프로그램 및 그 서버 장치
WO2011062311A1 (ko) 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23888823

Country of ref document: EP

Kind code of ref document: A1