KR102575034B1 - Method, Computing Device and Computer-readable Medium for Dependency Parsing Based on Sequence Labeling - Google Patents

Method, Computing Device and Computer-readable Medium for Dependency Parsing Based on Sequence Labeling Download PDF

Info

Publication number
KR102575034B1
KR102575034B1 KR1020210129046A KR20210129046A KR102575034B1 KR 102575034 B1 KR102575034 B1 KR 102575034B1 KR 1020210129046 A KR1020210129046 A KR 1020210129046A KR 20210129046 A KR20210129046 A KR 20210129046A KR 102575034 B1 KR102575034 B1 KR 102575034B1
Authority
KR
South Korea
Prior art keywords
word
embedding
encoder
output
labeling
Prior art date
Application number
KR1020210129046A
Other languages
Korean (ko)
Other versions
KR20230046046A (en
Inventor
강상우
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Priority to KR1020210129046A priority Critical patent/KR102575034B1/en
Publication of KR20230046046A publication Critical patent/KR20230046046A/en
Application granted granted Critical
Publication of KR102575034B1 publication Critical patent/KR102575034B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

본 발명은 시퀀스 레이블링 기반의 의존 구문 분석 방법, 컴퓨팅장치 및 컴퓨터-판독가능 매체에 관한 것으로서, 더욱 상세하게는 구문을 분석하고자 하는 입력 문장에 포함된 복수의 어절에 대하여, 각 어절별로 복수의 임베딩값을 포함하는 어절임베딩값을 도출하고, 각 어절 별로 도출된 복수의 어절임베딩값을 인코더-디코더로 구성된 프레임워크에 입력하여 상기 입력 문장에 포함된 각 어절별로 의존관계를 갖는 지배소의 상대적 위치 및 의존관계명을 예측하여 레이블링하는, 시퀀스 레이블링 기반의 의존 구문 분석 방법, 컴퓨팅장치 및 컴퓨터-판독가능 매체에 관한 것이다.The present invention relates to a dependent syntax analysis method based on sequence labeling, a computing device, and a computer-readable medium, and more particularly, for a plurality of words included in an input sentence to be analyzed, a plurality of embeddings for each word. A word embedding value including a value is derived, and a plurality of word embedding values derived for each word are input to a framework composed of an encoder-decoder to determine the relative position of a governing station having a dependent relationship for each word included in the input sentence. It relates to a sequence labeling-based dependency syntax analysis method for predicting and labeling dependency names, a computing device, and a computer-readable medium.

Description

시퀀스 레이블링 기반의 의존 구문 분석 방법, 컴퓨팅장치 및 컴퓨터-판독가능 매체 {Method, Computing Device and Computer-readable Medium for Dependency Parsing Based on Sequence Labeling}Dependency parsing method based on sequence labeling, computing device and computer-readable medium {Method, Computing Device and Computer-readable Medium for Dependency Parsing Based on Sequence Labeling}

본 발명은 시퀀스 레이블링 기반의 의존 구문 분석 방법, 컴퓨팅장치 및 컴퓨터-판독가능 매체에 관한 것으로서, 더욱 상세하게는 구문을 분석하고자 하는 입력 문장에 포함된 복수의 어절에 대하여, 각 어절별로 복수의 임베딩값을 포함하는 어절임베딩값을 도출하고, 각 어절 별로 도출된 복수의 어절임베딩값을 인코더-디코더로 구성된 프레임워크에 입력하여 상기 입력 문장에 포함된 각 어절별로 의존관계를 갖는 지배소의 상대적 위치 및 의존관계명을 예측하여 레이블링하는, 시퀀스 레이블링 기반의 의존 구문 분석 방법, 컴퓨팅장치 및 컴퓨터-판독가능 매체에 관한 것이다.The present invention relates to a dependent syntax analysis method based on sequence labeling, a computing device, and a computer-readable medium, and more particularly, for a plurality of words included in an input sentence to be analyzed, a plurality of embeddings for each word. A word embedding value including a value is derived, and a plurality of word embedding values derived for each word are input to a framework composed of an encoder-decoder to determine the relative position of a governing station having a dependent relationship for each word included in the input sentence. It relates to a sequence labeling-based dependency syntax analysis method for predicting and labeling dependency names, a computing device, and a computer-readable medium.

구문 분석은 주어진 문장의 문법적인 구조를 이해하기 위한 것으로서, 자연어(Natural Language)를 이해하기 위한 필수적인 요소에 해당한다. 구문 분석은 입력 문장에 대하여 해당 문장에 포함된 어절 혹은 어구들 간의 의존 관계를 표현하는 의존 트리(Dependency Tree)를 구축하여 해당 언어에 대한 모호성을 해결할 수 있다. 이와 같이, 구문 분석 분야는 기계번역이나 정보검색 등에 사용되고 있으며, 그 중요성 또한 더욱 높아지고 있다.Syntactic analysis is for understanding the grammatical structure of a given sentence, and corresponds to an essential element for understanding a natural language. Syntactic analysis may resolve ambiguity in a corresponding language by constructing a dependency tree expressing a dependency relationship between words or phrases included in the corresponding sentence with respect to the input sentence. As such, the field of syntax analysis is used for machine translation or information retrieval, and its importance is also increasing.

구체적으로, 구문 분석 방법은 문법 구조에 따라 구(Phrase) 구조 문법을 기반으로 하는 구 구조 구문 분석(Phrase Structure Parsing)과 의존 문법을 기반으로 한 의존 구문 분석(Dependency Parsing)으로 나뉘어진다.Specifically, the syntax analysis method is divided into a phrase structure parsing based on a phrase structure grammar and a dependency parsing based on a dependent grammar according to the grammatical structure.

그 중에서도 의존 구문 분석은 두 개의 어절을 지배소와 의존소로 이루어진 의존 관계로 표현하며, 이를 바탕으로 구문을 분석한다. 지배소(Head)는 의미의 중심이 되는 요소이고, 의존소(Dependent)는 지배소가 갖는 의미를 보완해주는 요소에 해당한다. 한편 지배소 및 의존소는 항상 하나의 의존 관계를 갖는 특징이 있으며, 지배소 및 의존소 사이에 부여되는 의존 관계를 통해 해당 문장의 의미적, 구조적 중의성을 해결할 수 있게 된다. 즉, 의존 구문 분석 방법은 두 개의 어절 사이의 의존 관계를 표현함으로써 한국어와 같이 어순이 배치 또는 생략이 자유로운 문장을 분석하는데 있어 비교적 강건한 장점이 있다.Among them, dependency syntax analysis expresses two words as a dependency relationship consisting of a dominant element and a dependent element, and analyzes the syntax based on this. The Head is the central element of meaning, and the Dependent corresponds to the element that complements the meaning of the dominant. On the other hand, the dominant and dependent elements always have a single dependent relationship, and the semantic and structural ambiguity of the sentence can be resolved through the dependent relationship between the dominant and dependent elements. That is, the dependent syntax analysis method has the advantage of being relatively robust in analyzing sentences in which word order is freely arranged or omitted, such as Korean, by expressing the dependent relationship between two words.

한편, 의존 구문 분석 방법은 크게 그래프 기반 구문 분석, 전이 기반 구문 분석 및 시퀀스 레이블링 기반 구문 분석으로 나눌 수 있다. 그래프 기반 구문 분석은 문장에 포함된 모든 단어(어절) 사이의 의존 관계와 의존 관계명에 대한 점수를 구한 뒤에 그리디 알고리즘(Greedy Algorithm)을 사용하여 최대 점수를 갖는 의존 트리를 찾는 방법이다. 전이 기반 구문 분석은 문장에 포함된 두 개의 어절 사이의 의존 관계를 저장된 스택과 버퍼, 전이 히스토리를 바탕으로 하여 결정하고, 이를 이용해 의존 트리를 점진적으로 생성해 나가는 방법이다.Meanwhile, dependent syntax analysis methods can be largely divided into graph-based syntax analysis, transition-based syntax analysis, and sequence labeling-based syntax analysis. Graph-based syntactic analysis is a method of finding a dependency tree with a maximum score by using a greedy algorithm after obtaining scores for dependencies between all words (words) included in a sentence and names of the dependencies. Transition-based syntactic analysis is a method in which the dependency relationship between two words included in a sentence is determined based on the stored stack, buffer, and transition history, and a dependency tree is gradually created using this.

반면에, 시퀀스 레이블링 기반 구문 분석은 지배소와 의존관계명을 하나의 레이블로 간주하고, 입력 문장에 포함된 각 어절에 대응하는 특정 레이블로 레이블링 하는 것으로 의존 구문 분석 결과를 각 어절의 순서에 따라 순차적으로 예측한다. 이와 같이, 시퀀스 레이블링 기반 구문 분석은 상술한 그래프 기반 구문 분석 및 전이 기반 구문 분석의 문제점들을 포함하지 않는 장점이 있다.On the other hand, sequence labeling-based syntactic analysis considers the dominant and dependent relationship names as one label, and labels each word included in the input sentence with a specific label, and the dependent syntactic analysis results are classified according to the order of each word. predict sequentially. As such, the sequence labeling-based syntax analysis has the advantage of not including the problems of the above-described graph-based syntax analysis and transition-based syntax analysis.

구체적으로, 높은 시간 복잡도를 갖는 알고리즘을 통해 모든 어절에 대한 최적의 의존 구문 분석 결과를 결정하는 그래프 기반 의존 구문 분석 방법과는 달리 시퀀스 레이블링 기반 구문 분석은 인코더-디코더 구조의 프레임워크를 통해 각 어절에 대한 의존 구문 분석 결과를 순차적으로 예측하므로 시간 복잡도가 상대적으로 높지 않고, 전이 기반 구문 분석의 경우 스택이나 버퍼와 같은 별도의 자료 구조를 요구하나, 시퀀스 레이블링 기반 구문 분석은 별도의 자료 구조 없이 의존 구문 분석이 가능하다.Specifically, unlike the graph-based dependent syntax analysis method that determines the optimal dependent syntax analysis result for all words through an algorithm with high time complexity, the sequence labeling-based syntax analysis uses a framework of encoder-decoder structure for each word. Reliance on Syntax analysis results are predicted sequentially, so the time complexity is not relatively high, and transition-based parsing requires a separate data structure such as a stack or buffer, but sequence labeling-based parsing does not require a separate data structure. Syntax analysis is possible.

따라서, 시퀀스 레이블링 기반 구문 분석 방법을 기반으로 하되 더욱 효과적으로 자연어를 분석하기 위한 새로운 방법의 개발이 요구되는 상황이다.Therefore, there is a need to develop a new method for analyzing natural language more effectively based on a sequence labeling-based syntax analysis method.

본 발명은 시퀀스 레이블링 기반의 의존 구문 분석 방법, 컴퓨팅장치 및 컴퓨터-판독가능 매체에 관한 것으로서, 더욱 상세하게는 구문을 분석하고자 하는 입력 문장에 포함된 복수의 어절에 대하여, 각 어절별로 복수의 임베딩값을 포함하는 어절임베딩값을 도출하고, 각 어절 별로 도출된 복수의 어절임베딩값을 인코더-디코더로 구성된 프레임워크에 입력하여 상기 입력 문장에 포함된 각 어절별로 의존관계를 갖는 지배소의 상대적 위치 및 의존관계명을 예측하여 레이블링하는, 시퀀스 레이블링 기반의 의존 구문 분석 방법, 컴퓨팅장치 및 컴퓨터-판독가능 매체를 제공하는 것을 목적으로 한다.The present invention relates to a dependent syntax analysis method based on sequence labeling, a computing device, and a computer-readable medium, and more particularly, for a plurality of words included in an input sentence to be analyzed, a plurality of embeddings for each word. A word embedding value including a value is derived, and a plurality of word embedding values derived for each word are input to a framework composed of an encoder-decoder to determine the relative position of a governing station having a dependent relationship for each word included in the input sentence. An object of the present invention is to provide a sequence labeling-based dependency syntax analysis method, a computing device, and a computer-readable medium for predicting and labeling dependency names.

상기와 같은 과제를 해결하기 위하여, 본 발명의 일 실시예에서는, 1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅장치에서 수행하는 입력 문장에 대한 시퀀스 레이블링 기반의 의존 구문 분석 방법으로서, 복수의 어절을 포함하는 입력 문장을 수신하고, 상기 복수의 어절 별로 기설정된 복수의 표현규칙에 따라 도출된 복수의 임베딩값을 병합하여 상기 복수의 어절 각각에 대한 어절임베딩값을 도출하는 어절임베딩값도출단계; 복수의 인코더 셀을 포함하는 인코더를 통해, 상기 입력 문장에서의 어절 순서에 따른 복수의 어절임베딩값 각각을 상기 각각의 인코더 셀에 입력하여 상기 복수의 어절임베딩값 각각에 대한 출력표상을 출력하는 출력표상출력단계; 및 복수의 디코더 셀을 포함하는 디코더를 통해, 상기 입력 문장에서의 어절 순서에 따른 복수의 출력표상 각각 및 해당 출력표상에 인접한 1 이상의 출력표상이 병합된 입력정보를 상기 각각의 디코더 셀에 입력하여 해당 출력표상에 상응하는 어절에 대한 지배소 및 해당 지배소와의 의존관계명을 레이블링하는 레이블링단계;를 포함하고, 상기 인코더는 Bidirectional LSTM(BLSTM) 구조로, 상기 디코더는 LSTM 구조로 구성되고, 복수의 인코더 셀 각각은 해당 인코더 셀의 제1방향에 인접한 인코더 셀 및 해당 인코더 셀의 제2방향에 인접한 인코더 셀 각각으로부터 은닉표상을 입력받고, 어절임베딩값 및 복수의 은닉표상에 기초하여 해당 어절임베딩값에 대한 출력표상을 출력하는, 시퀀스 레이블링 기반의 의존 구문 분석 방법을 제공한다.In order to solve the above problems, in one embodiment of the present invention, a sequence labeling-based dependent syntax analysis method for an input sentence performed in a computing device including one or more processors and one or more memories, A word embedding value derivation step of receiving an input sentence including a word and deriving a word embedding value for each of the plurality of words by merging a plurality of embedding values derived according to a plurality of preset expression rules for each of the plurality of words; Through an encoder including a plurality of encoder cells, an output that inputs each of a plurality of word embedding values according to the word order in the input sentence to each of the encoder cells and outputs an output representation for each of the plurality of word embedding values. representation output step; and through a decoder including a plurality of decoder cells, input information obtained by merging each of a plurality of output representations according to word order in the input sentence and one or more output representations adjacent to the corresponding output representation is input to each of the decoder cells, A labeling step of labeling the control points of the word corresponding to the corresponding output representation and the names of the dependencies between the control points, wherein the encoder has a bidirectional LSTM (BLSTM) structure and the decoder has a LSTM structure; Each of the plurality of encoder cells receives a hidden representation from each of the encoder cells adjacent to the first direction of the corresponding encoder cell and the encoder cells adjacent to the second direction of the corresponding encoder cell, and based on the word embedding value and the plurality of hidden representations, the corresponding word Provides a dependency syntax analysis method based on sequence labeling that outputs an output representation for an embedding value.

본 발명의 일 실시예에서는, 상기 인코더는, 상기 복수의 인코더 셀 각각으로부터 복수의 출력표상을 입력받는 어텐션모듈을 더 포함하고, 상기 어텐션모듈은, 입력받은 상기 복수의 출력표상에 기초하여 상기 복수의 디코더 셀 각각에 입력되는 복수의 어텐션가중치를 도출할 수 있다.In one embodiment of the present invention, the encoder further includes an attention module that receives a plurality of output representations from each of the plurality of encoder cells, and the attention module receives the plurality of output representations based on the plurality of output representations received. A plurality of attention weights input to each decoder cell of can be derived.

본 발명의 일 실시예에서는, 상기 복수의 표현규칙은, 해당 어절을 형태소 단위로 표현하는 제1표현규칙을 포함하고, 상기 어절임베딩값도출단계는, 상기 제1표현규칙에 따른 해당 어절에 대한 형태소를 임베딩하여 제1임베딩값을 도출하고, 해당 어절이 복수의 형태소를 포함하는 경우에 해당 어절의 첫번째 형태소를 임베딩하여 제1임베딩값을 도출할 수 있다.In one embodiment of the present invention, the plurality of expression rules include a first expression rule expressing the corresponding word in units of morphemes, and the step of deriving the word embedding value is performed on the corresponding word according to the first expression rule. The first embedding value may be derived by embedding the morpheme, and when the corresponding word includes a plurality of morphemes, the first embedding value may be derived by embedding the first morpheme of the corresponding word.

본 발명의 일 실시예에서는, 상기 복수의 표현규칙은, 해당 어절을 음절 단위로 표현하는 제2표현규칙을 포함하고, 상기 어절임베딩값도출단계는, 상기 제2표현규칙에 따른 해당 어절에 포함된 1 이상의 음절 각각을 임베딩하여 1 이상의 음절임베딩값을 도출하고, 상기 1 이상의 음절임베딩값을 병합하여 제2임베딩값을 도출할 수 있다.In one embodiment of the present invention, the plurality of expression rules include a second expression rule expressing the corresponding word in syllable units, and the word embedding value derivation step is included in the corresponding word according to the second expression rule. One or more syllable embedding values may be derived by embedding each of the one or more syllables, and a second embedding value may be derived by merging the one or more syllable embedding values.

본 발명의 일 실시예에서는, 상기 복수의 표현규칙은, 상기 입력 문장의 언어에 대하여 기설정된 제1품사태그정보에 기초하여 해당 어절을 해당 어절의 1 이상의 형태소 각각에 대한 품사태그로 표현하는 제3표현규칙을 포함하고, 상기 어절임베딩값도출단계는, 상기 제3표현규칙에 따른 해당 어절에 대한 형태소의 품사태그를 임베딩하여 제3임베딩값을 도출하고, 해당 어절이 복수의 형태소를 포함하는 경우에 해당 어절의 첫번째 형태소의 품사태그를 임베딩하여 제3임베딩값을 도출할 수 있다.In one embodiment of the present invention, the plurality of expression rules express a corresponding word as a part of speech for each of one or more morphemes of the corresponding word based on first part of speech tag information preset for the language of the input sentence. 3 expression rules, and the step of deriving the word embedding value derives a third embedding value by embedding the part-of-speech of the morpheme for the corresponding word according to the third expression rule, and the word includes a plurality of morphemes. In this case, the third embedding value may be derived by embedding the part-of-speech of the first morpheme of the corresponding word.

본 발명의 일 실시예에서는, 상기 복수의 표현규칙은, 복수의 언어를 동일한 형태로 표현하기 위하여 기설정된 제2품사태그정보에 기초하여 해당 어절에 대한 품사태그로 표현하는 제4표현규칙을 포함하고, 상기 어절임베딩값도출단계는, 상기 제4표현규칙에 따른 해당 어절에 대한 품사태그를 임베딩하여 제4임베딩값을 도출할 수 있다.In one embodiment of the present invention, the plurality of expression rules include a fourth expression rule expressed as a part-of-speech tag for a corresponding word based on second part-of-speech tag information preset to express a plurality of languages in the same form. In the word embedding value derivation step, a fourth embedding value may be derived by embedding a part-of-speech tag for a corresponding word according to the fourth expression rule.

본 발명의 일 실시예에서는, 상기 복수의 표현규칙은, 기설정된 제3품사태그정보에 기초하여 해당 어절을 해당 어절에 포함된 1 이상의 형태소 각각에 대한 품사태그를 병합하여 생성되는 어절태그로 표현하는 제5표현규칙을 포함하고, 상기 어절임베딩값도출단계는, 상기 제5표현규칙에 따른 해당 어절에 대한 어절태그를 임베딩하여 제5임베딩값을 도출할 수 있다.In one embodiment of the present invention, the plurality of expression rules are expressed as word tags generated by merging part-of-speech tags for each of one or more morphemes included in the corresponding word based on preset third part-of-speech tag information. In the step of deriving a word embedding value, a fifth embedding value may be derived by embedding a word tag for a corresponding word according to the fifth expression rule.

본 발명의 일 실시예에서는, 상기 레이블링단계는, 상기 입력 문장에 포함된 복수의 어절에서, 해당 출력표상에 상응하는 어절의 위치 및 해당 출력표상에 상응하는 어절에 대한 지배소의 위치 사이의 거리정보; 및 상기 지배소와의 의존관계명;을 포함하는 레이블로 레이블링할 수 있다.In one embodiment of the present invention, the labeling step may include distance information between a position of a word corresponding to a corresponding output representation and a position of a dominant position of a word corresponding to a corresponding output representation in a plurality of words included in the input sentence. ; and a name of a dependency relationship with the governing station.

본 발명의 일 실시예에서는, 상기 레이블링단계는, 상기 입력 문장에 포함된 복수의 어절에서 상기 특정 출력표상에 상응하는 어절의 위치 및 상기 특정 출력표상에 상응하는 어절에 대한 지배소의 위치 사이에서의 상기 지배소에 대한 품사태그를 고려한 거리정보; 및 상기 지배소와의 의존관계명;을 포함하는 특정 레이블로 레이블링할 수 있다.In one embodiment of the present invention, the labeling step may include determining between a position of a word corresponding to the specific output representation in a plurality of words included in the input sentence and a position of a dominant position for a word corresponding to the specific output representation. distance information considering the POM tag for the ruling office; and a name of a dependency relationship with the governing station.

상기와 같은 과제를 해결하기 위하여, 본 발명의 일 실시예에서는, 입력 문장에 대한 시퀀스 레이블링 기반의 의존 구문 분석 방법을 수행하는, 1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅장치로서, 복수의 어절을 포함하는 입력 문장을 수신하고, 상기 복수의 어절 별로 기설정된 복수의 표현규칙에 따라 도출된 복수의 임베딩값을 병합하여 상기 복수의 어절 각각에 대한 어절임베딩값을 도출하는 어절임베딩값도출부; 복수의 인코더 셀을 포함하는 인코더를 통해, 상기 입력 문장에서의 어절 순서에 따른 복수의 어절임베딩값 각각을 상기 각각의 인코더 셀에 입력하여 상기 복수의 어절임베딩값 각각에 대한 출력표상을 출력하는 출력표상출력부; 및 복수의 디코더 셀을 포함하는 디코더를 통해, 상기 입력 문장에서의 어절 순서에 따른 복수의 출력표상 각각 및 해당 출력표상에 인접한 1 이상의 출력표상이 병합된 입력정보를 상기 각각의 디코더 셀에 입력하여 해당 출력표상에 상응하는 어절에 대한 지배소 및 해당 지배소와의 의존관계명을 레이블링하는 레이블링부;를 포함하고, 상기 인코더는 Bidirectional LSTM(BLSTM) 구조로, 상기 디코더는 LSTM 구조로 구성되고, 복수의 인코더 셀 각각은 해당 인코더 셀의 제1방향에 인접한 인코더 셀 및 해당 인코더 셀의 제2방향에 인접한 인코더 셀 각각으로부터 은닉표상을 입력받고, 어절임베딩값 및 복수의 은닉표상에 기초하여 해당 어절임베딩값에 대한 출력표상을 출력하는, 컴퓨팅장치를 제공한다.In order to solve the above problems, in one embodiment of the present invention, a computing device including one or more processors and one or more memories, which performs a sequence labeling-based dependent syntax analysis method for an input sentence, comprising a plurality of words A word embedding value derivation unit that receives an input sentence including a word and derives a word embedding value for each of the plurality of words by merging a plurality of embedding values derived according to a plurality of preset expression rules for each of the plurality of words; Through an encoder including a plurality of encoder cells, an output that inputs each of a plurality of word embedding values according to the word order in the input sentence to each of the encoder cells and outputs an output representation for each of the plurality of word embedding values. representation output unit; and through a decoder including a plurality of decoder cells, input information obtained by merging each of a plurality of output representations according to word order in the input sentence and one or more output representations adjacent to the corresponding output representation is input to each of the decoder cells, A labeling unit for labeling the control points of the word corresponding to the corresponding output representation and the names of the dependencies between the control points, wherein the encoder has a Bidirectional LSTM (BLSTM) structure and the decoder has a LSTM structure; Each of the plurality of encoder cells receives a hidden representation from each of the encoder cells adjacent to the first direction of the corresponding encoder cell and the encoder cells adjacent to the second direction of the corresponding encoder cell, and based on the word embedding value and the plurality of hidden representations, the corresponding word Provided is a computing device that outputs an output representation for an embedding value.

상기와 같은 과제를 해결하기 위하여, 본 발명의 일 실시예에서는, 1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅장치에서 컴퓨터 프로그램을 실행하여, 상기 컴퓨팅장치에 의해 수행되는 입력 문장에 대한 시퀀스 레이블링 기반의 의존 구문 분석 방법을 구현하기 위한 컴퓨터-판독가능 매체로서, 상기 컴퓨터-판독가능 매체는, 상기 컴퓨팅장치로 하여금 이하의 단계들을 수행하도록 하는 명령들을 저장하며, 상기 이하의 단계들은, 복수의 어절을 포함하는 입력 문장을 수신하고, 상기 복수의 어절 별로 기설정된 복수의 표현규칙에 따라 도출된 복수의 임베딩값을 병합하여 상기 복수의 어절 각각에 대한 어절임베딩값을 도출하는 어절임베딩값도출단계; 복수의 인코더 셀을 포함하는 인코더를 통해, 상기 입력 문장에서의 어절 순서에 따른 복수의 어절임베딩값 각각을 상기 각각의 인코더 셀에 입력하여 상기 복수의 어절임베딩값 각각에 대한 출력표상을 출력하는 출력표상출력단계; 및 복수의 디코더 셀을 포함하는 디코더를 통해, 상기 입력 문장에서의 어절 순서에 따른 복수의 출력표상 각각 및 해당 출력표상에 인접한 1 이상의 출력표상이 병합된 입력정보를 상기 각각의 디코더 셀에 입력하여 해당 출력표상에 상응하는 어절에 대한 지배소 및 해당 지배소와의 의존관계명을 레이블링하는 레이블링단계;를 포함하고, 상기 인코더는 Bidirectional LSTM(BLSTM) 구조로, 상기 디코더는 LSTM 구조로 구성되고, 복수의 인코더 셀 각각은 해당 인코더 셀의 제1방향에 인접한 인코더 셀 및 해당 인코더 셀의 제2방향에 인접한 인코더 셀 각각으로부터 은닉표상을 입력받고, 어절임베딩값 및 복수의 은닉표상에 기초하여 해당 어절임베딩값에 대한 출력표상을 출력하는, 컴퓨터-판독가능 매체를 제공한다.In order to solve the above problems, in one embodiment of the present invention, a computer program is executed in a computing device including one or more processors and one or more memories, based on sequence labeling for input sentences performed by the computing device. A computer-readable medium for implementing a dependent syntax analysis method, wherein the computer-readable medium stores instructions for causing the computing device to perform the following steps, the following steps comprising a plurality of words A word embedding value derivation step of receiving an input sentence including and deriving a word embedding value for each of the plurality of words by merging a plurality of embedding values derived according to a plurality of preset expression rules for each of the plurality of words; Through an encoder including a plurality of encoder cells, an output that inputs each of a plurality of word embedding values according to the word order in the input sentence to each of the encoder cells and outputs an output representation for each of the plurality of word embedding values. representation output step; and through a decoder including a plurality of decoder cells, input information obtained by merging each of a plurality of output representations according to word order in the input sentence and one or more output representations adjacent to the corresponding output representation is input to each of the decoder cells, A labeling step of labeling the control points of the word corresponding to the corresponding output representation and the names of the dependencies between the control points, wherein the encoder has a bidirectional LSTM (BLSTM) structure and the decoder has a LSTM structure; Each of the plurality of encoder cells receives a hidden representation from each of the encoder cells adjacent to the first direction of the corresponding encoder cell and the encoder cells adjacent to the second direction of the corresponding encoder cell, and based on the word embedding value and the plurality of hidden representations, the corresponding word A computer-readable medium is provided that outputs an output representation of an embedding value.

본 발명의 일 실시예에 따르면, 어절임베딩값도출단계에서 각 어절을 복수의 표현규칙을 사용하여 복수의 임베딩값을 도출하고, 복수의 임베딩값을 병합하여 생성된 각 어절 별 어절임베딩값을 시퀀스 레이블링 기반의 의존 구문 분석 방법을 수행하기 위한 프레임워크의 인코더에 입력함으로써, 의존 구문 분석의 예측 결과가 종래의 방법에 따른 예측 결과에 비해 개선되는 효과를 발휘할 수 있다.According to an embodiment of the present invention, in the word embedding value derivation step, a plurality of embedding values are derived for each word using a plurality of expression rules, and the word embedding value for each word generated by merging the plurality of embedding values is sequenced. By inputting to the encoder of the framework for performing the labeling-based dependency syntax analysis method, the prediction result of the dependency syntax analysis can be improved compared to the prediction result according to the conventional method.

본 발명의 일 실시예에 따르면, 디코더에 포함된 복수의 디코더 셀 각각은 인코더에 포함된 어텐션모듈로부터 어텐션가중치를 추가적으로 입력받아, 어절에 대한 레이블링을 수행하여, 의존 구문 분석의 예측 결과가 종래의 방법에 따른 예측 결과에 비해 개선되는 효과를 발휘할 수 있다.According to an embodiment of the present invention, each of the plurality of decoder cells included in the decoder additionally receives an attention weight from the attention module included in the encoder and performs labeling on the word, so that the prediction result of dependency syntax analysis is obtained in the conventional case. Compared to the prediction result according to the method, an improvement effect can be exerted.

본 발명의 일 실시예에 따르면, 레이블링단계에서는 각 어절에 대한 지배소 및 해당 지배소와의 의존관계명을 하나의 레이블로 레이블링하기 위하여, 의존관계명 및 의존소와 지배소 사이의 상대적인 거리를 쌍으로 하는 레이블로 레이블링함으로써, 종래의 방법과 비교하여 높은 성능을 달성할 수 있는 효과를 발휘할 수 있다.According to one embodiment of the present invention, in the labeling step, in order to label the dominant location for each word and the dependent relationship name with the corresponding dominant location as one label, the dependent relationship name and the relative distance between the dependent and dominant location are determined. By labeling with paired labels, an effect capable of achieving high performance compared to conventional methods can be exerted.

도 1은 본 발명의 일 실시예에 따른 시퀀스 레이블링 기반의 의존 구문 분석 방법을 수행하는 컴퓨팅장치에 의해 입력 문장에 대한 의존 구문 분석이 수행된 결과를 개략적으로 도시한다.
도 2는 본 발명의 일 실시예에 따른 시퀀스 레이블링 기반의 의존 구문 분석 방법을 수행하는 컴퓨팅장치의 내부 구성요소들을 개략적으로 도시한다.
도 3은 본 발명의 일 실시예에 따른 시퀀스 레이블링 기반의 의존 구문 분석 방법의 세부 단계들을 개략적으로 도시한다.
도 4는 본 발명의 일 실시예에 따른 어절임베딩값도출단계의 수행과정을 개략적으로 도시한다.
도 5는 본 발명의 일 실시예에 따른 제3표현규칙에 의해 변환된 어절을 변환하기 위한 제4표현규칙을 개략적으로 도시한다.
도 6은 본 발명의 일 실시예에 따른 어절에 대한 형태소 분석 결과를 어절태그로 변환하기 위한 제5표현규칙을 개략적으로 도시한다.
도 7은 본 발명의 일 실시예에 따른 레이블링단계의 수행과정을 개략적으로 도시한다.
도 8은 본 발명의 일 실시예에 따른 인코더 및 디코더가 연결되어 있는 프레임워크를 개략적으로 도시한다.
도 9는 본 발명의 일 실시예에 따른 디코더에 구성되는 단방향 LSTM의 구조를 개략적으로 도시한다.
도 10은 본 발명의 일 실시예에 따른 인코더에 구성되는 양방향 LSTM의 구조를 개략적으로 도시한다.
도 11은 본 발명의 일 실시예에 따른 컴퓨팅장치의 내부 구성을 개략적으로 도시한다.
1 schematically illustrates a result of performing dependency syntax analysis on an input sentence by a computing device that performs a sequence labeling-based dependency syntax analysis method according to an embodiment of the present invention.
2 schematically illustrates internal components of a computing device that performs a dependency syntax analysis method based on sequence labeling according to an embodiment of the present invention.
3 schematically illustrates detailed steps of a sequence labeling-based dependency syntax analysis method according to an embodiment of the present invention.
4 schematically illustrates a process of deriving an embedding value according to an embodiment of the present invention.
5 schematically illustrates a fourth expression rule for converting a word converted by a third expression rule according to an embodiment of the present invention.
6 schematically illustrates a fifth expression rule for converting a morpheme analysis result of a word into a word tag according to an embodiment of the present invention.
7 schematically illustrates a process of performing a labeling step according to an embodiment of the present invention.
8 schematically illustrates a framework to which an encoder and a decoder are connected according to an embodiment of the present invention.
9 schematically illustrates the structure of a unidirectional LSTM configured in a decoder according to an embodiment of the present invention.
10 schematically shows the structure of a bidirectional LSTM configured in an encoder according to an embodiment of the present invention.
11 schematically illustrates the internal configuration of a computing device according to an embodiment of the present invention.

이하에서는, 다양한 실시예들 및/또는 양상들이 이제 도면들을 참조하여 개시된다. 하기 설명에서는 설명을 목적으로, 하나이상의 양상들의 전반적 이해를 돕기 위해 다수의 구체적인 세부사항들이 개시된다. 그러나, 이러한 양상(들)은 이러한 구체적인 세부사항들 없이도 실행될 수 있다는 점 또한 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 인식될 수 있을 것이다. 이후의 기재 및 첨부된 도면들은 하나 이상의 양상들의 특정한 예시적인 양상들을 상세하게 기술한다. 하지만, 이러한 양상들은 예시적인 것이고 다양한 양상들의 원리들에서의 다양한 방법들 중 일부가 이용될 수 있으며, 기술되는 설명들은 그러한 양상들 및 그들의 균등물들을 모두 포함하고자 하는 의도이다.In the following, various embodiments and/or aspects are disclosed with reference now to the drawings. In the following description, for purposes of explanation, numerous specific details are set forth in order to facilitate a general understanding of one or more aspects. However, it will also be appreciated by those skilled in the art that such aspect(s) may be practiced without these specific details. The following description and accompanying drawings describe in detail certain illustrative aspects of one or more aspects. However, these aspects are exemplary and some of the various methods in principle of the various aspects may be used, and the described descriptions are intended to include all such aspects and their equivalents.

또한, 다양한 양상들 및 특징들이 다수의 디바이스들, 컴포넌트들 및/또는 모듈들 등을 포함할 수 있는 시스템에 의하여 제시될 것이다. 다양한 시스템들이, 추가적인 장치들, 컴포넌트들 및/또는 모듈들 등을 포함할 수 있다는 점 그리고/또는 도면들과 관련하여 논의된 장치들, 컴포넌트들, 모듈들 등 전부를 포함하지 않을 수도 있다는 점 또한 이해되고 인식되어야 한다.Moreover, various aspects and features will be presented by a system that may include a number of devices, components and/or modules, and the like. It should also be noted that various systems may include additional devices, components and/or modules, and/or may not include all of the devices, components, modules, etc. discussed in connection with the figures. It must be understood and recognized.

본 명세서에서 사용되는 "실시예", "예", "양상", "예시" 등은 기술되는 임의의 양상 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되지 않을 수도 있다. 아래에서 사용되는 용어들 '~부', '컴포넌트', '모듈', '시스템', '인터페이스' 등은 일반적으로 컴퓨터 관련 엔티티(computer-related entity)를 의미하며, 예를 들어, 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어를 의미할 수 있다."Example", "example", "aspect", "exemplary", etc., used herein should not be construed as preferring or advantageous to any aspect or design being described over other aspects or designs. . The terms '~unit', 'component', 'module', 'system', 'interface', etc. used below generally mean a computer-related entity, and for example, hardware, hardware It may mean a combination of and software, software.

또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징 및/또는 구성요소가 존재함을 의미하지만, 하나이상의 다른 특징, 구성요소 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다.Also, the terms "comprises" and/or "comprising" mean that the feature and/or element is present, but excludes the presence or addition of one or more other features, elements and/or groups thereof. It should be understood that it does not.

또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.In addition, terms including ordinal numbers, such as first and second, may be used to describe various components, but the components are not limited by the terms. These terms are only used for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element, without departing from the scope of the present invention. The terms and/or include any combination of a plurality of related recited items or any of a plurality of related recited items.

또한, 본 발명의 실시예들에서, 별도로 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명의 실시예에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.In addition, in the embodiments of the present invention, unless otherwise defined, all terms used herein, including technical or scientific terms, are generally understood by those of ordinary skill in the art to which the present invention belongs. has the same meaning as Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in the embodiments of the present invention, an ideal or excessively formal meaning not be interpreted as

도 1은 본 발명의 일 실시예에 따른 시퀀스 레이블링 기반의 의존 구문 분석 방법을 수행하는 컴퓨팅장치(1000)에 의해 입력 문장에 대한 의존 구문 분석이 수행된 결과를 개략적으로 도시한다.1 schematically illustrates a result of performing dependency syntax analysis on an input sentence by a computing device 1000 performing a sequence labeling-based dependency syntax analysis method according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 시퀀스 레이블링 기반의 의존 구문 분석 방법을 수행하는 컴퓨팅장치(1000)는 분석 대상인 입력 문장을 수신하고, 상기 입력 문장에 포함된 복수의 어절에 대하여 상술한 시퀀스 레이블링 기반 의존 구문 분석을 수행할 수 있다.As shown in FIG. 1, a computing device 1000 performing the sequence labeling-based dependency syntax analysis method receives an input sentence to be analyzed, and the above-described sequence labeling-based dependency syntax analysis method for a plurality of words included in the input sentence. Syntax analysis can be performed.

후술하는 본 발명의 일 실시예에서는, 발명의 설명을 용이하게 하기 위하여, 입력 문장의 예로써 도 1에 도시된 바와 같이,'경심이는 금년 나이 스물 다섯이다'라는 문장을 사용하고, 해당 입력 문장에 포함된 총 5 개의 복수의 어절('경심이는', '금년', '나이', '스물' 및 '다섯이다')에 대하여 상기 컴퓨팅장치(1000)에서 수행하는 시퀀스 레이블링 기반의 의존 구문 분석 과정에 대해 설명하도록 한다.In an embodiment of the present invention described later, in order to facilitate the description of the invention, as shown in FIG. 1 as an example of an input sentence, the sentence 'Kyungsim is twenty-five this year' is used, and the corresponding input Sequence labeling-based dependence performed by the computing device 1000 for a total of five plural words included in a sentence ('Gyeongsimi', 'this year', 'age', 'twenty', and 'five') Explain the syntax analysis process.

즉, 상기 컴퓨팅장치(1000)에서 수행하는 시퀀스 레이블링 기반의 의존 구문 분석 과정을 통해 입력 문장에 포함된 복수의 어절의 순서대로 해당 어절을 의존소로 하는 지배소를 예측하고, 해당 의존소와 해당 지배소 사이의 의존관계명을 예측하게 된다. 구체적으로, 본 발명에서는 의존소에 대한 지배소 및 의존관계명을 하나의 레이블(label)로 하는 레이블링을 통해 의존 구문 분석이 수행될 수 있다.That is, through the sequence labeling-based dependent syntactic analysis process performed by the computing device 1000, the dominant elements having the corresponding word as dependent elements are predicted in the order of a plurality of words included in the input sentence, and the dependent elements and the corresponding dominant elements are predicted. It predicts the names of dependencies between cows. Specifically, in the present invention, dependency syntax analysis may be performed through labeling in which a dominant element and a dependent relationship name for a dependent element are used as one label.

도 2는 본 발명의 일 실시예에 따른 시퀀스 레이블링 기반의 의존 구문 분석 방법을 수행하는 컴퓨팅장치(1000)의 내부 구성요소들을 개략적으로 도시한다.FIG. 2 schematically illustrates internal components of a computing device 1000 that performs a dependency syntax analysis method based on sequence labeling according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 상기 컴퓨팅장치(1000)는 시퀀스 레이블링 기반의 의존 구문 분석 방법을 수행하기 위하여, 어절임베딩값도출부(1100), 출력표상출력부(1200), 레이블링부(1300) 및 DB(1400)를 포함할 수 있다.As shown in FIG. 2, the computing device 1000 includes a word embedding value derivation unit 1100, an output representation output unit 1200, and a labeling unit 1300 in order to perform the sequence labeling-based dependent syntax analysis method. and DB 1400.

상기 어절임베딩값도출부(1100)는 어절임베딩값도출단계(S10)를 수행하여, 입력 문장에 포함된 복수의 어절 각각에 대한 어절임베딩값을 도출한다. 구체적으로, 이를 위하여 상기 어절임베딩값도출부(1100)는 복수의 어절 각각에 대하여 복수의 표현규칙에 따라 해당 어절을 변환하고, 복수의 표현규칙 각각에 따라 변환된 해당 어절 각각을 임베딩하여 복수의 임베딩값을 도출한다. 이와 같이, 각 어절별로 도출된 복수의 임베딩값에 기초하여 각 어절별 어절임베딩값을 도출한다. 상기 어절임베딩값은 해당 어절에 대한 시퀀스 레이블링 기반의 의존 구문 분석을 효과적으로 수행하기 위하여 해당 어절을 벡터 형태로 표현한 값에 해당하며, 상기 어절임베딩값은 후술하는 출력표상출력부(1200)에 입력되어 최종적으로 해당 어절에 대한 레이블링이 수행될 수 있다.The word embedding value deriving unit 1100 performs a word embedding value deriving step (S10) to derive a word embedding value for each of a plurality of words included in the input sentence. Specifically, for this purpose, the word embedding value deriving unit 1100 converts each of a plurality of words according to a plurality of expression rules, and embeds each of the converted words according to each of a plurality of expression rules to obtain a plurality of words. Derive the embedding value. In this way, the word embedding value for each word is derived based on the plurality of embedding values derived for each word. The word embedding value corresponds to a value expressed in a vector form in order to effectively perform sequence labeling-based dependency syntax analysis on the word, and the word embedding value is input to the output representation output unit 1200 to be described later. Finally, labeling of the corresponding word may be performed.

상기 출력표상출력부(1200)는 출력표상출력단계(S20)를 수행하여, 인코더(1430)에 복수의 어절 별로 도출된 복수의 어절임베딩값을 입력하여, 상기 인코더(1430)를 통해 복수의 어절임베딩값 각각에 대한 출력표상을 도출한다. 상기 출력표상은 해당 어절의 제1방향의 이전에 위치한 1 이상의 어절들 및 해당 어절의 제2방향의 이전에 위치한 1 이상의 어절들의 관계 등을 고려한 해당 어절에 대한 특징값에 해당할 수 있다. 이와 같이, 복수의 어절임베딩값 별로 도출된 복수의 출력표상은 후술하는 레이블링부(1300)에 입력될 수 있다.The output representation output unit 1200 performs an output representation output step (S20), inputs a plurality of word embedding values derived for each word to the encoder 1430, and inputs a plurality of word embedding values through the encoder 1430. An output representation for each embedding value is derived. The output representation may correspond to a feature value for the corresponding word considering a relationship between one or more words located before the first direction of the corresponding word and one or more words located before the second direction of the corresponding word. In this way, a plurality of output representations derived for each of a plurality of word embedding values may be input to a labeling unit 1300 to be described later.

상기 레이블링부(1300)는 레이블링단계(S30)를 수행하여, 디코더(1440)에 복수의 어절임베딩값에 상응하는 복수의 출력표상을 입력하여, 상기 디코더(1440)를 통해 복수의 어절 각각에 대한 레이블링 결과를 도출한다. 상기 레이블링 결과는 해당 어절을 의존소로 하고, 상기 의존소에 대한 지배소 및 지배소와의 의존관계명을 하나의 레이블로 하는 정보에 해당할 수 있다. 이와 같이, 레이블링단계(S30)에서는 입력 문장에 포함된 복수의 어절 각각에 대한 레이블링을 수행하는 것으로 상기 입력 문장에 대한 의존 구문 분석을 수행할 수 있다.The labeling unit 1300 performs a labeling step (S30), inputs a plurality of output representations corresponding to a plurality of word embedding values to the decoder 1440, and through the decoder 1440 for each of a plurality of words. Derive labeling results. The labeling result may correspond to information in which a corresponding word is a dependent element, and a dominant element for the dependent element and a name of a dependency relationship with the dominant element are used as one label. In this way, in the labeling step (S30), by performing labeling on each of a plurality of words included in the input sentence, dependency syntax analysis on the input sentence may be performed.

상기 DB(1400)에는 상기 어절임베딩값도출부(1100), 상기 출력표상출력부(1200) 및 상기 레이블링부(1300) 각각에서 수행하는 단계(S10 내지 S30)들에서 요구되는 요소들이 저장되어 있고, 각 단계가 수행되는 경우에 해당 단계에서 요구하는 요소들을 제공할 수 있다. 구체적으로, 상기 어절임베딩값도출부(1100)에서 어절임베딩값도출단계(S10)를 수행하는 경우에 입력 문장의 어절을 변환하기 위한 복수의 표현규칙(1410) 및 복수의 표현규칙(1410)에 따라 변환된 어절을 임베딩하기 위한 임베딩모듈(1420)이 상기 DB(1400)에 저장될 수 있다. 또한, 상기 출력표상출력부(1200)에서 출력표상출력단계(S20)를 수행하는 경우에 어절임베딩값을 입력받아 출력표상을 출력하는 인코더(1430)가 상기 DB(1400)에 저장될 수 있으며, 상기 레이블링부(1300)에서 레이블링단계(S30)를 수행하는 경우에 출력표상을 입력받아 레이블링 결과를 출력하는 디코더(1440) 또한 상기 DB(1400)에 저장될 수 있다.The DB 1400 stores elements required for steps (S10 to S30) performed by the word embedding value derivation unit 1100, the output representation output unit 1200, and the labeling unit 1300, respectively. In the case where each step is performed, the elements required by the step can be provided. Specifically, when the word embedding value derivation step (S10) is performed in the word embedding value derivation unit 1100, the plurality of expression rules 1410 and the plurality of expression rules 1410 for converting the word of the input sentence An embedding module 1420 for embedding the converted word may be stored in the DB 1400. In addition, when the output representation output step (S20) is performed in the output representation output unit 1200, an encoder 1430 that receives a word embedding value and outputs an output representation may be stored in the DB 1400, When the labeling step (S30) is performed in the labeling unit 1300, the decoder 1440 that receives the output representation and outputs the labeling result may also be stored in the DB 1400.

이하에서는, 상기 컴퓨팅장치(1000)에 포함된 내부 구성요소에 의하여 본 발명의 시퀀스 레이블링 기반의 의존 구문 분석 방법을 수행하기 위한 과정들에 대해 구체적으로 설명하도록 한다.Hereinafter, processes for performing the sequence labeling-based dependency syntax analysis method of the present invention by internal components included in the computing device 1000 will be described in detail.

도 3은 본 발명의 일 실시예에 따른 시퀀스 레이블링 기반의 의존 구문 분석 방법의 세부 단계들을 개략적으로 도시한다.3 schematically illustrates detailed steps of a sequence labeling-based dependency syntax analysis method according to an embodiment of the present invention.

도 3에 도시된 바와 같이, 본 발명의 일 실시예에서는, 1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅장치(1000)에서 수행하는 입력 문장에 대한 시퀀스 레이블링 기반의 의존 구문 분석 방법으로서, 복수의 어절을 포함하는 입력 문장을 수신하고, 상기 복수의 어절 별로 기설정된 복수의 표현규칙에 따라 도출된 복수의 임베딩값을 병합하여 상기 복수의 어절 각각에 대한 어절임베딩값을 도출하는 어절임베딩값도출단계(S10); 복수의 인코더 셀(1431)을 포함하는 인코더(1430)를 통해, 상기 입력 문장에서의 어절 순서에 따른 복수의 어절임베딩값 각각을 상기 각각의 인코더 셀(1431)에 입력하여 상기 복수의 어절임베딩값 각각에 대한 출력표상을 출력하는 출력표상출력단계(S20); 및 복수의 디코더 셀(1441)을 포함하는 디코더(1440)를 통해, 상기 입력 문장에서의 어절 순서에 따른 복수의 출력표상 각각 및 해당 출력표상에 인접한 1 이상의 출력표상이 병합된 입력정보를 상기 각각의 디코더 셀(1441)에 입력하여 해당 출력표상에 상응하는 어절에 대한 지배소 및 해당 지배소와의 의존관계명을 레이블링하는 레이블링단계(S30);를 포함할 수 있다.As shown in FIG. 3 , in one embodiment of the present invention, as a sequence labeling-based dependency syntax analysis method for an input sentence performed in a computing device 1000 including one or more processors and one or more memories, a plurality of A word embedding value derivation step of receiving an input sentence including a word and deriving a word embedding value for each of the plurality of words by merging a plurality of embedding values derived according to a plurality of preset expression rules for each of the plurality of words. (S10); Through the encoder 1430 including a plurality of encoder cells 1431, each of a plurality of word embedding values according to the word order in the input sentence is input to each of the encoder cells 1431, and the plurality of word embedding values an output representation output step (S20) of outputting an output representation for each; and input information obtained by merging each of a plurality of output representations according to the word order in the input sentence and one or more output representations adjacent to the corresponding output representation through a decoder 1440 including a plurality of decoder cells 1441, respectively. It may include a labeling step (S30) of inputting to the decoder cell 1441 of the output representation and labeling the dominant location for the word corresponding to the corresponding output representation and the name of the dependent relationship with the corresponding dominant location.

구체적으로, 상기 어절임베딩값도출단계(S10)는 상기 출력표상출력단계(S20)에서 사용하는 인코더(1430)에 입력 문장에 포함된 복수의 어절을 입력하기 위하여, 복수의 어절 각각을 복수의 표현규칙에 따른 복수의 어절에 대한 자질로 표현하기 위하여 임베딩하고, 임베딩된 복수의 임베딩값을 하나로 이어 붙여 각각의 어절에 대한 어절임베딩값을 도출한다.Specifically, in the word embedding value derivation step (S10), in order to input a plurality of words included in the input sentence to the encoder 1430 used in the output representation output step (S20), a plurality of expressions are expressed for each of the plurality of words. Embedding is performed to express the features of a plurality of words according to rules, and the word embedding value for each word is derived by concatenating the plurality of embedded embedding values into one.

이와 같이, 본 발명에서는 시퀀스 레이블링 기반의 의존 구문 분석을 수행하기 위한 분석 단위로 어절을 사용하며, 특히 등록되어 있지 않은 단어에 대한 의존 구문 분석을 효과적으로 수행하기 위하여 상술한 바와 같이, 해당 단어를 포함하는 어절을 복수의 표현규칙에 따른 어절임베딩값으로 표현함으로써, 미등록어에 대한 의존 구문 분석을 용이하게 수행할 수 있도록 한다.As such, in the present invention, a word is used as an analysis unit for performing sequence labeling-based dependency syntax analysis, and in particular, in order to effectively perform dependency syntax analysis on unregistered words, as described above, the word is included. By expressing the word to be expressed as a word embedding value according to a plurality of expression rules, it is possible to easily perform dependency syntax analysis on unregistered words.

상기 출력표상출력단계(S20)는 복수의 인코더 셀(1431)로 구성된 인코더(1430)를 사용하여 각 어절에 대한 출력표상을 출력한다. 구체적으로 상기 복수의 인코더 셀(1431) 각각은, 상기 복수의 인코더 셀(1431) 각각이 제1방향으로 연결된 LSTM 신경망의 셀 유닛 및 상기 복수의 인코더 셀(1431) 각각이 제2방향으로 연결된 LSTM 신경망의 셀 유닛을 포함할 수 있다. 바람직하게는 상기 제1방향은 입력 문장의 문장 진행 방향을 의미하고, 상기 제2방향은 입력 문장의 문장 진행의 역방향을 의미할 수 있다.In the output representation output step (S20), an output representation for each word is output using an encoder 1430 composed of a plurality of encoder cells 1431. Specifically, each of the plurality of encoder cells 1431 is a cell unit of an LSTM neural network in which each of the plurality of encoder cells 1431 is connected in a first direction and an LSTM in which each of the plurality of encoder cells 1431 is connected in a second direction It may include a cell unit of a neural network. Preferably, the first direction may mean a sentence progression direction of the input sentence, and the second direction may mean a reverse direction of the sentence progression of the input sentence.

한편, 상기 인코더(1430)는 상기 입력 문장에 포함된 복수의 어절 개수 이상의 복수의 인코더 셀(1431)을 포함하며, 따라서, 순차적으로 연결되어 있는 복수의 인코더 셀(1431) 각각에는 입력 문장의 문장 진행 순서에 상응하는 각각의 어절에 대한 어절임베딩값이 입력되고, 해당 어절임베딩값에 상응하는 출력표상을 출력할 수 있다.Meanwhile, the encoder 1430 includes a plurality of encoder cells 1431 equal to or greater than the number of words included in the input sentence, and therefore, each of the plurality of encoder cells 1431 sequentially connected has a sentence of the input sentence. A word embedding value for each word corresponding to the proceeding order is input, and an output representation corresponding to the word embedding value can be output.

상기 레이블링단계(S30)는 복수의 디코더 셀(1441)로 구성된 디코더(1440)를 사용하여 입력되는 각각의 출력표상에 상응하는 어절에 대한 지배소 및 의존관계명에 대한 레이블링을 수행하는 것으로 해당 어절에 대한 지배소 및 의존관계명을 예측할 수 있다. 구체적으로 상기 복수의 디코더 셀(1441) 각각은 제1방향으로 연결된 LSTM 신경망의 셀 유닛을 포함할 수 있다.In the labeling step (S30), labeling of the dominant and dependent relation names of the word corresponding to each output representation is input using the decoder 1440 composed of a plurality of decoder cells 1441, and the corresponding word It is possible to predict the names of the governing places and dependencies for . Specifically, each of the plurality of decoder cells 1441 may include a cell unit of an LSTM neural network connected in a first direction.

한편, 상기 디코더(1440)는 상기 인코더(1430)에서 출력하는 복수의 출력표상의 개수 이상의 복수의 디코더 셀(1441)을 포함하며, 따라서 순차적으로 연결되어 있는 복수의 디코더 셀(1441) 각각에는 입력 문장의 문장 진행 순서에 상응하는 각각의 어절에 대한 출력표상이 입력되고, 해당 출력표상에 상응하는 레이블링 결과를 출력할 수 있다.Meanwhile, the decoder 1440 includes a plurality of decoder cells 1441 equal to or greater than the number of output representations output from the encoder 1430, and therefore, each of the plurality of decoder cells 1441 sequentially connected has an input An output representation for each word corresponding to the sentence progression sequence of the sentence is input, and a labeling result corresponding to the corresponding output representation can be output.

또한, 본 발명에서 각각의 디코더 셀(1441)에는 해당 어절에 상응하는 출력표상만 입력되는 것이 아니라, 해당 출력표상 및 해당 출력표상에 이웃하는 1 이상의 출력표상이 병합되어 디코더 셀(1441)에 입력될 수 있다.In addition, in the present invention, not only the output representation corresponding to the corresponding word is input to each decoder cell 1441, but the corresponding output representation and one or more output representations adjacent to the corresponding output representation are merged and input to the decoder cell 1441. It can be.

도 4는 본 발명의 일 실시예에 따른 어절임베딩값도출단계(S10)의 수행과정을 개략적으로 도시한다.4 schematically illustrates the process of deriving the word embedding value step (S10) according to an embodiment of the present invention.

도 4에 도시된 바와 같이, 어절임베딩값도출단계(S10)는 입력 문장에 포함된 복수의 어절 별로 해당 어절을 복수의 표현규칙에 따라 변환하고, 복수의 표현규칙에 따라 변환된 해당 어절을 임베딩하여 복수의 임베딩값을 도출하고, 이를 병합하는 것으로 해당 어절에 대한 어절임베딩값을 도출한다. 한편, 본 발명의 일 실시예에서는 복수의 표현규칙은 제1 내지 제5표현규칙을 포함하며, 이하에서는 각 표현규칙에 따라 어절이 변환되고, 이를 임베딩하는 과정에 대해 각각 설명하도록 하며, 도 4에 도시된 바와 같이, '경심이는' 이라는 어절에 대한 어절임베딩값을 도출하는 것을 예로 들어 설명하도록 한다.As shown in FIG. 4, in the word embedding value derivation step (S10), the corresponding word is converted according to a plurality of expression rules for each of a plurality of words included in the input sentence, and the converted word according to the plurality of expression rules is embedded. A plurality of embedding values are derived, and the word embedding value for the corresponding word is derived by merging them. On the other hand, in one embodiment of the present invention, the plurality of expression rules include the first to fifth expression rules, and hereinafter, a process of converting a word according to each expression rule and embedding it will be described. FIG. As shown in , the derivation of the word embedding value for the word 'Gyeongsimi' will be described as an example.

도 4에 도시된 바와 같이, 본 발명의 일 실시예에서는, 상기 복수의 표현규칙은, 해당 어절을 형태소 단위로 표현하는 제1표현규칙을 포함하고, 상기 어절임베딩값도출단계(S10)는, 상기 제1표현규칙에 따른 해당 어절에 대한 형태소를 임베딩하여 제1임베딩값을 도출하고, 해당 어절이 복수의 형태소를 포함하는 경우에 해당 어절의 첫번째 형태소를 임베딩하여 제1임베딩값을 도출할 수 있다.As shown in FIG. 4, in one embodiment of the present invention, the plurality of expression rules include a first expression rule for expressing the corresponding word in morpheme units, and the word embedding value deriving step (S10), A first embedding value may be derived by embedding the morpheme of the corresponding word according to the first expression rule, and when the corresponding word includes a plurality of morphemes, the first embedding value may be derived by embedding the first morpheme of the corresponding word. there is.

구체적으로, 제1표현규칙은 어절을 형태소 단위로 변환하는 표현규칙에 해당한다. 해당 어절이 단일의 형태소를 포함하는 경우에 해당 형태소가 해당 어절에 대한 대표 형태소가 될 수 있고, 만약 해당 어절이 복수의 형태소를 포함하는 경우에 해당 어절의 첫 번째 형태소를 해당 어절의 대표 형태소로 결정한다. 예를 들어, 도 4에 도시된 어절 '경심이는'을 형태소 분석하면 '경심이/NNP' 및 '는/JX'의 두 개의 형태소로 분석될 수 있으며, 이 때 상기 '경심이/NNP'가 상기 제1표현규칙에 따른 어절 '경심이는'의 대표 형태소, 즉 상기 제1표현규칙에 따른 변환 결과에 해당할 수 있다.Specifically, the first expression rule corresponds to an expression rule for converting a word into a morpheme unit. When the corresponding morpheme includes a single morpheme, the morpheme may be a representative morpheme for the corresponding word, and when the corresponding word includes a plurality of morphemes, the first morpheme of the corresponding word is designated as the representative morpheme of the corresponding word. Decide. For example, if the morpheme analysis of the word 'Gyeongshimi' shown in FIG. 4 is performed, it can be analyzed as two morphemes of 'Gyeongshimi/NNP' and 'Eun/JX'. In this case, the 'Gyeongsimi/NNP' may correspond to a representative morpheme of the word 'Gyeongsimi' according to the first expression rule, that is, a conversion result according to the first expression rule.

한편, 제1표현규칙에 따라 변환된 어절을 임베딩하는 것으로 해당 어절에 대한 제1임베딩값이 도출될 수 있다. 구체적으로, 상기 제1표현규칙에 따라 변환된 어절을 임베딩하기 위하여 DB(1400)에 저장된 임베딩모듈을 사용할 수 있으며, 더 구체적으로 제1표현규칙에 따라 변환된 어절을 임베딩하는 임베딩모듈은 대용량 문장 코퍼스(Corpus)를 학습데이터로 하여 word2vec 방식으로 사전학습된 모델에 해당할 수 있다. 바람직하게는 도 1에 도시된 한국어 기반의 입력 문장을 대상으로 하는 경우에 학습데이터는 한국어 문장으로 구성된 코퍼스에 해당할 수 있다.Meanwhile, by embedding a word converted according to the first expression rule, a first embedding value for the corresponding word may be derived. Specifically, an embedding module stored in the DB 1400 may be used to embed a word converted according to the first expression rule, and more specifically, an embedding module that embeds a word converted according to the first expression rule is a large-capacity sentence. It may correspond to a pretrained model using the word2vec method using a corpus as training data. Preferably, in the case of targeting Korean-based input sentences shown in FIG. 1, training data may correspond to a corpus composed of Korean sentences.

도 4에 도시된 바와 같이, 본 발명의 일 실시예에서는, 상기 복수의 표현규칙은, 해당 어절을 음절 단위로 표현하는 제2표현규칙을 포함하고, 상기 어절임베딩값도출단계(S10)는, 상기 제2표현규칙에 따른 해당 어절에 포함된 1 이상의 음절 각각을 임베딩하여 1 이상의 음절임베딩값을 도출하고, 상기 1 이상의 음절임베딩값을 병합하여 제2임베딩값을 도출할 수 있다.As shown in FIG. 4, in one embodiment of the present invention, the plurality of expression rules include a second expression rule for expressing the corresponding word in syllable units, and the word embedding value deriving step (S10) comprises: One or more syllable embedding values may be derived by embedding each of one or more syllables included in the corresponding word according to the second expression rule, and a second embedding value may be derived by merging the one or more syllable embedding values.

구체적으로, 제2표현규칙은 어절을 음절 단위로 변환하는 표현규칙에 해당한다. 상기 제2표현규칙은 해당 어절 또는 해당 어절에 포함된 단어가 미등록어(Out of vocabulary)인 경우에 입력 문장 또는 해당 어절에 대한 의존 구문 분석이 정상적으로 이루어지지 않는 문제점을 해결하기 위한 요소에 해당한다. 예를 들어, 도 4에 도시된 어절 '경심이는'은 상기 제2표현규칙에 의하여 '경', '심', '이' 및 '는'의 4 개의 음절로 변환될 수 있으며, 각 음절에 대한 표상 각각을 임베딩하여 병합하는 것으로 제2표현규칙에 따른 제2임베딩값이 도출될 수 있다.Specifically, the second expression rule corresponds to an expression rule for converting words into syllable units. The second expression rule corresponds to an element for solving a problem in which dependent syntax analysis for an input sentence or a corresponding word is not normally performed when a corresponding word or a word included in the corresponding word is out of vocabulary. . For example, the word 'gyeongsimi' shown in FIG. 4 can be converted into four syllables 'gyeong', 'sim', 'i' and 'eun' according to the second expression rule, and each syllable A second embedding value according to the second expression rule can be derived by embedding and merging each of the representations for .

더 구체적으로, 상기 제2표현규칙에 따라 음절 단위로 변환된 복수의 음절 각각을 임베딩하기 위하여 DB(1400)에 저장된 임베딩모듈을 사용할 수 있으며, 상기 제2표현규칙에 따라 변환된 음절 각각을 임베딩하는 임베딩모듈은 대용량 문장 코퍼스를 학습데이터로 하여 음절 단위로 학습한 컨볼루션 신경망(Convolution Neural Network) 모델에 해당할 수 있다. 바람직하게는 도 1에 도시된 한국어 기반의 입력 문장을 대상으로 하는 경우에 학습데이터는 한국어 문장으로 구성된 코퍼스에 해당할 수 있다.More specifically, an embedding module stored in the DB 1400 may be used to embed each of the plurality of syllables converted in syllable units according to the second expression rule, and each of the syllables converted according to the second expression rule may be embedded. The embedding module may correspond to a convolutional neural network model learned in units of syllables using a large-capacity sentence corpus as training data. Preferably, in the case of targeting Korean-based input sentences shown in FIG. 1, training data may correspond to a corpus composed of Korean sentences.

도 4에 도시된 바와 같이, 본 발명의 일 실시예에서는, 상기 복수의 표현규칙은, 상기 입력 문장의 언어에 대하여 기설정된 제1품사태그정보에 기초하여 해당 어절을 해당 어절의 1 이상의 형태소 각각에 대한 품사태그로 표현하는 제3표현규칙을 포함하고, 상기 어절임베딩값도출단계(S10)는, 상기 제3표현규칙에 따른 해당 어절에 대한 형태소의 품사태그를 임베딩하여 제3임베딩값을 도출하고, 해당 어절이 복수의 형태소를 포함하는 경우에 해당 어절의 첫번째 형태소의 품사태그를 임베딩하여 제3임베딩값을 도출할 수 있다.As shown in FIG. 4 , in one embodiment of the present invention, the plurality of expression rules, each of one or more morphemes of the corresponding word based on the first part of speech tag information preset for the language of the input sentence. A third expression rule expressed as a part-of-speech for is included, and the word embedding value derivation step (S10) derives a third embedding value by embedding the part-of-speech of the morpheme for the corresponding word according to the third expression rule. And, when the corresponding word includes a plurality of morphemes, a third embedding value may be derived by embedding the part-of-speech of the first morpheme of the corresponding word.

구체적으로, 제3표현규칙은 입력 문장의 언어에 대하여 기설정된 제1품사태그정보에 따라 해당 어절에 제1품사태그정보에 따른 특정 품사태그를 태깅하기 위한 표현규칙에 해당한다. 한편, 상기 제1품사태그정보는 Language-Specific part-of-Speech Tag(XPoS)에 해당하며, 상기 제1품사태그정보는 입력 문장의 언어에 따라 상이하게 구성될 수 있다. 예를 들어, 입력 문장이 한국어인 경우에 상기 제1품사태그정보는 21세기 세종계획에서 제정된 '세종 품사 태그'를 포함할 수 있다.Specifically, the third expression rule corresponds to an expression rule for tagging a specific POS tag according to the first POS tag information to a corresponding word according to the first POS tag information preset for the language of the input sentence. Meanwhile, the first part-of-speech tag information corresponds to a Language-Specific part-of-Speech Tag (XPoS), and the first part-of-speech tag information may be configured differently according to the language of the input sentence. For example, when an input sentence is Korean, the first Poomsae tag information may include a 'Sejong Poomsae tag' established in the 21st century Sejong Plan.

상기 제3표현규칙은 해당 어절에 대한 형태소 자체를 자질로 사용하기 위한 표현규칙으로써, 상술한 제1표현규칙에서와 같이, 해당 어절이 단일의 형태소를 포함하는 경우에 해당 형태소에 대한 품사태그로 변환되고, 해당 어절이 복수의 형태소를 포함하는 경우에 복수의 형태소 가운데 첫 번째 형태소가 해당 어절의 대표 형태소로써 제1품사태그정보에 기초하여 대표 형태소에 상응하는 품사태그로 변환될 수 있다. 예를 들어, 도 4에 도시된 어절 '경심이는'의 대표 형태소인 '경심이'의 세종 품사 태그에 해당하는 'NNP'가 상기 제3표현규칙에 따른 변환 결과에 해당할 수 있다.The third expression rule is an expression rule for using the morpheme itself of the corresponding word as a feature, and, as in the above-mentioned first expression rule, when the corresponding word includes a single morpheme, it is a part-of-speech for the corresponding morpheme. and, when the corresponding word includes a plurality of morphemes, a first morpheme among the plurality of morphemes may be converted into a part of speech tag corresponding to the representative morpheme based on the first part of speech tag information as a representative morpheme of the corresponding word. For example, 'NNP' corresponding to the Sejong part-of-speech tag of 'Gyeongshimi', which is a representative morpheme of the word 'Gyeongsimi' shown in FIG. 4, may correspond to the conversion result according to the third expression rule.

한편, 제3표현규칙에 따라 변환된 특정 품사태그를 임베딩하는 것으로 해당 어절에 대한 제3임베딩값이 도출될 수 있다. 구체적으로, 상기 제3표현규칙에 따라 변환된 특정 품사태그를 임베딩하기 위하여 DB(1400)에 저장된 임베딩모듈을 사용할 수 있으며, 더 구체적으로 제3표현규칙에 따라 변환된 어절을 임베딩하는 임베딩모듈은 통상의 정보를 벡터로 변환하기 위한 종래의 다양한 방식의 임베딩모듈을 사용할 수 있고, 본 발명의 다른 실시예에서는 상기 임베딩모듈은 상기 제1표현규칙에서의 임베딩모듈과 동일할 수도 있다.Meanwhile, a third embedding value for a corresponding word may be derived by embedding a specific part-of-speech tag converted according to the third expression rule. Specifically, an embedding module stored in the DB 1400 may be used to embed a specific part-of-speech tag converted according to the third expression rule, and more specifically, an embedding module for embedding a word converted according to the third expression rule Conventional embedding modules of various methods for converting normal information into vectors may be used, and in another embodiment of the present invention, the embedding module may be the same as the embedding module in the first expression rule.

도 4에 도시된 바와 같이, 본 발명의 일 실시예에서는, 상기 복수의 표현규칙은, 복수의 언어를 동일한 형태로 표현하기 위하여 기설정된 제2품사태그정보에 기초하여 해당 어절에 대한 품사태그로 표현하는 제4표현규칙을 포함하고, 상기 어절임베딩값도출단계(S10)는, 상기 제4표현규칙에 따른 해당 어절에 대한 품사태그를 임베딩하여 제4임베딩값을 도출할 수 있다.As shown in FIG. 4 , in one embodiment of the present invention, the plurality of expression rules are converted into a part-of-speech for a corresponding word based on second part-of-speech tag information preset to express a plurality of languages in the same form. In the word embedding value derivation step (S10), a fourth embedding value may be derived by embedding a part-of-speech tag for a corresponding word according to the fourth expression rule.

구체적으로, 제4표현규칙은 다양한 언어를 범용적인 형태로 표현하기 위하여 기설정된 제2품사태그정보에 따라 해당 어절에 대한 제2품사태그정보에 따른 특정 태그를 태깅하기 위한 표현규칙에 해당한다. 한편, 상기 제2품사태그정보는 Universal Part-of-Speech Tag(UPoS)에 해당하며, UPoS는 스탠포드의 의존관계 태그셋 및 Google POS 체계를 하나로 묶어 범 언어적인 주석에 활용하기 위한 The Universal Dependency Treebank Project에 해당하며, 각 언어가 가지고 있는 여러 언어 자원을 하나의 통일된 형식(CoNLL U-Format)으로 변환하여 만들어진 태그정보에 해당한다. UPoS는 해당 어절이 부사인지, 형용사인지 등에 대한 정보를 포함하고 있다.Specifically, the fourth expression rule corresponds to an expression rule for tagging a specific tag according to second part of speech tag information for a corresponding word according to preset second part of speech tag information in order to express various languages in a general form. On the other hand, the second product tag information corresponds to Universal Part-of-Speech Tag (UPoS), and UPoS is The Universal Dependency Treebank for use in pan-linguistic annotation by tying Stanford's dependency tag set and Google POS system together. Corresponds to Project, and corresponds to tag information created by converting various language resources of each language into one unified format (CoNLL U-Format). UPoS includes information on whether a corresponding word is an adverb or an adjective.

상기 UPoS 기반의 제2품사태그정보는 형태소 단위의 품사가 아니라, 어절(구) 단위의 품사이기 때문에 상술한 XPoS 기반의 제1품사태그정보에 의해 형태소 단위로 태깅된 정보를 제4표현규칙에 기초하여 UPoS 형태로 변환하는 과정이 필요하다. 이러한 변환규칙에 해당하는 제4표현규칙의 일 실시예가 도 5에 도시되어 있다.Since the UPoS-based second part-of-speech tag information is not a part-of-speech in morpheme units, but a part-of-speech in phrase (phrase) units, information tagged in units of morphemes by the above-described XPoS-based first part-of-speech tag information is applied to the fourth expression rule. Based on this, a process of converting to UPoS form is required. An embodiment of the fourth expression rule corresponding to this conversion rule is shown in FIG. 5 .

도 5에 도시된 바와 같이, 제4표현규칙은 제3표현규칙에 의해 변환된 어절을 제2품사태그정보에 기초하여 UPoS 기반으로 변환하기 위한 표현규칙에 해당한다. 구체적으로 상기 제3표현규칙에 의해 제1품사태그정보에 포함된 특정 품사태그로 변환된 어절은 도 5에 도시된 제4표현규칙에 따라 제2품사태그정보(도 5의 UPoS)에 포함된 특정 품사태그로 변환될 수 있다. 예를 들어, 도 4에 도시된 어절 '경심이는'을 제3표현규칙에 따라 변환하면 'NNP'라는 품사태그로 변환될 수 있고, 'NNP'라는 품사태그는 도 5에 도시된 제4표현규칙에 따라 'PROPN'으로 변환될 수 있다.As shown in FIG. 5, the fourth expression rule corresponds to an expression rule for converting a word converted by the third expression rule into UPoS based on the second part of speech tag information. Specifically, the word converted into a specific POS tag included in the first POS tag information by the third expression rule is included in the second POS tag information (UPoS in FIG. 5) according to the fourth expression rule shown in FIG. It can be converted to a specific part of speech. For example, if the word 'Gyeongshimi' shown in FIG. 4 is converted according to the third expression rule, it can be converted into a part-of-speech tag 'NNP'. It can be converted to 'PROPN' according to the expression rules.

한편, 제4표현규칙에 따라 변환된 특정 태그를 임베딩하는 것으로 해당 어절에 대한 제4임베딩값이 도출될 수 있다. 구체적으로, 상기 제4표현규칙에 따라 변환된 특정 품사태그를 임베딩하기 위하여 DB(1400)에 저장된 임베딩모듈을 사용할 수 있으며, 더 구체적으로 제4표현규칙에 따라 변환된 어절을 임베딩하는 임베딩모듈은 통상의 정보를 벡터로 변환하기 위한 종래의 다양한 방식의 임베딩모듈을 사용할 수 있고, 본 발명의 다른 실시예에서는 상기 임베딩모듈은 상기 제1표현규칙에서의 임베딩모듈과 동일할 수도 있다.Meanwhile, a fourth embedding value for a corresponding word may be derived by embedding a specific tag converted according to the fourth expression rule. Specifically, an embedding module stored in the DB 1400 may be used to embed a specific part-of-speech tag converted according to the fourth expression rule, and more specifically, an embedding module for embedding a word converted according to the fourth expression rule Conventional embedding modules of various methods for converting normal information into vectors may be used, and in another embodiment of the present invention, the embedding module may be the same as the embedding module in the first expression rule.

도 4에 도시된 바와 같이, 본 발명의 일 실시예에서는, 상기 복수의 표현규칙은, 기설정된 제3품사태그정보에 기초하여 해당 어절을 해당 어절에 포함된 1 이상의 형태소 각각에 대한 품사태그를 병합하여 생성되는 어절태그로 표현하는 제5표현규칙을 포함하고, 상기 어절임베딩값도출단계(S10)는, 상기 제5표현규칙에 따른 해당 어절에 대한 어절태그를 임베딩하여 제5임베딩값을 도출할 수 있다.As shown in FIG. 4 , in one embodiment of the present invention, the plurality of expression rules determine a part-of-speech for each of one or more morphemes included in a corresponding word based on preset third part-of-speech tag information. A fifth expression rule expressed by a word tag generated by merging is included, and the step of deriving the word embedding value (S10) derives a fifth embedding value by embedding the word tag for the corresponding word according to the fifth expression rule. can do.

구체적으로, 제5표현규칙(Phrase PoS)은 어절 별로 어절에 포함되는 복수의 형태소들을 새로운 단일의 어절태그로 변환하기 위하여, 기설정된 제3품사태그정보에 따라 해당 어절에 대한 제3품사태그정보에 따른 단일 어절태그로 태깅하기 위한 표현규칙에 해당한다. 상기 제5표현규칙은 한국어의 경우 하나의 어절이 1 이상의 형태소로 구성되는 언어적 특징을 고려한 표현규칙에 해당한다.Specifically, the fifth expression rule (Phrase PoS) converts a plurality of morphemes included in each word into a new single word tag for each word, and third part of speech tag information for the corresponding word according to preset third part of speech tag information. It corresponds to the expression rule for tagging with a single word tag according to . The fifth expression rule corresponds to an expression rule in consideration of the linguistic feature that one word consists of one or more morphemes in the case of Korean.

따라서, 상기 제5표현규칙은 하나의 어절에 포함되는 최대 형태소의 개수가 기설정된 값으로 설정되어 있고, 해당 어절의 형태소의 개수에 따라 해당 어절을 특정 형태로 변환한다. 바람직하게는, 상기 제5표현규칙에서 최대 형태소의 개수는 4 개로 기설정될 수 있다. 즉 상기 제5표현규칙은, 상술한 제1표현규칙에서와 같이, 해당 어절을 형태소 분석하고, 해당 어절에 포함된 1 이상의 형태소의 개수 및 각형태소에 대한 분석 결과 기초하여 제3품사태그정보에 포함된 특정 어절태그로 변환하기 위한 표현규칙에 해당한다. 이러한 변환규칙에 해당하는 제5표현규칙(도 6의 'Phrase PoS 단위 어절 자질')의 일 실시예가 도 6에 도시되어 있다.Accordingly, in the fifth expression rule, the maximum number of morphemes included in one word is set to a predetermined value, and the corresponding word is converted into a specific form according to the number of morphemes of the corresponding word. Preferably, the maximum number of morphemes in the fifth expression rule may be preset to four. That is, the fifth expression rule, as in the above-mentioned first expression rule, analyzes the morphemes of the corresponding word, and based on the analysis result of the number of one or more morphemes included in the corresponding word and each morpheme, the third part of speech tag information is obtained. Corresponds to the expression rule for conversion to a specific included word tag. An embodiment of the fifth expression rule ('Phrase PoS unit word feature' in FIG. 6) corresponding to this conversion rule is shown in FIG. 6.

즉, 도 6에 도시된 바와 같이, 해당 어절이 단일의 형태소로 구성된 경우에 해당 형태소에 대한 태그 정보가 제5표현규칙에 따른 어절태그에 해당할 수 있다. 예를 들어, 도 6에 도시된 바와 같이, '나이'라는 어절을 형태소 분석하면 '나이/NNG'로 표시될 수 있고, 해당 어절은 하나의 형태소만을 가지고 있으므로 해당 품사태그 정보인 'NNG'가 '나이'라는 어절에 대한 제5표현규칙에 따른 어절태그에 해당할 수 있다.That is, as shown in FIG. 6 , when a corresponding word is composed of a single morpheme, tag information on the corresponding morpheme may correspond to a word tag according to the fifth expression rule. For example, as shown in FIG. 6, if the word 'age' is morphologically analyzed, it can be displayed as 'age/NNG'. It may correspond to a word tag according to the 5th expression rule for the word 'age'.

만약 어절이 두 개의 형태소로 구성된 경우에 두 개의 형태소 각각에 대한 태그 정보를 병합한 결과가 제5표현규칙에 따른 어절태그에 해당할 수 있다. 예를 들어, 도 6에 도시된 바와 같이, '경심이는'이라는 어절을 형태소 분석하면 '경심이/NNP' 및 '는/JK'로 표시될 수 있고, 해당 어절은 두 개의 어절을 가지고 있으므로, 두 개의 형태소에 대한 태그 정보를 병합한 'NNP+JK'가 '경심이는'이라는 어절에 대한 제5표현규칙에 따른 어절태그에 해당할 수 있다.If a word is composed of two morphemes, a result of merging tag information for each of the two morphemes may correspond to a word tag according to the fifth expression rule. For example, as shown in FIG. 6, if the morphological analysis of the word 'Gyeongshimi' is performed, it can be displayed as 'Gyeongshimi/NNP' and 'Eun/JK', and since the corresponding word has two words, , 'NNP+JK', which is a combination of tag information on two morphemes, may correspond to a word tag according to the 5th expression rule for the word 'Gyeongsimi'.

반면에, 어절이 세 개의 형태소로 구성된 경우에 두 번째 형태소에 대한 태그 정보를 중복 추가하여 총 네 개의 태그 정보를 병합한 결과가 제5표현규칙에 따른 어절태그에 해당할 수 있다. 예를 들어, 도 6에 도시된 바와 같이, '당신들의'라는 어절을 형태소 분석하면 '당신/NP', '들/XSN' 및 '의/JKG'로 표시될 수 있고, 해당 어절은 세 개의 어절을 가지고 있으므로, 두 번째 형태소의 태그 정보를 '_'로 중복 추가한 'NP+XSN+_XSN+JKG'가 '당신들의'라는 어절에 대한 제5표현규칙에 따른 어절태그에 해당할 수 있다.On the other hand, when a word consists of three morphemes, a result of merging a total of four tag information by repeatedly adding tag information for a second morpheme may correspond to a word tag according to the fifth expression rule. For example, as shown in FIG. 6, when the word 'your' is morphologically analyzed, it can be displayed as 'you/NP', 's/XSN', and 'of/JKG', and the corresponding word has three Since it has a word, 'NP+XSN+_XSN+JKG', in which the tag information of the second morpheme is added with '_', may correspond to a word tag according to the 5th expression rule for the word 'your'. .

마지막으로, 어절이 기설정된 최대 형태소 개수인 네 개의 형태소로 구성된 경우에 네 개의 형태소에 대한 태그 정보를 병합한 결과가 제5표현규칙에 따른 어절태그에 해당할 수 있다. 예를 들어, 도 6에 도시된 바와 같이, '다섯이다.'라는 어절을 형태소 분석하면 '다섯/NR', '이/VCP', '다/EF' 및 './SF'로 표시될 수 있고, 각 형태소에 대한 태그 정보를 병합한 'NR+VCP+EF+SF'가 '다섯이다.'라는 어절에 대한 제5표현규칙에 따른 어절태그에 해당할 수 있다.Finally, when a word is composed of four morphemes, which is the preset maximum number of morphemes, a result of merging tag information on the four morphemes may correspond to a word tag according to the fifth expression rule. For example, as shown in FIG. 6, when the word 'five' is morphologically analyzed, it may be displayed as 'five/NR', 'this/VCP', 'da/EF', and './SF'. 'NR+VCP+EF+SF', which is a combination of tag information for each morpheme, may correspond to a word tag according to the fifth expression rule for the word 'five'.

이와 같이, 제5표현규칙에 따라 변환된 결과를 임베딩하는 것으로 해당 어절에 대한 제5임베딩값이 도출될 수 있다. 구체적으로, 상기 제5표현규칙에 따라 변환된 어절태그를 임베딩하기 위하여 DB(1400)에 저장된 임베딩모듈을 사용할 수 있으며, 더 구체적으로 제5표현규칙에 따라 변환된 어절을 임베딩하는 임베딩모듈은 통상의 정보를 벡터로 변환하기 위한 종래의 다양한 방식의 임베딩모듈을 사용할 수 있고, 본 발명의 다른 실시예에서는 상기 임베딩모듈은 상기 제1표현규칙에서의 임베딩모듈과 동일할 수도 있다.In this way, by embedding the transformed result according to the fifth expression rule, a fifth embedding value for the corresponding word can be derived. Specifically, an embedding module stored in the DB 1400 may be used to embed the word tag converted according to the fifth expression rule, and more specifically, the embedding module for embedding the word tag converted according to the fifth expression rule is usually Conventional embedding modules of various methods for converting the information of h into vectors may be used, and in another embodiment of the present invention, the embedding module may be the same as the embedding module in the first expression rule.

한편, 상술한 바와 같이, 입력 문장에 포함된 복수의 어절 각각은 상술한 제1 내지 제5표현규칙에 기초하여 제1임베딩값 내지 제5임베딩값으로 임베딩되고, 어절임베딩값도출단계(S10)는 해당 어절에 대한 제1임베딩값 내지 제5임베딩값에 기초하여 해당 어절에 대한 어절임베딩값을 도출할 수 있다.Meanwhile, as described above, each of a plurality of words included in the input sentence is embedded as first to fifth embedding values based on the above-described first to fifth expression rules, and the word embedding value derivation step (S10) may derive a word embedding value for a corresponding word based on the first to fifth embedding values for the corresponding word.

도 4에 도시된 바와 같이, 상기 어절임베딩값도출단계(S10)에서는 해당 어절에 대하여 도출된 제1임베딩값 내지 제5임베딩값을 단순 병합(concatenate)하는 것으로 어절임베딩값을 도출할 수 있다. 또한 본 발명의 다른 실시예에서는 각각의 표현규칙에 따른 의존 구문 분석 결과의 정확도에 따라 기설정된 가중치에 따라 제1임베딩값 내지 제5임베딩값 각각에 상이한 가중치가 적용된 어절임베딩값을 도출할 수도 있다.As shown in FIG. 4 , in the step of deriving the word embedding value ( S10 ), the word embedding value may be derived by simply concatenating the first to fifth embedding values derived for the corresponding word. In addition, in another embodiment of the present invention, word embedding values to which different weights are applied to each of the first to fifth embedding values may be derived according to preset weights according to the accuracy of the dependent syntax analysis result according to each expression rule. .

도 4 내지 도 6에 도시된 바와 같이, 본 발명에서는 단순히 어절을 하나의 표현규칙에 따라 임베딩하는 것이 아니라, 복수의 표현규칙, 바람직하게는 다섯 개의 표현규칙 각각에 따라 도출된 제1임베딩값 내지 제5임베딩값을 병합하여 해당 어절에 대한 최종적인 어절임베딩값을 도출하므로, 해당 어절에 대한 다양한 자질들을 고려하여 더욱 정확한 의존 구문 분석 결과를 도출할 수 있는 효과를 발휘할 수 있다.4 to 6, in the present invention, not simply embedding a word according to one expression rule, but a plurality of expression rules, preferably the first embedding value derived according to each of the five expression rules. Since the final word embedding value for the corresponding word is derived by merging the fifth embedding value, an effect of deriving a more accurate dependency syntax analysis result can be achieved by considering various characteristics of the corresponding word.

도 7은 본 발명의 일 실시예에 따른 레이블링단계(S30)의 수행과정을 개략적으로 도시한다.7 schematically illustrates the process of performing the labeling step (S30) according to an embodiment of the present invention.

도 7은 레이블링단계(S30)에서 어절 별로 도출된 어절임베딩값을 인코더(1430)에 포함된 복수의 인코더 셀(1431) 각각에 입력하여 출력된 각 어절 별 출력표상을 디코더(1440)에 포함된 복수의 디코더 셀(1441) 각각에 입력하여 출력된 레이블링 결과를 개략적으로 도시한다.7 shows that the word embedding value derived for each word in the labeling step (S30) is input to each of a plurality of encoder cells 1431 included in the encoder 1430, and the output representation for each word outputted is included in the decoder 1440. Labeling results input to and output from each of the plurality of decoder cells 1441 are schematically shown.

본 발명에서 디코더(1440)는 각 어절 별로 해당 어절을 의존소로 하는 지배소; 및 해당 의존소 및 지배소에 대한 의존관계명;을 하나의 레이블로 간주하여 레이블링한 결과를 출력한다. 즉, 시퀀스 레이블링 문제에서는 하나의 입력에 대해 하나의 출력을 생성하는 반면에, 의존 구문 분석에서는 지배소 및 의존관계명 두개의 값을 출력하므로, 본 발명의 레이블링단계(S30)에서는 시퀀스 레이블링 문제로 처리하기 위해 지배소 및 의존관계명을 하나의 레이블로 간주하여 레이블링 하며, 이에 대한 구체적인 설명은 이하에서 후술하도록 한다.In the present invention, the decoder 1440 includes a dominant element for each word with the corresponding word as a dependent element; and the name of the dependency on the corresponding dependent element and governing element; are regarded as one label and the labeling result is output. That is, in the sequence labeling problem, one output is generated for one input, whereas in the dependency syntax analysis, two values are output, a dominant place and a dependent relation name. Therefore, in the labeling step (S30) of the present invention, the sequence labeling problem In order to process, the name of the governing place and the dependent relationship are regarded as one label and labeled, and a detailed description of this will be described later.

우선, 종래의 의존 구문 분석 방법에서 입력 문장의 지배소는 입력 문장에서의 절대적인 위치를 이용하여 표현하였다. 예를 들어, 도 7에 도시된 Na

Figure 112021112055696-pat00001
ve positional encoding(레이블링#1)과 같이, 각 어절에 대한 지배소를 입력 문장 내에서의 절대적 위치로 표현하고, 이를 의존관계명과 하나의 레이블로 묶어 인코딩한다. 도 7에 도시된 바와 같이, 입력 문장인 '경심이는 금년 나이 스물 다섯이다'에서 입력 문장의 첫 번째 어절인 '경심이는'은 마지막 어절 '다섯이다'를 지배소로 하며 의존관계명은 'NP_SBJ'에 해당한다. 한편, 종래의 Na
Figure 112021112055696-pat00002
ve positional encoding 방식의 경우 입력 문장에서의 각 어절을 절대적 위치 값으로 하므로, 지배소 '다섯이다'의 입력 문장에서의 절대적 위치 값인 '5'와 의존관계명 'NP_SBJ'를 병합한 '5+NP_SBJ'를 레이블로 인코딩한다.First, in the conventional dependent syntactic analysis method, the dominant place of an input sentence is expressed using an absolute position in the input sentence. For example, Na shown in FIG. 7
Figure 112021112055696-pat00001
As with ve positional encoding (labeling #1), the dominant position for each word is expressed as an absolute position in the input sentence, and it is encoded by binding it with a dependency name and a label. As shown in FIG. 7, in the input sentence 'Kyungshim is twenty-five this year', the first word of the input sentence 'Kyungshimi' has the last word 'five' as the dominant element, and the dependency relation is 'NP_SBJ'. ' corresponds to. On the other hand, conventional Na
Figure 112021112055696-pat00002
In the case of the ve positional encoding method, each word in the input sentence is an absolute position value, so '5', the absolute position value of the dominant element 'five' in the input sentence, and '5+NP_SBJ', which is a combination of the dependency name 'NP_SBJ'' as a label.

한편, 도 7에 도시된 바와 같이, 본 발명의 일 실시예에서는, 상기 레이블링단계(S30)는, 상기 입력 문장에 포함된 복수의 어절에서, 해당 출력표상에 상응하는 어절의 위치 및 해당 출력표상에 상응하는 어절에 대한 지배소의 위치 사이의 거리정보; 및 상기 지배소와의 의존관계명;을 포함하는 레이블로 레이블링할 수 있다.On the other hand, as shown in Figure 7, in one embodiment of the present invention, the labeling step (S30), in the plurality of words included in the input sentence, the position of the word corresponding to the corresponding output representation and the corresponding output representation distance information between the positions of the ruling places for the words corresponding to ; and a name of a dependency relationship with the governing station.

구체적으로, 본 발명에서는 종래의 방법과는 상이하게 의존소 및 지배소의 입력 문장 내에서의 상대적인 거리와 의존관계명을 하나의 레이블로 간주하여 레이블링한다. 예를 들어, 도 7에 도시된 Relative positional encoding(레이블링#2)과 같이, 입력 문장의 첫 번째 어절인 '경심이는'은 입력 문장의 첫 번째 위치에 있고, '경심이는'의 지배소 '다섯이다'는 입력 문장의 다섯 번째 위치에 있으므로, 해당 어절 사이의 위치 차이 값인 '4'와 의존관계명 'NP_SBJ'를 병합한 '4+NP_SBJ'를 레이블로 인코딩한다.Specifically, in the present invention, unlike conventional methods, relative distances and names of dependent relationships in an input sentence of dependent and dominant elements are regarded as one label and labeled. For example, as in Relative positional encoding (labeling #2) shown in FIG. 7, the first word of the input sentence, 'Kyungsimi', is in the first position of the input sentence, and the dominant of 'Kyungsimi'. Since 'five' is in the fifth position of the input sentence, '4+NP_SBJ', which is a combination of '4', the position difference value between the corresponding words, and 'NP_SBJ', the dependency name, is encoded as a label.

또한, 도 7에 도시된 바와 같이, 본 발명의 일 실시예에서는, 상기 레이블링단계(S30)는, 상기 입력 문장에 포함된 복수의 어절에서 상기 특정 출력표상에 상응하는 어절의 위치 및 상기 특정 출력표상에 상응하는 어절에 대한 지배소의 위치 사이에서의 상기 지배소에 대한 품사태그를 고려한 거리정보; 및 상기 지배소와의 의존관계명;을 포함하는 특정 레이블로 레이블링할 수 있다.In addition, as shown in FIG. 7, in one embodiment of the present invention, the labeling step (S30) includes the position of the word corresponding to the specific output representation and the specific output among a plurality of words included in the input sentence. Distance information considering the POS tag for the dominant point between the positions of the dominant point for the word corresponding to the representation; and a name of a dependency relationship with the governing station.

본 발명에서는 상술한 Relative positional encoding 방법 외에도 다른 방법으로 의존소 및 지배소 사이의 입력 문장 내에서의 상대적 거리와 의존관계명을 레이블링하는 방법을 사용할 수 있다. 구체적으로, 본 발명의 다른 실시예에서 상기 레이블링단계(S30)는 지배소에 대한 품사태그 정보를 활용하여, 지배소의 위치를 의존소와의 해당 품사태그 정보를 기반으로 하는 상대적 거리 및 지배소에 대한 품사태그 정보로 표현하고, 이를 의존관계명과 결합한 하나의 레이블로 간주하여 레이블링한다.In the present invention, in addition to the above-described relative positional encoding method, a method of labeling a relative distance between dependent and dominant elements in an input sentence and a dependency relation name may be used as another method. Specifically, in another embodiment of the present invention, the labeling step (S30) utilizes the POS tag information for the dominant station, and determines the location of the dominant station to the relative distance and the dominant station to the dependent station based on the corresponding POM tag information. It is expressed as the part-of-speech tag information for the product, and it is labeled by considering it as one label combined with the name of the dependency relationship.

예를 들어, 도 7에 도시된 바와 같이, 입력 문장의 각각의 의존소 및 지배소에 대하여 품사태그가 태깅될 수 있다. 품사태그가 태깅되는 표현규칙은 상술한 제3표현규칙 또는 제4표현규칙 가운데 어느 하나를 사용할 수 있다.For example, as shown in FIG. 7 , a part-of-speech tag may be tagged for each dependent element and dominant element of an input sentence. As the expression rule to which the part-of-speech tag is tagged, either the third expression rule or the fourth expression rule described above may be used.

상기 제3표현규칙을 사용하는 경우에는 각 어절 별로 형태소 분석하여 첫 번째 형태소에 대한 품사태그를 태깅한다. 즉, 제3표현규칙으로 입력 문장의 의존소 및 지배소에 대한 품사태그를 구성하는 경우에 '경심이는'은 'NNP'라는 품사태그로, '금년'은 'NNG'라는 품사태그로, '나이'는 'NNG'라는 품사태그로, '스물'은 'NR'이라는 품사태그로, '다섯이다'는 'NR'이라는 품사태그로 변환될 수 있다.In the case of using the third expression rule, morphemes are analyzed for each word and a part-of-speech tag for the first morpheme is tagged. That is, when the third expression rule constructs the POS tag for the dependent and dominant points of the input sentence, 'Gyeongshimi' is a POS tag of 'NNP', 'this year' is a POS tag of 'NNG', 'Age' can be converted into a POS tag of 'NNG', 'twenty' can be converted into a POS tag of 'NR', and 'five' can be converted into a POS tag of 'NR'.

이와 같은 경우에, 도 7에 도시된 Relative PoS-based encoding(레이블링#3)의 XPoS와 같이, '경심이는'이라는 의존소의 지배소인 '다섯이다'의 품사태그는 'NR'이고, 두 어절(의존소 및 지배소) 사이의 상대적 거리는 레이블링하고자 하는 어절('경심이는')을 기준으로 지배소('다섯이다')와 동일한 품사태그를 가진 어절 가운데 몇 번째 어절인지로 표현한다. 도 7에서는 'NR'이라는 품사태그를 갖는 어절은 네 번째 위치의'스물' 및 다섯 번째 위치의'다섯이다'이므로, 의존소 '경심이는'과 지배소 '다섯이다'의 상대적 거리는 '+2'가 되고, 따라서 의존소 '경심이는'은 '+2+NR+NP_SBJ'를 레이블로 인코딩될 수 있다.In this case, like XPoS of Relative PoS-based encoding (labeling #3) shown in FIG. The relative distance between (dependent elements and dominant elements) is expressed as the number of words among words that have the same POS tag as the dominant element ('it is five') based on the word to be labeled ('Gyeongsimi'). In FIG. 7, since the word having a part-of-speech tag of 'NR' is 'twenty' in the fourth position and 'five' in the fifth position, the relative distance between the dependent element 'Gyeongsimi' and the dominant element '+' 2', and thus the dependency 'hard core' can be encoded as '+2+NR+NP_SBJ' as a label.

한편, 상기 제4표현규칙을 사용하는 경우에는 상술한 바와 같이, 상기 제3표현규칙에 의해 변환된 품사태그를 상기 제4표현규칙의 제2품사태그정보에 포함된 특정 품사태그로 변환한다. 즉, 어절 '경심이는'에 대한 지배소 '다섯이다'는 제4표현규칙에 의하여 'NOUN'이라는 품사태그로 변환될 수 있다. Meanwhile, in the case of using the fourth expression rule, as described above, the part-of-speech converted by the third expression rule is converted into a specific part-of-tag included in the second part-tag information of the fourth expression rule. In other words, the dominant element 'five' for the word 'Kyungshimi' can be converted into a part-of-speech tag 'NOUN' according to the fourth expression rule.

이와 같은 경우에, 도 7에 도시된 Relative PoS-based encoding(레이블링#3)의 UPoS와 같이, '경심이는'이라는 의존소의 지배소인 '다섯이다'의 품사태그는 'NOUN'이고, 두 어절(의존소 및 지배소) 사이의 상대적 거리는 레이블링하고자 하는 어절('경심이는')을 기준으로 지배소('다섯이다')와 동일한 품사태그를 가진 어절 가운데 몇 번째 어절인지로 표현한다. 도 7에서는 'NOUN'이라는 품사태그를 갖는 어절은 '금년', '나이' 및 '다섯이다'세 가지이므로, 의존소 '경심이는'과 지배소 '다섯이다'의 상대적 거리는 '+3'이 되고, 따라서 의존소 '경심이는'은 '+3+NOUN+NP_SBJ'를 레이블로 인코딩될 수 있다.In this case, like the UPoS of Relative PoS-based encoding (labeling #3) shown in FIG. The relative distance between (dependent elements and dominant elements) is expressed as the number of words among words that have the same POS tag as the dominant element ('it is five') based on the word to be labeled ('Gyeongsimi'). In FIG. 7, since there are three words having a part-of-speech tag of 'NOUN', 'this year', 'age', and 'five', the relative distance between the dependent element 'Kyungshimeun' and the dominant element 'five' is '+3'. , and thus the dependent element 'gyeongshimeun' can be encoded as '+3 + NOUN + NP_SBJ' as a label.

이와 같이, 본 발명에서는 입력 문장에서의 지배소의 절대적 위치에 대한 값을 레이블링하는 것이 아니라, 의존소 및 지배소 사이의 상대적 거리에 대한 값을 레이블링함으로써 후술하는 의존 구문 분석 실험 결과에서와 같이, 종래의 방법과 비교하여 의존 구문 분석에 대한 향상된 예측 결과를 도출할 수 있는 효과를 발휘할 수 있다.As such, in the present invention, as in the test result of dependency syntactic analysis described later, by labeling a value for a relative distance between a dependent element and a dominant element, rather than labeling a value for the absolute position of a dominant element in an input sentence, Compared to the method of , it can exert an effect of deriving improved prediction results for dependent syntax analysis.

도 8은 본 발명의 일 실시예에 따른 인코더(1430) 및 디코더(1440)가 연결되어 있는 프레임워크를 개략적으로 도시한다.8 schematically illustrates a framework to which an encoder 1430 and a decoder 1440 are connected according to an embodiment of the present invention.

도 8에 도시된 바와 같이, 출력표상출력단계(S20)에서 인코더(1430)를 사용하고, 레이블링단계(S30)에서 디코더(1440)를 사용하여 입력 문장에 포함된 각 어절에 대한 의존 구문 분석을 수행할 수 있으며, 더 구체적으로, 본 발명에서는 인코더(1430) 및 디코더(1440)가 연결되어 있는 프레임워크를 사용하여 입력 문장에 대한 의존 구문 분석을 수행할 수 있다.As shown in FIG. 8, the dependent syntax analysis for each word included in the input sentence is performed by using the encoder 1430 in the output representation step (S20) and the decoder 1440 in the labeling step (S30). More specifically, in the present invention, dependency syntax analysis on an input sentence may be performed using a framework to which the encoder 1430 and the decoder 1440 are connected.

또한, 도 8에 도시된 바와 같이, 본 발명의 일 실시예에서는, 상기 인코더(1430)는 Bidirectional LSTM(BLSTM) 구조로, 상기 디코더(1440)는 LSTM 구조로 구성되고, 복수의 인코더 셀(1431) 각각은 해당 인코더 셀(1431)의 제1방향에 인접한 인코더 셀(1431) 및 해당 인코더 셀(1431)의 제2방향에 인접한 인코더 셀(1431) 각각으로부터 은닉표상을 입력받고, 어절임베딩값 및 복수의 은닉표상에 기초하여 해당 어절임베딩값에 대한 출력표상을 출력할 수 있다.In addition, as shown in FIG. 8, in one embodiment of the present invention, the encoder 1430 has a Bidirectional LSTM (BLSTM) structure, the decoder 1440 has a LSTM structure, and a plurality of encoder cells 1431 ) each receives a hidden representation from the encoder cell 1431 adjacent to the first direction of the corresponding encoder cell 1431 and the encoder cell 1431 adjacent to the second direction of the corresponding encoder cell 1431, and the word embedding value and An output representation for a corresponding word embedding value may be output based on a plurality of hidden representations.

상기 인코더(1430)는 복수의 인코더 셀(1431)을 포함하며, 상기 복수의 인코더 셀(1431) 각각은 순차적으로 제1방향(입력 문장의 문장 진행 방향) 및 제2방향(입력 문장의 문장 진행 역방향)으로 순차적으로 연결되어 있으며, 마지막 인코더 셀(1431)은 디코더(1440)에 포함된 복수의 디코더 셀(1441) 가운데 첫 번째 디코더 셀(1441)과 연결되어, 상기 첫 번째 디코더 셀(1441)에 은닉표상을 제공할 수 있다.The encoder 1430 includes a plurality of encoder cells 1431, and each of the plurality of encoder cells 1431 sequentially proceeds in a first direction (sentence progression direction of an input sentence) and a second direction (sentence progression direction of an input sentence). backward), and the last encoder cell 1431 is connected to the first decoder cell 1441 among the plurality of decoder cells 1441 included in the decoder 1440, so that the first decoder cell 1441 A hidden representation can be provided.

상기 인코더(1430)는 양방향 LSTM으로 구성되며, 양방향 LSTM에 대해서는 도 10에서 상세하게 설명하도록 한다. 한편, 상기 인코더 셀(1431) 각각은 순차적으로 입력 문장의 문장 순서에 따른 각 어절의 어절임베딩값을 입력받는다. 본 발명의 다른 실시예에서는 인코더(1430)의 첫 번째 인코더 셀(1431)에는 입력 문장의 시작 토큰($)에 대한 어절임베딩값을 입력받을 수도 있다. 한편 상기 복수의 인코더 셀(1431) 각각은 입력받은 어절임베딩값에 대한 출력표상(도 8의 S0 내지 S5)을 도출할 수 있다.The encoder 1430 is composed of a bidirectional LSTM, and the bidirectional LSTM will be described in detail with reference to FIG. 10 . Meanwhile, each of the encoder cells 1431 sequentially receives the word embedding value of each word according to the sentence order of the input sentence. In another embodiment of the present invention, the first encoder cell 1431 of the encoder 1430 may receive a word embedding value for the start token ($) of the input sentence. Meanwhile, each of the plurality of encoder cells 1431 may derive an output representation (S 0 to S 5 in FIG. 8) for the input word embedding value.

한편, 상기 인코더(1430)는, 상기 복수의 인코더 셀(1431) 각각으로부터 복수의 출력표상을 입력받는 어텐션모듈(1432)을 더 포함하고, 상기 어텐션모듈(1432)은, 입력받은 상기 복수의 출력표상에 기초하여 상기 복수의 디코더 셀(1441) 각각에 입력되는 복수의 어텐션가중치를 도출할 수 있다.Meanwhile, the encoder 1430 further includes an attention module 1432 that receives a plurality of output representations from each of the plurality of encoder cells 1431, and the attention module 1432 receives the plurality of outputs. A plurality of attention weights input to each of the plurality of decoder cells 1441 may be derived based on the representation.

구체적으로, 상기 인코더(1430)는 어텐션모듈(1432)을 더 포함하며, 상기 인코더 셀(1431) 각각에서 출력한 출력표상은 디코더 셀(1441)에 입력되는 것뿐만 아니라, 상기 어텐션모듈(1432)에 입력될 수 있다. 상기 어텐션모듈(1432)은 인코더 셀(1431) 각각으로부터 출력표상을 입력받아 각각에 디코더 셀(1441) 별로 상이한 어텐션가중치를 도출하여 제공하며, 상기 어텐션가중치는 각 디코더 셀(1441)로 하여금 전체 입력 문장에서 특정 요소(어절)에 집중하도록 한다. 이를 통해 어절임베딩값도출단계(S10)에서 어절의 길이에 무관하게 동일한 크기의 어절임베딩값으로 표현됨에 따라 발생할 수 있는 어절에 대한 정보 손실에 의해 야기될 수 있는 의존 구문 분석 결과의 성능이 떨어지는 것을 개선할 수 있다.Specifically, the encoder 1430 further includes an attention module 1432, and the output representation output from each of the encoder cells 1431 is not only input to the decoder cell 1441, but also the attention module 1432. can be entered into The attention module 1432 receives output representations from each of the encoder cells 1431, derives and provides different attention weights for each decoder cell 1441, and the attention weights cause each decoder cell 1441 to input all Focus on a specific element (word) in a sentence. Through this, in the word embedding value derivation step (S10), the performance of the dependent syntax analysis result that may be caused by the loss of information about the word that may occur as it is expressed as the same size of the word embedding value regardless of the length of the word is reduced. can be improved

한편, 상기 디코더(1440)는 복수의 디코더 셀(1441)을 포함하며, 상기 복수의 디코더 셀(1441) 각각은 순차적으로 제1방향(입력 문장의 문장 진행 방향)으로 순차적으로 연결되어 있고, 인코더(1430)에 포함된 어텐션모듈(1432)을 동반한 단방향 LSTM으로 구성된다. 상기 단방향 LSTM에 대해서는 도 9에서 상세하게 설명하도록 한다.Meanwhile, the decoder 1440 includes a plurality of decoder cells 1441, and each of the plurality of decoder cells 1441 is sequentially connected in a first direction (sentence progression direction of an input sentence), and the encoder It consists of a one-way LSTM accompanied by the attention module 1432 included in (1430). The unidirectional LSTM will be described in detail with reference to FIG. 9 .

상기 디코더(1440)에 포함되는 복수의 디코더 셀(1441) 각각은 순차적으로 입력 문장의 문장 순서에 따른 각 어절에 대한 출력표상을 입력받는다. 더 구체적으로, 각 디코더 셀(1441)은 문장 순서에 상응하는 해당 어절에 대한 출력표상만 입력받는 것이 아니라, 해당 어절에 대한 출력표상 및 해당 어절에 앞, 뒤로 인접한 어절에 대한 출력표상이 병합된 입력정보를 입력받을 수 있다. 한편, 첫 번째 디코더 셀(1441)의 경우 입력 문장의 첫 번째 어절에 대한 출력표상, 상기 첫 번째 어절에 뒤에 인접한 두 번째 어절에 대한 출력표상, 그리고 상기 첫 번째 어절에 앞에 인접한 어절은 존재하지 않으므로, zero-padding된 값이 병합된 입력정보를 입력받게 된다. 한편, 각각의 디코더 셀(1441)은 입력받은 입력정보에 기초하여 해당 어절에 대한 지배소 및 의존관계명에 대한 레이블링 결과를 출력할 수 있다.Each of the plurality of decoder cells 1441 included in the decoder 1440 sequentially receives an output representation for each word according to the sentence order of the input sentence. More specifically, each decoder cell 1441 does not receive only the output representation of the corresponding word corresponding to the sentence order, but the output representation of the corresponding word and the output representation of the adjacent word before and after the corresponding word are merged. Input information can be entered. On the other hand, in the case of the first decoder cell 1441, the output representation of the first word of the input sentence, the output representation of the second word adjacent to the first word, and the word adjacent to the first word in front of the first word do not exist. , input information in which the zero-padded values are merged is received. On the other hand, each decoder cell 1441 may output a labeling result for a dominant location and a dependent relation name for a corresponding word based on the received input information.

도 9는 본 발명의 일 실시예에 따른 디코더(1440)에 구성되는 단방향 LSTM의 구조를 개략적으로 도시한다.9 schematically illustrates the structure of a unidirectional LSTM configured in the decoder 1440 according to an embodiment of the present invention.

도 9의 (A)에 도시된 신경망모델은 디코더(1440)를 구성하는 Long-Short Term Memory(LSTM) 신경망의 전체 구성을 개략적으로 도시한 도면에 해당하고, 도 9의 (B)는 LSTM에서의 하나의 셀 유닛 즉, 하나의 디코더 셀(1441)을 개략적으로 도시한 도면에 해당한다.The neural network model shown in (A) of FIG. 9 corresponds to a diagram schematically showing the overall configuration of the Long-Short Term Memory (LSTM) neural network constituting the decoder 1440, and (B) in FIG. Corresponds to a diagram schematically showing one cell unit of , that is, one decoder cell 1441 .

도 9의 (A)에 도시된 바와 같이 LSTM 신경망은 RNN의 한 종류에 해당하며, 이전 순서의 값이 다음 순서의 값에 영향을 줄 수 있는 시퀀스 데이터를 처리하기 적합하다. 도 9의 (A)에 도시된 바와 같이 LSTM 신경망은 복수의 셀 유닛을 포함하며, 복수의 셀 유닛 각각은 순차적으로 연결되어 있다.As shown in (A) of FIG. 9, the LSTM neural network corresponds to a type of RNN and is suitable for processing sequence data in which values in the previous sequence may affect values in the next sequence. As shown in (A) of FIG. 9, the LSTM neural network includes a plurality of cell units, and each of the plurality of cell units is sequentially connected.

순차적으로 연결된 셀 유닛 각각에는 시퀀스 데이터에 포함된 값들이 순차적으로 입력된다. 예를 들어 도 9의 (A)의 좌측에 도시된 셀 유닛에는 시퀀스 데이터에 포함된 Xt-1 번째 값이 입력되고, 중앙에 도시된 셀 유닛에는 시퀀스 데이터에 포함된 Xt 번째 값이 입력되고, 우측에 도시된 셀 유닛에는 시퀀스 데이터에 포함된 Xt+1 번째 값이 입력된다. 여기서 상기 시퀀스 데이터는 상술한 해당 어절에 대한 어절임베딩값의 출력표상 및 해당 어절과 인접한 어절임베딩값의 출력표상이 병합된 입력정보에 해당할 수 있다.Values included in the sequence data are sequentially input to each of the sequentially connected cell units. For example, the X t-1th value included in the sequence data is input to the cell unit shown on the left of (A) of FIG. and the X t+1th value included in the sequence data is input to the cell unit shown on the right. Here, the sequence data may correspond to input information obtained by merging the output representation of the word embedding value for the corresponding word and the output representation of the word embedding value adjacent to the corresponding word.

한편, 셀 유닛은 추가적으로 이전 셀 유닛에서 출력한 셀 스테이트(Cell State)값 및 은닉상태(Hidden State)값을 입력 받는다. 예를 들어, 도 9의 (A)에 중앙에 도시된 셀 유닛의 경우 좌측에 도시된 셀 유닛에서 출력하는 셀 스테이트 값인 Ct-1 및 은닉상태값인 ht-1을 추가적으로 입력 받는다.Meanwhile, the cell unit additionally receives a cell state value and a hidden state value output from the previous cell unit. For example, in the case of the cell unit shown in the center of FIG. 9 (A), the cell state value C t-1 and the hidden state value h t-1 output from the cell unit shown on the left are additionally input.

이와 같이, 셀 유닛은 해당 셀 유닛에 상응하는 시퀀스 데이터의 입력값 및 이전 셀 유닛에서 출력한 셀 스테이트값 및 은닉상태값을 사용하여, 이전 셀 유닛의 셀 스테이트값과 해당 셀 유닛에 입력되는 시퀀스 데이터의 입력값을 어느정도 반영할 것인지 결정하는 것으로 해당 셀 유닛에서의 셀 스테이트값을 출력하고, 출력된 셀 스테이트값으로 해당 셀 유닛에 입력되는 시퀀스 데이터의 입력값을 필터링한 값을 해당 셀 유닛의 은닉상태값 및 출력값(특징값)으로 출력한다.In this way, the cell unit uses the input value of the sequence data corresponding to the corresponding cell unit and the cell state value and hidden state value output from the previous cell unit to obtain the cell state value of the previous cell unit and the sequence input to the corresponding cell unit. It determines how much the input value of the data will be reflected, outputs the cell state value in the cell unit, and outputs the value obtained by filtering the input value of the sequence data input to the cell unit with the output cell state value to the corresponding cell unit. It is output as a hidden state value and an output value (feature value).

한편, 해당 셀 유닛에서 출력되는 셀 스테이트값 및 은닉상태값은 다음 셀 유닛에 입력되며, 이와 같이 LSTM 신경망의 각각의 셀 유닛은 이전 셀 유닛의 출력 정보를 반영하여 자신의 셀 유닛에서의 출력 정보를 산출하므로, 순서에 따라 연관성이 있는 시퀀스 데이터를 처리하기에 적합한 신경망 모델에 해당한다.On the other hand, the cell state value and hidden state value output from the corresponding cell unit are input to the next cell unit, and in this way, each cell unit of the LSTM neural network reflects the output information of the previous cell unit to obtain output information from its own cell unit. Since it calculates, it corresponds to a neural network model suitable for processing sequentially correlated sequence data.

도 9의 (B)에서는 LSTM 신경망의 셀 유닛의 세부구성을 개략적으로 도시한다.9(B) schematically shows the detailed configuration of a cell unit of an LSTM neural network.

도 9의 (B)에 도시된 바와 같이, σ는 시그모이드(Sigmoid) 함수를 의미하고, tanh는 하이퍼볼릭 탄젠트(Hyperbolic Tangent) 함수를 의미하고, 하기의 [수학식 1] 및 [수학식 2] 각각 시그모이드 함수 및 하이퍼볼릭 탄젠트 함수를 나타내고, 'x' 및 '+'는 각 원소별(Pointwise) 곱셈 및 덧셈 연산을 의미한다.As shown in (B) of FIG. 9, σ means a sigmoid function, tanh means a hyperbolic tangent function, and [Equation 1] and [Equation 1] below 2] Represents a sigmoid function and a hyperbolic tangent function, respectively, and 'x' and '+' mean pointwise multiplication and addition operations.

[수학식 1][Equation 1]

[수학식 2][Equation 2]

한편, 도 9의 (B)에 도시된 ft는 이전 셀 스테이트값인 Ct-1를 어느정도 반영할지 결정하는 인자에 해당하고, it는 출력하고자 하는 셀 스테이트값인 Ct에 업데이트하고자 하는 인자에 해당하고, Ot는 출력값(특징값) 및 은닉상태값에 해당하는 ht를 산출하기 위한 인자에 해당한다. 상술한 각각의 인자들은 하기의 [수학식 3] 내지 [수학식 8]에 따라 표현될 수 있다.Meanwhile, f t shown in (B) of FIG. 9 corresponds to a factor determining how much the previous cell state value C t-1 is to be reflected, and i t and corresponds to a factor to be updated to C t , which is a cell state value to be output, and O t corresponds to a factor for calculating h t corresponding to an output value (feature value) and a hidden state value. Each of the factors described above may be expressed according to [Equation 3] to [Equation 8] below.

[수학식 3][Equation 3]

[수학식 4][Equation 4]

[수학식 5][Equation 5]

[수학식 6][Equation 6]

[수학식 7][Equation 7]

[수학식 8][Equation 8]

(번째 입력값 에 대한 웨이트 벡터(Weight Vector)값, 번째 은닉상태(Hidden State)값, 는 편차향(Bias))( Is second input value A weight vector value for Is th hidden state value, is the bias)

이와 같이, LSTM 신경망에서의 각각의 셀 유닛들은 이전 셀 유닛에서 출력한 셀 스테이트값 Ct-1 및 은닉상태값 ht-1을 입력 받아, 해당 셀 유닛에 입력된 Xt에 대한 셀 스테이트값 Ct 및 은닉상태값 ht를 출력하므로, 단어들이 순차적으로 구성되어 있고, 출력값인 ht에 기초하여 레이블링단계(S30)에서는 어절에 대한 지배소 및 의존관계명에 대한 레이블링을 수행하므로, 순차적으로 연결된 단어들 사이의 연관성이 존재하는 텍스트 데이터에 대한 특징값들을 효과적으로 도출할 수 있다.In this way, each cell unit in the LSTM neural network receives the cell state value C t-1 and the hidden state value h t-1 output from the previous cell unit, and the cell state value for X t input to the cell unit Since C t and hidden state value h t are output, words are sequentially formed, and based on the output value h t , in the labeling step (S30), control points and dependent names of words are labeled, so sequential It is possible to effectively derive feature values for text data in which there is an association between words connected by .

상술한 LSTM 신경망은 상기 디코더(1440)에 포함될 수 있고, 본 발명의 다른 실시예에서는 상기 디코더(1440)는 도 9에 도시된 LSTM 신경망의 셀 유닛에 엿보기 구멍(Peephole Connection)이 추가된 LSTM 신경망과 같이, 기본적인 LSTM 신경망 구조에서 추가적인 요소들이 부가되어 있는 LSTM 신경망을 포함할 수도 있다.The above-described LSTM neural network may be included in the decoder 1440, and in another embodiment of the present invention, the decoder 1440 is an LSTM to which a peephole connection is added to the cell unit of the LSTM neural network shown in FIG. Like a neural network, it may include an LSTM neural network with additional elements added to the basic LSTM neural network structure.

도 10은 본 발명의 일 실시예에 따른 인코더(1430)에 구성되는 양방향 LSTM의 구조를 개략적으로 도시한다.10 schematically illustrates the structure of a bidirectional LSTM configured in the encoder 1430 according to an embodiment of the present invention.

도 10에 도시된 도면은 Bidirectional LSTM(BLSTM) 신경망의 전체 구성을 개략적으로 도시한 도면에 해당한다. BLSTM 신경망 또한 RNN의 한 종류에 해당하며, 상술한 LSTM 신경망 2 개를 연결한 구조를 가지고 있다.The diagram shown in FIG. 10 corresponds to a diagram schematically showing the overall configuration of a Bidirectional LSTM (BLSTM) neural network. The BLSTM neural network is also a type of RNN, and has a structure in which two LSTM neural networks are connected.

구체적으로, 도 10에 도시된 바와 같이 상단에 위치한 제1LSTM에서는 도 9에서 설명한 바와 같이, 순차적으로 연결된 각 셀 유닛에는 순서를 갖는 시퀀스 데이터(도 10의 Input[0] 내지 Input[t])가 제1방향에 따라 순차적으로 입력되고, 이전 셀 유닛에서 업데이트한 셀 스테이트값(도 10의 c[0] 내지 c[t-1]) 및 은닉상태값(도 10의 h[0] 내지 h[t-1])이 입력되어 제1출력표상(특징값)을 출력한다. 즉, 제1LSTM에서는 시퀀스 데이터의 순방향에 따라 이전 셀 유닛에서의 셀 스테이트값 및 은닉상태값을 고려하여 입력받은 시퀀스 데이터의 입력값에 대한 제1출력표상을 도출한다.Specifically, as shown in FIG. 10, in the first LSTM located at the top, as described in FIG. 9, sequence data having an order (Input[0] to Input[t] in FIG. 10) are sequentially connected to each cell unit. Cell state values (c[0] to c[t-1] in FIG. 10) and hidden state values (h[0] to h[ in FIG. 10) sequentially input along the first direction and updated in the previous cell unit t-1]) is input to output the first output representation (feature value). That is, in the 1st LSTM, the first output representation for the input value of the sequence data is derived by considering the cell state value and the hidden state value in the previous cell unit according to the forward direction of the sequence data.

한편, 하단에 위치한 제2LSTM에서는 상술한 제1LSTM과 반대 순서(제2방향)로 복수의 셀 유닛이 연결되어 있고, 각 셀 유닛에는 순서를 갖는 시퀀스 데이터(도 10의 Input[t] 내지 Input[0])가 순차적으로 입력되고, 앞선 셀 유닛에서 업데이트한 셀 스테이트값(도 10의 c'[0] 내지 c'[t-1]) 및 은닉상태값(도 10의 h'[0] 내지 h'[t-1])이 입력되어 제2출력표상(특징값)을 출력한다. 즉 제2LSTM에서는 시퀀스 데이터의 역방향에 따라 앞선 셀 유닛에서의 셀 스테이트값 및 은닉상태값을 고려하여 입력받은 시퀀스 데이터의 입력값에 대한 제2출력표상을 도출한다.On the other hand, in the second LSTM located at the lower end, a plurality of cell units are connected in the opposite order (second direction) to the above-described first LSTM, and each cell unit has sequential data (Input[t] to Input[ in FIG. 10). 0]) are sequentially input, and cell state values (c'[0] to c'[t-1] in FIG. 10) and hidden state values (h'[0] to h'[t-1]) is input and the second output representation (feature value) is output. That is, in the 2LSTM, the second output representation for the input value of the sequence data is derived by considering the cell state value and the hidden state value of the preceding cell unit according to the reverse direction of the sequence data.

한편, BLSTM 신경망은 제1LSTM 및 제2LSTM에서 동일한 시퀀스 데이터의 입력값을 입력받는 셀 유닛 각각에서 출력하는 제1출력표상 및 제2출력표상을 고려하여 최종적인 출력표상(도 10의 output[0] 내지 output[t])를 도출한다. 예를 들어, 최종적으로 출력되는 출력표상은 단순히 제1SLTM의 셀 유닛에서 출력한 특징값 및 제2LSTM 셀 유닛에서 출력한 특징값을 결합하여 도출될 수도 있고, 제1LSTM의 셀 유닛에서 출력한 특징값 및 제2LSTM 셀 유닛에서 출력한 특징값 각각에 소정의 가중치를 부여하여 최종특징값을 도출할 수도 있다. 또한, 본 발명의 다른 실시예에서는 종래의 SoftMax 함수를 사용하여 제1출력표상 및 제2출력표상을 고려하여 해당 어절에 대한 최종적인 출력표상을 출력할 수도 있다.On the other hand, the BLSTM neural network considers the first output representation and the second output representation output from each cell unit that receives the input value of the same sequence data in the 1st LSTM and the 2nd LSTM to obtain the final output representation (output[0 in FIG. 10] to output[t]). For example, the output representation that is finally output may be simply derived by combining the feature value output from the cell unit of the 1st SLTM and the feature value output from the cell unit of the 2nd LSTM, or the feature value output from the cell unit of the 1st LSTM. And a final feature value may be derived by assigning a predetermined weight to each feature value output from the second LSTM cell unit. In addition, in another embodiment of the present invention, the final output representation for the word may be output in consideration of the first output representation and the second output representation using the conventional SoftMax function.

이와 같이, 도 9에 도시된 LSTM 신경망이 시퀀스 데이터의 순방향에 따라 학습하는 구조인 반면에 도 10에 도시된 BLSTM 신경망은 시퀀스 데이터의 순방향 및 역방향 모두를 고려하여 학습하는 구조에 해당하며, 상기 BLSTM 신경망은 상술한 인코더(1430)에 포함될 수 있다.As such, while the LSTM neural network shown in FIG. 9 has a structure that learns according to the forward direction of sequence data, the BLSTM neural network shown in FIG. 10 corresponds to a structure that learns by considering both the forward and backward directions of sequence data. A neural network may be included in the aforementioned encoder 1430.

한편, 상술한 도 9 내지 도 10에서의 각각의 신경망 모델에 포함되는 셀 유닛의 개수는 입력되는 시퀀스 데이터의 입력값의 개수에 상응할 수 있다. 예를 들어, 시퀀스 데이터가 입력 문장에 포함된 각 어절에 대한 어절임베딩값이고, 입력 문장에 다섯 개의 어절이 포함되어 있는 경우에 각 신경망 모델에는 다섯 개의 셀 유닛 또는 문장 시작 토큰을 추가적으로 고려하여 여섯 개의 셀 유닛이 포함될 수 있다.Meanwhile, the number of cell units included in each neural network model in FIGS. 9 to 10 described above may correspond to the number of input values of sequence data. For example, if the sequence data is the word embedding value for each word included in the input sentence, and the input sentence contains five words, each neural network model additionally considers five cell units or sentence start tokens and six A number of cell units may be included.

한편, 하기의 [표 1]은 본 발명의 복수의 표현규칙의 개수에 따른 의존 구분 분석 결과의 성능 변화를 개략적으로 나타낸다.Meanwhile, [Table 1] below schematically shows the performance change of the dependency segmentation analysis result according to the number of a plurality of expression rules of the present invention.

[표 1][Table 1]

상기 [표 1]에서와 같이 특정 단일 표현규칙을 사용하여 도출된 각 어절에 대한 어절임베딩값을 사용했을 때, 복수의 표현규칙을 사용하여 도출된 각 어절에 대한 어절임베딩값을 사용했을 때의 의존 구문 분석 결과의 성능을 나타낸다. 구체적으로, 첫 번째 실험결과는 제3표현규칙(XPoS) 만을 사용하여 도출된 어절임베딩값을 사용하는 경우, 두 번째 실험결과는 제5표현규칙(Phrase PoS) 만을 사용하여 도출된 어절임베딩값을 사용하는 경우, 세 번째 실험결과는 제3표현규칙 및 제5표현규칙을 사용하여 도출된 어절임베딩값을 사용하는 경우, 네 번째 실험결과는 제3표현규칙 및 제4표현규칙을 사용하여 도출된 어절임베딩값을 사용하는 경우, 다섯 번째 실험결과는 제4표현규칙 및 제5표현규칙을 사용하여 도출된 어절임베딩값을 사용하는 경우, 마지막으로 여섯 번째 실험결과는 제3표현규칙 내지 제5표현규칙을 모두 사용하여 도출된 어절임베딩값을 사용하는 경우에 해당한다.As in [Table 1], when the word embedding value for each word derived using a specific single expression rule is used, when the word embedding value for each word derived using a plurality of expression rules is used Indicates the performance of dependent parsing results. Specifically, the first experimental result uses the word embedding value derived using only the third expression rule (XPoS), and the second experimental result uses the word embedding value derived using only the fifth expression rule (Phrase PoS). In the case of using, the third experimental result is when word embedding values derived using the third and fifth expression rules are used, and the fourth experimental result is derived using the third and fourth expression rules. When word embedding values are used, the fifth experimental result is when word embedding values derived using the 4th expression rule and the 5th expression rule are used, and finally, the sixth experimental result is the 3rd to 5th expression This corresponds to the case of using the word embedding value derived by using all the rules.

상기 [표 1]에 나타난 바와 같이, 단일의 표현규칙에 따라 변환된 값을 임베딩하여 도출된 어절임베딩값을 사용하는 것에 비해, 본 발명에서 기재한 복수의 표현규칙을 다양하게 사용하여 도출된 복수의 임베딩값을 병합하여 생성된 어절임베딩값을 사용하는 경우에 더욱 높은 성능을 달성하였음을 확인할 수 있다.As shown in [Table 1], compared to using word embedding values derived by embedding values converted according to a single expression rule, a plurality of expressions derived by variously using a plurality of expression rules described in the present invention. It can be seen that a higher performance was achieved in the case of using the word embedding value generated by merging the embedding values of .

또한, 하기의 [표 2]는 본 발명에서 기재한 의존소 및 지배소의 상대적인 거리를 고려하여 레이블링 하는 방법에 따른 의존 구문 분석 결과의 성능 변화를 개략적으로 나타낸다.In addition, [Table 2] below schematically shows the performance change of the dependency syntax analysis result according to the labeling method in consideration of the relative distances of the dependent and dominant elements described in the present invention.

[표 2][Table 2]

상기 [표 2]에서와 같이 상술한 종래의 입력 문장에서의 지배소의 절대적인 위치를 적용한 레이블링 방법을 사용했을 때, 입력 문장에서의 의존소 및 지배소 사이의 상대적인 거리를 적용한 레이블링 방법을 사용했을 때의 의존 구문 분석 결과의 성능을 나타낸다.As shown in [Table 2], when the above-described labeling method applying the absolute position of dominant elements in the conventional input sentence is used, when the labeling method applying the relative distance between dependent elements and dominant elements in the input sentence is used Indicates the performance of the dependence parsing result.

상기 [표 2]에 나타난 바와 같이, 지배소의 절대적인 위치를 적용한 종래의 레이블링 방법과 비교하여 본 발명에서의 의존소 및 지배소 사이의 상대적인 거리를 적용한 레이블링 방법을 사용했을 때 의존 구문 분석 결과의 성능이 더욱 높게 측정되었으며, 상대적인 거리를 적용한 세부적인 레이블링 방법 가운데서 제4표현규칙에 따른 지배소의 품사태그를 활용한 상대적 거리를 적용한 레이블링 방법(표 2의 UPoS)이 가장 높은 성능을 기록하였음을 확인할 수 있다.As shown in [Table 2], the performance of the dependent syntax analysis result when the labeling method using the relative distance between dependent and dominant points in the present invention is used compared to the conventional labeling method using the absolute location of the dominant points. was measured higher, and among the detailed labeling methods applying relative distance, it can be confirmed that the labeling method (UPoS in Table 2) using the relative distance using the POM tag of the governing station according to the 4th expression rule recorded the highest performance. there is.

상술한 [표 1] 및 [표 2]에서 확인할 수 있듯이, 입력 문장의 각 어절을 복수의 표현규칙에 따라 변환된 어절을 각각 임베딩하여 병합한 어절임베딩값을 인코더(1430)의 입력하고, 입력 문장에서의 의존소 및 지배소 사이의 상대적인 거리가 적용된 레이블을 레이블링하는 경우에 입력 문장에 대한 의존 구문 분석 결과의 성능이 종래의 방법과 비교하여 향상되는 효과를 발휘할 수 있다.As can be seen in the above [Table 1] and [Table 2], the encoder 1430 inputs the word embedding value obtained by embedding and merging the words converted according to the plurality of expression rules for each word of the input sentence. In the case of labeling a label to which a relative distance between dependent and dominant elements in a sentence is applied, the performance of a dependent syntactic analysis result for an input sentence can be improved compared to conventional methods.

도 11은 본 발명의 일 실시예에 따른 컴퓨팅장치의 내부 구성을 개략적으로 도시한다.11 schematically illustrates the internal configuration of a computing device according to an embodiment of the present invention.

상술한 도 1에 도시된 컴퓨팅장치(1000)는 상기 도 11에 도시된 컴퓨팅장치(11000)의 구성요소들을 포함할 수 있다.The computing device 1000 illustrated in FIG. 1 described above may include components of the computing device 11000 illustrated in FIG. 11 .

도 11에 도시된 바와 같이, 컴퓨팅장치(11000)는 적어도 하나의 프로세서(processor)(11100), 메모리(memory)(11200), 주변장치 인터페이스(peripheral interface)(11300), 입/출력 서브시스템(I/O subsystem)(11400), 전력 회로(11500) 및 통신 회로(11600)를 적어도 포함할 수 있다. 이때, 컴퓨팅장치(11000)는 도 1에 도시된 컴퓨팅장치(1000)에 해당될 수 있다.As shown in FIG. 11, a computing device 11000 includes at least one processor 11100, a memory 11200, a peripheral interface 11300, an input/output subsystem ( It may include at least an I/O subsystem (11400), a power circuit (11500), and a communication circuit (11600). In this case, the computing device 11000 may correspond to the computing device 1000 shown in FIG. 1 .

메모리(11200)는 일례로 고속 랜덤 액세스 메모리(high-speed random access memory), 자기 디스크, 에스램(SRAM), 디램(DRAM), 롬(ROM), 플래시 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(11200)는 컴퓨팅장치(11000)의 동작에 필요한 소프트웨어 모듈, 명령어 집합 또는 그 밖에 다양한 데이터를 포함할 수 있다.The memory 11200 may include, for example, high-speed random access memory, magnetic disk, SRAM, DRAM, ROM, flash memory, or non-volatile memory. . The memory 11200 may include a software module, a command set, or other various data necessary for the operation of the computing device 11000.

이때, 프로세서(11100)나 주변장치 인터페이스(11300) 등의 다른 컴포넌트에서 메모리(11200)에 액세스하는 것은 프로세서(11100)에 의해 제어될 수 있다.In this case, access to the memory 11200 from other components, such as the processor 11100 or the peripheral device interface 11300, may be controlled by the processor 11100.

주변장치 인터페이스(11300)는 컴퓨팅장치(11000)의 입력 및/또는 출력 주변장치를 프로세서(11100) 및 메모리 (11200)에 결합시킬 수 있다. 프로세서(11100)는 메모리(11200)에 저장된 소프트웨어 모듈 또는 명령어 집합을 실행하여 컴퓨팅장치(11000)을 위한 다양한 기능을 수행하고 데이터를 처리할 수 있다.Peripheral interface 11300 may couple input and/or output peripherals of computing device 11000 to processor 11100 and memory 11200 . The processor 11100 may execute various functions for the computing device 11000 and process data by executing software modules or command sets stored in the memory 11200 .

입/출력 서브시스템은 다양한 입/출력 주변장치들을 주변장치 인터페이스(11300)에 결합시킬 수 있다. 예를 들어, 입/출력 서브시스템은 모니터나 키보드, 마우스, 프린터 또는 필요에 따라 터치스크린이나 센서 등의 주변장치를 주변장치 인터페이스(11300)에 결합시키기 위한 컨트롤러를 포함할 수 있다. 다른 측면에 따르면, 입/출력 주변장치들은 입/출력 서브시스템을 거치지 않고 주변장치 인터페이스(11300)에 결합될 수도 있다.The input/output subsystem can couple various input/output peripherals to peripheral interface 11300. For example, the input/output subsystem may include a controller for coupling a peripheral device such as a monitor, keyboard, mouse, printer, or touch screen or sensor to the peripheral device interface 11300 as needed. According to another aspect, input/output peripherals may be coupled to the peripheral interface 11300 without going through the input/output subsystem.

전력 회로(11500)는 단말기의 컴포넌트의 전부 또는 일부로 전력을 공급할 수 있다. 예를 들어 전력 회로(11500)는 전력 관리 시스템, 배터리나 교류(AC) 등과 같은 하나 이상의 전원, 충전 시스템, 전력 실패 감지 회로(power failure detection circuit), 전력 변환기나 인버터, 전력 상태 표시자 또는 전력 생성, 관리, 분배를 위한 임의의 다른 컴포넌트들을 포함할 수 있다.The power circuit 11500 may supply power to all or some of the terminal's components. For example, power circuit 11500 may include a power management system, one or more power sources such as a battery or alternating current (AC), a charging system, a power failure detection circuit, a power converter or inverter, a power status indicator or power It may contain any other components for creation, management and distribution.

통신 회로(11600)는 적어도 하나의 외부 포트를 이용하여 다른 컴퓨팅장치와 통신을 가능하게 할 수 있다.The communication circuit 11600 may enable communication with another computing device using at least one external port.

또는 상술한 바와 같이 필요에 따라 통신 회로(11600)는 RF 회로를 포함하여 전자기 신호(electromagnetic signal)라고도 알려진 RF 신호를 송수신함으로써, 다른 컴퓨팅장치와 통신을 가능하게 할 수도 있다.Alternatively, as described above, the communication circuit 11600 may include an RF circuit and transmit/receive an RF signal, also known as an electromagnetic signal, to enable communication with other computing devices.

이러한 도 11의 실시예는, 컴퓨팅장치(11000)의 일례일 뿐이고, 컴퓨팅장치(11000)는 도 11에 도시된 일부 컴포넌트가 생략되거나, 도 11에 도시되지 않은 추가의 컴포넌트를 더 구비하거나, 2개 이상의 컴포넌트를 결합시키는 구성 또는 배치를 가질 수 있다. 예를 들어, 모바일 환경의 통신 단말을 위한 컴퓨팅장치는 도 11에 도시된 컴포넌트들 외에도, 터치스크린이나 센서 등을 더 포함할 수도 있으며, 통신 회로(11600)에 다양한 통신방식(WiFi, 3G, LTE, Bluetooth, NFC, Zigbee 등)의 RF 통신을 위한 회로가 포함될 수도 있다. 컴퓨팅장치(11000)에 포함 가능한 컴포넌트들은 하나 이상의 신호 처리 또는 어플리케이션에 특화된 집적 회로를 포함하는 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어 양자의 조합으로 구현될 수 있다.The embodiment of FIG. 11 is just one example of the computing device 11000, and the computing device 11000 may omit some components shown in FIG. 11, further include additional components not shown in FIG. It may have a configuration or arrangement combining two or more components. For example, a computing device for a communication terminal in a mobile environment may further include a touch screen or a sensor in addition to the components shown in FIG. , Bluetooth, NFC, Zigbee, etc.) may include a circuit for RF communication. Components that may be included in the computing device 11000 may be implemented as hardware including one or more signal processing or application-specific integrated circuits, software, or a combination of both hardware and software.

본 발명의 실시예에 따른 방법들은 다양한 컴퓨팅장치를 통하여 수행될 수 있는 프로그램 명령(instruction) 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 특히, 본 실시예에 따른 프로그램은 PC 기반의 프로그램 또는 모바일 단말 전용의 어플리케이션으로 구성될 수 있다. 본 발명이 적용되는 어플리케이션은 파일 배포 시스템이 제공하는 파일을 통해 컴퓨팅장치(11000)에 설치될 수 있다. 일 예로, 파일 배포 시스템은 컴퓨팅장치(11000)의 요청에 따라 상기 파일을 전송하는 파일 전송부(미도시)를 포함할 수 있다.Methods according to embodiments of the present invention may be implemented in the form of program instructions that can be executed through various computing devices and recorded in computer readable media. In particular, the program according to the present embodiment may be composed of a PC-based program or a mobile terminal-specific application. An application to which the present invention is applied may be installed in the computing device 11000 through a file provided by a file distribution system. For example, the file distribution system may include a file transmission unit (not shown) that transmits the file according to a request of the computing device 11000 .

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The device described above may be implemented as a hardware component, a software component, and/or a combination of hardware components and software components. For example, devices and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA) , a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing device may run an operating system (OS) and one or more software applications running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of software. For convenience of understanding, there are cases in which one processing device is used, but those skilled in the art will understand that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include. For example, a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨팅장치 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. The device can be commanded. Software and/or data may be any tangible machine, component, physical device, virtual equipment, computer storage medium or device, intended to be interpreted by or to provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed on networked computing devices and stored or executed in a distributed manner. Software and data may be stored on one or more computer readable media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program commands recorded on the medium may be specially designed and configured for the embodiment or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

본 발명의 일 실시예에 따르면, 어절임베딩값도출단계에서 각 어절을 복수의 표현규칙을 사용하여 복수의 임베딩값을 도출하고, 복수의 임베딩값을 병합하여 생성된 각 어절 별 어절임베딩값을 시퀀스 레이블링 기반의 의존 구문 분석 방법을 수행하기 위한 프레임워크의 인코더에 입력함으로써, 의존 구문 분석의 예측 결과가 종래의 방법에 따른 예측 결과에 비해 개선되는 효과를 발휘할 수 있다.According to an embodiment of the present invention, in the word embedding value derivation step, a plurality of embedding values are derived for each word using a plurality of expression rules, and the word embedding value for each word generated by merging the plurality of embedding values is sequenced. By inputting to the encoder of the framework for performing the labeling-based dependency syntax analysis method, the prediction result of the dependency syntax analysis can be improved compared to the prediction result according to the conventional method.

본 발명의 일 실시예에 따르면, 디코더에 포함된 복수의 디코더 셀 각각은 인코더에 포함된 어텐션모듈로부터 어텐션가중치를 추가적으로 입력받아, 어절에 대한 레이블링을 수행하여, 의존 구문 분석의 예측 결과가 종래의 방법에 따른 예측 결과에 비해 개선되는 효과를 발휘할 수 있다.According to an embodiment of the present invention, each of the plurality of decoder cells included in the decoder additionally receives an attention weight from the attention module included in the encoder and performs labeling on the word, so that the prediction result of dependency syntax analysis is obtained in the conventional case. Compared to the prediction result according to the method, an improvement effect can be exerted.

본 발명의 일 실시예에 따르면, 레이블링단계에서는 각 어절에 대한 지배소 및 해당 지배소와의 의존관계명을 하나의 레이블로 레이블링하기 위하여, 의존관계명 및 의존소와 지배소 사이의 상대적인 거리를 쌍으로 하는 레이블로 레이블링함으로써, 종래의 방법과 비교하여 높은 성능을 달성할 수 있는 효과를 발휘할 수 있다.According to one embodiment of the present invention, in the labeling step, in order to label the dominant location for each word and the dependent relationship name with the corresponding dominant location as one label, the dependent relationship name and the relative distance between the dependent and dominant location are determined. By labeling with paired labels, an effect capable of achieving high performance compared to conventional methods can be exerted.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited examples and drawings, those skilled in the art can make various modifications and variations from the above description. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims are within the scope of the following claims.

Claims (11)

1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅장치에서 수행하는 입력 문장에 대한 시퀀스 레이블링 기반의 의존 구문 분석 방법으로서,
어절임베딩값도출부에 의하여, 복수의 어절을 포함하는 입력 문장을 수신하고, 상기 복수의 어절 별로 기설정된 복수의 표현규칙 각각에 따라 도출된 복수의 임베딩값을 병합하여 상기 복수의 어절 각각에 대한 표현규칙별 임베딩값을 도출하고, 복수의 표현규칙별 임베딩값에 병합하여 해당 어절에 대한 어절임베딩값을 도출하는 어절임베딩값도출단계;
출력표상출력부에 의하여, 복수의 인코더 셀을 포함하는 인코더를 통해, 상기 입력 문장에서의 어절 순서에 따른 복수의 어절임베딩값 각각을 상기 각각의 인코더 셀에 입력하여 상기 복수의 어절임베딩값 각각에 대한 출력표상을 출력하는 출력표상출력단계; 및
레이블링부에 의하여, 복수의 디코더 셀을 포함하는 디코더를 통해, 상기 입력 문장에서의 어절 순서에 따른 복수의 출력표상 각각 및 해당 출력표상에 인접한 1 이상의 출력표상이 병합된 입력정보를 상기 각각의 디코더 셀에 입력하여 해당 출력표상에 상응하는 어절에 대한 지배소 및 해당 지배소와의 의존관계명을 레이블링하는 레이블링단계;를 포함하고,
상기 어절임베딩값도출부, 상기 출력표상출력부, 및 상기 레이블링부는 상기 컴퓨팅장치에 포함되고,
상기 복수의 표현규칙은,
해당 어절을 형태소 단위로 표현하는 제1표현규칙;
해당 어절을 음절 단위로 표현하는 제2표현규칙;
상기 입력 문장의 언어에 대하여 기설정된 제1품사태그정보에 기초하여 해당 어절을 해당 어절의 1 이상의 형태소 각각에 대한 품사태그로 표현하는 제3표현규칙;
복수의 언어를 동일한 형태로 표현하기 위하여 기설정된 제2품사태그정보에 기초하여 해당 어절에 대한 품사태그로 표현하는 제4표현규칙; 및
기설정된 제3품사태그정보에 기초하여 해당 어절을 해당 어절에 포함된 1 이상의 형태소 각각에 대한 품사태그를 병합하여 생성되는 단일의 어절태그로 표현하는 제5표현규칙;을 포함하고,
상기 인코더는 Bidirectional LSTM(BLSTM) 구조로 복수의 인코더 셀로 구성되고, 상기 복수의 인코더 셀 각각은, 상기 복수의 인코더 셀 각각이 제1방향으로 연결된 LSTM 신경망의 셀 유닛 및 상기 복수의 인코더 셀 각각이 제2방향으로 연결된 LSTM 신경망의 셀유닛을 포함하고,
상기 복수의 인코더 셀 각각은 해당 인코더 셀의 제1방향에 인접한 인코더 셀 및 해당 인코더 셀의 제2방향에 인접한 인코더 셀 각각으로부터 은닉표상을 입력받고, 어절임베딩값 및 복수의 은닉표상에 기초하여 해당 어절임베딩값에 대한 출력표상을 출력하고,
상기 디코더는 LSTM 구조로 구성되고, 각 어절 별로 해당 어절을 의존소로 하는 지배소; 및 해당 의존소 및 지배소에 대한 의존관계명;을 하나의 레이블로 간주하여 레이블링한 결과를 출력하고,
상기 레이블링단계는,
상기 입력 문장에 포함된 복수의 어절에서 특정 출력표상에 상응하는 어절의 위치 및 상기 특정 출력표상에 상응하는 어절에 대한 지배소의 위치 사이에서의 상기 지배소에 대한 품사태그를 고려한 거리정보; 및 상기 지배소와의 의존관계명;을 포함하는 특정 레이블로 레이블링하는, 시퀀스 레이블링 기반의 의존 구문 분석 방법.
A dependent syntax analysis method based on sequence labeling for an input sentence performed in a computing device including one or more processors and one or more memories,
The word embedding value derivation unit receives an input sentence including a plurality of words, merges a plurality of embedding values derived according to each of a plurality of preset expression rules for each of the plurality of words, and obtains a value for each of the plurality of words. A word embedding value derivation step of deriving a word embedding value for a corresponding word by deriving an embedding value for each expression rule and merging the embedding values for each expression rule;
The output representation output unit inputs each of a plurality of word embedding values according to the word order in the input sentence to each of the encoder cells through an encoder including a plurality of encoder cells, and obtains each of the plurality of word embedding values. an output representation output step of outputting an output representation for; and
Through a decoder including a plurality of decoder cells, the labeling unit transmits input information obtained by merging each of a plurality of output representations according to the order of words in the input sentence and one or more output representations adjacent to the corresponding output representation to each of the decoders. A labeling step of inputting the input into a cell and labeling the ruling place for the word corresponding to the corresponding output representation and the name of the dependent relationship with the corresponding ruling office;
The word embedding value derivation unit, the output representation output unit, and the labeling unit are included in the computing device,
The plurality of expression rules,
A first expression rule for expressing the corresponding word in units of morphemes;
a second expression rule for expressing the corresponding word in units of syllables;
a third expression rule for expressing a corresponding word as a part of speech tag for each of one or more morphemes of the corresponding word based on first part of speech tag information preset for the language of the input sentence;
a fourth expression rule expressing a part of speech for a corresponding word based on predetermined second part of speech tag information in order to express a plurality of languages in the same form; and
A fifth expression rule for expressing the corresponding word as a single word tag generated by merging the part of speech tags for each of one or more morphemes included in the corresponding word based on the preset third part tag information;
The encoder is composed of a plurality of encoder cells in a bidirectional LSTM (BLSTM) structure, and each of the plurality of encoder cells is a cell unit of an LSTM neural network to which each of the plurality of encoder cells is connected in a first direction and each of the plurality of encoder cells A cell unit of an LSTM neural network connected in a second direction;
Each of the plurality of encoder cells receives a hidden representation from each of the encoder cells adjacent to the first direction of the corresponding encoder cell and the encoder cells adjacent to the second direction of the corresponding encoder cell, and based on the word embedding value and the plurality of hidden representations, corresponding Output the output representation for the word embedding value,
The decoder is composed of an LSTM structure, and includes a dominant element for each word as a dependent element; and the name of the dependency on the dependent and governing stations; are regarded as one label and the labeling result is output,
The labeling step is
distance information between a position of a word corresponding to a specific output representation in a plurality of words included in the input sentence and a position of a dominant location for a word corresponding to the specific output representation considering a POS tag for the dominant location; and a name of a dependency relationship with the dominant locus.
청구항 1에 있어서,
상기 인코더는,
상기 복수의 인코더 셀 각각으로부터 복수의 출력표상을 입력받는 어텐션모듈을 더 포함하고,
상기 어텐션모듈은,
입력받은 상기 복수의 출력표상에 기초하여 상기 복수의 디코더 셀 각각에 입력되는 복수의 어텐션가중치를 도출하는, 시퀀스 레이블링 기반의 의존 구문 분석 방법.
The method of claim 1,
The encoder,
Further comprising an attention module receiving a plurality of output representations from each of the plurality of encoder cells,
The attention module,
A sequence labeling-based dependency syntax analysis method for deriving a plurality of attention weights input to each of the plurality of decoder cells based on the plurality of input output representations.
청구항 1에 있어서,
상기 어절임베딩값도출단계는,
상기 제1표현규칙에 따른 해당 어절에 대한 형태소를 임베딩하여 제1임베딩값을 도출하고, 해당 어절이 복수의 형태소를 포함하는 경우에 해당 어절의 첫번째 형태소를 임베딩하여 제1임베딩값을 도출하는, 시퀀스 레이블링 기반의 의존 구문 분석 방법.
The method of claim 1,
In the step of deriving the word embedding value,
Deriving a first embedding value by embedding the morpheme of the corresponding word according to the first expression rule, and deriving a first embedding value by embedding the first morpheme of the corresponding word when the corresponding word includes a plurality of morphemes, A dependency parsing method based on sequence labeling.
청구항 1에 있어서,
상기 어절임베딩값도출단계는,
상기 제2표현규칙에 따른 해당 어절에 포함된 1 이상의 음절 각각을 임베딩하여 1 이상의 음절임베딩값을 도출하고, 상기 1 이상의 음절임베딩값을 병합하여 제2임베딩값을 도출하는, 시퀀스 레이블링 기반의 의존 구문 분석 방법.
The method of claim 1,
In the step of deriving the word embedding value,
Dependence based on sequence labeling, wherein one or more syllables included in the corresponding word according to the second expression rule are embedded to derive one or more syllable embedding values, and a second embedding value is derived by merging the one or more syllable embedding values. Parsing method.
청구항 1에 있어서,
상기 어절임베딩값도출단계는,
상기 제3표현규칙에 따른 해당 어절에 대한 형태소의 품사태그를 임베딩하여 제3임베딩값을 도출하고, 해당 어절이 복수의 형태소를 포함하는 경우에 해당 어절의 첫번째 형태소의 품사태그를 임베딩하여 제3임베딩값을 도출하는, 시퀀스 레이블링 기반의 의존 구문 분석 방법.
The method of claim 1,
In the step of deriving the word embedding value,
A third embedding value is derived by embedding the POS tag of the morpheme of the corresponding word according to the third expression rule, and when the corresponding word includes a plurality of morphemes, the POS tag of the first morpheme of the corresponding word is embedded to derive the third embedding value. A dependency parsing method based on sequence labeling that derives an embedding value.
청구항 1에 있어서,
상기 어절임베딩값도출단계는,
상기 제4표현규칙에 따른 해당 어절에 대한 품사태그를 임베딩하여 제4임베딩값을 도출하는, 시퀀스 레이블링 기반의 의존 구문 분석 방법.
The method of claim 1,
In the step of deriving the word embedding value,
A sequence labeling-based dependent syntax analysis method of deriving a fourth embedding value by embedding a part-of-speech for a corresponding word according to the fourth expression rule.
청구항 1에 있어서,
상기 어절임베딩값도출단계는,
상기 제5표현규칙에 따른 해당 어절에 대한 어절태그를 임베딩하여 제5임베딩값을 도출하는, 시퀀스 레이블링 기반의 의존 구문 분석 방법.
The method of claim 1,
In the step of deriving the word embedding value,
A method for analyzing dependency syntax based on sequence labeling in which a fifth embedding value is derived by embedding a word tag for a corresponding word according to the fifth expression rule.
삭제delete 삭제delete 입력 문장에 대한 시퀀스 레이블링 기반의 의존 구문 분석 방법을 수행하는, 1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅장치로서,
복수의 어절을 포함하는 입력 문장을 수신하고, 상기 복수의 어절 별로 기설정된 복수의 표현규칙 각각에 따라 도출된 복수의 임베딩값을 병합하여 상기 복수의 어절 각각에 대한 표현규칙별 임베딩값을 도출하고, 복수의 표현규칙별 임베딩값에 병합하여 해당 어절에 대한 어절임베딩값을 도출하는 어절임베딩값도출부;
복수의 인코더 셀을 포함하는 인코더를 통해, 상기 입력 문장에서의 어절 순서에 따른 복수의 어절임베딩값 각각을 상기 각각의 인코더 셀에 입력하여 상기 복수의 어절임베딩값 각각에 대한 출력표상을 출력하는 출력표상출력부; 및
복수의 디코더 셀을 포함하는 디코더를 통해, 상기 입력 문장에서의 어절 순서에 따른 복수의 출력표상 각각 및 해당 출력표상에 인접한 1 이상의 출력표상이 병합된 입력정보를 상기 각각의 디코더 셀에 입력하여 해당 출력표상에 상응하는 어절에 대한 지배소 및 해당 지배소와의 의존관계명을 레이블링하는 레이블링부;를 포함하고,
상기 복수의 표현규칙은,
해당 어절을 형태소 단위로 표현하는 제1표현규칙;
해당 어절을 음절 단위로 표현하는 제2표현규칙;
상기 입력 문장의 언어에 대하여 기설정된 제1품사태그정보에 기초하여 해당 어절을 해당 어절의 1 이상의 형태소 각각에 대한 품사태그로 표현하는 제3표현규칙;
복수의 언어를 동일한 형태로 표현하기 위하여 기설정된 제2품사태그정보에 기초하여 해당 어절에 대한 품사태그로 표현하는 제4표현규칙; 및
기설정된 제3품사태그정보에 기초하여 해당 어절을 해당 어절에 포함된 1 이상의 형태소 각각에 대한 품사태그를 병합하여 생성되는 단일의 어절태그로 표현하는 제5표현규칙;을 포함하고,
상기 인코더는 Bidirectional LSTM(BLSTM) 구조로 복수의 인코더 셀로 구성되고, 상기 복수의 인코더 셀 각각은, 상기 복수의 인코더 셀 각각이 제1방향으로 연결된 LSTM 신경망의 셀 유닛 및 상기 복수의 인코더 셀 각각이 제2방향으로 연결된 LSTM 신경망의 셀유닛을 포함하고,
상기 복수의 인코더 셀 각각은 해당 인코더 셀의 제1방향에 인접한 인코더 셀 및 해당 인코더 셀의 제2방향에 인접한 인코더 셀 각각으로부터 은닉표상을 입력받고, 어절임베딩값 및 복수의 은닉표상에 기초하여 해당 어절임베딩값에 대한 출력표상을 출력하고,
상기 디코더는 LSTM 구조로 구성되고, 각 어절 별로 해당 어절을 의존소로 하는 지배소; 및 해당 의존소 및 지배소에 대한 의존관계명;을 하나의 레이블로 간주하여 레이블링한 결과를 출력하고,
상기 레이블링부는,
상기 입력 문장에 포함된 복수의 어절에서 특정 출력표상에 상응하는 어절의 위치 및 상기 특정 출력표상에 상응하는 어절에 대한 지배소의 위치 사이에서의 상기 지배소에 대한 품사태그를 고려한 거리정보; 및 상기 지배소와의 의존관계명;을 포함하는 특정 레이블로 레이블링하는, 컴퓨팅장치.
A computing device including one or more processors and one or more memories that performs a dependent syntax analysis method based on sequence labeling for an input sentence, comprising:
Receiving an input sentence including a plurality of words, deriving an embedding value for each expression rule for each of the plurality of words by merging a plurality of embedding values derived according to each of a plurality of expression rules preset for each of the plurality of words; , a word embedding value deriving unit for deriving a word embedding value for a corresponding word by merging the embedding values for each expression rule;
Through an encoder including a plurality of encoder cells, an output that inputs each of a plurality of word embedding values according to the word order in the input sentence to each of the encoder cells and outputs an output representation for each of the plurality of word embedding values. representation output unit; and
Through a decoder including a plurality of decoder cells, input information obtained by merging each of a plurality of output representations according to the order of words in the input sentence and one or more output representations adjacent to the corresponding output representation is input to each decoder cell, and the corresponding output representation is input to each decoder cell. A labeling unit for labeling the ruling place for the word corresponding to the output representation and the name of the dependency relationship with the corresponding ruling office;
The plurality of expression rules,
A first expression rule for expressing the corresponding word in units of morphemes;
a second expression rule for expressing the corresponding word in units of syllables;
a third expression rule for expressing a corresponding word as a part of speech tag for each of one or more morphemes of the corresponding word based on first part of speech tag information preset for the language of the input sentence;
a fourth expression rule expressing a part of speech for a corresponding word based on predetermined second part of speech tag information in order to express a plurality of languages in the same form; and
A fifth expression rule for expressing the corresponding word as a single word tag generated by merging the part of speech tags for each of one or more morphemes included in the corresponding word based on the preset third part tag information;
The encoder is composed of a plurality of encoder cells in a bidirectional LSTM (BLSTM) structure, and each of the plurality of encoder cells is a cell unit of an LSTM neural network to which each of the plurality of encoder cells is connected in a first direction and each of the plurality of encoder cells A cell unit of an LSTM neural network connected in a second direction;
Each of the plurality of encoder cells receives a hidden representation from each of the encoder cells adjacent to the first direction of the corresponding encoder cell and the encoder cells adjacent to the second direction of the corresponding encoder cell, and based on the word embedding value and the plurality of hidden representations, corresponding Output the output representation for the word embedding value,
The decoder is composed of an LSTM structure, and includes a dominant element for each word as a dependent element; and the name of the dependency on the dependent and governing stations; are regarded as one label and the labeling result is output,
The labeling unit,
distance information between a position of a word corresponding to a specific output representation in a plurality of words included in the input sentence and a position of a dominant location for a word corresponding to the specific output representation considering a POS tag for the dominant location; and a name of a dependency relationship with the governing station.
1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅장치에서 컴퓨터 프로그램을 실행하여, 상기 컴퓨팅장치에 의해 수행되는 입력 문장에 대한 시퀀스 레이블링 기반의 의존 구문 분석 방법을 구현하기 위한 컴퓨터-판독가능 매체로서, 상기 컴퓨터-판독가능 매체는, 상기 컴퓨팅장치로 하여금 이하의 단계들을 수행하도록 하는 명령들을 저장하며,
상기 이하의 단계들은,
어절임베딩값도출부에 의하여, 복수의 어절을 포함하는 입력 문장을 수신하고, 상기 복수의 어절 별로 기설정된 복수의 표현규칙 각각에 따라 도출된 복수의 임베딩값을 병합하여 상기 복수의 어절 각각에 대한 표현규칙별 임베딩값을 도출하고, 복수의 표현규칙별 임베딩값에 병합하여 해당 어절에 대한 어절임베딩값을 도출하는 어절임베딩값도출단계;
출력표상출력부에 의하여, 복수의 인코더 셀을 포함하는 인코더를 통해, 상기 입력 문장에서의 어절 순서에 따른 복수의 어절임베딩값 각각을 상기 각각의 인코더 셀에 입력하여 상기 복수의 어절임베딩값 각각에 대한 출력표상을 출력하는 출력표상출력단계; 및
레이블링부에 의하여, 복수의 디코더 셀을 포함하는 디코더를 통해, 상기 입력 문장에서의 어절 순서에 따른 복수의 출력표상 각각 및 해당 출력표상에 인접한 1 이상의 출력표상이 병합된 입력정보를 상기 각각의 디코더 셀에 입력하여 해당 출력표상에 상응하는 어절에 대한 지배소 및 해당 지배소와의 의존관계명을 레이블링하는 레이블링단계;를 포함하고,
상기 어절임베딩값도출부, 상기 출력표상출력부, 및 상기 레이블링부는 상기 컴퓨팅장치에 포함되고,
상기 복수의 표현규칙은,
해당 어절을 형태소 단위로 표현하는 제1표현규칙;
해당 어절을 음절 단위로 표현하는 제2표현규칙;
상기 입력 문장의 언어에 대하여 기설정된 제1품사태그정보에 기초하여 해당 어절을 해당 어절의 1 이상의 형태소 각각에 대한 품사태그로 표현하는 제3표현규칙;
복수의 언어를 동일한 형태로 표현하기 위하여 기설정된 제2품사태그정보에 기초하여 해당 어절에 대한 품사태그로 표현하는 제4표현규칙; 및
기설정된 제3품사태그정보에 기초하여 해당 어절을 해당 어절에 포함된 1 이상의 형태소 각각에 대한 품사태그를 병합하여 생성되는 단일의 어절태그로 표현하는 제5표현규칙;을 포함하고,
상기 인코더는 Bidirectional LSTM(BLSTM) 구조로 복수의 인코더 셀로 구성되고, 상기 복수의 인코더 셀 각각은, 상기 복수의 인코더 셀 각각이 제1방향으로 연결된 LSTM 신경망의 셀 유닛 및 상기 복수의 인코더 셀 각각이 제2방향으로 연결된 LSTM 신경망의 셀유닛을 포함하고,
상기 복수의 인코더 셀 각각은 해당 인코더 셀의 제1방향에 인접한 인코더 셀 및 해당 인코더 셀의 제2방향에 인접한 인코더 셀 각각으로부터 은닉표상을 입력받고, 어절임베딩값 및 복수의 은닉표상에 기초하여 해당 어절임베딩값에 대한 출력표상을 출력하고,
상기 디코더는 LSTM 구조로 구성되고, 각 어절 별로 해당 어절을 의존소로 하는 지배소; 및 해당 의존소 및 지배소에 대한 의존관계명;을 하나의 레이블로 간주하여 레이블링한 결과를 출력하고,
상기 레이블링단계는,
상기 입력 문장에 포함된 복수의 어절에서 특정 출력표상에 상응하는 어절의 위치 및 상기 특정 출력표상에 상응하는 어절에 대한 지배소의 위치 사이에서의 상기 지배소에 대한 품사태그를 고려한 거리정보; 및 상기 지배소와의 의존관계명;을 포함하는 특정 레이블로 레이블링하는, 컴퓨터-판독가능 매체.
A computer-readable medium for executing a computer program in a computing device including one or more processors and one or more memories to implement a sequence labeling-based dependent syntax analysis method for an input sentence performed by the computing device, wherein the A computer-readable medium stores instructions for causing the computing device to perform the following steps,
The following steps are
The word embedding value derivation unit receives an input sentence including a plurality of words, merges a plurality of embedding values derived according to each of a plurality of preset expression rules for each of the plurality of words, and obtains a value for each of the plurality of words. A word embedding value derivation step of deriving a word embedding value for a corresponding word by deriving an embedding value for each expression rule and merging the embedding values for each expression rule;
The output representation output unit inputs each of a plurality of word embedding values according to the word order in the input sentence to each of the encoder cells through an encoder including a plurality of encoder cells, and obtains each of the plurality of word embedding values. an output representation output step of outputting an output representation for; and
Through a decoder including a plurality of decoder cells, the labeling unit transmits input information obtained by merging each of a plurality of output representations according to the order of words in the input sentence and one or more output representations adjacent to the corresponding output representation to each of the decoders. A labeling step of inputting the input into a cell and labeling the ruling place for the word corresponding to the corresponding output representation and the name of the dependent relationship with the corresponding ruling office;
The word embedding value derivation unit, the output representation output unit, and the labeling unit are included in the computing device,
The plurality of expression rules,
A first expression rule for expressing the corresponding word in units of morphemes;
a second expression rule for expressing the corresponding word in units of syllables;
a third expression rule for expressing a corresponding word as a part of speech tag for each of one or more morphemes of the corresponding word based on first part of speech tag information preset for the language of the input sentence;
a fourth expression rule expressing a part of speech for a corresponding word based on predetermined second part of speech tag information in order to express a plurality of languages in the same form; and
A fifth expression rule for expressing the corresponding word as a single word tag generated by merging the part of speech tags for each of one or more morphemes included in the corresponding word based on the preset third part tag information;
The encoder is composed of a plurality of encoder cells in a bidirectional LSTM (BLSTM) structure, and each of the plurality of encoder cells is a cell unit of an LSTM neural network to which each of the plurality of encoder cells is connected in a first direction and each of the plurality of encoder cells A cell unit of an LSTM neural network connected in a second direction;
Each of the plurality of encoder cells receives a hidden representation from each of the encoder cells adjacent to the first direction of the corresponding encoder cell and the encoder cells adjacent to the second direction of the corresponding encoder cell, and based on the word embedding value and the plurality of hidden representations, corresponding Output the output representation for the word embedding value,
The decoder is composed of an LSTM structure, and includes a dominant element for each word as a dependent element; and the name of the dependency on the dependent and governing stations; are regarded as one label and the labeling result is output,
The labeling step is
distance information between a position of a word corresponding to a specific output representation in a plurality of words included in the input sentence and a position of a dominant location for a word corresponding to the specific output representation considering a POS tag for the dominant location; and a name of a dependency relationship with the governing station.
KR1020210129046A 2021-09-29 2021-09-29 Method, Computing Device and Computer-readable Medium for Dependency Parsing Based on Sequence Labeling KR102575034B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210129046A KR102575034B1 (en) 2021-09-29 2021-09-29 Method, Computing Device and Computer-readable Medium for Dependency Parsing Based on Sequence Labeling

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210129046A KR102575034B1 (en) 2021-09-29 2021-09-29 Method, Computing Device and Computer-readable Medium for Dependency Parsing Based on Sequence Labeling

Publications (2)

Publication Number Publication Date
KR20230046046A KR20230046046A (en) 2023-04-05
KR102575034B1 true KR102575034B1 (en) 2023-09-04

Family

ID=85884352

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210129046A KR102575034B1 (en) 2021-09-29 2021-09-29 Method, Computing Device and Computer-readable Medium for Dependency Parsing Based on Sequence Labeling

Country Status (1)

Country Link
KR (1) KR102575034B1 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101997783B1 (en) * 2017-08-18 2019-07-08 동아대학교 산학협력단 Syllable-based Korean POS Tagging using POS Distribution and Bidirectional LSTM CRFs and Method of the same
KR102109858B1 (en) * 2018-10-05 2020-05-12 동아대학교 산학협력단 System and Method for Korean POS Tagging Using the Concatenation of Jamo and Syllable Embedding
KR102284903B1 (en) * 2019-05-17 2021-08-03 주식회사 엔씨소프트 Mehtod and apparatus for input sequence
KR20210061284A (en) * 2019-11-19 2021-05-27 서강대학교산학협력단 System and method for dependent parsing

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
김성용 외 2명, "복합 레이블을 적용한 한국어 구문 규칙", 정보과학회논문지 : 소프트웨어 및 응용 31(2), 2004.02., pp235-244. 1부.*
박천음 외 3명, "멀티 레이어 포인터 네트워크를 이용한 한국어 의존 구문 분석", 제29회 한글 및 한국어 정보처리 학술대회 논문집, 2017.10., pp92-96. 1부.*
안재현 외 2명, "의존 경로와 음절단위 의존 관계명 분포 기반의 Bidirectional LSTM CRFs를 이용한 한국어 의존 관계명 레이블링", 제28회 한글 및 한국어 정보처리 학술대회 논문집,2016.10., pp14-19. 1부.*

Also Published As

Publication number Publication date
KR20230046046A (en) 2023-04-05

Similar Documents

Publication Publication Date Title
KR102577584B1 (en) Method and apparatus for performing machine translation
US20180121415A1 (en) Probabilistic matching for dialog state tracking with limited training data
AU2015360997A1 (en) Localization complexity of arbitrary language assets and resources
US11386270B2 (en) Automatically identifying multi-word expressions
US20150161109A1 (en) Reordering words for machine translation
US20240111956A1 (en) Nested named entity recognition method based on part-of-speech awareness, device and storage medium therefor
CN110874536A (en) Corpus quality evaluation model generation method and bilingual sentence pair inter-translation quality evaluation method
Hori et al. Statistical dialog management applied to WFST-based dialog systems
KR102564692B1 (en) System and method for processing natural language using correspondence learning
Chen et al. Peking at MRP 2019: Factorization-and composition-based parsing for elementary dependency structures
KR102183284B1 (en) System and method for tracking dialog state in a cross-language
KR102575034B1 (en) Method, Computing Device and Computer-readable Medium for Dependency Parsing Based on Sequence Labeling
Acharjee et al. Sequence-to-sequence learning-based conversion of pseudo-code to source code using neural translation approach
KR102381079B1 (en) Korean phrase learning system based on basic sentence unit segmentation
Andrabi et al. A Comprehensive Study of Machine Translation Tools and Evaluation Metrics
CN115034209A (en) Text analysis method and device, electronic equipment and storage medium
Khoufi et al. Chunking Arabic texts using conditional random fields
KR20150010145A (en) Apparatus for syntax analysis, and recording medium therefor
CN113673247A (en) Entity identification method, device, medium and electronic equipment based on deep learning
Kaur Development of an approach for disambiguating ambiguous Hindi postposition
Azhar et al. Roman urdu sentiment analysis using pre-trained distilbert and xlnet
Quecedo et al. Neural disambiguation of lemma and part of speech in morphologically rich languages
Asopa et al. A Shallow Parsing Model for Hindi Using Conditional Random Field
Wang et al. RoboNLU: advancing command understanding with a novel lightweight bert-based approach for service robotics
US11928180B2 (en) Automatic ground truth selection

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant