KR101409298B1 - Method of re-preparing lexico-semantic-pattern for korean syntax recognizer - Google Patents

Method of re-preparing lexico-semantic-pattern for korean syntax recognizer Download PDF

Info

Publication number
KR101409298B1
KR101409298B1 KR1020120084668A KR20120084668A KR101409298B1 KR 101409298 B1 KR101409298 B1 KR 101409298B1 KR 1020120084668 A KR1020120084668 A KR 1020120084668A KR 20120084668 A KR20120084668 A KR 20120084668A KR 101409298 B1 KR101409298 B1 KR 101409298B1
Authority
KR
South Korea
Prior art keywords
pattern
lsp
representative sentence
sentence pattern
semantic
Prior art date
Application number
KR1020120084668A
Other languages
Korean (ko)
Other versions
KR20140019094A (en
Inventor
장정훈
박희근
안영민
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Priority to KR1020120084668A priority Critical patent/KR101409298B1/en
Publication of KR20140019094A publication Critical patent/KR20140019094A/en
Application granted granted Critical
Publication of KR101409298B1 publication Critical patent/KR101409298B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

본 발명은 한국어 구문인식을 위한 어휘의미패턴 구성 방법에 관한 것이다.
본 발명의 방법은, (a) 형태소, 음절 및 어절로 이루어진 어휘의미패턴(LSP: Lexico-semantic-pattern)을 정의하는 단계; (b) 사용자 단말이 추출하고자 하는 1개 이상의 대표문형을 수집 또는 생성하는 단계; (c) 상기 대표문형에 대한 형태소 처리 과정을 거쳐 상기 대표문형을 LSP 형태로 변환하는 단계; 및 (d) LSP 형태로 변환된 상기 대표문형에서 사전 형태로 변경할 대상을 선정하고, 이를 이용하여 대표문형을 LSP로 재구성하는 단계;를 포함한다.
The present invention relates to a method for constructing a lexical semantic pattern for recognition of Korean syntax.
The method includes the steps of: (a) defining a lexico-semantic-pattern (LSP) consisting of a morpheme, a syllable, and a word; (b) collecting or generating at least one representative sentence type that the user terminal desires to extract; (c) transforming the representative sentence pattern into an LSP form through morphological processing of the representative sentence pattern; And (d) reconstructing the representative sentence pattern into an LSP by using the representative sentence pattern converted into the LSP form and selecting the object to be changed into the dictionary form.

Description

한국어 구문 인식을 위한 어휘의미패턴 재구성 방법{METHOD OF RE-PREPARING LEXICO-SEMANTIC-PATTERN FOR KOREAN SYNTAX RECOGNIZER}{METHOD OF RE-PREPARING LEXICO-SEMANTIC-PATTERN FOR KOREAN SYNTAX RECOGNIZER}

본 발명은 자연어 문장 분석 방법에 관한 것이며, 특히 한국어의 구문 인식을 위한 어휘의미패턴 구성 방법에 관련한다.
The present invention relates to a natural language sentence analysis method, and particularly relates to a method for constructing a lexical semantic pattern for recognizing a Korean phrase.

인간이 사용하는 언어를 자연어라고 하고, 인간의 필요에 의해 만들어진 언어를 인공언어라고 한다. 자연어에는 한국어를 비롯하여 영어, 프랑스어, 독일어, 일본어, 중국어 등 수많은 언어가 존재하며, 각각의 자연어는 자연적으로 발생하였으며, 시간의 흐름에 따라 자연스럽게 진화하여 왔다.The language used by humans is called natural language, and the language created by human needs is called artificial language. Natural languages include Korean, English, French, German, Japanese, Chinese and many other languages. Each natural language has occurred naturally, and has evolved naturally over time.

한편 인공언어에는 에스페란토어 및 각종 프로그래밍 언어 등이 있다. 이러한 인공언어들은 인간의 필요에 의해 만들어졌기 때문에 자연스럽게 진화하기보다는 인간의 의지와 기획에 의해 필요한 부분만 조금씩 변하고 있다.Artificial languages include Esperanto and various programming languages. Since these artificial languages are created by human needs, rather than naturally evolving, only the parts needed by human will and planning are changing little by little.

인공언어는 특정한 목적을 가지고 생성되었기 때문에 명확한 형식을 취하고 있다. 그렇기 때문에 인공언어의 형식에 기초하여 구문 구조를 인식하는 것은 용이하다. 자연어의 경우에는 일정한 형식이 존재하기는 하지만, 인간 사이의 의사소통을 위해 자연스럽게 발생하였으며, 인공언어와 같이 형식이 정해진 후에 발생한 것이 아니기 때문에, 해당 언어를 통해 그 언어의 형식인 문법을 유추하는 방식으로 해당 언어의 문법을 정립하고 있다.The artificial language has a definite form because it is created with a specific purpose. Therefore, it is easy to recognize the syntactic structure based on the form of the artificial language. In the case of natural language, although there is a certain form, it occurs naturally for communication between human beings. Since it is not occurred after the formalization like the artificial language, it is possible to infer the grammar which is the form of the language through the language The grammar of the language is established.

이러한 자연어를 기계를 통하여 자동적으로 분석하기 위한 방법을 연구하는 기술을 자연어 처리라고 하며, 단계적으로 형태소 분석, 품사 부착(태깅), 구문 분석, 의미 분석, 및 화용 분석으로 구분하고 있다. 현재, 한국어를 대상으로 실용화 및 상용화될 정도의 수준까지 발명된 것은 형태소 분석과 품사 부착이다.The natural language processing is called natural language processing and it is divided into morpheme analysis, tagging with parts (tagging), syntax analysis, semantic analysis, and phonetic analysis step by step. At present, it has been invented up to the level that it can be put to practical use and commercialization in Korean by morphological analysis and part-of-speech.

하지만, 인터넷의 발전으로 정보의 양이 엄청나게 많아지고, 정보의 생성자 또한 다양해지며, 정형화된 형태의 문서보다는 비정형화된 문서가 훨씬 더 많아지게 되면서, 정보의 이용자들은 정형화된 문서뿐만 아니라 비정형화된 문서에서도 정보를 추출하여 사용하기를 원하고 있고, 이를 위해서는 구문 분석 이상의 기술이 필요하다. 그러나 기존의 자연어처리 방법으로 한국어를 구문 분석하는 것은 현재로서는 거의 불가능한 것으로 보인다. 그래서 자연어 처리 연구자들은 구문 분석을 위한 방법으로 한국어의 문형을 분류 및 분석하여 이를 LSP(Lexico Syntactic Pattern) 형태로 적용하는 방법을 시도하고 있다. However, with the development of the Internet, the amount of information is enormous, the creator of information is also diversified, and the number of informal documents becomes much larger than the formalized form of documents, so that the users of the information, We want to extract and use the information in the document. However, it seems that it is almost impossible to parse Korean by the existing natural language processing method. Therefore, natural language processing researchers are attempting to classify and analyze Korean sentence patterns as a method for parsing and apply them in the form of LSP (Lexico Syntactic Pattern).

본 발명의 발명가들은 비정형화된 문서에도 효과적으로 적용할 수 있는 한국어의 구문인식을 위하여 오랫동안 연구 노력한 끝에 본 발명을 완성하게 되었다.
The inventors of the present invention have completed the present invention after a long effort of studying for the recognition of Korean phrases that can be effectively applied to non-standardized documents.

이에, 본 발명이 해결하고자 하는 과제는 자연어 처리 연구를 바탕으로 자연어인 한국어의 구문 인식을 하는 데 있어 부족했던 부분을 보완할 수 있는 신규한 어휘의미패턴의 구성방법을 제공함에 있다. 본 발명에서는 형태소, 음절, 어절로 이루어진 구조를 만들고 이를 이용해 다양한 표현과 유연한 기술이 가능하도록 고안된 어휘의미패턴(LSP: Lexico-semantic-pattern)를 정의하고, 이를 이용해 한국어 구문 인식 및 문장의 의미를 파악하는 데 있어 효율적인 방법을 제공하고자 한다.Accordingly, a problem to be solved by the present invention is to provide a method for constructing a new lexical semantic pattern that can complement a shortage in recognition of the Korean language, which is a natural language, based on natural language processing research. The present invention defines a Lexico-semantic-pattern (LSP) designed to enable a variety of expressions and flexible techniques using morphological, syllabic, and verbal structures, and uses them to recognize the meaning of Korean phrases and sentences And to provide an efficient way to identify them.

한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 것이다.
On the other hand, other unspecified purposes of the present invention will be further considered within the scope of the following detailed description and easily deduced from the effects thereof.

위와 같은 목적을 달성하기 위하여, 본 발명은: In order to achieve the above object, the present invention provides:

(a) 형태소, 음절 및 어절로 이루어진 어휘의미패턴(LSP: Lexico-semantic-pattern)을 정의하는 단계; (a) defining a lexico-semantic-pattern (LSP) consisting of a morpheme, a syllable, and a word;

(b) 사용자 단말이 추출하고자 하는 1개 이상의 대표문형을 수집 또는 생성하는 단계;(b) collecting or generating at least one representative sentence type that the user terminal desires to extract;

(c) 상기 대표문형에 대한 형태소 처리 과정을 거쳐 상기 대표문형을 LSP 형태로 변환하는 단계; 및(c) transforming the representative sentence pattern into an LSP form through morphological processing of the representative sentence pattern; And

(d) LSP 형태로 변환된 상기 대표문형에서 사전 형태로 변경할 대상을 선정하고, 이를 이용하여 대표문형을 LSP로 재구성하는 단계;를 포함하는, 한국어 구문 인식을 위한 어휘의미패턴 구성 방법을 특징으로 한다.(d) selecting an object to be changed into a dictionary form from the representative sentence pattern converted into the LSP form, and reconstructing the representative sentence pattern into an LSP using the selected sentence pattern, and constructing a lexical semantic pattern for recognizing the Korean sentence do.

본 발명의 한국어 구문 인식을 위한 어휘의미패턴 구성 방법의 바람직한 일 실시예에 있어서, (e) 상기 대표문형에서 유의미한 특정 어휘나 표현을 변수로 할당하는 LSP를 재구성하는 단계를 더 포함하는 것이 좋다.In a preferred embodiment of the method for constructing a lexical semantic pattern for recognizing a Korean phrase according to the present invention, it is preferable to further include (e) reconstructing an LSP that assigns a specific vocabulary or expression as a variable in the representative sentence pattern.

또한, 본 발명의 한국어 구문 인식을 위한 어휘의미패턴 구성 방법의 바람직한 일 실시예에 있어서, 상기 LSP 형태로 변환된 대표문형에 대해서 와일드 카드 연산자를 결합하여 대표문형의 LSP를 확장하는 단계를 더 포함하는 것이 좋다.Further, in a preferred embodiment of the method for constructing a lexical semantic pattern for recognizing a Korean phrase according to the present invention, the step of extending the LSP of the representative sentence pattern by combining the wildcard operator with the representative sentence pattern converted into the LSP form It is good to do.

또한, 본 발명의 방법에 있어서, 상기 어휘의미패턴을 구성하는 기본 단위인 표현(statement)으로 정의되는 요소는 어절, 형태소, 음절, 사전 및 변수를 포함할 수 있다.
Further, in the method of the present invention, elements defined by a basic unit of the lexical semantic pattern may include a word, a morpheme, a syllable, a dictionary, and a variable.

본 발명의 실시예들에 의하면 적어도 다음과 같은 효과가 있다:The embodiments of the present invention have at least the following effects:

비정형 데이터에서 단순한 단어 또는 단어의 조합을 넘어서 정확히 원하는 문형을 찾아낼 수 있으며, 그 문형 내에서 원하는 정보를 정확히 추출 가능하게 되어 한국어 구문의 인식과 구문분석에 보다 효과적으로 활용될 수 있다. 또한, 음성 인식 처리기, 질의 응답 처리기, SNS 감성 분석기 등과 같은 많은 자연어 처리를 필요로 하는 시스템들이 보다 직관적이고 효율적으로 한국어 문장을 분석하고 의미를 파악할 수 있게 된다.It is possible to find out exactly the desired sentence pattern beyond the simple word or combination of words in the unstructured data, and it is possible to extract the desired information accurately in the sentence pattern, and thus it can be utilized more effectively in recognizing and parsing the Korean sentence. In addition, many systems requiring natural language processing such as a speech recognition processor, a query response processor, and an SNS emotion analyzer can analyze Korean sentences more intuitively and efficiently and grasp the meaning.

본 발명의 명세서에서 구체적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.
Even if effects not specifically mentioned in the specification of the present invention are incorporated, the provisional effects expected by the technical features of the present invention are treated as described in the specification of the present invention.

도 1은 본 발명의 일 실시예에 따른 어휘의미패턴 구성 방법의 전체 프로세스를 개략적으로 나타내는 플로우 차트이다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.
1 is a flowchart schematically showing an entire process of a method for constructing a lexical semantic pattern according to an embodiment of the present invention.
* The accompanying drawings illustrate examples of the present invention in order to facilitate understanding of the technical idea of the present invention, and thus the scope of the present invention is not limited thereto.

이하, 첨부된 도면을 참조하여 본 발명의 실시를 위한 구체적인 내용을 설명한다. 그리고 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may obscure the subject matter of the present invention.

또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
In addition, each block may represent a module, segment, or portion of code that includes one or more executable instructions for executing the specified logical function (s). It should also be noted that in some alternative implementations, the functions mentioned in the blocks may occur out of order. For example, two blocks shown in succession may actually be executed substantially concurrently, or the blocks may sometimes be performed in reverse order according to the corresponding function.

도 1은 본 발명의 일 실시예에 따른 어휘의미패턴(LSP: Lexico-semantic-pattern)을 구성하는 방법을 나타낸다. 이렇게 어휘의미패턴을 구성함으로써 한국어의 구문을 인식하고 문장의 의미를 파악하는 데 있어 더 유용한 효과를 발휘하는 수단을 제공한다. 또한, 이와 같은 과정을 거쳐 어휘의미패턴을 재구성함으로써 문형 내에서 원하는 정보를 정확히 추출하는 환경을 제공한다. 이러한 환경은 단순히 단어나 단어의 조합만으로는 원하는 정보를 찾기 어려운 비정형 데이터에 있어 특히 유의미한 유용성을 제공한다. 단순히 단어를 주고받는 것이 아니라, 컴퓨터 장치를 매개로 문장을 분석하고 의미를 파악함으로써 자연어처리가 가능한 시스템 환경을 만드는 것이다.FIG. 1 illustrates a method of constructing a Lexico-semantic-pattern (LSP) according to an embodiment of the present invention. Thus, by constructing the lexical semantic pattern, it provides a means of recognizing the Korean sentence and showing a more useful effect in understanding the meaning of the sentence. In addition, through the above process, the lexical semantic pattern is reconstructed to provide an environment for extracting the desired information in the sentence pattern accurately. This environment is particularly useful for unstructured data where it is difficult to find the desired information simply by word or word combination. It is not simply sending and receiving words, but analyzing sentences through computer devices and understanding the meaning of them, thereby creating a system environment that can process natural language.

도 1의 프로세스는 한국어 구문인식 장치를 통해서 수행되며, 한국어 구문인식 장치는 소프트웨어 모듈로 구성될 수 있다. 또한 이 장치는 음성인식 시스템, 질의응답처리 시스템, SNS 감성 분석 시스템 또는 검색 시스템에 통합될 수 있다. 네트워크 관점에서는 이러한 시스템 서버에 사용자 단말이 접속하여 입력, 요청, 질의 등의 일련의 이벤트를 실행하게 된다. 서버 측에 설치되는 한국어 구문인식 장치는 프로그램과 리소스를 저장하는 메모리와 프로세서를 포함한다. 그리고 프로세서에 설치되는 소프트웨어는 어휘의미패턴을 정의하는 수단, 형태소 처리를 하는 수단, 어휘의미패턴으로 변환하는 수단 등을 포함할 수 있다. The process of FIG. 1 is performed through a Korean syntax recognition apparatus, and the Korean syntax recognition apparatus may be configured by a software module. The device may also be integrated into a speech recognition system, a query response processing system, an SNS emotional analysis system, or a search system. From the viewpoint of the network, the user terminal connects to the system server to execute a series of events such as input, request, and query. The Korean syntax recognition apparatus installed on the server side includes a memory and a processor for storing programs and resources. The software installed in the processor may include means for defining a lexical semantic pattern, means for morpheme processing, means for converting into a lexical semantic pattern, and the like.

먼저 시스템의 정의모듈은 LSP를 기술하기 위해 필요한 표현(statement)과 연산자를 정의한다(S100). S100 단계에서 정의되는 “표현”은 LSP를 구성하는 기본 단위이며, 이 표현에는 어절, 형태소, 음절, 사전(카테고리), 변수(variable)가 포함될 수 있다. 연산자는 이 표현들 간의 관계를 나타내는 것이며, 표현(statement) 은 표 1과 같이 정의될 수 있다.First, the definition module of the system defines a statement and an operator necessary for describing the LSP (S100). The " expression " defined in step S100 is a basic unit constituting the LSP, and the expression may include a word, a morpheme, a syllable, a dictionary (category), and a variable. The operator represents the relationship between these expressions, and the statement can be defined as shown in Table 1.

명칭designation 표현(statement)Statement 의미meaning 어절Eulogy WW -어절
-화이트 스페이스로 구분된 표층어휘
-Eyes
- Surface vocabulary separated by white space
형태소morpheme {(L;L/P;/P)?+(L;L/P;/P)?} {(L; L / P; / P) +? (L; L / P; / P)?} -형태소의 어휘와 품사를 표현
-중괄호( { } ) 내에 표현 또는 플러스( + )로 연결되어 표현
-품사 앞에는 항상 슬래시( / )를 부착
- Expressing the vocabulary and parts of a morpheme
- Expressed in curly brackets ({}) or connected by plus (+)
- Always attach a slash (/) in front of the part of speech
음절Syllable [C ][ C ] -음절
-대괄호( [ ] ) 내에 표현
- syllable
- Expressed within square brackets ([])
사전dictionary @category @ category -동일/유사한 의미를 가지는 하나 이상의 형태소들을 기록
-카테고리명 앞에 @을 부착
- record one or more morphemes with the same / similar meaning
- Attach @ before the category name
변수variable &variable=stmt & variable = stmt -추출하려는 값과 그 값의 범주를 표현- express the value to extract and the category of its value

표현들 간의 관계를 나타내는 연산자는 표 2처럼 정의될 수 있다. W은 어절을 나타내며, L은 형태소의 어휘, P는 형태소의 품사, N은 0 이상의 정수, stmt는 표현(statement)를 지칭한다.Operators representing the relationships between representations can be defined as in Table 2. W is a word, L is a morpheme, P is a part of a morpheme, N is an integer greater than or equal to 0, and stmt is a statement.

연산자Operator 문법grammar 의미meaning ;; stmt 1 ;stmt 2
W 1;W 2
(L/P)1;(L)2;(/P)3
stmt 1 ; stmt 2
W 1 ; W 2
( L / P ) 1 ; ( L ) 2 ; (/ P ) 3
-OR-OR
{ }{} {stmt 1} {stmt 2}{ stmt 1 } { stmt 2 } -하나 어절 내의 표현으로 구분하는 한정자- One qualifier that distinguishes between expressions in a word phrase ( )() ( )() -우선순위 및 단위를 구분하는 한정자- Qualifiers that distinguish priority and units == &variable =stmt & variable = stmt -값의 범주를 지정하는 연산자- an operator that specifies the category of values // /P / P -형태소의 품사를 표현(품사의 값은 한국어 형태소 분석기에 정의된 값으로 표현)- express the part of morpheme (the value of part of speech is expressed by the value defined in Korean morpheme analyzer) ++ stmt 1+stmt 2 stmt 1 + stmt 2 -좌/우변에 대한 형태소 결합을 확인
-좌측의 표현에 맨 오른쪽 형태소와 우측의 표현에 맨 왼쪽 형태소의 결합을 확인
- Check for morphological bonding to left / right
- Confirm the combination of the rightmost and the leftmost morpheme in the expression on the right and the expression on the right.
^^ ^N min~N max
N minN max, N min ≥ 0
^ := ^0~∞, ^~N max := ^0~N max
^N max := ^0~N max, ^N min~ := ^N min~∞
^ N min ~ N max
N min < N max , N min ≥ 0
^: = ^ 0 ~ ∞, ^ ~ N max : = ^ 0 ~ N max
^ N max : = ^ 0 ~ N max , ^ N min ~: = ^ N min ~ ∞
-모든 W, L, PN min~N max 번 대체
-{ } 한정자로 묶인 상태에서는 L, P를 대체할 수 있지만, W을 대체할 수는 없다.
-W의 앞부분 혹은 뒷부분에 사용될 시, W를 포함한 1 어절 이상의 텍스트를 표현하는 와일드카드 형태로 사용된다.
Replace all W, L , P with N min ~ N max
- You can substitute L and P in the case of {} with the qualifier, but not W.
- is used as a wild card form representing one or Eojeol including W text when used in the earlier or later in W.
## #N min~N max
N minN max, N min ≥ 1
# := ^0~∞, #~N max := #0~N max
# N max := #0~N max, #N min~ := #N min~∞
# N min ~ N max
N min < N max , N min ≥ 1
#: = ^ 0 ~ ∞, # ~ N max : = # 0 ~ N max
# N max : = # 0 ~ N max , # N min ~: = # N min ~ ∞
-모든 W, L, PN min~N max 번 대체
-{ } 한정자로 묶인 상태에서는 L, P를 대체할 수 있지만, W을 대체할 수는 없다.
-W의 앞부분 혹은 뒷부분에 사용될 시, W를 포함한 2 어절 이상의 텍스트를 표현하는 와일드카드 형태로 사용된다.
Replace all W , L , P with N min ~ N max
- You can substitute L and P in the case of {} with the qualifier, but not W.
- is used as a wild card representing the form of two or more W Eojeol including text when used in the earlier or later in W.
?? ? or {?} or stmt?? or {?} or stmt ? -모든 표현에 대해 적용 혹은 미적용을 의미
-모든 표현을 한번 대치하거나 공집합을 의미
- Meaning to apply or not to all expressions
- replace all expressions once or implicitly
!! !stmt or !W or !L or !P ! stmt or! W or! L or! P -표현이나 워드의 본래 의미를 부정하는 표현- Expressions that deny the original meaning of expression or word \\ \character , where
character ∈ {(, ), {, }, =, +, *, #, @, ?, &, !, \, ~}
\ character , where
character ∈ {(,), {,}, =, +, *, #, @,?, &,!, \, ~}
-문자 그대로 정확히 해석해야 할 값을 의미
-리터럴 \는 바로 연이어 오는 문자 한 개에 적용됨
- literally means the value to be interpreted correctly
- Literal \ is applied to one character
** stmt* stmt * -표현식을 반복
-*의 카디날리티는 ^이나 #과 동일하다
- Repeating expressions
- The cardinality of * is the same as ^ or #
[][] POSIX character class
[:alpha:]
[:digit:]
[:lower:]
[:upper:]
PERL character class
[A-Za-z0-9]
[!"#$%&'()*+,./:;<=>?@\^_`{|}~-]
POSIX character class
[: alpha:]
[: digit:]
[: lower:]
[: upper:]
PERL character class
[A-Za-z0-9]
[! "# $% &'() * +,. / :; <=>? @ \ ^ _` {|} ~ -]
-POSIX와 PERL character class의 일부 표현Partial representation of POSIX and PERL character classes
$$ ^$, #$, &$variable ^ $, # $, & $ variable -^이나 #뒤에 오며 후처리 유무를 의미
-$이 있는 경우에 후처리 실행
- It comes after ^ or #
- Perform post-processing if $ exists

표 3은 상술한 연산자가 갖는 우선 순위를 나타내기 위한 것이다. 구체적으로, 표 3에 기재된 연산자들 중 ^, #, *연산자를 제외하고는 결합에 있어서 왼쪽의 표현이 우선하도록 정의된다.Table 3 shows the priorities of the above-mentioned operators. Specifically, except for the ^, #, and * operators among the operators listed in Table 3, the expression on the left in the combination is defined to take precedence.

순위ranking 연산자Operator 결합순서Join sequence 1One ( ) { } \() {} \ 왼쪽 우선Left first 22 !! 왼쪽 우선Left first 33 ;; 왼쪽 우선Left first 44 == 왼쪽 우선Left first 55 ^ # *^ # * 오른쪽 우선Right first 66 ++ 왼쪽 우선Left first

표 1에서 정의한 표현의 예는 표 4와 같다. An example of the expression defined in Table 1 is shown in Table 4.

표현(statement) 예제Example statement 의미meaning 김연아;연아;연느님Kim, Yeon - Ah; “김연아”, “연아” 또는 “연느님”이라는 어절을 의미Meaning of the phrase "Kim Yu-na", "Yeon-a" or "Yeon-nim" {김연아+를/J_;김연아+/JKG}{Kim Yu-na + / J_; Kim Yeon-ah + / JKG} 한 어절 내의 형태소 패턴 “김연아+를/J_” 또는 “김연아+/JKG”를 의미A morpheme pattern in a word meaning "Kim Yu-na + / J_" or "Kim Yu-na + / JKG" {@남성;@동물}{@ Male; @ animal} “남성”과 “동물”이라는 사전 내의 한 엔트리가 대입됨을 의미Means that one entry in the dictionary "male" and "animal" is assigned 김연아 입니다.It is Kim Yu-na. “김연아”, “입니다.”라는 어절을 의미"Kim Yu-na" means "it is." {&Add1=@Address}{& Add1 = @ Address} “Add1”은 “Address”라는 사전에 속한 엔트리들 중에 하나로 대입되고 Add1이라는 변수로 추출됨을 의미&Quot; Add1 &quot; is assigned to one of the entries belonging to the dictionary &quot; Address &quot; #+!/EM# +! / EM 하나 이상의 어절이고, 두 개 이상의 형태소로 구성된 어절의 마지막 형태소의 품사가 어말어미(/EM)가 아닌 어절까지를 표현One or more words, and the part of the last morpheme of the word consisting of two or more morphemes expresses up to the vernacular rather than the ending ending (/ EM) 서울+#+!/EMSeoul + # +! / EM 하나 이상의 어절에서 형태소 “서울”에서부터 시작하여 두 개 이상의 형태소가 나타나고 마지막 형태소의 품사가 어말어미(/EM)가 아닌 어절까지를 표현In more than one word, more than two morphemes are shown starting from the morpheme "Seoul", and the last morpheme expresses up to the vernacular rather than the ending mother (/ EM) {#+!/EM}{# +! / EM} 두 개 이상의 형태소로 구성되고 마지막 형태소의 품사가 /EM이 아닌 한 어절It is composed of two or more morphemes, and unless the part of the last morpheme is / EM, ^1~4 한국^ 1 ~ 4 Korea 어절 “한국” 앞에 임의의 어절이 1~4개 출현하는 텍스트를 표현Expressing text with one to four random phrases in front of the phrase "Korea" 가*3~* 3 ~ “가” 어절이 3번 이상 반복되는 텍스트를 표현, 최소 길이 텍스트 “가 가 가”"A" represents the text that is repeated three or more times, the minimum length of the text is " [0-9]*[2][0-9] * [2] 문자 사이에 화이트 스페이스가 존재하지 않고, 0~9 사이의 문자가 0~10번 반복되고 2로 끝나는 텍스트를 표현Represents text where there is no white space between characters, characters between 0 and 9 are repeated 0 to 10 times and ends with 2 [1]*3 [:digit:] [:digit:]* [4][1] * 3 [: digit:] [: digit:] * [4] 표현에 부합하는 최소 길이 텍스트, 예) “1 2 3 4”Minimum length text that matches the expression, eg "1 2 3 4"

다음으로 사용자가 추출하고자 하는 문장들에서 1개 이상의 대표문형을 수집 또는 생성한다(S110). 예를 들어, 소설가 “이외수”의 출생지 정보를 포함한 대표문형으로 아래와 같은 두 개의 대표문형을 선택하였다고 가정하자. Next, one or more representative sentence patterns are collected or generated in the sentences to be extracted by the user (S110). For example, suppose that you have chosen two representative sentence patterns as the representative sentence patterns including the birthplace information of the novelist "other".

대표문형 1: 이외수는 경남 함양군에서 태어났습니다.Representative Moon Type 1: The other was born in Hamyang-gun, Gyeongsangnam-do.

대표문형 2: 경남 함양군은 이외수가 태어난 곳이다.Representative Moon Type 2: Gyeongnam, Hamyang-gun is a place where a foreigner is born.

그리고 이 대표문형에 대해서 형태소 처리 과정을 거쳐 대표문형을 LSP 형태로 변환한다(S120). 대표문형으로 선택된 문장에 대한 형태소의 분석과 형태소 패턴 선택 과정을 거치게 되며 이런 과정을 거쳐서 상기 2개의 대표문형을 LSP 형태로 표현하면 아래와 같다.Then, the representative sentence pattern is transformed into the LSP form after the morphing process (S120). Analysis of morpheme and selection of morpheme pattern for sentence selected as representative sentence pattern are performed. Through the process, the two representative sentence patterns are expressed in LSP form as follows.

LSP1: <person>+조사 <place>+에서/조사 <born-verb>+^+어미LSP1: <person> + Survey <place> + / Investigation <born-verb> + ^ + mother

LSP2: <place>+조사 <person>+조사 <born-verb>+관형형어미 <place-noun>+^+어미LSP2: <place> + survey <person> + survey <born-verb> + tubular mother <place-noun> + ^ + mother

다음으로, LSP 형태로 변환된 상기 대표문형에서 사전 형태로 변경할 대상을 선정하고, 이를 이용하여 대표문형을 LSP로 재구성하게 된다(S130). 예컨대 위의 문장에서 기호 <…> 로 표현된 것들 중에서 사용자가 추출하고자 하는 정보가 아닌 사전 정보 내의 정보 만을 이용하고 싶은 정보들을 본 발명에서 정의하는 LSP의 사전 형태로 변경하면 LSP를 재구성할 수 있다. 위의 예에서 사전 형태로 변경할 대상은 <born-verb>와 <place-noun>이다. Next, an object to be changed from the representative sentence type converted into the LSP type to the dictionary type is selected, and the representative sentence type is reconfigured into the LSP using the selected target sentence type (S 130). For example, in the above sentence, the symbol <... >, The LSP can be reconfigured by changing the information that the user desires to use only the information in the dictionary information to the dictionary form of the LSP defined in the present invention. In the above example, the objects to be changed to the dictionary form are <born-verb> and <place-noun>.

<born-verb> 태어나/동사 출생하/동사 탄생하/동사 … …<born-verb> is born / is born in verb / is born in verb / verb ... ...

<place-noun> 곳/명사 장소/명사 지역/명사 고향/명사… …<place-noun> place / noun place / noun area / noun house / noun ... ...

이를 바탕으로 상기 대표문형에 대해서 LSP를 재구성하면 다음과 같다.Based on this, the LSP can be reconstructed for the representative sentence pattern as follows.

LSP1: <person>+조사 <place>+에서/조사 @born-verb+^+어미LSP1: <person> + Survey <place> + / survey @ born-verb + ^ + mother

LSP2: <place>+조사 <person>+조사 @born-verb+관형형어미 @place-noun+^+어미LSP2: <place> + survey <person> + survey @ born-verb + tubular ending @ place-noun + ^ + ending

이와 같이 대표문형에서 비슷한 의미를 갖는 어휘나 표현, 실질적인 문법 형태를 구성하는 형태소 등을 묶어 각각을 사전으로 구체화시키고, 사전을 이용해서 대표문형에 일치하는 다양한 문장을 해석할 수 있게 된다.
In this way, the vocabulary or expression having similar meaning in the representative sentence pattern, and the morpheme constituting the actual grammatical form are grouped together, and each of them is specified in the dictionary, and various sentences corresponding to the representative sentence pattern can be interpreted using the dictionary.

다음으로, 대표문형에서 유의미한 특정 어휘나 표현을 변수로 할당하여 LSP를 재구성할 수 있다(S240). 즉, 이 단계는 문맥상 의미가 있거나 핵심이 되는 특정 어휘나 표현을 추출하기 위한 개체 인식 단계이다. 얻고자 하는 정보에 해당하는 부분을 직접 추출해서 사용자에게 전달하기 위한 LSP의 이러한 변수 할당을 상기 예에 적용할 때, 변수 할당할 대상은 <person>과 <place>이다. 다시 재구성되는 LSP는 다음과 같다.Next, the LSP can be reconstructed by assigning a meaningful specific vocabulary or expression as a variable in the representative sentence pattern (S240). That is, this step is an object recognition step for extracting a specific vocabulary or expression that is meaningful or core in context. When the variable allocation of the LSP for directly extracting the portion corresponding to the information to be obtained and delivering it to the user is applied to the above example, the objects to be allocated are <person> and <place>. The reconstructed LSP is as follows.

LSP1: (&person=인물명사)+조사 (&place=지명표현명사구)+에서/조사 @born-verb+^+어미LSP1: (& person = person noun) + Survey (& place = nominal noun phrase) + from / survey @ born-verb + ^ +

LSP2: (&place=지명표현명사구)+조사 (&person=인물명사)+조사 @born-verb+관형형어미 @place-noun+^+어미LSP2: (& place = nominal phrase noun phrases) + survey (& person = person nouns) + survey @ born-verb + tubular endings @ place-noun + ^ +

상기 S240 단계를 수행함으로써 변수 할당을 통해 대표문형에서 추출된 정보는 각각 person=“이외수”, place=“경남 함양군”이고, 이와 같은 표현을 이용해 많은 유의미한 정보를 추출할 수 있다.
The information extracted from the representative sentence patterns through variable assignment by performing step S240 is a person = "other number" and place = "Hamyang gun", and many meaningful information can be extracted by using such expression.

위와 같은 LSP 구성 방법을 통해서 대표문형과 동일한 형태의 문장들에서 정보를 추출할 수 있다. 이는 곧 한국어의 구문 인식과 구문 분석에 있어 실질적인 도움을 제공한다. 그러나 LSP의 구성 단위인 음절, 형태소, 어절 등에 제약으로부터 벗어나서 좀더 다양한 문장을 포섭하고 활용할 수 있는 방안이 필요하다. 이를 위해서 본 발명의 일 실시예에서는 와일드 카드 연산자를 LSP에 결합하여 대표문형의 LSP를 확장할 수 있다(S250). 상기 두 개의 대표문형은 와일드 카드 연산자의 결합으로 다음과 같이 확장될 수 있다.Through the above LSP configuration method, information can be extracted from sentences of the same type as the representative sentence pattern. This provides practical assistance in parsing and parsing Korean. However, there is a need for a method that can absorb and utilize more various sentences out of constraints such as syllables, morphemes, and phrases, which are constituent units of LSP. For this purpose, in one embodiment of the present invention, the LSP of the representative sentence type may be extended by combining the wildcard operator with the LSP (S250). The two representative sentence types can be extended as follows by combining wildcard operators.

LSP1: ^ (&person=인물명사)+조사 ^~3 (&place=지명표현명사구)+에서/조사 ^~2 @born-verb+^+어미LSP1: ^ (& person = person noun) + Survey ^ ~ 3 (& place = locative expression noun phrase) + to / search ^ ~ 2 @ born-verb + ^ +

LSP2: ^ (&place=지명표현명사구)+조사 ^~3 (&person=인물명사)+조사 ^~2 @born-verb+관형형어미 @place-noun+^+어미
LSP2: ^ (& place = locative noun phrase) + survey ^ ~ 3 (& person = person noun) + survey ^ ~ 2 @ born-verb +

이렇게 확장된 LSP를 이용하면 다음과 같은 문장에서도 정보를 추출하는 것이 가능하다.With this extended LSP, it is possible to extract information even in the following sentences.

“이외수는 1946년 8월 15일 경남 함양군에서 태어났습니다.”"The other was born on August 15, 1946, in Hamyang-gun, South Gyeongsang Province."

“지리산 국립공원 인근에 있는 경남 함양군은 소설가 이외수가 태어난 곳이다.”"Located near the Jirisan National Park, Gyeongsangnam-do is a place where a novelist is born."

이상의 실시예를 통해서 “어떤 사람 - 태어난 곳”의 표현 또는 의미를 담고 있는 문장을 찾기 위한 LSP의 구성방법에 대해서 살펴보았다. 다른 대표문형을 더 확보하여 LSP를 추가하면 “어떤 사람 - 태어난 곳”에 해당하는 많은 문장을 찾아 낼 수 있고 이를 통해서 다양한 시스템에서 활용이 가능해진다.Through the above-mentioned embodiments, a method of constructing an LSP for finding a sentence containing the expression or meaning of a person-born place has been described. If you add more LSP to other representative sentence patterns, you can find many sentences corresponding to "someone - born place", and you can use it in various systems.

본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명의 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.
The scope of protection of the present invention is not limited to the description and the expression of the embodiments explicitly described in the foregoing. It is again to be understood that the scope of protection of the present invention can not be limited by obvious alterations or permutations of the present invention.

Claims (4)

(a) 형태소, 음절 및 어절로 이루어진 어휘의미패턴(LSP: Lexico-semantic-pattern)을 정의하는 단계;
(b) 사용자 단말이 추출하고자 하는 1개 이상의 대표문형을 수집 또는 생성하는 단계;
(c) 상기 대표문형에 대한 형태소 처리 과정을 거쳐 상기 대표문형을 LSP 형태로 변환하는 단계; 및
(d) LSP 형태로 변환된 상기 대표문형에서 사전 형태로 변경할 대상을 선정하고, 이를 이용하여 대표문형을 LSP로 재구성하는 단계;를 포함하는, 한국어 구문 인식을 위한 어휘의미패턴 재구성 방법.
(a) defining a lexico-semantic-pattern (LSP) consisting of a morpheme, a syllable, and a word;
(b) collecting or generating at least one representative sentence type that the user terminal desires to extract;
(c) transforming the representative sentence pattern into an LSP form through morphological processing of the representative sentence pattern; And
(d) selecting an object to be changed into a dictionary form from the representative sentence pattern converted into the LSP form, and reconstructing the representative sentence pattern into an LSP using the selected sentence pattern, and reconstructing a vocabulary semantic pattern for recognizing Korean phrases.
제1항에 있어서,
(e) 상기 대표문형에서 유의미한 특정 어휘나 표현을 변수로 할당하는 LSP를 재구성하는 단계를 더 포함하는, 한국어 구문 인식을 위한 어휘의미패턴 재구성 방법.
The method according to claim 1,
(e) reconstructing an LSP that assigns a meaningful specific vocabulary or expression as a variable in the representative sentence pattern.
제1항에 있어서,
상기 LSP 형태로 변환된 대표문형에 대해서 와일드 카드 연산자를 결합하여 대표문형의 LSP를 확장하는 단계를 더 포함하는, 한국어 구문 인식을 위한 어휘의미패턴 재구성 방법.
The method according to claim 1,
And expanding the LSP of the representative sentence pattern by combining the wildcard operator with the representative sentence pattern converted into the LSP form.
제1항에 있어서,
상기 어휘의미패턴을 구성하는 기본 단위인 표현(statement)으로 정의되는 요소는 어절, 형태소, 음절, 사전 및 변수를 포함하는, 한국어 구문 인식을 위한 어휘의미패턴 재구성 방법.
The method according to claim 1,
A method for reconstructing a lexical semantic pattern for recognition of a Korean phrase, the element being defined as a basic unit constituting the lexical semantic pattern includes a word, a morpheme, a syllable, a dictionary, and a variable.
KR1020120084668A 2012-08-02 2012-08-02 Method of re-preparing lexico-semantic-pattern for korean syntax recognizer KR101409298B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120084668A KR101409298B1 (en) 2012-08-02 2012-08-02 Method of re-preparing lexico-semantic-pattern for korean syntax recognizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120084668A KR101409298B1 (en) 2012-08-02 2012-08-02 Method of re-preparing lexico-semantic-pattern for korean syntax recognizer

Publications (2)

Publication Number Publication Date
KR20140019094A KR20140019094A (en) 2014-02-14
KR101409298B1 true KR101409298B1 (en) 2014-06-30

Family

ID=50266780

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120084668A KR101409298B1 (en) 2012-08-02 2012-08-02 Method of re-preparing lexico-semantic-pattern for korean syntax recognizer

Country Status (1)

Country Link
KR (1) KR101409298B1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101589621B1 (en) * 2015-02-23 2016-01-28 주식회사 와이즈넛 Method of establishing lexico semantic pattern knowledge for text analysis and response system
KR102140342B1 (en) * 2016-02-02 2020-07-31 한국전자통신연구원 Apparatus and method for reorganizing of sentence using parameterizaion pattern based on korean syntagma
KR102097545B1 (en) * 2017-02-08 2020-04-06 한국과학기술원 System and method for character boundary recognition

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060063345A (en) * 2004-12-07 2006-06-12 한국전자통신연구원 System and method for classfying question based on hybrid of information search and question answer system
KR100989581B1 (en) * 2010-04-28 2010-10-25 한국과학기술정보연구원 Apparatus and method for building resource description framework network using ontology schema merged named entity database and mining rule

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060063345A (en) * 2004-12-07 2006-06-12 한국전자통신연구원 System and method for classfying question based on hybrid of information search and question answer system
KR100989581B1 (en) * 2010-04-28 2010-10-25 한국과학기술정보연구원 Apparatus and method for building resource description framework network using ontology schema merged named entity database and mining rule

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
한국HCI학회, ‘어휘 의미 패턴과 온톨로지를 이용한 정보검색기의 설계 및 구현’, 김병우 외1인, 2007.2.*
한국HCI학회, '어휘 의미 패턴과 온톨로지를 이용한 정보검색기의 설계 및 구현', 김병우 외1인, 2007.2. *

Also Published As

Publication number Publication date
KR20140019094A (en) 2014-02-14

Similar Documents

Publication Publication Date Title
Täckström et al. Efficient inference and structured learning for semantic role labeling
JP6675463B2 (en) Bidirectional stochastic rewriting and selection of natural language
Orosz et al. PurePos 2.0: a hybrid tool for morphological disambiguation
JP2007323671A (en) Word segmentation in chinese text
KR20140052328A (en) Apparatus and method for generating rdf-based sentence ontology
US20120124467A1 (en) Method for automatically generating descriptive headings for a text element
US10223349B2 (en) Inducing and applying a subject-targeted context free grammar
Jakupović et al. Formalisation method for the text expressed knowledge
Goldberg et al. Joint Hebrew segmentation and parsing using a PCFGLA lattice parser
KR20090061844A (en) System and method for extracting semantic metadata based on ontology
CN108920447A (en) A kind of Chinese event abstracting method towards specific area
Foth et al. Guiding a constraint dependency parser with supertags
KR101409298B1 (en) Method of re-preparing lexico-semantic-pattern for korean syntax recognizer
Rasooli et al. Unsupervised morphology-based vocabulary expansion
Ogrodniczuk et al. Rule-based coreference resolution module for Polish
KR20140012469A (en) Method for natural language processing using unification grammar
Singha et al. Part of speech tagging in Manipuri with hidden markov model
Deshpande et al. Natural language query processing using probabilistic context free grammar
KR101757222B1 (en) Paraphrase sentence generation method for a korean language sentence
KR20200073524A (en) Apparatus and method for extracting key-phrase from patent documents
CN109992651A (en) A kind of problem target signature automatic identification and abstracting method
Nguyen et al. A tree-to-string phrase-based model for statistical machine translation
JP2014191484A (en) Sentence end expression conversion device, method and program
Đorđević et al. Different approaches in serbian language parsing using context-free grammars
Talhadas et al. Semantic roles for Portuguese verbs

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right