KR20080024638A - Apparatus and method for syntactic analysis using detection of parallel structure - Google Patents

Apparatus and method for syntactic analysis using detection of parallel structure Download PDF

Info

Publication number
KR20080024638A
KR20080024638A KR1020060089008A KR20060089008A KR20080024638A KR 20080024638 A KR20080024638 A KR 20080024638A KR 1020060089008 A KR1020060089008 A KR 1020060089008A KR 20060089008 A KR20060089008 A KR 20060089008A KR 20080024638 A KR20080024638 A KR 20080024638A
Authority
KR
South Korea
Prior art keywords
parallel
parsing
node
parallel structure
similarity
Prior art date
Application number
KR1020060089008A
Other languages
Korean (ko)
Inventor
노윤형
최승권
이기영
권오욱
박상규
김영길
김창현
서영애
양성일
홍문표
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060089008A priority Critical patent/KR20080024638A/en
Publication of KR20080024638A publication Critical patent/KR20080024638A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Abstract

A device and a method for analyzing syntax by recognizing a parallel structure are provided to divide excessively long sentences found in a patent document with high correctness, and raise syntax analysis efficiency/correctness by dividing the sentence into more syntaxes. A chunking part(100) tags and partially parses an inputted raw English document. A node recognizer(200) recognizes a parallel node starting point of the raw document. A similarity calculator(300) calculates similarity weight among parallel nodes based on the similarity of vocabulary/part-of-speed of a starting word, a head, and the word next to the head. A parallel structure recognizer(400) searches all available parallel structures based on the calculated similarity weight, calculates the weight of the searched parallel structures, and recognizes the parallel structure of the raw document based on the calculated weight of the parallel structure. A parallel structure parser(500) parses the recognized parallel structure. A whole sentence parser(600) parses the whole raw sentence again which is inputted from a parsing result.

Description

병렬 구조 인식을 통한 구문 분석 장치 및 방법{APPARATUS AND METHOD FOR SYNTACTIC ANALYSIS USING DETECTION OF PARALLEL STRUCTURE}Parsing apparatus and method through parallel structure recognition {APPARATUS AND METHOD FOR SYNTACTIC ANALYSIS USING DETECTION OF PARALLEL STRUCTURE}

도 1은 본 발명의 일 실시예에 따른 병렬 구조 인식을 통한 구문 분석 장치를 나타내는 구성도.1 is a block diagram showing an apparatus for parsing through parallel structure recognition according to an embodiment of the present invention.

도 2는 본 발명의 일 실시예에 따른 노드 인식 후 각 노드 간 유사도 테이블을 나타내는 도면.2 is a diagram illustrating a similarity table between nodes after node recognition according to an embodiment of the present invention.

도 3은 본 발명의 다른 실시예에 따른 노드 인식 후 각 노드 간 유사도 테이블을 나타내는 도면.3 is a diagram illustrating a similarity table between nodes after node recognition according to another embodiment of the present invention.

* 도면의 주요 부분에 대한 부호의 설명** Explanation of symbols for the main parts of the drawings *

100 : 청킹부 200 : 노드 인식부100: chunking unit 200: node recognition unit

300 : 유사도 계산부 400 : 병렬 구조 인식부300: similarity calculation unit 400: parallel structure recognition unit

500 : 병렬 구조 파싱부 600 : 전체 문장 파싱부500: parallel structure parser 600: full sentence parser

본 발명은 자동 번역 시스템을 위한 구문 분석 장치에 관한 것으로, 보다 상세하게는 특허 문장에서 빈번한 병렬 구조 인식을 통한 구문 분석 장치 및 방법에 관한 것이다.The present invention relates to a syntax analysis apparatus for an automatic translation system, and more particularly, to a syntax analysis apparatus and method through frequent parallel structure recognition in patent sentences.

특허 문서의 요약문 또는 청구항에서는 일반 도메인에서는 잘 나타나지 않는 과대하게 긴 문장들이 자주 나타난다. 이러한 긴 문장을 분석하기 위해, 기존의 구문 분석 방법에서는 주로 접속사나 콤마와 같은 절의 경계점을 중심으로 문장을 분할하는 방법을 사용하였다. In the abstract or claims of the patent document, excessively long sentences frequently appear in the general domain. In order to analyze such a long sentence, the conventional syntax analysis method mainly uses a method of splitting a sentence around a boundary point of a clause such as a conjunction or a comma.

그러나, 특허 문서에서 나타나는 긴 문장의 경우에 문장이 길어지는 요인을 살펴보면, 접속사에 의한 결합이나 문장의 나열보다는 주로 명사구나 동사구 등과 같은 동일한 구조들이 나열되는 병렬 구조에 의한 것이다. 이처럼, 병렬 구조를 이루는 명사구나 동사구들 또한 복잡한 구조로 이루어져 있고, 그 안에 다시 절을 포함하는 경우도 많다. However, in the case of long sentences appearing in the patent document, the length of the sentence is considered to be longer, rather than the combination of the conjunctions or the arrangement of sentences is mainly due to the parallel structure in which the same structures such as nouns and verb phrases are arranged. Likewise, nouns and verb phrases that form a parallel structure are also complex structures, often containing clauses again.

따라서, 상술한 특허 문서에서 단순히 접속사나 콤마와 같은 단서를 기준으로 전체 문장을 분할할 경우, 오류를 일으킬 가능성이 크고, 또한 구문 분석하기에 충분한 단위로 분할이 안 되는 경우가 발생할 수 있는 문제점이 있었다.Therefore, in the above-mentioned patent document, if the entire sentence is simply divided based on a clue such as a conjunction or a comma, there is a problem that it is likely to cause an error and may not be divided into enough units to parse. there was.

따라서, 본 발명의 목적은, 특허 문서에서 전형적으로 나타나는 병렬 구조의 인식도를 높여 구문 분석을 수행하는 병렬 구조 인식을 통한 구문 분석 장치 및 방법을 제공하는데 있다.Accordingly, an object of the present invention is to provide an apparatus and method for parsing through parallel structure recognition, which performs syntax analysis by increasing the degree of recognition of parallel structures typically shown in patent documents.

이를 위하여, 본 발명의 일 실시예에 따른 병렬 구조 인식을 통한 구문 분석 장치는, 입력된 영어 원문에 대해 태깅 및 부분 파싱을 수행하는 청킹부; 상기 원문에 대해 병렬 노드 시작점을 인식하는 노드 인식부; 상기 병렬 노드 간 유사도 가중치를 계산하는 유사도 계산부; 상기 계산된 유사도 가중치를 토대로 가능한 모든 병렬 구조를 탐색하고, 상기 탐색된 병렬 구조의 가중치를 계산하여 상기 원문에 대한 병렬 구조를 인식하는 병렬 구조 인식부; 상기 인식된 병렬 구조에 대해 파싱을 수행하는 병렬 구조 파싱부; 및 상기 파싱 결과로부터 상기 입력된 원문 전체 문장을 다시 파싱하는 전체 문장 파싱부를 포함한다.To this end, the apparatus for parsing through parallel structure recognition according to an embodiment of the present invention, the chunking unit for performing tagging and partial parsing on the input English text; A node recognition unit for recognizing a parallel node start point with respect to the original text; A similarity calculator for calculating similarity weights between the parallel nodes; A parallel structure recognition unit searching all possible parallel structures based on the calculated similarity weights, calculating a weight of the found parallel structures, and recognizing a parallel structure of the original text; A parallel structure parsing unit for parsing the recognized parallel structure; And an entire sentence parsing unit that parses the entire original sentence again from the parsing result.

또한, 본 발명의 다른 실시예에 따른 병렬 구조 인식을 통한 구문 분석 방법은, (a) 입력된 영어 원문에 대해 태깅 및 부분 파싱을 수행하는 단계; (b) 상기 원문에 대해 병렬 노드 시작점을 인식하는 단계; (c) 상기 병렬 노드 간 유사도 가중치를 계산하는 단계; (d) 상기 계산된 유사도 가중치를 토대로 가능한 모든 병렬 구조를 탐색하고, 상기 탐색된 병렬 구조의 가중치를 계산하여 상기 원문에 대한 병렬 구조를 인식하는 단계; (e) 상기 인식된 병렬 구조에 대해 파싱을 수행하는 단계; 및 (f) 상기 파싱 결과로부터 상기 입력된 원문 전체 문장을 다시 파싱하는 단계를 포함한다.In addition, the syntax analysis method through a parallel structure recognition according to another embodiment of the present invention, (a) performing tagging and partial parsing on the input English text; (b) recognizing a parallel node start point for the text; (c) calculating similarity weights between the parallel nodes; (d) searching for all possible parallel structures based on the calculated similarity weights, and calculating weights of the searched parallel structures to recognize parallel structures for the original text; (e) performing parsing on the recognized parallel structure; And (f) parsing the entire original sentence again from the parsing result.

이하에서는, 첨부 도면 및 실시예를 참조하여 본 발명을 상세히 설명한다. 도면상에서 동일 또는 유사한 구성 요소에 대하여는 동일한 참조 번호를 부여하였다.Hereinafter, with reference to the accompanying drawings and embodiments will be described the present invention in detail. Like reference numerals designate like elements throughout the drawings.

도 1은 본 발명의 일 실시예에 따른 병렬 구조 인식을 통한 구문 분석 장치를 나타내는 구성도이다.1 is a block diagram illustrating a syntax analysis apparatus through parallel structure recognition according to an embodiment of the present invention.

도 1에 도시한 바와 같이, 입력된 원문에 대해 태깅 및 파싱을 수행하는 청 킹부(100), 병렬 노드 시작점을 인식하는 노드 인식부(200), 병렬 노드간 유사도 가중치를 계산하는 유사도 계산부(300), 가능한 모든 병렬 구조를 인식하고 병렬 구조 가중치를 구하는 병렬 구조 인식부(400), 인식된 병렬 구조에 대해 파싱을 수행하는 병렬 구조 파싱부(500), 병렬 구조가 파싱된 결과로부터 다시 전체 문장을 파싱하는 전체 문장 파싱부(600)를 포함한다.As shown in FIG. 1, a chunking unit 100 that performs tagging and parsing on an input original text, a node recognition unit 200 recognizing a parallel node starting point, and a similarity calculation unit calculating similarity weights between parallel nodes ( 300), a parallel structure recognition unit 400 for recognizing all possible parallel structures and obtaining parallel structure weights, a parallel structure parser 500 for parsing the recognized parallel structures, and the entire structure again from the parsed results. It includes a full sentence parser 600 for parsing a sentence.

청킹부(100)는 입력된 원문에 대해 태깅(tagging) 및 부분 파싱(partial parsing)을 수행하고, 그 결과로부터 기본 명사구(base NP)만 추출하여 기본 명사구 청킹(chunking)을 수행한다. 여기서, 기본 명사구는 자신의 내부에 다시 명사구를 포함하지 않는 명사구를 의미한다.The chunking unit 100 performs tagging and partial parsing on the input original text, and extracts only base noun phrases (base NP) from the result to perform basic noun phrase chunking. Here, the basic noun phrase means a noun phrase that does not include the noun phrase again inside.

노드 인식부(200)는 병렬 구조를 이루는 요소가 되는 병렬구의 시작점을 인식한다. 이때, 대상이 되는 병렬구의 종류로는 명사구, 동사구, 전치사구, 명사절 등이 있고, 또한 병렬 구조상에서 위치에 따라 시작 노드, 중간 노드, 끝 노드의 3가지 종류로 분류된다. 노드 인식부(200)는 이러한 노드들의 시작점 인식을 위하여 구문 패턴을 이용한다. 아래 표 1은 영어 특허 문서에 대한 병렬구의 시작점을 인식하기 위한 패턴 예이다. 그러나, 이러한 패턴은 단지 예시적인 것이고 이에 한정되지는 않는다.The node recognition unit 200 recognizes the starting point of the parallel phrase that is an element forming the parallel structure. At this time, the types of parallel phrases are noun phrases, verb phrases, prepositional phrases, noun clauses, and the like, and are classified into three types according to their positions in the parallel structure: start node, intermediate node, and end node. The node recognizer 200 uses a syntax pattern to recognize starting points of these nodes. Table 1 below is an example pattern for recognizing the starting point of the parallel phrase for the English patent document. However, this pattern is merely exemplary and is not limited thereto.

시작 노드Start node 중간 노드Intermediate node 끝 노드End node include/comprise/comprise/have + NP/VBG step of VBG such as NP VERB that,include / comprise / comprise / have + NP / VBG step of VBG such as NP VERB that, , NP/VBG/PREP/CONJ, NP / VBG / PREP / CONJ (,) and NP/VBG/PREP/CONJ(,) and NP / VBG / PREP / CONJ

여기에서, NP는 명사구, VBG는 ing형 동사, PREP는 전치사, 그리고 CONJ는 접속사/관계사를 나타낸다. Where NP is a noun phrase, VBG is an ing verb, PREP is a preposition, and CONJ is a conjunction / subject.

유사도 계산부(300)는 인식된 각 병렬구 노드들 간의 유사도를 계산한다. 노드 i와 노드 j간의 유사도 Sij는 다음 수학식 1과 같이 계산된다.The similarity calculator 300 calculates similarity between the recognized parallel sphere nodes. Similarity S ij between node i and node j is calculated as shown in Equation 1 below.

Sij = s0×(w1×s1 + w2×s2).S ij = s0 × (w1 × s1 + w2 × s2).

여기서, s0: 노드가 다르거나 관사가 다른 경우 0이고, 이외에는 1이며,Where s0: 0 if the nodes are different or the article is different, 1 otherwise

s1: 헤드의 어휘/품사 유사성(예컨대, 어휘가 같으면 3, 어휘의 품사가 같으면 1, 이외에는 0)을 나타내고,s1: indicates the vocabulary / part-of-speech similarity of the head (e.g., 3 if the vocabulary is the same, 1 if the vocabulary of the vocabulary is the same, 0 otherwise)

s2: 헤드 다음 단어의 어휘/품사 유사성(예컨대, 헤드 다음 단어의 어휘가 같으면 2, 품사가 같으면 1, 이외에는 0)을 나타낸다. 여기서, 헤드는 구문을 이루는 단어들 가운데 기준이 되는 단어를 의미한다.s2: The lexical / part-of-speech similarity of the word following the head (eg, 2 if the vocabulary of the head is the same, 1 if the part-of-speech is the same, 0 otherwise). Here, the head refers to a word that is a reference among the words constituting the phrase.

병렬 구조 인식부(400)는 가능한 모든 병렬 구조를 생성하고, 상기 유사도 계산부(300)에서 계산된 유사도를 바탕으로 각 병렬 구조에 대한 최종 병렬 구조 가중치를 계산한다. 병렬 구조는 시작 노드, 0개 이상의 중간 노드, 끝 노드로 구성된다. 따라서, 노드 유사도가 0이 아닌 노드들로 된 모든 가능한 시작 노드와 끝 노드의 조합에 대해, 끝 노드와 노드 유사도가 0이 아닌 중간 노드들을 추가함으로 가능한 병렬 구조를 생성할 수 있다. 그리고, 병렬 구조에 대한 가중치는 기본적으로 노드간 유사도의 총합으로 계산되며, 기타 전체 병렬 구조 길이, 병렬 구 조 중간에 또 다른 시작 노드나 끝 노드의 존재 여부, 병렬 노드 간 유사도 차이, 특정 어휘 유무 등에 따른 가중치가 가감해져서 최종 병렬 구조 가중치가 계산된다. The parallel structure recognizer 400 generates all possible parallel structures, and calculates the final parallel structure weights for each parallel structure based on the similarity calculated by the similarity calculator 300. The parallel structure consists of a start node, zero or more intermediate nodes, and an end node. Thus, for all possible combinations of start and end nodes of nodes whose node similarities are nonzero, it is possible to create a possible parallel structure by adding intermediate nodes whose end and node similarities are not zero. In addition, the weight for the parallel structure is basically calculated as the sum of the similarities between the nodes, and the total length of other parallel structures, the existence of another start or end node in the middle of the parallel structure, the similarity difference between the parallel nodes, and the presence of a specific vocabulary. The weight according to and the like is added or subtracted to calculate the final parallel structure weight.

병렬 구조 파싱부(500)에서는 가중치가 높은 순으로 해당 병렬 구조의 각 병렬구 노드의 범위를 인식하고, 인식된 각 병렬구 노드의 범위에 대해 구문 파싱을 수행하여, 모든 병렬구 노드의 파싱이 성공하는 경우에 대해 최종 병렬 구조로 선택한다.The parallel structure parsing unit 500 recognizes the range of each parallel sphere node of the corresponding parallel structure in the order of the highest weight, and parses the range of each recognized parallel sphere node, thereby parsing all the parallel sphere nodes. Choose the final parallel structure for success.

전체 문장 파싱부(600)에서는 인식된 병렬 구조를 하나의 노드로 치환한 상태에서 다시 전체 문장에 대한 파싱을 수행함으로써, 최종 구문 파싱 결과를 출력한다. 따라서, 입력 문장에 대한 정확도가 향상된 병렬 구문 분석 결과를 얻을 수 있다.The whole sentence parsing unit 600 parses the entire sentence again in a state in which the recognized parallel structure is replaced with one node, thereby outputting a final syntax parsing result. Therefore, the result of parallel parsing with improved accuracy of the input sentence can be obtained.

이하, 다음의 실제 영어 특허 예문을 통하여 본 발명의 일 실시예에 따른 병렬 구조 인식을 통한 구문 분석 방법을 설명한다.Hereinafter, a syntax analysis method through parallel structure recognition according to an embodiment of the present invention will be described through the following actual English patent example sentences.

[예문 1]Example 1

"To attain the above object, the laser irradiating system according to the present invention comprises a light source for emitting a laser beam in elliptical shape, a light source holder for holding the light source, a base for rotatably supporting the light source holder, a first driving unit for rotating the light source holder, a deflecting optical means for deflecting the laser beam from the light source in a direction perpendicular to an optical axis, a rotator holder for holding the deflecting optical means and being rotatable around the optical axis of the light source, a cylindrical lens being arranged so that a center of the cylindrical lens is aligned with the optical axis and the laser beam from the deflecting optical means enters perpendicularly to the optical axis and for diffusing the transmitting laser beam to a fan-shaped laser beam, a control unit for controlling the first driving unit and a receiver for receiving a signal for remote-control operation, wherein an irradiating direction of the fan-shaped laser beam can be operated in remote control operation by the control unit based on a command signal received by the receiver.""To attain the above object, the laser irradiating system according to the present invention comprises a light source for emitting a laser beam in elliptical shape, a light source holder for holding the light source, a base for rotatably supporting the light source holder, a first driving unit for rotating the light source holder, a deflecting optical means for deflecting the laser beam from the light source in a direction perpendicular to an optical axis, a rotator holder for holding the deflecting optical means and being rotatable around the optical axis of the light source, a cylindrical lens being arranged so that a center of the cylindrical lens is aligned with the optical axis and the laser beam from the deflecting optical means enters perpendicularly to the optical axis and for diffusing the transmitting laser beam to a fan-shaped laser beam, a control unit for controlling the first driving unit and a receiver for receiving a signal for remote-control operation, wherein an irrad iating direction of the fan-shaped laser beam can be operated in remote control operation by the control unit based on a command signal received by the receiver. "

도 2는 본 발명의 일 실시예에 따른 노드 인식 후 각 노드 간 유사도 테이블을 나타낸다. 유사도 테이블에서 i행(노드 필드), j열은 노드 유사도 Sij를 나타낸다. 2 illustrates a similarity table between nodes after node recognition according to an embodiment of the present invention. In the similarity table, row i (node field) and column j represent node similarity S ij .

도 2를 참조하면, 각 필드는 노드 필드와, 원문 위치 필드와, 병렬 구조 지수 필드와, 구문 헤드 필드를 포함한다. 또한, 유사도 계산부(300)는 수학식 1을 토대로 각각의 필드 데이터(노드 유사도 Sij)를 채운다. 이렇게 채워진 유사도 테이블을 토대로 병렬 구조 인식을 시작한다. 여기서, "<" , "," , ">" 는 각각 시작 노드, 중간 노드, 끝 노드를 나타낸다. 예컨대, 예문 1을 토대로 작성된 유사도 테이블 상에서, 병렬 구조가 형성될 수 있는 경우는 노드 0에서 시작하고, 노드 12에서 끝나며, 노드 1, 2, 3, 4, 5, 7, 11을 중간점으로 하는 병렬 구조이다. Referring to FIG. 2, each field includes a node field, a text position field, a parallel structure index field, and a syntax head field. In addition, the similarity calculation unit 300 fills each field data (node similarity S ij ) based on Equation (1). Based on this similarity table, parallel structure recognition is started. Here, "<", "," and ">" represent a start node, an intermediate node, and an end node, respectively. For example, on a similarity table based on Example 1, a parallel structure can be formed starting at node 0 and ending at node 12, with nodes 1, 2, 3, 4, 5, 7, 11 as intermediate points. It is a parallel structure.

따라서, 예문 1과 같은 경우, 다른 후보가 없기 때문에 상기 병렬 구조가 최종 구조로 선택된다. 그러면, 각 노드에 대해 콤마나 대등 접속사를 제외한 범위에 대해 NP(명사구)에 대한 구문 파싱을 수행하고, 최종 병렬 구조는 "NP -> NP , NP , ..., NP, NP, NP CC NP(명사구 -> 명사구, 명사구, ..., 명사구, 명사구, 명사구, 명사구 접속사 명사구)"의 형태가 하나의 NP로 치환되고, 전체 문장 구조는 "To attain the above object, the laser irradiating system according to the present invention comprises NP"로 단순해져, 쉽게 구문 파싱이 이루어져 최종 구문 파싱을 얻을 수 있다.Therefore, in the case of Example 1, since there is no other candidate, the parallel structure is selected as the final structure. Then, for each node, syntax parsing of NP (noun phrase) is performed for the range except comma or parallel conjunction, and the final parallel structure is "NP-> NP, NP, ..., NP, NP, NP CC NP (Noun phrases-> noun phrases, noun phrases, ..., noun phrases, noun phrases, noun phrases, noun phrases, noun phrases noun phrases) "is replaced by a single NP, and the entire sentence structure is" To attain the above object, the laser irradiating system according to The present invention comprises NP ", which makes it easy to parse and get final syntax parsing.

또 다른 예문을 통해 본 발명의 일 실시예를 살펴보면 다음과 같다.Looking at one embodiment of the present invention through another example sentence is as follows.

[예문 2][Example 2]

"In accordance with an aspect of the present invention, for use with a doctor blade holder of a printing machine, a combined doctor blade and shield includes a doctor blade adapted to be secured to the doctor blade holder in a manner so as to extend outwardly therefrom at least substantially in engagement with an outer surface of a roll for metering ink on the roll, the doctor blade being formed as a doctoring plate having a rear portion adapted to be secured to the doctor blade holder and a front portion with a doctoring edge adapted to at least substantially contact the outer surface of the roll to meter ink thereto, and a doctor blade shield having one end fixedly secured to the doctor blade in spaced relation away from the doctoring edge and a second opposite free end unsecured to the doctoring plate, so as to cover at least a portion of the outer surface of the doctor blade holder to prevent ink from depositing on the outer surface of the doctor blade holder when the combined doctor blade and doctor blade shield is clamped to the doctor blade holder.""In accordance with an aspect of the present invention, for use with a doctor blade holder of a printing machine, a combined doctor blade and shield includes a doctor blade adapted to be secured to the doctor blade holder in a manner so as to extend outwardly therefrom at least substantially in engagement with an outer surface of a roll for metering ink on the roll, the doctor blade being formed as a doctoring plate having a rear portion adapted to be secured to the doctor blade holder and a front portion with a doctoring edge adapted to at least substantially contact the outer surface of the roll to meter ink adjusted, and a doctor blade shield having one end fixedly secured to the doctor blade in spaced relation away from the doctoring edge and a second opposite free end unsecured to the doctoring plate , so as to cover at least a portion of the outer surface of the doctor blade holder to prevent ink from depositing on the outer surface of the doctor blade holder when the combined doct or blade and doctor blade shield is clamped to the doctor blade holder. "

도 3은 본 발명의 다른 실시예에 따른 노드 인식 후 각 노드간 유사도 테이블을 나타낸다. 3 illustrates a similarity table between nodes after node recognition according to another embodiment of the present invention.

도 3을 참조하면, 예문 2를 토대로 작성된 유사도 테이블 상에서, 조합 가능한 병렬 구조는, 노드 0 ~ 노드 9, 노드 4 ~ 노드 9, 노드 0 ~ 노드 6, 노드 4 ~ 노드 6등과 같이, 여러 개의 병렬 구조가 가능하다. 이때, 수학식 1을 적용한 노드 유사도의 단순 가중치 합은 다음과 같다.Referring to FIG. 3, in the similarity table created based on the example 2, the combinable parallel structure includes a plurality of parallels such as nodes 0 to 9, nodes 4 to 9, nodes 0 to 6, nodes 4 to 6, and the like. The structure is possible. In this case, the simple weighted sum of the node similarity to which Equation 1 is applied is as follows.

노드 0 ~ 노드 9 : 7 Node 0 to Node 9: 7

노드 4 ~ 노드 9 : 7Node 4 to Node 9: 7

노드 0 ~ 노드 6 : 7Node 0 to Node 6: 7

노드 4 ~ 노드 6 : 11Node 4 to Node 6: 11

..., 등이다. 여기서, 노드 4와 노드 6의 경우 시작점 내지 끝점이므로, 노드 0 ~ 노드 9와 노드 0 ~ 노드 6에서 해당 노드의 유사도는 가산되지 않는다...., etc. Here, in the case of node 4 and node 6, since the starting point or end point, the similarity of the corresponding node is not added at nodes 0 to 9 and nodes 0 to 6.

이때, 단순 가중치 합은 노드 4 ~ 노드 6이 가장 높지만, 병렬 구조 전체 길이에 대한 가중치, 구조 중간에 포함된 시작 노드 및 끝 노드에 대한 벌점 등을 고려하면, 노드 0 ~ 노드 9의 병렬 구조가 최종 병렬 구조로 선택된다. In this case, the sum of simple weights is highest among nodes 4 to 6, but considering the weight of the total length of the parallel structure, the penalty for the start node and the end node included in the middle of the structure, the parallel structure of nodes 0 to 9 is The final parallel structure is chosen.

이 문장에서는 일반적인 문장 분할방법을 사용했을 때, "on the roll, the doctor blade being"의 콤마에서 먼저 분할될 가능성이 있는데, 만일 그렇다면, 완전히 잘못된 구문 분석 결과가 얻어질 수 있으므로, 본 발명에 따른 방법에 따라, 병렬 구조를 먼저 인식함으로써 올바른 구문 분석 결과를 산출할 수 있다.In this sentence, when the general sentence segmentation method is used, it is likely to be divided first in a comma of "on the roll, the doctor blade being". If so, a completely incorrect parsing result may be obtained. Depending on the method, correct parsing results can be produced by first recognizing the parallel structure.

지금까지 본 발명을 바람직한 실시예를 참조하여 상세히 설명하였지만, 당업자는 본 발명의 사상 및 범위를 벗어나지 않고 다양한 변형 또는 수정이 가능하다는 것을 알 것이다.While the present invention has been described in detail with reference to preferred embodiments, those skilled in the art will recognize that various modifications or changes can be made without departing from the spirit and scope of the invention.

이상에서 상세히 설명한 바와 같이, 본 발명에 따르면, 특허 문서에서 나타나는 과대히 긴 장문들에 대해 문장 분할 정확성을 높이고, 더 많은 구문으로 문장 분할이 가능하므로, 구문 분석 효율성과 정확성을 높이는 효과가 있다.As described in detail above, according to the present invention, since sentence division accuracy is increased for excessively long sentences appearing in a patent document, and sentence division is possible with more phrases, syntax efficiency and accuracy are improved.

Claims (8)

입력된 영어 원문에 대해 태깅(tagging) 및 부분 파싱(partial parsing)을 수행하는 청킹부;A chunking unit that performs tagging and partial parsing on the input English text; 상기 원문에 대해 병렬 노드 시작점을 인식하는 노드 인식부;A node recognition unit for recognizing a parallel node start point with respect to the original text; 상기 병렬 노드 간 유사도 가중치를 계산하는 유사도 계산부; A similarity calculator for calculating similarity weights between the parallel nodes; 상기 계산된 유사도 가중치를 토대로 가능한 모든 병렬 구조를 탐색하고, 상기 탐색된 병렬 구조의 가중치를 계산한 후, 상기 계산된 병렬 구조의 가중치를 토대로 상기 원문에 대한 병렬 구조를 인식하는 병렬 구조 인식부;A parallel structure recognition unit searching all possible parallel structures based on the calculated similarity weights, calculating weights of the found parallel structures, and recognizing parallel structures of the original text based on the calculated parallel structure weights; 상기 인식된 병렬 구조에 대해 파싱을 수행하는 병렬 구조 파싱부; 및A parallel structure parsing unit for parsing the recognized parallel structure; And 상기 파싱 결과로부터 상기 입력된 원문 전체 문장을 다시 파싱하는 전체 문장 파싱부를 포함하는 것을 특징으로 하는 병렬 구조 인식을 통한 구문 분석 장치.And a full sentence parsing unit which parses the entire original sentence again from the parsing result. 제 1 항에 있어서, 상기 노드 인식부는,The method of claim 1, wherein the node recognition unit, 특정 구문 패턴을 이용하여 상기 원문에 대한 기본 명사구 청킹 결과로부터 상기 병렬 노드의 시작점을 구하는 것을 특징으로 하는 병렬 구조 인식을 통한 구문 분석 장치.And a starting point of the parallel node from a basic noun phrase chunking result of the original text using a specific syntax pattern. 제 1 항에 있어서, 상기 유사도 계산부는,The method of claim 1, wherein the similarity calculation unit, 시작 단어의 어휘 및 품사, 헤드의 어휘 및 품사, 헤드의 다음 단어의 어휘 및 품사의 유사성을 이용하여 상기 병렬 노드 간의 유사도를 계산하는 것을 특징으로 하는 병렬 구조 인식을 통한 구문 분석 장치.And a similarity between the parallel nodes using the similarity between the vocabulary and the part of speech of the starting word, the vocabulary and the part of speech of the head, the vocabulary and the part of speech of the next word of the head. 제 1항 내지 제 3 항 중 어느 한 항에 있어서, 상기 병렬 구조 인식부는,The parallel structure recognition unit according to any one of claims 1 to 3, wherein 상기 계산된 유사도 가중치를 토대로 시작 노드, 0개 이상의 중간 노드, 및 끝 노드로 구성되는 가능한 모든 병렬 구조 조합에 대해, 상기 각 노드간 유사도의 합에 특정 가중치를 가감하여 병렬 구조 가중치를 구하는 것을 특징으로 하는 병렬 구조 인식을 통한 구문 분석 장치.Based on the calculated similarity weights, for all possible parallel structure combinations consisting of a start node, zero or more intermediate nodes, and an end node, a parallel weight is obtained by adding or subtracting a specific weight to the sum of similarities between the nodes. Parsing apparatus through parallel structure recognition. 제 1항 내지 제 3 항 중 어느 한 항에 있어서, 상기 병렬 구조 파싱부는,The parallel structure parsing unit according to any one of claims 1 to 3, wherein 상기 병렬 구조 가중치가 높은 순으로 상기 병렬 구조의 각 병렬구 노드의 범위를 인식하고, 상기 인식된 상기 병렬구 노드의 범위에 대해 구문 파싱을 수행한 후, 모든 병렬구 노드의 파싱이 성공하는 경우에 대해 상기 병렬 구조로 선택하는 것을 특징으로 하는 병렬 구조 인식을 통한 구문 분석 장치.Recognizing the range of each parallel sphere node of the parallel structure in order of the parallel structure weights being high, parsing all the parallel sphere nodes after parsing the range of the recognized parallel sphere node is successful. Parsing apparatus using the parallel structure recognition, characterized in that for selecting the parallel structure with respect to. 제 1항 내지 제 3 항 중 어느 한 항에 있어서, 상기 전체 문장 파싱부는,The whole sentence parsing unit according to any one of claims 1 to 3, wherein 상기 인식된 병렬 구조를 하나의 노드로 치환한 상태에서 다시 전체 문장에 대한 파싱을 수행하여 최종 구문 파싱 결과를 출력하는 것을 특징으로 하는 병렬 구조 인식을 통한 구문 분석 장치.And parsing the entire sentence again in a state where the recognized parallel structure is replaced with one node, and outputting a final syntax parsing result. (a) 입력된 영어 원문에 대해 태깅 및 부분 파싱을 수행하는 단계;(a) performing tagging and partial parsing on the inputted English text; (b) 상기 원문에 대해 병렬 노드 시작점을 인식하는 단계;(b) recognizing a parallel node start point for the text; (c) 상기 병렬 노드 간 유사도 가중치를 계산하는 단계;(c) calculating similarity weights between the parallel nodes; (d) 상기 계산된 유사도 가중치를 토대로 가능한 모든 병렬 구조를 탐색하고, 상기 탐색된 병렬 구조의 가중치를 계산하여 상기 원문에 대한 병렬 구조를 인식하는 단계;(d) searching for all possible parallel structures based on the calculated similarity weights, and calculating weights of the searched parallel structures to recognize parallel structures for the original text; (e) 상기 인식된 병렬 구조에 대해 파싱을 수행하는 단계; 및(e) performing parsing on the recognized parallel structure; And (f) 상기 파싱 결과로부터 상기 입력된 원문 전체 문장을 다시 파싱하는 단계를 포함하는 것을 특징으로 하는 병렬 구조 인식을 통한 구문 분석 방법.and (f) parsing the entire sentence of the original text from the parsing result again. 병렬 구조 인식을 통한 구문 분석 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체로서, A computer-readable recording medium recording a parsing program through parallel structure recognition, 상기 프로그램은,The program, (a) 입력된 영어 원문에 대해 태깅 및 부분 파싱을 수행하는 과정;(a) performing tagging and partial parsing on the inputted English text; (b) 상기 원문에 대해 병렬 노드 시작점을 인식하는 과정;(b) recognizing a parallel node starting point for the text; (c) 상기 병렬 노드 간 유사도 가중치를 계산하는 과정;(c) calculating similarity weights between the parallel nodes; (d) 상기 계산된 유사도 가중치를 토대로 가능한 모든 병렬 구조를 탐색하고, 상기 탐색된 병렬 구조의 가중치를 계산하여 상기 원문에 대한 병렬 구조를 인식하는 과정;(d) searching for all possible parallel structures based on the calculated similarity weights, and calculating weights of the found parallel structures to recognize parallel structures for the original text; (e) 상기 인식된 병렬 구조에 대해 파싱을 수행하는 과정; 및(e) performing parsing on the recognized parallel structure; And (f) 상기 파싱 결과로부터 상기 입력된 원문 전체 문장을 다시 파싱하는 과정을 포함하는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록 매체.and (f) parsing the entire sentence of the original text from the parsing result again.
KR1020060089008A 2006-09-14 2006-09-14 Apparatus and method for syntactic analysis using detection of parallel structure KR20080024638A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060089008A KR20080024638A (en) 2006-09-14 2006-09-14 Apparatus and method for syntactic analysis using detection of parallel structure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060089008A KR20080024638A (en) 2006-09-14 2006-09-14 Apparatus and method for syntactic analysis using detection of parallel structure

Publications (1)

Publication Number Publication Date
KR20080024638A true KR20080024638A (en) 2008-03-19

Family

ID=39412850

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060089008A KR20080024638A (en) 2006-09-14 2006-09-14 Apparatus and method for syntactic analysis using detection of parallel structure

Country Status (1)

Country Link
KR (1) KR20080024638A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101023210B1 (en) * 2008-12-16 2011-03-18 한국전자통신연구원 Syntactic analysis method and its apparatus
WO2014069779A1 (en) * 2012-10-31 2014-05-08 에스케이플래닛 주식회사 Syntax preprocessing-based syntax analysis apparatus, and method for same

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101023210B1 (en) * 2008-12-16 2011-03-18 한국전자통신연구원 Syntactic analysis method and its apparatus
WO2014069779A1 (en) * 2012-10-31 2014-05-08 에스케이플래닛 주식회사 Syntax preprocessing-based syntax analysis apparatus, and method for same
KR20140056753A (en) * 2012-10-31 2014-05-12 에스케이플래닛 주식회사 Apparatus and method for syntactic parsing based on syntactic preprocessing
US9620112B2 (en) 2012-10-31 2017-04-11 Sk Planet Co., Ltd. Syntax parsing apparatus based on syntax preprocessing and method thereof
US9971757B2 (en) 2012-10-31 2018-05-15 Sk Planet Co., Ltd. Syntax parsing apparatus based on syntax preprocessing and method thereof

Similar Documents

Publication Publication Date Title
Rashwan et al. A stochastic Arabic diacritizer based on a hybrid of factorized and unfactorized textual features
Shen et al. A new string-to-dependency machine translation algorithm with a target dependency language model
KR100911621B1 (en) Method and apparatus for providing hybrid automatic translation
US6810375B1 (en) Method for segmentation of text
US20050038643A1 (en) Statistical noun phrase translation
KR20140021838A (en) Method for detecting grammar error and apparatus thereof
Ueffing et al. Word-level confidence estimation for machine translation using phrase-based translation models
Yang et al. A ranking-based approach to word reordering for statistical machine translation
Li et al. Improving semantic parsing with enriched synchronous context-free grammar
Paul et al. Nobody is perfect: ATR’s hybrid approach to spoken language translation
KR20080024638A (en) Apparatus and method for syntactic analysis using detection of parallel structure
Nguyen et al. A tree-to-string phrase-based model for statistical machine translation
Imamura et al. Practical approach to syntax-based statistical machine translation
Menezes et al. Using dependency order templates to improve generality in translation
Hwang et al. Improving statistical machine translation using shallow linguistic knowledge
KR20010075848A (en) Apparatus and method for detecting sentence boundary using regular expression and probabilistic contextual information
KR100420474B1 (en) Apparatus and method of long sentence translation using partial sentence frame
Eineborg et al. ILP in part-of-speech tagging—an overview
Ney et al. The RWTH system for statistical translation of spoken dialogues
KR20010057763A (en) Device and method for generating translated sentences based on partial translation patterns
Xiong et al. Linguistically annotated reordering: Evaluation and analysis
Béchet et al. Large Span statistical language models: application to homophone disambiguation for large vocabulary speech recognition in French.
Kearsley A hybrid approach to cross-linguistic tokenization: Morphology with statistics
KR100333681B1 (en) Automatic translation apparatus and method using verb-based sentence frame
Nguyen et al. An empirical investigation of error types in Vietnamese parsing

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application