KR20110034797A - Document processing apparatus and method - Google Patents
Document processing apparatus and method Download PDFInfo
- Publication number
- KR20110034797A KR20110034797A KR1020090092234A KR20090092234A KR20110034797A KR 20110034797 A KR20110034797 A KR 20110034797A KR 1020090092234 A KR1020090092234 A KR 1020090092234A KR 20090092234 A KR20090092234 A KR 20090092234A KR 20110034797 A KR20110034797 A KR 20110034797A
- Authority
- KR
- South Korea
- Prior art keywords
- example sentence
- sentence
- document
- language
- candidate
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/49—Data-driven translation using very large corpora, e.g. the web
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 문서 처리 장치 및 방법에 관한 것으로, 보다 상세하게는 웹에서 문서를 수집하고 수집된 문서를 처리하는 문서 처리 장치 및 방법에 관한 것이다.TECHNICAL FIELD The present invention relates to a document processing apparatus and method, and more particularly, to a document processing apparatus and method for collecting a document on the web and processing the collected document.
종이 형식으로 출판되는 외국어 사전이나 전자 외국어 사전은 해당 외국어 전문가에 의해 만들어진다. 사전에 수록되는 예문들은 통상 수작업으로 작성되며, 일반적으로 사전 내용은 오랜 시간이 경과한 후에야 사전의 판본 변경을 통하여 갱신된다. 최근에 널리 이용되고 있는 웹 사전은 기존의 전자 사전에 수록된 데이터를 바탕으로 이루어진다. 웹 사전의 경우 새로운 예문들이 그 번역문과 함께 지속적으로 추가되어 비교적 짧은 시간에 데이터의 확충 및 갱신이 이루어지지만 이 또한 수작업으로 이루어진다. 이와 같이 종이 사전, 전자 사전이나 웹 사전에서 예문을 구축하기 위하여 사람의 손을 거쳐야 하므로 확장성이 떨어질 뿐만 아니라 새로운 예문을 갱신하기 어려우며, 신조어나 기존 표현의 새로운 용례를 추가하기 위하여 지속적인 유지 및 관리가 필요하므로 많은 자본, 시간 및 인력이 요구된다.Foreign or electronic foreign languages published in paper format are produced by the foreign language expert. Examples in the dictionary are usually written by hand, and the dictionary content is typically updated only after a long period of time by changing the dictionary's version. Recently used web dictionary is based on the data contained in the existing electronic dictionary. In the case of web dictionaries, new examples are continuously added with the translations, allowing data to be expanded and updated in a relatively short time, but this is also done manually. As it is necessary to go through human hands to construct examples in paper dictionaries, electronic dictionaries or web dictionaries, it is not only scalable but also difficult to update new examples, and is continuously maintained and managed to add new usages of new words or existing expressions. This requires a lot of capital, time and manpower.
한편, 문장 단위로 제공되는 예문은 각 예문과 그에 대한 번역문이 단순히 나열될 뿐이어서 사용자가 해당 예문에 대한 심도 있는 학습을 하기가 어렵다.On the other hand, the example sentences provided in sentence units are merely listed each example sentences and translations it is difficult for the user to learn in-depth about the example sentences.
본 발명이 해결하고자 하는 과제는 사람의 수작업 없이도 예문을 자동적이고 지속적으로 수집하여 새롭고 보다 다양한 예문을 제공할 수 있고 해당 예문과 관련된 예문 분석 정보를 제공할 수 있는 문서 처리 장치 및 방법을 제공하는 것이다.The problem to be solved by the present invention is to provide a document processing apparatus and method capable of providing new and more various examples by providing automatic and continuous collection of example sentences without human intervention, and can provide example analysis information related to the example sentences. .
이러한 기술적 과제를 해결하기 위한 본 발명의 실시예에 따른 문서 처리 장치는, 제1 언어로 이루어진 제1 예문과 제2 언어로 이루어져 있으며 상기 제1 예문의 번역문인 제2 예문을 웹으로부터 수집하는 예문 수집부, 그리고 사용자로부터의 요청에 따라 상기 제1 예문과 상기 제2 예문으로 이루어진 병렬 예문을 상기 사용자에게 제공하는 예문 제공부를 포함한다.The document processing apparatus according to an embodiment of the present invention for solving the technical problem, a first sentence consisting of a first example and a second language consisting of a first language, the example sentence for collecting a second example sentence which is a translation of the first example sentence from the web And a collection example and an example sentence providing unit for providing the user with a parallel example sentence composed of the first example sentence and the second example sentence in response to a request from the user.
상기 예문 수집부는 입력 문서로부터 학습에 사용될 표현 목록을 추출하고 상기 표현 목록에 포함되어 있는 표현을 상기 웹에서 검색하여 상기 표현이 포함되어 있는 상기 제1 예문을 획득할 수 있다.The example sentence collection unit may extract the expression list to be used for learning from an input document, and obtain the first example sentence including the expression by searching the web for an expression included in the expression list.
상기 제1 예문이 포함되어 있는 제1 문서에 상기 제2 언어로 작성된 부분이 포함되어 있거나 상기 제1 문서에 포함되어 있는 하이퍼링크로 연결되어 있는 문서에 상기 제2 언어로 작성된 부분이 포함되어 있으면, 상기 예문 수집부는 상기 제2 언어로 작성된 부분을 추출하여 상기 제2 예문의 후보 예문으로서 후보 예문 목록에 포함시킬 수 있다.If the first document containing the first example sentence includes a portion written in the second language, or the document linked by a hyperlink included in the first document includes a portion written in the second language. The example sentence collection unit may extract a portion written in the second language and include it in the candidate example sentence list as a candidate example sentence of the second example sentence.
상기 예문 수집부는 상기 제1 예문과 상기 후보 예문을 대조하여 상기 후보 예문이 상기 제1 예문의 번역문인지 판단함으로써 상기 후보 예문으로부터 상기 제2 예문을 추출할 수 있다.The example sentence collection unit may extract the second example sentence from the candidate example sentence by comparing the first example sentence with the candidate example sentence and determining whether the candidate example sentence is a translation sentence of the first example sentence.
상기 예문 제공부는 상기 사용자가 입력한 질의어의 구문 구조를 분석하여 검색어를 생성하고, 상기 검색어가 포함된 병렬 예문을 데이터베이스에서 검색하여 상기 사용자에게 제공할 수 있다.The example sentence providing unit may generate a search word by analyzing a syntax structure of the query word input by the user, and search for a parallel example sentence including the search word in a database and provide the search word to the user.
상기 제1 예문과 상기 제2 예문의 구문 구조를 분석하여 상기 제1 예문에 포함되어 있는 표현과 상기 제2 예문에 포함되어 있는 표현의 대응 관계를 알 수 있는 정렬 정보를 생성하는 예문 분석부를 더 포함할 수 있다.An example sentence analyzing unit configured to analyze the syntax structures of the first example sentence and the second example sentence and to generate alignment information for identifying a correspondence relationship between the expression included in the first example sentence and the expression included in the second example sentence It may include.
상기 예문 제공부는 상기 정렬 정보를 포함하는 예문 분석 정보와 함께 상기 병렬 예문을 상기 사용자에게 제공할 수 있다.The example sentence providing unit may provide the parallel example sentence to the user along with example sentence analysis information including the alignment information.
상기 정렬 정보를 포함하는 예문 분석 정보와 상기 병렬 예문을 저장하는 데이터베이스를 더 포함할 수 있다.Example sentence analysis information including the sorting information and the database for storing the parallel example sentence may further include.
상기 제1 언어는 한국어이고, 상기 제2 언어는 영어일 수 있다.The first language may be Korean, and the second language may be English.
본 발명의 다른 태양에 따른 외국어 교육 시스템은 상기한 문서 처리 장치 중 어느 하나를 포함한다.A foreign language education system according to another aspect of the present invention includes any of the above-described document processing apparatus.
본 발명의 다른 태양에 따른 문서 처리 방법은, 제1 언어로 이루어진 제1 예문과 제2 언어로 이루어져 있으며 상기 제1 예문의 번역문인 제2 예문을 웹으로부터 수집하는 단계, 그리고 사용자로부터의 요청에 따라 상기 제1 예문과 상기 제2 예문으로 이루어진 병렬 예문을 상기 사용자에게 제공하는 단계를 포함한다.According to another aspect of the present invention, there is provided a document processing method comprising: collecting, from a web, a second example sentence comprising a first example sentence in a first language and a second language, which is a translation of the first example sentence, and a request from a user. And providing the user with a parallel example sentence composed of the first example sentence and the second example sentence.
상기 수집 단계는 입력 문서로부터 학습에 사용될 표현 목록을 추출하는 단 계, 그리고 상기 표현 목록에 포함되어 있는 표현을 상기 웹에서 검색하여 상기 표현이 포함되어 있는 상기 제1 예문을 획득하는 단계를 포함할 수 있다.The collecting may include extracting a list of expressions to be used for learning from an input document, and obtaining the first example sentence including the expressions by searching the web for expressions included in the expression list. Can be.
상기 수집 단계는, 상기 제1 예문이 포함되어 있는 제1 문서에 상기 제2 언어로 작성된 부분이 포함되어 있거나 상기 제1 문서에 포함되어 있는 하이퍼링크로 연결되어 있는 문서에 상기 제2 언어로 작성된 부분이 포함되어 있으면, 상기 제2 언어로 작성된 부분을 추출하여 상기 제2 예문의 후보 예문으로서 후보 예문 목록에 포함시키는 단계를 포함할 수 있다.The collecting step may include a portion written in the second language in a first document including the first example sentence or a hyperlink included in the first document in a second document. If a part is included, extracting a part written in the second language may be included in the candidate example sentence list as a candidate example sentence of the second example sentence.
상기 수집 단계는 상기 제1 예문과 상기 후보 예문을 대조하여 상기 후보 예문이 상기 제1 예문의 번역문인지 판단함으로써 상기 후보 예문으로부터 상기 제2 예문을 추출하는 단계를 더 포함할 수 있다.The collecting step may further include extracting the second example sentence from the candidate example sentence by comparing the first example sentence with the candidate example sentence and determining whether the candidate example sentence is a translation of the first example sentence.
상기 제공 단계는 상기 사용자가 입력한 질의어의 구문 구조를 분석하여 검색어를 생성하는 단계, 그리고 상기 검색어가 포함된 병렬 예문을 데이터베이스에서 검색하여 상기 사용자에게 제공하는 단계를 포함할 수 있다.The providing may include analyzing a syntax structure of a query input by the user to generate a search word, and searching for a parallel example sentence including the search word in a database and providing the search word to the user.
상기 제1 예문과 상기 제2 예문의 구문 구조를 분석하여 상기 제1 예문에 포함되어 있는 표현과 상기 제2 예문에 포함되어 있는 표현의 대응 관계를 알 수 있는 정렬 정보를 생성하는 단계를 더 포함할 수 있다.Analyzing the syntax structures of the first example sentence and the second example sentence, and generating alignment information for identifying a correspondence relationship between the expression included in the first example sentence and the expression included in the second example sentence. can do.
상기 제공 단계는 상기 정렬 정보를 포함하는 예문 분석 정보와 함께 상기 병렬 예문을 상기 사용자에게 제공하는 단계를 포함할 수 있다.The providing step may include providing the parallel example sentence to the user along with example sentence analysis information including the alignment information.
상기 정렬 정보를 포함하는 예문 분석 정보와 상기 병렬 예문을 저장하는 단계를 더 포함할 수 있다.The method may further include storing example sentence analysis information including the alignment information and the parallel example sentence.
상기 제1 언어는 한국어이고, 상기 제2 언어는 영어일 수 있다.The first language may be Korean, and the second language may be English.
본 발명의 다른 태양에 따른 외국어 교육 방법은 상기한 문서 처리 방법 중 어느 하나를 포함한다.The foreign language teaching method according to another aspect of the present invention includes any of the above-described document processing methods.
본 발명의 다른 태양에 따른 컴퓨터로 읽을 수 있는 매체는 상기한 방법 중 어느 하나를 컴퓨터에 실행시키기 위한 프로그램을 기록한다.A computer readable medium according to another aspect of the present invention records a program for causing a computer to execute any of the above methods.
이와 같이 본 발명에 의하면, 제1 언어로 작성된 예문과 이 예문에 대한 제2 언어로 작성된 번역문을 한 쌍으로 하는 병렬 예문을 웹으로부터 사람의 수작업 없이 자동으로 지속적으로 수집할 수 있고, 이에 따라 사용자에게 새롭고 보다 다양한 예문을 제공할 수 있다. 또한, 예문에 포함된 표현과 이 표현에 대응하는 번역문의 표현도 함께 사용자에게 제공함으로써 사용자의 학습 효율을 향상시킬 수 있다.As described above, according to the present invention, parallel example sentences in which a pair of example sentences written in a first language and a translation sentence written in a second language of the example sentences are paired can be continuously and automatically collected from the web without human intervention. Can provide new and more varied examples. In addition, by providing the expression of the expression included in the example sentence and the translation corresponding to the expression to the user can improve the learning efficiency of the user.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention.
먼저, 도 1을 참고하여 본 발명의 실시예에 따른 문서 처리 장치에 대하여 상세하게 설명한다.First, a document processing apparatus according to an embodiment of the present invention will be described in detail with reference to FIG. 1.
도 1은 본 발명의 실시예에 따른 문서 처리 장치를 설명하기 위한 블록도이다.1 is a block diagram illustrating a document processing apparatus according to an embodiment of the present invention.
본 발명의 실시예에 따른 문서 처리 장치(100)는 예문 수집부(110), 예문 분석부(130), 데이터베이스(150), 그리고 예문 제공부(170)를 포함하며, 통신망(400)을 통하여 복수의 웹 서버(200)와 사용자 단말기(300)에 연결되어 있다. 문서 처리 장치(100)는 웹 서버(200)로부터 병렬 예문을 수집하고, 수집된 병렬 예문을 분석하여 얻은 부가 정보를 병렬 예문과 함께 저장해 둔다. 또한 문서 처리 장치(100)는 사용자 단말기(300)로부터 질의를 받고 질의에 대응하는 병렬 예문 및 이와 관련된 예문 분석 정보를 사용자 단말기(300)에 제공한다.
여기서 병렬 예문은 특정 단어나 표현이 포함되어 있는 원문 예문과 이에 대한 번역문의 쌍으로 이루어진다. 원문 예문은 임의의 언어(이하 '제1 언어'라 함)로 표현된 문장, 구, 절, 단어 등을 의미하며, 이에 대한 번역문은 임의의 학습 대상 언어(이하 '제2 언어'라 함)로 표현된 것을 의미한다. 예를 들어 제1 언어가 한국어이고 제2 언어가 영어라면 병렬 예문은 한영 번역 문장 쌍이 된다. 물론, 병렬 예문이 영한 번역 문장 쌍이 될 수도 있으며, 제1 및 제2 언어가 한국어 및 영어와 다른 언어일 수도 있다.In this case, the parallel sentences are composed of a pair of original sentences containing a specific word or expression and translations thereof. The original example sentence means a sentence, phrase, clause, word, etc. expressed in an arbitrary language (hereinafter referred to as a 'first language'), and a translation thereof refers to an arbitrary subject language (hereinafter referred to as a 'second language'). Means expressed as. For example, if the first language is Korean and the second language is English, the parallel example sentences are Korean-English translation sentences. Of course, the parallel example sentences may be English-English translation sentence pairs, and the first and second languages may be languages different from Korean and English.
사용자 단말기(300)는 사용자가 웹 서비스를 받기 위해 사용하는 통신 단말 장치로서, 통신망(400)을 통해 웹 서버(200), 문서 처리 장치(100) 등에 접속하여 정보를 주고받는다. 사용자 단말기(300)는 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, UMPC(ultra mobile personal computer), 태블릿 PC, 개인 휴대 정보 단말기(personal digital assistant, PDA), 웹 패드, 휴대전화 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하 여 연산 능력을 갖춘 단말기로 이루어질 수 있다.The
통신망(400)은 구내 정보 통신망(local area network, LAN), 도시권 통신망(metropolitan area network, MAN), 광역 통신망(wide area network, WAN), 인터넷 등을 포함하는 데이터 통신망뿐만 아니라 전화망 등을 포함할 수 있고, 유선과 무선을 가리지 않으며, 어떠한 통신 방식을 사용하더라도 상관없다.The
웹 서버(200)는 통신망(400)을 통하여 사용자 단말기(300) 및 문서 처리 장치(100)로부터의 요청에 따라 웹 페이지를 제공한다. 웹 서버(200)는 블로그, 카페, 지식 정보, 전문 자료, 뉴스 등을 제공하는 포털 사이트 또는 일반 웹 사이트를 통하여 웹 페이지를 제공할 수 있으며, 문서 처리 장치(100)는 웹 페이지에 포함되어 있는 다양한 문서 중에서 병렬 예문을 추출할 수 있다.The
그러면, 이러한 문서 처리 장치(100)에 포함되어 있는 각 구성 요소에 대하여 도 2 및 도 3을 더 참고하여 보다 상세하게 설명한다.Then, each component included in the
도 2는 도 1에 도시한 예문 수집부(110)의 블록도이고, 도 3은 도 1에 도시한 예문 분석부(130)의 블록도이다.2 is a block diagram of the example
도 2를 참고하면 예문 수집부(110)는 구문 구조 분석부(111), 예문 검색부(113), 텍스트 추출부(115) 및 문장 정렬부(117)를 포함하며, 특정 표현이 포함되어 있는 문서를 통신망(400)을 통하여 검색하여 병렬 예문 데이터를 생성하고, 생성된 병렬 예문 데이터를 예문 분석부(130)에 제공한다.Referring to FIG. 2, the example
구문 구조 분석부(111)는 입력 문서를 형태소 또는 단어 단위로 분석하고, 이를 바탕으로 단어와 구절 경계를 분석하며, 이 경계를 바탕으로 구, 절 등을 구 분하여 학습에 사용될 형태소, 단어, 구, 절 등으로 이루어진 표현 목록을 생성한다. 여기서 입력 문서는 웹 상에서 추출된 임의의 문서 또는 문서 처리 장치(100)의 관리자가 입력하는 임의의 문서일 수 있으며, 하나의 특정 언어로 이루어진 문서가 바람직하나 이에 한정되지 않는다. 이하, 입력 문서는 제1 언어로 이루어진 것으로 가정하고 설명한다. 그리고 표현이란 적어도 하나의 의미를 전달하는 단위로서, 형태소, 단어나 이들의 조합으로 이루어진다. 이때 구문 구조 분석부(111)는, 예를 들어 Dan Klein과 Christopher D. Manning의 논문 "Accurate Unlexicalized Parsing" 및 그에 대한 실제 구현으로서 공개된 소프트웨어인 "Stanford parser"와 같이 자연 언어 처리 분야에서 연구 및 개발된 기술을 사용함으로써 자동으로 입력 문서의 구문 구조를 분석할 수 있다.The syntax
예문 검색부(113)는 통신망(400)을 통하여 복수의 웹 서버(200)에 접속하여 표현 목록을 기초로 문서를 검색하고 원문 예문과 번역 후보 문서로 이루어진 검색 문서 집합을 생성한다. 여기서 원문 예문은 표현 목록에 있는 표현이 포함되어 있는 문서로서 제1 언어로 작성되어 있는 것을 나타내고, 번역 후보 문서는 원문 예문이 제2 언어로 번역되어 있을 가능성이 높은 문서를 나타내며, 검색 문서 집합은 원문 예문과 이에 대응되는 번역 후보 문서의 쌍으로 이루어진 문서의 집합을 나타낸다. 예문 검색부(113)는 자체 검색 엔진을 이용하여 문서를 검색하거나, 검색 사이트를 제공하는 웹 서버(200)의 검색 엔진을 이용하여 문서를 검색할 수 있다.The example
좀더 상세하게 설명하면, 예문 검색부(113)는 표현 목록으로부터 특정 표현을 추출하고, 이 표현이 포함된 문서를 통신망(400)을 통하여 검색하여 이 표현이 포함되어 있는 원문 예문을 추출한다. 검색된 문서가 제1 언어와 제2 언어로 작성되어 있을 경우 제2 언어로 작성되어 있는 부분이 제1 언어로 작성되어 있는 부분의 번역문일 가능성이 높기 때문에, 예문 검색부(113)는 검색된 문서로부터 제2 언어로 작성되어 있는 부분을 번역 후보 문서 목록에 포함시킨다. 또한, 검색된 문서가 하이퍼링크(hyperlink) 부분을 포함하고 있고 다국어 웹 페이지로 설계되어 있는 경우 해당 문서에 동일한 구조와 내용의 제2 언어 웹 페이지가 링크되어 있을 가능성이 높으므로, 예문 검색부(113)는 하이퍼링크로 연결되어 있는 문서 중에서 제2 언어로 작성된 부분을 번역 후보 문서 목록에 포함시킨다. 예문 검색부(113)는 표현 목록에 있는 표현들에 대해 반복적으로 위와 같은 검색 과정을 거쳐 복수의 원문 예문 및 이에 대응되는 번역 후보 문서들의 쌍으로 이루어진 검색 문서 집합을 생성한다.In more detail, the example
텍스트 추출부(115)는 검색 문서 집합의 원문 예문에서 제1 언어로 작성된 텍스트 부분을 추출하여 제1 텍스트 문서를 생성하고, 해당 원문 예문에 대응하는 번역 후보 문서에서 제2 언어로 작성된 텍스트 부분을 추출하여 제2 텍스트 후보 문서를 생성함으로써 제1 텍스트 문서와 제2 텍스트 후보 문서로 이루어진 텍스트 예문 집합을 생성한다. 따라서 제1 언어로 된 문서와 이 문서의 번역일 가능성이 있는 또는 이 문서의 번역을 일부 포함하고 있을 가능성이 있는 제2 언어로 된 문서의 쌍을 얻을 수 있다.The
문장 정렬부(117)는 텍스트 예문 집합의 제1 텍스트 문서와 이에 대응되는 제2 텍스트 후보 문서를 쌍으로 하여 문장 부호, 특수 기호, 숫자 등의 일치 여부 를 검사하거나 문장 길이를 비교하거나 사전 정보 등을 이용하여 제1 텍스트 문서에 포함된 표현들이 제2 텍스트 후보 문서에 존재하는지 검사함으로써 제1 텍스트 문서에 포함된 문장과 제2 텍스트 후보 문서에 포함된 문장이 서로의 번역인지 아닌지 결정한다. 그런 후 문장 정렬부(117)는 서로의 번역이라고 결정된 제1 문장 및 제2 문장을 추출한다. 여기서 제1 문장은 제1 언어로 작성된 문장을 나타내고, 제2 문장은 제2 언어로 작성된 문장을 나타낸다. 문장 정렬부(117)는 텍스트 예문 집합 데이터의 제1 텍스트 문서와 이에 대응되는 제2 텍스트 후보 문서의 쌍들에 대해 반복적으로 위와 같은 검사 과정을 거쳐 복수의 제1 문장과 이에 대응되는 제2 문장의 쌍으로 이루어진 병렬 예문 데이터를 생성한다. 이렇게 함으로써 문장 단위로 정렬된 병렬 예문을 얻을 수 있다. 물론 복수의 제1 문장과 이에 대응하는 복수의 제2 문장이 문단 단위로 정렬되어 병렬 예문을 이룰 수도 있으며, 문장이 아니라 구나 절 단위로 정렬되어 병렬 예문을 이룰 수도 있다.The
도 3을 참고하면 예문 분석부(130)는 제1 구문 구조 분석부(131), 제2 구문 구조 분석부(132) 및 단어 정렬부(135)를 포함하며, 병렬 예문 데이터를 분석하여 부가 정보를 생성하고 이를 병렬 예문 데이터와 함께 데이터베이스(150)에 저장한다.Referring to FIG. 3, the example
제1 및 제2 구문 구조 분석부(131, 133)는 각각 제1 및 제2 언어로 작성된 문장의 구문 구조를 분석한다. 즉, 제1 구문 구조 분석부(131)는 병렬 예문 중 제1 문장의 구문 구조를 분석하고, 제2 구문 구조 분석부(133)는 병렬 예문 중 제2 문장의 구문 구조를 분석한다. 앞서 설명한 구문 구조 분석부(111)와 마찬가지로 제1 및 제2 구문 구조 분석부(131, 133)는 각 문장을 형태소 또는 단어 단위로 분석하여 문장에 포함되어 있는 형태소, 단어, 구, 절 등의 구문 구조 정보를 생성한다. 한편, 제1 구문 구조 분석부(131)는 예문 수집부(110)의 구문 구조 분석부(111)를 차용하여 구현될 수 있으나 이와 별도로 독립적으로 구현될 수도 있다.The first and second syntax
단어 정렬부(135)는 제1 및 제2 문장의 구문 구조 정보를 기초로 단어 정렬을 수행하여 단어 정렬 정보를 생성한다. 여기서 단어 정렬은 정확성을 위하여 형태소 단위로 수행될 수 있다. 단어 정렬부(135)는 통계적 기계 번역에서 널리 이용되고 있는 단어 정렬 기술을 사용할 수 있으며, 예를 들어 Peter F. Brown 등의 논문 "The Mathematics of Statistical Machine Translation: Parameter Estimation" 및 이를 실제 구현한 소프트웨어로 F. J. Och의 "GIZA++"와 같이, 논문에 의해 공개된 알고리즘이나 단어 정렬 알고리즘과 같은 공개 소프트웨어를 사용할 수 있다. 이와 같은 단어 정렬을 통하여 제1 문장과 제2 문장에 포함되어 있는 표현들의 대응 관계를 알 수 있다.The
예문 분석부(135)는 하나의 병렬 예문을 기초로 생성된 구문 구조 정보 및 단어 정렬 정보를 포함하는 예문 분석 정보를 병렬 예문 데이터와 함께 데이터베이스(150)에 저장한다. 이때 한 쌍의 제1 문장 및 제2 문장이 하나의 문서로 저장되도록 하고, 각 문서에는 해당 예문 분석 정보가 함께 저장되도록 한다.The example
한편, 예문 분석부(130)는 구문 구조 정보나 단어 정렬 정보 이외에도 병렬 예문으로부터 발음열, 운율 등의 다양한 분석을 추가적으로 수행할 수 있으며, 그 결과로서 도출된 정보를 예문 분석 정보에 부가하여 데이터베이스(150)에 저장할 수 있다.On the other hand, the sentence
다시 도 1을 참고하면, 데이터베이스(150)는 예문 분석부(130)에서 제공받은 병렬 예문 데이터와 예문 분석 정보를 저장하고 예문 제공부(170)의 요청에 따라 병렬 예문 데이터와 예문 분석 정보를 제공한다.Referring back to FIG. 1, the
예문 제공부(170)는 데이터베이스(150)를 용이하게 검색할 수 있도록 인덱싱 작업을 수행하되 데이터베이스(150)에 예문 분석 정보가 함께 수록되어 있는 문서를 대상으로 한다. 또한 예문 제공부(170)는 사용자 단말기(300)로부터 질의어를 입력 받으면 제1 또는 제2 구문 구조 분석부(131, 133)를 통하여 질의어의 구문 구조를 분석하고 분석을 통하여 가장 적합한 검색어를 추출하는 등의 전처리 과정을 거친 후 추출된 검색어가 포함된 문서를 데이터베이스(150)에서 검색하고 검색된 문서를 사용자 단말기(300)에 제공한다. 따라서 검색 결과, 데이터베이스(150)에 포함되어 있는 문서 중 사용자 질의에 가장 잘 부합하는 예문에 관한 문서가 사용자 단말기(300)에 제공될 수 있으며, 병렬 예문뿐만 아니라 예문 분석 정보도 함께 제공될 수 있으므로 사용자가 이를 유용하게 이용할 수 있다.The example
이와 같이, 본 발명의 실시예에 따른 문서 처리 장치(100)에 의하면 특정 표현이 포함되어 있는 병렬 예문을 웹에서 자동적이고 지속적으로 수집함으로써 온라인 사전을 자동으로 구축할 수 있고, 이에 따라 사용자에게 보다 새롭고 다양한 예문을 제공할 수 있다. 또한, 예문뿐만 아니라 예문을 분석한 정보도 함께 사용자에게 제공함으로써 사용자의 학습 효율을 향상시킬 수 있다.As such, according to the
본 발명의 실시예에 따른 문서 처리 장치(100)는 독립적인 서버 형태로 구현 될 수 있으나, 사용자 단말기(300)와 일체로 통합된 형태로 구현될 수도 있다. 즉, 문서 처리 장치(100)의 기능 전부가 사용자 단말기(300)에 구현되어 사용자 단말기(300)에서 병렬 예문을 수집 및 분석하고 사용자 요청에 따라 병렬 예문을 검색하여 사용자에게 제공할 수 있다. 물론 문서 처리 장치(100)의 기능 일부가 사용자 단말기(300)에 구현될 수도 있다.The
그리고 문서 처리 장치(100)는 외국어 교육을 위한 병렬 예문을 수집하는 데 사용될 수 있어서 외국어 교육을 위한 다양한 시스템(도시하지 않음)에 포함될 수도 있다. 이러한 시스템의 예로서, 온라인 사전 시스템이나 대화형 교육 시스템을 들 수 있으나 이에 한정되지 않는다. 또한 본 발명의 실시예에 따른 문서 처리 장치(100)는 통계 기반 및 예제 기반 자동 번역을 위한 시스템에 활용될 수도 있다.In addition, the
한편, 문서 처리 장치(100)에 의하여 수집된 병렬 예문은 통계 기반 및 예제 기반 자동 번역 기술에 필요한 병렬 데이터로 사용될 수 있으며, 대화 시스템을 포함하여 외국어 학습을 위한 소프트웨어 전반에서 학습 자료로써 활용될 수 있다. 또한 단어 정렬 과정을 거친 예문 분석 정보는 단어 및 구문 사전의 자동 구축에 사용될 수도 있다.Meanwhile, the parallel example sentences collected by the
그러면, 도 4을 참고하여 본 발명의 실시예에 따른 문서 처리 방법에 대해 설명한다.Next, a document processing method according to an embodiment of the present invention will be described with reference to FIG. 4.
도 4는 본 발명의 실시예에 따라 병렬 예문을 수집하는 방법을 설명하기 위한 흐름도이고, 도 5는 본 발명의 실시예에 따라 병렬 예문을 제공하는 방법을 설명하기 위한 흐름도이다.4 is a flowchart illustrating a method of collecting parallel example sentences according to an embodiment of the present invention, and FIG. 5 is a flowchart illustrating a method of providing parallel example sentences according to an embodiment of the present invention.
먼저, 도 4를 참고하면, 문서 처리 장치(100)는 입력 문서를 형태소 또는 단어 단위로 분석하고, 이를 바탕으로 단어와 구절 경계를 분석하며, 이 경계를 바탕으로 구, 절 등을 구분하여 형태소, 단어, 구, 절 등으로 이루어진 표현 목록을 생성한다(S510).First, referring to FIG. 4, the
그런 후, 문서 처리 장치(100)는 표현 목록으로부터 특정 표현을 추출하고, 이 표현이 포함된 문서를 통신망(400)을 통하여 검색하여 이 표현이 포함되어 있는 원문 예문을 추출한다. 또한 예문 검색부(113)는 검색된 문서가 제1 언어와 제2 언어로 작성되어 있을 경우 검색된 문서로부터 제2 언어로 작성되어 있는 부분을 번역 후보 문서 목록에 포함시키고, 검색된 문서가 하이퍼링크(hyperlink) 부분을 포함하고 있고 다국어 웹 페이지로 설계되어 있는 경우 하이퍼링크로 연결되어 있는 문서 중에서 제2 언어로 작성된 부분을 번역 후보 문서 목록에 포함시킨다. 표현 목록에 있는 표현들에 대해 반복적으로 위와 같은 검색 과정을 거쳐 복수의 원문 예문 및 이에 대응되는 번역 후보 문서들의 쌍으로 이루어진 검색 문서 집합을 생성한다(S520).Thereafter, the
다음으로, 문서 처리 장치(100)는 검색 문서 집합의 원문 예문에서 제1 언어로 작성된 텍스트 부분을 추출하여 제1 텍스트 문서를 생성하고, 해당 원문 예문에 대응하는 번역 후보 문서에서 제2 언어로 작성된 텍스트 부분을 추출하여 제2 텍스트 후보 문서를 생성함으로써 제1 텍스트 문서와 제2 텍스트 후보 문서로 이루어진 텍스트 예문 집합을 생성한다(S530).Next, the
이후, 문서 처리 장치(100)는 텍스트 예문 집합의 제1 텍스트 문서에 포함된 문장과 제2 텍스트 후보 문서에 포함된 문장이 서로의 번역인지 아닌지 소정 검사를 통하여 결정하고, 서로의 번역이라고 결정된 제1 문장 및 제2 문장을 추출한다. 문서 처리 장치(100)는 텍스트 예문 집합 데이터의 제1 텍스트 문서와 이에 대응되는 제2 텍스트 후보 문서의 쌍들에 대해 반복적으로 검사를 수행하여 복수의 제1 문장과 이에 대응되는 제2 문장의 쌍으로 이루어진 병렬 예문 데이터를 생성한다(S540).Subsequently, the
다음으로, 문서 처리 장치(100)는 병렬 예문의 각 문장을 형태소 또는 단어 단위로 분석하여 문장에 포함되어 있는 형태소, 단어, 구, 절 등의 구문 구조 정보를 생성한다(S550). 그리고 문서 처리 장치(100)는 제1 및 제2 문장의 구문 구조 정보를 기초로 단어 정렬을 수행하여 단어 정렬 정보를 생성하고, 구문 구조 정보와 단어 정렬 정보가 포함된 예문 분석 정보를 생성하며(S560), 예문 분석 정보를 병렬 예문 데이터와 함께 데이터베이스(150)에 저장한다(S570).Next, the
도 5를 참고하면, 문서 처리 장치(100)는 사용자 단말기(300)로부터 질의어를 입력 받아 질의어의 구문 구조를 분석하고 분석을 통하여 가장 적합한 검색어를 추출하는 등의 전처리 과정을 수행한다(S610). 그런 후 추출된 검색어가 포함된 문서를 데이터베이스(150)에서 검색하고(S620) 검색된 결과를 사용자 단말기(300)에 전송한다(S530).Referring to FIG. 5, the
본 발명의 실시예에 따른 문서 처리 방법은 외국어 교육을 위한 병렬 예문을 수집하는 데 사용될 수 있어서 외국어 교육을 위한 다양한 방법에 포함될 수 있다. 이러한 방법의 예로서, 온라인 사전 제공 방법이나 대화형 교육 방법을 들 수 있으 나 이에 한정되지 않는다. 또한 본 발명의 실시예에 따른 문서 처리 방법은 통계 기반 및 예제 기반 자동 번역 방법에 활용될 수도 있다.The document processing method according to an embodiment of the present invention may be used to collect parallel example sentences for foreign language education, and thus may be included in various methods for foreign language education. Examples of such methods include, but are not limited to, online dictionary provision methods or interactive teaching methods. In addition, the document processing method according to an embodiment of the present invention may be utilized in a statistical based and example based automatic translation method.
본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 지금까지 설명한 문서 처리 방법을 실행시키기 위한 프로그램을 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(Floptical Disk)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치 등이 있다. 또는 이러한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.Embodiments of the invention include a computer readable medium containing program instructions for performing various computer-implemented operations. This medium records a program for executing the document processing method described so far. The media may include, alone or in combination with the program instructions, data files, data structures, and the like. Examples of such media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CDs and DVDs, floppy disks and program commands such as magnetic-optical media, ROM, RAM and flash memory. Hardware devices configured to store and perform such operations. Alternatively, the medium may be a transmission medium such as an optical or metal wire, a waveguide, or the like including a carrier wave for transmitting a signal specifying a program command, a data structure, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.Although the preferred embodiments of the present invention have been described in detail above, the scope of the present invention is not limited thereto, and various modifications and improvements of those skilled in the art using the basic concepts of the present invention defined in the following claims are also provided. It belongs to the scope of rights.
도 1은 본 발명의 실시예에 따른 문서 처리 장치를 설명하기 위한 블록도이다.1 is a block diagram illustrating a document processing apparatus according to an embodiment of the present invention.
도 2는 도 1에 도시한 예문 수집부의 블록도이다.FIG. 2 is a block diagram of an example sentence collection unit shown in FIG. 1.
도 3은 도 1에 도시한 예문 분석부의 블록도이다.3 is a block diagram of an example sentence analysis unit illustrated in FIG. 1.
도 4는 본 발명의 실시예에 따라 병렬 예문을 수집하는 방법을 설명하기 위한 흐름도이다.4 is a flowchart illustrating a method of collecting parallel example sentences in accordance with an embodiment of the present invention.
도 5는 본 발명의 실시예에 따라 병렬 예문을 제공하는 방법을 설명하기 위한 흐름도이다.5 is a flowchart illustrating a method of providing a parallel example sentence according to an embodiment of the present invention.
<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>
100: 문서 처리 장치, 110: 예문 수집부,100: document processing apparatus, 110: sentence collection unit,
111: 구문 구조 분석부, 113: 예문 검색부,111: syntax structure analysis unit, 113: example sentence search unit,
115: 텍스트 추출부, 117: 문장 정렬부,115: text extracting unit, 117: sentence alignment unit,
130: 예문 분석부, 131: 제1 구문 구조 분석부,130: example sentence analysis unit, 131: first syntax structure analysis unit,
132: 제2 구문 구조 분석부, 135: 단어 정렬부,132: second syntax structure analysis unit, 135: word alignment unit,
150: 데이터베이스, 170: 예문 제공부,150: database, 170: example sentence provider,
200: 웹 서버, 300: 사용자 단말기,200: web server, 300: user terminal,
400: 통신망400: network
Claims (21)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090092234A KR20110034797A (en) | 2009-09-29 | 2009-09-29 | Document processing apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090092234A KR20110034797A (en) | 2009-09-29 | 2009-09-29 | Document processing apparatus and method |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20110034797A true KR20110034797A (en) | 2011-04-06 |
Family
ID=44043241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090092234A KR20110034797A (en) | 2009-09-29 | 2009-09-29 | Document processing apparatus and method |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20110034797A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10977450B2 (en) | 2016-04-27 | 2021-04-13 | Samsung Electronics Co., Ltd. | Terminal device and method for providing additional information |
-
2009
- 2009-09-29 KR KR1020090092234A patent/KR20110034797A/en not_active Application Discontinuation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10977450B2 (en) | 2016-04-27 | 2021-04-13 | Samsung Electronics Co., Ltd. | Terminal device and method for providing additional information |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shoufan et al. | Natural language processing for dialectical Arabic: A survey | |
Chen et al. | A Two‐Step Resume Information Extraction Algorithm | |
US10339453B2 (en) | Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation | |
US20060111893A1 (en) | Display of results of cross language search | |
US20220365956A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
Sarveswaran et al. | Building a Part of Speech tagger for the Tamil Language | |
Kessler et al. | Extraction of terminology in the field of construction | |
Zhang et al. | Chinese-English mixed text normalization | |
KR101072100B1 (en) | Document processing apparatus and method for extraction of expression and description | |
Mara | English-Wolaytta Machine Translation using Statistical Approach | |
Mosavi Miangah | Constructing a large-scale english-persian parallel corpus | |
JP5688754B2 (en) | Information retrieval apparatus and computer program | |
Zhang | Research on English machine translation system based on the internet | |
Bakari et al. | A logical representation of Arabic questions toward automatic passage extraction from the Web | |
CN114970516A (en) | Data enhancement method and device, storage medium and electronic equipment | |
KR20110034797A (en) | Document processing apparatus and method | |
Sridhar et al. | A Scalable Approach to Building a Parallel Corpus from the Web. | |
Ning et al. | Design and Testing of Automatic Machine Translation System Based on Chinese‐English Phrase Translation | |
Zeng | Exploration and study of multilingual thesauri automation construction for digital libraries in China | |
Zhang | Russian speech conversion algorithm based on a parallel corpus and machine translation | |
Safeena et al. | Quranic computation: A review of research and application | |
Ho et al. | Data warehouse designing for Vietnamese textual document-based plagiarism detection system | |
Li et al. | Extracting hierarchical relations between the back-of-the-book index terms | |
Wushouer et al. | Building contemporary Uyghur grammatical information dictionary | |
Salaiwarakul | Thai natural language based cultural tourism ontology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E601 | Decision to refuse application |