KR20110034797A - Document processing apparatus and method - Google Patents

Document processing apparatus and method Download PDF

Info

Publication number
KR20110034797A
KR20110034797A KR1020090092234A KR20090092234A KR20110034797A KR 20110034797 A KR20110034797 A KR 20110034797A KR 1020090092234 A KR1020090092234 A KR 1020090092234A KR 20090092234 A KR20090092234 A KR 20090092234A KR 20110034797 A KR20110034797 A KR 20110034797A
Authority
KR
South Korea
Prior art keywords
example sentence
sentence
document
language
candidate
Prior art date
Application number
KR1020090092234A
Other languages
Korean (ko)
Inventor
이종훈
노형종
이성진
이근배
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020090092234A priority Critical patent/KR20110034797A/en
Publication of KR20110034797A publication Critical patent/KR20110034797A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: A document processing apparatus and a method thereof are provided to supply new and various example sentences by automatically and continuously collecting the example sentences without a manual work. CONSTITUTION: An example collecting unit(110) collects, from a web, a first example sentence which is written in a first language, and a second example sentence which is the translation of the first example sentence. An example providing unit(170) provides supplies a user with a parallel example including the first and second example sentences. The example providing unit extracts from an input document the expression list used for learning and searches the expression included in the expression list in order to obtain the first example sentence including the expression.

Description

문서 처리 장치 및 방법{DOCUMENT PROCESSING APPARATUS AND METHOD}Document processing apparatus and method {DOCUMENT PROCESSING APPARATUS AND METHOD}

본 발명은 문서 처리 장치 및 방법에 관한 것으로, 보다 상세하게는 웹에서 문서를 수집하고 수집된 문서를 처리하는 문서 처리 장치 및 방법에 관한 것이다.TECHNICAL FIELD The present invention relates to a document processing apparatus and method, and more particularly, to a document processing apparatus and method for collecting a document on the web and processing the collected document.

종이 형식으로 출판되는 외국어 사전이나 전자 외국어 사전은 해당 외국어 전문가에 의해 만들어진다. 사전에 수록되는 예문들은 통상 수작업으로 작성되며, 일반적으로 사전 내용은 오랜 시간이 경과한 후에야 사전의 판본 변경을 통하여 갱신된다. 최근에 널리 이용되고 있는 웹 사전은 기존의 전자 사전에 수록된 데이터를 바탕으로 이루어진다. 웹 사전의 경우 새로운 예문들이 그 번역문과 함께 지속적으로 추가되어 비교적 짧은 시간에 데이터의 확충 및 갱신이 이루어지지만 이 또한 수작업으로 이루어진다. 이와 같이 종이 사전, 전자 사전이나 웹 사전에서 예문을 구축하기 위하여 사람의 손을 거쳐야 하므로 확장성이 떨어질 뿐만 아니라 새로운 예문을 갱신하기 어려우며, 신조어나 기존 표현의 새로운 용례를 추가하기 위하여 지속적인 유지 및 관리가 필요하므로 많은 자본, 시간 및 인력이 요구된다.Foreign or electronic foreign languages published in paper format are produced by the foreign language expert. Examples in the dictionary are usually written by hand, and the dictionary content is typically updated only after a long period of time by changing the dictionary's version. Recently used web dictionary is based on the data contained in the existing electronic dictionary. In the case of web dictionaries, new examples are continuously added with the translations, allowing data to be expanded and updated in a relatively short time, but this is also done manually. As it is necessary to go through human hands to construct examples in paper dictionaries, electronic dictionaries or web dictionaries, it is not only scalable but also difficult to update new examples, and is continuously maintained and managed to add new usages of new words or existing expressions. This requires a lot of capital, time and manpower.

한편, 문장 단위로 제공되는 예문은 각 예문과 그에 대한 번역문이 단순히 나열될 뿐이어서 사용자가 해당 예문에 대한 심도 있는 학습을 하기가 어렵다.On the other hand, the example sentences provided in sentence units are merely listed each example sentences and translations it is difficult for the user to learn in-depth about the example sentences.

본 발명이 해결하고자 하는 과제는 사람의 수작업 없이도 예문을 자동적이고 지속적으로 수집하여 새롭고 보다 다양한 예문을 제공할 수 있고 해당 예문과 관련된 예문 분석 정보를 제공할 수 있는 문서 처리 장치 및 방법을 제공하는 것이다.The problem to be solved by the present invention is to provide a document processing apparatus and method capable of providing new and more various examples by providing automatic and continuous collection of example sentences without human intervention, and can provide example analysis information related to the example sentences. .

이러한 기술적 과제를 해결하기 위한 본 발명의 실시예에 따른 문서 처리 장치는, 제1 언어로 이루어진 제1 예문과 제2 언어로 이루어져 있으며 상기 제1 예문의 번역문인 제2 예문을 웹으로부터 수집하는 예문 수집부, 그리고 사용자로부터의 요청에 따라 상기 제1 예문과 상기 제2 예문으로 이루어진 병렬 예문을 상기 사용자에게 제공하는 예문 제공부를 포함한다.The document processing apparatus according to an embodiment of the present invention for solving the technical problem, a first sentence consisting of a first example and a second language consisting of a first language, the example sentence for collecting a second example sentence which is a translation of the first example sentence from the web And a collection example and an example sentence providing unit for providing the user with a parallel example sentence composed of the first example sentence and the second example sentence in response to a request from the user.

상기 예문 수집부는 입력 문서로부터 학습에 사용될 표현 목록을 추출하고 상기 표현 목록에 포함되어 있는 표현을 상기 웹에서 검색하여 상기 표현이 포함되어 있는 상기 제1 예문을 획득할 수 있다.The example sentence collection unit may extract the expression list to be used for learning from an input document, and obtain the first example sentence including the expression by searching the web for an expression included in the expression list.

상기 제1 예문이 포함되어 있는 제1 문서에 상기 제2 언어로 작성된 부분이 포함되어 있거나 상기 제1 문서에 포함되어 있는 하이퍼링크로 연결되어 있는 문서에 상기 제2 언어로 작성된 부분이 포함되어 있으면, 상기 예문 수집부는 상기 제2 언어로 작성된 부분을 추출하여 상기 제2 예문의 후보 예문으로서 후보 예문 목록에 포함시킬 수 있다.If the first document containing the first example sentence includes a portion written in the second language, or the document linked by a hyperlink included in the first document includes a portion written in the second language. The example sentence collection unit may extract a portion written in the second language and include it in the candidate example sentence list as a candidate example sentence of the second example sentence.

상기 예문 수집부는 상기 제1 예문과 상기 후보 예문을 대조하여 상기 후보 예문이 상기 제1 예문의 번역문인지 판단함으로써 상기 후보 예문으로부터 상기 제2 예문을 추출할 수 있다.The example sentence collection unit may extract the second example sentence from the candidate example sentence by comparing the first example sentence with the candidate example sentence and determining whether the candidate example sentence is a translation sentence of the first example sentence.

상기 예문 제공부는 상기 사용자가 입력한 질의어의 구문 구조를 분석하여 검색어를 생성하고, 상기 검색어가 포함된 병렬 예문을 데이터베이스에서 검색하여 상기 사용자에게 제공할 수 있다.The example sentence providing unit may generate a search word by analyzing a syntax structure of the query word input by the user, and search for a parallel example sentence including the search word in a database and provide the search word to the user.

상기 제1 예문과 상기 제2 예문의 구문 구조를 분석하여 상기 제1 예문에 포함되어 있는 표현과 상기 제2 예문에 포함되어 있는 표현의 대응 관계를 알 수 있는 정렬 정보를 생성하는 예문 분석부를 더 포함할 수 있다.An example sentence analyzing unit configured to analyze the syntax structures of the first example sentence and the second example sentence and to generate alignment information for identifying a correspondence relationship between the expression included in the first example sentence and the expression included in the second example sentence It may include.

상기 예문 제공부는 상기 정렬 정보를 포함하는 예문 분석 정보와 함께 상기 병렬 예문을 상기 사용자에게 제공할 수 있다.The example sentence providing unit may provide the parallel example sentence to the user along with example sentence analysis information including the alignment information.

상기 정렬 정보를 포함하는 예문 분석 정보와 상기 병렬 예문을 저장하는 데이터베이스를 더 포함할 수 있다.Example sentence analysis information including the sorting information and the database for storing the parallel example sentence may further include.

상기 제1 언어는 한국어이고, 상기 제2 언어는 영어일 수 있다.The first language may be Korean, and the second language may be English.

본 발명의 다른 태양에 따른 외국어 교육 시스템은 상기한 문서 처리 장치 중 어느 하나를 포함한다.A foreign language education system according to another aspect of the present invention includes any of the above-described document processing apparatus.

본 발명의 다른 태양에 따른 문서 처리 방법은, 제1 언어로 이루어진 제1 예문과 제2 언어로 이루어져 있으며 상기 제1 예문의 번역문인 제2 예문을 웹으로부터 수집하는 단계, 그리고 사용자로부터의 요청에 따라 상기 제1 예문과 상기 제2 예문으로 이루어진 병렬 예문을 상기 사용자에게 제공하는 단계를 포함한다.According to another aspect of the present invention, there is provided a document processing method comprising: collecting, from a web, a second example sentence comprising a first example sentence in a first language and a second language, which is a translation of the first example sentence, and a request from a user. And providing the user with a parallel example sentence composed of the first example sentence and the second example sentence.

상기 수집 단계는 입력 문서로부터 학습에 사용될 표현 목록을 추출하는 단 계, 그리고 상기 표현 목록에 포함되어 있는 표현을 상기 웹에서 검색하여 상기 표현이 포함되어 있는 상기 제1 예문을 획득하는 단계를 포함할 수 있다.The collecting may include extracting a list of expressions to be used for learning from an input document, and obtaining the first example sentence including the expressions by searching the web for expressions included in the expression list. Can be.

상기 수집 단계는, 상기 제1 예문이 포함되어 있는 제1 문서에 상기 제2 언어로 작성된 부분이 포함되어 있거나 상기 제1 문서에 포함되어 있는 하이퍼링크로 연결되어 있는 문서에 상기 제2 언어로 작성된 부분이 포함되어 있으면, 상기 제2 언어로 작성된 부분을 추출하여 상기 제2 예문의 후보 예문으로서 후보 예문 목록에 포함시키는 단계를 포함할 수 있다.The collecting step may include a portion written in the second language in a first document including the first example sentence or a hyperlink included in the first document in a second document. If a part is included, extracting a part written in the second language may be included in the candidate example sentence list as a candidate example sentence of the second example sentence.

상기 수집 단계는 상기 제1 예문과 상기 후보 예문을 대조하여 상기 후보 예문이 상기 제1 예문의 번역문인지 판단함으로써 상기 후보 예문으로부터 상기 제2 예문을 추출하는 단계를 더 포함할 수 있다.The collecting step may further include extracting the second example sentence from the candidate example sentence by comparing the first example sentence with the candidate example sentence and determining whether the candidate example sentence is a translation of the first example sentence.

상기 제공 단계는 상기 사용자가 입력한 질의어의 구문 구조를 분석하여 검색어를 생성하는 단계, 그리고 상기 검색어가 포함된 병렬 예문을 데이터베이스에서 검색하여 상기 사용자에게 제공하는 단계를 포함할 수 있다.The providing may include analyzing a syntax structure of a query input by the user to generate a search word, and searching for a parallel example sentence including the search word in a database and providing the search word to the user.

상기 제1 예문과 상기 제2 예문의 구문 구조를 분석하여 상기 제1 예문에 포함되어 있는 표현과 상기 제2 예문에 포함되어 있는 표현의 대응 관계를 알 수 있는 정렬 정보를 생성하는 단계를 더 포함할 수 있다.Analyzing the syntax structures of the first example sentence and the second example sentence, and generating alignment information for identifying a correspondence relationship between the expression included in the first example sentence and the expression included in the second example sentence. can do.

상기 제공 단계는 상기 정렬 정보를 포함하는 예문 분석 정보와 함께 상기 병렬 예문을 상기 사용자에게 제공하는 단계를 포함할 수 있다.The providing step may include providing the parallel example sentence to the user along with example sentence analysis information including the alignment information.

상기 정렬 정보를 포함하는 예문 분석 정보와 상기 병렬 예문을 저장하는 단계를 더 포함할 수 있다.The method may further include storing example sentence analysis information including the alignment information and the parallel example sentence.

상기 제1 언어는 한국어이고, 상기 제2 언어는 영어일 수 있다.The first language may be Korean, and the second language may be English.

본 발명의 다른 태양에 따른 외국어 교육 방법은 상기한 문서 처리 방법 중 어느 하나를 포함한다.The foreign language teaching method according to another aspect of the present invention includes any of the above-described document processing methods.

본 발명의 다른 태양에 따른 컴퓨터로 읽을 수 있는 매체는 상기한 방법 중 어느 하나를 컴퓨터에 실행시키기 위한 프로그램을 기록한다.A computer readable medium according to another aspect of the present invention records a program for causing a computer to execute any of the above methods.

이와 같이 본 발명에 의하면, 제1 언어로 작성된 예문과 이 예문에 대한 제2 언어로 작성된 번역문을 한 쌍으로 하는 병렬 예문을 웹으로부터 사람의 수작업 없이 자동으로 지속적으로 수집할 수 있고, 이에 따라 사용자에게 새롭고 보다 다양한 예문을 제공할 수 있다. 또한, 예문에 포함된 표현과 이 표현에 대응하는 번역문의 표현도 함께 사용자에게 제공함으로써 사용자의 학습 효율을 향상시킬 수 있다.As described above, according to the present invention, parallel example sentences in which a pair of example sentences written in a first language and a translation sentence written in a second language of the example sentences are paired can be continuously and automatically collected from the web without human intervention. Can provide new and more varied examples. In addition, by providing the expression of the expression included in the example sentence and the translation corresponding to the expression to the user can improve the learning efficiency of the user.

그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention.

먼저, 도 1을 참고하여 본 발명의 실시예에 따른 문서 처리 장치에 대하여 상세하게 설명한다.First, a document processing apparatus according to an embodiment of the present invention will be described in detail with reference to FIG. 1.

도 1은 본 발명의 실시예에 따른 문서 처리 장치를 설명하기 위한 블록도이다.1 is a block diagram illustrating a document processing apparatus according to an embodiment of the present invention.

본 발명의 실시예에 따른 문서 처리 장치(100)는 예문 수집부(110), 예문 분석부(130), 데이터베이스(150), 그리고 예문 제공부(170)를 포함하며, 통신망(400)을 통하여 복수의 웹 서버(200)와 사용자 단말기(300)에 연결되어 있다. 문서 처리 장치(100)는 웹 서버(200)로부터 병렬 예문을 수집하고, 수집된 병렬 예문을 분석하여 얻은 부가 정보를 병렬 예문과 함께 저장해 둔다. 또한 문서 처리 장치(100)는 사용자 단말기(300)로부터 질의를 받고 질의에 대응하는 병렬 예문 및 이와 관련된 예문 분석 정보를 사용자 단말기(300)에 제공한다.Document processing apparatus 100 according to an embodiment of the present invention includes a sentence sentence collection unit 110, a sentence sentence analysis unit 130, a database 150, and a sentence sentence providing unit 170, through the communication network 400 The plurality of web servers 200 and the user terminal 300 are connected. The document processing apparatus 100 collects parallel example sentences from the web server 200 and stores additional information obtained by analyzing the collected parallel example sentences together with the parallel example sentences. In addition, the document processing apparatus 100 receives a query from the user terminal 300 and provides a parallel example sentence and example sentence analysis information related thereto corresponding to the query to the user terminal 300.

여기서 병렬 예문은 특정 단어나 표현이 포함되어 있는 원문 예문과 이에 대한 번역문의 쌍으로 이루어진다. 원문 예문은 임의의 언어(이하 '제1 언어'라 함)로 표현된 문장, 구, 절, 단어 등을 의미하며, 이에 대한 번역문은 임의의 학습 대상 언어(이하 '제2 언어'라 함)로 표현된 것을 의미한다. 예를 들어 제1 언어가 한국어이고 제2 언어가 영어라면 병렬 예문은 한영 번역 문장 쌍이 된다. 물론, 병렬 예문이 영한 번역 문장 쌍이 될 수도 있으며, 제1 및 제2 언어가 한국어 및 영어와 다른 언어일 수도 있다.In this case, the parallel sentences are composed of a pair of original sentences containing a specific word or expression and translations thereof. The original example sentence means a sentence, phrase, clause, word, etc. expressed in an arbitrary language (hereinafter referred to as a 'first language'), and a translation thereof refers to an arbitrary subject language (hereinafter referred to as a 'second language'). Means expressed as. For example, if the first language is Korean and the second language is English, the parallel example sentences are Korean-English translation sentences. Of course, the parallel example sentences may be English-English translation sentence pairs, and the first and second languages may be languages different from Korean and English.

사용자 단말기(300)는 사용자가 웹 서비스를 받기 위해 사용하는 통신 단말 장치로서, 통신망(400)을 통해 웹 서버(200), 문서 처리 장치(100) 등에 접속하여 정보를 주고받는다. 사용자 단말기(300)는 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, UMPC(ultra mobile personal computer), 태블릿 PC, 개인 휴대 정보 단말기(personal digital assistant, PDA), 웹 패드, 휴대전화 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하 여 연산 능력을 갖춘 단말기로 이루어질 수 있다.The user terminal 300 is a communication terminal device used by a user to receive a web service. The user terminal 300 accesses a web server 200, a document processing apparatus 100, and the like through the communication network 400 to exchange information. The user terminal 300 may be a desktop computer as well as a laptop computer, a workstation, a palmtop computer, an ultra mobile personal computer, a tablet PC, a personal digital assistant (PDA), a web pad, a mobile phone. It may be made of a terminal having a computing power by including a memory means and a microprocessor.

통신망(400)은 구내 정보 통신망(local area network, LAN), 도시권 통신망(metropolitan area network, MAN), 광역 통신망(wide area network, WAN), 인터넷 등을 포함하는 데이터 통신망뿐만 아니라 전화망 등을 포함할 수 있고, 유선과 무선을 가리지 않으며, 어떠한 통신 방식을 사용하더라도 상관없다.The communication network 400 may include a telephone network as well as a data communication network including a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN), the Internet, and the like. It can be used, and it does not matter wired and wireless, and it does not matter which communication method is used.

웹 서버(200)는 통신망(400)을 통하여 사용자 단말기(300) 및 문서 처리 장치(100)로부터의 요청에 따라 웹 페이지를 제공한다. 웹 서버(200)는 블로그, 카페, 지식 정보, 전문 자료, 뉴스 등을 제공하는 포털 사이트 또는 일반 웹 사이트를 통하여 웹 페이지를 제공할 수 있으며, 문서 처리 장치(100)는 웹 페이지에 포함되어 있는 다양한 문서 중에서 병렬 예문을 추출할 수 있다.The web server 200 provides a web page in response to a request from the user terminal 300 and the document processing apparatus 100 through the communication network 400. The web server 200 may provide a web page through a portal site or a general web site that provides blogs, cafes, knowledge information, specialized materials, news, and the like, and the document processing apparatus 100 may be included in a web page. You can extract parallel sentences from various documents.

그러면, 이러한 문서 처리 장치(100)에 포함되어 있는 각 구성 요소에 대하여 도 2 및 도 3을 더 참고하여 보다 상세하게 설명한다.Then, each component included in the document processing apparatus 100 will be described in more detail with reference to FIGS. 2 and 3.

도 2는 도 1에 도시한 예문 수집부(110)의 블록도이고, 도 3은 도 1에 도시한 예문 분석부(130)의 블록도이다.2 is a block diagram of the example sentence collection unit 110 shown in FIG. 1, and FIG. 3 is a block diagram of the example sentence analysis unit 130 shown in FIG. 1.

도 2를 참고하면 예문 수집부(110)는 구문 구조 분석부(111), 예문 검색부(113), 텍스트 추출부(115) 및 문장 정렬부(117)를 포함하며, 특정 표현이 포함되어 있는 문서를 통신망(400)을 통하여 검색하여 병렬 예문 데이터를 생성하고, 생성된 병렬 예문 데이터를 예문 분석부(130)에 제공한다.Referring to FIG. 2, the example sentence collection unit 110 includes a syntax structure analyzing unit 111, an example sentence searching unit 113, a text extracting unit 115, and a sentence alignment unit 117, and includes a specific expression. The document is searched through the communication network 400 to generate parallel example sentence data, and the generated parallel example sentence data is provided to the example sentence analyzing unit 130.

구문 구조 분석부(111)는 입력 문서를 형태소 또는 단어 단위로 분석하고, 이를 바탕으로 단어와 구절 경계를 분석하며, 이 경계를 바탕으로 구, 절 등을 구 분하여 학습에 사용될 형태소, 단어, 구, 절 등으로 이루어진 표현 목록을 생성한다. 여기서 입력 문서는 웹 상에서 추출된 임의의 문서 또는 문서 처리 장치(100)의 관리자가 입력하는 임의의 문서일 수 있으며, 하나의 특정 언어로 이루어진 문서가 바람직하나 이에 한정되지 않는다. 이하, 입력 문서는 제1 언어로 이루어진 것으로 가정하고 설명한다. 그리고 표현이란 적어도 하나의 의미를 전달하는 단위로서, 형태소, 단어나 이들의 조합으로 이루어진다. 이때 구문 구조 분석부(111)는, 예를 들어 Dan Klein과 Christopher D. Manning의 논문 "Accurate Unlexicalized Parsing" 및 그에 대한 실제 구현으로서 공개된 소프트웨어인 "Stanford parser"와 같이 자연 언어 처리 분야에서 연구 및 개발된 기술을 사용함으로써 자동으로 입력 문서의 구문 구조를 분석할 수 있다.The syntax structure analyzing unit 111 analyzes the input document in morpheme or word units, and analyzes words and phrase boundaries based on the morphemes, words, and the like. Create a list of expressions consisting of phrases, clauses, etc. Here, the input document may be any document extracted on the web or any document input by an administrator of the document processing apparatus 100, and a document in one specific language is preferable, but is not limited thereto. Hereinafter, it is assumed that the input document is made of the first language. And expression is a unit for conveying at least one meaning, consisting of morphemes, words or a combination thereof. In this case, the syntax structure analyzing unit 111 is researched in the field of natural language processing such as Dan Klein and Christopher D. Manning's article "Accurate Unlexicalized Parsing" and "Stanford parser", which is published as an actual implementation thereof. By using the developed technology, you can automatically parse the syntax of input documents.

예문 검색부(113)는 통신망(400)을 통하여 복수의 웹 서버(200)에 접속하여 표현 목록을 기초로 문서를 검색하고 원문 예문과 번역 후보 문서로 이루어진 검색 문서 집합을 생성한다. 여기서 원문 예문은 표현 목록에 있는 표현이 포함되어 있는 문서로서 제1 언어로 작성되어 있는 것을 나타내고, 번역 후보 문서는 원문 예문이 제2 언어로 번역되어 있을 가능성이 높은 문서를 나타내며, 검색 문서 집합은 원문 예문과 이에 대응되는 번역 후보 문서의 쌍으로 이루어진 문서의 집합을 나타낸다. 예문 검색부(113)는 자체 검색 엔진을 이용하여 문서를 검색하거나, 검색 사이트를 제공하는 웹 서버(200)의 검색 엔진을 이용하여 문서를 검색할 수 있다.The example sentence search unit 113 accesses a plurality of web servers 200 through the communication network 400 to search for a document based on a list of expressions, and generates a search document set including an original example sentence and a translation candidate document. Here, the original example text indicates that the document containing the expressions in the expression list is written in the first language, the translation candidate document indicates a document that is likely to be translated in the second language, and the search document set is Represents a set of documents composed of pairs of original text examples and corresponding translation candidate documents. The example sentence search unit 113 may search for a document using a search engine of its own or search for a document using a search engine of a web server 200 that provides a search site.

좀더 상세하게 설명하면, 예문 검색부(113)는 표현 목록으로부터 특정 표현을 추출하고, 이 표현이 포함된 문서를 통신망(400)을 통하여 검색하여 이 표현이 포함되어 있는 원문 예문을 추출한다. 검색된 문서가 제1 언어와 제2 언어로 작성되어 있을 경우 제2 언어로 작성되어 있는 부분이 제1 언어로 작성되어 있는 부분의 번역문일 가능성이 높기 때문에, 예문 검색부(113)는 검색된 문서로부터 제2 언어로 작성되어 있는 부분을 번역 후보 문서 목록에 포함시킨다. 또한, 검색된 문서가 하이퍼링크(hyperlink) 부분을 포함하고 있고 다국어 웹 페이지로 설계되어 있는 경우 해당 문서에 동일한 구조와 내용의 제2 언어 웹 페이지가 링크되어 있을 가능성이 높으므로, 예문 검색부(113)는 하이퍼링크로 연결되어 있는 문서 중에서 제2 언어로 작성된 부분을 번역 후보 문서 목록에 포함시킨다. 예문 검색부(113)는 표현 목록에 있는 표현들에 대해 반복적으로 위와 같은 검색 과정을 거쳐 복수의 원문 예문 및 이에 대응되는 번역 후보 문서들의 쌍으로 이루어진 검색 문서 집합을 생성한다.In more detail, the example sentence search unit 113 extracts a specific expression from the expression list, and retrieves a document containing the expression through the communication network 400 to extract the original sentence sentence containing the expression. When the retrieved document is written in the first language and the second language, since the portion written in the second language is more likely to be a translation of the part written in the first language, the example sentence search unit 113 may determine from the retrieved document. The part written in the second language is included in the translation candidate document list. In addition, when the searched document includes a hyperlink portion and is designed as a multilingual web page, it is highly likely that a second language web page having the same structure and content is linked to the document. ) Includes the hyperlinked document in the second candidate language in the translation candidate document list. The example sentence search unit 113 generates a search document set consisting of a plurality of original example sentences and pairs of translation candidate documents corresponding to the expressions in the expression list through the above search process.

텍스트 추출부(115)는 검색 문서 집합의 원문 예문에서 제1 언어로 작성된 텍스트 부분을 추출하여 제1 텍스트 문서를 생성하고, 해당 원문 예문에 대응하는 번역 후보 문서에서 제2 언어로 작성된 텍스트 부분을 추출하여 제2 텍스트 후보 문서를 생성함으로써 제1 텍스트 문서와 제2 텍스트 후보 문서로 이루어진 텍스트 예문 집합을 생성한다. 따라서 제1 언어로 된 문서와 이 문서의 번역일 가능성이 있는 또는 이 문서의 번역을 일부 포함하고 있을 가능성이 있는 제2 언어로 된 문서의 쌍을 얻을 수 있다.The text extractor 115 extracts the text portion written in the first language from the original sentence examples of the search document set to generate the first text document, and extracts the text portion written in the second language from the translation candidate document corresponding to the original sentence example. By extracting and generating a second text candidate document, a text example sentence set consisting of the first text document and the second text candidate document is generated. Thus, it is possible to obtain a pair of documents in a first language and documents in a second language that may be a translation of this document or possibly contain some translation of this document.

문장 정렬부(117)는 텍스트 예문 집합의 제1 텍스트 문서와 이에 대응되는 제2 텍스트 후보 문서를 쌍으로 하여 문장 부호, 특수 기호, 숫자 등의 일치 여부 를 검사하거나 문장 길이를 비교하거나 사전 정보 등을 이용하여 제1 텍스트 문서에 포함된 표현들이 제2 텍스트 후보 문서에 존재하는지 검사함으로써 제1 텍스트 문서에 포함된 문장과 제2 텍스트 후보 문서에 포함된 문장이 서로의 번역인지 아닌지 결정한다. 그런 후 문장 정렬부(117)는 서로의 번역이라고 결정된 제1 문장 및 제2 문장을 추출한다. 여기서 제1 문장은 제1 언어로 작성된 문장을 나타내고, 제2 문장은 제2 언어로 작성된 문장을 나타낸다. 문장 정렬부(117)는 텍스트 예문 집합 데이터의 제1 텍스트 문서와 이에 대응되는 제2 텍스트 후보 문서의 쌍들에 대해 반복적으로 위와 같은 검사 과정을 거쳐 복수의 제1 문장과 이에 대응되는 제2 문장의 쌍으로 이루어진 병렬 예문 데이터를 생성한다. 이렇게 함으로써 문장 단위로 정렬된 병렬 예문을 얻을 수 있다. 물론 복수의 제1 문장과 이에 대응하는 복수의 제2 문장이 문단 단위로 정렬되어 병렬 예문을 이룰 수도 있으며, 문장이 아니라 구나 절 단위로 정렬되어 병렬 예문을 이룰 수도 있다.The sentence aligning unit 117 checks whether a punctuation mark, a special symbol, a number, etc. are matched, compares sentence lengths, dictionary information, etc. by pairing the first text document of the text example sentence set and the second text candidate document corresponding thereto. The method determines whether the sentences included in the first text document and the sentences included in the second text candidate document are translations of each other by checking whether expressions included in the first text document exist in the second text candidate document. Then, the sentence aligning unit 117 extracts the first sentence and the second sentence determined to be translations of each other. Here, the first sentence represents a sentence written in the first language, and the second sentence represents a sentence written in the second language. The sentence aligning unit 117 repeatedly performs the above-described inspection process on the pairs of the first text document of the text example sentence set data and the second text candidate document corresponding thereto, and thus the plurality of first sentences and the second sentences corresponding thereto. Generate paired parallel example data. In this way, you can get parallel sentences sorted by sentence. Of course, the plurality of first sentences and the corresponding plurality of second sentences may be aligned in paragraph units to form parallel sentences, or not in sentences, but may be aligned in phrase units to form parallel sentences.

도 3을 참고하면 예문 분석부(130)는 제1 구문 구조 분석부(131), 제2 구문 구조 분석부(132) 및 단어 정렬부(135)를 포함하며, 병렬 예문 데이터를 분석하여 부가 정보를 생성하고 이를 병렬 예문 데이터와 함께 데이터베이스(150)에 저장한다.Referring to FIG. 3, the example sentence analyzing unit 130 includes a first syntax structure analyzing unit 131, a second syntax structure analyzing unit 132, and a word alignment unit 135, and analyzes parallel example sentence data to provide additional information. And stores it in the database 150 along with the parallel example data.

제1 및 제2 구문 구조 분석부(131, 133)는 각각 제1 및 제2 언어로 작성된 문장의 구문 구조를 분석한다. 즉, 제1 구문 구조 분석부(131)는 병렬 예문 중 제1 문장의 구문 구조를 분석하고, 제2 구문 구조 분석부(133)는 병렬 예문 중 제2 문장의 구문 구조를 분석한다. 앞서 설명한 구문 구조 분석부(111)와 마찬가지로 제1 및 제2 구문 구조 분석부(131, 133)는 각 문장을 형태소 또는 단어 단위로 분석하여 문장에 포함되어 있는 형태소, 단어, 구, 절 등의 구문 구조 정보를 생성한다. 한편, 제1 구문 구조 분석부(131)는 예문 수집부(110)의 구문 구조 분석부(111)를 차용하여 구현될 수 있으나 이와 별도로 독립적으로 구현될 수도 있다.The first and second syntax structure analyzing units 131 and 133 analyze syntax structures of sentences written in the first and second languages, respectively. That is, the first syntax structure analyzer 131 analyzes the syntax structure of the first sentence in the parallel example sentence, and the second syntax structure analyzer 133 analyzes the syntax structure of the second sentence in the parallel example sentence. Like the syntax structure analyzing unit 111 described above, the first and second syntax structure analyzing units 131 and 133 analyze each sentence in morphemes or word units to determine morphemes, words, phrases, clauses, and the like. Generates syntax structure information. On the other hand, the first syntax structure analysis unit 131 may be implemented by borrowing the syntax structure analysis unit 111 of the example sentence collection unit 110 may be implemented independently of this.

단어 정렬부(135)는 제1 및 제2 문장의 구문 구조 정보를 기초로 단어 정렬을 수행하여 단어 정렬 정보를 생성한다. 여기서 단어 정렬은 정확성을 위하여 형태소 단위로 수행될 수 있다. 단어 정렬부(135)는 통계적 기계 번역에서 널리 이용되고 있는 단어 정렬 기술을 사용할 수 있으며, 예를 들어 Peter F. Brown 등의 논문 "The Mathematics of Statistical Machine Translation: Parameter Estimation" 및 이를 실제 구현한 소프트웨어로 F. J. Och의 "GIZA++"와 같이, 논문에 의해 공개된 알고리즘이나 단어 정렬 알고리즘과 같은 공개 소프트웨어를 사용할 수 있다. 이와 같은 단어 정렬을 통하여 제1 문장과 제2 문장에 포함되어 있는 표현들의 대응 관계를 알 수 있다.The word alignment unit 135 generates word alignment information by performing word alignment based on syntax structure information of the first and second sentences. Here, word alignment may be performed in morpheme units for accuracy. The word sorter 135 may use a word sorting technique widely used in statistical machine translation. For example, the paper "The Mathematics of Statistical Machine Translation: Parameter Estimation" by Peter F. Brown et al. As with FJ Och's "GIZA ++", you can use publicly available software such as algorithms or word alignment algorithms published by the paper. Through such word alignment, the correspondence between the expressions included in the first sentence and the second sentence may be known.

예문 분석부(135)는 하나의 병렬 예문을 기초로 생성된 구문 구조 정보 및 단어 정렬 정보를 포함하는 예문 분석 정보를 병렬 예문 데이터와 함께 데이터베이스(150)에 저장한다. 이때 한 쌍의 제1 문장 및 제2 문장이 하나의 문서로 저장되도록 하고, 각 문서에는 해당 예문 분석 정보가 함께 저장되도록 한다.The example sentence analysis unit 135 stores example sentence analysis information including syntax structure information and word alignment information generated based on one parallel example sentence in the database 150 together with the parallel example sentence data. In this case, the pair of first sentences and the second sentence are stored as one document, and the example sentence analysis information is stored together in each document.

한편, 예문 분석부(130)는 구문 구조 정보나 단어 정렬 정보 이외에도 병렬 예문으로부터 발음열, 운율 등의 다양한 분석을 추가적으로 수행할 수 있으며, 그 결과로서 도출된 정보를 예문 분석 정보에 부가하여 데이터베이스(150)에 저장할 수 있다.On the other hand, the sentence sentence analysis unit 130 may additionally perform various analysis, such as pronunciation string, rhyme, etc. from the parallel sentence sentence in addition to the syntax structure information or word alignment information, by adding the information derived as a result to the sentence sentence analysis information database ( 150).

다시 도 1을 참고하면, 데이터베이스(150)는 예문 분석부(130)에서 제공받은 병렬 예문 데이터와 예문 분석 정보를 저장하고 예문 제공부(170)의 요청에 따라 병렬 예문 데이터와 예문 분석 정보를 제공한다.Referring back to FIG. 1, the database 150 stores parallel example sentence data and example sentence analysis information provided by the example sentence analysis unit 130, and provides parallel example sentence data and example sentence analysis information at the request of the example sentence provider 170. do.

예문 제공부(170)는 데이터베이스(150)를 용이하게 검색할 수 있도록 인덱싱 작업을 수행하되 데이터베이스(150)에 예문 분석 정보가 함께 수록되어 있는 문서를 대상으로 한다. 또한 예문 제공부(170)는 사용자 단말기(300)로부터 질의어를 입력 받으면 제1 또는 제2 구문 구조 분석부(131, 133)를 통하여 질의어의 구문 구조를 분석하고 분석을 통하여 가장 적합한 검색어를 추출하는 등의 전처리 과정을 거친 후 추출된 검색어가 포함된 문서를 데이터베이스(150)에서 검색하고 검색된 문서를 사용자 단말기(300)에 제공한다. 따라서 검색 결과, 데이터베이스(150)에 포함되어 있는 문서 중 사용자 질의에 가장 잘 부합하는 예문에 관한 문서가 사용자 단말기(300)에 제공될 수 있으며, 병렬 예문뿐만 아니라 예문 분석 정보도 함께 제공될 수 있으므로 사용자가 이를 유용하게 이용할 수 있다.The example sentence providing unit 170 performs an indexing operation so that the database 150 can be easily searched, and targets a document in which example sentence analysis information is included in the database 150. Also, when the example sentence providing unit 170 receives a query word from the user terminal 300, the sentence structure analysis unit 131 and 133 analyzes the syntax structure of the query word and extracts the most suitable search word through the analysis. After the preprocessing process, the document including the extracted search word is searched in the database 150 and the searched document is provided to the user terminal 300. Accordingly, as a result of the search, a document regarding a sentence that best matches a user query among documents included in the database 150 may be provided to the user terminal 300, and the sentence sentence analysis information may be provided as well as parallel sentences. This can be useful to the user.

이와 같이, 본 발명의 실시예에 따른 문서 처리 장치(100)에 의하면 특정 표현이 포함되어 있는 병렬 예문을 웹에서 자동적이고 지속적으로 수집함으로써 온라인 사전을 자동으로 구축할 수 있고, 이에 따라 사용자에게 보다 새롭고 다양한 예문을 제공할 수 있다. 또한, 예문뿐만 아니라 예문을 분석한 정보도 함께 사용자에게 제공함으로써 사용자의 학습 효율을 향상시킬 수 있다.As such, according to the document processing apparatus 100 according to the exemplary embodiment of the present invention, an online dictionary may be automatically constructed by automatically and continuously collecting parallel example sentences containing a specific expression on the web, thereby providing a user with more information. New and different examples can be provided. In addition, by providing not only the example sentence but also the analyzed information to the user, the learning efficiency of the user can be improved.

본 발명의 실시예에 따른 문서 처리 장치(100)는 독립적인 서버 형태로 구현 될 수 있으나, 사용자 단말기(300)와 일체로 통합된 형태로 구현될 수도 있다. 즉, 문서 처리 장치(100)의 기능 전부가 사용자 단말기(300)에 구현되어 사용자 단말기(300)에서 병렬 예문을 수집 및 분석하고 사용자 요청에 따라 병렬 예문을 검색하여 사용자에게 제공할 수 있다. 물론 문서 처리 장치(100)의 기능 일부가 사용자 단말기(300)에 구현될 수도 있다.The document processing apparatus 100 according to the embodiment of the present invention may be implemented in an independent server form, but may be implemented in an integrated form with the user terminal 300. That is, all of the functions of the document processing apparatus 100 may be implemented in the user terminal 300 to collect and analyze the parallel example sentences in the user terminal 300, and retrieve and provide the parallel example sentences to the user according to the user's request. Of course, some of the functions of the document processing apparatus 100 may be implemented in the user terminal 300.

그리고 문서 처리 장치(100)는 외국어 교육을 위한 병렬 예문을 수집하는 데 사용될 수 있어서 외국어 교육을 위한 다양한 시스템(도시하지 않음)에 포함될 수도 있다. 이러한 시스템의 예로서, 온라인 사전 시스템이나 대화형 교육 시스템을 들 수 있으나 이에 한정되지 않는다. 또한 본 발명의 실시예에 따른 문서 처리 장치(100)는 통계 기반 및 예제 기반 자동 번역을 위한 시스템에 활용될 수도 있다.In addition, the document processing apparatus 100 may be used to collect parallel example sentences for foreign language education, and thus may be included in various systems (not shown) for foreign language education. Examples of such systems include, but are not limited to, online dictionary systems or interactive educational systems. In addition, the document processing apparatus 100 according to an embodiment of the present invention may be utilized in a system for statistical based and example based automatic translation.

한편, 문서 처리 장치(100)에 의하여 수집된 병렬 예문은 통계 기반 및 예제 기반 자동 번역 기술에 필요한 병렬 데이터로 사용될 수 있으며, 대화 시스템을 포함하여 외국어 학습을 위한 소프트웨어 전반에서 학습 자료로써 활용될 수 있다. 또한 단어 정렬 과정을 거친 예문 분석 정보는 단어 및 구문 사전의 자동 구축에 사용될 수도 있다.Meanwhile, the parallel example sentences collected by the document processing apparatus 100 may be used as parallel data necessary for statistical-based and example-based automatic translation techniques, and may be utilized as learning materials in general software for foreign language learning, including a dialogue system. have. In addition, the sentence analysis information after the word alignment process may be used for automatic construction of the word and phrase dictionary.

그러면, 도 4을 참고하여 본 발명의 실시예에 따른 문서 처리 방법에 대해 설명한다.Next, a document processing method according to an embodiment of the present invention will be described with reference to FIG. 4.

도 4는 본 발명의 실시예에 따라 병렬 예문을 수집하는 방법을 설명하기 위한 흐름도이고, 도 5는 본 발명의 실시예에 따라 병렬 예문을 제공하는 방법을 설명하기 위한 흐름도이다.4 is a flowchart illustrating a method of collecting parallel example sentences according to an embodiment of the present invention, and FIG. 5 is a flowchart illustrating a method of providing parallel example sentences according to an embodiment of the present invention.

먼저, 도 4를 참고하면, 문서 처리 장치(100)는 입력 문서를 형태소 또는 단어 단위로 분석하고, 이를 바탕으로 단어와 구절 경계를 분석하며, 이 경계를 바탕으로 구, 절 등을 구분하여 형태소, 단어, 구, 절 등으로 이루어진 표현 목록을 생성한다(S510).First, referring to FIG. 4, the document processing apparatus 100 analyzes an input document in terms of morphemes or word units, analyzes words and phrase boundaries based on this, and classifies phrases and sections based on the boundaries. To generate an expression list consisting of words, phrases, clauses, and the like (S510).

그런 후, 문서 처리 장치(100)는 표현 목록으로부터 특정 표현을 추출하고, 이 표현이 포함된 문서를 통신망(400)을 통하여 검색하여 이 표현이 포함되어 있는 원문 예문을 추출한다. 또한 예문 검색부(113)는 검색된 문서가 제1 언어와 제2 언어로 작성되어 있을 경우 검색된 문서로부터 제2 언어로 작성되어 있는 부분을 번역 후보 문서 목록에 포함시키고, 검색된 문서가 하이퍼링크(hyperlink) 부분을 포함하고 있고 다국어 웹 페이지로 설계되어 있는 경우 하이퍼링크로 연결되어 있는 문서 중에서 제2 언어로 작성된 부분을 번역 후보 문서 목록에 포함시킨다. 표현 목록에 있는 표현들에 대해 반복적으로 위와 같은 검색 과정을 거쳐 복수의 원문 예문 및 이에 대응되는 번역 후보 문서들의 쌍으로 이루어진 검색 문서 집합을 생성한다(S520).Thereafter, the document processing apparatus 100 extracts a specific expression from the expression list, retrieves a document containing the expression through the communication network 400, and extracts an original sentence including the expression. Also, when the searched document is written in the first language and the second language, the example sentence search unit 113 includes a part written in the second language from the searched document in the translation candidate document list, and the searched document is hyperlinked. If a multilingual web page is included, the hyperlinked document in the second language is included in the translation candidate document list. A search document set consisting of a plurality of original text examples and pairs of translation candidate documents corresponding thereto is generated through the above search process repeatedly for the expressions in the expression list (S520).

다음으로, 문서 처리 장치(100)는 검색 문서 집합의 원문 예문에서 제1 언어로 작성된 텍스트 부분을 추출하여 제1 텍스트 문서를 생성하고, 해당 원문 예문에 대응하는 번역 후보 문서에서 제2 언어로 작성된 텍스트 부분을 추출하여 제2 텍스트 후보 문서를 생성함으로써 제1 텍스트 문서와 제2 텍스트 후보 문서로 이루어진 텍스트 예문 집합을 생성한다(S530).Next, the document processing apparatus 100 generates a first text document by extracting a text portion written in the first language from the original text example of the search document set, and is created in the second language from the translation candidate document corresponding to the original text example. By extracting the text portion and generating a second text candidate document, a text example sentence set consisting of the first text document and the second text candidate document is generated (S530).

이후, 문서 처리 장치(100)는 텍스트 예문 집합의 제1 텍스트 문서에 포함된 문장과 제2 텍스트 후보 문서에 포함된 문장이 서로의 번역인지 아닌지 소정 검사를 통하여 결정하고, 서로의 번역이라고 결정된 제1 문장 및 제2 문장을 추출한다. 문서 처리 장치(100)는 텍스트 예문 집합 데이터의 제1 텍스트 문서와 이에 대응되는 제2 텍스트 후보 문서의 쌍들에 대해 반복적으로 검사를 수행하여 복수의 제1 문장과 이에 대응되는 제2 문장의 쌍으로 이루어진 병렬 예문 데이터를 생성한다(S540).Subsequently, the document processing apparatus 100 determines whether or not the sentences included in the first text document of the text example sentence set and the sentences included in the second text candidate document are translated from each other through a predetermined inspection, and determined to be translations of each other. The first sentence and the second sentence are extracted. The document processing apparatus 100 repeatedly checks pairs of the first text document of the text example sentence set data and the second text candidate document corresponding thereto, and converts the first text document into a pair of the first sentences and the second sentences corresponding thereto. The generated parallel example sentence data is generated (S540).

다음으로, 문서 처리 장치(100)는 병렬 예문의 각 문장을 형태소 또는 단어 단위로 분석하여 문장에 포함되어 있는 형태소, 단어, 구, 절 등의 구문 구조 정보를 생성한다(S550). 그리고 문서 처리 장치(100)는 제1 및 제2 문장의 구문 구조 정보를 기초로 단어 정렬을 수행하여 단어 정렬 정보를 생성하고, 구문 구조 정보와 단어 정렬 정보가 포함된 예문 분석 정보를 생성하며(S560), 예문 분석 정보를 병렬 예문 데이터와 함께 데이터베이스(150)에 저장한다(S570).Next, the document processing apparatus 100 analyzes each sentence of the parallel example sentence in morphemes or word units to generate syntax structure information such as morphemes, words, phrases, and clauses included in the sentences (S550). The document processing apparatus 100 generates word alignment information by performing word alignment on the basis of the syntax structure information of the first and second sentences, and generates example sentence analysis information including the syntax structure information and the word alignment information. In operation S560, the sentence analysis information is stored in the database 150 together with the parallel sentence data (S570).

도 5를 참고하면, 문서 처리 장치(100)는 사용자 단말기(300)로부터 질의어를 입력 받아 질의어의 구문 구조를 분석하고 분석을 통하여 가장 적합한 검색어를 추출하는 등의 전처리 과정을 수행한다(S610). 그런 후 추출된 검색어가 포함된 문서를 데이터베이스(150)에서 검색하고(S620) 검색된 결과를 사용자 단말기(300)에 전송한다(S530).Referring to FIG. 5, the document processing apparatus 100 receives a query from the user terminal 300, performs a preprocessing process such as analyzing a syntax structure of the query and extracting a most suitable search word through analysis (S610). Thereafter, the document including the extracted search word is searched in the database 150 (S620), and the search result is transmitted to the user terminal 300 (S530).

본 발명의 실시예에 따른 문서 처리 방법은 외국어 교육을 위한 병렬 예문을 수집하는 데 사용될 수 있어서 외국어 교육을 위한 다양한 방법에 포함될 수 있다. 이러한 방법의 예로서, 온라인 사전 제공 방법이나 대화형 교육 방법을 들 수 있으 나 이에 한정되지 않는다. 또한 본 발명의 실시예에 따른 문서 처리 방법은 통계 기반 및 예제 기반 자동 번역 방법에 활용될 수도 있다.The document processing method according to an embodiment of the present invention may be used to collect parallel example sentences for foreign language education, and thus may be included in various methods for foreign language education. Examples of such methods include, but are not limited to, online dictionary provision methods or interactive teaching methods. In addition, the document processing method according to an embodiment of the present invention may be utilized in a statistical based and example based automatic translation method.

본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 지금까지 설명한 문서 처리 방법을 실행시키기 위한 프로그램을 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(Floptical Disk)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치 등이 있다. 또는 이러한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.Embodiments of the invention include a computer readable medium containing program instructions for performing various computer-implemented operations. This medium records a program for executing the document processing method described so far. The media may include, alone or in combination with the program instructions, data files, data structures, and the like. Examples of such media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CDs and DVDs, floppy disks and program commands such as magnetic-optical media, ROM, RAM and flash memory. Hardware devices configured to store and perform such operations. Alternatively, the medium may be a transmission medium such as an optical or metal wire, a waveguide, or the like including a carrier wave for transmitting a signal specifying a program command, a data structure, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.

이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.Although the preferred embodiments of the present invention have been described in detail above, the scope of the present invention is not limited thereto, and various modifications and improvements of those skilled in the art using the basic concepts of the present invention defined in the following claims are also provided. It belongs to the scope of rights.

도 1은 본 발명의 실시예에 따른 문서 처리 장치를 설명하기 위한 블록도이다.1 is a block diagram illustrating a document processing apparatus according to an embodiment of the present invention.

도 2는 도 1에 도시한 예문 수집부의 블록도이다.FIG. 2 is a block diagram of an example sentence collection unit shown in FIG. 1.

도 3은 도 1에 도시한 예문 분석부의 블록도이다.3 is a block diagram of an example sentence analysis unit illustrated in FIG. 1.

도 4는 본 발명의 실시예에 따라 병렬 예문을 수집하는 방법을 설명하기 위한 흐름도이다.4 is a flowchart illustrating a method of collecting parallel example sentences in accordance with an embodiment of the present invention.

도 5는 본 발명의 실시예에 따라 병렬 예문을 제공하는 방법을 설명하기 위한 흐름도이다.5 is a flowchart illustrating a method of providing a parallel example sentence according to an embodiment of the present invention.

<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>

100: 문서 처리 장치, 110: 예문 수집부,100: document processing apparatus, 110: sentence collection unit,

111: 구문 구조 분석부, 113: 예문 검색부,111: syntax structure analysis unit, 113: example sentence search unit,

115: 텍스트 추출부, 117: 문장 정렬부,115: text extracting unit, 117: sentence alignment unit,

130: 예문 분석부, 131: 제1 구문 구조 분석부,130: example sentence analysis unit, 131: first syntax structure analysis unit,

132: 제2 구문 구조 분석부, 135: 단어 정렬부,132: second syntax structure analysis unit, 135: word alignment unit,

150: 데이터베이스, 170: 예문 제공부,150: database, 170: example sentence provider,

200: 웹 서버, 300: 사용자 단말기,200: web server, 300: user terminal,

400: 통신망400: network

Claims (21)

제1 언어로 이루어진 제1 예문과 제2 언어로 이루어져 있으며 상기 제1 예문의 번역문인 제2 예문을 웹으로부터 수집하는 예문 수집부, 그리고An example collection unit for collecting a second example sentence, which is composed of a first example sentence in a first language and a second language, which is a translation of the first example sentence from the web, and 사용자로부터의 요청에 따라 상기 제1 예문과 상기 제2 예문으로 이루어진 병렬 예문을 상기 사용자에게 제공하는 예문 제공부An example sentence providing unit for providing a parallel example sentence composed of the first example sentence and the second example sentence to the user according to a request from the user. 를 포함하는 문서 처리 장치.Document processing apparatus comprising a. 제1항에서,In claim 1, 상기 예문 수집부는 입력 문서로부터 학습에 사용될 표현 목록을 추출하고 상기 표현 목록에 포함되어 있는 표현을 상기 웹에서 검색하여 상기 표현이 포함되어 있는 상기 제1 예문을 획득하는 문서 처리 장치.And the example sentence collection unit extracts a list of expressions to be used for learning from an input document, and searches the web for an expression included in the expression list to obtain the first example sentence including the expression. 제1항에서,In claim 1, 상기 제1 예문이 포함되어 있는 제1 문서에 상기 제2 언어로 작성된 부분이 포함되어 있거나 상기 제1 문서에 포함되어 있는 하이퍼링크로 연결되어 있는 문서에 상기 제2 언어로 작성된 부분이 포함되어 있으면, 상기 예문 수집부는 상기 제2 언어로 작성된 부분을 추출하여 상기 제2 예문의 후보 예문으로서 후보 예문 목록에 포함시키는 문서 처리 장치.If the first document containing the first example sentence includes a portion written in the second language, or the document linked by a hyperlink included in the first document includes a portion written in the second language. And the example sentence collection unit extracts a portion written in the second language and includes it in a candidate example sentence list as a candidate example sentence of the second example sentence. 제3항에서,4. The method of claim 3, 상기 예문 수집부는 상기 제1 예문과 상기 후보 예문을 대조하여 상기 후보 예문이 상기 제1 예문의 번역문인지 판단함으로써 상기 후보 예문으로부터 상기 제2 예문을 추출하는 문서 처리 장치.And the example sentence collection unit extracts the second example sentence from the candidate example sentence by comparing the first example sentence with the candidate example sentence and determining whether the candidate example sentence is a translation sentence of the first example sentence. 제1항에서,In claim 1, 상기 예문 제공부는 상기 사용자가 입력한 질의어의 구문 구조를 분석하여 검색어를 생성하고, 상기 검색어가 포함된 병렬 예문을 데이터베이스에서 검색하여 상기 사용자에게 제공하는 문서 처리 장치.The example sentence providing unit may generate a search word by analyzing a syntax structure of the query word input by the user, and search for a parallel example sentence including the search word in a database and provide the search word to the user. 제1항에서,In claim 1, 상기 제1 예문과 상기 제2 예문의 구문 구조를 분석하여 상기 제1 예문에 포함되어 있는 표현과 상기 제2 예문에 포함되어 있는 표현의 대응 관계를 알 수 있는 정렬 정보를 생성하는 예문 분석부를 더 포함하는 문서 처리 장치.An example sentence analyzing unit configured to analyze the syntax structures of the first example sentence and the second example sentence and to generate alignment information for identifying a correspondence relationship between the expression included in the first example sentence and the expression included in the second example sentence Document processing apparatus comprising. 제6항에서,In claim 6, 상기 예문 제공부는 상기 정렬 정보를 포함하는 예문 분석 정보와 함께 상기 병렬 예문을 상기 사용자에게 제공하는 문서 처리 장치.And the example sentence providing unit provides the parallel example sentence to the user along with example sentence analysis information including the alignment information. 제6항에서,In claim 6, 상기 정렬 정보를 포함하는 예문 분석 정보와 상기 병렬 예문을 저장하는 데이터베이스를 더 포함하는 문서 처리 장치.And a database for storing the example sentence analysis information including the alignment information and the parallel example sentence. 제1항에서,In claim 1, 상기 제1 언어는 한국어이고, 상기 제2 언어는 영어인 문서 처리 장치.And the first language is Korean and the second language is English. 제1항 내지 제9항 중 어느 한 항의 문서 처리 장치를 포함하는 외국어 교육 시스템.A foreign language education system comprising the document processing device of any one of claims 1 to 9. 제1 언어로 이루어진 제1 예문과 제2 언어로 이루어져 있으며 상기 제1 예문의 번역문인 제2 예문을 웹으로부터 수집하는 단계, 그리고Collecting from the web a second example sentence comprising a first example sentence in a first language and a second language, which is a translation of the first example sentence, and 사용자부터의 요청에 따라 상기 제1 예문과 상기 제2 예문으로 이루어진 병렬 예문을 상기 사용자에게 제공하는 단계Providing to the user a parallel example sentence composed of the first example sentence and the second example sentence in response to a request from a user. 를 포함하는 문서 처리 방법.Document processing method comprising a. 제11항에서,In claim 11, 상기 수집 단계는 입력 문서로부터 학습에 사용될 표현 목록을 추출하는 단계, 그리고 상기 표현 목록에 포함되어 있는 표현을 상기 웹에서 검색하여 상기 표현이 포함되어 있는 상기 제1 예문을 획득하는 단계를 포함하는 문서 처리 방법.The collecting step may include extracting a list of expressions to be used for learning from an input document, and obtaining the first example sentence including the expressions by searching the web for the expressions included in the expression list. Treatment method. 제11항에서,In claim 11, 상기 수집 단계는, 상기 제1 예문이 포함되어 있는 제1 문서에 상기 제2 언어로 작성된 부분이 포함되어 있거나 상기 제1 문서에 포함되어 있는 하이퍼링크로 연결되어 있는 문서에 상기 제2 언어로 작성된 부분이 포함되어 있으면, 상기 제2 언어로 작성된 부분을 추출하여 상기 제2 예문의 후보 예문으로서 후보 예문 목록에 포함시키는 단계를 포함하는 문서 처리 방법.The collecting step may include a portion written in the second language in a first document including the first example sentence or a hyperlink included in the first document in a second document. And if the portion is included, extracting the portion written in the second language and including the portion in the candidate example list as a candidate example sentence of the second example sentence. 제13항에서,The method of claim 13, 상기 수집 단계는 상기 제1 예문과 상기 후보 예문을 대조하여 상기 후보 예문이 상기 제1 예문의 번역문인지 판단함으로써 상기 후보 예문으로부터 상기 제2 예문을 추출하는 단계를 더 포함하는 문서 처리 방법.The collecting step further includes extracting the second example sentence from the candidate example sentence by comparing the first example sentence with the candidate example sentence and determining whether the candidate example sentence is a translation sentence of the first example sentence. 제11항에서,In claim 11, 상기 제공 단계는 상기 사용자가 입력한 질의어의 구문 구조를 분석하여 검색어를 생성하는 단계, 그리고 상기 검색어가 포함된 병렬 예문을 데이터베이스에서 검색하여 상기 사용자에게 제공하는 단계를 포함하는 문서 처리 방법.The providing step may include generating a search word by analyzing a syntax structure of the query word input by the user, and searching for a parallel example sentence including the search word in a database and providing the search word to the user. 제11항에서,In claim 11, 상기 제1 예문과 상기 제2 예문의 구문 구조를 분석하여 상기 제1 예문에 포함되어 있는 표현과 상기 제2 예문에 포함되어 있는 표현의 대응 관계를 알 수 있 는 정렬 정보를 생성하는 단계를 더 포함하는 문서 처리 방법.Analyzing the syntax structures of the first example sentence and the second example sentence, and generating alignment information for identifying a correspondence relationship between the expression included in the first example sentence and the expression included in the second example sentence. How to process a document. 제16항에서,The method of claim 16, 상기 제공 단계는 상기 정렬 정보를 포함하는 예문 분석 정보와 함께 상기 병렬 예문을 상기 사용자에게 제공하는 단계를 포함하는 문서 처리 방법.The providing step includes providing the parallel example sentence to the user with example sentence analysis information including the alignment information. 제16항에서,The method of claim 16, 상기 정렬 정보를 포함하는 예문 분석 정보와 상기 병렬 예문을 저장하는 단계를 더 포함하는 문서 처리 방법.And storing the example sentence analysis information including the alignment information and the parallel example sentence. 제11항에서,In claim 11, 상기 제1 언어는 한국어이고, 상기 제2 언어는 영어인 문서 처리 방법.And the first language is Korean and the second language is English. 제11항 내지 제19항 중 어느 한 항의 문서 처리 방법을 포함하는 외국어 교육 방법.20. A foreign language teaching method comprising the document processing method of any one of claims 11 to 19. 컴퓨터에 제11항 내지 제19항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체.20. A computer readable medium having recorded thereon a program for causing the computer to execute the method of any one of claims 11 to 19.
KR1020090092234A 2009-09-29 2009-09-29 Document processing apparatus and method KR20110034797A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090092234A KR20110034797A (en) 2009-09-29 2009-09-29 Document processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090092234A KR20110034797A (en) 2009-09-29 2009-09-29 Document processing apparatus and method

Publications (1)

Publication Number Publication Date
KR20110034797A true KR20110034797A (en) 2011-04-06

Family

ID=44043241

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090092234A KR20110034797A (en) 2009-09-29 2009-09-29 Document processing apparatus and method

Country Status (1)

Country Link
KR (1) KR20110034797A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10977450B2 (en) 2016-04-27 2021-04-13 Samsung Electronics Co., Ltd. Terminal device and method for providing additional information

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10977450B2 (en) 2016-04-27 2021-04-13 Samsung Electronics Co., Ltd. Terminal device and method for providing additional information

Similar Documents

Publication Publication Date Title
Shoufan et al. Natural language processing for dialectical Arabic: A survey
Chen et al. A Two‐Step Resume Information Extraction Algorithm
US10339453B2 (en) Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation
US20060111893A1 (en) Display of results of cross language search
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
Sarveswaran et al. Building a Part of Speech tagger for the Tamil Language
Kessler et al. Extraction of terminology in the field of construction
Zhang et al. Chinese-English mixed text normalization
KR101072100B1 (en) Document processing apparatus and method for extraction of expression and description
Mara English-Wolaytta Machine Translation using Statistical Approach
Mosavi Miangah Constructing a large-scale english-persian parallel corpus
JP5688754B2 (en) Information retrieval apparatus and computer program
Zhang Research on English machine translation system based on the internet
Bakari et al. A logical representation of Arabic questions toward automatic passage extraction from the Web
CN114970516A (en) Data enhancement method and device, storage medium and electronic equipment
KR20110034797A (en) Document processing apparatus and method
Sridhar et al. A Scalable Approach to Building a Parallel Corpus from the Web.
Ning et al. Design and Testing of Automatic Machine Translation System Based on Chinese‐English Phrase Translation
Zeng Exploration and study of multilingual thesauri automation construction for digital libraries in China
Zhang Russian speech conversion algorithm based on a parallel corpus and machine translation
Safeena et al. Quranic computation: A review of research and application
Ho et al. Data warehouse designing for Vietnamese textual document-based plagiarism detection system
Li et al. Extracting hierarchical relations between the back-of-the-book index terms
Wushouer et al. Building contemporary Uyghur grammatical information dictionary
Salaiwarakul Thai natural language based cultural tourism ontology

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E601 Decision to refuse application