KR100289332B1 - Automatic Word Construction System for Electronic Documents and Method - Google Patents

Automatic Word Construction System for Electronic Documents and Method Download PDF

Info

Publication number
KR100289332B1
KR100289332B1 KR1019980051089A KR19980051089A KR100289332B1 KR 100289332 B1 KR100289332 B1 KR 100289332B1 KR 1019980051089 A KR1019980051089 A KR 1019980051089A KR 19980051089 A KR19980051089 A KR 19980051089A KR 100289332 B1 KR100289332 B1 KR 100289332B1
Authority
KR
South Korea
Prior art keywords
word
information
location information
management device
database
Prior art date
Application number
KR1019980051089A
Other languages
Korean (ko)
Other versions
KR20000033994A (en
Inventor
채영숙
이현아
박재득
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019980051089A priority Critical patent/KR100289332B1/en
Publication of KR20000033994A publication Critical patent/KR20000033994A/en
Application granted granted Critical
Publication of KR100289332B1 publication Critical patent/KR100289332B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

본 발명은 전자화된 문서로부터 특정 단어의 구성 정보로만 구성하는 데이터베이스를 구축하는 장치 및 방법에 관한 것으로서, 특히 필요한 정보 검색이나 특정 단어의 용례 추출에 적합하도록 문장 단위, 어절 단위로 분리하여 데이터베이스화하는 전자화된 문서의 어절 데이터베이스 자동 구축장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for constructing a database composed only of configuration information of a specific word from an electronic document. The present invention relates to a database that is divided into sentence units and word units to be particularly suitable for searching for necessary information or extracting usage of a specific word. An apparatus and method for automatically constructing a word database of electronic documents are provided.

이러한 본 발명은, 전자화된 문서에서 분리된 문장과 어절의 위치 정보를 보관하는 위치 정보 관리장치와, 상기 위치 정보 관리장치에 의해 추출된 특정 어절의 출현 빈도와 상기 특정 어절의 좌우 어절 정보를 보관하는 빈도 정보 관리장치, 상기 위치 정보 관리장치에 의해 추출된 어절을 형태소 단위로 분리하고 태그 정보를 부여하는 분석 정보 관리장치, 및 상기 어절의 위치 정보, 빈도 정보, 분석 정보를 데이터베이스 형식으로 구축하고 관리하는 정보 관리장치를 포함한 것을 특징으로 하는 전자화된 문서의 어절 데이터베이스 자동 구축장치를 제공한다.The present invention is a location information management device for storing the position information of the sentence and the word separated from the electronic document, the frequency of occurrence of the specific word extracted by the location information management device and the left and right word information of the specific word And a frequency information management device which separates the words extracted by the location information management device into morpheme units and gives tag information, and constructs the location information, frequency information, and analysis information of the words in a database format. An automatic word database construction apparatus for electronicized documents, including an information management device for managing the device, is provided.

Description

전자화된 문서의 어절 데이터베이스 자동 구축장치 및 방법Automatic Word Construction System for Electronic Documents and Method

본 발명은 전자화된 문서로부터 특정 단어의 구성 정보로만 구성하는 데이터베이스를 구축하는 장치 및 방법에 관한 것으로서, 특히 필요한 정보 검색이나 특정 단어의 용례 추출에 적합하도록 문장 단위, 어절 단위로 분리하여 데이터베이스화하는 전자화된 문서의 어절 데이터베이스 자동 구축장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for constructing a database composed only of configuration information of a specific word from an electronic document. The present invention relates to a database that is divided into sentence units and word units to be particularly suitable for searching for necessary information or extracting usage of a specific word. An apparatus and method for automatically constructing a word database of electronic documents are provided.

종래의 한국어 정보처리기술은 대량의 자료를 처리하지 못했고, 대용량의 전자화된 한국어 문서를 구축하는 것이 힘들어 실험을 위한 소규모의 자료를 구축하는데 불과하였다. 뿐만 아니라, 이와 같이 소규모로 구축된 자료들은 별개의 자원에 불과하였고, 서로 연계하거나 공유하는 의미로 사용되지 못하였다. 따라서, 보관이나 작동을 위해 불필요한 작업을 추가하거나 별개의 작업을 실행하여야 했다.The conventional Korean information processing technology could not process a large amount of data, and it was difficult to construct a large amount of electronicized Korean documents. In addition, these small data sets were only separate resources and were not used in the sense of linking or sharing with each other. Therefore, unnecessary work or additional work had to be executed for storage or operation.

영어의 품사 분석 기법은 고정된 어절에 대한 분석 기법이므로 완벽한 분석율을 가질 수 있지만, 어형 변화가 심한 교착어인 한국어의 완벽한 분석을 위해서는 기 분석된 정보를 활용하는 기법으로 해결이 가능하다. 그러나, 상기한 종래기술로는 기 분석된 정보를 활용하지 못하고, 각각의 한국어 문서에 대한 분석이 별개로 이루어지는 문제점이 있었다.The part-of-speech analysis technique in English can have a perfect analysis rate because it is a technique for analyzing fixed words, but it can be solved by using the analyzed information for the complete analysis of Korean, which is a deadlock with a large change in morphology. However, the above-described conventional technology does not utilize the previously analyzed information, and there is a problem in that each Korean document is analyzed separately.

따라서, 본 발명은 상기와 같은 종래기술의 문제점을 해결하기 위하여 안출된 것으로서, 전자화된 문서를 문장 단위와 어절 단위로 분리하여 저장함으로써, 정보를 재가공할 수 있는 형태로 제공하는 언어정보웨어하우스 구축을 위한 전자화된 문서의 어절 데이터베이스 자동 구축장치 및 방법을 제공하는 데 그 목적이 있다.Accordingly, the present invention has been made to solve the problems of the prior art as described above, by constructing a language information warehouse that provides information in a form that can be reprocessed by separating and storing the electronic document in sentence units and word units The purpose of the present invention is to provide a word database automatic construction apparatus and method for electronic documents.

도 1은 본 발명의 한 실시예에 따른 어절 데이터베이스 자동 구축장치의 구성 블록도,1 is a block diagram of a word database automatic construction device according to an embodiment of the present invention,

도 2는 본 발명의 한 실시예에 따른 어절 데이터베이스 자동 구축방법의 흐름도,2 is a flow chart of a word database automatic construction method according to an embodiment of the present invention;

도 3은 본 발명에 따른 어절 데이터베이스 자료 내용을 도시한 예시도이다.3 is an exemplary diagram showing the contents of word database data according to the present invention.

* 도면의 주요부분에 대한 부호의 설명 *Explanation of symbols on the main parts of the drawings

10 : 정보 관리장치 20 : 인코우더10: information management device 20: encoder

30 : 위치 정보 관리장치 30a : 문장 분리 장치30: location information management device 30a: sentence separation device

30b : 어절 분리장치 30c : 전자화된 문서30b: word separator 30c: electronic document

40 : 빈도 정보 관리장치 50 : 어절 관리장치40: frequency information management device 50: word management device

60 : 분석 정보 관리장치 60a : 형태소 정보 분석장치60: analysis information management device 60a: morphological information analysis device

60b : 태거 정보 부여장치 60c : 형태소 사전 검색장치60b: tagger information providing device 60c: stemming dictionary search device

60d : 어절 구성 규칙 60e : 한국어 형태소 전자사전60d: Rules for the construction of words 60e: Korean morpheme electronic dictionary

상기한 목적을 달성하기 위하여 본 발명의 전자화된 문서의 어절 데이터베이스 자동 구축장치는, 전자화된 문서에서 분리된 문장과 어절의 위치 정보를 보관하는 위치 정보 관리장치와,In order to achieve the above object, a word database automatic construction device of an electronic document of the present invention comprises: a position information management device for storing position information of a sentence and a word separated from the electronic document;

상기 위치 정보 관리장치에 의해 추출된 특정 어절의 출현 빈도와 상기 특정 어절의 좌우 어절 정보를 보관하는 빈도 정보 관리장치,A frequency information management device for storing the appearance frequency of the specific word extracted by the location information management device and the left and right word information of the specific word,

상기 위치 정보 관리장치에 의해 추출된 어절을 형태소 단위로 분리하고 태그 정보를 부여하는 분석 정보 관리장치, 및An analysis information management device that separates words extracted by the location information management device into morpheme units and gives tag information; and

상기 어절의 위치 정보, 빈도 정보, 분석 정보를 데이터베이스 형식으로 구축하고 관리하는 정보 관리장치를 포함한 것을 특징으로 한다.And an information management device for constructing and managing the word location information, frequency information, and analysis information in a database format.

또한, 본 발명에 따른 전자화된 문서의 어절 데이터베이스 자동 구축방법은, 데이터베이스로 구축하고자 하는 전자화된 문서가 입력되는 제1단계,In addition, the automatic word database construction method of the electronic document according to the present invention, the first step of inputting the electronic document to be built into the database,

상기 전자화된 문서를 어절 단위로 분리하여 위치 정보를 구하는 제2단계,A second step of dividing the electronic document into word units to obtain location information;

상기 어절 단위로 분리된 문서에서 특정 어절의 빈도 정보를 구하는 제3단계,A third step of obtaining frequency information of a specific word in the document separated by the word unit,

상기 어절을 구성하는 형태소를 분석하여 분석 정보를 구하는 제4단계, 및A fourth step of analyzing the morphemes constituting the word to obtain analysis information, and

상기 위치 정보, 빈도 정보 및 분석 정보를 이용하여 데이터베이스를 구축하는 제5단계를 포함한 것을 특징으로 한다.And a fifth step of constructing a database using the location information, frequency information, and analysis information.

또한, 본 발명은, 컴퓨터에,In addition, the present invention, in a computer,

데이터베이스로 구축하고자 하는 전자화된 문서가 입력되면, 상기 전자화된 문서를 어절 단위로 분리하여 위치 정보를 구하는 제1단계와,When the electronic document to be built into the database is input, the first step of dividing the electronic document in word units to obtain location information;

상기 어절의 위치 정보를 단순한 숫자 형태의 포인터로 변환시켜 저장하는 제2단계,A second step of converting the location information of the word into a simple numeric pointer and storing the converted location information;

상기 어절 단위로 분리된 문서에서 특정 어절의 빈도 정보를 구하는 제3단계,A third step of obtaining frequency information of a specific word in the document separated by the word unit,

상기 어절을 구성하는 형태소를 분석하여 분석 정보를 구하는 제4단계,A fourth step of obtaining analysis information by analyzing the morphemes constituting the word,

상기 어절의 위치 정보와 빈도 정보를 이용하여 상기 어절의 형태소 분석 정보의 중의성을 해소하는 제5단계, 및A fifth step of eliminating the neutrality of the morphological analysis information of the word using the word position information and the frequency information; and

상기 위치 정보, 빈도 정보 및 분석 정보를 이용하여 데이터베이스를 구축하는 제6단계를 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.A computer-readable recording medium having recorded thereon a program for executing the sixth step of building a database using the location information, frequency information and analysis information is provided.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 설명하면 다음과 같다.Hereinafter, exemplary embodiments of the present invention will be described with reference to the accompanying drawings.

본 발명은 한국어 정보처리를 위한 언어정보웨어하우스 구축을 위한 일부 자료로서, 대규모의 정보 구축을 위한 분리장치, 분석장치, 인코우더, 저장, 관리 장치는 한국어 특성이 가미된 기술이다.The present invention is a part of the language information warehouse for the Korean information processing, the separation device, analysis device, encoder, storage, management device for the construction of large-scale information is a technology with the Korean characteristics.

도 1은 본 발명의 한 실시예에 따른 전자화된 문서의 어절 데이터베이스 자동 구축장치를 도시한 구성 블록도이다.1 is a block diagram illustrating an automatic word database construction apparatus of an electronic document according to an embodiment of the present invention.

도 1을 참조하면, 문장 분리장치(30a)는 대규모의 전자화된 문서로부터 자동 문서 번호를 부여하며, 문서를 문장 단위로 분리하여 고유 번호를 부여한다.Referring to FIG. 1, the sentence separator 30a assigns an automatic document number from a large-scale electronicized document, and divides the document into sentence units and assigns a unique number.

어절 분리장치(30b)는 문장 분리장치(30a)에 의해 분리된 문장을 입력 수단을 통해 입력받아 공백을 중심으로 어절을 분리하고, 어절 단위의 고유 번호를 부여한다.The word separator 30b receives a sentence separated by the sentence separator 30a through an input means, separates a word based on a blank, and assigns a unique number of a word unit.

위치 정보 관리장치(30)는 문장 분리장치(30a)와 어절 분리장치(30b)를 통해 부여받은 어절의 고유번호를 관리하는 장치로서, 어절의 위치 정보가 유일성을 보존할 수 있도록 고유번호를 관리한다. 즉, 한 어절이 나타나는 위치 정보가 어절의 빈도수와 동일하므로 별도의 테이블에 보관하고, 이 테이블을 액세스할 수 있는 고유 번호를 부여하는 것이다.The location information management device 30 is a device for managing the unique number of a word given through the sentence separator 30a and the word separator 30b, and manages the unique number so that the location information of the word preserves uniqueness. do. That is, since the location information where a word appears is the same as the frequency of the word, it is stored in a separate table and assigned a unique number to access this table.

위치 인코우더(20)는 위치 정보 관리장치(30)에 의해 정해진 고유 번호를 인코우딩 기법을 거쳐 특수 번호로 바꾸어 어절이 문서에 나타난 위치 정보를 보관한다.The location encoder 20 converts the unique number determined by the location information management device 30 into a special number through an encoding technique to store the location information indicated by the word in the document.

빈도 부여장치(40)는 대규모 전자화된 문서에 어절이 얼마나 많이 나타났느냐를 알려주는 지수로서, 어절 관리장치(50)에 의해 보관하고 있는 어절 단위의 발생 빈도를 부여하는 장치이다. 단순한 어절의 출현 빈도를 부여하는 것이 아니라 차후 어절의 분석 정보를 부여하기 위해 좌우 어절의 특성을 반영하기 위한 좌우 어절 정보도 같이 보관한다.The frequency assigning device 40 is an index indicating how many words appear in a large-scale electronicized document, and is a device for giving a frequency of occurrence of word units stored by the word managing device 50. Rather than assigning frequency of simple words, the information on left and right words is also kept to reflect the characteristics of left and right words in order to give analysis information of later words.

분석 정보 관리장치(60)는 한국어 형태소 전자사전(60e)과 어절 구성 규칙(60d), 형태소 정보 분석장치(60a)와 태거(tagger) 정보 부여장치(60b), 형태소 사전 검색장치(60c)를 이용해 어절 분리장치(30b)로부터 전달받은 어절을 형태소 단위로 분리하고 태그 정보를 부여하는 장치이다.The analysis information management device 60 uses the Korean morpheme electronic dictionary 60e and the word composition rule 60d, the morpheme information analysis device 60a and the tagger information provision device 60b, and the morpheme dictionary search device 60c. It is a device that separates the word received from the word separator device 30b into morpheme units and gives tag information.

한국어 형태소 전자사전(60e)은 형태소를 표제어 단위로 등록하고, 그 표제어의 품사 정보, 자질 정보를 가진 전자 사전으로서, 변형된 트리 구조 형식으로 저장한다. 이는 한국어의 음절 정보 특성을 이용하여 저장하는 방식으로 사전의 압축율과 검색 속도를 빠르게 하기 위한 방법이다.The Korean morpheme electronic dictionary 60e registers morphemes in headword units, and stores them in a modified tree structure format as electronic dictionaries with parts-of-speech information and feature information of the headwords. This is a method for speeding up compression and retrieval speed of a dictionary by storing using syllable information characteristics of Korean.

어절 구성 규칙(60d)은 정해진 태그(tag) 세트에 의해 한 어절을 구성할 수 있는 어절의 형태소간의 구성 규칙을 기술한 것이다.The word composition rule 60d describes a composition rule between word stems that can form a word by a set of tags.

형태소 정보 분석장치(60d)는 한국어 형태소 전자사전(60e)과 어절 구성 규칙(60d)을 이용하여 형태소에 품사를 부여하는 장치이다.The morpheme information analyzing apparatus 60d is a device that gives parts of speech to morphemes using the Korean morpheme electronic dictionary 60e and the word composition rule 60d.

태거 정보 부여장치(60b)는 형태소 분석장치(60d)에서 부여한 형태소 정보의 중의성을 해소하기 위해 어절 빈도 정보 관리장치(40)와 위치 정보 관리장치(30)에 의해 제공되는 어절의 위치와 빈도 정보를 이용하여 정확한 하나의 결과값을 정하는 장치이다.The tagger information assigning device 60b is a word position and frequency provided by the word frequency information management device 40 and the location information management device 30 to solve the neutrality of the morpheme information given by the morphological analysis device 60d. It is a device that determines the exact result value using information.

정보 관리장치(10)는 인코우더(20), 분석 정보 관리장치(60), 빈도 정보 관리장치(40)를 통해 부여된 각 정보를 어절 단위의 레코드 형식으로 한 데이터베이스로 구축하는 장치이다. 대규모의 전자화된 문서로부터 추출되는 어절과 구축되는 데이터베이스의 크기가 대용량이므로 한국어 음절 특성을 이용하여 저장한다. 저장된 데이터베이스의 검색을 위해 사용되는 주요키는 어절이 된다.The information management apparatus 10 is an apparatus which builds up each information provided through the encoder 20, the analysis information management apparatus 60, and the frequency information management apparatus 40 in the database of the record form of a word unit. Since the words extracted from the large electronic documents and the size of the built database are large, they are stored using Korean syllable characteristics. The primary key used to search a stored database is word.

상기와 같이 구성된 본 발명은, 대량의 한국어 정보처리 언어정보웨어하우스를 구축하기 위한 방법으로서, 대량의 어절 데이터베이스 구축은 한국어 정보 분석이나 정보 검색에 널리 활용 가능하다.The present invention configured as described above is a method for constructing a large amount of Korean information processing language information warehouse, and a large word database construction can be widely used for analyzing Korean information and searching for information.

도 2는 본 발명의 한 실시예에 따른 전자화된 문서의 어절 데이터베이스 자동 구축방법을 도시한 동작 흐름도이다. 데이터베이스 구축 동작은, 구축 종료키가 입력되기 전까지 계속된다(단계 S21). 대규모의 전자화된 문서(30c)가 입력되면, 위치 정보 관리장치(30)는 우선적으로 구축이 필요한 위치 정보에 대한 자료를 구축한다(단계 S23). 즉, 문장 분리장치(30a)와 어절 분리장치(30b)를 이용해 전자화된 문서(30c)를 문장 단위로 분리하고(단계 S24), 각 문장을 어절 단위로 분리한다(단계 S25).2 is a flowchart illustrating a method of automatically constructing a word database of an electronic document according to an embodiment of the present invention. The database building operation continues until a building end key is input (step S21). When the large-scale electronicized document 30c is input, the position information management device 30 first constructs data on the position information that needs to be constructed (step S23). That is, the electronic document 30c is separated into sentence units using the sentence separator 30a and the word separator 30b (step S24), and each sentence is separated into word units (step S25).

다음으로, 빈도 정보 관리장치(40)는 어절 단위의 출현 빈도수를 구한다(단계 S26). 즉, 어절 관리장치(50)를 통해 어절의 출현 빈도를 구한다(단계 S27). 다음으로, 분리된 어절과 그 어절을 중심으로 하는 좌우 어절을 분석 정보 관리장치(60)에 제공하는데(단계 S28), 이 분석 정보 관리장치는 어절 구성 규칙(60d)과 한국어 형태소 전자사전(60e)을 기반으로 형태소 정보 분석장치(60a)와, 태거 정보 부여장치(60b), 및 형태소 사전 검색장치(60c)를 통해 형태소 단위의 분석을 행한다(단계 S29, 단계 S30).Next, the frequency information management device 40 calculates the frequency of appearance in units of words (step S26). That is, the frequency of appearance of the word is calculated through the word management apparatus 50 (step S27). Next, the separated word and the left and right words centered on the word are provided to the analysis information management device 60 (step S28). The analysis information management device includes the word composition rule 60d and the Korean morpheme electronic dictionary 60e. ), The morpheme unit is analyzed through the morpheme information analyzing apparatus 60a, the tagger information providing apparatus 60b, and the morpheme dictionary search apparatus 60c (steps S29 and S30).

최종적으로, 정보 관리 장치(10)는 분석 정보 관리장치(60)에서 구해진 형태소 분석 정보와 위치 정보 관리장치(30)에서 구해진 위치 정보, 및 빈도 정보 관리장치(40)에서 구해진 빈도 정보를 중심으로 테이블 형식의 데이터베이스를 구축한다(단계 S22). 이러한 데이터베이스는 문서의 규모에 상관없이 실시간에 구축이 가능하며, 추가 입력되는 새로운 문서에 대해서도 기존의 데이터베이스에 추가하여 구축할 수 있다.Finally, the information management apparatus 10 focuses on the morphological analysis information obtained by the analysis information management apparatus 60, the position information obtained by the location information management apparatus 30, and the frequency information obtained by the frequency information management apparatus 40. A tabular database is constructed (step S22). This database can be built in real time regardless of the size of the document, and new documents that are added can be added to the existing database.

도 3은 본 발명에 따른 전자화된 문서의 어절 데이터베이스 자동 구축방법 및 장치에 의해 구축되는 언어정보 데이터베이스의 자료 구축 예시도이다.3 is an exemplary diagram illustrating data construction of a language information database constructed by a method and apparatus for automatically constructing a word database of electronic documents according to the present invention.

여기에 저장되는 정보는 어절, 위치 정보, 빈도 정보, 분석 정보로 구성된다. 분야 구분은 인문과학, 사회과학, 자연과학, 공학, 예술, 기타 분야로 구분한다. 여기서, 인문과학은 철학, 심리학, 역학, 종교, 문학, 역사/지리/위인, 언어/어학 분야를 포함하고, 사회과학은 사회학, 민속학, 경제, 경영, 정치, 행정, 국방, 법학, 교육학, 방송 분야를 포함한다. 또한, 자연과학은 수학, 통계학, 물리, 화학, 천문학, 지구과학, 생물학, 동식물학, 해양학, 의학, 약학, 가정학 분야를 포함하고, 공학은 기술공학, 기계, 전기, 전자, 화공학, 토목, 건축공학, 환경학, 도시공학, 농업, 농학, 컴퓨터 분야를 포함한다. 예술은 조각, 공예를 포함한 예술일반, 예술사와 스포츠, 레저, 관광, 오락 분야를 포함한다.The information stored here is composed of words, location information, frequency information, and analysis information. The categories are divided into the humanities, social sciences, natural sciences, engineering, arts, and other fields. Where humanities include philosophy, psychology, mechanics, religion, literature, history / geography / greatness, language / language, and social sciences, sociology, folklore, economics, management, politics, administration, defense, law, pedagogy, It includes the broadcast field. In addition, natural science includes mathematics, statistics, physics, chemistry, astronomy, earth science, biology, fauna and flora, oceanography, medicine, pharmacy, and home sciences. Engineering includes engineering, mechanical, electrical, electronic, chemical, civil, Includes architectural engineering, environmental science, urban engineering, agriculture, agriculture, and computer science. Art includes general arts, including sculpture and crafts, art history and sports, leisure, tourism and entertainment.

여기서, 위치 정보 식별자에 따른 위치 상세 정보는 13자리로 표현되며, 그 의미는 다음과 같다.Here, the location detail information according to the location information identifier is represented by 13 digits, and the meaning thereof is as follows.

즉, 위치 상세 정보의 한 예로서, '98F0110001010'을 분석해보면, 앞의 두자리 숫자 '98'은 문서가 전자화된 연도를 의미하고, 다음 알파벳 'F'는 분야 구분을 표시한다. 여기서, 분야 구분은 인문과학(A), 사회과학(B), 자연과학(C), 공학(D), 예술(E), 기타(F) 등으로 표시된다.That is, as an example of the location detail information, when analyzing '98F0110001010', the first two digits '98' denotes the year in which the document is electronicized, and the next letter 'F' indicates a sector classification. Here, the field division is represented by the humanities (A), social sciences (B), natural sciences (C), engineering (D), art (E), other (F) and the like.

다음, 5자리 숫자 '01,100'은 파일 이름인데, 앞쪽 두 자리는 분야의 내부 구분이고, 나머지 세 자리는 파일 구분 요소이다. 그 다음의 세자리 숫자 '010'은 문장 위치이고, 그 다음의 두 자리 숫자 '10'은 어절 위치이다.Next, the five-digit number '01, 100 'is the file name, the first two digits are the internal divisions of the field, and the remaining three digits are the file division elements. The next three digits '010' are the sentence position, and the next two digits '10' are the word position.

분석 정보의 의미는 형태소 단위로 구분을 하고 표준 태그 정보를 가로 쓰기로 기입하는 방법을 채택한다. 사용한 기호의 의미는 표 1과 같다.The meaning of the analysis information is divided into morphological units, and standard tag information is written horizontally. The meaning of the symbol used is shown in Table 1.

이상과 같이 본 발명에 의하면, 전자화된 문서를 문장 단위와 어절 단위로 분리하여 저장하고, 원문의 위치 정보와 어절에 대한 분석 정보를 고유정보로 보관함으로써, 선행 문서에서 기 분석된 정보를 활용하여 한국어의 완벽한 분석이 가능하도록 하는 언어정보웨어하우스를 구축할 수 있는 효과가 있다.As described above, according to the present invention, the electronic document is stored in a sentence unit and a word unit, and the location information of the original text and the analysis information about the word are stored as unique information, thereby utilizing the information previously analyzed in the preceding document. It is effective to build a language information warehouse that enables complete analysis of Korean language.

Claims (8)

전자화된 문서에서 분리된 문장과 어절의 위치 정보를 보관하는 위치 정보 관리장치와,A location information management device for storing location information of sentences and words separated from the electronic document; 상기 위치 정보 관리장치에 의해 추출된 특정 어절의 출현 빈도와 상기 특정 어절의 좌우 어절 정보를 보관하는 빈도 정보 관리장치,A frequency information management device for storing the appearance frequency of the specific word extracted by the location information management device and the left and right word information of the specific word, 상기 위치 정보 관리장치에 의해 추출된 어절을 형태소 단위로 분리하고 태그 정보를 부여하는 분석 정보 관리장치, 및An analysis information management device that separates words extracted by the location information management device into morpheme units and gives tag information; and 상기 어절의 위치 정보, 빈도 정보, 분석 정보를 데이터베이스 형식으로 구축하고 관리하는 정보 관리장치를 포함한 것을 특징으로 하는 전자화된 문서의 어절 데이터베이스 자동 구축장치.And an information management device for constructing and managing the word location information, frequency information, and analysis information in a database format. 제1항에 있어서, 상기 위치 정보 관리장치에 의해 출력되는 어절의 위치 정보를 인코우딩 기법을 통해 특수번호로 변환하는 인코우더를 더 포함한 것을 특징으로 하는 전자화된 문서의 어절 데이터베이스 자동 구축장치.The word database automatic construction device of electronic document according to claim 1, further comprising an encoder for converting the location information of the word output by the location information management device into a special number through an encoding technique. . 제1항 또는 제2항에 있어서,The method according to claim 1 or 2, 전자화된 문서에 자동 문서번호를 부여하고 상기 문서를 문장 단위로 분리하여 문장 단위의 고유 번호를 부여하는 문장 분리장치와,A sentence separator for assigning an automatic document number to an electronic document and dividing the document into sentence units to give a unique number in sentence units; 상기 문장 분리장치에서 분리된 문장을 입력받아 공백을 중심으로 어절을 분리하여 어절 단위의 고유번호를 부여하고 상기 위치 정보 관리장치로 제공하는 어절 분리장치를 더 포함한 것을 특징으로 하는 전자화된 문서의 어절 데이터베이스 자동 구축장치.The word of the electronic document characterized in that it further comprises a word separation device that receives the separated sentences from the sentence separation device to separate the word centered around the blank, give a unique number of the word unit and provide it to the location information management device. Database auto build device. 제1항 또는 제2항에 있어서,The method according to claim 1 or 2, 형태소를 표제어 단위로 등록하고 상기 표제어의 품사정보와 자질정보를 기록한 한국어 형태소 전자사전과,A Korean morpheme electronic dictionary that registers morphemes by heading unit and records parts of speech information and feature information of the headings, 어절의 형태소간의 구성 규칙 정보가 기록된 어절 구성 규칙,A word composition rule, in which information on the composition rule between word stems is recorded, 상기 한국어 형태소 전자사전과 어절 구성 규칙을 이용하여 형태소에 품사를 부여하는 형태소 정보 분석장치, 및A morpheme information analyzing apparatus for assigning parts of speech to morphemes using the Korean morpheme electronic dictionary and word composition rules; and 상기 위치 정보 관리장치와 빈도 정보 관리장치에 의해 제공되는 어절의 위치 정보와 빈도 정보를 이용하여 하나의 결과값을 정하는 태거 정보 부여장치를 더 포함한 것을 특징으로 하는 전자화된 문서의 어절 데이터베이스 자동 구축장치.Automatically constructing word database of electronic documents, characterized in that it further comprises a tagger information assigning device for determining a result value by using the location information and frequency information of words provided by the location information management device and the frequency information management device. . 데이터베이스로 구축하고자 하는 전자화된 문서가 입력되는 제1단계,A first step of inputting an electronic document to be built into a database; 상기 전자화된 문서를 어절 단위로 분리하여 위치 정보를 구하는 제2단계,A second step of dividing the electronic document into word units to obtain location information; 상기 어절 단위로 분리된 문서에서 특정 어절의 빈도 정보를 구하는 제3단계,A third step of obtaining frequency information of a specific word in the document separated by the word unit, 상기 어절을 구성하는 형태소를 분석하여 분석 정보를 구하는 제4단계, 및A fourth step of analyzing the morphemes constituting the word to obtain analysis information, and 상기 위치 정보, 빈도 정보 및 분석 정보를 이용하여 데이터베이스를 구축하는 제5단계를 포함한 것을 특징으로 하는 전자화된 문서의 어절 데이터베이스 자동 구축방법.And a fifth step of constructing a database using the location information, frequency information, and analysis information. 제5항에 있어서, 상기 제2단계에서 구해진 어절의 위치 정보를 단순한 숫자 형태의 포인터로 변환시켜 저장하는 제6단계를 더 포함한 것을 특징으로 하는 전자화된 문서의 어절 데이터베이스 자동 구축방법.The method of claim 5, further comprising a sixth step of converting and storing the position information of the word obtained in the second step into a simple numeric pointer. 제5항에 있어서, 어절의 위치 정보와 빈도 정보를 이용하여 상기 어절의 형태소 분석 정보의 중의성을 해소하는 제7단계를 더 포함한 것을 특징으로 하는 전자화된 문서의 어절 데이터베이스 자동 구축방법.The method of claim 5, further comprising a seventh step of resolving the neutrality of the morphological analysis information of the word by using the position information and the frequency information of the word. 컴퓨터에,On your computer, 데이터베이스로 구축하고자 하는 전자화된 문서가 입력되면, 상기 전자화된 문서를 어절 단위로 분리하여 위치 정보를 구하는 제1단계와,When the electronic document to be built into the database is input, the first step of dividing the electronic document in word units to obtain location information; 상기 어절의 위치 정보를 단순한 숫자 형태의 포인터로 변환시켜 저장하는 제2단계,A second step of converting the location information of the word into a simple numeric pointer and storing the converted location information; 상기 어절 단위로 분리된 문서에서 특정 어절의 빈도 정보를 구하는 제3단계,A third step of obtaining frequency information of a specific word in the document separated by the word unit, 상기 어절을 구성하는 형태소를 분석하여 분석 정보를 구하는 제4단계,A fourth step of obtaining analysis information by analyzing the morphemes constituting the word, 상기 어절의 위치 정보와 빈도 정보를 이용하여 상기 어절의 형태소 분석 정보의 중의성을 해소하는 제5단계, 및A fifth step of eliminating the neutrality of the morphological analysis information of the word using the word position information and the frequency information; and 상기 위치 정보, 빈도 정보 및 분석 정보를 이용하여 데이터베이스를 구축하는 제6단계를 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium having recorded thereon a program for executing a sixth step of constructing a database using the location information, frequency information, and analysis information.
KR1019980051089A 1998-11-26 1998-11-26 Automatic Word Construction System for Electronic Documents and Method KR100289332B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980051089A KR100289332B1 (en) 1998-11-26 1998-11-26 Automatic Word Construction System for Electronic Documents and Method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980051089A KR100289332B1 (en) 1998-11-26 1998-11-26 Automatic Word Construction System for Electronic Documents and Method

Publications (2)

Publication Number Publication Date
KR20000033994A KR20000033994A (en) 2000-06-15
KR100289332B1 true KR100289332B1 (en) 2001-05-02

Family

ID=19559942

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980051089A KR100289332B1 (en) 1998-11-26 1998-11-26 Automatic Word Construction System for Electronic Documents and Method

Country Status (1)

Country Link
KR (1) KR100289332B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101100848B1 (en) * 2010-04-30 2012-01-02 정규홍 Vocabulary database generating method and vocabulary database storable computer readable medium

Also Published As

Publication number Publication date
KR20000033994A (en) 2000-06-15

Similar Documents

Publication Publication Date Title
KR101465769B1 (en) Dictionary word and phrase determination
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
KR101255557B1 (en) System for string matching based on tokenization and method thereof
US7941310B2 (en) System and method for determining affixes of words
US6620207B1 (en) Method and apparatus for processing chinese teletext
CN110516157B (en) Document retrieval method, document retrieval equipment and storage medium
CN114842982B (en) Knowledge expression method, device and system for medical information system
JP2005242416A (en) Natural language text search method and device
KR100289332B1 (en) Automatic Word Construction System for Electronic Documents and Method
JPH09319767A (en) Synonym dictionary registering method
JP2009271819A (en) Document search system, document search method and document search program
KR100376931B1 (en) A Method of Database System Implementation for Korean-English Translation Using Information Retrieval Techniques
Haspelmath The typological database of the World Atlas of Language Structures
CN112818645A (en) Chemical information extraction method, device, equipment and storage medium
JP3531222B2 (en) Similar character string search device
Ramadani et al. Stemming Algorithm for Indonesian Signaling Systems (SIBI)
KR20020054254A (en) Analysis Method for Korean Morphology using AVL+Trie Structure
JPH05250416A (en) Registering and retrieving device for data base
KR20000063488A (en) The semantic knowledge database automatic construction device on the on-line document, and the method, the record medium for that.
RU2792584C1 (en) Method for organizing the search for documents in applied unstructured data bases and a hardware version of dual memory for its implementation
JP2009181524A (en) Document search system and document search method
JP7361525B2 (en) Term dictionary creation device, term dictionary creation method, and program
JPS6389976A (en) Language analyzer
JP4907927B2 (en) Data display device, data display method, and data display program
Baranov Information-Analytical System" Manuscript": technologies and tools of creation of electronic collections of ancient and medieval documents

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080214

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee