KR20160061448A - Method for extracting unknown word from raw corpus - Google Patents

Method for extracting unknown word from raw corpus Download PDF

Info

Publication number
KR20160061448A
KR20160061448A KR1020140162885A KR20140162885A KR20160061448A KR 20160061448 A KR20160061448 A KR 20160061448A KR 1020140162885 A KR1020140162885 A KR 1020140162885A KR 20140162885 A KR20140162885 A KR 20140162885A KR 20160061448 A KR20160061448 A KR 20160061448A
Authority
KR
South Korea
Prior art keywords
word
unregistered
extracting
words
string
Prior art date
Application number
KR1020140162885A
Other languages
Korean (ko)
Inventor
김운
김영길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140162885A priority Critical patent/KR20160061448A/en
Publication of KR20160061448A publication Critical patent/KR20160061448A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

An embodiment of the present invention relates to a method for extracting unregistered words from a raw corpus. The method for extracting unregistered words according to an embodiment of the present invention comprises the steps: separating the corpus into a chunk unit; recording a word separation location with respect to a character string of the chunk unit based on at least one of a word dictionary, a character string independence information, the existence of a function word and a grammatical rule; extracting an unregistered word candidate based on the recorded word separation location; and extracting the remaining words except the words registered in the word dictionary among the extracted unregistered word candidates as an unregistered word. According to an embodiment of the present invention, it is possible to extract unregistered words consisting of a language without word spacing with a raw corpus alone, without a mass processed language resource.

Description

원시 말뭉치로부터 미등록 단어를 추출하는 방법{Method for extracting unknown word from raw corpus}Method for extracting unknown word from raw corpus [

본 발명의 실시 예들은, 원시 말뭉치로부터 미등록 단어를 추출하는 방법에 관한 것이다.
Embodiments of the present invention are directed to a method for extracting unregistered words from a raw corpus.

미등록 단어 추출 기술은, 자연어 처리 분야에서 중요한 요소 기술이다. 미등록 단어는, 형태소 분석 단계에서 형태소 단위를 결정할 때 중요한 정보로 사용된다. 자동 번역과 같은 자연어 응용 시스템에서는 미등록 단어에 대한 대역어 선정을 통해 번역 품질 성능 향상시키기도 한다. Unregistered word extraction technology is an important element technology in natural language processing field. Unregistered words are used as important information when determining morpheme units in the morpheme analysis stage. In a natural language application system such as automatic translation, the quality of translation quality is improved by selecting a word for an unregistered word.

종래의 미등록 단어 추출 방법에는, 원시 말뭉치로부터 추출된 고빈도 신규 문자열이 단어인지 여부를 언어 학자가 판단하는 방법, 웹 마이닝(web mining)을 통하여 미등록 단어를 추출하는 방법 및 병렬 말뭉치를 이용하여 미등록 단어를 추출하는 방법 등이 있다. The conventional unregistered word extraction method includes a method in which a linguist determines whether a high-frequency new string extracted from a raw corpus is a word, a method of extracting an unregistered word through web mining, and a method of extracting unregistered words using a parallel corpus And how to extract words.

첫 번째 방법은, 신규 문자열을 추출하는 방식에 따라 크게 N그램 방식과 통계적 방식으로 나눌 수 있다. The first method can be largely divided into N-gram and statistical methods according to the method of extracting a new string.

N그램(N-gram) 방식은, 문장을 처음부터 순차적으로 문자 단위로 스캔하면서 임의의 문자로부터 시작되어 2~N개의 문자로 이루어지는 문자열로 각각 각각 분리한 다음, 사전에 없는 문자열들을 고빈도 순으로 정렬하는 방법이다. N그램 방법은 너무 많은 불필요한 신규 문자열을 생성한다. 또한, 고빈도 문자열을 대상으로 미등록 단어 여부를 판별하는데, 많은 인력과 노력이 소요된다. In the N-gram method, a sentence is sequentially scanned in units of characters, separated from each other by a character string consisting of 2 to N characters starting from an arbitrary character, . The N gram method generates too many unnecessary new strings. Also, it takes a lot of manpower and efforts to determine whether or not an unregistered word belongs to a high frequency string.

통계적 방식은, 미리 언어학자에 의해 단어 단위로 분리된 태그드(tagged) 말뭉치를 기계 학습 방법으로 학습하고, 새로운 문장을 미리 학습된 모델로 분리한 다음, 사전에 없는 신규 문자열을 미등록 단어 후보로 간주하고 고빈도 순으로 정렬하는 방법이다. 통계적 방식은, 대량의 태그드된 말뭉치를 필요로 하는데, 이와 같은 태그드 말뭉치를 구축하려면 많은 인력과 비용을 필요로 한다. 또한, 새로운 분야에 적용하려면 그 분야에 적합한 태그드 코퍼스를 구축해야 한다는 번거로움이 있다. In the statistical method, a tagged corpus separated by a linguist in advance by a linguist is learned by a machine learning method, a new sentence is separated into a pre-learned model, and a new string which is not a dictionary is used as an unregistered word candidate And sorting them in order of frequency. The statistical approach requires a large amount of tagged corpus, and building such a tagged corpus requires a lot of manpower and cost. In addition, it is troublesome to construct a tagged corpus suitable for a new field.

두 번째 방법은, 이미 알려져 있는 미등록 단어에 대해 웹 검색을 수행하여, 검색 결과 중 "원시 언어 단어(목적 언어 대역어)"형태의 패턴으로부터 그 원시 언어의 미등록 단어 경계를 추정하여 추출하는 방법이다. 이 방법은, 미등록 단어가 미리 알려져 있어야 하는 문제점이 있다. 또한 대량의 웹 문서에 대한 수집과 텍스트 처리가 필요하다. The second method is a method of extracting an unregistered word boundary of a source language from a pattern of a form of a " source language word (target language) "in the search result by performing a web search on an already known unknown word. This method has a problem that an unregistered word must be known in advance. It also requires the collection and text processing of large amounts of Web documents.

세 번째 방법은, 원시 언어 문장과 이에 대응되는 대역문으로 이루어진 병렬 말뭉치를 이용하여 목적 언어가 단어 단위로 구분되어 있다면, 그 단어에 대응되는 원시 언어 단어의 경계를 추정하는 방법이다. 이 때 추정된 문자열이 사전에 등록되어 있지 않을 경우 미등록 단어 후보로 간주하고 추출한다. 이 방법을 적용하려면 목적 언어 문장의 단어 단위가 잘 구분된 언어이어야 하며, 목적 언어 단어에 대응하는 원시 언어 단어의 경계를 구분하는 성능이 좋아야 한다.  The third method is a method of estimating the boundary of a primitive language word corresponding to a target language if the target language is divided into words using a parallel corpus consisting of a source language sentence and a corresponding band sentence. At this time, if the estimated string is not registered in advance, it is regarded as an unregistered word candidate and extracted. In order to apply this method, the word units of the target language sentence must be well-delimited, and the performance of distinguishing the boundaries of the source language words corresponding to the target language words should be good.

한편, 중국어 및 일본어 등의 띄어쓰기가 없는 언어에서는, 단어 간 경계가 모호하기 때문에, 해당 언어로 된 문장을 단어 단위로 분리하기가 쉽지 않다.
On the other hand, in a language without a space such as Chinese and Japanese, since the boundary between words is ambiguous, it is not easy to separate sentences in the language into words.

본 발명의 실시 예들은, 띄어쓰기가 없는 언어로 이루어진 말뭉치로부터 미등록 단어를 효과적으로 추출하는 방안을 제공한다.
Embodiments of the present invention provide a method for effectively extracting unregistered words from a corpus made up of a language without spaces.

본 발명의 일 실시 예에 따른 미등록 단어 추출 방법은, 말뭉치를 청크 단위로 분리하는 단계; 단어 사전, 문자열 독립성 정보, 기능어 여부 및 문법 규칙 중 적어도 하나를 기반으로, 상기 청크 단위의 문자열에 대하여 단어 분리 위치를 기록하는 단계; 상기 기록된 단어 분리 위치를 기반으로 미등록 단어 후보를 추출하는 단계; 및 상기 추출된 미등록 단어 후보 중 상기 단어 사전에 등록된 단어를 제외한 나머지 단어를 미등록 단어로서 추출하는 단계를 포함한다.
The method of extracting unregistered words according to an embodiment of the present invention includes: separating a corpus into chunk units; Writing a word separation position for a character string of the chunk unit based on at least one of a word dictionary, string independence information, functional word presence, and grammar rules; Extracting an unregistered word candidate based on the recorded word separation position; And extracting, as unregistered words, words other than the words registered in the word dictionary, out of the extracted unregistered word candidates.

본 발명의 실시 예들에 따르면, 대량의 가공된 언어 자원 없이, 띄어쓰기가 없는 언어로 이루어진 원시 말뭉치만으로 용이하게 미등록 단어를 추출할 수 있다.
According to embodiments of the present invention, it is possible to easily extract unregistered words with only a raw corpus made up of languages without a large number of processed language resources.

도 1은 본 발명의 일 실시 예에 따른 미등록 단어 추출 방법을 설명하기 위한 흐름도,
도 2는 본 발명의 일 실시 예에 따른 문자열 분리 방법을 설명하기 위한 예시도,
도 3은 본 발명의 일 실시 예에 따른 미등록 단어 추출 장치를 설명하기 위한 블록도.
1 is a flowchart for explaining an unregistered word extracting method according to an embodiment of the present invention;
FIG. 2 is an exemplary diagram for explaining a character string separation method according to an embodiment of the present invention. FIG.
FIG. 3 is a block diagram for explaining an unregistered word extracting apparatus according to an embodiment of the present invention; FIG.

이하에서, 본 발명의 실시 예들을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
In the following description of the embodiments of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear.

본 발명의 실시 예들은, 띄어쓰기가 없는 언어의 원시 말뭉치(raw corpus)로부터 미등록 단어를 추출하는 방안을 제공한다. Embodiments of the present invention provide a method for extracting unregistered words from a raw corpus of a non-spaced language.

본 발명의 실시 예들을 설명함에 있어, 띄어쓰기가 없는 언어로서 중국어를 예를 들어 설명하나, 본 발명의 실시 예들은 띄어쓰기가 없는 다른 언어들, 예를 들어 일본어에 적용될 수도 있다.
In describing the embodiments of the present invention, Chinese is used as a language without a space, but embodiments of the present invention may be applied to other languages that do not have a space, for example Japanese.

이하, 첨부되는 도면을 참조하여 본 발명의 실시 예들을 설명한다.
Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings.

도 1은 본 발명의 일 실시 예에 따른 미등록 단어 추출 방법을 설명하기 위한 흐름도이다.
1 is a flowchart illustrating an unregistered word extraction method according to an embodiment of the present invention.

단계(101)에서, 미등록 단어 추출 장치는, 원시 말뭉치를 입력받고, 입력된 원시 말뭉치를 청크(chunk) 단위로 분리한다. 청크는, 하나의 문장에 해당하는 문자열이거나, 다수의 문자를 포함하는 문자열일 수 있다. In step 101, the unregistered word extracting apparatus receives a raw corpus and separates the inputted raw corpus in units of chunks. The chunk may be a string corresponding to one sentence or a string including a plurality of characters.

청크 단위로의 분리를 위하여, 미등록 단어 추출 장치는, 문자 단위의 인코딩 식별 처리를 수행할 수 있다. For separation into chunk units, the unregistered word extraction device can perform character-based encoding identification processing.

즉, 미등록 단어 추출 장치는, 각 문자가 어떠한 언어에 해당하는지 판별하거나, 각 문자(이하, 기호 및 숫자를 포함하는 의미로 사용한다)가 기호인지 또는 숫자인지 여부 등을 판별할 수 있다. That is, the unregistered word extracting apparatus can discriminate which language each character corresponds to, or whether each character (hereinafter, used as a meaning including symbols and numbers) is a symbol or a number.

예를 들어, 원시 말뭉치가 중국어인 경우, 미등록 단어 추출 장치는, 한국어나 일본어 등의 인코딩 문자는 삭제하는 등의 필터링을 수행할 수 있다. 그리고, 중국어 텍스트 처리가 가능한 문자, 예를 들어 중국어 한자, 기호, 숫자 및 영어 문자 등은 필터링하지 않을 수 있다. 또한, 후속 처리의 편리를 위해, 1 바이트 문자는 2바이트 문자로 변환할 수 있다. For example, when the raw corpus is Chinese, the unregistered word extraction device can perform filtering such as deleting encoded characters such as Korean and Japanese. In addition, characters that can handle Chinese text, such as Chinese characters, symbols, numbers, and English characters, may not be filtered. Also, for convenience of subsequent processing, a single-byte character can be converted to a double-byte character.

그리고, 미등록 단어 추출 장치는, 특정 문자, 예를 들어 기호 또는 숫자를 기준으로 원시 말뭉치를 청크 단위로 분리할 수 있다. 예를 들어, 원시 말뭉치에 "眞奇怪,這塊手表的市場价格的確是

Figure pat00001
便宜..."라는 문자열이 있는 경우, 미등록 단어 추출 장치는, 도 2의 (a) 단계에 도시된 바와 같이, 해당 문자열을 기호들(",", "..."을 기준으로 두 개의 청크 단위로 분리할 수 있다.
And, the unregistered word extracting device can separate the raw corpus into chunks based on a specific character, for example, a symbol or a number. For example, in the raw corpus, "眞 奇怪,
Figure pat00001
Quot ;, "... ", the unregistered word extracting device extracts the corresponding character string from two or more characters (e.g.," Can be separated into chunks.

단계(103)에서, 미등록 단어 추출 장치는, 단어 사전(342)을 참조하여 청크 단위로 분리된 문자열에 대하여, 단어 분리 위치 기록을 수행한다. In step 103, the unregistered word extraction device refers to the word dictionary 342 and performs word-segmentation position recording on the character string separated in chunk units.

단어 사전(342)은, 중국어에서 흔히 사용되는 고빈도 단어들을 포함하는 사전일 수 있다. 만약, 단어 사전(342)에 "的確"라는 단어가 등록되어 있다고 가정하면, 미등록 단어 추출 장치는, 도 2의 (b) 단계에 도시된 바와 같이, "的確"라는 단어에 대한 분리 위치를 기록할 수 있다.
The word dictionary 342 may be a dictionary containing high frequency words commonly used in Chinese. Assuming that the word "Precise" is registered in the word dictionary 342, the unregistered word extraction device records the separation position for the word "Precision ", as shown in step (b) can do.

단계(105)에서, 미등록 단어 추출 장치는, 문자열 독립성 정보(344) 및 기능어 여부를 기반으로, 단어 분리 위치 기록을 수행한다. In step 105, the unregistered word extracting device performs word-separated position recording based on the character string independence information 344 and whether or not the word is a functional word.

먼저, 미등록 단어 추출 장치는, 청크 단위로 분리된 문자열에 기능어가 포함되어 있는지 확인하고, 해당 기능어를 기준으로 단어 분리 위치 기록을 수행할 수 있다. 예를 들어, 미등록 단어 추출 장치는, 도 2의 (c) 단계에 도시된 바와 같이, 청크 단위로 분리된 문자열에 포함된 기능어들(這, 的, 是,

Figure pat00002
)을 기준으로 단어 분리 위치를 기록할 수 있다. First, the unregistered word extraction device can check whether or not a functional word is included in a character string separated by a chunk unit, and perform word-based positional recording based on the functional word. For example, as shown in step (c) of FIG. 2, the unregistered word extracting apparatus extracts functional words (這, 的, 是,
Figure pat00002
) Can be recorded.

한편, 문자열 독립성이 있다는 것은, 예를 들어, 문자열의 시작과 끝에 명백한 경계가 있거나, 문자열의 시작과 끝을 명백히 구분할 수 있다는 것을 의미할 수 있다. On the other hand, having string independence can mean, for example, that there is a clear boundary between the beginning and end of a string, or that the beginning and end of a string can be clearly distinguished.

예를 들어, 문장의 시작 부분은, 문자열의 시작점이라 볼 수 있고, 해당 문자열의 시작점이 명백히 구분된다고 할 수 있다. 한편, 문자열의 끝 다음에 숫자 또는 기능어 등이 인접할 경우, 해당 숫자 또는 기능어 이전에 위치하는 문자는 해당 문자열의 끝점이라 볼 수 있고, 해당 문자열의 끝점이 명백히 구분된다고 할 수 있다. 만약, 해당 문자열의 시작점과 끝점이 명백히 구분된다면, 해당 문자열은 문자열 독립성을 갖는다고 할 수 있다. For example, the beginning of a sentence can be thought of as the starting point of a string, and the starting point of the string is clearly identified. On the other hand, if a number or function word is adjacent to the end of the string, the character preceding the corresponding number or function word can be regarded as the end point of the corresponding string, and the end point of the corresponding string is clearly distinguished. If the starting and ending points of the string are clearly distinguished, the string can be said to have string independence.

문자열 독립성 정보(344)는, 임의의 말뭉치를 기반으로 미리 구축되어 있을 수 있다. 도 2에는 일 예로서, "市場", "市場价", "价格" 및 "市場价格"이라는 문자열에 대한 문자열 독립성 정보(344)가 구축된 예를 도시하였다. The string independence information 344 may be constructed in advance based on an arbitrary corpus. In FIG. 2, as an example, string independence information 344 for a string of "market", "market value", "value" and "market value" is constructed.

미등록 단어 추출 장치는, 문자열 독립성 정보(344)를 참조하여 문자열 독립성이 있는 단어의 분리 위치를 기록할 수 있다. 도 2의 (c) 단계에는, "市場价格"이라는 문자열이 "市場", "市場价" 및 "市場价格"이라는 문자열로 분리될 수 있음을 도시하였다.
The unregistered word extracting device can record the separation position of a word having string independence by referring to the string independence information 344. [ Step (c) of FIG. 2 shows that the string "market value" can be divided into a string of "market", "market value" and "market value".

단계(107)에서, 미등록 단어 추출 장치는, 문법 규칙을 기반으로 단어 분리 위치 기록을 수행한다. In step 107, the unregistered word extraction device performs word segmentation location recording based on grammar rules.

문법 규칙이란, 예를 들어, 해당 언어에서 흔히 나타나는 문장 규칙을 의미할 수 있다. 예를 들어, 중국어에서는, "전치사+양사", "접속사+문자열", "수사+양사", "양사+명사" 및 "부사+용언" 등의 문장 규칙이 흔히 나타난다. 미등록 단어 추출 장치는, 이러한 문법 규칙을 기반으로 단어 분리 위치를 기록할 수 있다. A grammar rule can mean, for example, a sentence rule that is common in the language. For example, in Chinese, sentence rules such as "preposition + two", "conjunction + string", "investigation + two", "two + noun" and "adverb + verb" often appear. The unregistered word extraction device can record the word separation position based on the grammar rule.

예를 들어, 문자열 "眞奇怪"에서 "眞"는 부사이므로 "부사+용언" 규칙이 적용될 수 있고, 문자열 "塊手表"에서, "塊"는 양사이므로 "양사+명사" 규칙이 적용될 수 있다. 따라서, 미등록 단어 추출 장치는, 도 2의 (d) 단계에 도시된 바와 같이, "眞"라는 부사 이후에 분리 위치를 기록하고, "塊"라는 양사 이후에 분리 위치를 기록할 수 있다.
For example, in the string "眞 奇怪", "true" is an adverb, so the "adverb + verb" rule can be applied, and in the string "chunk table" . Thus, the unregistered word extracting apparatus can record the separation position after the adverbial "true" and record the separation position after the two words "chunk", as shown in step (d) of FIG.

단계(109)에서, 미등록 단어 추출 장치는, 기록된 단어 분리 위치를 기반으로 미등록 단어 후보를 추출한다. In step 109, the unregistered word extraction device extracts unregistered word candidates based on the recorded word separation position.

미등록 단어 추출 장치는, 2문자 이상을 포함하는 문자열을 대상으로 미등록 단어 후보를 추출할 수 있다. 도 2의 (e) 단계에는, 2문자 이상을 포함하는 문자열들("奇怪", "手表", "市場", "市場价", "市場价格", "价格", "的確" 및 "便宜")이 미등록 단어 후보로서 추출된 예를 도시하였다. The unregistered word extracting apparatus can extract unregistered word candidates by targeting a string including two or more characters. In step (e) of FIG. 2, a character string including two or more characters ("bizarre", "table", "market", "market value", "market value", " ") Is extracted as an unregistered word candidate.

한편, 미등록 단어 후보를 추출함에 있어 최장일치 기법이 적용될 수 있다. 예를 들어, "市場价格"이라는 문자열은, 제 1 후보 문자열 조합("市場" + "价格"), 제 2 후보 문자열 조합("市場价" + "格") 및 제 3 후보 문자열("市場价格")을 가질 수 있다. 최장일치 기법에 의할 때, 각각의 후보 문자열 또는 후보 문자열 조합에 포함되는 단어들의 길이를 곱한 값 중 가장 큰 값을 갖는 후보가 선택된다. 위 예에서, 제 1 후보 문자열 조합은 4(2ⅹ2)의 값을 갖고, 제 2 후보 문자열 조합은 3(3ⅹ1)의 값을 갖고, 제 3 후보 문자열은 4(4ⅹ1)의 값을 갖는다. 따라서, 제 1 후보 문자열 조합과 제 3 후보 문자열이 가장 큰 값(4)을 가지며, 이 중에서 복합어 조합에 해당하는 제 3 후보 문자열은 탈락된다. 결과적으로, "市場价格"이라는 문자열은, "市場" + "价格"으로 분리될 수 있다. On the other hand, the longest matching technique can be applied to extract unregistered word candidates. For example, the string "market value" may be a combination of a first candidate string combination ("market" + "value"), a second candidate string combination ("market value" Quot;). ≪ / RTI > According to the longest matching technique, a candidate having the largest value among values obtained by multiplying the lengths of words included in each candidate string or candidate string combination is selected. In the above example, the first candidate character string combination has a value of 4 (2 x 2), the second candidate character string combination has a value of 3 (3 x 1), and the third candidate character string has a value of 4 (4 x 1). Therefore, the first candidate character string combination and the third candidate character string have the largest value (4), and the third candidate character string corresponding to the compound word combination is eliminated. As a result, the string "market value" can be divided into "market" + "price".

결과적으로, 단계(109)에서, "奇怪", "手表", "市場", "价格", "的確" 및 "便宜"라는 문자열이 미등록 단어 후보로서 추출된다.
As a result, in step 109, the strings "bizarre "," table "," market ","price","

단계(111)에서, 미등록 단어 추출 장치는, 추출된 미등록 단어 후보들 중 사전에 등록되지 않은 단어를 미등록 단어로서 추출한다. In step 111, the unregistered word extraction device extracts, as unregistered words, words not registered in the dictionary among the extracted unregistered word candidates.

전술한 예에서, "的確"이라는 단어는 사전에 등록되어 있으므로, "奇怪", "手表", "市場", "价格" 및 "便宜"이라는 문자열이 미등록 단어로서 추출된다.
In the above example, since the word "accuracy" is registered in advance, the strings "bizarre "," market "," value ", and "convenience"

도 3은 본 발명의 일 실시 예에 따른 미등록 단어 추출 장치를 설명하기 위한 블록도이다. 3 is a block diagram for explaining an unregistered word extracting apparatus according to an embodiment of the present invention.

도 3을 참조하면, 본 발명의 일 실시 예에 따른 미등록 단어 추출 장치는, 말뭉치 전처리부(310), 문자열 추출부(320), 단어 추출부(330) 및 메모리부(340)를 포함한다. 실시 예에 따라, 전술한 구성 요소 중 적어도 하나는 생략될 수 있다.
3, the apparatus for extracting unregistered words according to an embodiment of the present invention includes a corpus preprocessing unit 310, a character extraction unit 320, a word extraction unit 330, and a memory unit 340. Depending on the embodiment, at least one of the aforementioned components may be omitted.

말뭉치 전처리부(310)는, 띄어쓰기가 없는 언어로 이루어진 원시 말뭉치를 청크 단위로 분리한다. 말뭉치 전처리부(310)는, 인코딩 식별 처리를 수행하여, 중국어 텍스트 처리가 가능한 문자들을 제외한 나머지 문자들을 필터링할 수 있다.
The corpus preprocessing unit 310 separates a raw corpus made up of a language without a space into chunks. The corpus-preprocessing unit 310 may perform encoding identification processing to filter remaining characters excluding characters capable of processing Chinese text.

미등록 단어 후보 추출부(320)는, 단어 사전, 문자열 독립성 정보, 기능어 여부 및 문법 규칙을 기반으로 청크 단위의 문자열에 대한 단어 분리 위치 기록을 수행할 수 있다. 그리고, 미등록 단어 후보 추출부(320)는, 기록된 단어 분리 위치를 기반으로 미등록 단어 후보를 추출한다. 이 때, 미등록 단어 후보 추출부(320)는, 하나의 문자열에서 동일한 문자를 공유하는 여러 미등록 단어 후보가 추출될 수 있는 경우, 해당 문자열에 최장일치 기법을 적용할 수 있다.
The unregistered word candidate extracting unit 320 may perform word segmentation of a character string of a chunk unit based on a word dictionary, character string independence information, whether or not a functional word exists, and a grammar rule. Then, the unregistered word candidate extracting unit 320 extracts unregistered word candidates based on the recorded word separation position. At this time, if many unregistered word candidates sharing the same character in one character string can be extracted, the unregistered word candidate extracting unit 320 can apply the longest matching technique to the corresponding character string.

미등록 단어 추출부(330)는, 미등록 단어 후보 추출부(320)에서 추출된 미등록 단어 후보들 중에서 미등록 단어를 추출한다. 이 때, 미등록 단어 추출부(330)는, 미등록 단어 후보들 중 단어 사전에 등록된 단어를 제외한 나머지 단어를 미등록 단어 후보로서 추출할 수 있다.
The unregistered word extracting unit 330 extracts an unregistered word among the unregistered word candidates extracted by the unregistered word candidate extracting unit 320. At this time, the unregistered word extracting unit 330 can extract, as unregistered word candidates, the remaining words other than the words registered in the word dictionary, among the unregistered word candidates.

메모리부(340)는, 단어 사전 및 문자열 독립성 정보를 저장할 수 있다.
The memory unit 340 may store word dictionary and string independence information.

이상에서 설명된 본 발명의 실시 예들은 임의의 다양한 방법으로 구현될 수 있다. 예를 들어, 본 발명의 실시 예들은 하드웨어, 소프트웨어 또는 그 조합을 이용하여 구현될 수 있다. 소프트웨어로 구현되는 경우에, 다양한 운영 체제 또는 플랫폼을 이용하는 하나 이상의 프로세서 상에서 실행되는 소프트웨어로서 구현될 수 있다. 추가적으로, 그러한 소프트웨어는 다수의 적합한 프로그래밍 언어들 중에서 임의의 것을 사용하여 작성될 수 있고, 또한 프레임워크 또는 가상 머신에서 실행 가능한 기계어 코드 또는 중간 코드로 컴파일 될 수 있다. The embodiments of the invention described above may be implemented in any of a variety of ways. For example, embodiments of the present invention may be implemented using hardware, software, or a combination thereof. When implemented in software, it may be implemented as software running on one or more processors using various operating systems or platforms. Additionally, such software may be written using any of a number of suitable programming languages, and may also be compiled into machine code or intermediate code executable in a framework or virtual machine.

또한, 본 발명의 실시 예들이 하나 이상의 프로세서 상에서 실행되는 경우 이상에서 논의된 본 발명의 다양한 실시 예들을 구현하는 방법을 수행하기 위한 하나 이상의 프로그램이 기록된 프로세서 판독 가능 매체(예를 들어, 메모리, 플로피 디스크, 하드 디스크, 콤팩트 디스크, 광학 디스크 또는 자기 테이프 등)로 구현될 수 있다. Also, when embodiments of the present invention are implemented on one or more processors, one or more programs for carrying out the methods of implementing the various embodiments of the invention discussed above may be stored on a processor readable medium (e.g., memory, A floppy disk, a hard disk, a compact disk, an optical disk, a magnetic tape, or the like).

Claims (1)

말뭉치를 청크 단위로 분리하는 단계;
단어 사전, 문자열 독립성 정보, 기능어 여부 및 문법 규칙 중 적어도 하나를 기반으로, 상기 청크 단위의 문자열에 대하여 단어 분리 위치를 기록하는 단계;
상기 기록된 단어 분리 위치를 기반으로 미등록 단어 후보를 추출하는 단계; 및
상기 추출된 미등록 단어 후보 중 상기 단어 사전에 등록된 단어를 제외한 나머지 단어를 미등록 단어로서 추출하는 단계
를 포함하는 미등록 단어 추출 방법.
Separating the corpus into chunks;
Writing a word separation position for a character string of the chunk unit based on at least one of a word dictionary, string independence information, functional word presence, and grammar rules;
Extracting an unregistered word candidate based on the recorded word separation position; And
Extracting, as unregistered words, the remaining words other than the words registered in the word dictionary, out of the extracted unregistered word candidates
And extracting an unregistered word.
KR1020140162885A 2014-11-20 2014-11-20 Method for extracting unknown word from raw corpus KR20160061448A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140162885A KR20160061448A (en) 2014-11-20 2014-11-20 Method for extracting unknown word from raw corpus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140162885A KR20160061448A (en) 2014-11-20 2014-11-20 Method for extracting unknown word from raw corpus

Publications (1)

Publication Number Publication Date
KR20160061448A true KR20160061448A (en) 2016-06-01

Family

ID=56138021

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140162885A KR20160061448A (en) 2014-11-20 2014-11-20 Method for extracting unknown word from raw corpus

Country Status (1)

Country Link
KR (1) KR20160061448A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210071628A (en) * 2019-12-06 2021-06-16 주식회사 엘지유플러스 Apparatus and Method for construction of Acronym Dictionary

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210071628A (en) * 2019-12-06 2021-06-16 주식회사 엘지유플러스 Apparatus and Method for construction of Acronym Dictionary

Similar Documents

Publication Publication Date Title
Roark et al. Processing South Asian languages written in the Latin script: the Dakshina dataset
Nelken et al. Arabic diacritization using weighted finite-state transducers
Hamed et al. Building a first language model for code-switch Arabic-English
WO2017177809A1 (en) Word segmentation method and system for language text
WO2005059771A1 (en) Translation judgment device, method, and program
CN107577663B (en) Key phrase extraction method and device
JP2007257644A (en) Program, method and device for acquiring translation word based on translation word candidate character string prediction
TWI656450B (en) Method and system for extracting knowledge from Chinese corpus
CN111539229A (en) Neural machine translation model training method, neural machine translation method and device
JP2007241764A (en) Syntax analysis program, syntax analysis method, syntax analysis device, and computer readable recording medium recorded with syntax analysis program
Saharia et al. Analysis and evaluation of stemming algorithms: a case study with Assamese
Lindén A probabilistic model for guessing base forms of new words by analogy
Ma et al. Letter sequence labeling for compound splitting
KR20160061448A (en) Method for extracting unknown word from raw corpus
US9336197B2 (en) Language recognition based on vocabulary lists
JP4401269B2 (en) Parallel translation judgment device and program
WO2014114117A1 (en) Language recognition based on vocabulary lists
KR100617317B1 (en) Method for re-analysis of compound noun to decide lexical entries and apparatus thereof
JP5795302B2 (en) Morphological analyzer, method, and program
CN108694229B (en) String data analysis device and string data analysis method
US20070078644A1 (en) Detecting segmentation errors in an annotated corpus
KR100910275B1 (en) Method and apparatus for automatic extraction of transliteration pairs in dual language documents
Elsherif et al. Arabic Rule-based Named Entity Recognition System Using GATE.
JP2011180687A (en) Multilingual document analysis device
JP2010176285A (en) Unknown word registration method, device and program, and computer readable recording medium

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination