KR101544690B1 - Word division device, word division method, and word division program - Google Patents
Word division device, word division method, and word division program Download PDFInfo
- Publication number
- KR101544690B1 KR101544690B1 KR1020157004668A KR20157004668A KR101544690B1 KR 101544690 B1 KR101544690 B1 KR 101544690B1 KR 1020157004668 A KR1020157004668 A KR 1020157004668A KR 20157004668 A KR20157004668 A KR 20157004668A KR 101544690 B1 KR101544690 B1 KR 101544690B1
- Authority
- KR
- South Korea
- Prior art keywords
- word
- word candidate
- string
- character
- unit
- Prior art date
Links
Images
Classifications
-
- G06F17/27—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
일 실시 형태에 따른 단어 분할 장치는, 접수부, 분할부, 문자 변환부, 산출부 및 출력부를 구비한다. 접수부는 원시 언어로 기술된 입력 문자열을 접수한다. 분할부는 입력 문자열을 1 이상의 단어 후보로 분할하는 처리를 복수의 분할 패턴을 사용해서 실행함으로써, 복수 종류의 단어 후보열을 취득한다. 문자 변환부는, 각 단어 후보열 내의 각 단어 후보를 번역 언어로 문자 변환한다. 산출부는 번역 언어의 코퍼스를 참조하여, 문자 변환된 각 단어 후보열의 타당성을 스코어로서 구한다. 출력부는 스코어에 기초해서 선택한 단어 후보열을 출력한다. The word dividing apparatus according to an embodiment includes a receiving unit, a dividing unit, a character converting unit, a calculating unit, and an output unit. The receiving unit accepts input strings described in the native language. The dividing unit executes a process of dividing the input string into one or more word candidates by using a plurality of division patterns, thereby acquiring a plurality of kinds of word candidate sequences. The character conversion unit character-converts each word candidate in each word candidate column into a translation language. The calculating unit refers to the corpus of the translation language and obtains the validity of each character candidate string as a score. The output unit outputs the selected word candidate sequence based on the score.
Description
본 발명의 일 측면은, 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램에 관한 것이다. One aspect of the present invention relates to a word dividing device, a word dividing method, and a word dividing program.
일본어나 중국어 등의 띄어쓰기 되지 않는 언어에 있어서, 단어 분할은 중요한 처리의 하나이다. 단어 분할의 결과는, 검색 처리를 위한 인덱스 부여나, 자동 번역 등의 각종의 응용에 사용되므로, 정확한 단어 분할이 요망된다. Word splitting is one of the important processes in languages such as Japanese and Chinese that are not spatially separated. The result of the word segmentation is used for various applications such as indexing for search processing and automatic translation, so accurate word segmentation is desired.
일례로서, 영어의 「scorched red」에 상당하는 일본어의 「スコ―チドレッド(suko-chidoreddo)」는, 그 의미에서 볼 때 「スコ―チド(suko-chido)」와 「レッド(reddo)」로 나뉘어지는 것이 정답이다. 그러나, 이것이 「スコ―チ(suko-chi)」와 「ドレッド(doreddo)」로 단어 분할되어 버리면, 「スコ―チドレッド(suko-chidoreddo)」를 포함하는 문서가 키워드 「レッド(reddo)」에서는 검색되지 않고 키워드 「ドレッド(doreddo)」에 의해 검색되어 버린다고 하는 문제가 생긴다. As an example, Japanese "suko-chidoreddo", equivalent to "scorched red" in English, is divided into "suko-chido" and "reddo" The correct answer is to lose. However, if this is word-segmented into "suko-chi" and "doreddo", the document containing "suko-chidoreddo" is retrieved from the keyword "reddo" And the keyword "doreddo" is searched for.
이와 같이 정확한 단어 분할이 요망되는 것이지만, 이것이 곤란한 경우가 있다. 일례로서, 일본어 표현에 있어서 카타카나만으로 표현된 복합어(예를 들어, 다른 언어로부터 문자 변환된 복합어)는 공백이나 중점 등에 의해 구획되지 않는 경우가 많으므로, 이와 같은 단어를 컴퓨터가 정확하게 분할하는 것은 어렵다. Such accurate word segmentation is desired, but this may be difficult. As an example, it is difficult for a computer to divide such a word correctly because a compound word expressed in katakana alone (for example, a compound word converted from another language) in Japanese expression is often not divided by a space or an emphasis .
이 단어 분할에 관해서, 하기 비특허문헌 1에는, 단어 단위에서의 원시 언어(source language)와 문자 변환의 대응 관계를 나타내는 문자 변환쌍이 명기된 텍스트로부터 그 문자 변환쌍을 자동 추출함으로써 단어 대응짓기 문자 변환쌍을 얻고, 이 단어 대응짓기 문자 변환쌍을 사용해서 단어 분할을 실행하는 기술이 기재되어 있다. 이 방법에서는, 예를 들어 "ジャンクフ―ド(junk food)"["jankufu-do(junk food)"]라고 하는 괄호 표현을 사용해서 기재되어 있는 문자 변환쌍이 텍스트로부터 추출되어, "ジャンクフ―ド(jankufu-do)"라고 하는 일본어 표현이 "ジャンク(janku)"와 "フ―ド(fu-do)"라고 하는 2개의 일본어 단어로 분할된다. Regarding this word segmentation, Non-Patent
[비특허문헌][Non-Patent Document]
[비특허문헌 1] Kaji, N. and Kitsuregawa, M., "Splitting noun compounds via monolingual and bilingualparaphrasing: A study on japanese katakan a words,"Proceedings of the 2011Conference on Empirical Methods in Natural Language Processing, 2011, pages 959-969. [Non-Patent Document 1] Kaji, N. and Kitsuregawa, M., "Splitting noun compounds via monolingual and bilingual paraphrasing: A study on japanese katakan a words," Proceedings of the 2011 Conference on Natural Language Processing, 2011, pages 959 -969.
그러나, 상기 비특허문헌 1에 기재된 방법은, 원어와 그 문자 변환이 병기된 텍스트의 존재를 전제로 하고 있으므로, 어느 텍스트에도 문자 변환쌍이 명기되어 있지 않은 문자열의 분할에 대응할 수 없고, 따라서 그 활용의 장면이 한정된다. 따라서, 문자 변환쌍이 텍스트 내에 명기되어 있지 않아도 다양한 복합어를 단어 분할하는 것이 요청되어 있다. However, since the method described in the above
본 발명의 일 측면에 관한 단어 분할 장치는, 원시 언어로 기술된 입력 문자열을 접수하는 접수부와, 입력 문자열을 1 이상의 단어 후보로 분할하는 처리를 복수의 분할 패턴을 사용해서 실행함으로써, 복수 종류의 단어 후보열을 취득하는 분할부와, 각 단어 후보열 내의 각 단어 후보를 번역 언어로 문자 변환하는 문자 변환부와, 번역 언어의 코퍼스를 참조하여, 문자 변환된 각 단어 후보열의 타당성을 스코어로서 구하는 산출부와, 스코어에 기초해서 선택한 단어 후보열을 출력하는 출력부를 구비한다. A word dividing device according to one aspect of the present invention includes a receiving unit for receiving an input character string described in a source language and a process for dividing an input character string into one or more word candidates by using a plurality of divided patterns, A character conversion unit for converting each word candidate in each word candidate column into a translation language; and a validity determination unit for determining, as a score, the validity of each word candidate string that is converted by referring to the corpus of the translation language And an output unit for outputting a word candidate sequence selected based on the score.
본 발명의 일 측면에 관한 단어 분할 방법은, 단어 분할 장치에 의해 실행되는 단어 분할 방법으로서, 원시 언어로 기술된 입력 문자열을 접수하는 접수 스텝과, 입력 문자열을 1 이상의 단어 후보로 분할하는 처리를 복수의 분할 패턴을 사용해서 실행함으로써, 복수 종류의 단어 후보열을 취득하는 분할 스텝과, 각 단어 후보열 내의 각 단어 후보를 번역 언어로 문자 변환하는 문자 변환 스텝과, 번역 언어의 코퍼스를 참조하여, 문자 변환된 각 단어 후보열의 타당성을 스코어로서 구하는 산출 스텝과, 스코어에 기초해서 선택한 단어 후보열을 출력하는 출력 스텝을 포함한다. A word dividing method according to one aspect of the present invention is a word dividing method executed by a word dividing device, comprising: a receiving step of receiving an input string described in a source language; and a process of dividing an input string into one or more word candidates A division step of acquiring a plurality of kinds of word candidate sequences by executing a plurality of types of division patterns; a character conversion step of converting each word candidate in each word candidate sequence into a translation language; A calculating step of obtaining the validity of each character candidate string converted as a score, and an output step of outputting a word candidate string selected based on the score.
본 발명의 일 측면에 관한 단어 분할 프로그램은, 원시 언어로 기술된 입력 문자열을 접수하는 접수부와, 입력 문자열을 1 이상의 단어 후보로 분할하는 처리를 복수의 분할 패턴을 사용해서 실행함으로써, 복수 종류의 단어 후보열을 취득하는 분할부와, 각 단어 후보열 내의 각 단어 후보를 번역 언어로 문자 변환하는 문자 변환부와, 번역 언어의 코퍼스를 참조하여, 문자 변환된 각 단어 후보열의 타당성을 스코어로서 구하는 산출부와, 스코어에 기초해서 선택한 단어 후보열을 출력하는 출력부를 컴퓨터에 실행시킨다. A word dividing program according to an aspect of the present invention is a word dividing program for dividing an input string into one or more word candidates by using a plurality of division patterns, A character conversion unit for converting each word candidate in each word candidate column into a translation language; and a validity determination unit for determining, as a score, the validity of each word candidate string that is converted by referring to the corpus of the translation language And an output unit for outputting a word candidate sequence selected based on the score.
이와 같은 측면에 의하면, 복수 종류의 단어 후보열의 각각이 문자 변환되고, 그 문자 변환에 사용한 것과 동일한 언어의 코퍼스를 참조하여 각 단어 후보열의 스코어가 산출된다. 그리고, 그 스코어에 기초해서 선택된 단어 후보열이 출력된다. 이와 같이, 다양한 문자 변환 패턴을 생성하고, 이들 패턴을 코퍼스와 비교해서 그럴듯한 단어 연속을 얻음으로써, 문자 변환쌍이 텍스트 내에 명기되어 있지 않아도 다양한 복합어를 단어 분할할 수 있다. According to this aspect, each of a plurality of kinds of word candidate sequences is subjected to a character conversion, and a score of each word candidate sequence is calculated with reference to a corpus of the same language used for the character conversion. Then, a word candidate string selected based on the score is output. Thus, by generating various character conversion patterns and comparing these patterns with the corpus to obtain plausible word sequences, various compound words can be word-segmented even if the character conversion pairs are not specified in the text.
별도의 측면에 관한 단어 분할 장치에서는, 산출부가, 번역 언어의 코퍼스에 있어서의 단어 유니그램의 출현 확률과 그 코퍼스에 있어서의 단어 바이그램의 출현 확률을, 문자 변환된 단어 후보열 내의 각 단어 후보에 대해 구하고, 이들 2종류의 출현 확률에 기초해서 그 단어 후보열의 스코어를 구해도 좋다. 단어 유니그램 및 단어 바이그램의 양쪽의 출현 확률에 기초해서 스코어를 구함으로써, 일반적으로 사용되고 있는 개연성이 높은 단어 연속을 얻는 것이 가능해진다. In the word dividing device relating to another aspect, the calculating unit calculates the appearance probability of the word ungram in the corpus of the translation language and the appearance probability of the word biagram in the corpus to the respective word candidates in the character- And the score of the word candidate sequence may be obtained based on the appearance probability of these two kinds. It is possible to obtain a word sequence having a high probability that is generally used by obtaining a score based on the appearance probability of both the word ungram and the word biagram.
또한 별도의 측면에 관한 단어 분할 장치에서는, 산출부가, 단어 후보열 내의 각 단어 후보에 대해 2종류의 출현 확률의 대수의 합을 구하고, 그 출현 확률의 대수의 합을 합계함으로써 그 단어 후보열의 스코어를 구해도 좋다. 이 경우에는, 단어 유니그램 및 단어 바이그램의 출현 확률의 대수를 가산한다고 하는 간단한 계산에 의해 스코어를 얻을 수 있다. Further, in the word dividing device relating to another aspect, the calculating unit obtains the sum of the algebraic numbers of the two kinds of appearance probabilities for each word candidate in the word candidate sequence, and sums the logarithms of the appearance probabilities, May be obtained. In this case, a score can be obtained by a simple calculation in which the logarithm of the appearance probability of the word ungram and the word biagram is added.
또한 별도의 측면에 관한 단어 분할 장치에서는, 출력부가, 스코어가 가장 높은 단어 후보열을 출력해도 좋다. 이 경우에는, 가장 적절하다고 생각되는 단어 연속을 얻는 것을 기대할 수 있다. Further, in the word dividing device relating to another aspect, the outputting part may output the word candidate sequence having the highest score. In this case, it can be expected to obtain a word sequence considered most appropriate.
또한 별도의 측면에 관한 단어 분할 장치에서는, 분할부가, 직전에서의 분할이 행해지지 않는 금지 문자의 리스트를 참조하여, 그 금지 문자 이외의 문자 앞에서만 입력 문자열을 분할해도 좋다. 이 경우에는, 원시 언어의 구조상 있을 수 없는 단어의 생성을, 단어 후보를 생성하는 단계에서 회피할 수 있으므로, 생성되는 단어 후보열의 개수를 적게 할 수 있다. 그 결과, 그 후의 문자 변환 처리 및 스코어 산출 처리에 걸리는 시간을 단축할 수 있다. Further, in the word dividing device relating to another aspect, the dividing unit may refer to a list of forbidden characters for which division is not performed immediately before, and divide the input string only before the characters other than the forbidden character. In this case, generation of a word that can not be found in the structure of the source language can be avoided at the stage of generating a word candidate, so that the number of word candidate strings to be generated can be reduced. As a result, it is possible to shorten the time required for subsequent character conversion processing and score calculation processing.
또한 별도의 측면에 관한 단어 분할 장치에서는, 문자 변환부가, 문자 변환 페어를 기억하는 트레이닝ㆍ코퍼스를 참조하여 문자 변환 처리를 실행하고, 출력부가, 선택한 단어 후보열로부터 얻어지는 문자 변환 페어를 트레이닝ㆍ코퍼스에 등록해도 좋다. 이 경우에는, 금회의 단어 분할로 얻어진 결과(지식)를 다음번 이후의 처리에서 사용할 수 있으므로, 장래의 문자 변환 처리 혹은 단어 분할 처리에서의 정밀도의 향상을 기대할 수 있다. Further, in the word dividing device relating to another aspect, the character converting section executes the character converting process with reference to the training corpus storing the character converting pair, and the outputting section converts the character converting pair obtained from the selected word candidate row into training corpus . In this case, since the result (knowledge) obtained by dividing the current word can be used in the next and subsequent processing, improvement in accuracy in the future character conversion processing or word division processing can be expected.
본 발명의 일 측면에 의하면, 문자 변환쌍의 정보에 의존하지 않고 다양한 복합어를 단어 분할할 수 있다. According to an aspect of the present invention, various compound words can be word-divided without depending on the information of the character conversion pair.
도 1은 실시 형태에 따른 단어 분할의 개념을 도시하는 도면이다.
도 2는 실시 형태에 따른 단어 분할 장치의 하드웨어 구성을 도시하는 도면이다.
도 3은 실시 형태에 따른 단어 분할 장치의 기능 구성을 도시하는 블록도이다.
도 4는 래티스 구조의 예를 나타내는 도면이다.
도 5는 실시 형태에 따른 단어 분할 장치의 처리를 나타내는 흐름도이다.
도 6은 도 5에 있어서의 스코어 산출 처리의 상세를 나타내는 흐름도이다.
도 7은 실시 형태에 따른 단어 분할 프로그램의 구성을 도시하는 도면이다. 1 is a diagram showing the concept of word division according to the embodiment.
2 is a diagram showing a hardware configuration of a word dividing device according to the embodiment.
3 is a block diagram showing the functional configuration of the word dividing device according to the embodiment.
4 is a diagram showing an example of a lattice structure.
5 is a flowchart showing the processing of the word dividing device according to the embodiment.
6 is a flowchart showing the details of the score calculation processing in Fig.
7 is a diagram showing a configuration of a word dividing program according to the embodiment.
이하, 첨부 도면을 참조하면서 본 발명의 실시 형태를 상세하게 설명한다. 또한, 도면의 설명에 있어서 동일하거나 또는 동등한 요소에는 동일한 부호를 부여하고, 중복되는 설명을 생략한다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same or equivalent elements are denoted by the same reference numerals, and redundant description is omitted.
도 1 내지 도 4를 사용해서, 실시 형태에 따른 단어 분할 장치(10)의 기능 및 구성을 설명한다. 단어 분할 장치(10)는 띄어쓰기를 사용하지 않는 일본어(원시 언어)로 기술된 입력 문자열을, 띄어쓰기를 사용하는 영어(번역 언어)로의 문자 변환 처리와 영어 코퍼스를 사용해서, 1 또는 복수의 단어로 분할하는 컴퓨터이다. 일례로서, 단어 분할 장치(10)는 문장을 형태소 해석하고 있는 도중에, 그 문장에 존재하고 또한 사전에 등록되어 있지 않은 복합어(미지어)를 적절하게 분할하기 위해 사용할 수 있다. 처리 대상의 복합어의 일례로서, 카타카나만으로 표기되고 또한 중점 등의 단락 기호가 부여되어 있지 않은 외래어를 들 수 있다. 물론, 이 장치의 이용 장면은 이들에 한정되는 것이 아니라, 히라가나만 또는 한자만으로 표현된 복합어의 해석에 단어 분할 장치(10)가 사용되어도 좋다. The functions and configurations of the
본 실시 형태에 있어서의 단어 분할의 개념을 도 1에 도시한다. 이 도면에서는, 카타카나로 표기된 복합어 "スコ―チドレッド(suko-chidoreddo)"를 단어 분할하는 예가 도시되어 있다. 또한, 이 복합어는 영어의 "scorched red"에 상당한다. The concept of word division in this embodiment is shown in Fig. In this figure, an example of segmenting the compound word " suko-chidoreddo "written in katakana is shown. This compound word also corresponds to "scorched red" in English.
우선, 단어 분할 장치(10)는 이 복합어를 다양한 패턴으로 분할한다(스텝 S1). 단어 분할 장치(10)는 그 복합어를 다양한 위치에서 또한 임의의 개수로 분할함으로써, 복수 종류의 단어 후보열을 취득한다. 도 1에서는 복합어를 2개의 단어 후보로 나누는 3개의 예와, 그 복합어를 3개의 단어 후보로 나누는 1개의 예와, 복합어를 나누지 않은 예가 도시되어 있지만, 당연히 분할 패턴은 이들에 한정되지 않는다. 예를 들어, 복합어가 다른 분할 패턴에 따라서 2개 또는 3개로 나뉘어지는 경우도 있고, 4개 이상의 부분으로 나뉘어지는 경우도 있고, 1자씩 나뉘어지는 경우도 있다. First, the
계속해서, 단어 분할 장치(10)는 단어 후보를 문자 변환하는 처리를 모든 단어 후보열에 대해 실행한다(스텝 S2). 본 실시 형태에서는, 단어 분할 장치(10)는 일본어로부터 영어로의 문자 변환을 소정의 룰에 따라서 실행한다. 여기서, 발음이나 표현은 두 언어 사이에서 1 대 1의 대응 관계를 갖는다고는 할 수 없으므로, 1개의 단어 후보열에 있어서 문자 변환의 조합이 복수 생성되는 경우가 있다. 도 1의 예에서는, 일본어의 "レッド(reddo)"가 영어의 "red", "read", "led"로 문자 변환되어 있다. 상기 스텝 S1에 있어서의 분할은 영어의 사전을 사용하지 않고 기계적으로 실행되므로, 영단어로서는 실제로는 존재하지 않는 철자로 단어 후보가 문자 변환되는 경우를 있을 수 있다. Subsequently, the
계속해서, 단어 분할 장치(10)는 코퍼스를 참조하여, 각 단어 후보열의 타당성을 나타내는 스코어를 구하고, 그 스코어가 가장 높은 단어 후보열을 단어 분할의 최종적인 결과로서 출력한다(스텝 S3). 이 처리에서, 단어 분할 장치(10)는 적어도, 문자 변환된 각 단어 후보열의 스코어를 영어 코퍼스(즉, 문자 변환에서 사용한 것과 동일한 언어의 코퍼스)를 참조하여 계산한다. 도 1의 예에서는, 단어 분할 장치(10)는 영어의 관점에서 보면 "scorched red"라고 하는 표현이 다른 표현보다도 그럴듯하다고 판정하여, 입력 문자열을 최종적으로 "スコ―チド(suko-chido)"와 "レッド(reddo)"로 분할하고 있다. Subsequently, the
그럴듯한 단어 연속을 얻는 처리는 하기 수학식 1로 표시된다. A process for obtaining a plausible word sequence is represented by the following equation (1).
여기서, x는 입력 문자열을 나타내고, Y(x)는 그 x로부터 유도될 수 있는 모든 단어 후보열을 나타내고 있다. w는 트레이닝ㆍ코퍼스(training corpus)로부터 학습함으로써 얻어지는 가중치의 벡터이다. φ(y)는 소성(feature)의 벡터이다. 이 수학식 1은, argmax의 내용을 최대화하는 소성 φ(y)가 얻어지는 단어 후보열 y가, 그럴듯한 단어 연속이라고 하는 것을 나타내고 있다. Here, x represents an input string, and Y (x) represents all word candidate sequences that can be derived from the x. w is a vector of weights obtained by learning from a training corpus. φ (y) is a vector of features. This equation (1) indicates that the word candidate row y from which the plasticity? (Y) for maximizing the content of argmax is obtained is a plausible word sequence.
소성이란 단어 분할에서 고려되는 속성이며, 어떤 정보를 소성으로서 취급할지는 임의로 정할 수 있다. 본 실시 형태에서는, 소성 φ(y)는 단어 후보열 y의 스코어와 바꿔 말할 수 있고, 이하에서는 최종적으로 얻어지는 소성 φ(y)를 「스코어 φ(y)」라고 한다. 스코어 φ(y)는 다음 수학식 2로 정의된다. Firing is an attribute to be considered in word division, and it can be arbitrarily determined which information is to be treated as plasticity. In the present embodiment, the plasticity? (Y) can be replaced with the score of the word candidate row y, and the plasticity? (Y) finally obtained is hereinafter referred to as "score? (Y)". The score φ (y) is defined by the following equation (2).
여기서 y=w1 … wn이며, 이것은 y가 n개의 단어(w1, …, wn)의 연속인 것을 나타내고 있다. φ1(wi)은 단어 wi에 대한 유니그램의 소성이며, φ2(wi -1, wi)는 연속되는 2개의 단어 wi -1, wi에 대한 바이그램의 소성이다. 따라서, 본 실시 형태에 있어서의 스코어 φ(y)는, 어느 1개의 단어 wi 자체의 타당성과, 1개 앞의 단어 wi -1 및 단어 wi의 배열의 타당성의 양쪽을 고려해서 얻어지는 지수이다. 따라서, 간단히 출현 횟수가 가장 많은 문자 변환에 대응하는 분할 결과가 얻어진다고는 할 수 없다. 2종류의 소성 φ1, φ2의 구체적인 정의는 후술한다. Where y = w 1 ... w n , which indicates that y is a sequence of n words (w 1 , ..., w n ). φ 1 (w i ) is the firing of a unigram for the word w i , and φ 2 (w i -1 , w i ) is the firing of the biagrams for two consecutive words w i -1 , w i . Therefore, the score? (Y) in the present embodiment is an index obtained by taking into consideration both the validity of any one word w i itself and the validity of the arrangement of the word w i -1 and the word w i to be. Therefore, it can not be said that a division result corresponding to a character conversion having the largest occurrence count is obtained simply. Specific definitions of the two kinds of plasticities? 1 and? 2 will be described later.
상기 수학식 2로부터 명백해진 바와 같이, 스코어 φ(y)는 2종류의 소성을 가산한다고 하는 단순한 계산으로 얻을 수 있다. 단, 수학식 2는 일례에 지나지 않는다. 2개의 소성 φ1, φ2에 대해 가산 이외의 연산을 사용해서, 혹은 가산과 그 이외의 연산의 조합에 의해, 스코어 φ(y)를 구해도 좋다. As is clear from the above equation (2), the score? (Y) can be obtained by a simple calculation of adding two kinds of firing. However, Equation (2) is merely an example. The score? (Y) may be obtained by using an operation other than addition to the two firings? 1 and? 2 , or by a combination of addition and other operations.
도 2를 사용해서, 단어 분할 장치(10)의 하드웨어 구성을 설명한다. 이 도면에 도시하는 바와 같이, 단어 분할 장치(10)는 오퍼레이팅 시스템이나 어플리케이션 프로그램 등을 실행하는 CPU(101)와, ROM 및 RAM으로 구성되는 주기억부(102)와, 하드 디스크 등으로 구성되는 보조 기억부(103)와, 네트워크 카드 등으로 구성되는 통신 제어부(104)와, 키보드나 마우스 등의 입력 장치(105)와, 디스플레이 등의 출력 장치(106)를 구비하고 있다. The hardware configuration of the
후술하는 단어 분할 장치(10)의 각 기능적 구성 요소는, CPU(101) 또는 주기억부(102) 상에 소정의 소프트웨어를 읽어들이게 하고, CPU(101)의 제어 하에서 통신 제어부(104)나 입력 장치(105), 출력 장치(106) 등을 동작시켜, 주기억부(102) 또는 보조 기억부(103)에 있어서의 데이터의 판독 및 기입을 행함으로써 실현된다. 처리에 필요한 데이터나 데이터베이스는 주기억부(102) 또는 보조 기억부(103) 내에 저장된다. 또한, 도 2에서는 단어 분할 장치(10)가 1대의 컴퓨터로 구성되어 있는 바와 같이 도시되어 있지만, 단어 분할 장치(10)의 기능을 복수대의 컴퓨터에 분산시켜도 좋다. Each of the functional elements of the
도 3에 도시하는 바와 같이, 단어 분할 장치(10)는 기능적 구성 요소로서 접수부(11), 분할부(12), 문자 변환부(13), 산출부(14) 및 출력부(15)를 구비하고 있다. 3, the
접수부(11)는 일본어로 기술된 문자열의 입력을 접수하는 기능 요소이다. 보다 구체적으로는, 접수부(11)는 스페이스나 중점 등의 단락 기호를 포함하지 않고 또한 1종류의 표음문자만(즉 카타카나만 또는 히라가나만)에 의해 표기된 입력 문자열을 접수한다. 접수부는 입력 문자열을 분할부(12)에 출력한다. The accepting
예를 들어, 접수부(11)는 「スコ―チドレッド(suko-chidoreddo)」(영어의 "scorched red"에 상당)나 「オンラインショッピンモ―ル(onrainshoppingumo-ru)」(영어의 "online shopping mall"에 상당) 등의 문자열을 접수한다. For example, the
접수부(11)가 입력 문자열을 접수하는 타이밍은 한정되지 않는다. 예를 들어, 접수부(11)는 자연 언어 처리 장치(도시하지 않음)가 문장을 형태소 해석하고 있는 도중에 또한 해석한 후에, 그 문장에 포함되어 있는 문자열을 접수해도 좋다. 혹은, 접수부(11)는 형태소 해석과는 완전히 독립적으로 입력 문자열을 접수해도 좋다. 입력 문자열의 예로서, 기존의 사전 데이터베이스에 등록되어 있지 않은 미지어를 들 수 있지만, 이미 어떠한 사전에 등록되어 있는 단어를 단어 분할 장치(10)가 처리하는 일도 있을 수 있다. The timing at which the accepting
분할부(12)는 입력 문자열을 1 이상의 단어 후보로 분할하는 처리를 복수의 분할 패턴을 사용해서 실행함으로써, 복수 종류의 단어 후보열을 취득하는 기능 요소이다. 분할부(12)는 취득한 복수 종류의 단어 후보열을 문자 변환부(13)에 출력한다. The
분할부(12)는 모든 분할 패턴에 따라서 입력 문자열을 분할해도 좋다. 설명을 간단하게 하기 위해 4문자의 단어가 입력된 경우를 설명한다. 개개의 문자를 cn으로서 그 단어를 {c1c2c3c4}로 나타낸다고 하면, 분할부(12)는 하기 8종류의 단어 후보열을 얻는다. 또한, 기호 「|」은 구획 위치를 나타낸다. 하기의 리스트 중 최초의 단어 후보열은, 입력 문자열의 전체가 그대로 1개의 단어 후보로서 취급되는 것을 나타낸다. The
이들 8종류의 분할 패턴을 나타내는 래티스(lattice) 구조를 도 4에 도시한다. 이 도면에 있어서의 BOS는 문장의 시작을 나타내고, EOS는 그 종료를 나타낸다. 이 래티스 구조에 있어서, 각 단어 후보는 노드 N으로 표시되고, 단어간의 연결은 에지(edge) E로 표시된다. A lattice structure showing these eight types of divided patterns is shown in Fig. The BOS in this figure indicates the start of the sentence, and the EOS indicates the end of the sentence. In this lattice structure, each word candidate is represented by a node N, and the connection between words is represented by an edge E.
분할부(12)는 단어가 개시로서 취득할 수 없는 문자(본 명세서에서는 「금지 문자」라고 함) 앞의 분할을 피하도록 단어 후보열을 생성해도 좋다. 예를 들어, 일본어의 입력 문자열에 대해, 분할부(12)는 단어 후보가 요음, 촉음, 장음, 또는 「ン(n)」으로부터 시작하지 않도록 단어 후보열을 생성해도 좋다. 예를 들어 장음 및 촉음이 금지 문자로서 미리 등록되어 있으면, 분할부(12)는 「スコ―チドレッド(suko-chidoreddo)」를 「スコ(suko)」와 「―チドレッド(-chidoreddo)」로 분할하지 않고, 「スコ―チドレ(suko-chidore)」와 「ッド(ddo)」로도 분할하지 않는다. The
이 처리를 행하는 경우에는, 분할부(12)는 금지 문자의 리스트를 미리 내부에 기억하고 있고, 분할 처리 시에 이 리스트를 참조함으로써, 금지 문자의 직전에서의 분할을 생략한다. 일본어로서 존재하지 않는 것이 명확한 단어 후보의 생성을 이 분할 처리의 시점에서 배제함으로써, 도 1에 있어서의 스텝 S2, S3에 상당하는 처리(즉, 문자 변환 및 스코어 산출)에 걸리는 시간을 단축할 수 있다. In the case of performing this processing, the
문자 변환부(13)는, 각 단어 후보열 내의 1 이상의 단어 후보를 영어로 문자 변환하는 기능 요소이다. 문자 변환부(13)는 각 단어 후보열의 문자 변환 결과를 산출부(14)에 출력한다. The
문자 변환부(13)는, 임의의 기존의 방법(문자 변환 룰)을 사용해서 일본어로부터 영어로의 문자 변환을 실행해도 좋다. 본 실시 형태에서는, 어디까지나 그 수법의 일례로서, 조인트ㆍ소스ㆍ채널ㆍ모델(Joint source Channel Model:JSC 모델)에 대해 이하에 설명한다. The
입력되는 문자열을 s로 하고, 문자 변환 결과를 t로 한다. 또한, 일본어로부터 영어로의 재기입 조작의 단위(문자 변환 단위)를 ui=<si, ti>로 한다. 문자 변환 단위란, 입력 문자열과 출력 문자열(문자 변환)의 페어(이하에서는 「문자 변환 페어」라고도 함)의 최소 단위이다. 예를 들어, 입력 문자열 「スコ―チド(suko-chido)」와 문자 변환 결과 「scorched」의 페어 「スコ―チド(suko-chido)/scorched」는 하기 4개의 문자 변환 단위로 구성되어도 좋다. Let s be the input string and let t be the character conversion result. The unit (character conversion unit) of the rewrite operation from Japanese to English is u i = <s i , t i >. A character conversion unit is a minimum unit of a pair of an input character string and an output character string (hereinafter also referred to as a " character conversion pair "). For example, a pair of the input character string "suko-chido" and the character conversion result "scorched""suko-chido / scorched" may be composed of the following four character conversion units.
이를 전제로 하여, JSC 모델에서는, 문자 변환 단위의 n그램(n-gram) 확률을 사용해서, 입력 문자열에 관한 문자 변환 확률 PJSC(<s, t>)를 하기 수학식 3에 의해 계산한다. Based on this assumption, in the JSC model, the character conversion probability P JSC (<s, t>) related to the input character string is calculated by the following equation (3) using the n-gram probability of the character conversion unit .
여기서, 변수 f는, 입력 s 및 문자 변환 t의 페어에 있어서의 문자 변환 단위의 개수이다. 문자 변환 단위의 n그램 확률 P(ui|ui -n+1, …, ui -1)는, 대량의 문자 변환 페어로 이루어지는 트레이닝ㆍ코퍼스(도시하지 않음)를 사용해서 구하지만, 입력과 문자 변환의 대응에 관한 주석은 그 코퍼스 중에 존재하지 않는다. 따라서, n그램 확률 P는 EM 알고리즘을 닮은 하기 수순에 의해 산출된다. 또한, 그 트레이닝ㆍ코퍼스는 데이터베이스로서 실장되어 있어도 좋고, 캐쉬ㆍ메모리 상에 전개되어 있어도 좋다. Here, the variable f is the number of character conversion units in the pair of input s and character conversion t. The n-gram probability P (u i | u i -n + 1 , ..., u i -1 ) of the character conversion unit is obtained using a training corpus (not shown) composed of a large number of character conversion pairs, Comments about the correspondence of the transform are not present in the corpus. Therefore, the n-gram probability P is calculated by the following procedure which resembles the EM algorithm. Further, the training corpus may be implemented as a database or may be developed on a cache memory.
우선 초기 얼라인먼트(alignment)를 랜덤하게 설정한다. 얼라인먼트란, 입력 문자열과 출력 문자열(문자 변환)의 대응이다. 계속해서, 현재의 얼라인먼트를 사용해서 문자 변환 n그램 통계를 구하고, 문자 변환 모델을 갱신한다(E 스텝). 계속해서, 갱신된 문자 변환 모델을 사용해서 얼라인먼트를 갱신한다(M 스텝). 이 E 스텝 및 M 스텝을, 수렴할 때까지 반복한다. First, the initial alignment is randomly set. Alignment is the correspondence between an input string and an output string (character conversion). Subsequently, the character conversion n-gram statistic is obtained using the current alignment, and the character conversion model is updated (step E). Subsequently, the alignment is updated using the updated character conversion model (M step). This E step and M step are repeated until convergence.
상기 수학식 3은, 복수의 문자 변환 단위 확률이 서로 독립이라고 가정한 후에, 문자 변환 페어의 확률을 그 문자 변환 단위 확률의 곱으로 정의한 경우에, 문자 변환 확률 PJSC(<s, t>)가 최대가 되는 분할 u1 … uf를 찾는 문제에 상당한다. 이 문자 변환 확률의 대수인 - logPJSC(<s, t>)를 문자열 s로부터 문자열 t로의 재기입 조작의 비용으로 간주하면, 이 문제는 재기입 비용의 합계 최소값을 구하는 문제와 등가이다. 따라서, 이 문제는, 통상의 편집 거리와 마찬가지로 동적 계획법에 의해 풀 수 있다. In Equation (3), when the probability of a character conversion pair is defined as a product of the probability of the character conversion unit probability after assuming that a plurality of character conversion unit probabilities are independent from each other, the character conversion probability P JSC (<s, t> Up to split u 1 that is ... It corresponds to the problem of finding u f . If the logP JSC (<s, t>) which is the logarithm of the character conversion probability is regarded as the cost of the rewrite operation from the string s to the string t, this problem is equivalent to a problem of obtaining the minimum value of the rewrite cost. Therefore, this problem can be solved by the dynamic programming method like the normal editing distance.
입력 s에 대한 문자 변환 t를 출력하기 위해, 확률이 높은 문자 변환 후보를 스택ㆍ디코더(stack decoder)를 사용해서 생성해도 좋다. 구체적으로는, 입력 문자열이 1문자씩 디코더에 부여되고, 리듀스(reduce) 조작 및 시프트(shift) 조작에 의해 문자 변환된다. reduce 조작에서는 문자 변환 단위의 표를 참조하면서, 확률이 높은 상위 R개의 문자 변환 단위가 생성 및 확정된다. shift 조작에서는, 문자 변환 단위는 확정하지 않고 그대로 남겨진다. 각 문자가 입력된 후에 각 후보의 문자 변환 확률이 계산되고, 확률이 높은 상위 B개의 후보만이 남겨진다. 값 R, B는 임의로 설정 가능하지만, 예를 들어 R=16, B=64로 해도 좋다. 스택 디코더를 사용해서 생성된 문자 변환 후보는 상기의 JSC 모델로 이용된다. In order to output the character conversion t for the input s, a character conversion candidate having a high probability may be generated using a stack decoder. Specifically, the input character string is given to the decoder one character at a time, and is subjected to character conversion by a reduce operation and a shift operation. In the reduce operation, referring to the table of the character conversion unit, the upper-most R character conversion unit having a high probability is generated and determined. In the shift operation, the character conversion unit is left unfixed. After each character is input, the character conversion probability of each candidate is calculated and only the top B candidates with high probability are left. The values R and B can be arbitrarily set, but R = 16 and B = 64, for example. The character conversion candidates generated using the stack decoder are used in the JSC model described above.
본 실시 형태에서는, 그럴듯한 문자 변환을 얻기 위해, 혹은 4문자 이상의 문자 변환 단위가 그보다 짧은 문자 변환 단위의 조합으로 실현할 수 있으므로, 문자 변환 단위 내에서의 입력 문자열의 문자수 및 문자 변환의 문자수를 모두 3 이하로 제한하고 있다. In this embodiment, since it is possible to realize a plausible character conversion or to realize a combination of character conversion units having four or more character conversion units shorter than the above, the number of characters in the input character string and the number of characters in the character conversion in the character conversion unit are All are limited to 3 or less.
산출부(14)는 코퍼스(20)를 참조하여 각 단어 후보열의 스코어를 구하는 기능 요소이다. 산출부(14)는 적어도, 문자 변환으로 사용한 것과 동일한 언어로 기술된 문장의 코퍼스, 즉 영어 코퍼스(21)를 사용한다. 덧붙여, 본 실시 형태에서는, 산출부(14)는 대량의 일문을 기억하는 일본어 코퍼스(22)도 사용한다. 일본어 코퍼스(22) 내에는 스페이스나 중점 등에 의해 구획된 어구[예를 들어 "スコ―チドレッド(suko-chidoㆍreddo)"]가 존재할 수 있고, 산출부(14)는 이와 같은 단락 문자부의 텍스트도 단서로서 하기 수순(제2 처리)에 의해 스코어를 구한다. The calculating
또한, 코퍼스(20)의 설치 장소는 한정되지 않는다. 예를 들어 단어 분할 장치(10)와 코퍼스(20)가 인터넷 등의 통신 네트워크에 의해 접속되어 있으면, 산출부(14)는 그 네트워크를 경유해서 코퍼스(20)에 액세스한다. 혹은, 단어 분할 장치(10) 자체가 코퍼스(20)를 구비하고 있어도 좋다. 영어 코퍼스(21) 및 일본어 코퍼스(22)는 별도의 기억 장치에 설치되어 있어도 좋고, 하나의 기억 장치 내에 통합되어 있어도 좋다. The location of the
산출부(14)는 각 단어 후보열에 대해, 하기 제1 및 제2 처리를 실행해서 2개의 스코어 φ(y)를 구한다. The calculating
제1 처리로서, 산출부(14)는 영어 코퍼스(21)와 문자 변환된 단어 후보열을 사용해서 단어 후보열의 스코어[수학식 2에 있어서의 φ(y)]를 구한다. 따라서, 이 처리에서 얻어지는 값은 제1 스코어이다. As a first process, the calculating
우선, 산출부(14)는 단어 후보열 내의 각 단어 후보에 대해 영어 유니그램에 관한 소성 φ1 LMP와 영어 바이그램에 관한 소성 φ2 LMP를 구한다. 소성 φ1 LMP는 도 4의 각 노드 N에 관한 값이라고 할 수 있고, 소성 φ2 LMP는 상기 도면의 각 에지 E에 관한 값이라고 할 수 있다. 유니그램의 소성은 하기 수학식 4에 의해 얻어지고, 바이그램의 소성은 하기 수학식 5에 의해 얻어진다. First, the
NE는 영어 코퍼스(21)에 있어서의 단어 유니그램(1단어) 또는 단어 바이그램(연속되는 2단어)의 출현 횟수이다. 예를 들어, NE("scorched")는 영어 코퍼스(21)에 있어서의 단어 "scorched"의 출현 횟수를 나타내고, NE("scorched", "red")는 영어 코퍼스에 있어서의 단어 후보열 "scorched red"의 출현 횟수를 나타낸다. N E is the number of occurrences of the word ungram (1 word) or word biagram (2 consecutive words) in the English corpus (21). For example, N E ("scorched") represents the number of occurrences of the word "scorched" in the
수학식 4에 있어서, NE(wi)는 특정한 단어 wi의 출현 횟수를 나타내고, ΣNE(w)는 임의의 단어의 출현 횟수를 나타낸다. 따라서, p(wi)는 영어 코퍼스(21) 중에 단어 wi가 출현하는 확률을 나타낸다. 수학식 5에 있어서, NE(wi -1, wi)는 연속되는 2개의 단어 wi -1, wi의 출현 횟수를 나타내고, ΣNE(w´, w)는 연속되는 임의의 2단어의 출현 횟수를 나타낸다. 따라서, p(wi -1, wi)는 연속되는 2단어(wi -1, wi)가 영어 코퍼스(21) 중에 출현하는 확률을 나타낸다. 수학식 4, 수학식 5로부터 명백해진 바와 같이, 2개의 소성 φ1 LMP, φ2 LMP는 출현 확률의 대수이다. In Equation (4), N E (w i ) represents the number of occurrences of a specific word w i , and Σ N E (w) represents the number of occurrences of an arbitrary word. Therefore, p (w i ) represents the probability that word w i appears in
계속해서, 산출부(14)는 2개의 소성 φ1 LMP, φ2 LMP를 상기 수학식 2에 대입함으로써, 영어에서의 스코어(제1 스코어) φLMP를 산출한다. 또한, 입력 문자열을 분할하지 않고 그 전체를 1개의 단어 후보로서 취급하는 단어 후보열에 관해서는, 산출부(14)는 소성 φ1 LMP만을 산출하고, φ2 LMP를 항상 0으로 설정한다. Subsequently, the calculating
제2 처리로서, 산출부(14)는 일본어 코퍼스(22)와 문자 변환 전의 단어 후보열을 사용해서 단어 후보열의 스코어[수학식 2에 있어서의 φ(y)]를 구한다. 따라서, 이 처리에서 얻어지는 값은 제2 스코어이다. As a second process, the calculating
우선, 산출부(14)는 단어 후보열 내의 각 단어 후보에 대해 일본어 유니그램에 관한 소성 φ1 LMS와 일본어 바이그램에 관한 소성 φ2 LMS를 구한다. 소성 φ1 LMS는 도 4의 각 노드 N에 관한 값이라고 할 수 있고, 소성 φ2 LMS는 상기 도면의 각 에지 E에 관한 값이라고 할 수 있다. 유니그램의 소성은 하기 수학식 6에 의해 얻어지고, 바이그램의 소성은 하기 수학식 7에 의해 얻어진다. First, the
NS는 일본어 코퍼스(22)에 있어서의 단어 유니그램(1단어) 또는 단어 바이그램(연속되는 2단어)의 출현 횟수이다. 예를 들어, NS["スコ―チド(suko-chido)"]는 일본어 코퍼스(22)에 있어서의 단어 "スコ―チド(suko-chido)"의 출현 횟수를 나타내고, NS["スコ―チド(suko-chido)", "レッド(reddo)"]는, 일본어 코퍼스(22) 내의, 단락 문자를 포함하는 단어 후보열[예를 들어, "スコ―チドㆍレッド(suko-chidoㆍreddo)"]의 출현 횟수를 나타낸다. N S is the number of occurrences of the word ungram (1 word) or word biagram (2 consecutive words) in the Japanese-language corpus (22). For example, N S ["suko-chido"] indicates the number of occurrences of the word "suko-chido" in the
수학식 6에 있어서, NS(wi)는 특정한 단어 wi의 출현 횟수를 나타내고, ΣNS(w)는 임의의 단어의 출현 횟수를 나타낸다. 따라서, p(wi)는 일본어 코퍼스(22) 중에 단어 wi가 출현하는 확률을 나타낸다. 수학식 7에 있어서, NS(wi -1, wi)는 연속되는 2개의 단어 wi -1, wi의 출현 횟수를 나타내고, ΣNS(w´, w)는 연속되는 임의의 2단어의 출현 횟수를 나타낸다. 따라서, p(wi -1, wi)는 연속되는 2단어(wi -1, wi)가 일본어 코퍼스(22) 중에 출현하는 확률을 나타낸다. 수학식 6, 수학식 7로부터 명백해진 바와 같이, 2개의 소성 φ1 LMS, φ2 LMS는 출현 확률의 대수이다. In Equation (6), N S (w i ) represents the number of occurrences of a specific word w i , and ΣN S (w) represents the number of occurrences of an arbitrary word. Therefore, p (w i ) represents the probability that the word w i appears in the
계속해서, 산출부(14)는 2개의 소성 φ1 LMS, φ2 LMS를 상기 수학식 2에 대입함으로써, 일본어에서의 스코어(제2 스코어) φLMS를 산출한다. 또한, 입력 문자열을 분할하지 않고 그 전체를 1개의 단어 후보로서 취급하는 단어 후보열에 관해서는, 산출부(14)는 소성 φ1 LMS만을 산출하고, φ2 LMS를 항상 0으로 설정한다. Subsequently, the calculating
산출부(14)는 모든 단어 후보열에 대해 2개의 스코어 φLMP, φLMS를 구하면, 이 결과를 출력부(15)에 출력한다. The
출력부(15)는 산출된 스코어에 기초해서 1개의 단어 후보열을 선택하고, 그 단어 후보열을 입력 문자열의 분할 결과로서 출력하는 기능 요소이다. The
우선, 출력부(15)는 복수의 스코어 φLMP를 0으로부터 1의 범위로 정규화함과 함께, 복수의 스코어 φLMS를 마찬가지로 정규화한다. 계속해서, 출력부(15)는 각 단어 후보열이 정규화된 2개의 스코어에 기초해서, 최종적인 분할 결과(즉, 그럴듯한 단어 연속)로서 출력하는 1개의 단어 후보열을 선택한다. First, the
이 결정 방법은 1개로 한정되지 않는다. 예를 들어, 출력부(15)는 영어에서의 스코어 φLMP가 가장 높은 단어 후보열을 선택하고, 이와 같은 단어 후보열이 복수 존재하는 경우에는, 일본어에 관한 φLMS가 가장 높은 단어 후보열을 그 중에서 선택해서 출력해도 좋다. 혹은, 출력부(15)는 2개의 스코어 φLMP, φLMS의 합이 가장 큰 단어 후보열을 선택해도 좋고, 이때에는 φLMP에 가중치 wp를 곱한 값과, φLMS에 가중치 ws를 곱한 값을 더해도 좋다. 본 발명의 일 측면으로서, 띄어쓰기를 사용하지 않는 원시 언어의 지식만으로는 어려운 단어 분할에 있어서, 띄어쓰기를 사용하는 번역 언어의 지식을 사용한다고 하는 기술적 사상이 있다. 따라서, 가중치를 사용하는 경우에는, 출력부(15)는 가중치 wp를 가중치 ws보다도 크게 설정함으로써 영어에서의 스코어를 중시해도 좋다. This determination method is not limited to one. For example, the
이와 같이 다양한 결정 방법을 생각할 수 있지만, 어느 것으로 해도, 상기 2종류의 스코어를 사용함으로써 그럴듯한 단어 연속(바꿔 말하면, 가장 적절하다고 생각되는 단어 연속)을 얻을 수 있다. Various decision methods as described above can be conceived. Anyway, it is possible to obtain a plausible word sequence (in other words, a word sequence considered most appropriate) by using the two types of scores.
분할 결과의 출력처도 한정되지 않는다. 예를 들어, 출력부(15)는 그 결과를 모니터에 표시해도 좋고 프린터를 통하여 인쇄해도 좋다. 혹은, 출력부(15)는 그 결과를 소정의 기억 장치에 저장해도 좋다. 예를 들어, 출력부(15)는 분할 결과로부터 문자 변환 페어를 생성하여, 문자 변환부(13)에서 사용되는 트레이닝ㆍ코퍼스에 그 문자 변환 페어를 저장해도 좋다. 이 경우에는, 단어 분할 장치(10)로 얻어진 새로운 문자 변환 페어가, 다음번 이후의 단어 분할 처리에 의해 이용될 수 있다. 그 결과, 다음번 이후의 문자 변환 처리 혹은 단어 분할 처리의 정밀도를 높이는 것이 가능해진다. The output destination of the division result is also not limited. For example, the
예를 들어, 입력 문자열 "スコ―チドレッド(suko-chidoreddo)"로부터, 분할 결과 {"スコ―チド(suko-chido)"+レッド(reddo)"}와 이에 대응하는 문자 변환 {"scorched"+ "red"}가 얻어졌다고 한다. 이 경우에는, 출력부(15)는 2개의 문자 변환 페어 <スコ―チド(suko-chido), scorched> 및 <レッド(reddo), red>를 생성하고, 이들 페어를 문자 변환 페어의 트레이닝ㆍ코퍼스에 등록한다. For example, from the input string "suko-chidoreddo", the result of the split {"suko-chido" + reddo "} and its corresponding character conversion {" scorched "+" In this case, the
또한, 스코어의 정규화 및 단어 후보열의 선택은 출력부(15)가 아니라 산출부(14)에 의해 행해져도 좋다. 어느 것으로 해도, 단어 분할 장치(10)는 그럴듯한 단어 연속을 출력한다. In addition, the normalization of the score and the selection of the word candidate sequence may be performed by the
다음에, 도 5, 도 6을 사용해서, 단어 분할 장치(10)의 동작을 설명함과 함께 본 실시 형태에 따른 단어 분할 방법에 대해 설명한다. Next, the operation of the
우선, 접수부(11)가 일본어의 입력 문자열의 입력을 접수한다(스텝 S11, 접수 스텝). 계속해서, 분할부(12)가 복수의 분할 패턴을 사용해서, 그 입력 문자열로부터 복수 종류의 단어 후보열을 생성한다(스텝 S12, 분할 스텝). 계속해서, 문자 변환부(13)가, 각 단어 후보열에 대해 영어로의 문자 변환을 실행한다(스텝 S13, 문자 변환 스텝). First, the
계속해서, 산출부(14)가, 각 단어 후보열에 대해 스코어를 산출한다(스텝 S14, 산출 스텝). 이 처리를 도 6을 사용해서 보다 상세하게 설명한다. Subsequently, the calculating
산출부(14)는 최초의 단어 후보열에 대해(스텝 S141을 참조), 각 단어 후보에 대한 영어 유니그램 및 영어 바이그램에 관한 소성을 구하고(스텝 S142), 이 소성을 사용해서, 그 단어 후보열에 대해 영어에서의 스코어를 구한다(스텝 S143). 1개의 단어 후보열에 대해 복수의 문자 변환 패턴이 존재하는 경우에는, 산출부(14)는 그 모든 문자 변환 패턴에 대해 상기 스텝 S142, S143의 처리를 반복한다(스텝 S144 참조). The
계속해서, 산출부(14)는 그 단어 후보열에 대해, 각 단어 후보에 대한 일본어 유니그램 및 일본어 바이그램에 관한 소성을 구하고(스텝 S145), 이 소성을 사용해서, 그 단어 후보열에 대해 일본어에서의 스코어를 구한다(스텝 S146). Subsequently, the
1개의 단어 후보열에 대해 2종류의 스코어를 얻으면, 산출부(14)는 다음 단어 후보열에 대해 스텝 S142 내지 S146의 처리를 실행한다(스텝 S147, S148을 참조). 산출부(14)가 모든 단어 후보열에 대해 스텝 S142 내지 S146의 처리를 행하면(스텝 S147;"예"), 처리는 출력부(15)로 이행한다. If two kinds of scores are obtained for one word candidate string, the calculating
도 5로 되돌아가, 출력부(15)는 산출된 스코어에 기초해서 1개의 단어 후보열을 선택하고, 그 단어 후보열을 입력 문자열의 분할 결과로서 출력한다(스텝 S15, 출력 스텝). Returning to Fig. 5, the
단어 분할 장치(10)는 새로운 입력 문자열을 접수할 때에, 도 5, 도 6에 도시하는 처리를 실행한다. 그 결과, 예를 들어 많은 미지어가 단어 분할되고, 그 결과가, 형태소 해석이나 번역, 검색 등의 각종 처리에서 사용되는 지식으로서 축적되어 간다. The
다음에, 도 7을 사용해서, 컴퓨터를 단어 분할 장치(10)로서 기능시키기 위한 단어 분할 프로그램(P)을 설명한다. Next, a word dividing program P for causing the computer to function as the
단어 분할 프로그램(P)은, 메인 모듈(P10), 접수 모듈(P11), 분할 모듈(P12), 문자 변환 모듈(P13), 산출 모듈(P14) 및 출력 모듈(P15)을 구비하고 있다. The word dividing program P includes a main module P10, a accepting module P11, a dividing module P12, a character converting module P13, a calculating module P14 and an output module P15.
메인 모듈(P10)은 단어 분할 기능을 통괄적으로 제어하는 부분이다. 접수 모듈(P11), 분할 모듈(P12), 문자 변환 모듈(P13), 산출 모듈(P14) 및 출력 모듈(P15)을 실행함으로써 실현되는 기능은 각각, 상기의 접수부(11), 분할부(12), 문자 변환부(13), 산출부(14) 및 출력부(15)의 기능과 마찬가지이다. The main module P10 is a part for collectively controlling the word dividing function. Functions realized by executing the reception module P11, the division module P12, the character conversion module P13, the calculation module P14 and the output module P15 are the functions of the
단어 분할 프로그램(P)은, 예를 들어 CD-ROM이나 DVD-ROM, 반도체 메모리 등의 유형의 기록 매체에 고정적으로 기록된 후에 제공된다. 또한, 단어 분할 프로그램(P)은 반송파에 중첩된 데이터 신호로서 통신 네트워크를 통해서 제공되어도 좋다. The word segmentation program P is provided after being fixedly recorded on a recording medium of a type such as CD-ROM, DVD-ROM, semiconductor memory, or the like. Further, the word segmentation program P may be provided as a data signal superimposed on a carrier wave through a communication network.
이상 설명한 바와 같이, 본 실시 형태에 따르면, 복수 종류의 단어 후보열의 각각이 영어로 문자 변환되고, 적어도 영어 코퍼스(21)를 참조하여 구한 스코어에 기초해서 1개의 단어 후보열이 최종 결과로서 출력된다. 이와 같이, 다양한 문자 변환 패턴을 생성하고, 이들 패턴을 코퍼스(20)와 비교해서 그럴듯한 단어 연속을 얻음으로써, 문자 변환쌍의 정보를 사용하지 않고 다양한 복합어를 단어 분할할 수 있다. As described above, according to the present embodiment, each of a plurality of kinds of word candidate sequences is converted into English, and one word candidate sequence is output as a final result based on the score obtained by referring to at
일례로서, 통상의 형태소 해석에서는 적절하게 나눌 수 없는, 카타카나만으로 기술된 미지어를 단어 분할할 때에 본 실시 형태는 특히 유효하다. 예를 들어, 영어 유래의 외래어를 해석하는 경우에는, 그 단어가 영어로 역문자 변환되고(back-transliterated), 영어의 지식을 사용해서 스코어가 산출되므로, 종래보다도 정밀도가 높은 단어 분할을 기대할 수 있다. As an example, this embodiment is particularly effective when words are divided into words which are described only by katakana, which can not be appropriately divided by a normal morphological analysis. For example, when interpreting foreign words originating from English, the words are back-translated in English, and the score is calculated using the knowledge of English, so that high-precision word segmentation can be expected have.
특히 본 실시 형태에서는, 번역 언어뿐만 아니라 원시 언어에 대해서도 코퍼스를 참조하여 스코어를 구하고, 제1 스코어 및 제2 스코어의 양쪽을 사용해서 단어 후보열을 선택하고 있다. 이와 같이 복수의 언어의 지식을 이용함으로써, 경우에 따라서는, 그럴듯한 단어 연속을 보다 확실하게 얻을 수 있다. Particularly, in this embodiment, a score is obtained by referring to a corpus not only in a translation language but also in a source language, and selects a word candidate sequence by using both the first score and the second score. By using the knowledge of a plurality of languages in this manner, it is possible to obtain a plausible word sequence more reliably in some cases.
본 실시 형태와 같이, 단어 유니그램 및 단어 바이그램의 양쪽의 출현 확률에 기초해서 스코어를 구함으로써, 단어 그 자체의 타당성과 연속되는 2단어의 타당성의 양쪽을 고려한 스코어가 얻어진다. 이와 같이 복수 종류의 n그램을 고려함으로써, 일반적으로 사용되고 있는 개연성이 높은 단어 연속을 얻는 것이 가능해진다. 또한, 3단어 이상의 단어 후보열에 대해 처리하지 않음으로써 계산이 단순해지므로, 처리 속도의 저하를 피할 수 있다. As in the present embodiment, a score is obtained based on the appearance probabilities of both the word ungram and the word biagram, thereby obtaining a score that considers both the validity of the word itself and the validity of two consecutive words. By considering a plurality of types of n-grams as described above, it is possible to obtain a word sequence which is generally used and has a high probability. In addition, since the calculation is simplified by not processing the word candidate sequence of three or more words, a reduction in the processing speed can be avoided.
이상, 본 발명을 그 실시 형태에 기초해서 상세하게 설명했다. 그러나, 본 발명은 상기 실시 형태에 한정되는 것은 아니다. 본 발명은, 그 요지를 일탈하지 않는 범위에서 다양한 변형이 가능하다. The present invention has been described in detail based on the embodiments thereof. However, the present invention is not limited to the above embodiments. The present invention can be modified in various ways without departing from the gist of the invention.
상기 실시 형태에서는, 영어 코퍼스(21) 및 일본어 코퍼스(22)를 사용하고, 개개의 단어 후보열에 대해 영어에서의 스코어와 일본어에서의 스코어를 구했지만, 단어 분할 장치(10)는 영어의 지식만을 사용해서 그럴듯한 단어 연속을 출력해도 좋다. 이 경우에는, 산출부(14)는 영어 코퍼스(21)를 참조하여 영어에서의 스코어를 구하고, 출력부(15)는 그 스코어만을 사용해서 1개의 단어 후보열(예를 들어, 그 스코어가 가장 높은 단어 후보열)을 선택한다. Although the
이와 같이, 본 발명에서는 문자 변환에 사용하는 것과 동일한 언어의 코퍼스(20)만을 적어도 사용함으로써 단어 분할을 행할 수 있다. 본 발명의 일 측면으로서, 띄어쓰기를 사용하지 않는 원시 언어의 지식만으로는 곤란한 단어 분할을, 띄어쓰기를 사용하는 번역 언어의 지식을 사용해서 적절하게 실행하고자 하는 목적이 있다. 따라서, 번역 언어의 코퍼스를 참조하여 얻어지는 그 언어의 스코어만을 사용한 경우라도, 상기 실시 형태와 마찬가지의 효과가 얻어진다. As described above, word division can be performed by using only the
상기 실시 형태에서는 원시 언어가 일본어이며 번역 언어가 영어이었지만, 이들 이외의 언어에 대해서도 본 발명을 적용할 수 있다. 예를 들어, 일본어와 마찬가지로 띄어쓰기를 하지 않는 중국어의 어구를 단어 분할하기 위해 본 발명을 사용해도 좋다. 다른 예로서, 문자 변환 및 스코어 산출을 위해 프랑스어를 사용해도 좋다. In the above embodiment, the source language is Japanese and the translation language is English, but the present invention can be applied to languages other than these languages. For example, the present invention may be used to segment words in Chinese that do not make a space, as in Japanese. As another example, French may be used for character conversion and score calculation.
10 : 단어 분할 장치
11 : 접수부
12 : 분할부
13 : 문자 변환부
14 : 산출부
15 : 출력부
20 : 코퍼스
21 : 영어 코퍼스(번역 언어의 코퍼스)
22 : 일본어 코퍼스(원시 언어의 코퍼스)
P : 단어 분할 프로그램
P10 : 메인 모듈
P11 : 접수 모듈
P12 : 분할 모듈
P13 : 문자 변환 모듈
P14 : 산출 모듈
P15 : 출력 모듈10: Word splitting device
11: Reception desk
12: minutes installment
13:
14:
15: Output section
20: Corpus
21: English Corpus (Corpus of Translation Language)
22: Japanese Corpus (Corpus of the native language)
P: Word segmentation program
P10: Main module
P11: Reception module
P12: Split module
P13: Character conversion module
P14: Output module
P15: Output module
Claims (8)
상기 1개의 입력 문자열을 1 이상의 단어 후보로 분할하는 처리를 복수의 분할 패턴을 사용해서 실행함으로써, 상기 1개의 입력 문자열로부터 복수 종류의 단어 후보열을 취득하는 분할부 - 각각의 단어 후보열이 1 이상의 단어 후보를 포함함 - 와,
각 단어 후보열 내의 각 단어 후보를 번역 언어로 문자 변환하는 문자 변환부와,
상기 번역 언어의 코퍼스를 참조하여, 문자 변환된 각 단어 후보열의 타당성을 스코어로서 구하는 산출부와,
상기 스코어에 기초해서 선택한 상기 단어 후보열을 출력하는 출력부
를 구비하며,
상기 산출부가, 상기 번역 언어의 코퍼스에 있어서의 단어 유니그램의 출현 확률과 그 코퍼스에 있어서의 단어 바이그램의 출현 확률을, 상기 문자 변환된 단어 후보열 내의 각 단어 후보에 대해 구하고, 이들 2종류의 출현 확률에 기초해서 그 단어 후보열의 상기 스코어를 구하는 단어 분할 장치.A reception unit for receiving one input character string described in a source language;
And dividing the one input character string into one or more word candidates by using a plurality of division patterns to obtain a plurality of kinds of word candidate strings from the one input string, Including more word candidates -
A character conversion unit for converting each word candidate in each word candidate column into a translation language;
A calculation unit for referring to the corpus of the translation language and obtaining the validity of each word candidate string converted as a score,
An output unit for outputting the word candidate string selected based on the score,
And,
Wherein the calculating unit obtains an appearance probability of a word ungram in a corpus of the translation language and an appearance probability of a word biagram in the corpus for each word candidate in the character-converted word candidate sequence, And obtains the score of the word candidate row based on the appearance probability.
상기 산출부가, 상기 단어 후보열 내의 각 단어 후보에 대해 상기 2종류의 출현 확률의 대수의 합을 구하고, 그 출현 확률의 대수의 합을 합계함으로써 그 단어 후보열의 상기 스코어를 구하는 단어 분할 장치. The method according to claim 1,
Wherein said calculating unit obtains the sum of the logarithms of the two kinds of occurrence probabilities for each word candidate in the word candidate sequence and obtains the score of the word candidate sequence by summing the sum of the logarithm of the appearance probability.
상기 출력부가, 상기 스코어가 가장 높은 상기 단어 후보열을 출력하는 단어 분할 장치. 3. The method according to claim 1 or 2,
And the output unit outputs the word candidate sequence having the highest score.
상기 문자 변환부가, 문자 변환 페어를 기억하는 트레이닝ㆍ코퍼스를 참조하여 문자 변환 처리를 실행하고,
상기 출력부가, 상기 선택한 단어 후보열로부터 얻어지는 상기 문자 변환 페어를 상기 트레이닝ㆍ코퍼스에 등록하는 단어 분할 장치. 3. The method according to claim 1 or 2,
The character conversion unit executes a character conversion process with reference to a training corpus storing a character conversion pair,
Wherein the output unit registers the character conversion pair obtained from the selected word candidate sequence in the training corpus.
상기 문자 변환부가, 문자 변환 페어를 기억하는 트레이닝ㆍ코퍼스를 참조하여 문자 변환 처리를 실행하고,
상기 출력부가, 상기 선택한 단어 후보열로부터 얻어지는 상기 문자 변환 페어를 상기 트레이닝ㆍ코퍼스에 등록하는 단어 분할 장치. The method of claim 3,
The character conversion unit executes a character conversion process with reference to a training corpus storing a character conversion pair,
Wherein the output unit registers the character conversion pair obtained from the selected word candidate sequence in the training corpus.
원시 언어로 기술된 1개의 입력 문자열을 접수하는 접수 스텝과,
상기 1개의 입력 문자열을 1 이상의 단어 후보로 분할하는 처리를 복수의 분할 패턴을 사용해서 실행함으로써, 상기 1개의 입력 문자열로부터 복수 종류의 단어 후보열을 취득하는 분할 스텝 - 각각의 단어 후보열이 1 이상의 단어 후보를 포함함 - 과,
각 단어 후보열 내의 각 단어 후보를 번역 언어로 문자 변환하는 문자 변환 스텝과,
상기 번역 언어의 코퍼스를 참조하여, 문자 변환된 각 단어 후보열의 타당성을 스코어로서 구하는 산출 스텝과,
상기 스코어에 기초해서 선택한 상기 단어 후보열을 출력하는 출력 스텝
을 포함하며,
상기 산출 스텝에서는, 상기 번역 언어의 코퍼스에 있어서의 단어 유니그램의 출현 확률과 그 코퍼스에 있어서의 단어 바이그램의 출현 확률을, 상기 문자 변환된 단어 후보열 내의 각 단어 후보에 대해 구하고, 이들 2종류의 출현 확률에 기초해서 그 단어 후보열의 상기 스코어를 구하는 단어 분할 방법. A word dividing method executed by a word dividing device,
A receiving step of receiving one input string described in a native language;
Dividing step of dividing the one input character string into one or more word candidates by using a plurality of division patterns to obtain a plurality of kinds of word candidate strings from the one input string, Including more word candidates -
A character conversion step of converting each word candidate in each word candidate column into a translation language;
A calculating step of obtaining, as a score, the validity of each word candidate string converted by referring to the corpus of the translation language;
An output step of outputting the word candidate string selected based on the score
/ RTI >
The occurrence probability of the word ungram in the corpus of the translation language and the appearance probability of the word biagram in the corpus are obtained for each word candidate in the character-converted word candidate string, And the score of the word candidate string is obtained based on the appearance probability of the word candidate string.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261734039P | 2012-12-06 | 2012-12-06 | |
US61/734,039 | 2012-12-06 | ||
PCT/JP2013/071706 WO2014087703A1 (en) | 2012-12-06 | 2013-08-09 | Word division device, word division method, and word division program |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150033735A KR20150033735A (en) | 2015-04-01 |
KR101544690B1 true KR101544690B1 (en) | 2015-08-13 |
Family
ID=50883134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020157004668A KR101544690B1 (en) | 2012-12-06 | 2013-08-09 | Word division device, word division method, and word division program |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP5646792B2 (en) |
KR (1) | KR101544690B1 (en) |
WO (1) | WO2014087703A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10572605B2 (en) | 2016-06-16 | 2020-02-25 | Samsung Electronics Co., Ltd. | Electronic device for providing translation service and method thereof for determining translation candidate text from a plurality of candidate texts |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875040B (en) * | 2015-10-27 | 2020-08-18 | 上海智臻智能网络科技股份有限公司 | Dictionary updating method and computer-readable storage medium |
CN106815593B (en) * | 2015-11-27 | 2019-12-10 | 北京国双科技有限公司 | Method and device for determining similarity of Chinese texts |
KR102016601B1 (en) * | 2016-11-29 | 2019-08-30 | 주식회사 닷 | Method, apparatus, computer program for converting data |
WO2018101735A1 (en) * | 2016-11-29 | 2018-06-07 | 주식회사 닷 | Device and method for converting data using limited area, and computer program |
KR102438784B1 (en) | 2018-01-05 | 2022-09-02 | 삼성전자주식회사 | Electronic apparatus for obfuscating and decrypting data and control method thereof |
CN108664545A (en) * | 2018-03-26 | 2018-10-16 | 商洛学院 | A kind of translation science commonly uses data processing method |
CN110502737B (en) * | 2018-05-18 | 2023-02-17 | 中国医学科学院北京协和医院 | Word segmentation method based on medical professional dictionary and statistical algorithm |
WO2021107445A1 (en) * | 2019-11-25 | 2021-06-03 | 주식회사 데이터마케팅코리아 | Method for providing newly-coined word information service based on knowledge graph and country-specific transliteration conversion, and apparatus therefor |
CN111241832B (en) * | 2020-01-15 | 2023-08-15 | 北京百度网讯科技有限公司 | Core entity labeling method and device and electronic equipment |
-
2013
- 2013-08-09 JP JP2014532167A patent/JP5646792B2/en active Active
- 2013-08-09 WO PCT/JP2013/071706 patent/WO2014087703A1/en active Application Filing
- 2013-08-09 KR KR1020157004668A patent/KR101544690B1/en active IP Right Grant
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10572605B2 (en) | 2016-06-16 | 2020-02-25 | Samsung Electronics Co., Ltd. | Electronic device for providing translation service and method thereof for determining translation candidate text from a plurality of candidate texts |
Also Published As
Publication number | Publication date |
---|---|
WO2014087703A1 (en) | 2014-06-12 |
JP5646792B2 (en) | 2014-12-24 |
JPWO2014087703A1 (en) | 2017-01-05 |
KR20150033735A (en) | 2015-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101544690B1 (en) | Word division device, word division method, and word division program | |
JP5997217B2 (en) | A method to remove ambiguity of multiple readings in language conversion | |
KR102268875B1 (en) | System and method for inputting text into electronic devices | |
US7752032B2 (en) | Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor | |
US20070021956A1 (en) | Method and apparatus for generating ideographic representations of letter based names | |
CN107870901B (en) | Method, recording medium, apparatus and system for generating similar text from translation source text | |
WO2005059771A1 (en) | Translation judgment device, method, and program | |
JP5809381B1 (en) | Natural language processing system, natural language processing method, and natural language processing program | |
KR101841824B1 (en) | Text division program, text division apparatus, and text division method | |
JP2018055670A (en) | Similar sentence generation method, similar sentence generation program, similar sentence generation apparatus, and similar sentence generation system | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
KR20230009564A (en) | Learning data correction method and apparatus thereof using ensemble score | |
Prabhakar et al. | Machine transliteration and transliterated text retrieval: a survey | |
KR101664258B1 (en) | Text preprocessing method and preprocessing sytem performing the same | |
US8554539B2 (en) | Method for analyzing morpheme using additional information and morpheme analyzer for executing the method | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
KR101083455B1 (en) | System and method for correction user query based on statistical data | |
Ganfure et al. | Design and implementation of morphology based spell checker | |
US8135573B2 (en) | Apparatus, method, and computer program product for creating data for learning word translation | |
JP2009157888A (en) | Transliteration model generation device, transliteration apparatus, and computer program therefor | |
Hsieh et al. | Correcting Chinese spelling errors with word lattice decoding | |
JP4829702B2 (en) | Machine translation device, machine translation method, generation rule creation device, generation rule creation method, and program and recording medium thereof | |
JP4845921B2 (en) | Machine translation apparatus, machine translation program, and machine translation method | |
JP3952964B2 (en) | Reading information determination method, apparatus and program | |
JP6303508B2 (en) | Document analysis apparatus, document analysis system, document analysis method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |