KR101544690B1 - Word division device, word division method, and word division program - Google Patents

Word division device, word division method, and word division program Download PDF

Info

Publication number
KR101544690B1
KR101544690B1 KR1020157004668A KR20157004668A KR101544690B1 KR 101544690 B1 KR101544690 B1 KR 101544690B1 KR 1020157004668 A KR1020157004668 A KR 1020157004668A KR 20157004668 A KR20157004668 A KR 20157004668A KR 101544690 B1 KR101544690 B1 KR 101544690B1
Authority
KR
South Korea
Prior art keywords
word
word candidate
string
character
unit
Prior art date
Application number
KR1020157004668A
Other languages
Korean (ko)
Other versions
KR20150033735A (en
Inventor
마사또 하기와라
Original Assignee
라쿠텐 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 라쿠텐 인코포레이티드 filed Critical 라쿠텐 인코포레이티드
Publication of KR20150033735A publication Critical patent/KR20150033735A/en
Application granted granted Critical
Publication of KR101544690B1 publication Critical patent/KR101544690B1/en

Links

Images

Classifications

    • G06F17/27
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

일 실시 형태에 따른 단어 분할 장치는, 접수부, 분할부, 문자 변환부, 산출부 및 출력부를 구비한다. 접수부는 원시 언어로 기술된 입력 문자열을 접수한다. 분할부는 입력 문자열을 1 이상의 단어 후보로 분할하는 처리를 복수의 분할 패턴을 사용해서 실행함으로써, 복수 종류의 단어 후보열을 취득한다. 문자 변환부는, 각 단어 후보열 내의 각 단어 후보를 번역 언어로 문자 변환한다. 산출부는 번역 언어의 코퍼스를 참조하여, 문자 변환된 각 단어 후보열의 타당성을 스코어로서 구한다. 출력부는 스코어에 기초해서 선택한 단어 후보열을 출력한다. The word dividing apparatus according to an embodiment includes a receiving unit, a dividing unit, a character converting unit, a calculating unit, and an output unit. The receiving unit accepts input strings described in the native language. The dividing unit executes a process of dividing the input string into one or more word candidates by using a plurality of division patterns, thereby acquiring a plurality of kinds of word candidate sequences. The character conversion unit character-converts each word candidate in each word candidate column into a translation language. The calculating unit refers to the corpus of the translation language and obtains the validity of each character candidate string as a score. The output unit outputs the selected word candidate sequence based on the score.

Description

단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램{WORD DIVISION DEVICE, WORD DIVISION METHOD, AND WORD DIVISION PROGRAM}[0001] WORD DIVISION DEVICE, WORD DIVISION METHOD, AND WORD DIVISION PROGRAM [0002]

본 발명의 일 측면은, 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램에 관한 것이다. One aspect of the present invention relates to a word dividing device, a word dividing method, and a word dividing program.

일본어나 중국어 등의 띄어쓰기 되지 않는 언어에 있어서, 단어 분할은 중요한 처리의 하나이다. 단어 분할의 결과는, 검색 처리를 위한 인덱스 부여나, 자동 번역 등의 각종의 응용에 사용되므로, 정확한 단어 분할이 요망된다. Word splitting is one of the important processes in languages such as Japanese and Chinese that are not spatially separated. The result of the word segmentation is used for various applications such as indexing for search processing and automatic translation, so accurate word segmentation is desired.

일례로서, 영어의 「scorched red」에 상당하는 일본어의 「スコ―チドレッド(suko-chidoreddo)」는, 그 의미에서 볼 때 「スコ―チド(suko-chido)」와 「レッド(reddo)」로 나뉘어지는 것이 정답이다. 그러나, 이것이 「スコ―チ(suko-chi)」와 「ドレッド(doreddo)」로 단어 분할되어 버리면, 「スコ―チドレッド(suko-chidoreddo)」를 포함하는 문서가 키워드 「レッド(reddo)」에서는 검색되지 않고 키워드 「ドレッド(doreddo)」에 의해 검색되어 버린다고 하는 문제가 생긴다. As an example, Japanese "suko-chidoreddo", equivalent to "scorched red" in English, is divided into "suko-chido" and "reddo" The correct answer is to lose. However, if this is word-segmented into "suko-chi" and "doreddo", the document containing "suko-chidoreddo" is retrieved from the keyword "reddo" And the keyword "doreddo" is searched for.

이와 같이 정확한 단어 분할이 요망되는 것이지만, 이것이 곤란한 경우가 있다. 일례로서, 일본어 표현에 있어서 카타카나만으로 표현된 복합어(예를 들어, 다른 언어로부터 문자 변환된 복합어)는 공백이나 중점 등에 의해 구획되지 않는 경우가 많으므로, 이와 같은 단어를 컴퓨터가 정확하게 분할하는 것은 어렵다. Such accurate word segmentation is desired, but this may be difficult. As an example, it is difficult for a computer to divide such a word correctly because a compound word expressed in katakana alone (for example, a compound word converted from another language) in Japanese expression is often not divided by a space or an emphasis .

이 단어 분할에 관해서, 하기 비특허문헌 1에는, 단어 단위에서의 원시 언어(source language)와 문자 변환의 대응 관계를 나타내는 문자 변환쌍이 명기된 텍스트로부터 그 문자 변환쌍을 자동 추출함으로써 단어 대응짓기 문자 변환쌍을 얻고, 이 단어 대응짓기 문자 변환쌍을 사용해서 단어 분할을 실행하는 기술이 기재되어 있다. 이 방법에서는, 예를 들어 "ジャンクフ―ド(junk food)"["jankufu-do(junk food)"]라고 하는 괄호 표현을 사용해서 기재되어 있는 문자 변환쌍이 텍스트로부터 추출되어, "ジャンクフ―ド(jankufu-do)"라고 하는 일본어 표현이 "ジャンク(janku)"와 "フ―ド(fu-do)"라고 하는 2개의 일본어 단어로 분할된다. Regarding this word segmentation, Non-Patent Document 1 described below automatically extracts a pair of character conversion from a text in which a character conversion pair indicating a correspondence relationship between a source language and a character conversion in word units is specified, And a word splitting is performed by using the word matching character conversion pair. In this method, for example, the character translation pair described using the parentheses "junk food" ["junk food"] is extracted from the text and "junk food" jankufu-do "is divided into two Japanese words" janku "and" fu-do ".

[비특허문헌][Non-Patent Document]

[비특허문헌 1] Kaji, N. and Kitsuregawa, M., "Splitting noun compounds via monolingual and bilingualparaphrasing: A study on japanese katakan a words,"Proceedings of the 2011Conference on Empirical Methods in Natural Language Processing, 2011, pages 959-969. [Non-Patent Document 1] Kaji, N. and Kitsuregawa, M., "Splitting noun compounds via monolingual and bilingual paraphrasing: A study on japanese katakan a words," Proceedings of the 2011 Conference on Natural Language Processing, 2011, pages 959 -969.

그러나, 상기 비특허문헌 1에 기재된 방법은, 원어와 그 문자 변환이 병기된 텍스트의 존재를 전제로 하고 있으므로, 어느 텍스트에도 문자 변환쌍이 명기되어 있지 않은 문자열의 분할에 대응할 수 없고, 따라서 그 활용의 장면이 한정된다. 따라서, 문자 변환쌍이 텍스트 내에 명기되어 있지 않아도 다양한 복합어를 단어 분할하는 것이 요청되어 있다. However, since the method described in the above non-patent document 1 is based on the existence of the original language and the text in which the character conversion is stipulated, it can not correspond to the division of a character string in which no character conversion pair is specified in any text. Is limited. Therefore, even if the character conversion pair is not specified in the text, it is required to word-divide various compound words.

본 발명의 일 측면에 관한 단어 분할 장치는, 원시 언어로 기술된 입력 문자열을 접수하는 접수부와, 입력 문자열을 1 이상의 단어 후보로 분할하는 처리를 복수의 분할 패턴을 사용해서 실행함으로써, 복수 종류의 단어 후보열을 취득하는 분할부와, 각 단어 후보열 내의 각 단어 후보를 번역 언어로 문자 변환하는 문자 변환부와, 번역 언어의 코퍼스를 참조하여, 문자 변환된 각 단어 후보열의 타당성을 스코어로서 구하는 산출부와, 스코어에 기초해서 선택한 단어 후보열을 출력하는 출력부를 구비한다. A word dividing device according to one aspect of the present invention includes a receiving unit for receiving an input character string described in a source language and a process for dividing an input character string into one or more word candidates by using a plurality of divided patterns, A character conversion unit for converting each word candidate in each word candidate column into a translation language; and a validity determination unit for determining, as a score, the validity of each word candidate string that is converted by referring to the corpus of the translation language And an output unit for outputting a word candidate sequence selected based on the score.

본 발명의 일 측면에 관한 단어 분할 방법은, 단어 분할 장치에 의해 실행되는 단어 분할 방법으로서, 원시 언어로 기술된 입력 문자열을 접수하는 접수 스텝과, 입력 문자열을 1 이상의 단어 후보로 분할하는 처리를 복수의 분할 패턴을 사용해서 실행함으로써, 복수 종류의 단어 후보열을 취득하는 분할 스텝과, 각 단어 후보열 내의 각 단어 후보를 번역 언어로 문자 변환하는 문자 변환 스텝과, 번역 언어의 코퍼스를 참조하여, 문자 변환된 각 단어 후보열의 타당성을 스코어로서 구하는 산출 스텝과, 스코어에 기초해서 선택한 단어 후보열을 출력하는 출력 스텝을 포함한다. A word dividing method according to one aspect of the present invention is a word dividing method executed by a word dividing device, comprising: a receiving step of receiving an input string described in a source language; and a process of dividing an input string into one or more word candidates A division step of acquiring a plurality of kinds of word candidate sequences by executing a plurality of types of division patterns; a character conversion step of converting each word candidate in each word candidate sequence into a translation language; A calculating step of obtaining the validity of each character candidate string converted as a score, and an output step of outputting a word candidate string selected based on the score.

본 발명의 일 측면에 관한 단어 분할 프로그램은, 원시 언어로 기술된 입력 문자열을 접수하는 접수부와, 입력 문자열을 1 이상의 단어 후보로 분할하는 처리를 복수의 분할 패턴을 사용해서 실행함으로써, 복수 종류의 단어 후보열을 취득하는 분할부와, 각 단어 후보열 내의 각 단어 후보를 번역 언어로 문자 변환하는 문자 변환부와, 번역 언어의 코퍼스를 참조하여, 문자 변환된 각 단어 후보열의 타당성을 스코어로서 구하는 산출부와, 스코어에 기초해서 선택한 단어 후보열을 출력하는 출력부를 컴퓨터에 실행시킨다. A word dividing program according to an aspect of the present invention is a word dividing program for dividing an input string into one or more word candidates by using a plurality of division patterns, A character conversion unit for converting each word candidate in each word candidate column into a translation language; and a validity determination unit for determining, as a score, the validity of each word candidate string that is converted by referring to the corpus of the translation language And an output unit for outputting a word candidate sequence selected based on the score.

이와 같은 측면에 의하면, 복수 종류의 단어 후보열의 각각이 문자 변환되고, 그 문자 변환에 사용한 것과 동일한 언어의 코퍼스를 참조하여 각 단어 후보열의 스코어가 산출된다. 그리고, 그 스코어에 기초해서 선택된 단어 후보열이 출력된다. 이와 같이, 다양한 문자 변환 패턴을 생성하고, 이들 패턴을 코퍼스와 비교해서 그럴듯한 단어 연속을 얻음으로써, 문자 변환쌍이 텍스트 내에 명기되어 있지 않아도 다양한 복합어를 단어 분할할 수 있다. According to this aspect, each of a plurality of kinds of word candidate sequences is subjected to a character conversion, and a score of each word candidate sequence is calculated with reference to a corpus of the same language used for the character conversion. Then, a word candidate string selected based on the score is output. Thus, by generating various character conversion patterns and comparing these patterns with the corpus to obtain plausible word sequences, various compound words can be word-segmented even if the character conversion pairs are not specified in the text.

별도의 측면에 관한 단어 분할 장치에서는, 산출부가, 번역 언어의 코퍼스에 있어서의 단어 유니그램의 출현 확률과 그 코퍼스에 있어서의 단어 바이그램의 출현 확률을, 문자 변환된 단어 후보열 내의 각 단어 후보에 대해 구하고, 이들 2종류의 출현 확률에 기초해서 그 단어 후보열의 스코어를 구해도 좋다. 단어 유니그램 및 단어 바이그램의 양쪽의 출현 확률에 기초해서 스코어를 구함으로써, 일반적으로 사용되고 있는 개연성이 높은 단어 연속을 얻는 것이 가능해진다. In the word dividing device relating to another aspect, the calculating unit calculates the appearance probability of the word ungram in the corpus of the translation language and the appearance probability of the word biagram in the corpus to the respective word candidates in the character- And the score of the word candidate sequence may be obtained based on the appearance probability of these two kinds. It is possible to obtain a word sequence having a high probability that is generally used by obtaining a score based on the appearance probability of both the word ungram and the word biagram.

또한 별도의 측면에 관한 단어 분할 장치에서는, 산출부가, 단어 후보열 내의 각 단어 후보에 대해 2종류의 출현 확률의 대수의 합을 구하고, 그 출현 확률의 대수의 합을 합계함으로써 그 단어 후보열의 스코어를 구해도 좋다. 이 경우에는, 단어 유니그램 및 단어 바이그램의 출현 확률의 대수를 가산한다고 하는 간단한 계산에 의해 스코어를 얻을 수 있다. Further, in the word dividing device relating to another aspect, the calculating unit obtains the sum of the algebraic numbers of the two kinds of appearance probabilities for each word candidate in the word candidate sequence, and sums the logarithms of the appearance probabilities, May be obtained. In this case, a score can be obtained by a simple calculation in which the logarithm of the appearance probability of the word ungram and the word biagram is added.

또한 별도의 측면에 관한 단어 분할 장치에서는, 출력부가, 스코어가 가장 높은 단어 후보열을 출력해도 좋다. 이 경우에는, 가장 적절하다고 생각되는 단어 연속을 얻는 것을 기대할 수 있다. Further, in the word dividing device relating to another aspect, the outputting part may output the word candidate sequence having the highest score. In this case, it can be expected to obtain a word sequence considered most appropriate.

또한 별도의 측면에 관한 단어 분할 장치에서는, 분할부가, 직전에서의 분할이 행해지지 않는 금지 문자의 리스트를 참조하여, 그 금지 문자 이외의 문자 앞에서만 입력 문자열을 분할해도 좋다. 이 경우에는, 원시 언어의 구조상 있을 수 없는 단어의 생성을, 단어 후보를 생성하는 단계에서 회피할 수 있으므로, 생성되는 단어 후보열의 개수를 적게 할 수 있다. 그 결과, 그 후의 문자 변환 처리 및 스코어 산출 처리에 걸리는 시간을 단축할 수 있다. Further, in the word dividing device relating to another aspect, the dividing unit may refer to a list of forbidden characters for which division is not performed immediately before, and divide the input string only before the characters other than the forbidden character. In this case, generation of a word that can not be found in the structure of the source language can be avoided at the stage of generating a word candidate, so that the number of word candidate strings to be generated can be reduced. As a result, it is possible to shorten the time required for subsequent character conversion processing and score calculation processing.

또한 별도의 측면에 관한 단어 분할 장치에서는, 문자 변환부가, 문자 변환 페어를 기억하는 트레이닝ㆍ코퍼스를 참조하여 문자 변환 처리를 실행하고, 출력부가, 선택한 단어 후보열로부터 얻어지는 문자 변환 페어를 트레이닝ㆍ코퍼스에 등록해도 좋다. 이 경우에는, 금회의 단어 분할로 얻어진 결과(지식)를 다음번 이후의 처리에서 사용할 수 있으므로, 장래의 문자 변환 처리 혹은 단어 분할 처리에서의 정밀도의 향상을 기대할 수 있다. Further, in the word dividing device relating to another aspect, the character converting section executes the character converting process with reference to the training corpus storing the character converting pair, and the outputting section converts the character converting pair obtained from the selected word candidate row into training corpus . In this case, since the result (knowledge) obtained by dividing the current word can be used in the next and subsequent processing, improvement in accuracy in the future character conversion processing or word division processing can be expected.

본 발명의 일 측면에 의하면, 문자 변환쌍의 정보에 의존하지 않고 다양한 복합어를 단어 분할할 수 있다. According to an aspect of the present invention, various compound words can be word-divided without depending on the information of the character conversion pair.

도 1은 실시 형태에 따른 단어 분할의 개념을 도시하는 도면이다.
도 2는 실시 형태에 따른 단어 분할 장치의 하드웨어 구성을 도시하는 도면이다.
도 3은 실시 형태에 따른 단어 분할 장치의 기능 구성을 도시하는 블록도이다.
도 4는 래티스 구조의 예를 나타내는 도면이다.
도 5는 실시 형태에 따른 단어 분할 장치의 처리를 나타내는 흐름도이다.
도 6은 도 5에 있어서의 스코어 산출 처리의 상세를 나타내는 흐름도이다.
도 7은 실시 형태에 따른 단어 분할 프로그램의 구성을 도시하는 도면이다.
1 is a diagram showing the concept of word division according to the embodiment.
2 is a diagram showing a hardware configuration of a word dividing device according to the embodiment.
3 is a block diagram showing the functional configuration of the word dividing device according to the embodiment.
4 is a diagram showing an example of a lattice structure.
5 is a flowchart showing the processing of the word dividing device according to the embodiment.
6 is a flowchart showing the details of the score calculation processing in Fig.
7 is a diagram showing a configuration of a word dividing program according to the embodiment.

이하, 첨부 도면을 참조하면서 본 발명의 실시 형태를 상세하게 설명한다. 또한, 도면의 설명에 있어서 동일하거나 또는 동등한 요소에는 동일한 부호를 부여하고, 중복되는 설명을 생략한다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same or equivalent elements are denoted by the same reference numerals, and redundant description is omitted.

도 1 내지 도 4를 사용해서, 실시 형태에 따른 단어 분할 장치(10)의 기능 및 구성을 설명한다. 단어 분할 장치(10)는 띄어쓰기를 사용하지 않는 일본어(원시 언어)로 기술된 입력 문자열을, 띄어쓰기를 사용하는 영어(번역 언어)로의 문자 변환 처리와 영어 코퍼스를 사용해서, 1 또는 복수의 단어로 분할하는 컴퓨터이다. 일례로서, 단어 분할 장치(10)는 문장을 형태소 해석하고 있는 도중에, 그 문장에 존재하고 또한 사전에 등록되어 있지 않은 복합어(미지어)를 적절하게 분할하기 위해 사용할 수 있다. 처리 대상의 복합어의 일례로서, 카타카나만으로 표기되고 또한 중점 등의 단락 기호가 부여되어 있지 않은 외래어를 들 수 있다. 물론, 이 장치의 이용 장면은 이들에 한정되는 것이 아니라, 히라가나만 또는 한자만으로 표현된 복합어의 해석에 단어 분할 장치(10)가 사용되어도 좋다. The functions and configurations of the word dividing device 10 according to the embodiment will be described with reference to Figs. 1 to 4. Fig. The word dividing device 10 converts an input string written in Japanese (a native language) that does not use a space into a word or a plurality of words using an English corpus and character conversion processing into English (translation language) using spacing It is a computer to divide. As an example, the word dividing device 10 can be used to appropriately divide compound words (unknown words) existing in the sentence and not previously registered, while the sentence is being morpheme-analyzed. As an example of a compound word to be processed, there is a foreign word which is represented by katakana alone and is not given a paragraph mark such as a middle point. Of course, the use scene of the apparatus is not limited to these examples, and the word dividing device 10 may be used for the analysis of the compound words represented by only Hiragana or Hanja.

본 실시 형태에 있어서의 단어 분할의 개념을 도 1에 도시한다. 이 도면에서는, 카타카나로 표기된 복합어 "スコ―チドレッド(suko-chidoreddo)"를 단어 분할하는 예가 도시되어 있다. 또한, 이 복합어는 영어의 "scorched red"에 상당한다. The concept of word division in this embodiment is shown in Fig. In this figure, an example of segmenting the compound word " suko-chidoreddo "written in katakana is shown. This compound word also corresponds to "scorched red" in English.

우선, 단어 분할 장치(10)는 이 복합어를 다양한 패턴으로 분할한다(스텝 S1). 단어 분할 장치(10)는 그 복합어를 다양한 위치에서 또한 임의의 개수로 분할함으로써, 복수 종류의 단어 후보열을 취득한다. 도 1에서는 복합어를 2개의 단어 후보로 나누는 3개의 예와, 그 복합어를 3개의 단어 후보로 나누는 1개의 예와, 복합어를 나누지 않은 예가 도시되어 있지만, 당연히 분할 패턴은 이들에 한정되지 않는다. 예를 들어, 복합어가 다른 분할 패턴에 따라서 2개 또는 3개로 나뉘어지는 경우도 있고, 4개 이상의 부분으로 나뉘어지는 경우도 있고, 1자씩 나뉘어지는 경우도 있다. First, the word dividing device 10 divides the compound word into various patterns (step S1). The word dividing device 10 obtains a plurality of kinds of word candidate sequences by dividing the compound word at various positions and in an arbitrary number. In Fig. 1, three examples of dividing a compound word into two word candidates, one example of dividing the compound word into three word candidates, and an example of not dividing a compound word are shown, but the division pattern is naturally not limited thereto. For example, a compound word may be divided into two or three according to another division pattern, or it may be divided into four or more parts, or it may be divided into one character.

계속해서, 단어 분할 장치(10)는 단어 후보를 문자 변환하는 처리를 모든 단어 후보열에 대해 실행한다(스텝 S2). 본 실시 형태에서는, 단어 분할 장치(10)는 일본어로부터 영어로의 문자 변환을 소정의 룰에 따라서 실행한다. 여기서, 발음이나 표현은 두 언어 사이에서 1 대 1의 대응 관계를 갖는다고는 할 수 없으므로, 1개의 단어 후보열에 있어서 문자 변환의 조합이 복수 생성되는 경우가 있다. 도 1의 예에서는, 일본어의 "レッド(reddo)"가 영어의 "red", "read", "led"로 문자 변환되어 있다. 상기 스텝 S1에 있어서의 분할은 영어의 사전을 사용하지 않고 기계적으로 실행되므로, 영단어로서는 실제로는 존재하지 않는 철자로 단어 후보가 문자 변환되는 경우를 있을 수 있다. Subsequently, the word dividing device 10 executes a process of converting the word candidates into all word candidate strings (step S2). In the present embodiment, the word dividing device 10 executes character conversion from Japanese to English according to a predetermined rule. Here, since the pronunciation and the expression do not have a one-to-one correspondence relationship between the two languages, a plurality of combinations of character conversions may be generated in one word candidate sequence. In the example of Fig. 1, the Japanese "reddo" is converted into "red", "read", and "led" in English. Since the division in step S1 is performed mechanically without using a dictionary of English, there may be a case where a word candidate is converted into a word by a spelling that does not actually exist as an English word.

계속해서, 단어 분할 장치(10)는 코퍼스를 참조하여, 각 단어 후보열의 타당성을 나타내는 스코어를 구하고, 그 스코어가 가장 높은 단어 후보열을 단어 분할의 최종적인 결과로서 출력한다(스텝 S3). 이 처리에서, 단어 분할 장치(10)는 적어도, 문자 변환된 각 단어 후보열의 스코어를 영어 코퍼스(즉, 문자 변환에서 사용한 것과 동일한 언어의 코퍼스)를 참조하여 계산한다. 도 1의 예에서는, 단어 분할 장치(10)는 영어의 관점에서 보면 "scorched red"라고 하는 표현이 다른 표현보다도 그럴듯하다고 판정하여, 입력 문자열을 최종적으로 "スコ―チド(suko-chido)"와 "レッド(reddo)"로 분할하고 있다. Subsequently, the word dividing device 10 refers to the corpus, obtains a score indicating the validity of each word candidate string, and outputs the word candidate string having the highest score as a final result of word segmentation (step S3). In this processing, the word dividing device 10 calculates at least the score of each word candidate sequence in which the character is converted by referring to the English corpus (that is, a corpus of the same language as that used in character conversion). In the example of Fig. 1, the word dividing device 10 judges that the expression "scorched red" is more plausible than other expressions from the viewpoint of the English, and finally the input string is "suko-chido" And "reddo".

그럴듯한 단어 연속을 얻는 처리는 하기 수학식 1로 표시된다. A process for obtaining a plausible word sequence is represented by the following equation (1).

Figure 112015018229620-pct00001
Figure 112015018229620-pct00001

여기서, x는 입력 문자열을 나타내고, Y(x)는 그 x로부터 유도될 수 있는 모든 단어 후보열을 나타내고 있다. w는 트레이닝ㆍ코퍼스(training corpus)로부터 학습함으로써 얻어지는 가중치의 벡터이다. φ(y)는 소성(feature)의 벡터이다. 이 수학식 1은, argmax의 내용을 최대화하는 소성 φ(y)가 얻어지는 단어 후보열 y가, 그럴듯한 단어 연속이라고 하는 것을 나타내고 있다. Here, x represents an input string, and Y (x) represents all word candidate sequences that can be derived from the x. w is a vector of weights obtained by learning from a training corpus. φ (y) is a vector of features. This equation (1) indicates that the word candidate row y from which the plasticity? (Y) for maximizing the content of argmax is obtained is a plausible word sequence.

소성이란 단어 분할에서 고려되는 속성이며, 어떤 정보를 소성으로서 취급할지는 임의로 정할 수 있다. 본 실시 형태에서는, 소성 φ(y)는 단어 후보열 y의 스코어와 바꿔 말할 수 있고, 이하에서는 최종적으로 얻어지는 소성 φ(y)를 「스코어 φ(y)」라고 한다. 스코어 φ(y)는 다음 수학식 2로 정의된다. Firing is an attribute to be considered in word division, and it can be arbitrarily determined which information is to be treated as plasticity. In the present embodiment, the plasticity? (Y) can be replaced with the score of the word candidate row y, and the plasticity? (Y) finally obtained is hereinafter referred to as "score? (Y)". The score φ (y) is defined by the following equation (2).

Figure 112015018229620-pct00002
Figure 112015018229620-pct00002

여기서 y=w1 … wn이며, 이것은 y가 n개의 단어(w1, …, wn)의 연속인 것을 나타내고 있다. φ1(wi)은 단어 wi에 대한 유니그램의 소성이며, φ2(wi -1, wi)는 연속되는 2개의 단어 wi -1, wi에 대한 바이그램의 소성이다. 따라서, 본 실시 형태에 있어서의 스코어 φ(y)는, 어느 1개의 단어 wi 자체의 타당성과, 1개 앞의 단어 wi -1 및 단어 wi의 배열의 타당성의 양쪽을 고려해서 얻어지는 지수이다. 따라서, 간단히 출현 횟수가 가장 많은 문자 변환에 대응하는 분할 결과가 얻어진다고는 할 수 없다. 2종류의 소성 φ1, φ2의 구체적인 정의는 후술한다. Where y = w 1 ... w n , which indicates that y is a sequence of n words (w 1 , ..., w n ). φ 1 (w i ) is the firing of a unigram for the word w i , and φ 2 (w i -1 , w i ) is the firing of the biagrams for two consecutive words w i -1 , w i . Therefore, the score? (Y) in the present embodiment is an index obtained by taking into consideration both the validity of any one word w i itself and the validity of the arrangement of the word w i -1 and the word w i to be. Therefore, it can not be said that a division result corresponding to a character conversion having the largest occurrence count is obtained simply. Specific definitions of the two kinds of plasticities? 1 and? 2 will be described later.

상기 수학식 2로부터 명백해진 바와 같이, 스코어 φ(y)는 2종류의 소성을 가산한다고 하는 단순한 계산으로 얻을 수 있다. 단, 수학식 2는 일례에 지나지 않는다. 2개의 소성 φ1, φ2에 대해 가산 이외의 연산을 사용해서, 혹은 가산과 그 이외의 연산의 조합에 의해, 스코어 φ(y)를 구해도 좋다. As is clear from the above equation (2), the score? (Y) can be obtained by a simple calculation of adding two kinds of firing. However, Equation (2) is merely an example. The score? (Y) may be obtained by using an operation other than addition to the two firings? 1 and? 2 , or by a combination of addition and other operations.

도 2를 사용해서, 단어 분할 장치(10)의 하드웨어 구성을 설명한다. 이 도면에 도시하는 바와 같이, 단어 분할 장치(10)는 오퍼레이팅 시스템이나 어플리케이션 프로그램 등을 실행하는 CPU(101)와, ROM 및 RAM으로 구성되는 주기억부(102)와, 하드 디스크 등으로 구성되는 보조 기억부(103)와, 네트워크 카드 등으로 구성되는 통신 제어부(104)와, 키보드나 마우스 등의 입력 장치(105)와, 디스플레이 등의 출력 장치(106)를 구비하고 있다. The hardware configuration of the word dividing device 10 will be described with reference to Fig. As shown in this figure, the word dividing device 10 includes a CPU 101 for executing an operating system or an application program, a main storage unit 102 composed of a ROM and a RAM, an auxiliary A storage unit 103, a communication control unit 104 configured by a network card or the like, an input device 105 such as a keyboard or a mouse, and an output device 106 such as a display.

후술하는 단어 분할 장치(10)의 각 기능적 구성 요소는, CPU(101) 또는 주기억부(102) 상에 소정의 소프트웨어를 읽어들이게 하고, CPU(101)의 제어 하에서 통신 제어부(104)나 입력 장치(105), 출력 장치(106) 등을 동작시켜, 주기억부(102) 또는 보조 기억부(103)에 있어서의 데이터의 판독 및 기입을 행함으로써 실현된다. 처리에 필요한 데이터나 데이터베이스는 주기억부(102) 또는 보조 기억부(103) 내에 저장된다. 또한, 도 2에서는 단어 분할 장치(10)가 1대의 컴퓨터로 구성되어 있는 바와 같이 도시되어 있지만, 단어 분할 장치(10)의 기능을 복수대의 컴퓨터에 분산시켜도 좋다. Each of the functional elements of the word dividing device 10 described later can read predetermined software on the CPU 101 or the main storage unit 102 and can control the communication control unit 104 and the input device The main memory unit 105 or the output unit 106 to read and write data in the main memory unit 102 or the auxiliary memory unit 103. [ The data and the database necessary for the processing are stored in the main storage unit 102 or the auxiliary storage unit 103. Although the word dividing device 10 is shown as being composed of one computer in Fig. 2, the function of the word dividing device 10 may be distributed to a plurality of computers.

도 3에 도시하는 바와 같이, 단어 분할 장치(10)는 기능적 구성 요소로서 접수부(11), 분할부(12), 문자 변환부(13), 산출부(14) 및 출력부(15)를 구비하고 있다. 3, the word dividing apparatus 10 includes a receiving unit 11, a dividing unit 12, a character converting unit 13, a calculating unit 14, and an output unit 15 as functional components .

접수부(11)는 일본어로 기술된 문자열의 입력을 접수하는 기능 요소이다. 보다 구체적으로는, 접수부(11)는 스페이스나 중점 등의 단락 기호를 포함하지 않고 또한 1종류의 표음문자만(즉 카타카나만 또는 히라가나만)에 의해 표기된 입력 문자열을 접수한다. 접수부는 입력 문자열을 분할부(12)에 출력한다. The accepting unit 11 is a functional element for accepting input of a character string described in Japanese. More specifically, the accepting unit 11 accepts an input character string not including a space character, a middle character, and the like, and represented by only one type of phonetic character (i.e., only katakana characters or hiragana characters). The accepting unit outputs the input character string to the dividing unit 12.

예를 들어, 접수부(11)는 「スコ―チドレッド(suko-chidoreddo)」(영어의 "scorched red"에 상당)나 「オンラインショッピンモ―ル(onrainshoppingumo-ru)」(영어의 "online shopping mall"에 상당) 등의 문자열을 접수한다. For example, the reception unit 11 may be configured to receive a "scoothed red" or "onrainshoppingumo-ru" (English "online shopping mall" Quot;) < / RTI >

접수부(11)가 입력 문자열을 접수하는 타이밍은 한정되지 않는다. 예를 들어, 접수부(11)는 자연 언어 처리 장치(도시하지 않음)가 문장을 형태소 해석하고 있는 도중에 또한 해석한 후에, 그 문장에 포함되어 있는 문자열을 접수해도 좋다. 혹은, 접수부(11)는 형태소 해석과는 완전히 독립적으로 입력 문자열을 접수해도 좋다. 입력 문자열의 예로서, 기존의 사전 데이터베이스에 등록되어 있지 않은 미지어를 들 수 있지만, 이미 어떠한 사전에 등록되어 있는 단어를 단어 분할 장치(10)가 처리하는 일도 있을 수 있다. The timing at which the accepting unit 11 accepts the input character string is not limited. For example, the accepting unit 11 may accept a character string included in the sentence after the natural language processing apparatus (not shown) interprets the sentence while the sentence is being morpheme-interpreted. Alternatively, the accepting unit 11 may accept the input string completely independently of the morphological analysis. As an example of an input string, an unknown word not registered in an existing dictionary database may be included, but the word dividing device 10 may process a word already registered in some dictionary.

분할부(12)는 입력 문자열을 1 이상의 단어 후보로 분할하는 처리를 복수의 분할 패턴을 사용해서 실행함으로써, 복수 종류의 단어 후보열을 취득하는 기능 요소이다. 분할부(12)는 취득한 복수 종류의 단어 후보열을 문자 변환부(13)에 출력한다. The division unit 12 is a functional element for acquiring a plurality of kinds of word candidate sequences by executing the process of dividing the input character string into one or more word candidates by using a plurality of division patterns. The division unit (12) outputs the acquired plural kinds of word candidate sequences to the character conversion unit (13).

분할부(12)는 모든 분할 패턴에 따라서 입력 문자열을 분할해도 좋다. 설명을 간단하게 하기 위해 4문자의 단어가 입력된 경우를 설명한다. 개개의 문자를 cn으로서 그 단어를 {c1c2c3c4}로 나타낸다고 하면, 분할부(12)는 하기 8종류의 단어 후보열을 얻는다. 또한, 기호 「|」은 구획 위치를 나타낸다. 하기의 리스트 중 최초의 단어 후보열은, 입력 문자열의 전체가 그대로 1개의 단어 후보로서 취급되는 것을 나타낸다. The division unit 12 may divide the input character strings according to all the division patterns. In order to simplify the explanation, a case where four-letter words are input will be described. If the individual character is c n and the word is represented by {c 1 c 2 c 3 c 4 }, the division unit 12 obtains the following eight word candidate sequences. The symbol " | " indicates the position of the segment. The first word candidate column in the following list indicates that the entire input character string is treated as a single word candidate.

Figure 112015018229620-pct00003
Figure 112015018229620-pct00003

이들 8종류의 분할 패턴을 나타내는 래티스(lattice) 구조를 도 4에 도시한다. 이 도면에 있어서의 BOS는 문장의 시작을 나타내고, EOS는 그 종료를 나타낸다. 이 래티스 구조에 있어서, 각 단어 후보는 노드 N으로 표시되고, 단어간의 연결은 에지(edge) E로 표시된다. A lattice structure showing these eight types of divided patterns is shown in Fig. The BOS in this figure indicates the start of the sentence, and the EOS indicates the end of the sentence. In this lattice structure, each word candidate is represented by a node N, and the connection between words is represented by an edge E.

분할부(12)는 단어가 개시로서 취득할 수 없는 문자(본 명세서에서는 「금지 문자」라고 함) 앞의 분할을 피하도록 단어 후보열을 생성해도 좋다. 예를 들어, 일본어의 입력 문자열에 대해, 분할부(12)는 단어 후보가 요음, 촉음, 장음, 또는 「ン(n)」으로부터 시작하지 않도록 단어 후보열을 생성해도 좋다. 예를 들어 장음 및 촉음이 금지 문자로서 미리 등록되어 있으면, 분할부(12)는 「スコ―チドレッド(suko-chidoreddo)」를 「スコ(suko)」와 「―チドレッド(-chidoreddo)」로 분할하지 않고, 「スコ―チドレ(suko-chidore)」와 「ッド(ddo)」로도 분할하지 않는다. The division unit 12 may generate a word candidate sequence so as to avoid division before a word that can not be acquired as a start (a "prohibited character" in this specification). For example, with respect to a Japanese input string, the division unit 12 may generate a word candidate sequence such that the word candidate does not start from the negative, geminate, prolonged, or "n (n)". For example, if the long sound and the geminate consonant are registered in advance as prohibited characters, the division unit 12 divides the "suko-chidoreddo" into "suko" and "-chidoreddo" Do not divide into "suko-chidore" and "ddo".

이 처리를 행하는 경우에는, 분할부(12)는 금지 문자의 리스트를 미리 내부에 기억하고 있고, 분할 처리 시에 이 리스트를 참조함으로써, 금지 문자의 직전에서의 분할을 생략한다. 일본어로서 존재하지 않는 것이 명확한 단어 후보의 생성을 이 분할 처리의 시점에서 배제함으로써, 도 1에 있어서의 스텝 S2, S3에 상당하는 처리(즉, 문자 변환 및 스코어 산출)에 걸리는 시간을 단축할 수 있다. In the case of performing this processing, the division unit 12 stores therein a list of forbidden characters in advance, and refers to this list at the time of division processing, thereby omitting division immediately before the prohibited character. It is possible to shorten the time required for processing corresponding to steps S2 and S3 (i.e., character conversion and score calculation) in Fig. 1 by excluding word candidates that are not clearly present in Japanese from the point of time of this division processing have.

문자 변환부(13)는, 각 단어 후보열 내의 1 이상의 단어 후보를 영어로 문자 변환하는 기능 요소이다. 문자 변환부(13)는 각 단어 후보열의 문자 변환 결과를 산출부(14)에 출력한다. The character conversion unit 13 is a functional element for converting one or more word candidates in each word candidate sequence into the English characters. The character conversion unit 13 outputs the character conversion result of each word candidate sequence to the calculation unit 14. [

문자 변환부(13)는, 임의의 기존의 방법(문자 변환 룰)을 사용해서 일본어로부터 영어로의 문자 변환을 실행해도 좋다. 본 실시 형태에서는, 어디까지나 그 수법의 일례로서, 조인트ㆍ소스ㆍ채널ㆍ모델(Joint source Channel Model:JSC 모델)에 대해 이하에 설명한다. The character conversion unit 13 may perform character conversion from Japanese to English using any existing method (character conversion rule). In the present embodiment, a Joint Source Channel Model (JSC model) will be described below as an example of the technique.

입력되는 문자열을 s로 하고, 문자 변환 결과를 t로 한다. 또한, 일본어로부터 영어로의 재기입 조작의 단위(문자 변환 단위)를 ui=<si, ti>로 한다. 문자 변환 단위란, 입력 문자열과 출력 문자열(문자 변환)의 페어(이하에서는 「문자 변환 페어」라고도 함)의 최소 단위이다. 예를 들어, 입력 문자열 「スコ―チド(suko-chido)」와 문자 변환 결과 「scorched」의 페어 「スコ―チド(suko-chido)/scorched」는 하기 4개의 문자 변환 단위로 구성되어도 좋다. Let s be the input string and let t be the character conversion result. The unit (character conversion unit) of the rewrite operation from Japanese to English is u i = <s i , t i >. A character conversion unit is a minimum unit of a pair of an input character string and an output character string (hereinafter also referred to as a &quot; character conversion pair &quot;). For example, a pair of the input character string "suko-chido" and the character conversion result "scorched""suko-chido / scorched" may be composed of the following four character conversion units.

Figure 112015018229620-pct00004
Figure 112015018229620-pct00004

이를 전제로 하여, JSC 모델에서는, 문자 변환 단위의 n그램(n-gram) 확률을 사용해서, 입력 문자열에 관한 문자 변환 확률 PJSC(<s, t>)를 하기 수학식 3에 의해 계산한다. Based on this assumption, in the JSC model, the character conversion probability P JSC (<s, t>) related to the input character string is calculated by the following equation (3) using the n-gram probability of the character conversion unit .

Figure 112015018229620-pct00005
Figure 112015018229620-pct00005

여기서, 변수 f는, 입력 s 및 문자 변환 t의 페어에 있어서의 문자 변환 단위의 개수이다. 문자 변환 단위의 n그램 확률 P(ui|ui -n+1, …, ui -1)는, 대량의 문자 변환 페어로 이루어지는 트레이닝ㆍ코퍼스(도시하지 않음)를 사용해서 구하지만, 입력과 문자 변환의 대응에 관한 주석은 그 코퍼스 중에 존재하지 않는다. 따라서, n그램 확률 P는 EM 알고리즘을 닮은 하기 수순에 의해 산출된다. 또한, 그 트레이닝ㆍ코퍼스는 데이터베이스로서 실장되어 있어도 좋고, 캐쉬ㆍ메모리 상에 전개되어 있어도 좋다. Here, the variable f is the number of character conversion units in the pair of input s and character conversion t. The n-gram probability P (u i | u i -n + 1 , ..., u i -1 ) of the character conversion unit is obtained using a training corpus (not shown) composed of a large number of character conversion pairs, Comments about the correspondence of the transform are not present in the corpus. Therefore, the n-gram probability P is calculated by the following procedure which resembles the EM algorithm. Further, the training corpus may be implemented as a database or may be developed on a cache memory.

우선 초기 얼라인먼트(alignment)를 랜덤하게 설정한다. 얼라인먼트란, 입력 문자열과 출력 문자열(문자 변환)의 대응이다. 계속해서, 현재의 얼라인먼트를 사용해서 문자 변환 n그램 통계를 구하고, 문자 변환 모델을 갱신한다(E 스텝). 계속해서, 갱신된 문자 변환 모델을 사용해서 얼라인먼트를 갱신한다(M 스텝). 이 E 스텝 및 M 스텝을, 수렴할 때까지 반복한다. First, the initial alignment is randomly set. Alignment is the correspondence between an input string and an output string (character conversion). Subsequently, the character conversion n-gram statistic is obtained using the current alignment, and the character conversion model is updated (step E). Subsequently, the alignment is updated using the updated character conversion model (M step). This E step and M step are repeated until convergence.

상기 수학식 3은, 복수의 문자 변환 단위 확률이 서로 독립이라고 가정한 후에, 문자 변환 페어의 확률을 그 문자 변환 단위 확률의 곱으로 정의한 경우에, 문자 변환 확률 PJSC(<s, t>)가 최대가 되는 분할 u1 … uf를 찾는 문제에 상당한다. 이 문자 변환 확률의 대수인 - logPJSC(<s, t>)를 문자열 s로부터 문자열 t로의 재기입 조작의 비용으로 간주하면, 이 문제는 재기입 비용의 합계 최소값을 구하는 문제와 등가이다. 따라서, 이 문제는, 통상의 편집 거리와 마찬가지로 동적 계획법에 의해 풀 수 있다. In Equation (3), when the probability of a character conversion pair is defined as a product of the probability of the character conversion unit probability after assuming that a plurality of character conversion unit probabilities are independent from each other, the character conversion probability P JSC (<s, t> Up to split u 1 that is ... It corresponds to the problem of finding u f . If the logP JSC (<s, t>) which is the logarithm of the character conversion probability is regarded as the cost of the rewrite operation from the string s to the string t, this problem is equivalent to a problem of obtaining the minimum value of the rewrite cost. Therefore, this problem can be solved by the dynamic programming method like the normal editing distance.

입력 s에 대한 문자 변환 t를 출력하기 위해, 확률이 높은 문자 변환 후보를 스택ㆍ디코더(stack decoder)를 사용해서 생성해도 좋다. 구체적으로는, 입력 문자열이 1문자씩 디코더에 부여되고, 리듀스(reduce) 조작 및 시프트(shift) 조작에 의해 문자 변환된다. reduce 조작에서는 문자 변환 단위의 표를 참조하면서, 확률이 높은 상위 R개의 문자 변환 단위가 생성 및 확정된다. shift 조작에서는, 문자 변환 단위는 확정하지 않고 그대로 남겨진다. 각 문자가 입력된 후에 각 후보의 문자 변환 확률이 계산되고, 확률이 높은 상위 B개의 후보만이 남겨진다. 값 R, B는 임의로 설정 가능하지만, 예를 들어 R=16, B=64로 해도 좋다. 스택 디코더를 사용해서 생성된 문자 변환 후보는 상기의 JSC 모델로 이용된다. In order to output the character conversion t for the input s, a character conversion candidate having a high probability may be generated using a stack decoder. Specifically, the input character string is given to the decoder one character at a time, and is subjected to character conversion by a reduce operation and a shift operation. In the reduce operation, referring to the table of the character conversion unit, the upper-most R character conversion unit having a high probability is generated and determined. In the shift operation, the character conversion unit is left unfixed. After each character is input, the character conversion probability of each candidate is calculated and only the top B candidates with high probability are left. The values R and B can be arbitrarily set, but R = 16 and B = 64, for example. The character conversion candidates generated using the stack decoder are used in the JSC model described above.

본 실시 형태에서는, 그럴듯한 문자 변환을 얻기 위해, 혹은 4문자 이상의 문자 변환 단위가 그보다 짧은 문자 변환 단위의 조합으로 실현할 수 있으므로, 문자 변환 단위 내에서의 입력 문자열의 문자수 및 문자 변환의 문자수를 모두 3 이하로 제한하고 있다. In this embodiment, since it is possible to realize a plausible character conversion or to realize a combination of character conversion units having four or more character conversion units shorter than the above, the number of characters in the input character string and the number of characters in the character conversion in the character conversion unit are All are limited to 3 or less.

산출부(14)는 코퍼스(20)를 참조하여 각 단어 후보열의 스코어를 구하는 기능 요소이다. 산출부(14)는 적어도, 문자 변환으로 사용한 것과 동일한 언어로 기술된 문장의 코퍼스, 즉 영어 코퍼스(21)를 사용한다. 덧붙여, 본 실시 형태에서는, 산출부(14)는 대량의 일문을 기억하는 일본어 코퍼스(22)도 사용한다. 일본어 코퍼스(22) 내에는 스페이스나 중점 등에 의해 구획된 어구[예를 들어 "スコ―チドレッド(suko-chidoㆍreddo)"]가 존재할 수 있고, 산출부(14)는 이와 같은 단락 문자부의 텍스트도 단서로서 하기 수순(제2 처리)에 의해 스코어를 구한다. The calculating unit 14 is a functional element for referring to the corpus 20 and obtaining a score of each word candidate sequence. The calculating unit 14 uses at least the corpus of sentences described in the same language as that used for the character conversion, that is, the English corpus 21. Incidentally, in the present embodiment, the calculating unit 14 also uses the Japanese Corpus 22 which memorizes a large amount of text. The Japanese corpus 22 may contain a phrase (e.g., "suko-chido · reddo") partitioned by a space or an intermediate point, and the calculation unit 14 may also include a text As a clue, the score is obtained by the following procedure (second process).

또한, 코퍼스(20)의 설치 장소는 한정되지 않는다. 예를 들어 단어 분할 장치(10)와 코퍼스(20)가 인터넷 등의 통신 네트워크에 의해 접속되어 있으면, 산출부(14)는 그 네트워크를 경유해서 코퍼스(20)에 액세스한다. 혹은, 단어 분할 장치(10) 자체가 코퍼스(20)를 구비하고 있어도 좋다. 영어 코퍼스(21) 및 일본어 코퍼스(22)는 별도의 기억 장치에 설치되어 있어도 좋고, 하나의 기억 장치 내에 통합되어 있어도 좋다. The location of the corpus 20 is not limited. For example, when the word dividing device 10 and the corpus 20 are connected by a communication network such as the Internet, the calculating unit 14 accesses the corpus 20 via the network. Alternatively, the word dividing device 10 itself may be provided with the corpus 20. The English corpora 21 and the Japanese corpora 22 may be installed in separate storage devices or may be integrated into one storage device.

산출부(14)는 각 단어 후보열에 대해, 하기 제1 및 제2 처리를 실행해서 2개의 스코어 φ(y)를 구한다. The calculating unit 14 performs the following first and second processes for each word candidate sequence to obtain two scores φ (y).

제1 처리로서, 산출부(14)는 영어 코퍼스(21)와 문자 변환된 단어 후보열을 사용해서 단어 후보열의 스코어[수학식 2에 있어서의 φ(y)]를 구한다. 따라서, 이 처리에서 얻어지는 값은 제1 스코어이다. As a first process, the calculating unit 14 obtains the score ([phi (y) in the equation (2)] of the word candidate sequence by using the English corpus 21 and the character-converted word candidate sequence. Therefore, the value obtained in this process is the first score.

우선, 산출부(14)는 단어 후보열 내의 각 단어 후보에 대해 영어 유니그램에 관한 소성 φ1 LMP와 영어 바이그램에 관한 소성 φ2 LMP를 구한다. 소성 φ1 LMP는 도 4의 각 노드 N에 관한 값이라고 할 수 있고, 소성 φ2 LMP는 상기 도면의 각 에지 E에 관한 값이라고 할 수 있다. 유니그램의 소성은 하기 수학식 4에 의해 얻어지고, 바이그램의 소성은 하기 수학식 5에 의해 얻어진다. First, the calculation unit 14 obtains the plasticity? 1 LMP for the English unigram and the plasticity? 2 LMP for the English English gram for each word candidate in the word candidate row. The plasticity? 1 LMP can be regarded as a value with respect to each node N in Fig. 4, and the plasticity? 2 LMP can be regarded as a value with respect to each edge E in the above figure. The firing of the unigram is obtained by the following equation (4), and the firing of the bigram is obtained by the following equation (5).

Figure 112015018229620-pct00006
Figure 112015018229620-pct00006

Figure 112015018229620-pct00007
Figure 112015018229620-pct00007

NE는 영어 코퍼스(21)에 있어서의 단어 유니그램(1단어) 또는 단어 바이그램(연속되는 2단어)의 출현 횟수이다. 예를 들어, NE("scorched")는 영어 코퍼스(21)에 있어서의 단어 "scorched"의 출현 횟수를 나타내고, NE("scorched", "red")는 영어 코퍼스에 있어서의 단어 후보열 "scorched red"의 출현 횟수를 나타낸다. N E is the number of occurrences of the word ungram (1 word) or word biagram (2 consecutive words) in the English corpus (21). For example, N E ("scorched") represents the number of occurrences of the word "scorched" in the English corpus 21, N E ("scorched" Represents the number of occurrences of "scorched red".

수학식 4에 있어서, NE(wi)는 특정한 단어 wi의 출현 횟수를 나타내고, ΣNE(w)는 임의의 단어의 출현 횟수를 나타낸다. 따라서, p(wi)는 영어 코퍼스(21) 중에 단어 wi가 출현하는 확률을 나타낸다. 수학식 5에 있어서, NE(wi -1, wi)는 연속되는 2개의 단어 wi -1, wi의 출현 횟수를 나타내고, ΣNE(w´, w)는 연속되는 임의의 2단어의 출현 횟수를 나타낸다. 따라서, p(wi -1, wi)는 연속되는 2단어(wi -1, wi)가 영어 코퍼스(21) 중에 출현하는 확률을 나타낸다. 수학식 4, 수학식 5로부터 명백해진 바와 같이, 2개의 소성 φ1 LMP, φ2 LMP는 출현 확률의 대수이다. In Equation (4), N E (w i ) represents the number of occurrences of a specific word w i , and Σ N E (w) represents the number of occurrences of an arbitrary word. Therefore, p (w i ) represents the probability that word w i appears in English corpus 21. In equation (5), N E (w i -1 , w i ) represents the number of occurrences of two consecutive words w i -1 , w i , and ΣN E (w ', w) The number of occurrences of the word. Thus, p (w i -1 , w i ) represents the probability that two consecutive words (w i -1 , w i ) appear in English corpus 21. As apparent from equations (4) and (5), the two plasticities? 1 LMP and? 2 LMP are logarithm of the probability of appearance.

계속해서, 산출부(14)는 2개의 소성 φ1 LMP, φ2 LMP를 상기 수학식 2에 대입함으로써, 영어에서의 스코어(제1 스코어) φLMP를 산출한다. 또한, 입력 문자열을 분할하지 않고 그 전체를 1개의 단어 후보로서 취급하는 단어 후보열에 관해서는, 산출부(14)는 소성 φ1 LMP만을 산출하고, φ2 LMP를 항상 0으로 설정한다. Subsequently, the calculating section 14 calculates the score (first score)? LMP in English by substituting the two firings? 1 LMP and? 2 LMP into the above equation (2). Further, with respect to the whole, without dividing the input word string column candidates treated as one word candidate, the calculating section 14 calculates only the firing LMP φ 1, φ 2, and LMP is always set to zero.

제2 처리로서, 산출부(14)는 일본어 코퍼스(22)와 문자 변환 전의 단어 후보열을 사용해서 단어 후보열의 스코어[수학식 2에 있어서의 φ(y)]를 구한다. 따라서, 이 처리에서 얻어지는 값은 제2 스코어이다. As a second process, the calculating unit 14 obtains the score ([phi (y) in the equation (2)] of the word candidate sequence by using the Japanese corpus 22 and the word candidate sequence before the character conversion. Therefore, the value obtained in this process is the second score.

우선, 산출부(14)는 단어 후보열 내의 각 단어 후보에 대해 일본어 유니그램에 관한 소성 φ1 LMS와 일본어 바이그램에 관한 소성 φ2 LMS를 구한다. 소성 φ1 LMS는 도 4의 각 노드 N에 관한 값이라고 할 수 있고, 소성 φ2 LMS는 상기 도면의 각 에지 E에 관한 값이라고 할 수 있다. 유니그램의 소성은 하기 수학식 6에 의해 얻어지고, 바이그램의 소성은 하기 수학식 7에 의해 얻어진다. First, the calculation unit 14 obtains the plasticity? 1 LMS for the Japanese unigram and the plasticity? 2 LMS for the Japanese biagram for each word candidate in the word candidate row. The plasticity? 1 LMS can be regarded as a value with respect to each node N in Fig. 4, and the plasticity? 2 LMS can be regarded as a value with respect to each edge E in the above figure. The firing of the unigram is obtained by the following equation (6), and the firing of the bigram is obtained by the following equation (7).

Figure 112015018229620-pct00008
Figure 112015018229620-pct00008

Figure 112015018229620-pct00009
Figure 112015018229620-pct00009

NS는 일본어 코퍼스(22)에 있어서의 단어 유니그램(1단어) 또는 단어 바이그램(연속되는 2단어)의 출현 횟수이다. 예를 들어, NS["スコ―チド(suko-chido)"]는 일본어 코퍼스(22)에 있어서의 단어 "スコ―チド(suko-chido)"의 출현 횟수를 나타내고, NS["スコ―チド(suko-chido)", "レッド(reddo)"]는, 일본어 코퍼스(22) 내의, 단락 문자를 포함하는 단어 후보열[예를 들어, "スコ―チドㆍレッド(suko-chidoㆍreddo)"]의 출현 횟수를 나타낸다. N S is the number of occurrences of the word ungram (1 word) or word biagram (2 consecutive words) in the Japanese-language corpus (22). For example, N S ["suko-chido"] indicates the number of occurrences of the word "suko-chido" in the Japanese corpus 22, and N s [ Sudo-chido "," reddo ", and the like) in the Japanese-language corpus 22, a word candidate string including a delimiter (for example," suko-chido ""].

수학식 6에 있어서, NS(wi)는 특정한 단어 wi의 출현 횟수를 나타내고, ΣNS(w)는 임의의 단어의 출현 횟수를 나타낸다. 따라서, p(wi)는 일본어 코퍼스(22) 중에 단어 wi가 출현하는 확률을 나타낸다. 수학식 7에 있어서, NS(wi -1, wi)는 연속되는 2개의 단어 wi -1, wi의 출현 횟수를 나타내고, ΣNS(w´, w)는 연속되는 임의의 2단어의 출현 횟수를 나타낸다. 따라서, p(wi -1, wi)는 연속되는 2단어(wi -1, wi)가 일본어 코퍼스(22) 중에 출현하는 확률을 나타낸다. 수학식 6, 수학식 7로부터 명백해진 바와 같이, 2개의 소성 φ1 LMS, φ2 LMS는 출현 확률의 대수이다. In Equation (6), N S (w i ) represents the number of occurrences of a specific word w i , and ΣN S (w) represents the number of occurrences of an arbitrary word. Therefore, p (w i ) represents the probability that the word w i appears in the Japanese corpora 22. In Equation 7, N S (w i -1 , w i) represents the number of occurrences of two successive word w i -1, w i, ΣN S (w', w) are two arbitrary consecutive The number of occurrences of the word. Thus, p (w i -1 , w i ) represents the probability that two consecutive words (w i -1 , w i ) appear in the Japanese corpora 22. As apparent from the equations (6) and (7), the two plasticities? 1 LMS ,? 2 LMS are the logarithm of the appearance probability.

계속해서, 산출부(14)는 2개의 소성 φ1 LMS, φ2 LMS를 상기 수학식 2에 대입함으로써, 일본어에서의 스코어(제2 스코어) φLMS를 산출한다. 또한, 입력 문자열을 분할하지 않고 그 전체를 1개의 단어 후보로서 취급하는 단어 후보열에 관해서는, 산출부(14)는 소성 φ1 LMS만을 산출하고, φ2 LMS를 항상 0으로 설정한다. Subsequently, the calculating unit 14 calculates the score (second score) φ LMS in Japanese by substituting the two plasticities φ 1 LMS , φ 2 LMS into the above equation (2). Further, with respect to the whole, without dividing the input word string column candidates treated as one word candidate, the calculating section 14 calculates only the firing LMS φ 1, and φ 2 LMS always set to zero.

산출부(14)는 모든 단어 후보열에 대해 2개의 스코어 φLMP, φLMS를 구하면, 이 결과를 출력부(15)에 출력한다. The calculation unit 14 obtains two scores φ LMP and φ LMS for all the word candidate sequences and outputs the results to the output unit 15.

출력부(15)는 산출된 스코어에 기초해서 1개의 단어 후보열을 선택하고, 그 단어 후보열을 입력 문자열의 분할 결과로서 출력하는 기능 요소이다. The output unit 15 is a functional element for selecting one word candidate string based on the calculated score and outputting the word candidate string as a result of dividing the input string.

우선, 출력부(15)는 복수의 스코어 φLMP를 0으로부터 1의 범위로 정규화함과 함께, 복수의 스코어 φLMS를 마찬가지로 정규화한다. 계속해서, 출력부(15)는 각 단어 후보열이 정규화된 2개의 스코어에 기초해서, 최종적인 분할 결과(즉, 그럴듯한 단어 연속)로서 출력하는 1개의 단어 후보열을 선택한다. First, the output unit 15 normalizes a plurality of scores? LMP in the range of 0 to 1, and normalizes a plurality of scores? LMS similarly. Subsequently, the output unit 15 selects one word candidate sequence to be output as a final division result (that is, a plausible word sequence) based on the two scored normalized word candidate sequences.

이 결정 방법은 1개로 한정되지 않는다. 예를 들어, 출력부(15)는 영어에서의 스코어 φLMP가 가장 높은 단어 후보열을 선택하고, 이와 같은 단어 후보열이 복수 존재하는 경우에는, 일본어에 관한 φLMS가 가장 높은 단어 후보열을 그 중에서 선택해서 출력해도 좋다. 혹은, 출력부(15)는 2개의 스코어 φLMP, φLMS의 합이 가장 큰 단어 후보열을 선택해도 좋고, 이때에는 φLMP에 가중치 wp를 곱한 값과, φLMS에 가중치 ws를 곱한 값을 더해도 좋다. 본 발명의 일 측면으로서, 띄어쓰기를 사용하지 않는 원시 언어의 지식만으로는 어려운 단어 분할에 있어서, 띄어쓰기를 사용하는 번역 언어의 지식을 사용한다고 하는 기술적 사상이 있다. 따라서, 가중치를 사용하는 경우에는, 출력부(15)는 가중치 wp를 가중치 ws보다도 크게 설정함으로써 영어에서의 스코어를 중시해도 좋다. This determination method is not limited to one. For example, the output unit 15 selects a word candidate sequence having the highest score φ LMP in English, and when there exist a plurality of such word candidate sequences, the output unit 15 outputs a word candidate sequence having the highest φ LMS It may be selected and output. Alternatively, the output unit 15 may select the word candidate sequence having the largest sum of the two scores L LMP and L LMS . In this case, the value obtained by multiplying? LMP by the weight w p and the value obtained by multiplying? LMS by the weight w s Value may be added. As one aspect of the present invention, there is a technical idea of using knowledge of a translation language that uses spacing in difficult word segmentation only by knowledge of a source language that does not use spacing. Therefore, in the case of using the weight, the output unit 15 may set the weight w p to be larger than the weight w s so that the score in English may be emphasized.

이와 같이 다양한 결정 방법을 생각할 수 있지만, 어느 것으로 해도, 상기 2종류의 스코어를 사용함으로써 그럴듯한 단어 연속(바꿔 말하면, 가장 적절하다고 생각되는 단어 연속)을 얻을 수 있다. Various decision methods as described above can be conceived. Anyway, it is possible to obtain a plausible word sequence (in other words, a word sequence considered most appropriate) by using the two types of scores.

분할 결과의 출력처도 한정되지 않는다. 예를 들어, 출력부(15)는 그 결과를 모니터에 표시해도 좋고 프린터를 통하여 인쇄해도 좋다. 혹은, 출력부(15)는 그 결과를 소정의 기억 장치에 저장해도 좋다. 예를 들어, 출력부(15)는 분할 결과로부터 문자 변환 페어를 생성하여, 문자 변환부(13)에서 사용되는 트레이닝ㆍ코퍼스에 그 문자 변환 페어를 저장해도 좋다. 이 경우에는, 단어 분할 장치(10)로 얻어진 새로운 문자 변환 페어가, 다음번 이후의 단어 분할 처리에 의해 이용될 수 있다. 그 결과, 다음번 이후의 문자 변환 처리 혹은 단어 분할 처리의 정밀도를 높이는 것이 가능해진다. The output destination of the division result is also not limited. For example, the output unit 15 may display the result on a monitor or through a printer. Alternatively, the output unit 15 may store the result in a predetermined storage device. For example, the output unit 15 may generate a character conversion pair from the result of division and store the character conversion pair in the training corpus used in the character conversion unit 13. In this case, a new character conversion pair obtained by the word dividing device 10 can be used by the next word segmentation process. As a result, it is possible to improve the accuracy of the next character conversion processing or word division processing.

예를 들어, 입력 문자열 "スコ―チドレッド(suko-chidoreddo)"로부터, 분할 결과 {"スコ―チド(suko-chido)"+レッド(reddo)"}와 이에 대응하는 문자 변환 {"scorched"+ "red"}가 얻어졌다고 한다. 이 경우에는, 출력부(15)는 2개의 문자 변환 페어 <スコ―チド(suko-chido), scorched> 및 <レッド(reddo), red>를 생성하고, 이들 페어를 문자 변환 페어의 트레이닝ㆍ코퍼스에 등록한다. For example, from the input string "suko-chidoreddo", the result of the split {"suko-chido" + reddo "} and its corresponding character conversion {" scorched "+" In this case, the output unit 15 generates two character conversion pairs <suko-chido>, scorched> and <reddo> and red> Is registered in the training corpus of the character conversion pair.

또한, 스코어의 정규화 및 단어 후보열의 선택은 출력부(15)가 아니라 산출부(14)에 의해 행해져도 좋다. 어느 것으로 해도, 단어 분할 장치(10)는 그럴듯한 단어 연속을 출력한다. In addition, the normalization of the score and the selection of the word candidate sequence may be performed by the calculation unit 14 instead of the output unit 15. [ In either case, the word dividing device 10 outputs a plausible word sequence.

다음에, 도 5, 도 6을 사용해서, 단어 분할 장치(10)의 동작을 설명함과 함께 본 실시 형태에 따른 단어 분할 방법에 대해 설명한다. Next, the operation of the word dividing device 10 will be described with reference to Figs. 5 and 6, and a word dividing method according to the present embodiment will be described.

우선, 접수부(11)가 일본어의 입력 문자열의 입력을 접수한다(스텝 S11, 접수 스텝). 계속해서, 분할부(12)가 복수의 분할 패턴을 사용해서, 그 입력 문자열로부터 복수 종류의 단어 후보열을 생성한다(스텝 S12, 분할 스텝). 계속해서, 문자 변환부(13)가, 각 단어 후보열에 대해 영어로의 문자 변환을 실행한다(스텝 S13, 문자 변환 스텝). First, the reception unit 11 accepts an input of an input string of Japanese (step S11, reception step). Subsequently, the division unit 12 generates a plurality of kinds of word candidate sequences from the input string by using a plurality of division patterns (step S12, division step). Subsequently, the character conversion unit 13 performs character conversion in English for each word candidate sequence (step S13, character conversion step).

계속해서, 산출부(14)가, 각 단어 후보열에 대해 스코어를 산출한다(스텝 S14, 산출 스텝). 이 처리를 도 6을 사용해서 보다 상세하게 설명한다. Subsequently, the calculating section 14 calculates a score for each word candidate sequence (step S14, calculating step). This process will be described in more detail with reference to FIG.

산출부(14)는 최초의 단어 후보열에 대해(스텝 S141을 참조), 각 단어 후보에 대한 영어 유니그램 및 영어 바이그램에 관한 소성을 구하고(스텝 S142), 이 소성을 사용해서, 그 단어 후보열에 대해 영어에서의 스코어를 구한다(스텝 S143). 1개의 단어 후보열에 대해 복수의 문자 변환 패턴이 존재하는 경우에는, 산출부(14)는 그 모든 문자 변환 패턴에 대해 상기 스텝 S142, S143의 처리를 반복한다(스텝 S144 참조). The calculation unit 14 obtains the firing about the English unigram and the English biagram for each word candidate (Step S142) for the first word candidate string (see Step S141), and using this firing, A score in English is obtained (step S143). If a plurality of character conversion patterns exist for one word candidate sequence, the calculation unit 14 repeats the processes of steps S142 and S143 for all the character conversion patterns (see step S144).

계속해서, 산출부(14)는 그 단어 후보열에 대해, 각 단어 후보에 대한 일본어 유니그램 및 일본어 바이그램에 관한 소성을 구하고(스텝 S145), 이 소성을 사용해서, 그 단어 후보열에 대해 일본어에서의 스코어를 구한다(스텝 S146). Subsequently, the calculation unit 14 calculates the firing of the word candidates for each of the word candidates (step S145), and using this firing, The score is obtained (step S146).

1개의 단어 후보열에 대해 2종류의 스코어를 얻으면, 산출부(14)는 다음 단어 후보열에 대해 스텝 S142 내지 S146의 처리를 실행한다(스텝 S147, S148을 참조). 산출부(14)가 모든 단어 후보열에 대해 스텝 S142 내지 S146의 처리를 행하면(스텝 S147;"예"), 처리는 출력부(15)로 이행한다. If two kinds of scores are obtained for one word candidate string, the calculating section 14 performs the processing of steps S142 to S146 for the next word candidate string (see steps S147 and S148). If the calculating section 14 performs the processing of steps S142 to S146 for all the word candidate strings (step S147; Yes), the processing shifts to the output section 15. [

도 5로 되돌아가, 출력부(15)는 산출된 스코어에 기초해서 1개의 단어 후보열을 선택하고, 그 단어 후보열을 입력 문자열의 분할 결과로서 출력한다(스텝 S15, 출력 스텝). Returning to Fig. 5, the output unit 15 selects one word candidate string based on the calculated score, and outputs the word candidate string as the division result of the input character string (step S15, output step).

단어 분할 장치(10)는 새로운 입력 문자열을 접수할 때에, 도 5, 도 6에 도시하는 처리를 실행한다. 그 결과, 예를 들어 많은 미지어가 단어 분할되고, 그 결과가, 형태소 해석이나 번역, 검색 등의 각종 처리에서 사용되는 지식으로서 축적되어 간다. The word dividing device 10 executes the processing shown in Figs. 5 and 6 when accepting a new input character string. As a result, for example, many unknown words are divided into words, and the results are accumulated as knowledge used in various processes such as morphological analysis, translation, and retrieval.

다음에, 도 7을 사용해서, 컴퓨터를 단어 분할 장치(10)로서 기능시키기 위한 단어 분할 프로그램(P)을 설명한다. Next, a word dividing program P for causing the computer to function as the word dividing device 10 will be described with reference to Fig.

단어 분할 프로그램(P)은, 메인 모듈(P10), 접수 모듈(P11), 분할 모듈(P12), 문자 변환 모듈(P13), 산출 모듈(P14) 및 출력 모듈(P15)을 구비하고 있다. The word dividing program P includes a main module P10, a accepting module P11, a dividing module P12, a character converting module P13, a calculating module P14 and an output module P15.

메인 모듈(P10)은 단어 분할 기능을 통괄적으로 제어하는 부분이다. 접수 모듈(P11), 분할 모듈(P12), 문자 변환 모듈(P13), 산출 모듈(P14) 및 출력 모듈(P15)을 실행함으로써 실현되는 기능은 각각, 상기의 접수부(11), 분할부(12), 문자 변환부(13), 산출부(14) 및 출력부(15)의 기능과 마찬가지이다. The main module P10 is a part for collectively controlling the word dividing function. Functions realized by executing the reception module P11, the division module P12, the character conversion module P13, the calculation module P14 and the output module P15 are the functions of the reception unit 11, the division unit 12 ), The character conversion unit 13, the calculation unit 14, and the output unit 15, respectively.

단어 분할 프로그램(P)은, 예를 들어 CD-ROM이나 DVD-ROM, 반도체 메모리 등의 유형의 기록 매체에 고정적으로 기록된 후에 제공된다. 또한, 단어 분할 프로그램(P)은 반송파에 중첩된 데이터 신호로서 통신 네트워크를 통해서 제공되어도 좋다. The word segmentation program P is provided after being fixedly recorded on a recording medium of a type such as CD-ROM, DVD-ROM, semiconductor memory, or the like. Further, the word segmentation program P may be provided as a data signal superimposed on a carrier wave through a communication network.

이상 설명한 바와 같이, 본 실시 형태에 따르면, 복수 종류의 단어 후보열의 각각이 영어로 문자 변환되고, 적어도 영어 코퍼스(21)를 참조하여 구한 스코어에 기초해서 1개의 단어 후보열이 최종 결과로서 출력된다. 이와 같이, 다양한 문자 변환 패턴을 생성하고, 이들 패턴을 코퍼스(20)와 비교해서 그럴듯한 단어 연속을 얻음으로써, 문자 변환쌍의 정보를 사용하지 않고 다양한 복합어를 단어 분할할 수 있다. As described above, according to the present embodiment, each of a plurality of kinds of word candidate sequences is converted into English, and one word candidate sequence is output as a final result based on the score obtained by referring to at least English corpus 21 . As described above, by generating various character conversion patterns and obtaining a plausible word sequence by comparing these patterns with the corpus 20, it is possible to word-divide various compound words without using the information of the character conversion pair.

일례로서, 통상의 형태소 해석에서는 적절하게 나눌 수 없는, 카타카나만으로 기술된 미지어를 단어 분할할 때에 본 실시 형태는 특히 유효하다. 예를 들어, 영어 유래의 외래어를 해석하는 경우에는, 그 단어가 영어로 역문자 변환되고(back-transliterated), 영어의 지식을 사용해서 스코어가 산출되므로, 종래보다도 정밀도가 높은 단어 분할을 기대할 수 있다. As an example, this embodiment is particularly effective when words are divided into words which are described only by katakana, which can not be appropriately divided by a normal morphological analysis. For example, when interpreting foreign words originating from English, the words are back-translated in English, and the score is calculated using the knowledge of English, so that high-precision word segmentation can be expected have.

특히 본 실시 형태에서는, 번역 언어뿐만 아니라 원시 언어에 대해서도 코퍼스를 참조하여 스코어를 구하고, 제1 스코어 및 제2 스코어의 양쪽을 사용해서 단어 후보열을 선택하고 있다. 이와 같이 복수의 언어의 지식을 이용함으로써, 경우에 따라서는, 그럴듯한 단어 연속을 보다 확실하게 얻을 수 있다. Particularly, in this embodiment, a score is obtained by referring to a corpus not only in a translation language but also in a source language, and selects a word candidate sequence by using both the first score and the second score. By using the knowledge of a plurality of languages in this manner, it is possible to obtain a plausible word sequence more reliably in some cases.

본 실시 형태와 같이, 단어 유니그램 및 단어 바이그램의 양쪽의 출현 확률에 기초해서 스코어를 구함으로써, 단어 그 자체의 타당성과 연속되는 2단어의 타당성의 양쪽을 고려한 스코어가 얻어진다. 이와 같이 복수 종류의 n그램을 고려함으로써, 일반적으로 사용되고 있는 개연성이 높은 단어 연속을 얻는 것이 가능해진다. 또한, 3단어 이상의 단어 후보열에 대해 처리하지 않음으로써 계산이 단순해지므로, 처리 속도의 저하를 피할 수 있다. As in the present embodiment, a score is obtained based on the appearance probabilities of both the word ungram and the word biagram, thereby obtaining a score that considers both the validity of the word itself and the validity of two consecutive words. By considering a plurality of types of n-grams as described above, it is possible to obtain a word sequence which is generally used and has a high probability. In addition, since the calculation is simplified by not processing the word candidate sequence of three or more words, a reduction in the processing speed can be avoided.

이상, 본 발명을 그 실시 형태에 기초해서 상세하게 설명했다. 그러나, 본 발명은 상기 실시 형태에 한정되는 것은 아니다. 본 발명은, 그 요지를 일탈하지 않는 범위에서 다양한 변형이 가능하다. The present invention has been described in detail based on the embodiments thereof. However, the present invention is not limited to the above embodiments. The present invention can be modified in various ways without departing from the gist of the invention.

상기 실시 형태에서는, 영어 코퍼스(21) 및 일본어 코퍼스(22)를 사용하고, 개개의 단어 후보열에 대해 영어에서의 스코어와 일본어에서의 스코어를 구했지만, 단어 분할 장치(10)는 영어의 지식만을 사용해서 그럴듯한 단어 연속을 출력해도 좋다. 이 경우에는, 산출부(14)는 영어 코퍼스(21)를 참조하여 영어에서의 스코어를 구하고, 출력부(15)는 그 스코어만을 사용해서 1개의 단어 후보열(예를 들어, 그 스코어가 가장 높은 단어 후보열)을 선택한다. Although the English corpus 21 and the Japanese corpus 22 are used to obtain the score in English and the score in Japanese for each word candidate string in the above embodiment, You can use it to output a plausible sequence of words. In this case, the calculating unit 14 obtains a score in English by referring to the English corpus 21, and the output unit 15 outputs one word candidate string (for example, High word candidate column).

이와 같이, 본 발명에서는 문자 변환에 사용하는 것과 동일한 언어의 코퍼스(20)만을 적어도 사용함으로써 단어 분할을 행할 수 있다. 본 발명의 일 측면으로서, 띄어쓰기를 사용하지 않는 원시 언어의 지식만으로는 곤란한 단어 분할을, 띄어쓰기를 사용하는 번역 언어의 지식을 사용해서 적절하게 실행하고자 하는 목적이 있다. 따라서, 번역 언어의 코퍼스를 참조하여 얻어지는 그 언어의 스코어만을 사용한 경우라도, 상기 실시 형태와 마찬가지의 효과가 얻어진다. As described above, word division can be performed by using only the corpus 20 of the same language as that used for character conversion at least in the present invention. As one aspect of the present invention, there is an object to appropriately execute difficult word splitting by using knowledge of a source language that does not use a space, using knowledge of a translation language using a space. Therefore, even when only the score of the language obtained by referring to the corpus of the translated language is used, the same effect as the above-described embodiment can be obtained.

상기 실시 형태에서는 원시 언어가 일본어이며 번역 언어가 영어이었지만, 이들 이외의 언어에 대해서도 본 발명을 적용할 수 있다. 예를 들어, 일본어와 마찬가지로 띄어쓰기를 하지 않는 중국어의 어구를 단어 분할하기 위해 본 발명을 사용해도 좋다. 다른 예로서, 문자 변환 및 스코어 산출을 위해 프랑스어를 사용해도 좋다. In the above embodiment, the source language is Japanese and the translation language is English, but the present invention can be applied to languages other than these languages. For example, the present invention may be used to segment words in Chinese that do not make a space, as in Japanese. As another example, French may be used for character conversion and score calculation.

10 : 단어 분할 장치
11 : 접수부
12 : 분할부
13 : 문자 변환부
14 : 산출부
15 : 출력부
20 : 코퍼스
21 : 영어 코퍼스(번역 언어의 코퍼스)
22 : 일본어 코퍼스(원시 언어의 코퍼스)
P : 단어 분할 프로그램
P10 : 메인 모듈
P11 : 접수 모듈
P12 : 분할 모듈
P13 : 문자 변환 모듈
P14 : 산출 모듈
P15 : 출력 모듈
10: Word splitting device
11: Reception desk
12: minutes installment
13:
14:
15: Output section
20: Corpus
21: English Corpus (Corpus of Translation Language)
22: Japanese Corpus (Corpus of the native language)
P: Word segmentation program
P10: Main module
P11: Reception module
P12: Split module
P13: Character conversion module
P14: Output module
P15: Output module

Claims (8)

원시 언어(source language)로 기술된 1개의 입력 문자열을 접수하는 접수부와,
상기 1개의 입력 문자열을 1 이상의 단어 후보로 분할하는 처리를 복수의 분할 패턴을 사용해서 실행함으로써, 상기 1개의 입력 문자열로부터 복수 종류의 단어 후보열을 취득하는 분할부 - 각각의 단어 후보열이 1 이상의 단어 후보를 포함함 - 와,
각 단어 후보열 내의 각 단어 후보를 번역 언어로 문자 변환하는 문자 변환부와,
상기 번역 언어의 코퍼스를 참조하여, 문자 변환된 각 단어 후보열의 타당성을 스코어로서 구하는 산출부와,
상기 스코어에 기초해서 선택한 상기 단어 후보열을 출력하는 출력부
를 구비하며,
상기 산출부가, 상기 번역 언어의 코퍼스에 있어서의 단어 유니그램의 출현 확률과 그 코퍼스에 있어서의 단어 바이그램의 출현 확률을, 상기 문자 변환된 단어 후보열 내의 각 단어 후보에 대해 구하고, 이들 2종류의 출현 확률에 기초해서 그 단어 후보열의 상기 스코어를 구하는 단어 분할 장치.
A reception unit for receiving one input character string described in a source language;
And dividing the one input character string into one or more word candidates by using a plurality of division patterns to obtain a plurality of kinds of word candidate strings from the one input string, Including more word candidates -
A character conversion unit for converting each word candidate in each word candidate column into a translation language;
A calculation unit for referring to the corpus of the translation language and obtaining the validity of each word candidate string converted as a score,
An output unit for outputting the word candidate string selected based on the score,
And,
Wherein the calculating unit obtains an appearance probability of a word ungram in a corpus of the translation language and an appearance probability of a word biagram in the corpus for each word candidate in the character-converted word candidate sequence, And obtains the score of the word candidate row based on the appearance probability.
제1항에 있어서,
상기 산출부가, 상기 단어 후보열 내의 각 단어 후보에 대해 상기 2종류의 출현 확률의 대수의 합을 구하고, 그 출현 확률의 대수의 합을 합계함으로써 그 단어 후보열의 상기 스코어를 구하는 단어 분할 장치.
The method according to claim 1,
Wherein said calculating unit obtains the sum of the logarithms of the two kinds of occurrence probabilities for each word candidate in the word candidate sequence and obtains the score of the word candidate sequence by summing the sum of the logarithm of the appearance probability.
제1항 또는 제2항에 있어서,
상기 출력부가, 상기 스코어가 가장 높은 상기 단어 후보열을 출력하는 단어 분할 장치.
3. The method according to claim 1 or 2,
And the output unit outputs the word candidate sequence having the highest score.
제1항 또는 제2항에 있어서,
상기 문자 변환부가, 문자 변환 페어를 기억하는 트레이닝ㆍ코퍼스를 참조하여 문자 변환 처리를 실행하고,
상기 출력부가, 상기 선택한 단어 후보열로부터 얻어지는 상기 문자 변환 페어를 상기 트레이닝ㆍ코퍼스에 등록하는 단어 분할 장치.
3. The method according to claim 1 or 2,
The character conversion unit executes a character conversion process with reference to a training corpus storing a character conversion pair,
Wherein the output unit registers the character conversion pair obtained from the selected word candidate sequence in the training corpus.
제3항에 있어서,
상기 문자 변환부가, 문자 변환 페어를 기억하는 트레이닝ㆍ코퍼스를 참조하여 문자 변환 처리를 실행하고,
상기 출력부가, 상기 선택한 단어 후보열로부터 얻어지는 상기 문자 변환 페어를 상기 트레이닝ㆍ코퍼스에 등록하는 단어 분할 장치.
The method of claim 3,
The character conversion unit executes a character conversion process with reference to a training corpus storing a character conversion pair,
Wherein the output unit registers the character conversion pair obtained from the selected word candidate sequence in the training corpus.
단어 분할 장치에 의해 실행되는 단어 분할 방법으로서,
원시 언어로 기술된 1개의 입력 문자열을 접수하는 접수 스텝과,
상기 1개의 입력 문자열을 1 이상의 단어 후보로 분할하는 처리를 복수의 분할 패턴을 사용해서 실행함으로써, 상기 1개의 입력 문자열로부터 복수 종류의 단어 후보열을 취득하는 분할 스텝 - 각각의 단어 후보열이 1 이상의 단어 후보를 포함함 - 과,
각 단어 후보열 내의 각 단어 후보를 번역 언어로 문자 변환하는 문자 변환 스텝과,
상기 번역 언어의 코퍼스를 참조하여, 문자 변환된 각 단어 후보열의 타당성을 스코어로서 구하는 산출 스텝과,
상기 스코어에 기초해서 선택한 상기 단어 후보열을 출력하는 출력 스텝
을 포함하며,
상기 산출 스텝에서는, 상기 번역 언어의 코퍼스에 있어서의 단어 유니그램의 출현 확률과 그 코퍼스에 있어서의 단어 바이그램의 출현 확률을, 상기 문자 변환된 단어 후보열 내의 각 단어 후보에 대해 구하고, 이들 2종류의 출현 확률에 기초해서 그 단어 후보열의 상기 스코어를 구하는 단어 분할 방법.
A word dividing method executed by a word dividing device,
A receiving step of receiving one input string described in a native language;
Dividing step of dividing the one input character string into one or more word candidates by using a plurality of division patterns to obtain a plurality of kinds of word candidate strings from the one input string, Including more word candidates -
A character conversion step of converting each word candidate in each word candidate column into a translation language;
A calculating step of obtaining, as a score, the validity of each word candidate string converted by referring to the corpus of the translation language;
An output step of outputting the word candidate string selected based on the score
/ RTI &gt;
The occurrence probability of the word ungram in the corpus of the translation language and the appearance probability of the word biagram in the corpus are obtained for each word candidate in the character-converted word candidate string, And the score of the word candidate string is obtained based on the appearance probability of the word candidate string.
삭제delete 삭제delete
KR1020157004668A 2012-12-06 2013-08-09 Word division device, word division method, and word division program KR101544690B1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261734039P 2012-12-06 2012-12-06
US61/734,039 2012-12-06
PCT/JP2013/071706 WO2014087703A1 (en) 2012-12-06 2013-08-09 Word division device, word division method, and word division program

Publications (2)

Publication Number Publication Date
KR20150033735A KR20150033735A (en) 2015-04-01
KR101544690B1 true KR101544690B1 (en) 2015-08-13

Family

ID=50883134

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157004668A KR101544690B1 (en) 2012-12-06 2013-08-09 Word division device, word division method, and word division program

Country Status (3)

Country Link
JP (1) JP5646792B2 (en)
KR (1) KR101544690B1 (en)
WO (1) WO2014087703A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572605B2 (en) 2016-06-16 2020-02-25 Samsung Electronics Co., Ltd. Electronic device for providing translation service and method thereof for determining translation candidate text from a plurality of candidate texts

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875040B (en) * 2015-10-27 2020-08-18 上海智臻智能网络科技股份有限公司 Dictionary updating method and computer-readable storage medium
CN106815593B (en) * 2015-11-27 2019-12-10 北京国双科技有限公司 Method and device for determining similarity of Chinese texts
KR102016601B1 (en) * 2016-11-29 2019-08-30 주식회사 닷 Method, apparatus, computer program for converting data
WO2018101735A1 (en) * 2016-11-29 2018-06-07 주식회사 닷 Device and method for converting data using limited area, and computer program
KR102438784B1 (en) 2018-01-05 2022-09-02 삼성전자주식회사 Electronic apparatus for obfuscating and decrypting data and control method thereof
CN108664545A (en) * 2018-03-26 2018-10-16 商洛学院 A kind of translation science commonly uses data processing method
CN110502737B (en) * 2018-05-18 2023-02-17 中国医学科学院北京协和医院 Word segmentation method based on medical professional dictionary and statistical algorithm
WO2021107445A1 (en) * 2019-11-25 2021-06-03 주식회사 데이터마케팅코리아 Method for providing newly-coined word information service based on knowledge graph and country-specific transliteration conversion, and apparatus therefor
CN111241832B (en) * 2020-01-15 2023-08-15 北京百度网讯科技有限公司 Core entity labeling method and device and electronic equipment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572605B2 (en) 2016-06-16 2020-02-25 Samsung Electronics Co., Ltd. Electronic device for providing translation service and method thereof for determining translation candidate text from a plurality of candidate texts

Also Published As

Publication number Publication date
WO2014087703A1 (en) 2014-06-12
JP5646792B2 (en) 2014-12-24
JPWO2014087703A1 (en) 2017-01-05
KR20150033735A (en) 2015-04-01

Similar Documents

Publication Publication Date Title
KR101544690B1 (en) Word division device, word division method, and word division program
JP5997217B2 (en) A method to remove ambiguity of multiple readings in language conversion
KR102268875B1 (en) System and method for inputting text into electronic devices
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
CN107870901B (en) Method, recording medium, apparatus and system for generating similar text from translation source text
WO2005059771A1 (en) Translation judgment device, method, and program
JP5809381B1 (en) Natural language processing system, natural language processing method, and natural language processing program
KR101841824B1 (en) Text division program, text division apparatus, and text division method
JP2018055670A (en) Similar sentence generation method, similar sentence generation program, similar sentence generation apparatus, and similar sentence generation system
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
KR20230009564A (en) Learning data correction method and apparatus thereof using ensemble score
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
KR101664258B1 (en) Text preprocessing method and preprocessing sytem performing the same
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
KR101083455B1 (en) System and method for correction user query based on statistical data
Ganfure et al. Design and implementation of morphology based spell checker
US8135573B2 (en) Apparatus, method, and computer program product for creating data for learning word translation
JP2009157888A (en) Transliteration model generation device, transliteration apparatus, and computer program therefor
Hsieh et al. Correcting Chinese spelling errors with word lattice decoding
JP4829702B2 (en) Machine translation device, machine translation method, generation rule creation device, generation rule creation method, and program and recording medium thereof
JP4845921B2 (en) Machine translation apparatus, machine translation program, and machine translation method
JP3952964B2 (en) Reading information determination method, apparatus and program
JP6303508B2 (en) Document analysis apparatus, document analysis system, document analysis method, and program

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant