WO2019208507A1 - 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム - Google Patents
言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム Download PDFInfo
- Publication number
- WO2019208507A1 WO2019208507A1 PCT/JP2019/017049 JP2019017049W WO2019208507A1 WO 2019208507 A1 WO2019208507 A1 WO 2019208507A1 JP 2019017049 W JP2019017049 W JP 2019017049W WO 2019208507 A1 WO2019208507 A1 WO 2019208507A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- language
- feature extraction
- rule
- extraction
- specific
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Definitions
- the present disclosure relates to a language feature extraction device, a unique expression extraction device, an extraction method, and a program.
- word recognition morpheme analysis
- word information such as word notation and part of speech is acquired, and the word information is used as a language feature (feature) to arrange the preceding and following word information.
- word information is used as a language feature (feature) to arrange the preceding and following word information.
- feature a language feature
- the linguistic features that are considered when performing the proper expression extraction process include information obtained in the previous morphological analysis process, such as appearance notation of the word, part of speech, prototype notation, and reading, that is, morphological analysis.
- Information stored in the word dictionary to be referenced is often used.
- the type of feature that is effective in the extraction of proper expressions depends on the original characteristics of the language. For example, in English, it is natural to think of the former as a proper name (organization name) and the latter as a general noun (apple) between “Apple” and “apple”. This is a feature, but in Japanese it is not necessary to consider such a phenomenon. In English, the type of word can be generalized to some extent by using information on the number of ending characters in the word such as “ ⁇ ing”, “ ⁇ es”, and “ ⁇ ed”. Furthermore, in English, it is considered effective to use a feature that also considers information on the character type of a word, such as whether it is a word consisting of numbers and symbols, or a word consisting only of the alphabet.
- An object of the present invention is to provide a specific expression extraction device, an extraction method, and a program that can absorb differences in features to be taken into account and realize common specific expression extraction as a processing system.
- a language feature extraction apparatus selects an abstract rule corresponding to a feature of a target language from a set of abstract rules common to a plurality of languages, and the target Specific feature extraction methods that match the language and output conditions defined as language-specific feature extraction rules are defined for each of a plurality of target languages, and morphemes of input sentences are defined.
- the analysis result refer to the language-specific feature extraction rule for extracting the feature related to the notation or part of speech that is defined for the language of the input sentence and is included in the morpheme analysis result.
- a language feature extraction unit is provided for extracting features and outputting the result as a language feature extraction result.
- the specific expression extraction device selects an abstract rule corresponding to the characteristics of the target language from a set of abstract rules common to a plurality of languages, A specific feature extraction method that matches the target language and an output condition defined as a feature extraction rule for each language, the feature extraction rule for each language is defined for each of a plurality of target languages, and an input sentence
- the language-specific feature extraction rule for extracting the feature related to the notation or the part of speech defined in the language of the input sentence and included in the morphological analysis result is referred to the language.
- a language feature extraction unit that extracts corresponding features and outputs the result as a language feature extraction result, and a machine learning algorithm that is common to the plurality of target languages, and performs language feature extraction for each of the plurality of target languages.
- the specific expression extraction model for each language learned in advance to output the specific expression extraction result, and the language feature extraction result output from the language feature extraction unit as an input the language of the input sentence
- a specific expression extraction unit that executes a specific expression extraction process using the corresponding specific expression extraction model and outputs the extracted specific expression.
- the named entity extraction apparatus according to the first aspect or the second aspect, wherein the set of abstract rules includes a rule for capturing characteristics of a character situation in a word, word information Is a rule for replacing from another viewpoint, and a rule for realizing selection of useful feature values for each language.
- the extraction device is the extraction device according to the first aspect or the second aspect, wherein the set of abstract rules includes a rule for extracting a partial character string at an arbitrary position, and an arbitrary position.
- the language feature extraction unit selects an abstract rule corresponding to the feature of the target language from a set of abstract rules common to a plurality of languages.
- the specific feature extraction method according to the target language and the output condition defined as the feature extraction rule for each language, the feature extraction rule for each language is defined for each of a plurality of target languages, and input
- the language feature extraction unit selects an abstract rule corresponding to the feature of the target language from a set of abstract rules common to a plurality of languages.
- the specific feature extraction method according to the target language and the output condition defined as the feature extraction rule for each language, the feature extraction rule for each language is defined for each of a plurality of target languages, and input
- Extracting a feature according to the language feature and outputting it as a language feature extraction result uses a machine learning algorithm common to the plurality of target languages for each of the plurality of target languages.
- the specific expression extraction unit uses a machine learning algorithm common to the plurality of target languages for each of the plurality of target languages.
- Using the language feature extraction result as an input using a specific expression extraction model for each language that has been learned in advance to output the specific expression extraction result, and using the specific expression extraction model corresponding to the language of the input sentence, And a step of executing a specific expression extraction process using the language feature extraction result output from the language feature extraction unit as an input and outputting the extracted specific expression.
- a program according to a seventh aspect of the present disclosure is a program for causing a computer to function as each unit of the extraction device according to any one of the first to fourth aspects. is there.
- a feature amount of a language is also called “feature”.
- feature an original feature of a language is referred to as “feature”, and a feature amount extracted for extracting a unique expression is referred to as “feature”.
- a morpheme analysis process corresponding to a language is executed, and a morpheme analysis result is output.
- a language feature extraction process is executed to extract a feature and output as a language feature extraction result.
- a specific expression extraction process is performed on the language feature extraction result, and a specific expression as an extraction result is output.
- the language feature extraction process (2) that absorbs the features for each language, and the setting of how to extract the features varies depending on each language.
- the extraction method of the feature for each language is defined by the extraction rule.
- the specific expression extraction process (3) is not language-dependent, and operates in the same processing system with respect to the language feature extraction result obtained from the result of the language feature extraction process (2).
- an existing morpheme analysis technique is used for the morpheme analysis process (1). According to the present embodiment, it is possible to introduce an arbitrary morphological analysis technique corresponding to each language, and by adding the processes (2) and (3) to the subsequent processes, it is possible to cope with multiple languages. An apparatus for extracting a specific expression can be realized.
- FIG. 1 is a configuration diagram showing an example of the configuration of the specific expression extraction apparatus 10 of the present embodiment.
- the specific expression extraction apparatus 10 of the present embodiment shown in FIG. 1 analyzes the input sentence 9 that is text, and extracts a specific expression such as a person name, a place name, an organization name, and a product name from the input sentence 9.
- the specific expression extraction apparatus 10 of this embodiment includes a language feature extraction apparatus 11, a morpheme analysis unit 12, a specific expression extraction unit 16, and a specific expression extraction model 17.
- the language feature extraction device 11 includes a language feature extraction unit 14 and a language-specific feature extraction rule 18.
- the specific expression extraction apparatus 10 of the present embodiment shown in FIG. 1 includes a CPU (Central Processing Unit), a RAM (Random Access Memory), a program for executing a specific expression extraction processing routine to be described later, and various data. It can be configured by a computer including a stored ROM (Read Only Memory). Specifically, the CPU that has executed the above-described program performs the language feature extraction device 11 (language feature extraction unit 14), the morpheme analysis unit 12, and the specific expression extraction unit 16 of the specific expression extraction device 10 illustrated in FIG. Function as.
- a CPU Central Processing Unit
- RAM Random Access Memory
- a program for executing a specific expression extraction processing routine to be described later and various data. It can be configured by a computer including a stored ROM (Read Only Memory).
- the CPU that has executed the above-described program performs the language feature extraction device 11 (language feature extraction unit 14), the morpheme analysis unit 12, and the specific expression extraction unit 16 of the specific expression extraction device 10 illustrated in FIG. Function as.
- the input sentence 9 is input to the morpheme analysis unit 12 of the specific expression extraction apparatus 10 from the outside of the apparatus.
- an input sentence 9A (“NTT Media IntelligencesLabs. Was established in 2012.”) in the case where the language exemplified in FIG. 2A is English or the language exemplified in FIG.
- the input sentence 9B (“NTT Media Intelligence Laboratory is in Yokosuka City") is entered.
- the morpheme analyzer 12 performs morpheme analysis processing on the input sentence 9 and outputs a morpheme analysis result 13. Any existing morpheme analysis technique can be used for the morpheme analysis process. Note that the morpheme analysis unit 12 uses a morpheme analysis technique for English if it is English, or Japanese if it is Japanese, according to the language of the input sentence 9. According to the morphological analysis process, the input sentence 9 is divided into words, and a morphological analysis result 13 in a state where word information such as a part of speech and a prototype is added is obtained as an output.
- the morpheme analysis result 13 of each language consists of a pair of notation, part of speech, prototype notation, and reading for each morpheme constituting the input sentence 9.
- “notation” and “part of speech” are indispensable as the morphological analysis result 13, but “prototype notation” and “reading” are not indispensable.
- the morpheme analysis unit 12 executes the morpheme analysis process on the input sentence 9A illustrated in FIG. 2A
- the morpheme analysis result 13A illustrated in FIG. 3A is obtained.
- the morphological analysis result 13A “NTT / NNP”, “Media / NN”, “Intelligence / NN”, “Labs./NNP”, “was / VBD”, “Establishd / VBN”, “in / IN”, “2012 / CD”, and “./.” are obtained.
- NNP represents a proper noun
- N represents a singular noun
- BD represents a past tense verb
- IN represents a preposition or cascade
- CD represents a radix.
- the morpheme analysis unit 12 executes the morpheme analysis process on the input sentence 9B illustrated in FIG. 2B
- the morpheme analysis result 13B illustrated in FIG. 3B is obtained.
- the morphological analysis result 13B “NTT / noun: proper”, “media / noun”, “intelligence / noun”, “laboratory / noun suffix: noun”, “Ha / particle”, “Yokosuka / noun: proper”, “city / noun suffix: noun”, “ni / particle”, “a / verb stem: R”, “ri / verb inflection ending”, “mas / Verb suffix "and” ./phrase "are obtained.
- the morphological analysis result 13 output from the morphological analysis unit 12 is input to the language feature extraction unit 14.
- the language feature extraction unit 14 executes language feature processing for extracting features while referring to the language-specific feature extraction rule 18 and outputs a language feature extraction result 15.
- the language-specific feature extraction rules 18 include extraction rules described using the following rules A to F, which are examples of abstract rules, and output rules described later.
- the following (I) to (III) are realized by these abstract rules.
- Selection of useful features for each language are examples of useful features for each language.
- the language feature extraction unit 14 uses a morpheme analysis result (notation:% form, part of speech:% pos, etc., which will be described later in detail) as a target: target, and features by language described using the following rules AF.
- a morpheme analysis result (notation:% form, part of speech:% pos, etc., which will be described later in detail) as a target: target, and features by language described using the following rules AF.
- the linguistic feature extraction rule 18 corresponding to the language of the input sentence 9 which is the extraction rule 18, the feature is extracted from the morphological analysis result 13.
- the feature extraction is performed for each morpheme (that is, for each row in FIG. 3). Further, when extracting features, processing is performed by acquiring the values of variables of “% form” for notation and “% pos” for parts of speech from the results of each morpheme.
- the language-specific feature extraction rule 18 is described using the rules A to F will be described as an example, but it is not essential to use
- Rule A A rule for extracting a partial character string at an arbitrary location (denoted as “Substr”).
- Rule B A rule (represented as “RegexReplace”) for extracting a partial character string at an arbitrary place by replacement / insertion / deletion.
- Rule C a rule (denoted as “RegexMatch”) for giving specific label information to an expression that matches a predetermined pattern.
- Rule D A rule (denoted as “IsContain”) for determining whether or not the expression matches a predetermined pattern.
- Rule E Rule for referring to dictionary information (external data) (denoted as “Dic”).
- Rule F Rule for initializing extraction information (denoted as “SetValue”).
- the format may be set.
- FIG. 4A shows an example of a language-specific feature extraction rule 18A for English, which is a language-specific feature extraction rule 18 when the language is English.
- FIG. 4B shows an example of a language-specific feature extraction rule 18B for Japanese, which is a language-specific feature extraction rule 18 when the language is Japanese.
- the language feature extraction rules shown in FIG. 4A and FIG. 4B conceptually represent the language feature extraction processing performed by the language feature extraction unit 14, and this expression method may be in an arbitrary format, and this is expressed on the program.
- the expression is converted into a character string search based on a regular expression, a dictionary search based on the value of% form, and the like.
- the extraction rules 1 to 5 of the language-specific feature extraction rule 18A are described using the above rule A.
- the number of bytes (1 byte) is extracted as a partial character string from the start byte position (0th byte) with respect to target (here, word notation% form) and stored in key (here,% pre1). It means to do.
- target here, word notation% form
- key here,% pre1.
- NTT a partial character string “N” is extracted and stored in% pre1.
- the extraction rule focuses on several characters from the beginning or end of the word.
- an extraction rule that focuses on the center portion of the word instead of both ends may be designed. In any case, it is important to be able to set an extraction rule that focuses on a part of the character string, not the entire word.
- the extraction rules 7 to 10 of the language-specific feature extraction rule 18A are described using the above rule C.
- ⁇ alpha> is set in% type.
- the extraction rules 8 to 10 in each case, if only uppercase alphabetic characters are included, ⁇ ALPHA> is included in% type, if only the first character is uppercase and thereafter lowercase letters are displayed in ⁇ type> ⁇ Alpha>, and if numbers are included,% type is included. Set ⁇ NUM> to.
- the extraction rule 11 of the language-specific feature extraction rule 18A is described using the above rule D.
- the extraction rule 12 of the language-specific feature extraction rule 18A is described using the above rule E.
- the extraction rule 13 of the language-specific feature extraction rule 18B is described using the above rule B.
- a character string in a desired range is extracted from a word notation, or a difference in the use of uppercase and lowercase letters is extracted as a word type.
- Feature extraction processing such as whether or not a specific character is included, and using information contained in the dictionary as a feature by referring to an external dictionary.
- the language-specific feature extraction rule 18 realizes the above (I) to (III) as described above. Since English and many European languages have the characteristic of changing the role of words by changing the part of the word, such as capitalization ending, case change, and capitalization, the above (I) and (III) are used. (I) is important. On the other hand, for Japanese, Chinese, Korean, etc., only the above (III) is used because there is no deceleration and no change in word form inside the word. For the whole language, if (II) is obtained, add (II).
- the language-specific feature extraction rule 18 has a mechanism for commonly handling many languages in such a broad manner.
- the language feature extraction unit 14 outputs the extracted features as a language feature extraction result 15.
- FIG. 5A shows the extracted features for each morpheme based on the language-specific feature extraction rules 18A (extraction rules 1 to 12, output rules) illustrated in FIG. 4A for the morphological analysis result 13A of the input sentence 9A. The output result is shown.
- FIG. 5B also shows the extracted features in units of morphemes based on the language-specific feature extraction rule 18B (extraction rule 13, output rule) illustrated in FIG. 4B for the morphological analysis result 13B of the input sentence 9B. The output result is shown.
- the extraction rules 1 to 13 shown here are intended to capture the characteristics of the written characters, including partial characters in words, word types based on character types such as uppercase and lowercase characters, and specific characters. It is. Also, information is acquired by collating an external dictionary from a part of speech information or a notation. These are general morpheme information obtained by morpheme analysis processing by the morpheme analysis unit 12, that is, based on morpheme dictionary information such as notation, part of speech, and prototype, a part is extracted like a partial character string, or a word It becomes an extraction rule that extracts features of a language by replacing it from another viewpoint such as type.
- the extraction rule captures characteristics from another viewpoint based on morpheme information, it is not limited to the specific extraction rules 1 to 13 exemplified here, and various extraction rules may be set.
- an extraction rule that can extract features suitable for each language is set as the language-specific feature extraction rule 18 and is used by the language feature extraction unit 14. Thereby, the language-specific differences can be absorbed in the language-specific feature extraction rules 18.
- the linguistic feature extraction result 15 output from the linguistic feature extraction unit 14 is input to the specific expression extraction unit 16.
- the specific expression extraction unit 16 executes a specific expression extraction process and outputs the extracted specific expression 19 to the outside of the specific expression extraction apparatus 10.
- Representative examples of the specific expressions to be extracted in the specific expression extraction process are the names, place names, organization names, amounts, dates, and times defined in the Japanese specific expression extraction technology workshop (abbreviated as IREX). , Ratio, and unique name.
- the types of these unique expressions are represented by ⁇ PSN>, ⁇ LOC>, ⁇ ORG>, ⁇ MNY>, ⁇ DAT>, ⁇ TIM>, ⁇ PCT>, and ⁇ ART>, respectively.
- ⁇ NIL> in addition to the above eight types of specific expressions, in addition, nine types in which ⁇ NIL> is added to represent a morpheme that is not actually a specific expression as one type of specific expression As a kind of proper expression to extract.
- each named entity is composed of at least one morpheme, in order to distinguish between the first morpheme of the named entity and the other morpheme, the type of the named entity, and the first morpheme of the named entity "B-" representing the fact and "I-” representing the morpheme in the middle of the specific expression. Note that “NIL” is not identified.
- the label string of the specific expression is derived using the statistical model so that the label string of the specific expression has the maximum probability with respect to the morpheme string that is the morpheme analysis result 13.
- the morpheme sequence is only for the morphological analysis result 13 itself, that is, the notation, the part of speech, the prototype, and the like.
- the feature obtained by the language feature extraction unit 14 Can be used as a morpheme string (language feature extraction result 15). Therefore, according to the specific expression extraction apparatus 10 of the present embodiment, it is possible to realize a specific expression extraction process using more abundant language features as compared with the conventional technique.
- an existing machine learning algorithm such as a support vector machine (SVM) or a conditional random field (CRF: Conditional Random Field) may be used.
- SVM support vector machine
- CRF conditional random field
- a machine-specific learning algorithm common to a plurality of languages assumed as the language of the input sentence 9, the language feature extraction result 15 as an input, and a specific expression extraction model for each language that has been learned in advance to output the specific expression extraction result 17 is built. For example, for each language, by using a plurality of learning data that is a combination of a language feature extraction result 15 obtained for a sentence of the language and a specific expression extraction result given in advance, a machine learning algorithm common to the language, The specific expression extraction model 17 for the language is learned.
- FIG. 6A shows an example of a specific expression 19A output as a result of the specific expression extraction unit 16 performing a specific expression extraction process based on the language feature extraction result 15A corresponding to the input sentence 9A.
- FIG. 6B shows an example of the specific expression 19B output as a result of the specific expression extraction unit 16 performing the specific expression extraction process based on the language feature extraction result 15B corresponding to the input sentence 9B.
- step S100 the morpheme analysis unit 12 performs a morpheme analysis process on the input sentence 9 and outputs a morpheme analysis result 13 as described above.
- the morpheme analysis result 13 output from the morpheme analysis unit 12 is input to the language feature extraction unit 14.
- the language feature extraction unit 14 performs language feature processing for extracting features while referring to the language-specific feature extraction rule 18 with respect to the input morpheme analysis result 13, and performs extraction.
- the language feature extraction result 15 to which the feature is assigned is output.
- the language feature extraction unit 14 refers to the language-specific feature extraction rule 18 described using the rule corresponding to the language of the input sentence 9 as described above.
- the language feature extraction result 15 output from the language feature extraction unit 14 is input to the specific expression extraction unit 16.
- the specific expression extraction unit 16 executes the specific expression extraction process as described above, and outputs the extracted specific expression 19 to the outside of the specific expression extraction apparatus 10, and then the specific expression extraction process. Exit.
- the specific expression extraction unit 16 uses a machine learning algorithm common to a plurality of languages assumed as the language of the input sentence 9 and outputs a specific expression with the language feature extraction result 15 as an input. In this way, a specific expression extraction process corresponding to the language is executed using the language-specific specific expression extraction model 17 that has been learned in advance.
- the language feature extraction apparatus 11 selects an abstract rule corresponding to a feature of the target language from a set of abstract rules common to a plurality of languages, and performs specific processing according to the target language.
- the feature extraction rule 18 for each feature is defined as the feature extraction method and the output condition, and the language feature extraction rule 18 is defined for each of a plurality of target languages.
- a feature corresponding to the language is extracted by referring to the language-specific feature extraction rule 18 for extracting the feature related to the notation or part of speech that is defined for the language of the input sentence 9 and is included in the morphological analysis result 12.
- the language feature extraction unit 14 that outputs the language feature extraction result 15 is provided.
- the specific expression extraction apparatus 10 selects an abstract rule corresponding to the feature of the target language from a set of abstract rules common to a plurality of languages, and extracts specific features according to the target language. What is defined as the method and the output condition is the language-specific feature extraction rule 18, the language-specific feature extraction rule 18 is defined for each of the plurality of target languages, and the input sentence 9 is input to the morphological analysis result 12 of the input sentence 9.
- the feature extraction according to the language is extracted with reference to the feature extraction rule 18 for each language for extracting features related to the notation or the part of speech included in the morpheme analysis result 12 defined for the nine languages, and the language feature extraction Using the language feature extraction unit 14 to output as a result 15 and a machine learning algorithm common to a plurality of target languages, and using the language feature extraction result 15 as an input for each of the plurality of target languages, a specific table Extracting a specific expression corresponding to the language of the input sentence 9 by inputting the specific expression extraction model 17 for each language learned in advance to output the extraction result and the language feature extraction result 15 output from the language feature extraction unit 14 A specific expression extraction unit 16 that executes a specific expression extraction process using the model 17 and outputs the extracted specific expression;
- the specific expression extraction apparatus 10 even when the target language feature is different for each language, the difference in the feature is expressed by the language-specific feature extraction rule 18 so that the processing system is a language. Multilingual specific expression extraction that handles multiple languages in a common system can be realized.
- the language to be processed is known in advance. It is assumed that the extraction rule and the specific expression extraction model 17 are switched to those of the target language according to the language to be processed.
- a language identification technique in combination with the present disclosure, it is also possible to realize a system that automatically switches to a language extraction rule corresponding to a language identification result and a specific expression extraction model 17.
- this embodiment is an example, and the specific configuration is not limited to this embodiment, and includes design and the like within a scope that does not depart from the gist of the present invention, and can be changed according to circumstances. Needless to say.
- the mode in which the unique feature extraction device 10 includes the language-specific feature extraction rule 18 has been described.
- a part or all of the language-specific feature extraction rule 18 is external to the specific expression extraction device 10. It may be provided.
- the extraction of the specific expression has been described as an example.
- the technique of the present disclosure can be applied to tasks other than the extraction of the specific expression.
- a task that extracts features that focus on word notation or part of speech from morphological analysis results and performs estimation or discrimination using a machine learning model for example, technical term extraction, term synonym determination / ambiguity resolution, etc.
- the present invention is not limited and can be applied to any form.
- the specific expression extraction apparatus 10 of the present embodiment has a computer system inside. However, if the “computer system” uses a WWW (World Wide Web) system, a homepage providing environment ( Or a display environment).
- WWW World Wide Web
- the program can be provided by being stored in a computer-readable recording medium or provided via a network. It is also possible to do.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
言語ごとに考慮すべき特徴の違いをうまく吸収し、処理系としては共通の固有表現抽出を実現することができるようにする。 言語特徴の抽出装置11は、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力する言語特徴抽出部を備える。
Description
本開示は、言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラムに関する。
人間が記述したテキストや、人間の発話を音声認識した後のテキスト等を対象として、さまざまな処理を行うことで、翻訳、情報抽出などの高度な言語処理が可能となる。特に、固有表現の抽出は、文章に書かれている、「だれが」、「どこで」、「なにを」などの内容そのものを表しており、テキストの内容把握のためには重要な要素となる。固有表現の抽出に関する技術は、例えば、特許文献1に記載されている。
通常、固有表現抽出処理では、前段の処理で単語認定(形態素解析)を行い、単語表記や品詞などの単語情報を取得し、その単語情報を言語特徴(素性)として前後の単語情報の並びを考慮した固有表現抽出処理を行う。固有表現抽出処理を行う際に考慮される素性となる言語特徴としては、該単語の出現表記、品詞、原型表記、及び読みなど、前段の形態素解析処理の過程で得られる情報、すなわち形態素解析で参照する単語辞書に収録されている情報がよく使われる。
どのような素性を用いるのが固有表現抽出において有効であるかについては、言語のもともとの特徴に応じて変わってくる。例えば、英語において、「Apple」と「apple」とでは、前者が固有名(組織名)、後者が一般名詞(リンゴ)と考えるのが自然であり、大文字・小文字の使われ方の違いが大きな特徴となるが、日本語ではこのような現象はあまり考慮する必要がない。また、英語では、「~ing」、「~es」、「~ed」など、単語内の語尾数文字列の情報で、単語の種類をある程度一般化できる。さらに英語では、数字や記号から成る単語なのか、アルファベットだけからなる単語なのか等のような単語の文字種の情報についても考慮した素性を用いることが有効であると考えられる。しかし、このような単語内の大文字・小文字の状況や、単語内の一部の文字列情報、及び単語の文字種の情報は、前段の形態素解析処理の中では通常取得できない。また、英語では必要な素性情報が、日本語ではそれほど重要でなく、取得する必要がない、すなわち、言語によって考慮したい素性は大きく変わってくることが予想される。
このような状況においては、複数の言語を統一的に扱える固有表現抽出の実現において、もともとの言語の特徴に応じて、自由に考慮すべき素性の設計が行える仕組みが必要となる。
単一の言語だけでなく、複数の言語を対象として、同じ処理系で固有表現抽出を行う場合、言語ごとに考慮すべき特徴の種類が大きく違うケースがある、という課題がある。もっとも単純なケースでは、前段の形態素解析処理が出力する、単語情報、例えば、表記と品詞のみを考慮する、ということも考えられる。しかし、より複雑なケースの場合、表記の中の、大文字の有無、単語内の文字の並びなど、形態素解析結果としては直接得られない情報を取得することが必要になるケースもある。
本開示は、上記の点に鑑みてなされたものであり、複数の言語を対象として固有表現抽出するにあたり、言語によって着目する特徴が異なる場合でも統一的な処理系による固有表現抽出を言語ごとに考慮すべき特徴の違いをうまく吸収し、処理系としては共通の固有表現抽出を実現することができる、固有表現の抽出装置、抽出方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本開示の第1の態様の言語特徴の抽出装置は、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力する言語特徴抽出部を備える。
また、上記目的を達成するために、本開示の第2の態様の固有表現の抽出装置は、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力する言語特徴抽出部と、前記複数の対象言語に共通の機械学習アルゴリズムを用い、前記複数の対象言語ごとに、言語特徴抽出結果を入力として、固有表現抽出結果を出力するように予め学習済みの言語別の固有表現抽出モデルと、前記言語特徴抽出部から出力された言語特徴抽出結果を入力として、前記入力文の言語に対応する前記固有表現抽出モデルを用いて、固有表現抽出処理を実行し、抽出した固有表現を出力する固有表現抽出部と、を備える。
本開示の第3の態様の固有表現抽出装置は、第1の態様または第2の態様の抽出装置において、前記抽象ルールの集合は、単語内の文字状況の特徴を捉えるためのルール、単語情報を別の観点で置き換えるためのルール、及び言語ごとに有用な特徴量の取捨選択を実現するためのルールからなる。
本開示の第4の態様の抽出装置は、第1の態様または第2の態様の抽出装置において、前記抽象ルールの集合は、任意の箇所の部分文字列を抽出するためのルール、任意の箇所の部分文字列の置換、挿入、及び削除の少なくとも一つを行って文字列を抽出するためのルール、所定のパタンにマッチする表現に対し、特定のラベル情報を付与するためのルール、及び所定のパタンにマッチする表現か否かを判定するためのルールを含む。
上記目的を達成するために、本開示の第5の態様の抽出方法は、言語特徴抽出部が、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力するステップを含む言語特徴の抽出方法である。
上記目的を達成するために、本開示の第6の態様の抽出方法は、言語特徴抽出部が、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力するステップと、固有表現抽出部が、前記複数の対象言語に共通の機械学習アルゴリズムを用い前記複数の対象言語ごとに、言語特徴抽出結果を入力として、固有表現抽出結果を出力するように予め学習済みの言語別の固有表現抽出モデルであって、かつ前記入力文の言語に対応する前記固有表現抽出モデルを用いて、前記言語特徴抽出部から出力された言語特徴抽出結果を入力として固有表現抽出処理を実行し、抽出した固有表現を出力するステップと、を含む固有表現の抽出方法である。
上記目的を達成するために、本開示の第7の態様のプログラムは、コンピュータを、第1の態様から第4の態様のいずれか1態様に記載の抽出装置の各部として機能させるためのプログラムである。
本開示によれば、言語ごとに考慮すべき特徴に対応し、尚且つその違いをうまく吸収し、処理系としては共通の固有表現抽出を実現することができる、という効果が得られる。
以下、図面を参照して本開示の実施形態を詳細に説明する。なお、一般に、言語処理技術において、言語の特徴量は「素性」とも呼ばれる。本開示では、言語が有するもともとの特徴については「特徴」といい、固有表現抽出のために抽出される特徴量については「素性」という。
<本実施形態の概要>
本開示は、複数の言語を固有表現抽出するにあたり、言語によって着目する特徴が異なる場合でも統一的な処理系で固有表現抽出するために以下の(1)~(3)の構成で固有表現の抽出装置を実現する。
本開示は、複数の言語を固有表現抽出するにあたり、言語によって着目する特徴が異なる場合でも統一的な処理系で固有表現抽出するために以下の(1)~(3)の構成で固有表現の抽出装置を実現する。
(1)言語に応じた形態素解析処理を実行し、形態素解析結果を出力する。
(2)形態素解析結果に対し、言語別に当該言語の特徴に応じて設けられた抽出ルールを参照して、言語特徴抽出処理を実行して素性を抽出し、言語特徴抽出結果として出力する。
(3)言語特徴抽出結果に対し、固有表現抽出処理を行い、抽出結果である固有表現を出力する。
(2)形態素解析結果に対し、言語別に当該言語の特徴に応じて設けられた抽出ルールを参照して、言語特徴抽出処理を実行して素性を抽出し、言語特徴抽出結果として出力する。
(3)言語特徴抽出結果に対し、固有表現抽出処理を行い、抽出結果である固有表現を出力する。
ここで、言語ごとの特徴を吸収するのは、上記(2)の言語特徴抽出処理であり、ここでの特徴の取り出し方は各言語によって設定を変える。その言語ごとの特徴の取り出し方は、抽出ルールで規定する。上記(3)の固有表現抽出処理自体は、言語依存はなく、(2)の言語特徴抽出処理の結果により得られる、言語特徴抽出結果に対して同一の処理系で動くものとする。なお、本実施形態では、上記(1)の形態素解析処理には既存の形態素解析技術を用いる。本実施形態によれば、各言語に対応する任意の形態素解析技術を導入することができ、その後段の処理に上記(2)及び(3)の処理を追加することで、多言語に対応する固有表現の抽出装置を実現できる。
<本実施形態の固有表現の抽出装置の構成>
次に、本実施形態の固有表現の抽出装置の構成について説明する。図1には、本実施形態の固有表現の抽出装置10の一例の構成を表す構成図を示す。図1に示した本実施形態の固有表現の抽出装置10は、テキストである入力文9を解析し、入力文9から人名、地名、組織名、及び商品名などの固有表現を抽出する。
次に、本実施形態の固有表現の抽出装置の構成について説明する。図1には、本実施形態の固有表現の抽出装置10の一例の構成を表す構成図を示す。図1に示した本実施形態の固有表現の抽出装置10は、テキストである入力文9を解析し、入力文9から人名、地名、組織名、及び商品名などの固有表現を抽出する。
図1に示すように、本実施形態の固有表現の抽出装置10は、言語特徴の抽出装置11、形態素解析部12、固有表現抽出部16、及び固有表現抽出モデル17を備える。言語特徴の抽出装置11は、言語特徴抽出部14及び言語別特徴抽出ルール18を含む。
図1に示した本実施形態の固有表現の抽出装置10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する固有表現抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROM(Read Only Memory)と、を含むコンピュータで構成することができる。具体的には、上記プログラムを実行したCPUが、図1に示した固有表現の抽出装置10の言語特徴の抽出装置11(言語特徴抽出部14)、形態素解析部12、及び固有表現抽出部16として機能する。
固有表現の抽出装置10の形態素解析部12には、装置の外部から入力文9が入力される。以下、具体例として、固有表現の抽出装置10に、図2Aに例示した言語が英語の場合の入力文9A(「NTT Media Intelligence Labs. was established in 2012.」)、または図2Bに例示した言語が日本語である入力文9B(「NTT メディアインテリジェンス研究所は横須賀市にあります。」)が入力された場合を説明する。
形態素解析部12は、入力された入力文9に対し、形態素解析処理を実行し、形態素解析結果13を出力する。形態素解析処理には、既存の任意の形態素解析技術を利用することができる。なお、形態素解析部12は、入力文9の言語に応じて、英語であれば英語用、日本語であれば日本語用の形態素解析技術を用いる。形態素解析処理によれば、入力文9を単語に分割し、品詞、及び原型など、単語情報を付加された状態の形態素解析結果13が出力として得られる。換言すると、各言語の形態素解析結果13とは、入力文9を構成する形態素ごとの、表記、品詞、原型表記、及び読み等の対からなる。なお、形態素解析結果13として、これらのうち、「表記」及び「品詞」は必須であるが、「原型表記」及び「読み」は必須としていない。
例えば、形態素解析部12が、図2Aに例示した入力文9Aに対して形態素解析処理を実行した場合、図3Aに例示した形態素解析結果13Aが得られる。具体的には、図3Aに示されるように、形態素解析結果13Aとして、「NTT/NNP」、「Media/NN」、「Intelligence/NN」、「Labs./NNP」、「was/VBD」、「establishd/VBN」、「in/IN」、「2012/CD」、及び「./.」が得られる。なお、「NNP」は固有名詞を表し、「NN」は単数形の名詞を表し、「VBD」は過去時制の動詞を表し、「IN」は前置詞または縦続接続詞を表し、「CD」は基数を表し、「.」は句点を表す。
また例えば、形態素解析部12が、図2Bに例示した入力文9Bに対して形態素解析処理を実行した場合、図3Bに例示した形態素解析結果13Bが得られる。具体的には、図3Bに示されるように、形態素解析結果13Bとして、「NTT/名詞:固有」、「メディア/名詞」、「インテリジェンス/名詞」、「研究所/名詞接尾辞:名詞」、「は/助詞」、「横須賀/名詞:固有」、「市/名詞接尾辞:名詞」、「に/助詞」、「あ/動詞語幹:R」、「り/動詞活用語尾」、「ます/動詞接尾辞」、及び「。/句点」が得られる。
言語特徴抽出部14には、形態素解析部12から出力された形態素解析結果13が入力される。言語特徴抽出部14は、言語別特徴抽出ルール18を参照しながら、素性を抽出する言語特徴処理を実行し、言語特徴抽出結果15を出力する。
本実施形態では、一例として言語別特徴抽出ルール18には、抽象ルールの一例である以下のルールA~Fを用いて記述された抽出ルール、及び後述する出力ルールが含まれる。本実施形態の言語別特徴抽出ルール18では、これら抽象ルールにより、以下の(I)~(III)が実現される。
(I)大文字小文字、単語内文字、特定文字または文字列の有無、及び文字種等の単語内の文字状況の特徴を捉える。
(II)表記や品詞等の単語情報を、単語タイプ、品詞などのカテゴリの上/下位概念化、及び辞書などの外部知識を参照して、別の観点で置き換える。
(III)言語ごとに有用な特徴量の取捨選択。
(I)大文字小文字、単語内文字、特定文字または文字列の有無、及び文字種等の単語内の文字状況の特徴を捉える。
(II)表記や品詞等の単語情報を、単語タイプ、品詞などのカテゴリの上/下位概念化、及び辞書などの外部知識を参照して、別の観点で置き換える。
(III)言語ごとに有用な特徴量の取捨選択。
言語特徴抽出部14は、形態素解析結果(表記:%form、品詞:%pos等。詳細後述)の何れかを対象:targetとする、以下のルールA~Fを用いて記述された言語別特徴抽出ルール18であって入力文9の言語に対応する言語別特徴抽出ルール18に基づいて、形態素解析結果13から素性の抽出を行う。素性の抽出は、形態素ごと(すなわち、図3の1行ごと)に処理を行う。また、素性の抽出時には、表記は%form、品詞は%posという変数の値を各形態素結果から取得して処理を行う。なお、本実施形態では、言語別特徴抽出ルール18が、ルールA~Fを用いて記述される場合を例に説明するが、これらのうち、ルールE、Fを用いることは必須ではない。
ルールA:任意の箇所の部分文字列を抽出するためのルール(「Substr」と表記される)。
ルールB:任意の箇所の部分文字列を、置換/挿入/削除を行って抽出するためのルール(「RegexReplace」と表記される)。
ルールC:所定のパタンにマッチする表現に対し、特定のラベル情報を付与するためのルール(「RegexMatch」と表記される)。
ルールD:所定のパタンにマッチする表現か否かを判定するためのルール(「IsContain」と表記される)。
ルールE:辞書情報(外部データ)を参照するためのルール(「Dic」と表記される)。
ルールF:抽出情報を初期化するためのルール(「SetValue」と表記される)。
ルールB:任意の箇所の部分文字列を、置換/挿入/削除を行って抽出するためのルール(「RegexReplace」と表記される)。
ルールC:所定のパタンにマッチする表現に対し、特定のラベル情報を付与するためのルール(「RegexMatch」と表記される)。
ルールD:所定のパタンにマッチする表現か否かを判定するためのルール(「IsContain」と表記される)。
ルールE:辞書情報(外部データ)を参照するためのルール(「Dic」と表記される)。
ルールF:抽出情報を初期化するためのルール(「SetValue」と表記される)。
ここで、上記ルールA~Fを用いて記述された抽出ルールに従って、形態素解析結果13から抽出した情報に対し、出力ルール(図4A及び図4B参照)を用いて最終的に素性として用いる情報や、そのフォーマットを設定するようにしてもよい。
前述したように、言語ごとに着目したい特徴は異なるため、言語別特徴抽出ルール18は言語別に前記ルールA~Fの何れか(少なくとも1つ以上)を用いて記述されるものとする。図4Aには、言語が英語である場合の言語別特徴抽出ルール18である、英語用の言語別特徴抽出ルール18Aの一例を示す。また、図4Bには、言語が日本語である場合の言語別特徴抽出ルール18である、日本語用の言語別特徴抽出ルール18Bの一例を示す。
言語特徴抽出処理では、形態素解析結果13に含まれる単語表記(%form)や品詞(%pos)を活用し、これを元に文字列処理や辞書引きを行うことを想定している。図4A及び図4Bに示す言語特徴抽出ルールは、言語特徴抽出部14で実施する言語特徴抽出処理を概念的に表したものであり、この表現方法は任意の形式でよく、またプログラム上はこの表現から正規表現に基づく文字列検索や、%formの値による辞書検索などの処理に変換して実施するものとする。
以上のように、共通化したルールの集合を定義しておくことで、対象とする各言語の特徴に応じてルールの集合からルールを選択し、処理対象言語に合わせた具体的な言語特徴抽出ルールの定義を行うことができる。また、最終的に素性として出力する際の出力ルールにおいて、各素性を出力するか否かの定義や、出力フォーマットの指定(素性間の区切り文字を”/”とする、等)を記述可能にすることで、各言語の素性、及びその種類数のコントロールや、書式の統一を容易に設定できる。
このように、考慮すべき素性の設計や管理が自由・柔軟・容易に行えて、かつ統一性のある素性抽出結果が出力できる仕組みを導入することで、言語ごとに考慮すべき特徴の違いをうまく吸収し、後段の固有表現抽出部16における処理の共通化を実現することが可能となる。
まず、図4Aに例示した、英語用の言語別特徴抽出ルール18Aについて詳細に説明する。
言語別特徴抽出ルール18Aの抽出ルール1~5は上記のルールAを用いて記述される。抽出ルール1~5において「Substr」は、「Substr=target,key,開始バイト位置,バイト数」で表現される。
抽出ルール1の場合、target(ここでは単語表記%form)に対して開始バイト位置(0バイト目)からバイト数(1バイト分)を部分文字列として取り出し、key(ここでは%pre1)に記憶することを意味する。例えば、「NTT」という表記の場合、抽出ルール1によれば、「N」という部分文字列が取り出されて、%pre1に格納される。抽出ルール2の場合、先頭から2バイト分取り出され、%pre2=NTとなる。
一方、抽出ルール3~5の場合では、開始バイト位置が-1(=末尾)となり、そこから、1バイト分、2バイト分、及び3バイト分が各々取り出されて、それぞれ%suf1、%suf2、及び%suf3に格納される。例えば「playing」という表記であれば、%suf1=g、%sufs2=ng、%sufs2=ingが各々格納される。このように、抽出ルール1~5により、単語表記の任意の箇所の部分文字列を取り出すことができる。
なお、この例では単語の先頭または末尾からの数文字に着目する抽出ルールとしたが、言語の特徴によっては、単語の両端ではなく中央部分に着目する抽出ルールを設計しても良い。いずれにしても、単語全体の表記ではなく、一部の文字列に着目する抽出ルールが設定できることが重要である。
また、言語別特徴抽出ルール18Aの抽出ルール6は上記のルールFを用いて記述される。抽出ルール6において「SetValue」は、「SetValue=key,value」で表現されkeyに対してvalueを設定する。
抽出ルール6では、単語タイプを表すkeyとして%typeに<else>を設定する。
また、言語別特徴抽出ルール18Aの抽出ルール7~10は、上記のルールCを用いて記述される。抽出ルール7~10において「RegexMatch」は、「RegexMatch=target,条件,key,value」で表現され、targetが条件にマッチした場合にkeyに対してvalueを設定する。抽出ルール7の場合、単語表記(%form)に小文字の英字だけが含まれる場合は、%typeに<alpha>を設定する。抽出ルール8~10の場合では、各々、大文字の英字だけが含まれれば%typeに<ALPHA>、先頭だけ大文字でそれ以降小文字であれば%typeに<Alpha>、数字が含まれれば%typeに<NUM>を設定する。
抽出ルール6~10により、単語に含まれる文字に応じて、<alpha>、<ALPHA>、<Alpha>、<NUM>、及び<else>の5種類の分類ができる。
また、言語別特徴抽出ルール18Aの抽出ルール11は上記のルールDを用いて記述される。抽出ルール11において「IsContain」は、「IsContain=target,条件,key,value1,value2」で表現され、targetが条件に指定する文字を含む場合にkeyにvalue1を設定し、含まなければvalue2を設定する。
抽出ルール11の場合では、単語表記(%form)にハイフン「-」が含まれる場合は、%hyphenに「1」を設定し、そうでない場合は「0」を設定する。この抽出ルールにより、形態素解析結果に特定の文字が含まれるか否かを特徴として検知することができる。例えば、「mid-December」、「al-Jazeera」、及び「late-Qing」などのようにハイフン「-」を含んで複合語のようになる英語表現は数多くある。このような複合語は、組み合わせの種類が膨大にあるため、全ての出現パタンが学習データに存在することは期待できない。そのため、ハイフンの有無という特徴をとらえておくことで、多様なバリエーションの複合語の出現を抽象化してとらえておくことができると期待される。
また、言語別特徴抽出ルール18Aの抽出ルール12は上記のルールEを用いて記述される。抽出ルール12において「Dic」は、「Dic=辞書パス,target,value,照合タイプ」で表現され、辞書パスで提示される辞書に対して、targetをkeyとして指定する照合タイプで辞書検索し、辞書登録情報をvalueに格納する。
抽出ルール12の場合では、/path/dicの辞書に対して、単語表記%formをkeyとして最長一致の照合(LONGEST)で辞書検索し、辞書中に照合するものがあれば、その辞書登録情報を%dic_valに格納する。この抽出ルールにより、形態素解析結果から何かしらの外部情報源を参照し、そこに含まれる情報を特徴として取り出すことができる。
次に、図4Bに例示した、日本語用の言語別特徴抽出ルール18Bについて詳細に説明する。
言語別特徴抽出ルール18Bの抽出ルール13は上記のルールBを用いて記述される。抽出ルール13において「RegexReplace」は、「Regreplace=置き換え先、置き換え元、条件」で表現され、置き換え元に対して条件を適用し置き換え先に格納する。
抽出ルール13の場合では、品詞(%pos)に対して、「:」の直前までの範囲だけを取り出して改めて品詞(%pos)に置き換えることになり、例えば「動詞:サ変」という名詞であった場合は「動詞」だけが品詞として置き換わる。
以上のようにして、言語別特徴抽出ルール18を持つことにより、例えば英語に対しては単語表記から注目したい範囲の文字列を取り出したり、大文字や小文字の使われ方の違いを単語タイプとして取り出したり、特定の文字が含まれるか否か、更には外部の辞書を参照してその辞書に含まれる情報を特徴として活用したり、といった特徴抽出処理が可能となる。
上述したように言語別特徴抽出ルール18は、上述したように、上記(I)~(III)を実現するものである。英語や多くのヨーロッパ言語は、活用語尾や格変化や、大文字小文字等、単語内の一部の変化で語の役割を変える特徴があるため、上記(I)及び(III)が用いられ、特に(I)が重要である。一方、日本語、中国語、及び韓国語などは、減速、単語の内部での語形変化がないため、上記(III)のみが用いられる。なお、言語全般について、もし上記(II)が得られる状況ならば、(II)についても追加すると良い。言語別特徴抽出ルール18は、このような、大枠のとらえ方で多くの言語を共通的に扱う仕組みをとるものである。
一方、例えば日本語では、原則、形態素解析部12における形態素解析処理で得られた情報(表記、品詞、及び原型)だけを使うという想定で、品詞だけは先頭の品詞(一番メインとなる主品詞)だけを使う、といった変換だけを行った後、出力ルールを用いて必要最低限の素性のみ抽出する、ということが可能となる。
言語特徴抽出部14では、抽出された素性を言語特徴抽出結果15として出力する。図5Aには、入力文9Aの形態素解析結果13Aに対して、図4Aに例示した言語別特徴抽出ルール18A(抽出ルール1~12、出力ルール)に基づいて、抽出された素性を形態素単位で出力した結果を示す。また、図5Bには、入力文9Bの形態素解析結果13Bに対して、図4Bに例示した言語別特徴抽出ルール18B(抽出ルール13、出力ルール)に基づいて、抽出された素性を形態素単位で出力した結果を示す。
ここで、前述したように、入力された形態素解析結果13、及び抽出した素性の全てを固有表現抽出に利用しなくてもよい。図5A及び図5Bの例では、各々図4A及び図4Bに例示した言語別特徴抽出ルール18A、18Bに出力ルールとして定義された素性のみを最終的な素性として出力しており、例えば形態素解析結果13で得られる情報(表記、品詞、及び原型)のうち、原型の情報は出力していない。
なおここで示した抽出ルール1~13は、単語内の部分的な文字、大文字小文字の状況など文字種による単語タイプ、及び特定の文字を含むなど、表記の文字の特徴を捉えることを想定したものである。また、品詞情報の一部や、表記から外部辞書に照合して情報を取得するものである。これらは、形態素解析部12による形態素解析処理で得られる一般的な形態素情報、すなわち、表記、品詞、及び原型といった形態素辞書情報を元にして、部分文字列のように一部を取り出したり、単語タイプのように別の観点で置き換えたりして、言語の特徴を抽出する抽出ルールとなる。このように形態素情報を元にして別の観点での特徴を捉える抽出ルールであれば、ここに例示した具体的な抽出ルール1~13だけにとどまらず、色々な抽出ルールを設定してよい。いずれにしても、言語別に注目したい特徴は異なるため、それぞれの言語に見合った特徴を抽出できる抽出ルールを言語別特徴抽出ルール18として設定し、言語特徴抽出部14が利用する。これにより、言語別の違いを言語別特徴抽出ルール18の中で吸収することができる。
固有表現抽出部16には、言語特徴抽出部14から出力された言語特徴抽出結果15が入力される。固有表現抽出部16は、固有表現抽出処理を実行し、抽出した固有表現19を、固有表現の抽出装置10の外部に出力する。
固有表現抽出部16が用いる固有表現抽出技術としては、既存の技術を使うことができる。
固有表現抽出処理で抽出対象とする固有表現の代表的な例としては、日本語の固有表現抽出技術のワークショップ(略称IREX)で定義されている人名、地名、組織名、金額、日付、時間、割合、及び固有物名の8種類がある。これらの固有表現の種類をそれぞれ、<PSN>、<LOC>、<ORG>、<MNY>、<DAT>、<TIM>、<PCT>、及び<ART>で表される。本実施形態の固有表現抽出部16では、固有表現の種類として上記8種類の他、さらに、実際には固有表現でない形態素を固有表現の一種類として表すために<NIL>を追加した、9種類を抽出する固有表現の種類としている。
各固有表現は少なくとも1つの形態素から構成されることを考慮し、固有表現の冒頭の形態素とそれ以外の形態素とを識別するために、固有表現の種類に、さらに固有表現の冒頭の形態素であることを表す「B-」、及び固有表現の途中の形態素であることを表す「I-」で表す。なお、「NIL」については当該識別を行わない。
統計モデルである固有表現抽出モデル17に基づく固有表現抽出処理では、形態素解析結果13である形態素列に対して固有表現のラベル列が最も確率最大となるように統計モデルを用いて導出する。通常の固有表現抽出処理では、形態素列としては、形態素解析結果13そのもの、すなわち表記、品詞、及び原型などのみを対象とするが、本実施形態では、言語特徴抽出部14にて得られた素性を併せ持つ形態素列(言語特徴抽出結果15)を活用できる。従って、本実施形態の固有表現の抽出装置10によれば、従来技術と比較して、より豊富な言語特徴を使った固有表現抽出処理を実現できる。
なお、固有表現抽出モデル17の学習アルゴリズムとしては、既存の機械学習アルゴリズムであるサポートベクタマシン(SVM:Support Vector Machine)や条件付き確率場(CRF:Conditional Random Field)などを用いればよい。入力文9の言語として想定される複数の言語に共通の機械学習アルゴリズムを用い、言語特徴抽出結果15を入力として、固有表現抽出結果を出力するように予め学習済みの言語別の固有表現抽出モデル17を構築しておく。例えば、言語毎に、当該言語の文について得られる言語特徴抽出結果15と、予め与えられた固有表現抽出結果との組み合わせである複数の学習データを用いて、言語に共通の機械学習アルゴリズムにより、当該言語の固有表現抽出モデル17を学習する。その際、英語のように多様な言語特徴を考慮する場合、通常の表記や品詞のみを対象としたときの素性より大幅に素性の個数が増えることが予想される。素性の個数はモデルサイズに直結し、モデルサイズが大きくなりすぎると、実行するコンピュータのディスク容量を逼迫することも懸念される。その場合は、学習時に、素性の出現頻度が低いもの(たとえば出現回数が5回以下)を削除したり、素性の組合せで考慮するときの前後の形態素数(一般にウインドウサイズと呼ばれるもの)を狭めたり、複数の素性の組み合わせは考慮しない、など、素性の個数を抑える策をとり、解析精度とモデルサイズの関係を調査しながら最適の素性パタンを設定することも重要である。上記の出力ルールを用いることで、各言語の素性の数、及びその種類の数等のコントロールを容易に行うことができる。
図6Aには、入力文9Aに対応する言語特徴抽出結果15Aに基づき、固有表現抽出部16が固有表現抽出処理を行った結果出力される、固有表現19Aの一例を示す。また、図6Bには、入力文9Bに対応する言語特徴抽出結果15Bに基づき、固有表現抽出部16が固有表現抽出処理を行った結果出力される、固有表現19Bの一例を示す。
<本実施形態の固有表現の抽出装置の作用>
次に、本実施形態の固有表現の抽出装置10の作用について説明する。固有表現の抽出装置10は、入力文9が入力されると、図7に一例を示す固有表現抽出処理ルーチンを実行する。
次に、本実施形態の固有表現の抽出装置10の作用について説明する。固有表現の抽出装置10は、入力文9が入力されると、図7に一例を示す固有表現抽出処理ルーチンを実行する。
まず、図7に示すようにステップS100で形態素解析部12は、上述したように、入力された入力文9に対して形態素解析処理を行い、形態素解析結果13を出力する。形態素解析部12から出力された形態素解析結果13は、言語特徴抽出部14に入力される。
次のステップS102で言語特徴抽出部14は、上述したように、入力された形態素解析結果13に対し、言語別特徴抽出ルール18を参照しながら、素性を抽出する言語特徴処理を実行し、抽出した素性を付与した言語特徴抽出結果15を出力する。本実施形態の言語特徴抽出部14は、言語特徴処理を実行する際、上述したように、入力文9の言語に応じたルールを用いて記述される言語別特徴抽出ルール18を参照する。言語特徴抽出部14から出力された言語特徴抽出結果15は、固有表現抽出部16に入力される。
次のステップS104で固有表現抽出部16が、上述したように、固有表現抽出処理を実行し、抽出した固有表現19を、固有表現の抽出装置10の外部に出力した後、本固有表現抽出処理を終了する。本実施形態の固有表現抽出部16は、上述したように、入力文9の言語として想定される複数の言語に共通の機械学習アルゴリズムを用い、言語特徴抽出結果15を入力として、固有表現を出力するように予め学習済みの言語別の固有表現抽出モデル17を適用した、上記言語に応じた固有表現抽出処理を実行する。
以上説明したように、本実施形態の言語特徴の抽出装置11は、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルール18とし、複数の対象言語の各々に対し、言語別特徴抽出ルール18を定義し、入力文9の形態素解析結果12に対し、入力文9の言語に対して定義され、かつ形態素解析結果12に含まれる表記又は品詞に関する素性を抽出するための言語別特徴抽出ルール18を参照して、言語に応じた素性を抽出し、言語特徴抽出結果15として出力する言語特徴抽出部14を備える。
また、本実施形態の固有表現の抽出装置10は、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルール18とし、複数の対象言語の各々に対し、言語別特徴抽出ルール18を定義し、入力文9の形態素解析結果12に対し、入力文9の言語に対して定義され、かつ形態素解析結果12に含まれる表記又は品詞に関する素性を抽出するための言語別特徴抽出ルール18を参照して、言語に応じた素性を抽出し、言語特徴抽出結果15として出力する言語特徴抽出部14と、複数の対象言語に共通の機械学習アルゴリズムを用い、複数の対象言語ごとに、言語特徴抽出結果15を入力として、固有表現抽出結果を出力するように予め学習済みの言語別の固有表現抽出モデル17と、言語特徴抽出部14から出力された言語特徴抽出結果15を入力として、入力文9の言語に対応する固有表現抽出モデル17を用いて、固有表現抽出処理を実行し、抽出した固有表現を出力する固有表現抽出部16と、を備える。
このように、本実施形態の固有表現の抽出装置10では、着目する言語特徴が言語ごとに異なる場合でも、その特徴の差異を言語別特徴抽出ルール18で表現することで、処理系としては言語共通のシステムで複数の言語を扱う多言語固有表現抽出が実現できる。
従って、本実施形態の固有表現の抽出装置10によれば、言語ごとに考慮すべき特徴の違いをうまく吸収し、処理系としては共通の固有表現抽出を実現することができる。
なお、本実施形態では、予め処理対象の言語が何であるかは分かっている前提とする。処理対象となる言語にあわせて、抽出ルールと固有表現抽出モデル17を対象言語のものに切り替えるものとする。本開示と組み合わせて言語識別技術を用いることで、言語識別結果に応じた言語の抽出ルールと固有表現抽出モデル17に自動で切り替えるシステムを実現することも可能となる。
なお、本実施形態は一例であり、具体的な構成は本実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれ、状況に応じて変更可能であることは言うまでもない。
例えば、本実施形態では、言語別特徴抽出ルール18を固有表現の抽出装置10が備える形態について説明したが、言語別特徴抽出ルール18の一部または全部が、固有表現の抽出装置10の外部に備えられていてもよい。
また、本実施形態では、固有表現の抽出を例として説明を行ったが、本開示の技術は、固有表現の抽出以外のタスクにも適用可能である。例えば、形態素解析結果から単語の表記や品詞に着目した素性を抽出し、機械学習モデルにより推定や判別を行うようなタスク(例えば専門用語抽出、用語の同義性判定/多義解消など)であれば限定されず、どのような形態にも適用可能である。
本実施形態の固有表現の抽出装置10は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本実施形態では、上記プログラムが予めインストールされている形態について説明したが、当該プログラムを、コンピュータが読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
9、9A、9B 入力文
10 固有表現の抽出装置
11 言語特徴の抽出装置
12 形態素解析部
13、13A、13B 形態素解析結果
14 言語特徴抽出部
15、15A、15B 言語特徴抽出結果
16 固有表現抽出部
17 固有表現抽出モデル
18、18A、18B 言語別特徴抽出ルール
19、19A、19B 固有表現
10 固有表現の抽出装置
11 言語特徴の抽出装置
12 形態素解析部
13、13A、13B 形態素解析結果
14 言語特徴抽出部
15、15A、15B 言語特徴抽出結果
16 固有表現抽出部
17 固有表現抽出モデル
18、18A、18B 言語別特徴抽出ルール
19、19A、19B 固有表現
Claims (7)
- 複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、
複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、
入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力する言語特徴抽出部
を備えた言語特徴の抽出装置。 - 複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力する言語特徴抽出部と、
前記複数の対象言語に共通の機械学習アルゴリズムを用い、前記複数の対象言語ごとに、言語特徴抽出結果を入力として、固有表現抽出結果を出力するように予め学習済みの言語別の固有表現抽出モデルと、
前記言語特徴抽出部から出力された言語特徴抽出結果を入力として、前記入力文の言語に対応する前記固有表現抽出モデルを用いて、固有表現抽出処理を実行し、抽出した固有表現を出力する固有表現抽出部と、
を備えた固有表現の抽出装置。 - 前記抽象ルールの集合は、単語内の文字状況の特徴を捉えるためのルール、単語情報を別の観点で置き換えるためのルール、及び言語ごとに有用な特徴量の取捨選択を実現するためのルールからなる、
請求項1または請求項2に記載の抽出装置。 - 前記抽象ルールの集合は、任意の箇所の部分文字列を抽出するためのルール、任意の箇所の部分文字列の置換、挿入、及び削除の少なくとも一つを行って文字列を抽出するためのルール、所定のパタンにマッチする表現に対し、特定のラベル情報を付与するためのルール、及び所定のパタンにマッチする表現か否かを判定するためのルールを含む、
請求項1または請求項2に記載の抽出装置。 - 言語特徴抽出部が、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、
複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、
入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力するステップ
を含む言語特徴の抽出方法。 - 言語特徴抽出部が、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力するステップと、
固有表現抽出部が、前記複数の対象言語に共通の機械学習アルゴリズムを用い、前記複数の対象言語ごとに、言語特徴抽出結果を入力として、固有表現抽出結果を出力するように予め学習済みの言語別の固有表現抽出モデルであって、かつ前記入力文の言語に対応する前記固有表現抽出モデルを用いて、前記言語特徴抽出部から出力された言語特徴抽出結果を入力として固有表現抽出処理を実行し、抽出した固有表現を出力するステップと、
を含む固有表現の抽出方法。 - コンピュータを、請求項1から請求項4のいずれか1項に記載の抽出装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/049,939 US11809820B2 (en) | 2018-04-24 | 2019-04-22 | Language characteristic extraction device, named entity extraction device, extraction method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-083500 | 2018-04-24 | ||
JP2018083500A JP6799562B2 (ja) | 2018-04-24 | 2018-04-24 | 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019208507A1 true WO2019208507A1 (ja) | 2019-10-31 |
Family
ID=68295309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/017049 WO2019208507A1 (ja) | 2018-04-24 | 2019-04-22 | 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11809820B2 (ja) |
JP (1) | JP6799562B2 (ja) |
WO (1) | WO2019208507A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191428B (zh) * | 2019-12-27 | 2022-02-25 | 北京百度网讯科技有限公司 | 评论信息处理方法、装置、计算机设备和介质 |
US11308283B2 (en) * | 2020-01-30 | 2022-04-19 | International Business Machines Corporation | Lightweight tagging for disjoint entities |
CN111522944B (zh) * | 2020-04-10 | 2023-11-14 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备以及存储介质 |
CN112199953B (zh) * | 2020-08-24 | 2024-06-28 | 广州九四智能科技有限公司 | 一种电话通话中信息提取方法、装置及计算机设备 |
CN113705194B (zh) * | 2021-04-12 | 2024-09-06 | 腾讯科技(深圳)有限公司 | 简称抽取方法及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004258759A (ja) * | 2003-02-24 | 2004-09-16 | Nippon Telegr & Teleph Corp <Ntt> | テキスト解析装置、方法及びプログラム |
US20150286629A1 (en) * | 2014-04-08 | 2015-10-08 | Microsoft Corporation | Named entity recognition |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007005477A (ja) | 2005-06-22 | 2007-01-11 | Toyota Industries Corp | アンダーフィルによるノイズ除去方法 |
-
2018
- 2018-04-24 JP JP2018083500A patent/JP6799562B2/ja active Active
-
2019
- 2019-04-22 WO PCT/JP2019/017049 patent/WO2019208507A1/ja active Application Filing
- 2019-04-22 US US17/049,939 patent/US11809820B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004258759A (ja) * | 2003-02-24 | 2004-09-16 | Nippon Telegr & Teleph Corp <Ntt> | テキスト解析装置、方法及びプログラム |
US20150286629A1 (en) * | 2014-04-08 | 2015-10-08 | Microsoft Corporation | Named entity recognition |
Non-Patent Citations (1)
Title |
---|
YAMADA, HIROYASU ET AL.: "Japanese Named Entity Extraction Using Support Vector Machine", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 43, no. 1, 15 January 2002 (2002-01-15), pages 44 - 53 * |
Also Published As
Publication number | Publication date |
---|---|
JP6799562B2 (ja) | 2020-12-16 |
JP2019191900A (ja) | 2019-10-31 |
US20210097237A1 (en) | 2021-04-01 |
US11809820B2 (en) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019208507A1 (ja) | 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム | |
US10409911B2 (en) | Systems and methods for text analytics processor | |
Azmi et al. | A survey of automatic Arabic diacritization techniques | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
US20220391647A1 (en) | Application-specific optical character recognition customization | |
US20220019737A1 (en) | Language correction system, method therefor, and language correction model learning method of system | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
JP2003208307A (ja) | ソースプログラム生成システム | |
Almansor et al. | Transferring informal text in arabic as low resource languages: State-of-the-art and future research directions | |
CN104641367B (zh) | 用于格式化电子字符序列的格式化模块、系统和方法 | |
CN1627289B (zh) | 用于分析汉语的装置和方法 | |
JP2019159743A (ja) | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム | |
Alsayed et al. | A performance analysis of transformer-based deep learning models for Arabic image captioning | |
JP4088171B2 (ja) | テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
Theivendiram et al. | Named-entity-recognition (ner) for tamil language using margin-infused relaxed algorithm (mira) | |
WO2014030258A1 (ja) | 形態素解析装置、テキスト分析方法、及びそのプログラム | |
US20110320493A1 (en) | Method and device for retrieving data and transforming same into qualitative data of a text-based document | |
US20240160839A1 (en) | Language correction system, method therefor, and language correction model learning method of system | |
Ak et al. | Deep Learning-Based Preprocessing Tools for Turkish Natural Language Processing | |
JP6476638B2 (ja) | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム | |
JP2009086911A (ja) | 固有表現抽出装置、その方法、プログラム及び記録媒体 | |
KR20240062920A (ko) | 데이터 증강 방법 및 장치 | |
Oluwaseyi et al. | Automatic Spelling Corrector for Yorùbá Language Using Edit Distance and N-Gram Language Models | |
KR20230029256A (ko) | 한글 문자열 검색 방법 및 이의 수행하기 위한 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19791757 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19791757 Country of ref document: EP Kind code of ref document: A1 |