WO2020170804A1 - 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム - Google Patents

同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム Download PDF

Info

Publication number
WO2020170804A1
WO2020170804A1 PCT/JP2020/004114 JP2020004114W WO2020170804A1 WO 2020170804 A1 WO2020170804 A1 WO 2020170804A1 JP 2020004114 W JP2020004114 W JP 2020004114W WO 2020170804 A1 WO2020170804 A1 WO 2020170804A1
Authority
WO
WIPO (PCT)
Prior art keywords
compound word
compound
noun
occurrence
word
Prior art date
Application number
PCT/JP2020/004114
Other languages
English (en)
French (fr)
Inventor
鎮成 齋藤
宮尾 浩
須永 聡
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/431,495 priority Critical patent/US11900055B2/en
Publication of WO2020170804A1 publication Critical patent/WO2020170804A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Definitions

  • the present invention relates to a synonym extraction device, a synonym extraction method, and a synonym extraction program.
  • a method of extracting a compound word that is a synonym by using the similarity between the words of the compound word In calculating the degree of similarity between the words of the compound word, a co-occurrence vector having a word component co-occurring around the compound word as a vector component is used. That is, when the co-occurrence vector of each compound word is created, the similarity between the co-occurrence vectors of each compound word is calculated, and the compound word with the calculated similarity of a predetermined value or more is extracted as a synonym.
  • this invention makes it a subject to solve the above-mentioned problem and to extract the synonym of a compound word accurately.
  • the present invention for each compound word included in the document, the type of each noun that constitutes the compound word, a determination unit that determines whether it is a sahen noun or a noun other than sahenun, A first group of compound words having the same arrangement pattern of the types of nouns forming the compound word is extracted from the compound words included in the document based on the determination result of each type of the nouns forming the compound word. Extracted by the extraction unit, a second extraction unit that extracts a compound word group having the same first or last word from the compound word group having the same pattern of the arrangement of nouns, and the second extraction unit.
  • a co-occurrence vector creating unit that creates a co-occurrence vector having a noun co-occurring in the same sentence as the sentence containing the compound word as a vector component
  • the second extracting unit For each of the compound words of the extracted compound word group, a similarity degree calculation unit that calculates the degree of similarity between the co-occurrence vectors of the compound word and a compound word group in which the degree of similarity between the co-occurrence vectors is equal to or greater than a predetermined threshold value. And an output unit for outputting as a synonym.
  • synonyms of compound words can be accurately extracted.
  • FIG. 1 is a diagram for explaining the outline of the first embodiment.
  • FIG. 2 is a diagram illustrating a configuration example of the synonym extraction device according to the first embodiment.
  • FIG. 3 is a flowchart showing an example of a processing procedure of the synonym extraction device of FIG.
  • FIG. 4 is a diagram for explaining an example of creating a co-occurrence vector in the second synonym extraction device.
  • FIG. 5 is a diagram illustrating an example of a computer that executes a synonym extraction program.
  • the synonym extraction device extracts a synonym of a compound word from a predetermined document.
  • the compound word here is a word composed of a plurality of nouns, and is, for example, a word such as “file update” or “billing method”.
  • the synonym extraction device first extracts a compound word from the document from which the synonym is extracted. Then, the synonym extraction device regards the extracted compound word as the first candidate for the synonym word by using the compound word extracted by the following processes (A) and (B).
  • the synonym extraction device first extracts a compound word having the same fine classification pattern of the nouns forming the compound word ((A)).
  • the subclassification pattern of nouns is a pattern of a sequence of types of nouns (a sahen noun or a general noun (nouns other than sahen)) that compose a compound word.
  • the sahen noun in the following description is a noun that can be connected to the verb "suru" and serve as a verb for the use of sayuki.
  • “update” included in the above “file update” is a sahen noun.
  • the synonym extraction device determines whether the type of each noun forming the compound word is a sahen noun or a general noun (a noun other than sahen noun). Then, the synonym extraction device classifies each compound word into any of the subclassification patterns shown in (1) to (4) of FIG. 1 based on the above determination result.
  • the synonym extraction device classifies the compound words “file update” and “database update” into a general noun + sahen noun (+ (1)) pattern because it is a common noun + sahenun. Further, the synonym extraction device classifies the compound words such as “billing method” and “holding state” into a sahen noun+general noun, and thus classifies into a sahen noun (+sahen noun)+general noun pattern ((2)).
  • the synonym extraction device classifies the compound words such as “traffic condition” and “data format” into a general noun + general noun (+ general noun) pattern ((3)) because the compound noun + general noun. Further, the synonym extraction device classifies the compound word "restart control” into a pattern ((4)) of sahen noun+sahen noun (+sahen noun) because it is a sahen noun+sahen noun.
  • the synonym extraction device extracts, from the compound words of the same pattern (subclassification pattern) extracted in (A) above, a compound word in which the first or last noun of the nouns forming the compound word is the same. ((B)).
  • the word “database update” corresponds to (1) of the above fine classification pattern because it is a general noun + sahen noun. Therefore, the synonym extraction device uses the “database change” and the “database construction” in which “database update” and the first word (“database”) are common from the compound word group corresponding to (1) of the above fine classification pattern. ] Is extracted.
  • the synonym extraction device has a “file update” and a “memory update”, in which “database update” and the last word (“update”) are common from the compound word group corresponding to (1) of the above fine classification pattern. ] And “DB update” are extracted. Then, the synonym extraction device extracts these extracted compound words as the first candidate of the synonym word “update database”.
  • the synonym extraction device extracts a co-occurrence vector of a noun that co-occurs in the same sentence as the compound word for each of the extracted first candidate compound words, and determines the similarity between the co-occurrence vectors of the compound words. Is calculated, and a compound word having a similarity of a threshold value or more is presented to the user.
  • the synonym extraction device presents the user with “database change” and “DB update”, which are compound words whose similarity to “database update” is greater than or equal to a threshold value, as synonyms for “database update”. By doing so, the synonym extraction device can accurately extract the synonym of the compound word.
  • the synonym extraction device 10 includes, for example, as shown in FIG. 2, an input/output unit 11, a storage unit 12, and a control unit 13.
  • the input/output unit 11 controls input/output of various data.
  • the input/output unit 11 receives an input of document data (for example, a target document corpus) from which synonyms are extracted, or outputs a compound word group determined to be synonyms.
  • document data for example, a target document corpus
  • the storage unit 12 stores various data used for the synonym extraction process.
  • the storage unit 12 stores, for example, a target document corpus that is document data that is input via the input/output unit 11 and is a target for extracting synonyms.
  • the control unit 13 controls the entire synonym extraction device 10.
  • This control unit 13 is similar to, for example, a compound word extraction unit 131, a noun determination unit (determination unit) 132, a first extraction unit 133, a second extraction unit 134, a co-occurrence vector creation unit 135, and the like.
  • the degree calculation unit 136 and the synonym output unit 137 are provided.
  • the compound word extraction unit 131 extracts a compound word from a document (for example, a target document corpus) from which synonyms are extracted. For example, the compound word extraction unit 131 performs a morphological analysis of the corpus of the target document, concatenates consecutive nouns, and extracts as a compound word.
  • a document for example, a target document corpus
  • synonyms for example, the compound word extraction unit 131 performs a morphological analysis of the corpus of the target document, concatenates consecutive nouns, and extracts as a compound word.
  • the noun determination unit 132 determines, for each of the compound words extracted by the compound word extraction unit 131, whether the type of the noun forming the compound word is a sahen noun or a general noun.
  • the first extraction unit 133 determines to which of the patterns shown in (1) to (4) the pattern of the arrangement of the types of nouns (subclassification pattern) forming the compound word corresponds to each compound word. judge. Then, the first extraction unit 133 extracts a compound word group corresponding to the same fine classification pattern.
  • the second extracting unit 134 extracts a compound word having the same first or last word from the compound word group having the same fine classification pattern extracted by the first extracting unit 133.
  • the second extraction unit 134 from the compound word group belonging to the same subclassification pattern (1), for the “database update” in which the subclassification pattern corresponds to (1) general noun+sahen noun (+sahen noun) , A compound word whose first word is “database” and a compound word whose last (final) word is “update” are extracted.
  • a compound word may consist of three or more words.
  • the second extraction unit 134 extracts a word group before the last word of the compound word as the first word. For example, with respect to the compound word “database update regulation”, the second extraction unit 134 extracts “database update” before the last word “regulation” as the first word.
  • the co-occurrence vector creation unit 135 creates a co-occurrence vector for each compound word extracted by the second extraction unit 134. Specifically, the co-occurrence vector creating unit 135 determines each of the compound words extracted by the second extracting unit 134 (that is, the compound words that correspond to the same subclassification pattern and have the same first or last word). , A co-occurrence vector having a noun co-occurring in the same sentence as the sentence containing the compound word is created. For example, the co-occurrence vector creating unit 135 creates the co-occurrence vectors of the above “database update”, “database change”, “database construction”, “file update”, “memory update” and “DB update”.
  • the co-occurrence vector creation unit 135 creates a "file update” co-occurrence vector.
  • the nouns that co-occur in the same sentence as the sentence containing "file update” are "transfer”, “system switch”, “restart”, “different generation”, and “service interruption”, and each noun in the sentence.
  • the co-occurrence vector creating unit 135 creates the co-occurrence vector indicated by reference numeral 401 in FIG. 4.
  • the range in which the co-occurring noun is extracted may be the same sentence as the sentence including the compound word, or may include the compound word.
  • the paragraph may be the same as the paragraph described above, or the same document as the document containing the compound word.
  • the similarity calculation unit 136 calculates the similarity between the co-occurrence vectors of the compound words extracted by the second extraction unit 134. That is, the similarity calculation unit 136 calculates, for each compound word that corresponds to the same subclassification pattern and has the same first or last word, the similarity between the compound words using the co-occurrence vector of the compound word. ..
  • the synonym output unit 137 outputs, as synonyms, a compound word group whose similarity calculated by the similarity calculation unit 136 is equal to or higher than a predetermined threshold. For example, the synonym output unit 137 sets “database change” and “DB update” to “database change” and “DB update” when the compound words whose similarity to “database update” is greater than or equal to a threshold are “database change” and “DB update”. It is output as a synonym for "update database”.
  • the compound word extraction unit 131 of the synonym extraction device 10 extracts a compound word from the target document corpus by performing morphological analysis of the target document corpus (S1). Then, the noun determination unit 132 determines the type of a noun that constitutes the compound word extracted in S1 (whether it is a sahen noun or a general noun) (S2).
  • the first extraction unit 133 extracts a compound word having the same fine classification pattern of the nouns forming the compound word from the compound words extracted in S1, based on the determination result of the type of the noun in S2. Yes (S3).
  • the second extracting unit 134 extracts a compound word having the same first or last noun forming the compound word from the compound words having the same subclassification pattern extracted in S3 (S4).
  • the co-occurrence vector creation unit 135 creates, for each of the compound words extracted in S4, a co-occurrence vector having a noun co-occurring in the same sentence as the sentence containing the compound word as a vector component (S5). : Create a compound word co-occurrence vector).
  • the similarity calculation unit 136 calculates the similarity between the co-occurrence vectors of the compound words extracted in S4 (S6). Then, the synonym output unit 137 outputs, as a synonym, a compound word whose similarity calculated in S6 is equal to or higher than a predetermined threshold value (S7).
  • the synonym extraction device 10 can accurately extract the synonym of the compound word.
  • the co-occurrence vector creation unit 135 of the synonym extraction device 10 creates a co-occurrence vector (superposition co-occurrence vector) in which the co-occurrence vectors of the character strings described above are overlapped.
  • the co-occurrence vector creating unit 135 creates a superposition co-occurrence vector of a compound word corresponding to the fine classification pattern (general noun+sahen noun (+sahen noun)) shown in (1) of FIG. ..
  • the co-occurrence vector creating unit 135 creates a character string in which “no” or “” is added between the compound words “noun”, and the noun co-occurs in the same sentence as the sentence containing the character string. Create a co-occurrence vector with x as the vector component.
  • the co-occurrence vector creation unit 135 first creates a co-occurrence vector 401 having a noun co-occurring in the same sentence as the sentence included in the “file update” as a vector component.
  • the co-occurrence vector creation unit 135 creates a character string “update file” in which the case particle “” is added between “file” and “update” that make up “file update”. Then, the co-occurrence vector creation unit 135 creates a co-occurrence vector 402 having a vector component of a noun that co-occurs in the same sentence as the sentence including “update file”.
  • the co-occurrence vector creation unit 135 creates a character string "update file” in which the case particle "no" is added between "file” and "update”. Then, the co-occurrence vector creating unit 135 creates a co-occurrence vector 403 having a vector component of a noun that co-occurs in the same sentence as the sentence including this “update file”. Then, the co-occurrence vector creating unit 135 creates a co-occurrence vector 404 by superimposing the above-mentioned co-occurrence vectors 401 to 403.
  • the similarity calculation unit 136 calculates the similarity between the compound words by using the co-occurrence vector 404 that has been superimposed as the co-occurrence vector of the compound word “file update”.
  • the co-occurrence vector creation unit 135 of the synonym extraction device 10 creates a character string in which "no" and "relating" are added between the compound "nouns".
  • the co-occurrence vector creation unit 135 adds a character string “charging method” with “of” added between “charging” and “method” and “relating” for “charging method”.
  • a character string "method for charging” is created.
  • the co-occurrence vector creation unit 135 creates a co-occurrence vector having a noun co-occurring in the same sentence as the sentence containing the character string as a vector component for each of the above character strings, and co-occurs in the “charging method”.
  • a co-occurrence vector is created by superposing the co-occurrence vectors of the above two character strings on the vector.
  • the co-occurrence vector creation unit 135 creates a superposition co-occurrence vector, as in the case of the compound word corresponding to the fine classification pattern shown in (2) of FIG.
  • the co-occurrence vector creating unit 135 creates a superposition co-occurrence vector as in the case of the compound word corresponding to the subclassification pattern shown in (1) of FIG.
  • the synonym extraction device 10 can more accurately extract the synonym of the compound word.
  • the information processing apparatus can be caused to function as the synonym extraction apparatus 10 by causing the information processing apparatus to execute the above-described program provided as package software or online software.
  • the information processing apparatus mentioned here includes a desktop or notebook personal computer, a rack-mounted server computer, and the like.
  • the information processing apparatus includes a mobile communication terminal such as a smartphone, a mobile phone or a PHS (Personal Handyphone System), and a PDA (Personal Digital Assistants) in its category.
  • the synonym extraction device 10 may be mounted on a cloud server.
  • the computer 1000 has, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012.
  • the ROM 1011 stores, for example, a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090.
  • the disk drive interface 1040 is connected to the disk drive 1100.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
  • a mouse 1110 and a keyboard 1120 are connected to the serial port interface 1050, for example.
  • a display 1130 is connected to the video adapter 1060, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094.
  • the various data and information described in the above embodiments are stored in, for example, the hard disk drive 1090 or the memory 1010.
  • the CPU 1020 reads the program module 1093 and the program data 1094 stored in the hard disk drive 1090 into the RAM 1012 as necessary, and executes the above-described procedures.
  • program module 1093 and the program data 1094 related to the above synonym extraction program are not limited to being stored in the hard disk drive 1090, and may be stored in a removable storage medium, for example, via the disk drive 1100 or the like. It may be read by the CPU 1020.
  • the program module 1093 and the program data 1094 related to the above program are stored in another computer connected via a network such as LAN or WAN (Wide Area Network) and read by the CPU 1020 via the network interface 1070. May be done.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

同義語抽出装置は、文書に含まれる複合語それぞれについて、複合語を構成する名詞の種類がサ変名詞かサ変名詞以外の名詞かを判定し、複合語を構成する名詞の種類の並びのパターンを判断する。そして、同義語抽出装置は、文書から上記の名詞の種類の並びのパターンが同じ複合語群を抽出し、さらにその中から、先頭または末尾の単語が同じ複合語を抽出する。次に、同義語抽出装置は、名詞の並びのパターンが同じ、かつ、先頭または末尾の単語が同じ複合語群について、当該複合語と同じ文に登場する名詞を成分とする共起ベクトルを作成し、複合語の共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する。

Description

同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム
 本発明は、同義語抽出装置、同義語抽出方法、および、同義語抽出プログラムに関する。
 例えば、要件定義書等の開発文書を作成する際、文書内の単語の統一性を保持して記載することは、後工程における文書レビュー時の稼働軽減や仕様の誤認の防止のため重要である。ここで、既存の文書校正ツールでは、内部辞書により一般的な単体語の不統一(例えば、「監督」と「管理」等)を発見可能である。しかし、主に複合語で構成される専門用語に関しては内部辞書に登録されておらず、上記のような単語の不統一を発見しにくい。
 そこで、文書内で複合語についても不統一となっている単語を発見するため、複合語の単語同士の類似度を用いて、同義語となる複合語を抽出する手法がある。ここでの複合語の単語同士の類似度の算出には、複合語の周辺に共起する語をベクトル成分とした共起ベクトルを用いる。つまり、各複合語の共起ベクトルを作成すると、各複合語の共起ベクトル同士の類似度を算出し、算出した類似度が所定値以上の複合語を同義語として抽出する。
特許第5754019号公報
宮崎正弘、「係り受け解析を用いた複合語の自動分割法」、情報処理学会文誌、Vol.25 No.6 Nov.1984 佐藤雅彦他、「助詞で結合された名詞句の意味的な類似判別法」、The 18th Annual Conference of the Japanese Society for Artificial Intelligence、2004
 しかし、従来技術において、複合語の共起ベクトルのみで複合語同士の類似度を算出すると、類似度の算出精度が必ずしも高くないため、文書から複合語の同義語を精度よく抽出できないという問題がある。そこで、本発明は、前記した問題を解決し、複合語の同義語を精度よく抽出することを課題とする。
 前記した課題を解決するため、本発明は、文書に含まれる複合語それぞれについて、前記複合語を構成する名詞それぞれの種類が、サ変名詞かサ変名詞以外の名詞かを判定する判定部と、前記複合語を構成する名詞それぞれの種類の判定結果に基づき、前記文書に含まれる複合語の中から、前記複合語を構成する名詞の種類の並びのパターンが同じ複合語群を抽出する第1の抽出部と、前記名詞の種類の並びのパターンが同じ複合語群の中から、先頭または末尾の単語が同じ複合語群を抽出する第2の抽出部と、前記第2の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する共起ベクトル作成部と、前記第2の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語の共起ベクトル同士の類似度を算出する類似度算出部と、前記共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する出力部と、を備えることを特徴とする。
 本発明によれば、複合語の同義語を精度よく抽出することができる。
図1は、第1の実施形態の概要を説明するための図である。 図2は、第1の実施形態の同義語抽出装置の構成例を示す図である。 図3は、図2の同義語抽出装置の処理手順の例を示すフローチャートである。 図4は、第2の同義語抽出装置における共起ベクトルの作成例を説明するための図である。 図5は、同義語抽出プログラムを実行するコンピュータの例を示す図である。
 以下、図面を参照しながら、本発明を実施するための形態(実施形態)を第1の実施形態および第2の実施形態に分けて説明する。本発明は、各実施形態に限定されない。
[第1の実施形態]
 まず、図1を用いて第1の実施形態の同義語抽出装置の概要を説明する。同義語抽出装置は、所定の文書から複合語の同義語を抽出する。ここでの複合語とは、複数の名詞から構成される語であり、例えば、「ファイル更新」や「課金方式」といった語である。
 同義語抽出装置は、まず、同義語の抽出対象の文書から複合語を抽出する。そして、同義語抽出装置は、抽出した複合語について、以下の(A)および(B)の処理により抽出した複合語を同義語の第一候補とする。
 すなわち、同義語抽出装置は、まず、複合語を構成する名詞の細分類パターンが同じ複合語を抽出する((A))。名詞の細分類パターンとは、複合語を構成する名詞の種類(サ変名詞か一般名詞(サ変名詞以外の名詞)か)の並びのパターンである。なお、以下の説明におけるサ変名詞とは、動詞「する」に接続してサ行変格活用の動詞となりうる名詞である。例えば、上記の「ファイル更新」に含まれる「更新」はサ変名詞である。
 まず、同義語抽出装置は、複合語を構成する名詞それぞれの種類がサ変名詞か一般名詞(サ変名詞以外の名詞)かを判定する。そして、同義語抽出装置は、上記の判定結果に基づき各複合語を、図1の(1)~(4)に示すいずれかの細分類パターンに分類する。
 例えば、同義語抽出装置は、「ファイル更新」や「データベース更新」という複合語は、一般名詞+サ変名詞なので、一般名詞+サ変名詞(+サ変名詞)のパターン((1))に分類する。また、同義語抽出装置は、「課金方式」や「保留状態」という複合語は、サ変名詞+一般名詞なので、サ変名詞(+サ変名詞)+一般名詞のパターン((2))に分類する。
 さらに、同義語抽出装置は、「トラヒック条件」や「データフォーマット」という複合語は、一般名詞+一般名詞なので、一般名詞+一般名詞(+一般名詞)のパターン((3))に分類する。また、同義語抽出装置は、「再開制御」という複合語は、サ変名詞+サ変名詞なので、サ変名詞+サ変名詞(+サ変名詞)のパターン((4))に分類する。
 次に、同義語抽出装置は、上記の(A)で抽出した同じパターン(細分類パターン)の複合語の中で、複合語を構成する名詞の先頭または最終の名詞が同じ複合語を抽出する((B))。
 例えば、「データベース更新」という語は、一般名詞+サ変名詞なので、上記の細分類パターンの(1)に該当する。よって、同義語抽出装置は、上記の細分類パターンの(1)に該当する複合語群から、「データベース更新」と先頭の語(「データベース」)が共通する、「データベース変更」と「データベース構築」とを抽出する。
 また、同義語抽出装置は、上記の細分類パターンの(1)に該当する複合語群から、「データベース更新」と最後の語(「更新」)が共通する、「ファイル更新」と「メモリ更新」と「DB更新」とを抽出する。そして、同義語抽出装置は、抽出したこれらの複合語を、「データベース更新」の同義語の第一候補として抽出する。
 次に、同義語抽出装置は、抽出した第一候補の各複合語に関して、当該複合語と同じ文に共起する名詞の共起ベクトルを抽出し、各複合語の共起ベクトル同士の類似度を算出し、類似度が閾値以上の複合語をユーザに提示する。
 例えば、「データベース更新」に対する、「データベース変更」、「データベース構築」、「ファイル更新」、「メモリ更新」および「DB更新」の類似度がそれぞれ符号101に示す値であった場合を考える。この場合、同義語抽出装置は、「データベース更新」との類似度が閾値以上の複合語である「データベース変更」と「DB更新」とを、「データベース更新」の同義語としてユーザに提示する。このようにすることで同義語抽出装置は、複合語の同義語を精度よく抽出することができる。
 次に、同義語抽出装置の構成例を説明する。同義語抽出装置10は、例えば、図2に示すように、入出力部11と、記憶部12と、制御部13とを備える。
 入出力部11は、各種データの入出力を司る。例えば、入出力部11は、同義語の抽出対象となる文書データ(例えば、対象文書コーパス)の入力を受け付けたり、同義語と判断された複合語群を出力したりする。
 記憶部12は、同義語の抽出処理に用いる各種データを記憶する。記憶部12は、例えば、入出力部11経由で入力された、同義語の抽出対象となる文書データである対象文書コーパスを記憶する。
 制御部13は、同義語抽出装置10全体の制御を司る。この制御部13は、例えば、複合語抽出部131と、名詞判定部(判定部)132と、第1の抽出部133と、第2の抽出部134と、共起ベクトル作成部135と、類似度算出部136と、同義語出力部137とを備える。
 複合語抽出部131は、同義語の抽出対象の文書(例えば、対象文書コーパス)から複合語を抽出する。例えば、複合語抽出部131は、対象文書のコーパスの形態素解析を行い、名詞が連続したものを連結し、複合語として抽出する。
 名詞判定部132は、複合語抽出部131により抽出された複合語それぞれについて、当該複合語を構成する名詞の種類がサ変名詞か一般名詞かを判定する。
 第1の抽出部133は、複合語それぞれについて当該複合語を構成する名詞の種類の並びのパターン(細分類パターン)が、前記した(1)~(4)に示すどのパターンに該当するかを判定する。そして、第1の抽出部133は、同じ細分類パターンに該当する複合語群を抽出する。
 第2の抽出部134は、第1の抽出部133により抽出された細分類パターンが同じ複合語群から、先頭または末尾の単語が同じ複合語を抽出する。
 例えば、第2の抽出部134は、細分類パターンが、(1)一般名詞+サ変名詞(+サ変名詞)に該当する「データベース更新」について、同じ細分類パターン(1)に属する複合語群から、先頭の語が「データベース」である複合語と、末尾(最終)の語が「更新」である複合語とを抽出する。
 なお、複合語が3以上の語から構成される場合も考えられる。この場合、第2の抽出部134は、複合語の末尾の語より前の語群を先頭の語として抽出する。例えば、「データベース更新規制」という複合語について、第2の抽出部134は末尾の語「規制」より前の「データベース更新」を先頭の語として抽出する。
 共起ベクトル作成部135は、第2の抽出部134により抽出された複合語それぞれの共起ベクトルを作成する。具体的には、共起ベクトル作成部135は、第2の抽出部134により抽出された複合語(つまり、同じ細分類パターンに該当し、かつ、先頭または末尾の語が同じ複合語)それぞれについて、当該複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する。例えば、共起ベクトル作成部135は、上記の「データベース更新」、「データベース変更」、「データベース構築」、「ファイル更新」、「メモリ更新」および「DB更新」それぞれの共起ベクトルを作成する。
 例えば、共起ベクトル作成部135が「ファイル更新」の共起ベクトルを作成する場合を考える。この場合、「ファイル更新」が含まれる文と同じ文に共起する名詞が「転送」、「系切替え」、「再開」、「異世代」、「サービス中断」であり、当該文における各名詞の登場回数がそれぞれ「2」、「5」、「3」、「2」、「3」であるとき、共起ベクトル作成部135は、図4の符号401に示す共起ベクトルを作成する。
 なお、共起ベクトル作成部135は、複合語の共起ベクトルを作成する際、共起する名詞を抽出する範囲は、当該複合語が含まれる文と同じ文でもよいし、当該複合語が含まれる段落と同じ段落でもよいし、当該複合語が含まれる文書と同じ文書でもよい。
 図2の説明に戻る。類似度算出部136は、第2の抽出部134により抽出された複合語それぞれの共起ベクトル同士の類似度を算出する。つまり、類似度算出部136は、同じ細分類パターンに該当し、かつ、先頭または末尾の語が同じ複合語それぞれについて、当該複合語の共起ベクトルを用いて複合語同士の類似度を算出する。
 同義語出力部137は、類似度算出部136により算出された類似度が所定の閾値以上の複合語群を同義語として出力する。例えば、同義語出力部137は、「データベース更新」との類似度が閾値以上の複合語が「データベース変更」と「DB更新」であった場合、「データベース変更」と「DB更新」とを「データベース更新」の同義語として出力する。
 このような同義語抽出装置によれば、複合語の同義語を精度よく抽出することができる。
[処理手順の例]
 次に、図3を用いて、同義語抽出装置10の処理手順の例を説明する。まず、同義語抽出装置10の複合語抽出部131は、対象文書コーパスの形態素解析等を行うことにより、対象文書コーパスから複合語を抽出する(S1)。そして、名詞判定部132は、S1で抽出された複合語を構成する名詞の種類(サ変名詞か一般名詞か)を判定する(S2)。
 S2の後、第1の抽出部133は、S2における名詞の種類の判定結果に基づき、S1で抽出された複合語の中から、複合語を構成する名詞の細分類パターンが同じ複合語を抽出する(S3)。そして、第2の抽出部134は、S3で抽出された細分類パターンが同じ複合語の中で、複合語を構成する先頭または最終の名詞が同じ複合語を抽出する(S4)。
 S4の後、共起ベクトル作成部135は、S4で抽出された複合語それぞれについて、当該複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する(S5:複合語の共起ベクトルを作成)。
 S5の後、類似度算出部136は、S4で抽出された複合語の共起ベクトル同士の類似度を算出する(S6)。そして、同義語出力部137は、S6で算出された類似度が所定の閾値以上の複合語を同義語として出力する(S7)。
 このようにすることで、同義語抽出装置10は、複合語の同義語を精度よく抽出することができる。
[第2の実施形態]
 なお、同義語抽出装置10が、複合語の共起ベクトルを作成する際、複合語(例えば、「ファイル更新」)のみならず当該複合語を構成する名詞の間に格助詞(例えば、「の」や「を」)を加えた文字列(例えば、「ファイルを更新」および「ファイルの更新」)についても共起ベクトルを作成し、これらの共起ベクトルを重ね合わせた(加算した)共起ベクトルに基づき、複合語同士の類似度を算出してもよい。このようにすることで、同義語抽出装置10は、複合語の同義語をより精度よく抽出できる。
 以下、第2の実施形態の同義語抽出装置10の共起ベクトル作成部135が、上記の文字列の共起ベクトルを重ね合わせた共起ベクトル(重ね合わせ共起ベクトル)を作成する手順を説明する。まず、共起ベクトル作成部135が、図1の(1)に示す細分類パターン(一般名詞+サ変名詞(+サ変名詞))に該当する複合語の重ね合わせ共起ベクトルを作成する場合について考える。
 図1の(1)に示す細分類パターンに該当する複合語の場合、複合語を構成する名詞の関係は、目的語と述語の関係になっていることが多い。よって、共起ベクトル作成部135は、複合語の「名詞」の間に「の」や「を」を加えた文字列を作成し、当該文字列が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する。
 例えば、共起ベクトル作成部135は、「ファイル更新」について、まず「ファイル更新」に含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトル401を作成する。
 また、共起ベクトル作成部135は「ファイル更新」を構成する「ファイル」と「更新」との間に格助詞「を」を加えた「ファイルを更新」という文字列を作成する。そして、共起ベクトル作成部135は、この「ファイルを更新」が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトル402を作成する。
 さらに、共起ベクトル作成部135は、「ファイル」と「更新」との間に格助詞「の」を加えた「ファイルの更新」という文字列を作成する。そして、共起ベクトル作成部135は、この「ファイルの更新」が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトル403を作成する。そして、共起ベクトル作成部135は、上記の共起ベクトル401~403を重ね合わせた共起ベクトル404を作成する。
 その後、類似度算出部136は、複合語「ファイル更新」の共起ベクトルとして、上記の重ね合わせを行った共起ベクトル404を用いて、複合語同士の類似度算出を行う。
 また、図1の(2)に示す細分類パターン(サ変名詞(+サ変名詞)+一般名詞)に該当する複合語の場合、複合語を構成する名詞の関係は、修飾語と被修飾語の関係になっていることが多い。よって、同義語抽出装置10の共起ベクトル作成部135は、複合語の「名詞」の間に「の」、「に関する」を加えた文字列を作成する。
 例えば、共起ベクトル作成部135は、「課金方式」について、「課金」と「方式」との間に、「の」を加えた「課金の方式」という文字列と、「に関する」を加えた「課金に関する方式」という文字列とを作成する。そして、共起ベクトル作成部135は、上記の文字列それぞれについて当該文字列が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成し、「課金方式」の共起ベクトルに、上記の2つの文字列の共起ベクトルを重ね合わせた共起ベクトルを作成する。
 また、図1の(3)に示す細分類パターン(一般名詞+一般名詞(+一般名詞))に該当する複合語の場合、複合語を構成する名詞の関係は、修飾語と被修飾語の関係になっていることが多い。よって、共起ベクトル作成部135は、図1の(2)に示す細分類パターンに該当する複合語の場合と同様に、重ね合わせ共起ベクトルを作成する。
 また、図1の(4)に示す細分類パターン(サ変名詞+サ変名詞(+サ変名詞))に該当する複合語の場合、複合語を構成する名詞の関係は、目的語と述語の関係になっていることが多い。よって、共起ベクトル作成部135は、前記した図1の(1)に示す細分類パターンに該当する複合語の場合と同様に重ね合わせ共起ベクトルを作成する。
 このようにすることで、同義語抽出装置10は、複合語の同義語をより精度よく抽出することができる。
[プログラム]
 また、上記の実施形態で述べた同義語抽出装置10の機能を実現するプログラムを所望の情報処理装置(コンピュータ)にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を同義語抽出装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistants)等がその範疇に含まれる。また、同義語抽出装置10を、クラウドサーバに実装してもよい。
 図5を用いて、上記のプログラム(同義語抽出プログラム)を実行するコンピュータの一例を説明する。図5に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
 ここで、図5に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。前記した実施形態で説明した各種データや情報は、例えばハードディスクドライブ1090やメモリ1010に記憶される。
 そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
 なお、上記の同義語抽出プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 10 同義語抽出装置
 11 入出力部
 12 記憶部
 13 制御部
 131 複合語抽出部
 132 名詞判定部
 133 第1の抽出部
 134 第2の抽出部
 135 共起ベクトル作成部
 136 類似度算出部
 137 同義語出力部

Claims (4)

  1.  文書に含まれる複合語それぞれについて、前記複合語を構成する名詞それぞれの種類が、サ変名詞かサ変名詞以外の名詞かを判定する判定部と、
     前記複合語を構成する名詞それぞれの種類の判定結果に基づき、前記文書に含まれる複合語の中から、前記複合語を構成する名詞の種類の並びのパターンが同じ複合語群を抽出する第1の抽出部と、
     前記名詞の種類の並びのパターンが同じ複合語群の中から、先頭または末尾の単語が同じ複合語群を抽出する第2の抽出部と、
     前記第2の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する共起ベクトル作成部と、
     前記第2の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語の共起ベクトル同士の類似度を算出する類似度算出部と、
     前記共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する出力部と、
     を備えることを特徴とする同義語抽出装置。
  2.  前記共起ベクトル作成部は、さらに、
     前記第2の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語を構成する名詞の間に格助詞を加えた文字列について、当該文字列が含まれる文と同じ文に共起する名詞をベクトル成分とした当該複合語の第1の共起ベクトルを作成し、作成した当該複合語の第1の共起ベクトルを、当該複合語の共起ベクトルに加算することにより、当該複合語の第2の共起ベクトルを作成し、
     前記類似度算出部は、
     前記複合語の共起ベクトル同士の類似度として、当該複合語の第2の共起ベクトル同士の類似度を算出する
     ことを特徴とする請求項1に記載の同義語抽出装置。
  3.  同義語抽出装置が実行する同義語抽出方法であって、
     文書に含まれる複合語それぞれについて、前記複合語を構成する名詞それぞれの種類が、サ変名詞かサ変名詞以外の名詞かを判定する判定ステップと、
     前記複合語を構成する名詞それぞれの種類の判定結果に基づき、前記文書に含まれる複合語の中から、前記複合語を構成する名詞の種類の並びのパターンが同じ複合語群を抽出する第1の抽出ステップと、
     前記名詞の種類の並びのパターンが同じ複合語群の中から、先頭または末尾の単語が同じ複合語群を抽出する第2の抽出ステップと、
     前記第2の抽出ステップにより抽出された複合語群の複合語それぞれについて、前記複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する共起ベクトル作成ステップと、
     前記第2の抽出ステップにより抽出された複合語群の複合語それぞれについて、前記複合語の共起ベクトル同士の類似度を算出する類似度算出ステップと、
     前記共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する出力ステップと、
     を含むことを特徴とする同義語抽出方法。
  4.  文書に含まれる複合語それぞれについて、前記複合語を構成する名詞それぞれの種類が、サ変名詞かサ変名詞以外の名詞かを判定する判定ステップと、
     前記複合語を構成する名詞それぞれの種類の判定結果に基づき、前記文書に含まれる複合語の中から、前記複合語を構成する名詞の種類の並びのパターンが同じ複合語群を抽出する第1の抽出ステップと、
     前記名詞の種類の並びのパターンが同じ複合語群の中から、先頭または末尾の単語が同じ複合語群を抽出する第2の抽出ステップと、
     前記第2の抽出ステップにより抽出された複合語群の複合語それぞれについて、前記複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する共起ベクトル作成ステップと、
     前記第2の抽出ステップにより抽出された複合語群の複合語それぞれについて、前記複合語の共起ベクトル同士の類似度を算出する類似度算出ステップと、
     前記共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する出力ステップと、
     をコンピュータに実行させることを特徴とする同義語抽出プログラム。
PCT/JP2020/004114 2019-02-21 2020-02-04 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム WO2020170804A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/431,495 US11900055B2 (en) 2019-02-21 2020-02-04 Synonym extraction device, synonym extraction method, and synonym extraction program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019029885A JP7147625B2 (ja) 2019-02-21 2019-02-21 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム
JP2019-029885 2019-02-21

Publications (1)

Publication Number Publication Date
WO2020170804A1 true WO2020170804A1 (ja) 2020-08-27

Family

ID=72143957

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/004114 WO2020170804A1 (ja) 2019-02-21 2020-02-04 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム

Country Status (3)

Country Link
US (1) US11900055B2 (ja)
JP (1) JP7147625B2 (ja)
WO (1) WO2020170804A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022249362A1 (ja) * 2021-05-26 2022-12-01 株式会社KPMG Ignition Tokyo テキストを合成音声に変換する音声合成

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259627A (ja) * 1999-03-08 2000-09-22 Ai Soft Kk 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体
JP2010198142A (ja) * 2009-02-23 2010-09-09 Rakuten Inc 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム
JP2013020439A (ja) * 2011-07-11 2013-01-31 Nec Corp 同義語抽出システム、方法およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5754019U (ja) 1980-09-17 1982-03-29
JP3500698B2 (ja) * 1994-05-25 2004-02-23 富士ゼロックス株式会社 キーワード抽出装置及びキーワード抽出方法
JP5720071B2 (ja) * 2011-07-11 2015-05-20 日本電気株式会社 複合語概念分析システム、方法およびプログラム
JP5754018B2 (ja) * 2011-07-11 2015-07-22 日本電気株式会社 多義語抽出システム、多義語抽出方法、およびプログラム
JP6737151B2 (ja) * 2016-11-28 2020-08-05 富士通株式会社 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259627A (ja) * 1999-03-08 2000-09-22 Ai Soft Kk 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体
JP2010198142A (ja) * 2009-02-23 2010-09-09 Rakuten Inc 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム
JP2013020439A (ja) * 2011-07-11 2013-01-31 Nec Corp 同義語抽出システム、方法およびプログラム

Also Published As

Publication number Publication date
JP7147625B2 (ja) 2022-10-05
US11900055B2 (en) 2024-02-13
JP2020135567A (ja) 2020-08-31
US20220138417A1 (en) 2022-05-05

Similar Documents

Publication Publication Date Title
Li et al. Pre-trained language models for text generation: A survey
JP7251181B2 (ja) 対訳処理方法および対訳処理プログラム
CN107247707B (zh) 基于补全策略的企业关联关系信息提取方法和装置
US9208140B2 (en) Rule based apparatus for modifying word annotations
US20150199331A1 (en) Arc filtering in a syntactic graph
CN109063184B (zh) 多语言新闻文本聚类方法、存储介质及终端设备
Alshalabi et al. Arabic light-based stemmer using new rules
US9984064B2 (en) Reduction of memory usage in feature generation
CN113158695A (zh) 一种面向多语言混合文本的语义审核方法与系统
CN111597118A (zh) 测试用例生成方法、装置、计算机设备及存储介质
WO2020170804A1 (ja) 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム
JP2004234051A (ja) 文章分類装置およびその方法
JPH04156663A (ja) 文章圧縮装置
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
CN109783820B (zh) 一种语义解析方法及系统
Kedtiwerasak et al. Thai keyword extraction using textrank algorithm
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
Mason et al. Probabilistic tagging in a multi-lingual environment: Making an English tagger understand Romanian
Vasili et al. A study of summarization techniques in Albanian language
MacKinlay et al. POS tagging with a more informative tagset
JP3416918B2 (ja) キーワード自動抽出方法および装置
KR102394480B1 (ko) 플랜트 절차서에 포함된 구문 및 의미정보 추출방법 및 그의 시스템
JP2018073298A (ja) 人工知能装置による手段・方法の自動抽出・作成方法
JP4033089B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
WO2021084631A1 (ja) 情報処理装置、抽出方法および抽出プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20759542

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20759542

Country of ref document: EP

Kind code of ref document: A1