WO2023073818A1 - 情報処理装置、更新方法、及び更新プログラム - Google Patents

情報処理装置、更新方法、及び更新プログラム Download PDF

Info

Publication number
WO2023073818A1
WO2023073818A1 PCT/JP2021/039576 JP2021039576W WO2023073818A1 WO 2023073818 A1 WO2023073818 A1 WO 2023073818A1 JP 2021039576 W JP2021039576 W JP 2021039576W WO 2023073818 A1 WO2023073818 A1 WO 2023073818A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
unit
words
category
target
Prior art date
Application number
PCT/JP2021/039576
Other languages
English (en)
French (fr)
Inventor
誠 竹中
悠介 小路
進也 田口
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2021/039576 priority Critical patent/WO2023073818A1/ja
Priority to JP2023540861A priority patent/JP7378680B2/ja
Publication of WO2023073818A1 publication Critical patent/WO2023073818A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present disclosure relates to an information processing device, update method, and update program.
  • word2vec is known. word2vec is unsupervised learning and can learn the semantic features of words using a corpus (ie, unlabeled sentences). The word vectors of learned words are called distributed representations. Word vectors of learned words can be used for document retrieval and the like.
  • Non-Patent Document 1 a method of improving the accuracy of distributed representation by using external information such as knowledge of relationships between words and knowledge of word attributes as teacher information. For example, by using external information for the relationship between words and category information, a method of learning the relationship between words while maintaining the semantic information of the words has been proposed (Non-Patent Document 1 ).
  • Non-Patent Document 1 the word vector of the target word is updated by adding the same weight to all words in the same category. However, giving the same weight to infrequently occurring words adversely affects the distributed representation of the updated word vector. Therefore, the method of Non-Patent Document 1 cannot be said to be desirable.
  • the purpose of this disclosure is to improve distributed representation.
  • the information processing apparatus includes an acquisition unit that acquires a preprocessed corpus, which is a corpus on which preprocessing has been performed, and a category dictionary, which is information indicating correspondence between words and categories; a category determination unit configured to determine categories of a plurality of words included in a processing corpus; creating a word vector of the target word based on a target word that is one of the plurality of words; and a word vector creation unit that creates a word vector of the same category word based on the same category word that is one word of and is a word in the same category as the target word, and based on the preprocessed corpus , an appearance frequency calculation unit for calculating the appearance frequency of the target word in the preprocessed corpus and the appearance frequency of the same category word in the preprocessed corpus; a word vector of the target word; A regularization term calculation unit that calculates a regularization term using the word vector, the frequency of appearance of the target word, and the
  • distributed representation can be improved.
  • FIG. 2 is a block diagram showing functions of the information processing apparatus according to Embodiment 1;
  • FIG. 2 illustrates hardware included in the information processing apparatus according to the first embodiment;
  • FIG. 4 is a flow chart showing an example of processing executed by the information processing apparatus according to the first embodiment;
  • 2 is a diagram for explaining a semantic space according to Embodiment 1;
  • FIG. 3 is a block diagram showing functions of an information processing apparatus according to a second embodiment;
  • FIG. 10 is a flow chart showing an example of processing executed by the information processing apparatus according to the second embodiment;
  • FIG. 10 is a diagram showing a specific example of display of synonyms and adoption of synonyms according to the second embodiment;
  • FIG. 1 is a block diagram showing functions of an information processing apparatus according to a first embodiment.
  • the information processing device 100 is a device that executes an update method.
  • the information processing device 100 is a personal computer, server, smart phone, or tablet device. First, hardware included in the information processing apparatus 100 will be described.
  • FIG. 2 is a diagram showing hardware included in the information processing apparatus according to the first embodiment.
  • the information processing apparatus 100 has a processor 101 , a volatile memory device 102 , a nonvolatile memory device 103 , a network IF (Interface) 104 , an input IF 105 and a display IF 106 .
  • a processor 101 has a processor 101 , a volatile memory device 102 , a nonvolatile memory device 103 , a network IF (Interface) 104 , an input IF 105 and a display IF 106 .
  • a volatile memory device 102 has a processor 101 , a volatile memory device 102 , a nonvolatile memory device 103 , a network IF (Interface) 104 , an input IF 105 and a display IF 106 .
  • a network IF Interface
  • the processor 101 controls the information processing apparatus 100 as a whole.
  • the processor 101 is a CPU (Central Processing Unit), DSP (Digital Signal Processor), ASIC (Application Specific Integrated Circuit), FPGA (Field Programmable Gate Array), or the like.
  • Processor 101 may be a multiprocessor.
  • the information processing device 100 may have a processing circuit.
  • the processor 101 may be a microcomputer or SoC (System on Chip).
  • the volatile memory device 102 is the main memory device of the information processing device 100 .
  • the volatile memory device 102 is RAM (Random Access Memory).
  • the nonvolatile storage device 103 is an auxiliary storage device of the information processing device 100 .
  • the nonvolatile storage device 103 is a ROM (Read Only Memory), HDD (Hard Disk Drive), or SSD (Solid State Drive).
  • Network IF 104 communicates with network 10 .
  • the network 10 is a wired network or a wireless network.
  • the input IF 105 receives information or signals from a keyboard, touch panel, mouse, or the like.
  • the information processing apparatus 100 may not have the input IF 105 .
  • the display IF 106 outputs information to the display. Note that the information processing apparatus 100 may not have the display IF 106 .
  • the information processing apparatus 100 has a storage unit 110 , an acquisition unit 120 , a preprocessing unit 130 , a category determination unit 140 , a word vector generation unit 150 , an appearance frequency calculation unit 160 , a regularization term calculation unit 170 and an update unit 180 .
  • the storage unit 110 may be implemented as a storage area secured in the volatile storage device 102 or the nonvolatile storage device 103 .
  • Part or all of the acquisition unit 120, the preprocessing unit 130, the category determination unit 140, the word vector generation unit 150, the appearance frequency calculation unit 160, the regularization term calculation unit 170, and the update unit 180 are implemented by processing circuits. good too.
  • Some or all of the acquisition unit 120, the preprocessing unit 130, the category determination unit 140, the word vector creation unit 150, the appearance frequency calculation unit 160, the regularization term calculation unit 170, and the update unit 180 are executed by the processor 101. It may be implemented as a module of a program that For example, a program executed by the processor 101 is also called an update program.
  • the update program is recorded on a recording medium such as a CD or flash memory.
  • the update program may be stored in the storage unit 110 . Updates may be obtained via network 10 .
  • the storage unit 110 stores a corpus 111 and a category dictionary 112.
  • the corpus 111 may be called training data.
  • the corpus 111 may be considered as a database in which sentences are registered.
  • the category dictionary 112 is information indicating correspondence between words of nouns or noun phrases and categories.
  • the category may be an expression of a noun or a noun phrase with a broader concept, a product category, or a class name of a named entity.
  • the class name is a person's name, place name, or the like.
  • the acquisition unit 120 acquires the corpus 111 and the category dictionary 112 from the storage unit 110. Also, the acquisition unit 120 may acquire the corpus 111 and the category dictionary 112 from an external device. Illustration of the external device is omitted.
  • the preprocessing unit 130 preprocesses the corpus 111 .
  • the preprocessing unit 130 performs morphological analysis and word normalization.
  • the storage unit 110 may store the preprocessed corpus.
  • the acquisition unit 120 acquires the preprocessed corpus. Further, when the preprocessed corpus is stored in the storage unit 110 , the information processing apparatus 100 does not have the preprocessing unit 130 .
  • a preprocessed corpus is called a preprocessed corpus.
  • the acquisition unit 120 may acquire the preprocessed corpus from an external device.
  • the category determination unit 140 uses the category dictionary 112 to determine categories of a plurality of words included in the preprocessed corpus. Specifically, the category determination unit 140 uses the category dictionary 112 to determine the category of words of nouns or noun phrases included in the preprocessed corpus. Detailed functions of the word vector generator 150, the appearance frequency calculator 160, the regularization term calculator 170, and the updater 180 will be described later.
  • Step S11 The preprocessing unit 130 determines whether or not a processing request has been received. If the processing request has been accepted, the process proceeds to step S12. If no processing request has been received, the preprocessing unit 130 waits. (Step S12) The preprocessing unit 130 performs preprocessing on the corpus 111 including the target word.
  • the category determination unit 140 uses the category dictionary 112 to determine the category of words of nouns or noun phrases included in the preprocessed corpus.
  • the word vector creation unit 150 creates a word vector of the target word based on the target word, which is one of the multiple words included in the preprocessed corpus. For example, the word vector creation unit 150 creates a word vector of the target word using the target word and word2vec. The word vector creation unit 150 also creates a word vector of the same category word based on the same category word, which is one of the plurality of words and is in the same category as the target word.
  • the appearance frequency calculator 160 calculates the appearance frequency f(w) of the target word in the preprocessed corpus as a weight. Based on the preprocessed corpus, the appearance frequency calculator 160 also calculates the appearance frequency f(w t′ ) of the same category words in the preprocessed corpus as a weight.
  • the regularization term calculation unit 170 uses the word vector of the target word, the word vector of the same category word, the appearance frequency f(w) of the target word, and the appearance frequency f(w t′ ) of the same category word. to calculate the regularization term E(w t ,w t′ ).
  • the regularization term calculation unit 170 uses the word vector of the target word, the word vector of the same category word, the appearance frequency f(w) of the target word, and the appearance frequency f(w t′ ) of the same category word. , is a distance in the semantic space, and a regularization term E(w t ,w t′ ) based on the distance according to the appearance frequency is calculated.
  • the regularization term calculator 170 calculates the regularization term E(w t , wt ′ ) using Equation (1).
  • V indicates the vocabulary set of the corpus 111 .
  • w t is the word vector of the target word.
  • w t' is the word vector of co-category words.
  • d(w t ,w t′ ) is the distance between the word vector of the target word and the word vector of the same category word. Note that Euclidean distance is used as the distance. For distance, the inverse of cosine similarity (cos similarity) or "1-cos similarity" may be used.
  • FIG. 4 is a diagram for explaining the semantic space according to the first embodiment.
  • the semantic space is represented in two dimensions.
  • FIG. 4 shows a target word 20, high-frequency words 21 that are words with high frequency of appearance, and low-frequency words 22 that are words with low frequency of appearance.
  • the target word 20, the high-frequency word 21, and the low-frequency word 22 are words of the same category.
  • FIG. 4 shows the trust areas 23 and 24.
  • the word vector of the high-frequency word 21 tends to have a small variance. Therefore, the trust area 23 is small.
  • the word vectors of the low frequency words 22 tend to have a large variance. Therefore, the trust region 24 is large.
  • FIG. 4 also shows words 31 and 32 in categories different from the target word 20 .
  • the regularization term calculation unit 170 calculates the regularization term E(w t ,w t ′ ). In addition, when the appearance frequency f(w t′ ) of the same category words is high, the regularization term calculation unit 170 calculates the regularization term E(w t , w t′ ).
  • the updating unit 180 updates the word vector w t of the target word using the regularization term E(w t , w t′ ). Specifically, the updating unit 180 updates the word vector w t of the target word based on the objective function using the regularization term E(w t , w t′ ) and the objective function of skip-gram negative sampling. . Specifically, the update unit 180 updates the word vector w t of the target word using Equation (2). Note that the first and second terms in the summation symbol in equation (2) are the same as the objective function of skip-gram negative sampling described in Non-Patent Document 2. Therefore, descriptions of similar parts are omitted.
  • J indicates an objective function.
  • k indicates the number of pseudo-negative samples of Skip-gram negative sampling.
  • Pn denotes the sampling distribution of pseudo negative examples. Note that Pn is usually a unigram distribution or a 0.75th power distribution of the unigram.
  • wn indicates the word vector of the pseudo-negative example.
  • w c denotes the word vector of the word co-occurring with w t .
  • co-occurring words are words that exist within N characters before and after the target word. Also, N is a predetermined integer.
  • Step S18 The update unit 180 determines whether or not the termination requirement is satisfied.
  • the termination requirement is that the word vector wt of the target word does not fluctuate.
  • the termination requirement is that the number of times steps S16 and S17 are executed exceeds a predetermined threshold. If the termination requirement is not satisfied, the process proceeds to step S16. If the termination requirements are met, processing terminates.
  • the update unit 180 stores the word vector wt of the target word in the storage unit 110 .
  • repeating steps S16 to S18 may be expressed as learning.
  • the information processing apparatus 100 does not update the word vector of the target word by adding the same weight to all words in the same category.
  • the information processing apparatus 100 calculates a regularization term according to the appearance frequency, and uses the regularization term to update the word vector of the target word. For example, when the appearance frequency of the same category words is low, the information processing apparatus 100 uses a regularization term to reduce the influence of the words with the low appearance frequency on the target word. Therefore, the information processing apparatus 100 can improve the distributed representation of the word vector of the target word.
  • Embodiment 2 Next, Embodiment 2 will be described. In Embodiment 2, mainly matters different from Embodiment 1 will be described. In the second embodiment, descriptions of items common to the first embodiment are omitted.
  • FIG. 5 is a block diagram showing functions of the information processing apparatus according to the second embodiment. 5 that are the same as those shown in FIG. 1 are assigned the same reference numerals as those shown in FIG. In FIG. 5, illustration of the preprocessing unit 130, the category determination unit 140, the word vector generation unit 150, the appearance frequency calculation unit 160, the regularization term calculation unit 170, and the update unit 180 is omitted.
  • Information processing apparatus 100 further includes display unit 191 , determination unit 192 , determination unit 193 , and relearning unit 194 .
  • a part or all of the display unit 191, the determination unit 192, the determination unit 193, and the re-learning unit 194 may be implemented by a processing circuit. Also, part or all of the display unit 191, the determination unit 192, the determination unit 193, and the re-learning unit 194 may be implemented as modules of a program executed by the processor 101.
  • Storage unit 110 stores database 113 .
  • Database 113 may be referred to as a trained model.
  • the database 113 indicates correspondence relationships between a plurality of words included in the corpus 111 and a plurality of word vectors corresponding to the plurality of words. Note that each of the plurality of word vectors is the updated word vector in the first embodiment.
  • the storage unit 110 also stores relearning target information 114 . The relearning target information 114 will be described later.
  • the functions of the display unit 191, determination unit 192, determination unit 193, and relearning unit 194 will be described later.
  • FIG. 6 is a flowchart illustrating an example of processing executed by the information processing apparatus according to the second embodiment;
  • FIG. The display unit 191 displays a search user interface screen. For example, the display unit 191 displays a search user interface screen on the display.
  • Step S22 The acquisition unit 120 determines whether or not a search keyword has been input via the search user interface screen. When a search keyword is input by the user, the acquisition unit 120 acquires the search keyword input by the user. Then, the process proceeds to step S23. If the search keyword has not been input, the obtaining unit 120 waits until the search keyword is input.
  • the determination unit 192 uses the database 113 to determine synonyms of the search keyword. Specifically, the determination unit 192 detects word vectors similar to the word vector of the search keyword from the database 113, and determines words corresponding to the detected word vectors as synonyms of the search keyword. It should be noted that, for example, whether or not the images are similar is determined using a threshold value.
  • Step S24 The display unit 191 displays synonyms of the search keyword.
  • the display of synonyms of the search keyword is also called a suggestion.
  • Step S25 The determination unit 193 determines whether or not the user has adopted the synonym.
  • FIG. 7 is a diagram showing a specific example of display of synonyms and adoption of synonyms according to the second embodiment.
  • FIG. 7 shows that "hogehoge" has been input as a search keyword.
  • the display unit 191 displays the synonym "fugafuga" of the search keyword "hogehoge”.
  • the display unit 191 displays the search keyword "hogehoge” and the synonym "fugafuga”.
  • the display unit 191 displays the search keyword "hogehoge”. In this way, the user looks at the display screen and judges whether or not to adopt the synonym.
  • step S26 If the user has adopted the synonym, the process ends. If the user does not adopt the synonym, the process proceeds to step S26.
  • the relearning unit 194 registers the search keyword and the displayed synonyms in the relearning target information 114 as relearning target words.
  • Step S26 The determination unit 193 determines whether or not the requirements for re-learning are satisfied.
  • the relearning requirement is that the number of words registered in the relearning target information 114 exceeds a threshold. Further, the determining unit 193 may determine that the re-learning requirement is satisfied at the timing when two words are registered in the relearning target information 114 . If the relearning requirement is satisfied, the process proceeds to step S27. If the relearn requirements are not met, the process ends.
  • Step S ⁇ b>27 Acquisition unit 120 acquires update information of category dictionary 112 .
  • the update information may be created by a user.
  • the relearning unit 194 updates the category dictionary 112 based on the update information.
  • the reason for updating the category dictionary 112 is to update the word vectors of the search keyword and the word vectors of synonyms to appropriate word vectors in re-learning, which will be described later.
  • the relearning unit 194 uses the updated category dictionary 112 and the relearning target information 114 to execute processing for updating the word vectors of the search keywords and the word vectors of synonyms. Specifically, the relearning unit 194 regards the plurality of words registered in the relearning target information 114 as the corpus 111 or the preprocessing corpus, and executes steps S12 to S18. As a result, each of the plurality of words registered in the relearning target information 114 becomes a target word. The word vectors for each of the multiple words are then updated. The relearning unit 194 registers the multiple words registered in the relearning target information 114 and the multiple updated word vectors in the database 113 .
  • the information processing apparatus 100 can display synonyms desired by the user by re-learning a plurality of words registered in the relearning target information 114 .
  • 10 network 20 target words, 21 high-frequency words, 22 low-frequency words, 23 trust regions, 24 trust regions, 31, 32 words, 100 information processing device, 101 processor, 102 volatile storage device, 103 non-volatile storage device, 110 storage unit, 111 corpus, 112 category dictionary, 113 database, 114 re-learning target information, 120 acquisition unit, 130 preprocessing unit, 140 category determination unit, 150 word vector creation unit, 160 appearance frequency calculation unit, 170 regularization term Calculation unit, 180 update unit, 191 display unit, 192 determination unit, 193 determination unit, 194 relearning unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置(100)は、前処理コーパスと、単語とカテゴリとの対応関係を示す情報であるカテゴリ辞書(112)とを取得する取得部(120)と、カテゴリ辞書(112)を用いて、前処理コーパスに含まれる複数の単語のカテゴリを判定するカテゴリ判定部(140)と、対象単語に基づいて、対象単語の単語ベクトルを作成し、同一カテゴリ単語に基づいて、同一カテゴリ単語の単語ベクトルを作成する単語ベクトル作成部(150)と、前処理コーパスに基づいて、対象単語の出現頻度と同一カテゴリ単語の出現頻度とを算出する出現頻度算出部(160)と、対象単語の単語ベクトル、同一カテゴリ単語の単語ベクトル、対象単語の出現頻度、及び同一カテゴリ単語の出現頻度を用いて、正則化項を算出する正則化項算出部(170)と、正則化項を用いて、対象単語の単語ベクトルを更新する更新部(180)と、を有する。

Description

情報処理装置、更新方法、及び更新プログラム
 本開示は、情報処理装置、更新方法、及び更新プログラムに関する。
 word2vecが知られている。word2vecは、教師なし学習で、コーパス(すなわち、ラベルの付いていない文)を用いて単語の意味的な特徴を学習することができる。学習された単語の単語ベクトルは、分散表現と呼ばれる。学習された単語の単語ベクトルは、文書検索などで用いることができる。
 一方、単語間の関係知識、単語の属性知識などの外部情報を教師情報として用いて、分散表現の精度を向上させる手法が知られている。例えば、単語間の関係性及びカテゴリ情報に対して外部情報を用いることで、単語の意味的な情報が保たれながら、単語間の関係性を学習する手法が提案されている(非特許文献1を参照)。
Chang Xu et al.「RC-NET:A General Framework for Incorporating Knowledge into Word Representations」、2014年 Tomas Mikolov et al.「Distributed Representations of Words and Phrases and their Compositionality」
 非特許文献1では、同じカテゴリの全ての単語に同じ重みを付加して、対象単語の単語ベクトルが更新される。しかし、出現頻度の少ない単語にも同じ重みを付加することは、更新される単語ベクトルの分散表現に悪影響を及ぼす。よって、非特許文献1の方法は、望ましいと言えない。
 本開示の目的は、分散表現を向上させることである。
 本開示の一態様に係る情報処理装置が提供される。情報処理装置は、前処理が行われたコーパスである前処理コーパスと、単語とカテゴリとの対応関係を示す情報であるカテゴリ辞書とを取得する取得部と、前記カテゴリ辞書を用いて、前記前処理コーパスに含まれる複数の単語のカテゴリを判定するカテゴリ判定部と、前記複数の単語のうちの1つの単語である対象単語に基づいて、前記対象単語の単語ベクトルを作成し、前記複数の単語のうちの1つの単語であり、かつ前記対象単語と同じカテゴリの単語である同一カテゴリ単語に基づいて、前記同一カテゴリ単語の単語ベクトルを作成する単語ベクトル作成部と、前記前処理コーパスに基づいて、前記前処理コーパス内における前記対象単語の出現頻度と、前記前処理コーパス内における前記同一カテゴリ単語の出現頻度とを算出する出現頻度算出部と、前記対象単語の単語ベクトル、前記同一カテゴリ単語の単語ベクトル、前記対象単語の出現頻度、及び前記同一カテゴリ単語の出現頻度を用いて、正則化項を算出する正則化項算出部と、前記正則化項を用いて、前記対象単語の単語ベクトルを更新する更新部と、を有する。
 本開示によれば、分散表現を向上することができる。
実施の形態1の情報処理装置の機能を示すブロック図である。 実施の形態1の情報処理装置が有するハードウェアを示す図である。 実施の形態1の情報処理装置が実行する処理の例を示すフローチャートである。 実施の形態1の意味空間を説明する図である。 実施の形態2の情報処理装置の機能を示すブロック図である。 実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。 実施の形態2の類義語の表示と類義語の採択との具体例を示す図である。
 以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。
実施の形態1.
 図1は、実施の形態1の情報処理装置の機能を示すブロック図である。情報処理装置100は、更新方法を実行する装置である。例えば、情報処理装置100は、パーソナルコンピュータ、サーバ、スマートフォン、又はタブレット装置である。まず、情報処理装置100が有するハードウェアを説明する。
 図2は、実施の形態1の情報処理装置が有するハードウェアを示す図である。情報処理装置100は、プロセッサ101、揮発性記憶装置102、不揮発性記憶装置103、ネットワークIF(Interface)104、入力IF105、及び表示IF106を有する。
 プロセッサ101は、情報処理装置100全体を制御する。例えば、プロセッサ101は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などである。プロセッサ101は、マルチプロセッサでもよい。また、情報処理装置100は、処理回路を有してもよい。さらに、プロセッサ101は、マイクロコンピュータ、又はSoC(System on Chip)でもよい。
 揮発性記憶装置102は、情報処理装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。不揮発性記憶装置103は、情報処理装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、ROM(Read Only Memory)、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)である。
 ネットワークIF104は、ネットワーク10と通信する。なお、ネットワーク10は、有線ネットワーク又は無線ネットワークである。
 入力IF105は、キーボード、タッチパネル、マウスなどから情報又は信号を受け付ける。なお、情報処理装置100は、入力IF105を有していなくてもよい。
 表示IF106は、ディスプレイに情報を出力する。なお、情報処理装置100は、表示IF106を有していなくてもよい。
 図1に戻って、情報処理装置100が有する機能を説明する。
 情報処理装置100は、記憶部110、取得部120、前処理部130、カテゴリ判定部140、単語ベクトル作成部150、出現頻度算出部160、正則化項算出部170、及び更新部180を有する。
 記憶部110は、揮発性記憶装置102又は不揮発性記憶装置103に確保した記憶領域として実現してもよい。
 取得部120、前処理部130、カテゴリ判定部140、単語ベクトル作成部150、出現頻度算出部160、正則化項算出部170、及び更新部180の一部又は全部は、処理回路によって実現してもよい。また、取得部120、前処理部130、カテゴリ判定部140、単語ベクトル作成部150、出現頻度算出部160、正則化項算出部170、及び更新部180の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、更新プログラムとも言う。例えば、更新プログラムは、CD、フラッシュメモリなどの記録媒体に記録される。また、更新プログラムは、記憶部110に格納されてもよい。更新プログラムは、ネットワーク10を介して取得されてもよい。
 記憶部110は、コーパス111とカテゴリ辞書112とを記憶する。コーパス111は、学習用データと呼んでもよい。また、コーパス111は、文章が登録されたデータベースと考えてもよい。カテゴリ辞書112は、名詞又は名詞句の単語と、カテゴリとの対応関係を示す情報である。なお、カテゴリは、名詞又は名詞句の上位概念の表現、商品のカテゴリ、又は固有表現のクラス名でもよい。また、例えば、クラス名は、人名、地名などである。
 取得部120は、コーパス111とカテゴリ辞書112とを記憶部110から取得する。また、取得部120は、コーパス111とカテゴリ辞書112とを外部装置から取得してもよい。外部装置の図示は、省略されている。
 前処理部130は、コーパス111を前処理する。例えば、前処理部130は、形態素解析及び単語の正規化を行う。ここで、記憶部110は、前処理が行われたコーパスを記憶してもよい。前処理が行われたコーパスが記憶部110に格納されている場合、取得部120は、前処理が行われたコーパスを取得する。また、前処理が行われたコーパスが記憶部110に格納されている場合、情報処理装置100は、前処理部130を有さない。前処理が行われたコーパスは、前処理コーパスと呼ぶ。また、取得部120は、前処理コーパスを外部装置から取得してもよい。
 カテゴリ判定部140は、カテゴリ辞書112を用いて、前処理コーパスに含まれる複数の単語のカテゴリを判定する。詳細には、カテゴリ判定部140は、カテゴリ辞書112を用いて、前処理コーパスに含まれる、名詞又は名詞句の単語のカテゴリを判定する。
 単語ベクトル作成部150、出現頻度算出部160、正則化項算出部170、及び更新部180の詳細な機能は、後で説明する。
 次に、情報処理装置100が実行する処理を、フローチャートを用いて、説明する。
 図3は、実施の形態1の情報処理装置が実行する処理の例を示すフローチャートである。
 (ステップS11)前処理部130は、処理要求を受け付けたか否かを判定する。処理要求を受け付けた場合、処理は、ステップS12に進む。処理要求を受け付けていない場合、前処理部130は、待機する。
 (ステップS12)前処理部130は、対象単語を含むコーパス111に対して前処理を実行する。
 (ステップS13)カテゴリ判定部140は、カテゴリ辞書112を用いて、前処理コーパスに含まれる、名詞又は名詞句の単語のカテゴリを判定する。
 (ステップS14)単語ベクトル作成部150は、前処理コーパスに含まれる複数の単語のうちの1つの単語である対象単語に基づいて、対象単語の単語ベクトルを作成する。例えば、単語ベクトル作成部150は、対象単語とword2vecとを用いて、対象単語の単語ベクトルを作成する。また、単語ベクトル作成部150は、当該複数の単語のうちの1つの単語であり、かつ対象単語と同じカテゴリの単語である同一カテゴリ単語に基づいて、同一カテゴリ単語の単語ベクトルを作成する。
 (ステップS15)出現頻度算出部160は、前処理コーパスに基づいて、前処理コーパス内における対象単語の出現頻度f(w)を、重みとして算出する。また、出現頻度算出部160は、前処理コーパスに基づいて、前処理コーパス内における同一カテゴリ単語の出現頻度f(wt′)を、重みとして算出する。
 (ステップS16)正則化項算出部170は、対象単語の単語ベクトル、同一カテゴリ単語の単語ベクトル、対象単語の出現頻度f(w)、及び同一カテゴリ単語の出現頻度f(wt′)を用いて、正則化項E(w,wt′)を算出する。言い換えれば、正則化項算出部170は、対象単語の単語ベクトル、同一カテゴリ単語の単語ベクトル、対象単語の出現頻度f(w)、及び同一カテゴリ単語の出現頻度f(wt′)を用いて、意味空間上における距離であり、出現頻度に応じた距離に基づく正則化項E(w,wt′)を算出する。詳細には、正則化項算出部170は、式(1)を用いて、正則化項E(w,wt′)を算出する。
Figure JPOXMLDOC01-appb-M000001
 なお、Vは、コーパス111の語彙集合を示す。wは、対象単語の単語ベクトルである。wt′は、同一カテゴリ単語の単語ベクトルである。d(w,wt′)は、対象単語の単語ベクトルと、同一カテゴリ単語の単語ベクトルとの距離である。なお、距離では、ユークリッド距離が用いられる。距離では、コサイン類似度(cos類似度)の逆数、又は、“1-cos類似度”が用いられてもよい。
 ここで、意味空間上における距離を説明する。
 図4は、実施の形態1の意味空間を説明する図である。図4では、意味空間が2次元で表されている。図4は、対象単語20、出現頻度の多い単語である高頻度単語21、及び出現頻度の少ない単語である低頻度単語22を示している。対象単語20、高頻度単語21、及び低頻度単語22は、同一のカテゴリの単語である。
 図4は、信頼領域23,24を示している。高頻度単語21の単語ベクトルは、分散が小さい傾向にある。そのため、信頼領域23は、小さい。低頻度単語22の単語ベクトルは、分散が大きい傾向にある。そのため、信頼領域24は、大きい。また、図4は、対象単語20と異なるカテゴリの単語31,32を示している。
 同一カテゴリ単語の出現頻度f(wt′)が少ない場合、正則化項算出部170は、低頻度単語22から対象単語20に対する影響が小さくなるような、正則化項E(w,wt′)を算出する。また、同一カテゴリ単語の出現頻度f(wt′)が多い場合、正則化項算出部170は、高頻度単語21から対象単語20に対する影響が大きくなるような、正則化項E(w,wt′)を算出する。
 (ステップS17)更新部180は、正則化項E(w,wt′)を用いて、対象単語の単語ベクトルwを更新する。詳細には、更新部180は、正則化項E(w,wt′)とskip-gram negative samplingの目的関数とを用いた目的関数に基づいて、対象単語の単語ベクトルwを更新する。具体的には、更新部180は、式(2)を用いて、対象単語の単語ベクトルwを更新する。なお、式(2)における総和記号の中の第1項と第2項とは、非特許文献2に記載のskip-gram negative samplingの目的関数とは同様である。そのため、同様の箇所の説明は、省略する。
Figure JPOXMLDOC01-appb-M000002
 なお、Jは、目的関数を示す。σ(x)(=1/(1+exp(-x)))は、シグモイド関数を示す。kは、Skip-gram negative samplingの擬似負例数を示す。Pnは、擬似負例のサンプリング分布を示す。なお、Pnは、通常、ユニグラム分布又はユニグラムの0.75乗した分布である。wは、擬似負例の単語ベクトルを示す。wは、wと共起する単語の単語ベクトルを示す。なお、共起する単語とは、対象単語の前後N文字以内に存在する単語のことである。また、Nは、予め定められた整数である。
 (ステップS18)更新部180は、終了要件を満たすか否かを判定する。なお、例えば、終了要件は、対象単語の単語ベクトルwが変動しなくなることである。また、例えば、終了要件は、ステップS16,17を実行した回数が予め定められた閾値を超えることである。
 終了要件が満たされていない場合、処理は、ステップS16に進む。終了要件が満たされた場合、処理は、終了する。更新部180は、対象単語の単語ベクトルwを記憶部110に格納する。
 ここで、ステップS16~18を繰り返すことは、学習と表現してもよい。
 実施の形態1によれば、情報処理装置100は、同じカテゴリの全ての単語に同じ重みを付加して、対象単語の単語ベクトルを更新しない。情報処理装置100は、出現頻度に応じた正則化項を算出し、正則化項を用いて、対象単語の単語ベクトルを更新する。例えば、情報処理装置100は、同一カテゴリ単語の出現頻度が少ない場合、正則化項を用いることで、出現頻度の少ない単語から対象単語に対する影響を小さくする。よって、情報処理装置100は、対象単語の単語ベクトルの分散表現を向上させることができる。
実施の形態2.
 次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。
 図5は、実施の形態2の情報処理装置の機能を示すブロック図である。図1に示される構成と同じ図5の構成は、図1に示される符号と同じ符号を付している。また、図5では、前処理部130、カテゴリ判定部140、単語ベクトル作成部150、出現頻度算出部160、正則化項算出部170、及び更新部180の図示が、省略されている。
 情報処理装置100は、さらに、表示部191、決定部192、判定部193、及び再学習部194を有する。
 表示部191、決定部192、判定部193、及び再学習部194の一部又は全部は、処理回路によって実現してもよい。また、表示部191、決定部192、判定部193、及び再学習部194の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。
 記憶部110は、データベース113を記憶する。データベース113は、学習済モデルと呼んでもよい。データベース113は、コーパス111に含まれる複数の単語と、当該複数の単語に対応する複数の単語ベクトルとの対応関係を示す。なお、当該複数の単語ベクトルのそれぞれは、実施の形態1で、更新された単語ベクトルである。
 また、記憶部110は、再学習対象情報114を記憶する。再学習対象情報114については、後で説明する。
 表示部191、決定部192、判定部193、及び再学習部194の機能については、後で説明する。
 次に、情報処理装置100が実行する処理を、フローチャートを用いて説明する。
 図6は、実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。
 (ステップS21)表示部191は、検索ユーザインタフェース画面を表示する。例えば、表示部191は、検索ユーザインタフェース画面をディスプレイに表示する。
 (ステップS22)取得部120は、検索ユーザインタフェース画面を介して、検索キーワードが入力されたか否かを判定する。ユーザによって、検索キーワードが入力された場合、取得部120は、ユーザが入力した検索キーワードを取得する。そして、処理は、ステップS23に進む。検索キーワードが入力されていない場合、取得部120は、検索キーワードが入力されるまで待機する。
 (ステップS23)決定部192は、データベース113を用いて、検索キーワードの類義語を決定する。詳細には、決定部192は、検索キーワードの単語ベクトルと類似する単語ベクトルをデータベース113の中から検出し、検出された単語ベクトルに対応する単語を、検索キーワードの類義語として、決定する。なお、例えば、類似するか否かは、閾値を用いて、判定される。
 (ステップS24)表示部191は、検索キーワードの類義語を表示する。なお、検索キーワードの類義語が表示されることを、サジェストとも言う。
 (ステップS25)判定部193は、ユーザが当該類義語を採択したか否かを判定する。
 ここで、類義語の表示と類義語の採択とを、具体的に例示する。
 図7は、実施の形態2の類義語の表示と類義語の採択との具体例を示す図である。図7は、“ほげほげ”が検索キーワードとして入力されたことを示している。表示部191は、検索キーワード“ほげほげ”の類義語“ふがふが”を表示する。ユーザが類義語“ふがふが”を採択した場合、表示部191は、検索キーワード“ほげほげ”と類義語“ふがふが”とを表示する。ユーザが類義語“ふがふが”を採択しない場合、表示部191は、検索キーワード“ほげほげ”を表示する。
 このように、ユーザは、表示画面を見て、類義語を採用するか否かを判断する。
 ユーザが類義語を採択した場合、処理は、終了する。ユーザが類義語を採択しない場合、処理は、ステップS26に進む。
 ここで、ユーザが当該類義語を採択しない場合、当該類義語は、ユーザにとって検索キーワードの類義語ではないことを意味する。つまり、当該類義語は、意味空間上において、検索キーワードの近傍に存在するべきでないことを意味する。そこで、再学習部194は、検索キーワードと、表示された類義語とを、再学習の対象単語として、再学習対象情報114に登録する。
 (ステップS26)判定部193は、再学習の要件を満たすか否かを判定する。例えば、再学習の要件は、再学習対象情報114に登録されている単語の数が、閾値を超えることである。また、判定部193は、再学習対象情報114に2つの単語が登録されたタイミングで、再学習の要件を満たすと判定してもよい。
 再学習の要件が満たされる場合、処理は、ステップS27に進む。再学習の要件が満たされない場合、処理は、終了する。
 (ステップS27)取得部120は、カテゴリ辞書112の更新情報を取得する。例えば、当該更新情報は、ユーザによって作成されてもよい。
 (ステップS28)再学習部194は、当該更新情報に基づいて、カテゴリ辞書112を更新する。なお、カテゴリ辞書112を更新する理由は、後述する再学習で、検索キーワードの単語ベクトルと、類義語の単語ベクトルとを適切な単語ベクトルに更新させるためである。
 (ステップS29)再学習部194は、更新されたカテゴリ辞書112と、再学習対象情報114とを用いて、検索キーワードの単語ベクトルと、類義語の単語ベクトルとを更新するための処理を実行する。詳細には、再学習部194は、再学習対象情報114に登録されている複数の単語を、コーパス111又は前処理コーパスと見立てて、ステップS12~18を実行する。これにより、再学習対象情報114に登録されている複数の単語のそれぞれが、対象単語となる。そして、複数の単語のそれぞれの単語ベクトルが、更新される。
 再学習部194は、再学習対象情報114に登録されている複数の単語と、更新された複数の単語ベクトルとをデータベース113に登録する。
 実施の形態2によれば、情報処理装置100は、再学習対象情報114に登録されている複数の単語を再学習することで、ユーザが望む類義語を表示することができる。
 以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。
 10 ネットワーク、 20 対象単語、 21 高頻度単語、 22 低頻度単語、 23 信頼領域、 24 信頼領域、 31,32 単語、 100 情報処理装置、 101 プロセッサ、 102 揮発性記憶装置、 103 不揮発性記憶装置、 110 記憶部、 111 コーパス、 112 カテゴリ辞書、 113 データベース、 114 再学習対象情報、 120 取得部、 130 前処理部、 140 カテゴリ判定部、 150 単語ベクトル作成部、 160 出現頻度算出部、 170 正則化項算出部、 180 更新部、 191 表示部、 192 決定部、 193 判定部、 194 再学習部。

Claims (5)

  1.  前処理が行われたコーパスである前処理コーパスと、単語とカテゴリとの対応関係を示す情報であるカテゴリ辞書とを取得する取得部と、
     前記カテゴリ辞書を用いて、前記前処理コーパスに含まれる複数の単語のカテゴリを判定するカテゴリ判定部と、
     前記複数の単語のうちの1つの単語である対象単語に基づいて、前記対象単語の単語ベクトルを作成し、前記複数の単語のうちの1つの単語であり、かつ前記対象単語と同じカテゴリの単語である同一カテゴリ単語に基づいて、前記同一カテゴリ単語の単語ベクトルを作成する単語ベクトル作成部と、
     前記前処理コーパスに基づいて、前記前処理コーパス内における前記対象単語の出現頻度と、前記前処理コーパス内における前記同一カテゴリ単語の出現頻度とを算出する出現頻度算出部と、
     前記対象単語の単語ベクトル、前記同一カテゴリ単語の単語ベクトル、前記対象単語の出現頻度、及び前記同一カテゴリ単語の出現頻度を用いて、正則化項を算出する正則化項算出部と、
     前記正則化項を用いて、前記対象単語の単語ベクトルを更新する更新部と、
     を有する情報処理装置。
  2.  前処理部をさらに有し、
     前記取得部は、コーパスを取得し、
     前記前処理部は、前記コーパスを前処理し、
     前記前処理コーパスは、前記前処理部によって前処理されたコーパスである、
     請求項1に記載の情報処理装置。
  3.  記憶部と、
     決定部と、
     表示部と、
     判定部と、
     再学習部と、
     をさらに有し、
     前記記憶部は、前記複数の単語と、前記複数の単語に対応する複数の単語ベクトルとの対応関係を示すデータベースを記憶し、
     前記複数の単語ベクトルのうちの1つの単語ベクトルは、更新された単語ベクトルであり、
     前記取得部は、ユーザが入力した検索キーワードを取得し、
     前記決定部は、前記データベースを用いて、前記検索キーワードの類義語を決定し、
     前記表示部は、前記類義語を表示し、
     前記判定部は、前記ユーザが前記類義語を採択したか否かを判定し、
     前記再学習部は、前記ユーザが前記類義語を採択しない場合、前記検索キーワードと前記類義語とを、再学習の対象単語として、再学習対象情報に登録し、
     前記取得部は、前記ユーザが前記類義語を採択しない場合、前記カテゴリ辞書の更新情報を取得し、
     前記再学習部は、前記更新情報が取得された場合、前記更新情報に基づいて、前記カテゴリ辞書を更新し、更新された前記カテゴリ辞書と、前記再学習対象情報とを用いて、前記検索キーワードの単語ベクトルと、前記類義語の単語ベクトルとを更新するための処理を実行する、
     請求項1又は2に記載の情報処理装置。
  4.  情報処理装置が、
     前処理が行われたコーパスである前処理コーパスと、単語とカテゴリとの対応関係を示す情報であるカテゴリ辞書とを取得し、
     前記カテゴリ辞書を用いて、前記前処理コーパスに含まれる複数の単語のカテゴリを判定し、
     前記複数の単語のうちの1つの単語である対象単語に基づいて、前記対象単語の単語ベクトルを作成し、前記複数の単語のうちの1つの単語であり、かつ前記対象単語と同じカテゴリの単語である同一カテゴリ単語に基づいて、前記同一カテゴリ単語の単語ベクトルを作成し、
     前記前処理コーパスに基づいて、前記前処理コーパス内における前記対象単語の出現頻度と、前記前処理コーパス内における前記同一カテゴリ単語の出現頻度とを算出し、
     前記対象単語の単語ベクトル、前記同一カテゴリ単語の単語ベクトル、前記対象単語の出現頻度、及び前記同一カテゴリ単語の出現頻度を用いて、正則化項を算出し、
     前記正則化項を用いて、前記対象単語の単語ベクトルを更新する、
     更新方法。
  5.  情報処理装置に、
     前処理が行われたコーパスである前処理コーパスと、単語とカテゴリとの対応関係を示す情報であるカテゴリ辞書とを取得し、
     前記カテゴリ辞書を用いて、前記前処理コーパスに含まれる複数の単語のカテゴリを判定し、
     前記複数の単語のうちの1つの単語である対象単語に基づいて、前記対象単語の単語ベクトルを作成し、前記複数の単語のうちの1つの単語であり、かつ前記対象単語と同じカテゴリの単語である同一カテゴリ単語に基づいて、前記同一カテゴリ単語の単語ベクトルを作成し、
     前記前処理コーパスに基づいて、前記前処理コーパス内における前記対象単語の出現頻度と、前記前処理コーパス内における前記同一カテゴリ単語の出現頻度とを算出し、
     前記対象単語の単語ベクトル、前記同一カテゴリ単語の単語ベクトル、前記対象単語の出現頻度、及び前記同一カテゴリ単語の出現頻度を用いて、正則化項を算出し、
     前記正則化項を用いて、前記対象単語の単語ベクトルを更新する、
     処理を実行させる更新プログラム。
PCT/JP2021/039576 2021-10-27 2021-10-27 情報処理装置、更新方法、及び更新プログラム WO2023073818A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/039576 WO2023073818A1 (ja) 2021-10-27 2021-10-27 情報処理装置、更新方法、及び更新プログラム
JP2023540861A JP7378680B2 (ja) 2021-10-27 2021-10-27 情報処理装置、更新方法、及び更新プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/039576 WO2023073818A1 (ja) 2021-10-27 2021-10-27 情報処理装置、更新方法、及び更新プログラム

Publications (1)

Publication Number Publication Date
WO2023073818A1 true WO2023073818A1 (ja) 2023-05-04

Family

ID=86159205

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/039576 WO2023073818A1 (ja) 2021-10-27 2021-10-27 情報処理装置、更新方法、及び更新プログラム

Country Status (2)

Country Link
JP (1) JP7378680B2 (ja)
WO (1) WO2023073818A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018083804A1 (ja) * 2016-11-07 2018-05-11 富士通株式会社 分析プログラム、情報処理装置および分析方法
JP2021009538A (ja) * 2019-07-01 2021-01-28 株式会社野村総合研究所 自然言語処理装置および自然言語処理プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018083804A1 (ja) * 2016-11-07 2018-05-11 富士通株式会社 分析プログラム、情報処理装置および分析方法
JP2021009538A (ja) * 2019-07-01 2021-01-28 株式会社野村総合研究所 自然言語処理装置および自然言語処理プログラム

Also Published As

Publication number Publication date
JPWO2023073818A1 (ja) 2023-05-04
JP7378680B2 (ja) 2023-11-13

Similar Documents

Publication Publication Date Title
US10170104B2 (en) Electronic device, method and training method for natural language processing
US20240013055A1 (en) Adversarial pretraining of machine learning models
US11544474B2 (en) Generation of text from structured data
McDonald et al. Identifying gene and protein mentions in text using conditional random fields
Spithourakis et al. Numeracy for language models: Evaluating and improving their ability to predict numbers
US20210201143A1 (en) Computing device and method of classifying category of data
CN111324752B (zh) 基于图神经网络结构建模的图像与文本检索方法
US20180260381A1 (en) Prepositional phrase attachment over word embedding products
CN108052625B (zh) 一种实体精细分类方法
JP2004355483A (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
CN110688479B (zh) 一种用于生成式摘要的评估方法及排序网络
CN112434134B (zh) 搜索模型训练方法、装置、终端设备及存储介质
JP2022169757A (ja) 探索装置、探索方法及び探索プログラム
CN112347758A (zh) 文本摘要的生成方法、装置、终端设备及存储介质
CN115114919A (zh) 呈现提示信息的方法和装置以及存储介质
CN110888946A (zh) 一种基于知识驱动的查询的实体链接方法
WO2023033942A1 (en) Efficient index lookup using language-agnostic vectors and context vectors
JP7251622B2 (ja) パラメータ学習装置、パラメータ学習方法、及びプログラム
US11966428B2 (en) Resource-efficient sequence generation with dual-level contrastive learning
US20220222442A1 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
WO2023073818A1 (ja) 情報処理装置、更新方法、及び更新プログラム
CN116484829A (zh) 用于信息处理的方法和设备
CN115688768A (zh) 一种基于对抗数据增强的医疗文本专业分类方法
WO2021093871A1 (zh) 文本的查询方法、文本查询装置以及计算机存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21962367

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023540861

Country of ref document: JP