JPWO2022168208A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2022168208A5
JPWO2022168208A5 JP2022579218A JP2022579218A JPWO2022168208A5 JP WO2022168208 A5 JPWO2022168208 A5 JP WO2022168208A5 JP 2022579218 A JP2022579218 A JP 2022579218A JP 2022579218 A JP2022579218 A JP 2022579218A JP WO2022168208 A5 JPWO2022168208 A5 JP WO2022168208A5
Authority
JP
Japan
Prior art keywords
conversion
character string
conversion pattern
same thing
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022579218A
Other languages
English (en)
Other versions
JPWO2022168208A1 (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/JP2021/003965 external-priority patent/WO2022168208A1/ja
Publication of JPWO2022168208A1 publication Critical patent/JPWO2022168208A1/ja
Publication of JPWO2022168208A5 publication Critical patent/JPWO2022168208A5/ja
Pending legal-status Critical Current

Links

Description

本発明は、文字列の名寄せを行う情報処理装置等に関する。
あるデータテーブルのレコードと、他のデータテーブルのレコードとが、実際には同じものを示しているにもかかわらず、それらの表記が異なっていることがある。例えば、日経平均株価は、「日経平均」と表記されることもあれば、「日経」と表記されることもあり、また海外では「Nikkei225」と表記されることもある。
このような表記の異なるレコードが、同じものを示しているか否かを判定する作業や、同じものを示すレコードの表記を統一する作業は、「名寄せ」と呼ばれ、従来から行われている。例えば、下記の非特許文献1には、文字列の類似度を算出し、算出した類似度が高い文字列をマージする技術が開示されている。また、下記の非特許文献2には、対象となる2つのレコードの文字列ベクトルを結合した特徴量を用いて、二値分類器により当該2つのレコードが同じものを示すか否かを判定する技術が開示されている。
Jin et. al., "Efficient record linkage in large data sets", DASFAA 2003, Proceedings of the Eighth International Conference on Database Systems for Advanced Applications, March 2003 Govid et. al., "Entity Matching Meets Data Science: A Progress Report from the Magellan Project", SIGMOD 2019, pp.389-403, June, 2019
非特許文献1、2の技術は、名寄せ対象の文字列の表記が類似している場合には有効であるが、表記がかけ離れたものとなっている場合には正しく名寄せすることが難しい。例えば、非特許文献1、2の技術によれば、表記が類似した「日経平均」と「日経」であれば正しくマッチングすることが可能と考えられるが、表記が非類似の「日経」と「NKK」(Nikkeiの略語)をマッチングすることは難しい。
本発明の一態様は、表記が類似していない文字列についても正しく名寄せすることが可能な情報処理装置等を提供することを目的としている。
本発明の一側面に係る情報処理装置は、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得手段と、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定手段と、を備える。
本発明の一側面に係る情報処理装置は、名寄せ対象の文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段と、前記変換後の文字列ペアが同じものを示すか否かを判定する判定手段と、を備える。
本発明の一側面に係る情報処理装置は、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段と、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する学習手段と、を備える。
本発明の一側面に係る変換パターンの決定方法は、少なくとも1つのプロセッサが、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得することと、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定することと、を含む。
本発明の一側面に係る変換パターン決定プログラムは、コンピュータを、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得手段、および前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定手段、として機能させる。
本発明の一側面によれば、表記が類似していない文字列についても正しく名寄せすることが可能になる。
本発明の例示的実施形態1に係る情報処理装置の構成を示すブロック図である。 本発明の例示的実施形態1に係る、教師データの生成方法、名寄せ方法、および学習方法の流れを示すフロー図である。 本発明の例示的実施形態2に係る判定システムの説明図である。 本発明の例示的実施形態3に係る情報処理装置の構成を示すブロック図である。 前記情報処理装置が学習時に行う処理の流れを示すフロー図である。 前記情報処理装置が名寄せ時に行う処理の流れを示すフロー図である。 本発明の各例示的実施形態に係る各装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。まず、本例示的実施形態に係る情報処理装置1~3の構成について、図1を参照して説明する。図1は、情報処理装置1~3の構成を示すブロック図である。
(情報処理装置1の構成)
情報処理装置1は、データ取得部(データ取得手段)11と変換パターン決定部(変換パターン決定手段)12を備えている。データ取得部11は、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得する。そして、変換パターン決定部12は、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する。
以上のように、本例示的実施形態に係る情報処理装置1においては、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得し、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する、という構成が採用されている。
前記の構成によれば、文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定することができる。ここで、判定精度が高まるということは、文字列の類似度が高くなることを意味している。つまり、前記の構成により決定された変換パターンで変換を行うことにより、表記は類似していないが同じものを示している文字列からなる文字列ペアをより類似性の高い文字列からなる変換後の文字列ペアとすることができる。したがって、前記の構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。
(変換パターン決定プログラム)
上述の情報処理装置1の機能は、プログラムによって実現することもできる。本例示的実施形態に係る変換パターン決定プログラムは、コンピュータを、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得手段、および、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定手段として機能させる、という構成が採用されている。このため、本例示的実施形態に係る変換パターン決定プログラムによれば、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。
(情報処理装置2の構成)
情報処理装置2は、変換部(変換手段)21と判定部(判定手段)22を備えている。変換部21は、名寄せ対象の文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する。そして、判定部22は、前記変換後の文字列ペアが同じものを示すか否かを判定する。
以上のように、本例示的実施形態に係る情報処理装置2においては、名寄せ対象の文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換し、前記変換後の文字列ペアが同じものを示すか否かを判定する、という構成が採用されている。
前記の構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。また、前記の構成によれば、1つの変換規則を用いた1回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になるという効果も得られる。
(名寄せプログラム)
上述の情報処理装置2の機能は、プログラムによって実現することもできる。本例示的実施形態に係る名寄せプログラムは、コンピュータを、名寄せ対象の文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段、および、前記変換後の文字列ペアが同じものを示すか否かを判定する判定手段として機能させる、という構成が採用されている。このため、本例示的実施形態に係る名寄せプログラムによれば、表記が類似していない文字列についても正しく名寄せすることが可能になると共に、1つの変換規則を用いた1回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になるという効果が得られる。
(情報処理装置3の構成)
情報処理装置3は、変換部(変換手段)31と学習部(学習手段)32を備えている。変換部31は、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する。そして、学習部32は、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する。
以上のように、本例示的実施形態に係る情報処理装置3においては、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換し、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する、という構成が採用されている。
前記の構成によれば、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成することが可能になる。そして、この判定モデルを用いることにより、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。また、1つの変換規則を用いた1回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になる。
(学習プログラム)
上述の情報処理装置3の機能は、プログラムによって実現することもできる。本例示的実施形態に係る学習プログラムは、コンピュータを、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段、および、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する学習手段として機能させる、という構成が採用されている。このため、本例示的実施形態に係る学習プログラムによれば、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成することが可能になる。そして、この判定モデルを用いることにより、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。また、1つの変換規則を用いた1回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になる。
(変換パターンの決定方法、名寄せ方法、および学習方法の流れ)
図2は、本発明の第1の例示的実施形態に係る、教師データの生成方法、名寄せ方法、および学習方法の流れを示すフロー図である。なお、S11~S12が変換パターンの決定方法を示し、S21~S22が名寄せ方法を示し、S31~S32が学習方法を示している。
(変換パターンの決定方法)
S11では、少なくとも1つのプロセッサが、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得する。
S12では、少なくとも1つのプロセッサが、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する。これにより、図2に示す変換パターンの決定方法は終了する。
以上のように、本例示的実施形態に係る変換パターンの決定方法においては、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得し、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する、という構成が採用されている。この構成によれば、上述した情報処理装置1と同様に、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。
なお、この変換パターンの決定方法における各ステップの実行主体は、情報処理装置1が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。これは、以下で述べる名寄せ方法および学習方法についても同様である。
(名寄せ方法)
S21では、少なくとも1つのプロセッサが、名寄せ対象の文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する。
S22では、少なくとも1つのプロセッサが、前記変換後の文字列ペアが同じものを示すか否かを判定する。これにより、図2に示す名寄せ方法は終了する。
以上のように、本例示的実施形態に係る名寄せ方法においては、名寄せ対象の文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換し、前記変換後の文字列ペアが同じものを示すか否かを判定する、という構成が採用されている。
この構成によれば、上述した情報処理装置2と同様に、表記が類似していない文字列についても正しく名寄せすることが可能になると共に、1つの変換規則を用いた1回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になるという効果が得られる。
(学習方法)
S31では、少なくとも1つのプロセッサが、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する。
S32では、少なくとも1つのプロセッサが、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する。これにより、図2に示す学習方法は終了する。
以上のように、本例示的実施形態に係る学習方法においては、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換し、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する、という構成が採用されている。
前記の構成によれば、上述した情報処理装置3と同様に、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成することが可能になる。そして、この判定モデルを用いることにより、表記が類似していない文字列についても正しく名寄せすることが可能になると共に、1つの変換規則を用いた1回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になるという効果が得られる。
〔例示的実施形態2〕
本発明の第2の例示的実施形態について図3に基づいて説明する。図3は、本例示的実施形態に係る判定システム100の説明図である。判定システム100は、名寄せ対象の文字列のペアが同じものを示しているか否かを判定するシステムであり、変換装置(情報処理装置)4と判定装置5を含む。
変換装置4は、文字列の変換パターンを決定すると共に、決定した変換パターンで文字列を変換する。変換装置4は、データ取得部(データ取得手段)41と、変換パターン決定部(変換パターン決定手段)42と、変換部43を備えている。これらの構成要素の機能は、図1に示したデータ取得部11、変換パターン決定部12、および変換部21、31と同様であるからここでは説明を繰り返さない。
判定装置5は、名寄せ対象の文字列のペアが同じものを示しているか否かを判定する。また、判定装置5は、前記判定に用いる判定モデルを生成する機能も備えている。判定装置5は、学習部51と判定部52を備えている。これらの構成要素の機能は、図1に示した学習部32および判定部22と同様であるからここでは説明を繰り返さない。
(学習フェーズ)
判定システム100は、名寄せ対象の文字列のペアが同じものを示しているか否かを判定するにあたり、まず、教師データを用いた機械学習により、当該判定のための判定モデルを生成する。学習フェーズでは、まず、変換装置4のデータ取得部41が教師データを取得する。取得する教師データは、各文字列が同じものを示すか否かが既知である文字列ペアを複数含むデータセットである。
図3では、文字列ペアの一方をx、他方をx、それらの文字列が同じものを示すか否かをyで示している。なお、y=1は、xとxが同じものを示していることを意味し、y=0は、xとxが同じものを示していないことを意味している。例えば、図3に示す教師データにおいて、x=“AxBy社”、x=“AB”の文字列ペアのy=1である。これは、“AxBy社”という文字列と、“AB”という文字列が同じもの(この例では同じ会社)を示していることを意味している。
次に、変換パターン決定部42が、前記教師データに含まれる文字列ペアに対する変換の試行結果に基づき、前記教師データに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する。変換パターンの決定方法の詳細は後述する。
次に、変換部43が、前記教師データに含まれる各文字列ペアを、変換パターン決定部42が決定した前記変換パターンで変換する。これにより、変換後の教師データが生成される。そして、生成された変換後の教師データは、判定装置5に出力される。
判定装置5では、学習部51が、変換装置4から取得した変換後の教師データを用いて機械学習を行い、名寄せ対象の文字列ペアが同じものを示しているか否かを判定するための判定モデルを生成する。これにより学習フェーズの処理は終了となる。
(推論フェーズ)
推論フェーズでは、変換装置4のデータ取得部41が名寄せ対象データを取得する。名寄せ対象データは、同じものを示すか否かを判定したい文字列ペアを少なくとも1つ含むデータである。上述の教師データと同様に、名寄せ対象データに含まれる文字列ペアは、その一方をx、他方をxとして表すことができる。
次に、変換部43が、前記名寄せ対象データに含まれる各文字列ペアを、学習フェーズで変換パターン決定部42が決定した変換パターンで変換する。これにより、変換後の名寄せ対象データが生成される。そして、生成された変換後の名寄せ対象データは、判定装置5に出力される。
判定装置5では、判定部52が、学習フェーズで生成された判定モデルを用いて、変換装置4から取得した変換後の名寄せ対象データに含まれる文字列ペアが同じものを示しているか否かを判定する。そして、判定部52は、その判定結果、すなわち名寄せ結果を出力する。これにより推論フェーズの処理は終了となる。
(具体的な適用例)
例えば、それぞれが複数のレコードからなる2つの対象データテーブルについて、同じものを示しているが、各対象データテーブルにおいて異なる表記となっているレコードの表記を統一したいとする。各対象データテーブルには、多数のレコードが含まれており、人手による名寄せには多大な時間と労力を要する。
この場合、各対象データテーブルから抽出した文字列をペアにし、ペアにした文字列に、それらの文字列が同じものを示すか否かを示す正解データを対応付けて教師データとすればよい。教師データに用いる文字列は、対象データテーブルに含まれるレコードの一部でよいので、このような教師データの生成にかかる時間と労力は、対象データテーブルの名寄せを全て人手で行う場合と比べて十分に少ない。
前記のような教師データを用いることにより、変換パターン決定部42は、対象データテーブル間の名寄せに有効な変換パターンを決定することができる。そして、この変換パターンを用いて対象データテーブルから抽出した他の文字列ペアを変換することにより、対象データテーブル間の高精度な名寄せ(表記の統一)が可能になる。
例えば、対象データテーブル特有の置換や省略がなされている場合には、そのような置換や省略前の文字列に戻す変換パターンが決定される。これにより、対象データテーブルに含まれる、上述のような置換や省略がなされた他のレコード(教師データにしなかったもの)を、決定された前記変換パターンで置換や省略前の文字列に戻した上で、同じものを示すレコードであるか否かを判定することができる。一般に、特有の置換や省略がなされたレコードを高精度に名寄せすることは難しいが、判定システム100によればこのようなレコードについても高精度に名寄せすることが可能である。
(変換パターンの元になる変換規則の例)
文字列を変換する変換パターンは、複数の変換規則をその適用順に組み合わせたものであってもよい。変換規則は、ある文字列を他の文字列に変換する規則である。変換規則は、文字列を入力すると文字列を出力する関数(文字列空間から文字列空間の写像)で表すことができる。例えば、ある変換規則を関数fとした場合、この変換規則で文字列xを変換することにより得られる文字列はf(x)と表される。そして、この変換後の文字列をさらに他の変換規則(関数f)で変換することにより得られる文字列はf(f(x))と表される。
変換規則は、名寄せに資するものであれば任意のものが適用可能である。例えば、文字種の変換(例えば、ひらがなへの変換、アルファベットへの変換等)、頭文字の抽出、漢数字のアラビア数字への変換、他の言語への翻訳、省略語の置き換え、特定の記号への置き換え等が挙げられる。前記翻訳は、辞書データ等を用いて行われるものであってもよいし、機械翻訳アルゴリズムを用いた機械翻訳であってもよい。どのような言語に翻訳するかは予め定めておけばよい。また、省略語の置き換えや特定の記号の置き換えについては、予め定められた置き換えルールに従い、辞書データ等を用いて置き換えを行えばよい。
このように、変換パターン決定部42が決定する変換パターンには、他の言語の文字列への翻訳、頭文字の抽出、および文字種の変換、の少なくとも何れかの変換規則が含まれていてもよい。
これらの各変換規則は、何れも、同じものを示しているが表記が類似していない文字列ペアを表記が類似した文字列ペアに変換するために有効である。よって、前記の構成によれば、表記が類似していない文字列についての名寄せの精度を高めることができる。例えば、他の言語の文字列への翻訳を行うことにより、同じものを示しているが、異なる言語で記載されているために表記が非類似となっている文字列を正しく名寄せすることができる。文字種の変換についても同様である。また、データベースやデータテーブルなどのレコードでは、複数の単語の頭文字を組み合わせた文字列が使われることも多いため、頭文字の抽出も有効な変換規則の1つといえる。
そして、このような各種の変換規則を組み合わせて変換パターンを生成することにより、1つの変換規則を用いた1回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になる。ただし、同じ変換規則でも、適用順序によって最終的な文字列は変わり得る。このため、どの変換規則をどういう順序で適用するかが、名寄せにおける判定精度に大きく影響する。
例えば、名寄せ対象の文字列をx=“日経”、x=“NKK”とする。これらは何れも「日経平均株価」を意味するものとして使用され得るが、非類似の文字列であるから、このままでは同じものを示す文字列と判断されない。前記xに対し、以下の変換規則を適用して変換することを考える。
:頭文字を抽出
:ひらがなに変換
:アルファベットに変換
ここで、xに対し、変換規則をf→f→fの順で適用したとする。この場合、f(x)=“日”となり、f(f(x))=“にち”となり、f(f(f(x)))=“Nichi”となる。これらの変換で得られた文字列“Nichi”は、x=“NKK”と類似しているとは言い難いから、f→f→fの変換パターンは、x=“日経”とx=“NKK”の名寄せに有効とは言い難い。
一方、xに対し、変換規則をf→f→fの順で適用したとする。この場合、f(x)=“にち‐けい”となり、f(f(x))=“Nichi‐Kei”となり、f(f(f(x)))=“NK”となる。これらの変換で得られた文字列“NK”は、x=“NKK”と類似しているから、f→f→fの変換パターンは、x=“日経”とx=“NKK”の名寄せにおける判定精度を高める変換パターンであるといえる。
(変換パターンの決定方法の例1)
上述のように、変換規則の適用順は、名寄せ精度に影響を与える。このため、変換パターン決定部42は、データ取得部41が取得する教師データを用いて、名寄せにおける判定精度を高めることができるような変換パターンを決定する。
例えば、変換パターン決定部42は、それぞれ異なる複数の変換パターンのそれぞれについて、当該変換パターンに従って変換した変換後の文字列ペアが同じものを示すか否かを判定する試行を行ってもよい。そして、変換パターン決定部42は、各試行における判定精度の評価結果に基づいて変換パターンを決定してもよい。
前記の構成によれば、変換パターンのそれぞれについて判定精度を評価した評価結果に基づいて変換パターンを決定するので、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを高い確度で決定することができる。
例えば、R個の変換規則が規定されている場合、それらの変換規則の中からN個を選択して配列させることにより、R通りの変換パターンが得られる。よって、変換パターン決定部42は、教師データに含まれる各文字列ペアを各変換パターンに従って変換し、変換後の字列ペアが同じものを示すか否かを判定し、その判定精度を評価すればよい。
なお、変換後の文字列ペアが同じものを示すか否かの判定方法は特に限定されず、教師あり学習で生成した判定モデルを用いて判定してもよいし、教師なし学習の判定モデルを用いて判定してもよい。また、判定精度の評価方法も特に限定されない。例えば。教師データに含まれる全部または一部の文字列ペアについて前記判定を行い、正答率を評価値としてもよい。この場合、変換パターン決定部42は、正答率が最も高かった変換パターンを、判定精度を高めることができる変換パターンと決定すればよい。
以上のような処理により、変換パターン決定部42は、教師データに含まれる各文字列ペアについての名寄せにおける判定精度を高めることができる変換パターンを決定することができる。なお、上述のような処理の結果、1つの変換規則からなる変換パターンが最良の変換パターンとして決定されることもあり得る。これは、以下説明する例2においても同様である。
(変換パターンの決定方法の例2)
変換パターン決定部42は、変換後の文字列ペアが同じものを示すか否かを判定したときの判定精度を報酬とした強化学習により変換パターンを決定してもよい。これにより、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを高い確度で決定することができる。また、変換パターンのそれぞれについて判定精度を評価する場合と比べて、試行の対象となる変換規則の数が多い場合でも計算量が膨大にならないという利点もある。
前記強化学習における「状態」は、これまでに選ばれた変換規則とその適用順とすればよい。また、前記強化学習における「行動」は、変換規則をさらに選択することおよび変換規則の選択を終了すること、とすればよい。これにより、教師データに含まれる各文字列ペアに対する変換の試行結果に基づいて、教師データに含まれる各文字列ペアが同じものを示すか否かの判定精度が高まる変換パターンが決定される。
例えば、f~f20の20個の変換規則が規定されている場合に、f→f→fの順に変換規則を適用した状態は、f(f(f(x)))と表される。この状態において、選択できる「行動」は、f~f20の中からさらに変換規則を選択するか、あるいは変換規則の選択を終了するかである。変換規則の選択を終了することにより「報酬」が確定する。例えば、f(f(f(x)))の状態で変換規則の選択が終了されると、f(f(f(x)))という変換パターンで変換した場合の判定精度を算出し、算出した判定精度に基づいて報酬を確定させることができる。このような処理を繰り返し行うことにより、教師データに含まれる各文字列ペアについて、当該文字列ペアが同じものを示すか否かの判定精度を最も高めることができる変換パターンを決定することができる。
判定精度の算出方法は特に限定されない。例えば、教師データの一部をテストデータとし、当該テストデータに含まれる各文字列ペアを前記変換パターンで変換し、変換後の文字列ペアが同じものを示すか否かを所定の判定方法で判定する。そして、各テストデータについての判定結果から正答率を算出し、これを判定精度の評価値としてもよい。
〔例示的実施形態3〕
(情報処理装置6の構成)
本例示的実施形態に係る情報処理装置6の構成を図4に基づいて説明する。図4は、情報処理装置6の構成を示すブロック図である。図示のように、情報処理装置6は、情報処理装置6の各部を統括して制御する制御部60と、情報処理装置6が使用する各種データを記憶する記憶部61を備えている。また、情報処理装置6は、情報処理装置6に対する入力を受け付ける入力部62と、情報処理装置6が情報を出力するための出力部63を備えている。
また、制御部60には、データ取得部(データ取得手段)601、変換パターン決定部(変換パターン決定手段)602、変換部(変換手段)603、学習部(学習手段)604、変換要否判定部605、第1判定部(判定手段)606、および第2判定部607が含まれている。そして、記憶部61には、変換規則611、変換パターン612、および判定モデル613が記憶されている。
データ取得部601は、情報処理装置6による処理の対象となるデータを取得する。より詳細には、データ取得部601は、変換パターン612の決定と、判定モデル613の生成に用いられる教師データを取得する。この教師データは、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットである。また、データ取得部601は、名寄せ対象のデータ、すなわち各文字列が同じものを示すか否かが未知である文字列ペアも取得する。
変換パターン決定部602は、データ取得部601が取得する教師データに含まれる文字列ペアに対する変換の試行結果に基づき、前記教師データに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターン612を決定する。変換パターン612の決定方法は上述したとおりであるからここでは説明を繰り返さない。
変換部603は、変換パターン決定部602が決定した変換パターン612に従って、名寄せ対象の文字列ペアを変換する。
学習部604は、変換部603による変換後の文字列ペアを教師データとして用いた機械学習により、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデル613を生成する。機械学習のアルゴリズムは、文字列ペアを、同じものを示すペアと、異なるものを示すペアに分類できるものであればよく、特に限定されない。
例えば、学習部604は、Logistic Regression、Random Forest、SVM(Support Vector Machine)、およびニューラルネットワーク等の判定モデル613を生成してもよい。また、判定モデル613は、文字列ペアを構成する各文字列をそのまま入力データとするものであってもよいし、文字列ペアを構成する各文字列から算出した特徴量を入力データとするものであってもよい。例えば、文字列ペアを構成する各文字列をベクトルで表現し、それらのベクトルを結合した特徴量を入力データとしてもよい。
変換要否判定部605は、名寄せ対象の文字列ペアを変換部603に変換させるか否かを判定する。この判定方法は特に限定されない。例えば、変換要否判定部605は、名寄せ対象の文字列ペアを変換するか否かをユーザに選択させてもよい。またこの際、変換要否判定部605は、名寄せ対象の文字列ペアと、教師データとした文字列ペアを表示装置(情報処理装置6が備えていてもよいし、情報処理装置6の外部の装置であってもよい)に表示させてもよい。この場合、ユーザは、名寄せ対象の文字列ペアと、教師データとした文字列ペアが似たような組み合わせであるか否かによって変換するか否かを決めればよい。例えば、名寄せ対象の文字列ペアと、教師データとした文字列ペアの何れもが、漢字の文字列と大文字アルファベットの文字列の組み合わせであれば変換すると決定し、その旨、入力部62を介して情報処理装置6に入力すればよい。
また、変換要否判定部605は、例えば、文字列ペアを入力とし、その文字列ペアを変換するか否かを示すデータを出力する判定モデル(機械学習により生成されたモデル)を用いて、変換させるか否かを判定してもよい。この他にも、例えば、変換要否判定部605は、名寄せ対象の文字列ペアの文字種の組み合わせが、教師データとした文字列ペアに含まれている場合には変換させると決定し、含まれていない場合には変換させないと決定してもよい。
第1判定部606は、変換部603が変換した変換後の文字列ペア(名寄せ対象の文字列ペアを変換したもの)が同じものを示すか否かを判定する。より詳細には、第1判定部606は、変換後の文字列ペアを判定モデル613に入力し、判定モデル613の出力値に基づいて当該文字列ペアが同じものを示すか否かを判定する。
第2判定部607は、名寄せ対象の文字列ペアが同じものを示すか否かを判定する。第2判定部607は、変換部603による変換がなされていない文字列ペアを判定の対象とする点が、第1判定部606との相違点である。第2判定部607の判定方法は特に限定されない。例えば、第2判定部607は、名寄せ対象の文字列ペアを構成する各文字列の類似度を算出し、算出した類似度に基づいて前記判定を行ってもよい。また、例えば、第2判定部607は、判定モデル613と同様の機械学習(ただし、教師データは変換していないものを使用)により生成された判定モデルを用いて前記判定を行ってもよい。
変換規則611は、変換処理の内容を示すものであり、変換パターン612の元になる。1または複数の変換規則611により変換パターン612が構成される。変換規則611としては、例えば、上述の「変換パターンの元になる変換規則の例」に挙げた各種の変換処理を適用することができる。
変換パターン612は、変換パターン決定部602が決定した、文字列ペアの少なくとも一方に施す変換処理の内容を示すものである。変換パターン決定部602によれば、複数の変換規則611をその適用順に組み合わせた変換パターン612が決定され得る。変換パターン612は、例えば、変換規則の組み合わせ、その適用順、および変換対象(xとxの何れを変換するか)を示すものであってもよい。
判定モデル613は、名寄せ対象の文字列ペアが同じものを示すか否かを判定するものであり、学習部604により生成される。上述のように、判定モデル613は、変換後の教師データを用いた学習により生成されるものであり、名寄せ対象の文字列ペアを変換したものを入力データとする。
以上のように、本例示的実施形態に係る情報処理装置6においては、変換パターン決定部602が決定した変換パターンに従って名寄せ対象の文字列ペアを変換する変換部603と、変換部603が変換した文字列ペアが同じものを示すか否かを判定する第1判定部606と、を備える、という構成が採用されている。このため、本例示的実施形態に係る情報処理装置6によれば、表記が類似していない文字列についても正しく名寄せすることができるという効果が得られる。
また、本例示的実施形態に係る情報処理装置6においては、変換パターン決定部602が決定した変換パターンに従って、名寄せ対象の文字列ペアを変換する変換部603と、変換後の文字列ペアを教師データとして用いた機械学習により、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデル613を生成する学習部604と、を備える、という構成が採用されている。このため、本例示的実施形態に係る情報処理装置6によれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデル613を生成することができるという効果が得られる。
(処理の流れ:学習時)
本例示的実施形態に係る情報処理装置6が学習時に行う処理の流れについて、図5を参照して説明する。図5は、情報処理装置6が学習時に行う処理の流れを示すフロー図である。なお、図5に示すS61~64のうち、S61~S62が変換パターンの決定方法であり、S63~S64が学習方法である。S61~S62の処理と、S63~S64の処理は、必ずしも続けて行う必要はない。
S61では、データ取得部601が教師データを取得する。この教師データは、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットである。教師データの取得方法は任意である。例えば、データ取得部601は、ユーザが入力部62を介して入力した教師データを取得してもよいし、記憶装置や記録媒体に記録されている教師データを有線または無線通信により取得してもよい。
S62では、変換パターン決定部602が、S61で取得された教師データに含まれる文字列ペアに対する変換の試行結果に基づき、当該教師データに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する。そして、変換パターン決定部602は、決定した変換パターンを記憶部61に記憶させる。このようにして記憶された変換パターンが、図4に示す変換パターン612である。
上述のように、変換パターンは、記憶部61に記憶されている変換規則611を組み合わせることにより生成される。変換パターンの決定方法としては、例えば上述の「変換パターンの決定方法の例1」または「変換パターンの決定方法の例2」に記載したような方法を適用することができる。
S63では、変換部603が、S62で決定された変換パターン612を適用して、S61で取得された教師データを変換する。より詳細には、変換部603は、S61で取得された教師データを構成する文字列ペアを構成する2つの文字列の少なくとも一方に対して、変換パターン612に示される複数の変換規則を、変換パターン612に示される順序に従って順次適用して変換する。なお、S62では、1つの変換規則からなる変換パターンが決定される可能性もある。この場合、S63では決定された1つの変換規則を適用した変換が行われる。
S64では、学習部604が、S63で変換された各文字列ペアを教師データとして用いた機械学習を行い、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成する。そして、学習部604は、生成した判定モデルを記憶部61に記憶させる。このようにして記憶された判定モデルが、図4に示す判定モデル613である。以上により、図5の処理は終了する。
なお、以上の処理のうち、教師データを取得し(S61)、取得した教師データを変換する(S63)、という一連の処理は教師データの生成方法と呼ぶことができる。本例示的実施形態に係る教師データの生成方法によれば、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成するための教師データを生成することができる。
(処理の流れ:名寄せ時)
本例示的実施形態に係る情報処理装置6が名寄せ時に行う処理(名寄せ方法)の流れについて、図6を参照して説明する。図6は、情報処理装置6が名寄せ時に行う処理の流れを示すフロー図である。
S71では、データ取得部601が名寄せ対象データを取得する。名寄せ対象データは、同じものを示すか否かが未知である文字列のペアである。名寄せ対象データの取得方法は任意である。例えば、データ取得部601は、ユーザが入力部62を介して入力した名寄せ対象データを取得してもよいし、記憶装置や記録媒体に記録されている名寄せ対象データを有線または無線通信により取得してもよい。
S72では、変換要否判定部605が、S71で取得された名寄せ対象データを変換するか否かを判定する。S72で変換すると判定された場合(S72でYES)にはS74に進む。一方、S72で変換しないと判定された場合(S72でNO)にはS73に進む。
S73では、第2判定部607が、S71で取得された名寄せ対象データが同じものを示すか否かを判定する。ここでは、第2判定部607は、変換部603による変換が行われてない名寄せ対象データの文字列ペアが同じものを示すか否かを判定する。判定終了後、処理はS76に進む。
S74では、変換部603が、図5のS62で決定された変換パターン612を適用して、S71で取得された名寄せ対象データを変換する。より詳細には、変換部603は、S71で取得された名寄せ対象データを構成する文字列ペアを構成する2つの文字列の少なくとも一方に対して、変換パターン612に示される複数の変換規則を、変換パターン612に示される順序に従って順次適用して変換する。なお、図5のS62において1つの変換規則からなる変換パターンが決定されている場合には、S74では決定された1つの変換規則を適用した変換が行われる。
S75では、第1判定部606が、図5のS64で生成された判定モデル613を用いて、S74で変換部603が変換した名寄せ対象データの文字列ペアが同じものを示すか否かを判定する。判定終了後、処理はS76に進む。
S76では、判定結果の出力が行われる。具体的には、S73の判定が行われた場合には、第2判定部607がS73の判定結果を出力部63に出力させる。一方、S75の判定が行われた場合には、第1判定部606がS75の判定結果を出力部63に出力させる。これにより、図6の処理は終了する。
なお、情報処理装置6は、S76の処理の代わりに、または、S76の処理と共に、同じものを示すと判定された名寄せ対象データを構成する文字列を統一する処理を行ってもよい。例えば、名寄せ対象データを構成する一方の文字列を他方の文字列に置換することにより文字列を統一してもよい。また、例えば、名寄せ対象データを構成する2つの文字列を、それらの文字列を包括する上位概念的な文字列に置換することにより文字列を統一してもよい。このように、本発明の一態様に係る名寄せ方法は、同じものを示すと判定された名寄せ対象データを構成する文字列を統一することを含んでいてもよい。これは、上述の例示的実施形態1および2においても同様である。
(変換対象について補足)
図5のS62において、変換パターン決定部602は、文字列ペアを構成する文字列の一方に対する変換パターンを決定してもよいし、文字列ペアを構成する文字列のそれぞれについて変換パターンを決定してもよい。例えば、文字列ペアの一方をx、他方をxとした場合、変換パターン決定部602は、xのみに対する変換パターンを決定してもよいし、xのみに対する変換パターンを決定してもよい。また、xに対する変換パターンとxに対する変換パターンの両方を決定してもよい。
このため、図6のS74において、変換部603は、名寄せ対象データを構成する文字列の一方を変換することもあり得るし、両方を変換することもあり得る。ここで、記憶部61に記憶された変換パターン612に変換対象(xとxの何れを変換するか)が規定されていない場合、変換部603は、変換対象の文字列を決定する。この処理は、図6のS72とS74の間に行われる。
変換対象の文字列の決定方法は特に限定されない。例えば、変換部603は、変換対象の文字列をユーザに選択させてもよい。この際、変換部603は、名寄せ対象の文字列ペアと、変換パターン612を表示装置(情報処理装置6が備えていてもよいし、情報処理装置6の外部の装置であってもよい)に表示させてもよい。この場合、ユーザは、名寄せ対象の文字列が、その文字列に有効と考えられる変換パターン612で変換されるように選択を行えばよい。
また、変換部603は、変換対象の文字列をユーザの選択によらずに決定してもよい。例えば、変換部603は、変換パターン612が示す変換規則のうち、最初に適用する変換規則による変換が可能な文字列を、その変換パターン612の変換対象と決定してもよい。例えば、変換対象が漢字の文字列とアルファベットの文字列の組み合わせであり、変換パターン612が示す最初の変換規則がひらがな化であった場合、変換部603は、この変換パターン612の変換対象を漢字の文字列とすればよい。
〔ソフトウェアによる実現例〕
情報処理装置1~3、変換装置4、判定装置5、および情報処理装置6(以下、当該装置と呼ぶ)の一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
後者の場合、当該装置は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図7に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを当該装置として動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより当該装置の各機能が実現される。
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
(付記1)
各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得手段と、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定手段と、を備える情報処理装置。この構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になる。
(付記2)
前記変換パターン決定手段が決定した変換パターンに従って、名寄せ対象の文字列ペアを変換する変換手段と、前記変換手段が変換した文字列ペアが同じものを示すか否かを判定する判定手段と、を備える付記1に記載の情報処理装置。この構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になる。
(付記3)
前記変換パターン決定手段が決定した変換パターンに従って、前記データセットに含まれる文字列ペアを変換する変換手段と、前記変換後の文字列ペアを教師データとして用いた機械学習により、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成する学習手段と、を備える付記1に記載の情報処理装置。この構成によれば、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成することが可能になる。
(付記4)
前記変換パターンは、複数の変換規則をその適用順に組み合わせたものであり、前記変換パターン決定手段は、それぞれ異なる複数の変換パターンのそれぞれについて、当該変換パターンに従って変換した変換後の文字列ペアが同じものを示すか否かを判定する試行を行い、各試行における判定精度の評価結果に基づいて変換パターンを決定する、付記1から3の何れかに記載の情報処理装置。この構成によれば、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを高い確度で決定することができる。
(付記5)
前記変換パターン決定手段は、前記変換後の文字列ペアが同じものを示すか否かを判定したときの判定精度を報酬とした強化学習により変換パターンを決定する、付記1から3の何れかに記載の情報処理装置。この構成によれば、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを高い確度で決定することができる。また、変換パターンのそれぞれについて判定精度を評価する場合と比べて、試行の対象となる変換規則の数が多い場合でも計算量が膨大にならないという利点もある。
(付記6)
前記変換パターンには、他の言語の文字列への翻訳、頭文字の抽出、および文字種の変換、の少なくとも何れかの変換規則が含まれる、付記1から5の何れかに記載の情報処理装置。この構成によれば、表記が類似していない文字列についての名寄せの精度を高めることができる。
(付記7)
名寄せ対象の文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段と、前記変換後の文字列ペアが同じものを示すか否かを判定する判定手段と、を備える情報処理装置。この構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になり、また、1つの変換規則を用いた1回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になる。
(付記8)
名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段と、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する学習手段と、を備える情報処理装置。この構成によれば、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成することが可能になる。そして、この判定モデルを用いることにより、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。
(付記9)
少なくとも1つのプロセッサが、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得することと、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定することと、を含む変換パターンの決定方法。この構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になる。
(付記10)
少なくとも1つのプロセッサが、名寄せ対象の文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換することと、前記変換後の文字列ペアが同じものを示すか否かを判定することと、を含む名寄せ方法。この構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になると共に、1つの変換規則を用いた1回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になる。
(付記11)
少なくとも1つのプロセッサが、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換することと、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成することと、を含む学習方法。この構成によれば、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成することが可能になる。そして、この判定モデルを用いることにより、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。
(付記12)
コンピュータを、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得手段、および前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定手段、として機能させる変換パターン決定プログラム。この構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になる。
(付記13)
コンピュータを、名寄せ対象の文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段、および前記変換後の文字列ペアが同じものを示すか否かを判定する判定手段、として機能させる名寄せプログラム。この構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になると共に、1つの変換規則を用いた1回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になる。
(付記14)
コンピュータを、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段、および前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する学習手段、として機能させる学習プログラム。この構成によれば、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成することが可能になる。そして、この判定モデルを用いることにより、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。
〔付記事項3〕
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
少なくとも1つのプロセッサを備え、前記プロセッサは、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得する処理と、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する処理と、を実行する情報処理装置。
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、データセットを取得する処理と、前記変換パターンを決定する処理と、を前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
少なくとも1つのプロセッサを備え、前記プロセッサは、名寄せ対象の文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する処理と、前記変換後の文字列ペアが同じものを示すか否かを判定する処理と、を実行する情報処理装置。
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記変換する処理と、前記判定する処理と、を前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
少なくとも1つのプロセッサを備え、前記プロセッサは、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する処理と、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する処理と、を実行する情報処理装置。
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記変換する処理と、前記生成する処理と、を前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
1 情報処理装置
11 データ取得部(データ取得手段)
12 変換パターン決定部(変換パターン決定手段)
2 情報処理装置
21 変換部(変換手段)
22 判定部(判定手段)
3 情報処理装置
31 変換部(変換手段)
32 学習部(学習手段)
4 変換装置(情報処理装置)
41 データ取得部(データ取得手段)
42 変換パターン決定部(変換パターン決定手段)
6 情報処理装置
601 データ取得部(データ取得手段)
602 変換パターン決定部(変換パターン決定手段)
603 変換部(変換手段)
604 学習部(学習手段)
606 第1判定部(判定手段)

Claims (10)

  1. 各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得手段と、
    前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定手段と、を備える情報処理装置。
  2. 前記変換パターン決定手段が決定した変換パターンに従って、名寄せ対象の文字列ペアを変換する変換手段と、
    前記変換手段が変換した文字列ペアが同じものを示すか否かを判定する判定手段と、を備える請求項1に記載の情報処理装置。
  3. 前記変換パターン決定手段が決定した変換パターンに従って、前記データセットに含まれる文字列ペアを変換する変換手段と、
    前記変換後の文字列ペアを教師データとして用いた機械学習により、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成する学習手段と、を備える請求項1に記載の情報処理装置。
  4. 前記変換パターンは、複数の変換規則をその適用順に組み合わせたものであり、
    前記変換パターン決定手段は、それぞれ異なる複数の変換パターンのそれぞれについて、当該変換パターンに従って変換した変換後の文字列ペアが同じものを示すか否かを判定する試行を行い、各試行における判定精度の評価結果に基づいて変換パターンを決定する、請求項1から3の何れか1項に記載の情報処理装置。
  5. 前記変換パターン決定手段は、前記変換後の文字列ペアが同じものを示すか否かを判定したときの判定精度を報酬とした強化学習により変換パターンを決定する、請求項1から3の何れか1項に記載の情報処理装置。
  6. 前記変換パターンには、他の言語の文字列への翻訳、頭文字の抽出、および文字種の変換、の少なくとも何れかの変換規則が含まれる、請求項1からの何れか1項に記載の情報処理装置。
  7. 名寄せ対象の文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段と、
    前記変換後の文字列ペアが同じものを示すか否かを判定する判定手段と、を備える情報処理装置。
  8. 名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する2つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段と、
    前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する学習手段と、を備える情報処理装置。
  9. 少なくとも1つのプロセッサが、
    各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得することと、
    前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定することと、を含む変換パターンの決定方法。
  10. コンピュータを、
    各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得手段、および
    前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定手段、として機能させる変換パターン決定プログラム。
JP2022579218A 2021-02-03 2021-02-03 Pending JPWO2022168208A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/003965 WO2022168208A1 (ja) 2021-02-03 2021-02-03 情報処理装置、変換パターンの決定方法、名寄せ方法、学習方法、変換パターン決定プログラム、名寄せプログラム、および学習プログラム

Publications (2)

Publication Number Publication Date
JPWO2022168208A1 JPWO2022168208A1 (ja) 2022-08-11
JPWO2022168208A5 true JPWO2022168208A5 (ja) 2023-10-26

Family

ID=82740958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022579218A Pending JPWO2022168208A1 (ja) 2021-02-03 2021-02-03

Country Status (3)

Country Link
US (1) US20240104128A1 (ja)
JP (1) JPWO2022168208A1 (ja)
WO (1) WO2022168208A1 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5094486B2 (ja) * 2008-03-14 2012-12-12 日本電信電話株式会社 同義性判定装置、その方法、プログラム及び記録媒体

Similar Documents

Publication Publication Date Title
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
JP6955580B2 (ja) 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体
US10963685B2 (en) Generating variations of a known shred
US11693854B2 (en) Question responding apparatus, question responding method and program
KR101939209B1 (ko) 신경망 기반의 텍스트의 카테고리를 분류하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
CN108509427B (zh) 文本数据的数据处理方法及应用
CN115146488B (zh) 基于大数据的可变业务流程智能建模系统及其方法
US20170076152A1 (en) Determining a text string based on visual features of a shred
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
JP2019204214A (ja) 学習装置、学習方法、プログラム及び推定装置
JP2020154668A (ja) 同義語判定方法、同義語判定プログラム、および、同義語判定装置
CN113408418A (zh) 一种书法字体与文字内容同步识别方法及系统
JP2019082860A (ja) 生成プログラム、生成方法及び生成装置
CN112836019A (zh) 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
WO2022168208A1 (ja) 情報処理装置、変換パターンの決定方法、名寄せ方法、学習方法、変換パターン決定プログラム、名寄せプログラム、および学習プログラム
JPWO2022168208A5 (ja)
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN113010687B (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
CN115017906A (zh) 一种针对文本中实体的识别方法、装置及存储介质
CN115017321A (zh) 一种知识点预测方法、装置、存储介质以及计算机设备
Zouidine et al. A comparative study of pre-trained word embeddings for Arabic sentiment analysis
JP2023510904A (ja) 手書きにおける数学検出
JP2019135593A (ja) 言語処理方法及び言語処理システム
JP7333891B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム