WO2022168208A1

WO2022168208A1 - 情報処理装置、変換パターンの決定方法、名寄せ方法、学習方法、変換パターン決定プログラム、名寄せプログラム、および学習プログラム

Info

Publication number: WO2022168208A1
Application number: PCT/JP2021/003965
Authority: WO
Inventors: 昌史小山田
Original assignee: 日本電気株式会社
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2022-08-11
Also published as: JPWO2022168208A1; US20240104128A1

Abstract

表記が非類似の文字列を正しく名寄せすることを可能にするために、情報処理装置（１）は、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得部（１１）と、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定部（１２）と、を備える。

Description

情報処理装置、変換パターンの決定方法、名寄せ方法、学習方法、変換パターン決定プログラム、名寄せプログラム、および学習プログラム

　本発明は、文字列の名寄せを行う情報処理装置等に関する。

　あるデータテーブルのレコードと、他のデータテーブルのレコードとが、実際には同じものを示しているにもかかわらず、それらの表記が異なっていることがある。例えば、日経平均株価は、「日経平均」と表記されることもあれば、「日経」と表記されることもあり、また海外では「Nikkei225」と表記されることもある。

　このような表記の異なるレコードが、同じものを示しているか否かを判定する作業や、同じものを示すレコードの表記を統一する作業は、「名寄せ」と呼ばれ、従来から行われている。例えば、下記の非特許文献１には、文字列の類似度を算出し、算出した類似度が高い文字列をマージする技術が開示されている。また、下記の非特許文献２には、対象となる２つのレコードの文字列ベクトルを結合した特徴量を用いて、二値分類器により当該２つのレコードが同じものを示すか否かを判定する技術が開示されている。

Jin et. al., "Efficient record linkage in large data sets", DASFAA 2003, Proceedings of the Eighth International Conference on Database Systems for Advanced Applications, March 2003 Govid et. al., "Entity Matching Meets Data Science: A Progress Report from the Magellan Project", SIGMOD 2019, pp.389-403, June, 2019

　非特許文献１、２の技術は、名寄せ対象の文字列の表記が類似している場合には有効であるが、表記がかけ離れたものとなっている場合には正しく名寄せすることが難しい。例えば、非特許文献１、２の技術によれば、表記が類似した「日経平均」と「日経」であれば正しくマッチングすることが可能と考えられるが、表記が非類似の「日経」と「ＮＫＫ」（Nikkeiの略語）をマッチングすることは難しい。

　本発明の一態様は、表記が類似していない文字列についても正しく名寄せすることが可能な情報処理装置等を提供することを目的としている。

　本発明の一側面に係る情報処理装置は、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得手段と、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定手段と、を備える。

　本発明の一側面に係る情報処理装置は、名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段と、前記変換後の文字列ペアが同じものを示すか否かを判定する判定手段と、を備える。

　本発明の一側面に係る情報処理装置は、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段と、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する学習手段と、を備える。

　本発明の一側面に係る変換パターンの決定方法は、少なくとも１つのプロセッサが、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得することと、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定することと、を含む。

　本発明の一側面に係る名寄せ方法は、少なくとも１つのプロセッサが、名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換することと、前記変換後の文字列ペアが同じものを示すか否かを判定することと、を含む。

　本発明の一側面に係る学習方法は、少なくとも１つのプロセッサが、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換することと、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成することと、を含む。

　本発明の一側面に係る変換パターン決定プログラムは、コンピュータを、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得手段、および前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定手段、として機能させる。

　本発明の一側面に係る名寄せプログラムは、コンピュータを、名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段、および前記変換後の文字列ペアが同じものを示すか否かを判定する判定手段、として機能させる。

　本発明の一側面に係る学習プログラムは、コンピュータを、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段、および前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する学習手段、として機能させる。

　本発明の一側面によれば、表記が類似していない文字列についても正しく名寄せすることが可能になる。

本発明の例示的実施形態１に係る情報処理装置の構成を示すブロック図である。本発明の例示的実施形態１に係る、教師データの生成方法、名寄せ方法、および学習方法の流れを示すフロー図である。本発明の例示的実施形態２に係る判定システムの説明図である。本発明の例示的実施形態３に係る情報処理装置の構成を示すブロック図である。前記情報処理装置が学習時に行う処理の流れを示すフロー図である。前記情報処理装置が名寄せ時に行う処理の流れを示すフロー図である。本発明の各例示的実施形態に係る各装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。

　〔例示的実施形態１〕
　本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。まず、本例示的実施形態に係る情報処理装置１～３の構成について、図１を参照して説明する。図１は、情報処理装置１～３の構成を示すブロック図である。

　（情報処理装置１の構成）
　情報処理装置１は、データ取得部（データ取得手段）１１と変換パターン決定部（変換パターン決定手段）１２を備えている。データ取得部１１は、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得する。そして、変換パターン決定部１２は、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する。

　以上のように、本例示的実施形態に係る情報処理装置１においては、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得し、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する、という構成が採用されている。

　前記の構成によれば、文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定することができる。ここで、判定精度が高まるということは、文字列の類似度が高くなることを意味している。つまり、前記の構成により決定された変換パターンで変換を行うことにより、表記は類似していないが同じものを示している文字列からなる文字列ペアをより類似性の高い文字列からなる変換後の文字列ペアとすることができる。したがって、前記の構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。

　（変換パターン決定プログラム）
　上述の情報処理装置１の機能は、プログラムによって実現することもできる。本例示的実施形態に係る変換パターン決定プログラムは、コンピュータを、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得手段、および、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定手段として機能させる、という構成が採用されている。このため、本例示的実施形態に係る変換パターン決定プログラムによれば、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。

　（情報処理装置２の構成）
　情報処理装置２は、変換部（変換手段）２１と判定部（判定手段）２２を備えている。変換部２１は、名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する。そして、判定部２２は、前記変換後の文字列ペアが同じものを示すか否かを判定する。

　以上のように、本例示的実施形態に係る情報処理装置２においては、名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換し、前記変換後の文字列ペアが同じものを示すか否かを判定する、という構成が採用されている。

　前記の構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。また、前記の構成によれば、１つの変換規則を用いた１回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になるという効果も得られる。

　（名寄せプログラム）
　上述の情報処理装置２の機能は、プログラムによって実現することもできる。本例示的実施形態に係る名寄せプログラムは、コンピュータを、名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段、および、前記変換後の文字列ペアが同じものを示すか否かを判定する判定手段として機能させる、という構成が採用されている。このため、本例示的実施形態に係る名寄せプログラムによれば、表記が類似していない文字列についても正しく名寄せすることが可能になると共に、１つの変換規則を用いた１回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になるという効果が得られる。

　（情報処理装置３の構成）
　情報処理装置３は、変換部（変換手段）３１と学習部（学習手段）３２を備えている。変換部３１は、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する。そして、学習部３２は、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する。

　以上のように、本例示的実施形態に係る情報処理装置３においては、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換し、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する、という構成が採用されている。

　前記の構成によれば、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成することが可能になる。そして、この判定モデルを用いることにより、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。また、１つの変換規則を用いた１回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になる。

　（学習プログラム）
　上述の情報処理装置３の機能は、プログラムによって実現することもできる。本例示的実施形態に係る学習プログラムは、コンピュータを、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段、および、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する学習手段として機能させる、という構成が採用されている。このため、本例示的実施形態に係る学習プログラムによれば、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成することが可能になる。そして、この判定モデルを用いることにより、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。また、１つの変換規則を用いた１回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になる。

　（変換パターンの決定方法、名寄せ方法、および学習方法の流れ）
　図２は、本発明の第１の例示的実施形態に係る、教師データの生成方法、名寄せ方法、および学習方法の流れを示すフロー図である。なお、Ｓ１１～Ｓ１２が変換パターンの決定方法を示し、Ｓ２１～Ｓ２２が名寄せ方法を示し、Ｓ３１～Ｓ３２が学習方法を示している。

　（変換パターンの決定方法）
　Ｓ１１では、少なくとも１つのプロセッサが、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得する。

　Ｓ１２では、少なくとも１つのプロセッサが、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する。これにより、図２に示す変換パターンの決定方法は終了する。

　以上のように、本例示的実施形態に係る変換パターンの決定方法においては、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得し、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する、という構成が採用されている。この構成によれば、上述した情報処理装置１と同様に、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。

　なお、この変換パターンの決定方法における各ステップの実行主体は、情報処理装置１が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。これは、以下で述べる名寄せ方法および学習方法についても同様である。

　（名寄せ方法）
　Ｓ２１では、少なくとも１つのプロセッサが、名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する。

　Ｓ２２では、少なくとも１つのプロセッサが、前記変換後の文字列ペアが同じものを示すか否かを判定する。これにより、図２に示す名寄せ方法は終了する。

　以上のように、本例示的実施形態に係る名寄せ方法においては、名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換し、前記変換後の文字列ペアが同じものを示すか否かを判定する、という構成が採用されている。

　この構成によれば、上述した情報処理装置２と同様に、表記が類似していない文字列についても正しく名寄せすることが可能になると共に、１つの変換規則を用いた１回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になるという効果が得られる。

　（学習方法）
　Ｓ３１では、少なくとも１つのプロセッサが、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する。

　Ｓ３２では、少なくとも１つのプロセッサが、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する。これにより、図２に示す学習方法は終了する。

　以上のように、本例示的実施形態に係る学習方法においては、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換し、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する、という構成が採用されている。

　前記の構成によれば、この構成によれば、上述した情報処理装置３と同様に、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成することが可能になる。そして、この判定モデルを用いることにより、表記が類似していない文字列についても正しく名寄せすることが可能になると共に、１つの変換規則を用いた１回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になるという効果が得られる。

　〔例示的実施形態２〕
　本発明の第２の例示的実施形態について図３に基づいて説明する。図３は、本例示的実施形態に係る判定システム１００の説明図である。判定システム１００は、名寄せ対象の文字列のペアが同じものを示しているか否かを判定するシステムであり、変換装置（情報処理装置）４と判定装置５を含む。

　変換装置４は、文字列の変換パターンを決定すると共に、決定した変換パターンで文字列を変換する。変換装置４は、データ取得部（データ取得手段）４１と、変換パターン決定部（変換パターン決定手段）４２と、変換部４３を備えている。これらの構成要素の機能は、図１に示したデータ取得部１１、変換パターン決定部１２、および変換部２１、３１と同様であるからここでは説明を繰り返さない。

　判定装置５は、名寄せ対象の文字列のペアが同じものを示しているか否かを判定する。また、判定装置５は、前記判定に用いる判定モデルを生成する機能も備えている。判定装置５は、学習部５１と判定部５２を備えている。これらの構成要素の機能は、図１に示した学習部３２および判定部２２と同様であるからここでは説明を繰り返さない。

　（学習フェーズ）
　判定システム１００は、名寄せ対象の文字列のペアが同じものを示しているか否かを判定するにあたり、まず、教師データを用いた機械学習により、当該判定のための判定モデルを生成する。学習フェーズでは、まず、変換装置４のデータ取得部４１が教師データを取得する。取得する教師データは、各文字列が同じものを示すか否かが既知である文字列ペアを複数含むデータセットである。

　図３では、文字列ペアの一方をｘ_ｌ、他方をｘ_ｒ、それらの文字列が同じものを示すか否かをｙで示している。なお、ｙ＝１は、ｘ_ｌとｘ_ｒが同じものを示していることを意味し、ｙ＝０は、ｘ_ｌとｘ_ｒが同じものを示していないことを意味している。例えば、図３に示す教師データにおいて、ｘ_ｌ＝“ＡｘＢｙ社”、ｘ_ｒ＝“ＡＢ”の文字列ペアのｙ＝１である。これは、“ＡｘＢｙ社”という文字列と、“ＡＢ”という文字列が同じもの（この例では同じ会社）を示していることを意味している。

　次に、変換パターン決定部４２が、前記教師データに含まれる文字列ペアに含まれる文字列ペアに対する変換の試行結果に基づき、前記教師データに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する。変換パターンの決定方法の詳細は後述する。

　次に、変換部４３が、前記教師データに含まれる各文字列ペアを、変換パターン決定部４２が決定した前記変換パターンで変換する。これにより、変換後の教師データが生成される。そして、生成された変換後の教師データは、判定装置５に出力される。

　判定装置５では、学習部５１が、変換装置４から取得した変換後の教師データを用いて機械学習を行い、名寄せ対象の文字列ペアが同じものを示しているか否かを判定するための判定モデルを生成する。これにより学習フェーズの処理は終了となる。

　（推論フェーズ）
　推論フェーズでは、変換装置４のデータ取得部４１が名寄せ対象データを取得する。名寄せ対象データは、同じものを示すか否かを判定したい文字列ペアを少なくとも１つ含むデータである。上述の教師データと同様に、名寄せ対象データに含まれる文字列ペアは、その一方をｘ_ｌ、他方をｘ_ｒとして表すことができる。

　次に、変換部４３が、前記名寄せ対象データに含まれる各文字列ペアを、学習フェーズで変換パターン決定部４２が決定した変換パターンで変換する。これにより、変換後の名寄せ対象データが生成される。そして、生成された変換後の名寄せ対象データは、判定装置５に出力される。

　判定装置５では、判定部５２が、学習フェーズで生成された判定モデルを用いて、変換装置４から取得した変換後の名寄せ対象データに含まれる文字列ペアが同じものを示しているか否かを判定する。そして、判定部５２は、その判定結果、すなわち名寄せ結果を出力する。これにより推論フェーズの処理は終了となる。

　（具体的な適用例）
　例えば、それぞれが複数のレコードからなる２つの対象データテーブルについて、同じものを示しているが、各対象データテーブルにおいて異なる表記となっているレコードの表記を統一したいとする。各対象データテーブルには、多数のレコードが含まれており、人手による名寄せには多大な時間と労力を要する。

　この場合、各対象データテーブルから抽出した文字列をペアにし、ペアにした文字列に、それらの文字列が同じものを示すか否かを示す正解データを対応付けて教師データとすればよい。教師データに用いる文字列は、対象データテーブルに含まれるレコードの一部でよいので、このような教師データの生成にかかる時間と労力は、対象データテーブルの名寄せを全て人手で行う場合と比べて十分に少ない。

　前記のような教師データを用いることにより、変換パターン決定部４２は、対象データテーブル間の名寄せに有効な変換パターンを決定することができる。そして、この変換パターンを用いて対象データテーブルから抽出した他の文字列ペアを変換することにより、対象データテーブル間の高精度な名寄せ（表記の統一）が可能になる。

　例えば、対象データテーブル特有の置換や省略がなされている場合には、そのような置換や省略前の文字列に戻す変換パターンが決定される。これにより、対象データテーブルに含まれる、上述のような置換や省略がなされた他のレコード（教師データにしなかったもの）を、決定された前記変換パターンで置換や省略前の文字列に戻した上で、同じものを示すレコードであるか否かを判定することができる。一般に、特有の置換や省略がなされたレコードを高精度に名寄せすることは難しいが、判定システム１００によればこのようなレコードについても高精度に名寄せすることが可能である。

　（変換パターンの元になる変換規則の例）
　文字列を変換する変換パターンは、複数の変換規則をその適用順に組み合わせたものであってもよい。変換規則は、ある文字列を他の文字列に変換する規則である。変換規則は、文字列を入力すると文字列を出力する関数（文字列空間から文字列空間の写像）で表すことができる。例えば、ある変換規則を関数ｆ_１とした場合、この変換規則で文字列ｘ_ｌを変換することにより得られる文字列はｆ_１（ｘ_ｌ）と表される。そして、この変換後の文字列をさらに他の変換規則（関数ｆ_２）で変換することにより得られる文字列はｆ_２（ｆ_１（ｘ_ｌ））と表される。

　変換規則は、名寄せに資するものであれば任意のものが適用可能である。例えば、文字種の変換（例えば、ひらがなへの変換、アルファベットへの変換等）、頭文字の抽出、漢数字のアラビア数字への変換、他の言語への翻訳、省略語の置き換え、特定の記号への置き換え等が挙げられる。前記翻訳は、辞書データ等を用いて行われるものであってもよいし、機械翻訳アルゴリズムを用いた機械翻訳であってもよい。どのような言語に翻訳するかは予め定めておけばよい。また、省略語の置き換えや特定の記号の置き換えについては、予め定められた置き換えルールに従い、辞書データ等を用いて置き換えを行えばよい。

　このように、変換パターン決定部４２が決定する変換パターンには、他の言語の文字列への翻訳、頭文字の抽出、および文字種の変換、の少なくとも何れかの変換規則が含まれていてもよい。

　これらの各変換規則は、何れも、同じものを示しているが表記が類似していない文字列ペアを表記が類似した文字列ペアに変換するために有効である。よって、前記の構成によれば、表記が類似していない文字列についての名寄せの精度を高めることができる。例えば、他の言語の文字列への翻訳を行うことにより、同じものを示しているが、異なる言語で記載されているために表記が非類似となっている文字列を正しく名寄せすることができる。文字種の変換についても同様である。また、データベースやデータテーブルなどのレコードでは、複数の単語の頭文字を組み合わせた文字列が使われることも多いため、頭文字の抽出も有効な変換規則の１つといえる。

　そして、このような各種の変換規則を組み合わせて変換パターンを生成することにより、１つの変換規則を用いた１回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になる。ただし、同じ変換規則でも、適用順序によって最終的な文字列は変わり得る。このため、どの変換規則をどういう順序で適用するかが、名寄せにおける判定精度に大きく影響する。

　例えば、名寄せ対象の文字列をｘ_ｌ＝“日経”、ｘ_ｒ＝“ＮＫＫ”とする。これらは何れも「日経平均株価」を意味するものとして使用され得るが、非類似の文字列であるから、このままでは同じものを示す文字列と判断されない。前記ｘ_ｌに対し、以下の変換規則を適用して変換することを考える。
ｆ_１：頭文字を抽出
ｆ_２：ひらがなに変換
ｆ_３：アルファベットに変換
　ここで、ｘ_ｌに対し、変換規則をｆ_１→ｆ_２→ｆ_３の順で適用したとする。この場合、ｆ_１（ｘ_ｌ）＝“日”となり、ｆ_２（ｆ_１（ｘ_ｌ））＝“にち”となり、ｆ_３（ｆ_２（ｆ_１（ｘ_ｌ）））＝“Ｎｉｃｈｉ”となる。これらの変換で得られた文字列“Ｎｉｃｈｉ”は、ｘ_ｒ＝“ＮＫＫ”と類似しているとは言い難いから、ｆ_１→ｆ_２→ｆ_３の変換パターンは、ｘ_ｌ＝“日経”とｘ_ｒ＝“ＮＫＫ”の名寄せに有効とは言い難い。

　一方、ｘ_ｌに対し、変換規則をｆ_２→ｆ_３→ｆ_１の順で適用したとする。この場合、ｆ_２（ｘ_ｌ）＝“にち‐けい”となり、ｆ_２（ｆ_１（ｘ_ｌ））＝“Ｎｉｃｈｉ‐Ｋｅｉ”となり、ｆ_３（ｆ_２（ｆ_１（ｘ_ｌ）））＝“ＮＫ”となる。これらの変換で得られた文字列“ＮＫ”は、ｘ_ｒ＝“ＮＫＫ”と類似しているから、ｆ_２→ｆ_３→ｆ_１の変換パターンは、ｘ_ｌ＝“日経”とｘ_ｒ＝“ＮＫＫ”の名寄せにおける判定精度を高める変換パターンであるといえる。

　（変換パターンの決定方法の例１）
　上述のように、変換規則の適用順は、名寄せ精度に影響を与える。このため、変換パターン決定部４２は、データ取得部４１が取得する教師データを用いて、名寄せにおける判定精度を高めることができるような変換パターンを決定する。

　例えば、変換パターン決定部４２は、それぞれ異なる複数の変換パターンのそれぞれについて、当該変換パターンに従って変換した変換後の文字列ペアが同じものを示すか否かを判定する試行を行ってもよい。そして、変換パターン決定部４２は、各試行における判定精度の評価結果に基づいて変換パターンを決定してもよい。

　前記の構成によれば、変換パターンのそれぞれについて判定精度を評価した評価結果に基づいて変換パターンを決定するので、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを高い確度で決定することができる。

　例えば、Ｒ個の変換規則が規定されている場合、それらの変換規則の中からＮ個を選択して配列させることにより、Ｒ^Ｎ通りの変換パターンが得られる。よって、変換パターン決定部４２は、教師データに含まれる各文字列ペアを各変換パターンに従って変換し、変換後の字列ペアが同じものを示すか否かを判定し、その判定精度を評価すればよい。

　なお、変換後の文字列ペアが同じものを示すか否かの判定方法は特に限定されず、教師あり学習で生成した判定モデルを用いて判定してもよいし、教師なし学習の判定モデルを用いて判定してもよい。また、判定精度の評価方法も特に限定されない。例えば。教師データに含まれる全部または一部の文字列ペアについて前記判定を行い、正答率を評価値としてもよい。この場合、変換パターン決定部４２は、正答率が最も高かった変換パターンを、判定精度を高めることができる変換パターンと決定すればよい。

　以上のような処理により、変換パターン決定部４２は、教師データに含まれる各文字列ペアについての名寄せにおける判定精度を高めることができる変換パターンを決定することができる。なお、上述のような処理の結果、１つの変換規則からなる変換パターンが最良の変換パターンとして決定されることもあり得る。これは、以下説明する例２においても同様である。

　（変換パターンの決定方法の例２）
　変換パターン決定部４２は、変換後の文字列ペアが同じものを示すか否かを判定したときの判定精度を報酬とした強化学習により変換パターンを決定してもよい。これにより、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを高い確度で決定することができる。また、変換パターンのそれぞれについて判定精度を評価する場合と比べて、試行の対象となる変換規則の数が多い場合でも計算量が膨大にならないという利点もある。

　前記強化学習における「状態」は、これまでに選ばれた変換規則とその適用順とすればよい。また、前記強化学習における「行動」は、変換規則をさらに選択することおよび変換規則の選択を終了すること、とすればよい。これにより、教師データに含まれる各文字列ペアに対する変換の試行結果に基づいて、教師データに含まれる各文字列ペアが同じものを示すか否かの判定精度が高まる変換パターンが決定される。

　例えば、ｆ_１～ｆ_２０の２０個の変換規則が規定されている場合に、ｆ_３→ｆ_１→ｆ_９の順に変換規則を適用した状態は、ｆ_９（ｆ_１（ｆ_３（ｘ_ｌ）））と表される。この状態において、選択できる「行動」は、ｆ_１～ｆ_２０の中からさらに変換規則を選択するか、あるいは変換規則の選択を終了するかである。変換規則の選択を終了することにより「報酬」が確定する。例えば、ｆ_９（ｆ_１（ｆ_３（ｘ_ｌ）））の状態で変換規則の選択が終了されると、ｆ_９（ｆ_１（ｆ_３（ｘ_ｌ）））という変換パターンで変換した場合の判定精度を算出し、算出した判定精度に基づいて報酬を確定させることができる。このような処理を繰り返し行うことにより、教師データに含まれる各文字列ペアについて、当該文字列ペアが同じものを示すか否かの判定精度を最も高めることができる変換パターンを決定することができる。

　判定精度の算出方法は特に限定されない。例えば、教師データの一部をテストデータとし、当該テストデータに含まれる各文字列ペアを前記変換パターンで変換し、変換後の文字列ペアが同じものを示すか否かを所定の判定方法で判定する。そして、各テストデータについての判定結果から正答率を算出し、これを判定精度の評価値としてもよい。

　〔例示的実施形態３〕
　（情報処理装置６の構成）
　本例示的実施形態に係る情報処理装置６の構成を図４に基づいて説明する。図４は、情報処理装置６の構成を示すブロック図である。図示のように、情報処理装置６は、情報処理装置６の各部を統括して制御する制御部６０と、情報処理装置６が使用する各種データを記憶する記憶部６１を備えている。また、情報処理装置６は、情報処理装置６に対する入力を受け付ける入力部６２と、情報処理装置６が情報を出力するための出力部６３を備えている。

　また、制御部６０には、データ取得部（データ取得手段）６０１、変換パターン決定部（変換パターン決定手段）６０２、変換部（変換手段）６０３、学習部（学習手段）６０４、変換要否判定部６０５、第１判定部（判定手段）６０６、および第２判定部６０７が含まれている。そして、記憶部６１には、変換規則６１１、変換パターン６１２、および判定モデル６１３が記憶されている。

　データ取得部６０１は、情報処理装置６による処理の対象となるデータを取得する。より詳細には、データ取得部６０１は、変換パターン６１２の決定と、判定モデル６１３の生成に用いられる教師データを取得する。この教師データは、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットである。また、データ取得部６０１は、名寄せ対象のデータ、すなわち各文字列が同じものを示すか否かが未知である文字列ペアも取得する。

　変換パターン決定部６０２は、データ取得部６０１が取得する教師データに含まれる文字列ペアに対する変換の試行結果に基づき、前記教師データに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターン６１２を決定する。変換パターン６１２の決定方法は上述したとおりであるからここでは説明を繰り返さない。

　変換部６０３は、変換パターン決定部６０２が決定した変換パターン６１２に従って、名寄せ対象の文字列ペアを変換する。

　学習部６０４は、変換部６０３による変換後の文字列ペアを教師データとして用いた機械学習により、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデル６１３を生成する。機械学習のアルゴリズムは、文字列ペアを、同じものを示すペアと、異なるものを示すペアに分類できるものであればよく、特に限定されない。

　例えば、学習部６０４は、Logistic Regression、Random Forest、ＳＶＭ（Support Vector Machine）、およびニューラルネットワーク等の判定モデル６１３を生成してもよい。また、判定モデル６１３は、文字列ペアを構成する各文字列をそのまま入力データとするものであってもよいし、文字列ペアを構成する各文字列から算出した特徴量を入力データとするものであってもよい。例えば、文字列ペアを構成する各文字列をベクトルで表現し、それらのベクトルを結合した特徴量を入力データとしてもよい。

　変換要否判定部６０５は、名寄せ対象の文字列ペアを変換部６０３に変換させるか否かを判定する。この判定方法は特に限定されない。例えば、変換要否判定部６０５は、名寄せ対象の文字列ペアを変換するか否かをユーザに選択させてもよい。またこの際、変換要否判定部６０５は、名寄せ対象の文字列ペアと、教師データとした文字列ペアを表示装置（情報処理装置６が備えていてもよいし、情報処理装置６の外部の装置であってもよい）に表示させてもよい。この場合、ユーザは、名寄せ対象の文字列ペアと、教師データとした文字列ペアが似たような組み合わせであるか否かによって変換するか否かを決めればよい。例えば、名寄せ対象の文字列ペアと、教師データとした文字列ペアの何れもが、漢字の文字列と大文字アルファベットの文字列の組み合わせであれば変換すると決定し、その旨、入力部６２を介して情報処理装置６に入力すればよい。

　また、変換要否判定部６０５は、例えば、文字列ペアを入力とし、その文字列ペアを変換するか否かを示すデータを出力する判定モデル（機械学習により生成されたモデル）を用いて、変換させるか否かを判定してもよい。この他にも、例えば、変換要否判定部６０５は、名寄せ対象の文字列ペアの文字種の組み合わせが、教師データとした文字列ペアに含まれている場合には変換させると決定し、含まれていない場合には変換させないと決定してもよい。

　第１判定部６０６は、変換部６０３が変換した変換後の文字列ペア（名寄せ対象の文字列ペアを変換したもの）が同じものを示すか否かを判定する。より詳細には、第１判定部６０６は、変換後の文字列ペアを判定モデル６１３に入力し、判定モデル６１３の出力値に基づいて当該文字列ペアが同じものを示すか否かを判定する。

　第２判定部６０７は、名寄せ対象の文字列ペアが同じものを示すか否かを判定する。第２判定部６０７は、変換部６０３による変換がなされていない文字列ペアを判定の対象とする点が、第１判定部６０６との相違点である。第２判定部６０７の判定方法は特に限定されない。例えば、第２判定部６０７は、名寄せ対象の文字列ペアを構成する各文字列の類似度を算出し、算出した類似度に基づいて前記判定を行ってもよい。また、例えば、第２判定部６０７は、判定モデル６１３と同様の機械学習（ただし、教師データは変換していないものを使用）により生成された判定モデルを用いて前記判定を行ってもよい。

　変換規則６１１は、変換処理の内容を示すものであり、変換パターン６１２の元になる。１または複数の変換規則６１１により変換パターン６１２が構成される。変換規則６１１としては、例えば、上述の「変換パターンの元になる変換規則の例」に挙げた各種の変換処理を適用することができる。

　変換パターン６１２は、変換パターン決定部６０２が決定した、文字列ペアの少なくとも一方に施す変換処理の内容を示すものである。変換パターン決定部６０２によれば、複数の変換規則６１１をその適用順に組み合わせた変換パターン６１２が決定され得る。変換パターン６１２は、例えば、変換規則の組み合わせ、その適用順、および変換対象（ｘ_ｌとｘ_ｒの何れを変換するか）を示すものであってもよい。

　判定モデル６１３は、名寄せ対象の文字列ペアが同じものを示すか否かを判定するものであり、学習部６０４により生成される。上述のように、判定モデル６１３は、変換後の教師データを用いた学習により生成されるものであり、名寄せ対象の文字列ペアを変換したものを入力データとする。

　以上のように、本例示的実施形態に係る情報処理装置６においては、変換パターン決定部６０２が決定した変換パターンに従って名寄せ対象の文字列ペアを変換する変換部６０３と、変換部６０３が変換した文字列ペアが同じものを示すか否かを判定する第１判定部６０６と、を備える、という構成が採用されている。このため、本例示的実施形態に係る情報処理装置６によれば、表記が類似していない文字列についても正しく名寄せすることができるという効果が得られる。

　また、本例示的実施形態に係る情報処理装置６においては、変換パターン決定部６０２が決定した変換パターンに従って、名寄せ対象の文字列ペアを変換する変換部６０３と、変換後の文字列ペアを教師データとして用いた機械学習により、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデル６１３を生成する学習部６０４と、を備える、という構成が採用されている。このため、本例示的実施形態に係る情報処理装置６によれば、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデル６１３を生成することができるという効果が得られる。

　（処理の流れ：学習時）
　本例示的実施形態に係る情報処理装置６が学習時に行う処理の流れについて、図５を参照して説明する。図５は、情報処理装置６が学習時に行う処理の流れを示すフロー図である。なお、図５に示すＳ６１～６４のうち、Ｓ６１～Ｓ６２が変換パターンの決定方法であり、Ｓ６３～Ｓ６４が学習方法である。Ｓ６１～Ｓ６２の処理と、Ｓ６３～Ｓ６４の処理は、必ずしも続けて行う必要はない。

　Ｓ６１では、データ取得部６０１が教師データを取得する。この教師データは、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットである。教師データの取得方法は任意である。例えば、データ取得部６０１は、ユーザが入力部６２を介して入力した教師データを取得してもよいし、記憶装置や記録媒体に記録されている教師データを有線または無線通信により取得してもよい。

　Ｓ６２では、変換パターン決定部６０２が、Ｓ６１で取得された教師データに含まれる文字列ペアに対する変換の試行結果に基づき、当該教師データに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する。そして、変換パターン決定部６０２は、決定した変換パターンを記憶部６１に記憶させる。このようにして記憶された変換パターンが、図４に示す変換パターン６１２である。

　上述のように、変換パターンは、記憶部６１に記憶されている変換規則６１１を組み合わせることにより生成される。変換パターンの決定方法としては、例えば上述の「変換パターンの決定方法の例１」または「変換パターンの決定方法の例２」に記載したような方法を適用することができる。

　Ｓ６３では、変換部６０３が、Ｓ６２で決定された変換パターン６１２を適用して、Ｓ６１で取得された教師データを変換する。より詳細には、変換部６０３は、Ｓ６１で取得された教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して、変換パターン６１２に示される複数の変換規則を、変換パターン６１２に示される順序に従って順次適用して変換する。なお、Ｓ６２では、１つの変換規則からなる変換パターンが決定される可能性もある。この場合、Ｓ６３では決定された１つの変換規則を適用した変換が行われる。

　Ｓ６４では、学習部６０４が、Ｓ６３で変換された各文字列ペアを教師データとして用いた機械学習を行い、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成する。そして、学習部６０４は、生成した判定モデルを記憶部６１に記憶させる。このようにして記憶された判定モデルが、図４に示す判定モデル６１３である。以上により、図５の処理は終了する。

　なお、以上の処理のうち、教師データを取得し（Ｓ６１）、取得した教師データを変換する（Ｓ６３）、という一連の処理は教師データの生成方法と呼ぶことができる。本例示的実施形態に係る教師データの生成方法によれば、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成するための教師データを生成することができる。

　（処理の流れ：名寄せ時）
　本例示的実施形態に係る情報処理装置６が名寄せ時に行う処理（名寄せ方法）の流れについて、図６を参照して説明する。図６は、情報処理装置６が名寄せ時に行う処理の流れを示すフロー図である。

　Ｓ７１では、データ取得部６０１が名寄せ対象データを取得する。名寄せ対象データは、同じものを示すか否かが未知である文字列のペアである。名寄せ対象データの取得方法は任意である。例えば、データ取得部６０１は、ユーザが入力部６２を介して入力した名寄せ対象データを取得してもよいし、記憶装置や記録媒体に記録されている名寄せ対象データを有線または無線通信により取得してもよい。

　Ｓ７２では、変換要否判定部６０５が、Ｓ７１で取得された名寄せ対象データを変換するか否かを判定する。Ｓ７２で変換すると判定された場合（Ｓ７２でＹＥＳ）にはＳ７４に進む。一方、Ｓ７２で変換しないと判定された場合（Ｓ７２でＮＯ）にはＳ７３に進む。

　Ｓ７３では、第２判定部６０７が、Ｓ７１で取得された名寄せ対象データが同じものを示すか否かを判定する。ここでは、第２判定部６０７は、変換部６０３による変換が行われてない名寄せ対象データの文字列ペアが同じものを示すか否かを判定する。判定終了後、処理はＳ７６に進む。

　Ｓ７４では、変換部６０３が、図５のＳ６２で決定された変換パターン６１２を適用して、Ｓ７１で取得された名寄せ対象データを変換する。より詳細には、変換部６０３は、Ｓ７１で取得された名寄せ対象データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して、変換パターン６１２に示される複数の変換規則を、変換パターン６１２に示される順序に従って順次適用して変換する。なお、図５のＳ６２において１つの変換規則からなる変換パターンが決定されている場合には、Ｓ７４では決定された１つの変換規則を適用した変換が行われる。

　Ｓ７５では、第１判定部６０６が、図５のＳ６４で生成された判定モデル６１３を用いて、Ｓ７４で変換部６０３が変換した名寄せ対象データの文字列ペアが同じものを示すか否かを判定する。判定終了後、処理はＳ７６に進む。

　Ｓ７６では、判定結果の出力が行われる。具体的には、Ｓ７３の判定が行われた場合には、第２判定部６０７がＳ７３の判定結果を出力部６３に出力させる。一方、Ｓ７５の判定が行われた場合には、第１判定部６０６がＳ７５の判定結果を出力部６３に出力させる。これにより、図６の処理は終了する。

　なお、情報処理装置６は、Ｓ７６の処理の代わりに、または、Ｓ７６の処理と共に、同じものを示すと判定された名寄せ対象データを構成する文字列を統一する処理を行ってもよい。例えば、名寄せ対象データを構成する一方の文字列を他方の文字列に置換することにより文字列を統一してもよい。また、例えば、名寄せ対象データを構成する２つの文字列を、それらの文字列を包括する上位概念的な文字列に置換することにより文字列を統一してもよい。このように、本発明の一態様に係る名寄せ方法は、同じものを示すと判定された名寄せ対象データを構成する文字列を統一することを含んでいてもよい。これは、上述の例示的実施形態１および２においても同様である。

　（変換対象について補足）
　図５のＳ６２において、変換パターン決定部６０２は、文字列ペアを構成する文字列の一方に対する変換パターンを決定してもよいし、文字列ペアを構成する文字列のそれぞれについて変換パターンを決定してもよい。例えば、文字列ペアの一方をｘ_ｌ、他方をｘ_ｒとした場合、変換パターン決定部６０２は、ｘ_ｌのみに対する変換パターンを決定してもよいし、ｘ_ｒのみに対する変換パターンを決定してもよい。また、ｘ_ｌに対する変換パターンとｘ_ｒに対する変換パターンの両方を決定してもよい。

　このため、図６のＳ７４において、変換部６０３は、名寄せ対象データを構成する文字列の一方を変換することもあり得るし、両方を変換することもあり得る。ここで、記憶部６１に記憶された変換パターン６１２に変換対象（ｘ_ｌとｘ_ｒの何れを変換するか）が規定されていない場合、変換部６０３は、変換対象の文字列を決定する。この処理は、図６のＳ７２とＳ７４の間に行われる。

　変換対象の文字列の決定方法は特に限定されない。例えば、変換部６０３は、変換対象の文字列をユーザに選択させてもよい。この際、変換部６０３は、名寄せ対象の文字列ペアと、変換パターン６１２を表示装置（情報処理装置６が備えていてもよいし、情報処理装置６の外部の装置であってもよい）に表示させてもよい。この場合、ユーザは、名寄せ対象の文字列が、その文字列に有効と考えられる変換パターン６１２で変換されるように選択を行えばよい。

　また、変換部６０３は、変換対象の文字列をユーザの選択によらずに決定してもよい。例えば、変換部６０３は、変換パターン６１２が示す変換規則のうち、最初に適用する変換規則による変換が可能な文字列を、その変換パターン６１２の変換対象と決定してもよい。例えば、変換対象が漢字の文字列とアルファベットの文字列の組み合わせであり、変換パターン６１２が示す最初の変換規則がひらがな化であった場合、変換部６０３は、この変換パターン６１２の変換対象を漢字の文字列とすればよい。

　〔ソフトウェアによる実現例〕
　情報処理装置１～３、変換装置４、判定装置５、および情報処理装置６（以下、当該装置と呼ぶ）の一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

　後者の場合、当該装置は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図７に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを当該装置として動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより当該装置の各機能が実現される。

　プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

　なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

　また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

　〔付記事項１〕
　本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

　〔付記事項２〕
　上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

　（付記１）
　各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得手段と、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定手段と、を備える情報処理装置。この構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になる。

　（付記２）
　前記変換パターン決定手段が決定した変換パターンに従って、名寄せ対象の文字列ペアを変換する変換手段と、前記変換手段が変換した文字列ペアが同じものを示すか否かを判定する判定手段と、を備える付記１に記載の情報処理装置。この構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になる。

　（付記３）
　前記変換パターン決定手段が決定した変換パターンに従って、前記データセットに含まれる文字列ペアを変換する変換手段と、前記変換後の文字列ペアを教師データとして用いた機械学習により、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成する学習手段と、を備える付記１に記載の情報処理装置。この構成によれば、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成することが可能になる。

　（付記４）
前記変換パターンは、複数の変換規則をその適用順に組み合わせたものであり、前記変換パターン決定手段は、それぞれ異なる複数の変換パターンのそれぞれについて、当該変換パターンに従って変換した変換後の文字列ペアが同じものを示すか否かを判定する試行を行い、各試行における判定精度の評価結果に基づいて変換パターンを決定する、付記１から３の何れかに記載の情報処理装置。この構成によれば、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを高い確度で決定することができる。

　（付記５）
　前記変換パターン決定手段は、前記変換後の文字列ペアが同じものを示すか否かを判定したときの判定精度を報酬とした強化学習により変換パターンを決定する、付記１から３の何れかに記載の情報処理装置。この構成によれば、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを高い確度で決定することができる。また、変換パターンのそれぞれについて判定精度を評価する場合と比べて、試行の対象となる変換規則の数が多い場合でも計算量が膨大にならないという利点もある。

　（付記６）
　前記変換パターンには、他の言語の文字列への翻訳、頭文字の抽出、および文字種の変換、の少なくとも何れかの変換規則が含まれる、付記１から５の何れかに記載の情報処理装置。この構成によれば、表記が類似していない文字列についての名寄せの精度を高めることができる。

　（付記７）
　名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段と、前記変換後の文字列ペアが同じものを示すか否かを判定する判定手段と、を備える情報処理装置。この構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になり、また、１つの変換規則を用いた１回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になる。

　（付記８）
　名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段と、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する学習手段と、を備える情報処理装置。この構成によれば、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成することが可能になる。そして、この判定モデルを用いることにより、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。

　（付記９）
　少なくとも１つのプロセッサが、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得することと、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定することと、を含む変換パターンの決定方法。この構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になる。

　（付記１０）
　少なくとも１つのプロセッサが、名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換することと、前記変換後の文字列ペアが同じものを示すか否かを判定することと、を含む名寄せ方法。この構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になると共に、１つの変換規則を用いた１回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になる。

　（付記１１）
　少なくとも１つのプロセッサが、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換することと、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成することと、を含む学習方法。この構成によれば、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成することが可能になる。そして、この判定モデルを用いることにより、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。

　（付記１２）
　コンピュータを、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得手段、および前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定手段、として機能させる変換パターン決定プログラム。この構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になる。

　（付記１３）
　コンピュータを、名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段、および前記変換後の文字列ペアが同じものを示すか否かを判定する判定手段、として機能させる名寄せプログラム。この構成によれば、表記が類似していない文字列についても正しく名寄せすることが可能になると共に、１つの変換規則を用いた１回の変換では類似した文字列にならない文字列ペアについても正しく名寄せすることが可能になる。

　（付記１４）
　コンピュータを、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段、および前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する学習手段、として機能させる学習プログラム。この構成によれば、変換後の文字列ペアの名寄せを高精度に行うことが可能な判定モデルを生成することが可能になる。そして、この判定モデルを用いることにより、表記が類似していない文字列についても正しく名寄せすることが可能になるという効果が得られる。

　〔付記事項３〕
　上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。

　少なくとも１つのプロセッサを備え、前記プロセッサは、各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得する処理と、前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する処理と、を実行する情報処理装置。

　なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、データセットを取得する処理と、前記変換パターンを決定する処理と、を前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

　少なくとも１つのプロセッサを備え、前記プロセッサは、名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する処理と、前記変換後の文字列ペアが同じものを示すか否かを判定する処理と、を実行する情報処理装置。

　なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記変換する処理と、前記判定する処理と、を前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

　少なくとも１つのプロセッサを備え、前記プロセッサは、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する処理と、前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する処理と、を実行する情報処理装置。

　なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記変換する処理と、前記生成する処理と、を前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

　１　　　情報処理装置
　１１　　データ取得部（データ取得手段）
　１２　　変換パターン決定部（変換パターン決定手段）
　２　　　情報処理装置
　２１　　変換部（変換手段）
　２２　　判定部（判定手段）
　３　　　情報処理装置
　３１　　変換部（変換手段）
　３２　　学習部（学習手段）
　４　　　変換装置（情報処理装置）
　４１　　データ取得部（データ取得手段）
　４２　　変換パターン決定部（変換パターン決定手段）
　６　　　情報処理装置
　６０１　データ取得部（データ取得手段）
　６０２　変換パターン決定部（変換パターン決定手段）
　６０３　変換部（変換手段）
　６０４　学習部（学習手段）
　６０６　第１判定部（判定手段）

Claims

　各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得手段と、
　前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定手段と、を備える情報処理装置。
　前記変換パターン決定手段が決定した変換パターンに従って、名寄せ対象の文字列ペアを変換する変換手段と、
　前記変換手段が変換した文字列ペアが同じものを示すか否かを判定する判定手段と、を備える請求項１に記載の情報処理装置。
　前記変換パターン決定手段が決定した変換パターンに従って、前記データセットに含まれる文字列ペアを変換する変換手段と、
　前記変換後の文字列ペアを教師データとして用いた機械学習により、名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成する学習手段と、を備える請求項１に記載の情報処理装置。
　前記変換パターンは、複数の変換規則をその適用順に組み合わせたものであり、
　前記変換パターン決定手段は、それぞれ異なる複数の変換パターンのそれぞれについて、当該変換パターンに従って変換した変換後の文字列ペアが同じものを示すか否かを判定する試行を行い、各試行における判定精度の評価結果に基づいて変換パターンを決定する、請求項１から３の何れか１項に記載の情報処理装置。
　前記変換パターン決定手段は、前記変換後の文字列ペアが同じものを示すか否かを判定したときの判定精度を報酬とした強化学習により変換パターンを決定する、請求項１から３の何れか１項に記載の情報処理装置。
　前記変換パターンには、他の言語の文字列への翻訳、頭文字の抽出、および文字種の変換、の少なくとも何れかの変換規則が含まれる、請求項１から５の何れか１項に記載の情報処理装置。
　名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段と、
　前記変換後の文字列ペアが同じものを示すか否かを判定する判定手段と、を備える情報処理装置。
　名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段と、
　前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する学習手段と、を備える情報処理装置。
　少なくとも１つのプロセッサが、
　各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得することと、
　前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定することと、を含む変換パターンの決定方法。
　少なくとも１つのプロセッサが、
　名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換することと、
　前記変換後の文字列ペアが同じものを示すか否かを判定することと、を含む名寄せ方法。
　少なくとも１つのプロセッサが、
　名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換することと、
　前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成することと、を含む学習方法。
　コンピュータを、
　各文字列が同じものを示すか否かが既知である複数の文字列ペアを含むデータセットを取得するデータ取得手段、および
　前記データセットに含まれる文字列ペアに対する変換の試行結果に基づき、前記データセットに含まれる文字列ペアが同じものを示すか否かの判定精度を高める変換パターンを決定する変換パターン決定手段、として機能させる変換パターン決定プログラム。
　コンピュータを、
　名寄せ対象の文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段、および
　前記変換後の文字列ペアが同じものを示すか否かを判定する判定手段、として機能させる名寄せプログラム。
　コンピュータを、
　名寄せ対象の文字列ペアが同じものを示すか否かを判定する判定モデルを生成するための教師データを構成する文字列ペアを構成する２つの文字列の少なくとも一方に対して複数の変換規則を順次適用して変換する変換手段、および
　前記変換後の文字列ペアを教師データとして用いた機械学習により前記判定モデルを生成する学習手段、として機能させる学習プログラム。