WO2021024430A1

WO2021024430A1 - 類似度評価装置、類似度評価方法、およびプログラム

Info

Publication number: WO2021024430A1
Application number: PCT/JP2019/031215
Authority: WO
Inventors: 莉奈岡田; 長谷川　聡
Original assignee: 日本電信電話株式会社
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2021-02-11
Also published as: JPWO2021024430A1; US20220284189A1; WO2021024430A9

Abstract

概念を考慮した文字列間の類似度を評価する。類似度評価装置（１）は、第一の文字列と第二の文字列とを入力とし、文字列間の類似度を出力する。用語統一部（１１）は、用語統一データを用いて第一の文字列および第二の文字列に含まれる概念が同一で表記が異なる単語を表記が同一となるよう置換する。形態素解析部（１２）は、第一の文字列および第二の文字列を形態素解析する。概念削除部（１３）は、第一の文字列の形態素解析結果および第二の文字列の形態素解析結果から所定の形態素を削除する。類似度算出部（１４）は、第一の文字列の形態素解析結果と第二の文字列の形態素解析結果との両方に含まれる形態素の数を類似度として得る。

Description

類似度評価装置、類似度評価方法、およびプログラム

　本発明は、自然言語処理技術に関し、特に、概念を考慮した文字列間の類似度を評価する技術に関する。

　２つの文字列間の類似度を評価する方法として、「（Ａ）一致する文字の個数」と「（Ｂ）一致する文字列の長さ」と「（Ｃ）編集距離」と「（Ｄ）分散表現による距離」がある。また、これらの方法を組み合わせて最終的な２つの文字列間の類似度を評価することも可能である。

　上記で述べた（Ａ）（Ｂ）（Ｃ）（Ｄ）の４つの類似度の問題点を、例を用いながら説明する。なお、以下では{}（波括弧）は集合を表し、|{}|は集合内の要素数を表す。例として、文字列xを"NTTアドバンステクノロジ株式会社"とし、文字列集合Yを{y₀="NTTデータ", y₁="バアテクジスドノンロ株式会社", y₂="アドバンステクノロジ(NTT)", y₃="バンステクノロジ株式会社", y₄="西日本電信電話株式会社"}とする。ここでは、Y内のi番目（0≦i≦|Y|-1（=4））の文字列をy_iとし、xとy_iの類似度をsim(x, y_i)とし、xと最も類似度が高いY内の文字列の集合をY^*とし、（Ａ）（Ｂ）（Ｃ）（Ｄ）の方法を用いて、式（１）を満たすY^*を見つけることを考える。

　この例の場合、概念的にはx="NTTアドバンステクノロジ"とy₂="アドバンステクノロジ(NTT)"が最も近いため、この２つの文字列の類似度が最も高いと判断されるべきである。

　「（Ａ）一致する文字の個数」で算出される類似度をsim_A(・,・)とする。xとy₀, …, y₄それぞれについて（Ａ）の方法で算出した類似度は以下となる。

sim_A(x, y₀)=|{'N','T','T'}|=3
sim_A(x, y₁)=|{'バ','ア','テ','ク','ジ','ス','ド','ノ','ン','ロ','株','式','会','社'}|=14
sim_A(x, y₂)=|{'ア','ド','バ','ン','ス','テ','ク','ノ','ロ','ジ','N','T','T'}|=13
sim_A(x, y₃)=|{'バ','ン','ス','テ','ク','ノ','ロ','ジ','株','式','会','社'}|=12
sim_A(x, y₄)=|{'株','式','会','社'}|=4

　したがって、式（２）となる。

　このように、文字の個数で見る場合、文字の並び方を一切考慮しないため、このような概念的に誤った類似度が算出されてしまう。

　「（Ｂ）一致する文字列の長さ」で算出される類似度をsim_B(・,・)とする。xとy₀, …, y₄それぞれについて（Ｂ）の方法で算出した類似度は以下となる。

　したがって、式（３）となる。

　このように、文字列の長さで見る場合、文字の概念を一切考慮しないため、このような概念的に誤った類似度が算出されてしまう。

　「（Ｃ）編集距離」で算出される類似度をsim_C(・,・)とする。編集距離は、ある文字列aをある文字列bに変化させるためにかかる操作（挿入・削除・置換）の回数と各操作のコストによって算出されるものである。特に、各操作のコストは場合によって変わりうる。さらに、編集距離は、操作の順番次第で異なる距離が算出される。このため、ここでは、各操作のコストを全て同じものとしたときの最小の編集距離（＝レーベンシュタイン距離）の例を確認することにする。また、「距離」は値が小さいほど類似度が高いと言えるため、ここでは簡易的にsim_C(・,・)は編集距離の逆数として記す。xとy₀, …, y₄それぞれについて（Ｃ）の方法で算出した類似度は以下となる。

sim_C(x, y₀)=1/14
sim_C(x, y₁)=1/8
sim_C(x, y₂)=1/10
sim_C(x, y₃)=1/5
sim_C(x, y₄)=1/13

　したがって、式（４）となる。

　編集距離の場合、y₁の先頭にある"NTT"と末尾付近にある"NTT"が同じ概念であるにも関わらず、位置が異なることから、先頭の"NTT"を削除し、末尾付近の"NTT"を挿入する操作となる。このような操作により距離が大きくなってしまい、結果として概念的に誤った類似度が算出されてしまう。

　「（Ｄ）分散表現による距離」で算出される類似度をsim_D(・,・)とする。分散表現による距離の評価方法は、word2vec（例えば非特許文献１参照）やfastText（例えば非特許文献２参照）と呼ばれる技術が知られている。各文字列の特徴を各文字列が含まれている文書等から算出し、その特徴（＝分散表現）をベクトル形式で保持する。２つの文字列の距離（＝類似度）を評価する際には、その２つの文字列のベクトルの公知概念であるL2ノルムやコサイン類似度を用いて算出する。（Ａ）から（Ｄ）の中では、（Ｄ）が最も概念間の類似性に着目した方法となる。

Tomas Mikolov, Kai Chen, Greg S. Corrado, and Jeffrey Dean, "Efficient estimation of word representations in vector space," arXiv:1301.3781,2013. Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov, "Enriching word vectors with subword information," Transactions of the Association for Computational Linguistics, Vol. 5, pp. 135-146, 2017.

　しかしながら、分散表現による距離では、分散表現を算出するために用いる文書等のデータ内に対象の文字列が含まれていない場合（もしくは出現頻度が非常に低い場合）、その文字列のベクトル（＝分散表現）が算出されない。そのため、場合によっては、x, y₀のベクトルは存在するが、y₁, y₂, y₃, y₄のベクトルは存在しないということがあり得る。この場合、sim_D(x, y₀)以外は評価できない。このように、分散表現による距離では、すべての文字列に対しては類似度を算出することができない場合がある。

　この発明の目的は、上記のような技術的課題を鑑みて、分散表現を用いずに、概念を考慮した文字列間の類似度を評価することである。

　上記の課題を解決するために、本発明の一態様の類似度評価装置は、第一の文字列および第二の文字列を形態素解析する形態素解析部と、第一の文字列の形態素解析結果と第二の文字列の形態素解析結果との両方に含まれる形態素の数を類似度として得る類似度算出部と、を含む。

　この発明によれば、分散表現を用いずに、概念を考慮した文字列間の類似度を評価することができる。

図１は、類似度評価装置の機能構成を例示する図である。図２は、類似度評価方法の処理手順を例示する図である。図３は、コンピュータの機能構成を例示する図である。

　以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　実施形態の類似度評価装置１は、図１に例示するように、用語統一データ記憶部１０－１、形態素解析モデル記憶部１０－２、用語統一部１１、形態素解析部１２、および類似度算出部１４を備える。類似度評価装置１は、概念削除部１３をさらに備えていてもよい。この類似度評価装置１が、図２に例示する各ステップの処理を行うことにより実施形態の類似度評価方法が実現される。

　類似度評価装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。類似度評価装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。類似度評価装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。類似度評価装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。類似度評価装置１が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

　類似度評価装置１は、文字列xと文字列集合Y={y₀, …, y_|Y|-1}を入力とし、文字列xと文字列集合Yとの類似度集合S={sim_prop(x,y₀), …, sim_prop(x,y_|Y|-1)}を出力する。ただし、sim_prop(x,y_i)は文字列xと文字列y_i∈Yとの類似度を表す。

　用語統一データ記憶部１０－１には、用語統一データZ={z₀, …, z_|Z|-1}が記憶されている。ここで、z_i∈Zは同じ概念を持ち表記が異なる文字列の集合であり、|Z|は{x}∪Y内の概念数である。

　形態素解析モデル記憶部１０－２には、形態素解析モデルmが記憶されている。形態素解析モデルmは、例えばMeCab（参考文献１参照）やJUMAN（参考文献２参照）などの形態素解析器を利用して予め準備しておく。

　〔参考文献１〕“MeCab: Yet Another Part-of-Speech and Morphological Analyzer”、［online］、［令和1年7月29日検索］、インターネット<URL: http://taku910.github.io/mecab/>
　〔参考文献２〕“JUMAN - KUROHASHI-KAWAHARA LAB”、［online］、［令和1年7月29日検索］、インターネット<URL: http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN>

　以下、図２を参照して、実施形態の類似度評価装置１が実行する類似度評価方法について説明する。

　ステップＳ１１において、用語統一部１１は、文字列xとすべての文字列y_i∈Yに表記が異なるが同じ概念である用語が含まれている場合、用語統一データ記憶部１０－１に記憶されている用語統一データZを用いて用語を統一化し、用語統一された文字列x'および文字列y'_i∈Y'を生成する。なお、YおよびY'は順序付き集合（＝リスト）であり、y'_i∈Y'にはy_i∈Yを用語統一した後の文字列が格納される。用語統一部１１は、用語統一された文字列x'および文字列集合Y'を形態素解析部１２へ出力する。

　用語統一部１１の処理の詳細を以下に示す。ここで、z_(i,0)はz_iの0番目の要素とする。

Algorithm 1: 用語統一部
Input: 文字列x, 文字列集合Y, 用語統一データZ
Output: 用語統一されたx', Y'
1: for i∈[0, |Z|-1] do
2:   if x∈z_ithen
3:     x'←z_(i,0)
4:   end if
5: end for
6: Yと同じ大きさの要素を持つY'を作成（ただし、∀i∈[0, |Y'|-1]において、y'_i∈Y'は空値であるとする）
7: for i∈[0, |Y|-1] do
8:   for j∈[0, |Z|-1] do
9:     if y_i∈z_j then
10:       y'_i←z_(i,0)
11:     end if
12:   end for
13: end for
14: return x', Y'

　例えば、用語統一データz_iがz_i={"NTT","日本電信電話株式会社"}であるとする。このとき、xやy_i∈Yに文字列"日本電信電話株式会社"が含まれている場合、その文字列"日本電信電話株式会社"は文字列z_(i,0)="NTT"に置換される。

　ステップＳ１２において、形態素解析部１２は、文字列x'およびすべての文字列y'_i∈Y'に対して、形態素解析モデル記憶部１０－２に記憶されている形態素解析モデルmを用いて形態素ごとに分解し、文字列x'の形態素解析結果x"および文字列y'_i∈Y'の形態素解析結果y"_i∈Y"を生成する。なお、Y'およびY"は順序付き集合（＝リスト）であり、y"_i∈Y"にはy'_i∈Y'を形態素解析した結果が格納される。形態素解析部１２は、形態素解析結果x"および形態素解析結果集合Y"を類似度算出部１４へ出力する。

　形態素解析部１２の処理の詳細を以下に示す。ここでは、形態素解析モデルを関数「m: 文字列→文字列集合」として表現する。

Algorithm 2: 形態素解析部
Input: 用語統一された文字列x', 文字列集合Y', 形態素解析モデルm
Output: 形態素ごとに分解されたx", Y"
1: x"=m(x')
2: Y'と同じ大きさの要素を持つY"を作成（ただし、∀i∈[0, |Y"|-1]において、y"_i∈Y"は空集合であるとする）
3: for i∈[0, |Y'|-1] do
4: y"_i←m(y'_i)
5: end for
6: return x", Y"

　例えば、文字列xが"NTTアドバンステクノロジ株式会社"であれば、m(x)はxの形態素（≒概念）集合m(x)={"NTT","アドバンス","テクノロジ","株式会社"}のようになる。なお、形態素の分け方は、形態素解析器のアルゴリズムや形態素解析モデルを算出するために用いるデータセットに依存する。

　ステップＳ１４において、類似度算出部１４は、形態素解析結果x"と形態素解析結果y"_i∈Y"のすべての組に対して類似度sim_prop(x,y_i)∈Sを算出する。類似度算出部１４は、類似度集合Sを類似度評価装置１の出力とする。

　類似度算出部１４の処理の詳細を以下に示す。ここでx"_iはx"のi番目の要素とし、y"_(i,j)はy"_iのj番目の要素とする。

Algorithm 3: 類似度算出部
Input: 文字列x, 文字列集合Y, 形態素ごとに分解されたx", Y"
Output: 各要素がYの要素に対応する類似度ベクトルS
1: Yの要素と対応する要素を持つ集合Sを作成（ただし、s_i∈S（i∈[0, |S|-1]）の初期値は0であるとする）
2: for i∈[0, |x"|-1] do
3:   for j∈[0, |Y"|-1] do
4:     for k∈[0, |y"_j|-1] do
5:       if x"_i=y"_(j,k)then
6:         s_j=s_j+1
7:       end if
8:     end for
9:   end for
10: end for
11: return S

　例えば、x"={"NTT","アドバンス","テクノロジ","株式会社"}、y"₀={"NTT","データ"}、の場合、y"₀はx"の要素のうち"NTT"のみ共通である。ゆえに、この場合、x"とy"₀との類似度はs₀=1となる。

　〔変形例〕
　例えば、類似度評価の対象とする文字列の概念が予め推測できる場合（例えば、上記の例のように「会社名」であることがわかっている場合）、その概念を表す単語（例えば、上記の例では「株式会社」）で類似度を測っても効果がない、あるいは、逆効果である。このように効果がない、あるいは、逆効果を引き起こす概念が予めわかっている場合、形態素解析結果からその概念を削除するとよい。

　この場合、類似度評価装置１は概念削除部１３をさらに備える。概念削除部１３は、形態素解析部１２が出力する形態素解析結果x"および形態素解析結果y"_i∈Y"から予め定めた概念（＝形態素）を削除して、類似度算出部１４へ出力する。

　〔具体例〕
　上記の例を用いて処理の流れを具体的に例示する。

　類似度評価装置１に入力される文字列xは"NTTアドバンステクノロジ株式会社"であり、文字列集合Yは{y₀="NTTデータ", y₁="バアテクジスドノンロ株式会社", y₂="アドバンステクノロジ(NTT)", y₃="バンステクノロジ株式会社", y₄="西日本電信電話株式会社"}である。

　用語統一部１１の処理により、文字列xはx'="NTTアドバンステクノロジ株式会社"となり、文字列集合YはY'={y'₀="NTTデータ", y'₁="バアテクジスドノンロ株式会社", y'₂="アドバンステクノロジ(NTT)", y'₃="バンステクノロジ株式会社", y'₄="西NTT"}となる。

　形態素解析部１２の処理により、文字列x'はx"={"NTT","アドバンス","テクノロジ","株式会社"}となり、文字列集合Y'はY"={y"₀={"NTT","データ"}, y"₁={"バアテクジスドノンロ","株式会社"}, y"₂={"アドバンス","テクノロジ","(","NTT",")"}, y"₃={"バンステクノロジ","株式会社"}, y"₄={"西","NTT"}}となる。

　類似度算出部１３の処理により、xと各y_i∈Yの類似度は、以下のようになる。

sim_prop(x, y₀)=1
sim_prop(x, y₁)=1
sim_prop(x, y₂)=3
sim_prop(x, y₃)=1
sim_prop(x, y₄)=1

　上記より、xとy₂が最も類似度が高いと評価されており、分散表現を用いずに概念を考慮した文字列間の類似度評価を行うことができたと言える。

　〔応用例〕
　上記の具体例では処理手順が理解しやすいように極端な例を示したが、ここでは実際のサービスに応用することで発明の効果が発揮される例を示す。ある組織Ａが、自身が扱っている商品をカテゴリ分けしたいとする。また、他の組織Ｂは、自身が扱っている商品のカテゴリ分けを既に行っているものとする。そこで、組織Ａは組織Ｂのカテゴリ分けを参考にして、自身が扱っている商品のカテゴリ分けを行うシチュエーションを考える。

　組織Ａが扱っている商品のデータを、表１のx₁, …, x₃とする。ただし、「○○○」「△△△」「◆◆◆」「◇◇◇」等はメーカー名等の固有名詞である。

　組織Ｂが保有するカテゴリ分け済みのデータを、表２のY₁₁, …, Y₁₆, Y₂₁, …, Y₂₅, Y₃₁, …, Y₃₆とする。

　表１に示した組織Ａのデータを文字列xとし、表２に示した組織Ｂのデータを文字列集合Yとして、本願発明により類似度を算出すると、以下のようになる。なお、sim(・,・)は本発明で算出される類似度であり、波括弧内の文字列は２つの文字列に共通して存在する形態素である。

sim(x₁, Y₁₁)=|{}|=0
sim(x₁, Y₁₂)=|{}|=0
sim(x₁, Y₁₃)=|{}|=0
・・・
sim(x₃, Y₃₄)=|{"家具"}|=1
sim(x₃, Y₃₅)=|{"収納","ワゴン"}|=2
sim(x₃, Y₃₆)=|{"◆◆◆","◇◇◇","押入れ","収納","ラック","キャスター","付き","幅"}|=8

　類似度が高いx内の文字列とY内の文字列の組において、Y内の文字列をx内の文字列に置換した結果を表３に示す。例えば、組織Ａの扱うx₃の商品は、組織Ｂの扱うY₃₆の商品との類似度が高いため、Y₃₆をx₃で置き換えることで、x₃に対してY₃₁, …, Y₃₅のカテゴリをあてはめることができた。これにより、組織Ａは、組織Ｂが保有するカテゴリ分けを参考にして、自身が扱っている商品を適切にカテゴリ分けすることができた。

　〔発明のポイント〕
　従来の文字列間の類似度評価では、分散表現を用いなければ概念を考慮した類似度を評価することができなかった。また、特に固有名詞のように出現頻度が高くない場合、類似度を評価する対象のすべての文字列の分散表現を算出できない場合がある。このため、分散表現を用いずに概念を考慮した類似度を評価することが課題となっていた。本発明によれば、形態素解析結果から類似度を算出することができるため、分散表現を用いずに概念を考慮した類似度を評価することができる。特に、固有名詞では形態素の並びには意味がないことが多いため、出現頻度に着目した類似度を構成することにより、適切に類似度を評価することができるようにした。

　以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

　［プログラム、記録媒体］
　上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図３に示すコンピュータの記憶部１０２０に読み込ませ、制御部１０１０、入力部１０３０、出力部１０４０などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　第一の文字列および第二の文字列を形態素解析する形態素解析部と、
　上記第一の文字列の形態素解析結果と上記第二の文字列の形態素解析結果との両方に含まれる形態素の数を類似度として得る類似度算出部と、
　を含む類似度評価装置。
　請求項１に記載の類似度評価装置であって、
　概念が同一で表記が異なる複数の単語を組にした用語統一データを記憶する記憶部と、
　上記用語統一データを用いて上記第一の文字列および上記第二の文字列に含まれる概念が同一で表記が異なる単語を表記が同一となるよう置換する用語統一部と、
　をさらに含む類似度評価装置。
　請求項１または２に記載の類似度評価装置であって、
　上記第一の文字列の形態素解析結果および上記第二の文字列の形態素解析結果から所定の形態素を削除する概念削除部をさらに含む、
　類似度評価装置。
　形態素解析部が、第一の文字列および第二の文字列を形態素解析し、
　類似度算出部が、上記第一の文字列の形態素解析結果と上記第二の文字列の形態素解析結果との両方に含まれる形態素の数を類似度として得る、
　類似度評価方法。
　請求項１から３のいずれかに記載の類似度評価装置としてコンピュータを機能させるためのプログラム。