WO2019198618A1

WO2019198618A1 - 単語ベクトル変更装置、方法、及びプログラム

Info

Publication number: WO2019198618A1
Application number: PCT/JP2019/015025
Authority: WO
Inventors: 克人別所; 久子浅野; 準二富田
Original assignee: 日本電信電話株式会社
Priority date: 2018-04-11
Filing date: 2019-04-04
Publication date: 2019-10-17
Also published as: JP2019185439A; US20210034822A1; JP6973255B2; US11537790B2

Abstract

任意の単語対の距離が適切となるように全単語を配置することを目的とする。　単語と該単語の概念を表すベクトルとの対の集合である概念ベース２２と、意味的に遠いまたは近い単語対の集合である辞書２４を入力とし、変換手段３０が、前記概念ベース２２中の任意の単語Ａ、Ｂの対である単語対Ｃに対し、前記単語対Ｃが前記辞書２４中にある場合、前記単語Ａの変換後のベクトルと前記単語Ｂの変換後のベクトルとの差ベクトルＶ'と、前記単語Ａの前記概念ベース２２中のベクトルと前記単語Ｂの前記概念ベース２２中のベクトルとの差ベクトルＶにスカラー値ｋを乗算したベクトルｋＶとの差ベクトルの大きさＤを前記単語対Ｃに対応付け、かつ、前記単語対Ｃが前記辞書２４中にない場合、前記差ベクトルＶ'と前記差ベクトルＶとの差ベクトルの大きさＤを前記単語対Ｃに対応付け、全ての単語対Ｃに対応する前記大きさＤの総和が可能な限り小さくなるように、前記概念ベース２２中の任意の単語のベクトルを変換する。

Description

単語ベクトル変更装置、方法、及びプログラム

　本発明は、単語と該単語の概念を表すベクトルとの対の集合が与えられたとき、辞書中にある意味的に遠い単語対の各単語のベクトルの距離はこれまでより大きくなり、辞書中にある意味的に近い単語対の各単語のベクトルの距離はこれまでより小さくなり、かつ、辞書中にない単語対の各単語のベクトルの距離は可能な限り変化がないように、単語のベクトルを変換する単語ベクトル変更装置、方法、及びプログラムに関する。

　単語と該単語の概念を表すベクトルとの対の集合である概念ベースとして、非特許文献１や非特許文献２で述べられている手法がある。

　これらの手法はいずれもコーパスを入力として単語のベクトルを生成するものであり、意味的に近い単語のベクトルは近くなるような配置となる。生成アルゴリズムは、各単語の概念は、コーパスにおける該単語の周辺単語の出現パターン（周辺分布）によって推定できるという分布仮説をベースにしている。

　これらの手法により生成した概念ベースを用いて、テキスト間の類似性を表す距離を算出することができる。任意のテキストに対し、該テキスト中の単語のベクトルを合成する（例えば単語ベクトルの重心をとる）ことにより、該テキストのベクトルを生成する。テキスト間の距離を、対応するテキストベクトル間の距離として算出する。

別所克人, 内山俊郎, 内山匡, 片岡良治, 奥雅博,"単語・意味属性間共起に基づくコーパス概念ベースの生成方式,"情報処理学会論文誌, Vol.49, No.12, pp.3997-4006, Dec. 2008. Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean,"Efficient estimation of word representations in vector space,"ICLR, 2013.

　上記従来手法で生成した概念ベースでは、以下に述べる課題がある。

課題１）
　反義語の対（例：良い、悪い）は、各単語の周辺分布が似ているため、各単語のベクトルが近くなるという課題がある。このため、テキストベクトル間の距離関係が不適切なものになる。

　例えば単語「良い」に対し、その反義語「悪い」の方が、同義語「宜しい」よりも、ベクトル間の距離が小さくなる。このため、以下のテキストＡに対し、テキストＣの方がテキストＢよりも意味が近いにも関わらず、テキストＢの方がテキストＣよりもベクトル間の距離が小さくなる。

　　テキストＡ：この考えは良い。
　　テキストＢ：この考えは悪い。
　　テキストＣ：この考えは宜しい。

課題２）
　単語の対について、一方の単語が他方の単語の上位語でも下位語でも同義語でもなく、共通の上位語があるとき、該対を同位語の対と呼ぶ。単語の対「野球、サッカー」は、一方の単語が他方の単語の上位語でも下位語でも同義語でもなく、共通の上位語「スポーツ」をもつため、同位語の対となる。

　同位語の対（例：野球、サッカー）は、各単語の周辺分布が似ているため、各単語のベクトルが近くなるという課題がある。このため、テキストベクトル間の距離関係が不適切なものになる。

　例えば単語「野球」に対し、その同位語「サッカー」の方が、下位語「草野球」よりも、ベクトル間の距離が小さくなる。このため、以下のテキストＡに対し、テキストＣの方がテキストＢよりも意味が近いにも関わらず、テキストＢの方がテキストＣよりもベクトル間の距離が小さくなる。

　　テキストＡ：野球を見る。
　　テキストＢ：サッカーを見る。
　　テキストＣ：草野球を見る。

課題３）
　同義語の対（例：野球、ベースボール）は、場合によっては、各単語のベクトルが遠くなるという課題がある。このため、テキストベクトル間の距離関係が不適切なものになる。

　例えば単語「野球」に対し、その同義語「ベースボール」の方が、下位語「草野球」よりも、ベクトル間の距離が大きくなる。このため、以下のテキストＡに対し、テキストＢの方がテキストＣよりも意味が近いにも関わらず、テキストＣの方がテキストＢよりもベクトル間の距離が小さくなる。

　　テキストＡ：野球を見る。
　　テキストＢ：ベースボールを見る。
　　テキストＣ：草野球を見る。

　本発明は、上記課題を解決するためのものであり、一旦生成した概念ベースに対し、各単語のベクトルを変換することにより、単語のベクトルの配置が、単語間の意味的な近さを反映したものとなるようにするものである。具体的には、辞書中にある反義語や同位語といった意味的に遠い単語対の各単語のベクトルの距離はこれまでより大きくなり、辞書中にある同義語といった意味的に近い単語対の各単語のベクトルの距離はこれまでより小さくなるようにする。ただ、それだけを行うと、辞書中にない単語対については、ベクトルの距離が不当に大きくなったり小さくなったりし、配置が適切なものでなくなる。このため、辞書中にある単語対の距離を適切なものにするのと同時に、辞書中にない単語対の距離は可能な限り変化がないように、各単語のベクトルを変換する必要がある。本発明は、任意の単語対の距離が適切となるように全単語を配置することを目的とする。

　上記目的を達成するために、本発明に係る単語ベクトル変更装置は、単語と該単語の概念を表すベクトルとの対の集合である概念ベースと、意味的に遠いまたは近い単語対の集合である辞書を入力とし、前記概念ベース中の任意の単語Ａ、Ｂの対である単語対Ｃに対し、前記単語対Ｃが前記辞書中にある場合、前記単語Ａの変換後のベクトルと前記単語Ｂの変換後のベクトルとの差ベクトルＶ’と、前記単語Ａの前記概念ベース中のベクトルと前記単語Ｂの前記概念ベース中のベクトルとの差ベクトルＶにスカラー値ｋを乗算したベクトルｋＶとの差ベクトルの大きさＤを前記単語対Ｃに対応付け、かつ、前記単語対Ｃが前記辞書中にない場合、前記差ベクトルＶ’と前記差ベクトルＶとの差ベクトルの大きさＤを前記単語対Ｃに対応付け、全ての単語対Ｃに対応する前記大きさＤの総和が可能な限り小さくなるように、前記概念ベース中の任意の単語のベクトルを変換する変換手段を備えることを特徴とする。

　また、本発明に係る単語ベクトル変更装置の前記変換手段は、前記単語対Ｃが、前記辞書中の意味的に遠い単語対である場合、前記スカラー値ｋを１以上の値とし、前記単語対Ｃが、前記辞書中の意味的に近い単語対である場合、前記スカラー値ｋを０以上１以下の値とする。

　また、本発明に係る単語ベクトル変更方法は、単語と該単語の概念を表すベクトルとの対の集合である概念ベースを備えた単語ベクトル変換装置における単語ベクトル変換方法であって、意味的に遠いまたは近い単語対の集合である辞書を入力とし、変換手段が、前記概念ベース中の任意の単語Ａ、Ｂの対である単語対Ｃに対し、前記単語対Ｃが前記辞書中にある場合、前記単語Ａの変換後のベクトルと前記単語Ｂの変換後のベクトルとの差ベクトルＶ’と、前記単語Ａの前記概念ベース中のベクトルと前記単語Ｂの前記概念ベース中のベクトルとの差ベクトルＶにスカラー値ｋを乗算したベクトルｋＶとの差ベクトルの大きさＤを前記単語対Ｃに対応付け、かつ、前記単語対Ｃが前記辞書中にない場合、前記差ベクトルＶ’と前記差ベクトルＶとの差ベクトルの大きさＤを前記単語対Ｃに対応付け、全ての単語対Ｃに対応する前記大きさＤの総和が可能な限り小さくなるように、前記概念ベース中の任意の単語のベクトルを変換するステップを備えることを特徴とする。

　本発明に係るプログラムは、コンピュータを、本発明に係る単語ベクトル変更装置の変換手段として機能させるためのプログラムである。

　本発明により、変換後の差ベクトルＶ’は、変換前の差ベクトルＶをｋ倍したｋＶにほぼ等しくなる。辞書中にある反義語や同位語といった意味的に遠い単語対に対しては、ｋをｋ＞１とすることにより、変換後のベクトル間距離は変換前のベクトル間距離より大きくなり、辞書中にある同義語といった意味的に近い単語対に対しては、ｋをｋ＜１とすることにより、変換後のベクトル間距離は変換前のベクトル間距離より小さくなる。辞書中にない単語対に対しては、変換後のベクトル間距離は変換前のベクトル間距離とあまり変化がないようになる。このようにして任意の単語対の距離が適切となっている全単語の配置を実現した変換後概念ベースを生成できる。

　また、特定の概念ベースには、同一の関係性にある単語対の各単語のベクトルの差ベクトルは、ほぼ同一であるという性質がある。すなわち、単語ｘのベクトルをＵ_ｘとしたとき、同一の関係性にある単語対（a、b）と単語対（c、d）に対し、

が成り立つ。例えば、単語対（男、女）と単語対（おじ、おば）は同一の関係性にあり、

が成り立つ。

　本発明においては、単語ｘの変換後のベクトルをＵ_ｘ’としたとき、同一の関係性にある単語対（a、b）と単語対（c、d）に対し、

が成り立つ一方で、

が成り立つ（但し、ｋは単語対に依存する）。同一の関係性にある単語対群の各単語対は全て、対応する変換前の差ベクトルの大きさがほぼ同じである。そして、同一の関係性にある単語対群の各単語対は全て、意味的に遠いか、あるいは、意味的に近いか、あるいは、意味的に遠くも近くもないかのいずれかとなる。ｋは通常、変換前の差ベクトルの大きさに依存して定められる。したがって、同一の関係性にある単語対群の各単語対に対し同一のｋの値をとることができる。このため、同一の関係性にある単語対（a、b）と単語対（c、d）に対し、

が成り立つ。すなわち、同一の関係性にある単語対の各単語のベクトルの差ベクトルは、ほぼ同一であるという性質を、変換後もなるべく維持することができるという効果もある。

　テキスト間距離算出に、変換後概念ベースを用いることにより、テキストベクトル間の距離関係が適切なものに改善される。

　課題１）の例では、単語「良い」に対し、その反義語「悪い」の方が、同義語「宜しい」よりも、ベクトル間の距離が大きくなるため、テキストＡに対し、テキストＣの方がテキストＢよりもベクトル間の距離が小さくなる。

　課題２）の例では、単語「野球」に対し、その同位語「サッカー」の方が、下位語「草野球」よりも、ベクトル間の距離が大きくなるため、テキストＡに対し、テキストＣの方がテキストＢよりもベクトル間の距離が小さくなる。

　課題３）の例では、単語「野球」に対し、その同義語「ベースボール」の方が、下位語「草野球」よりも、ベクトル間の距離が小さくなるため、テキストＡに対し、テキストＢの方がテキストＣよりもベクトル間の距離が小さくなる。

本発明の実施の形態に係る単語ベクトル変更装置１００の構成を示すブロック図である。概念ベース２２の一例を示す図である。辞書２４の反義語に関するレコード群の一例である。辞書２４の同位語に関するレコード群の一例である。辞書２４の同義語に関するレコード群の一例である。本発明の実施の形態に係る単語ベクトル変更装置１００における変換処理ルーチンの一例を示すフローチャートである。

　以下、図面とともに本発明の実施の形態を説明する。

＜本発明の実施の形態に係る単語ベクトル変更装置の構成＞

　図１は、本発明の請求項１の単語ベクトル変更装置の構成例である。

　単語ベクトル変更装置１００は、単語と該単語の概念を表すベクトルとの対の集合である概念ベース２２と、意味的に遠いまたは近い単語対の集合である辞書２４を入力とし、概念ベース２２中の任意の単語Ａ、Ｂの対である単語対Ｃに対し、単語対Ｃが辞書２４中にある場合、単語Ａの変換後のベクトルと単語Ｂの変換後のベクトルとの差ベクトルＶ’と、単語Ａの概念ベース２２中のベクトルと単語Ｂの概念ベース２２中のベクトルとの差ベクトルＶにスカラー値ｋを乗算したベクトルｋＶとの差ベクトルの大きさＤを単語対Ｃに対応付け、かつ、単語対Ｃが辞書２４中にない場合、差ベクトルＶ’と差ベクトルＶとの差ベクトルの大きさＤを単語対Ｃに対応付け、全ての単語対Ｃに対応する大きさＤの総和が可能な限り小さくなるように、概念ベース２２中の任意の単語のベクトルを変換し、変換後概念ベース３２を生成する変換手段３０を備える。

　図２は、概念ベース２２の例である。概念ベース２２は、例えば、非特許文献１や非特許文献２の手法によって生成する。

　概念ベース２２中の単語に重複するものはない。

　各単語のベクトルはｎ次元ベクトルであり、意味的に近い単語のベクトルは、近くに配置されている。

　概念ベース２２には名詞、動詞、形容詞等の内容語のみを登録するというようにしてもよい。概念ベース２２において単語を終止形で登録し、概念ベース２２を検索する際は、単語の終止形で検索するというようにしてもよい。

　辞書２４の例として、レコード群が反義語、同位語、同義語それぞれに関するレコード群に分けられているように構成することができる。図３は反義語に関するレコード群の例、図４は同位語に関するレコード群の例、図５は同義語に関するレコード群の例である。図３の各レコードは、基点語とその基点語にとっての反義語のリストからなる。基点語とその反義語リスト中の各反義語との対が、反義語の単語対となる。図４、図５についても同様である。反義語レコード群及び同位語レコード群における単語対は、意味的に遠い単語対である。同義語レコード群における単語対は、意味的に近い単語対である。

　辞書２４は上記例に限らず、基点語とその基点語にとっての意味的に遠い単語のリストからなるレコードの群と、基点語とその基点語にとっての意味的に近い単語のリストからなるレコードの群から構成されているようにとることもできる。この場合、基点語とその意味的に遠い単語のリスト中の各単語との対が、意味的に遠い単語対となり、基点語とその意味的に近い単語のリスト中の各単語との対が、意味的に近い単語対となる。

　辞書２４は通常、辞書２４の同種（意味的に遠い、意味的に近い等）のレコード群において、単語リスト中に単語Ｂがある基点語Ａのレコードがあれば、単語リスト中に単語Ａがある基点語Ｂのレコードがあるような構成である。

　変換手段３０の変換処理を、以下のように定式化する。

　概念ベース２２中の単語のリストを、

とする。

　Ｗ_ｐの概念ベース２２中のベクトルを

とし、Ｗ_ｐの変換後概念ベース３２中のベクトルを

とする。

　τ_ｐｑは定数であり、ω_ｐｑは変数である。

　概念ベース２２中の単語対Ｗ_ｉ,Ｗ_ｊに対し、τ_ｉとτ_ｊとの差ベクトルτ_ｉ－τ_ｊに乗算するスカラー値ｋは、一般に｛ｉ,ｊ｝に依存し、ｋ_{｛ｉ,ｊ｝}と表す。

　変換手段３０では、以下の目的関数Ｆを最小化する（ω_ｐｑ）を求める。

は、L2ノルムを表す。

　あるいは、以下の目的関数Ｆを最小化する（ω_ｐｑ）を求める。

　あるいは、Ｆ_{｛ｉ,ｊ｝}を

のその他の何らかの大きさとし、Ｆ_{｛ｉ,ｊ｝}の総和である目的関数Ｆを最小化する（ω_ｐｑ）を求める。

　ｋ_{｛ｉ,ｊ｝}は下記のように設定することとする。

　ｋ_{｛ｉ,ｊ｝}は、単語対Ｗ_ｉ,Ｗ_ｊが辞書２４中の意味的に遠い単語対の場合、ｋ_{｛ｉ,ｊ｝}≧１として定めておき、単語対Ｗ_ｉ,Ｗ_ｊが辞書２４中の意味的に近い単語対の場合、０≦ｋ_{｛ｉ,ｊ｝}≦１として定めておき、単語対Ｗ_ｉ,Ｗ_ｊが辞書２４中にない場合、ｋ_{｛ｉ,ｊ｝}＝１として定めておく。なお、単語対Ｗ_ｉ,Ｗ_ｊが辞書２４中の意味的に遠い単語対の場合、ｋ_{｛ｉ,ｊ｝}≧１と定めたが、ｋ_{｛ｉ,ｊ｝}＞１としてもよい。また、単語対Ｗ_ｉ,Ｗ_ｊが辞書２４中の意味的に近い単語対の場合、０≦ｋ_{｛ｉ,ｊ｝}≦１と定めたが、０≦ｋ_{｛ｉ,ｊ｝}＜１としてもよい。

　単語対Ｗ_ｉ,Ｗ_ｊが辞書２４中の意味的に遠い単語対の場合、ｋ_{｛ｉ,ｊ｝}を｛ｉ,ｊ｝に依存しない定数としてもよい。また、定数α＞０を定め、

としてもよい。また、

の最大値以上である定数βを定め、

としてもよい。また、

が大きい程、ｋ_{｛ｉ,ｊ｝}を小さくして、元々の距離が大きい単語対に対しては、変換後の距離が過度に大きくならないようにしてもよい。

　単語対Ｗ_ｉ,Ｗ_ｊが辞書２４中の意味的に近い単語対の場合、ｋ_{｛ｉ,ｊ｝}を｛ｉ,ｊ｝に依存しない定数としてもよい。また、定数α＞０を定め、

のとき

とし、

のとき

としてもよい。また、

の最小値以下である定数β≧０を定め、

としてもよい。また、

が小さい程、ｋ_{｛ｉ,ｊ｝}を大きくして、元々の距離が小さい単語対に対しては、変換後の距離が過度に小さくならないようにしてもよい。

目的関数Ｆを最小化する（ω_ｐｑ）を、例えば確率的勾配降下法を用いて求める。（別の最適化手法でもよい。）確率的勾配降下法は以下のアルゴリズムとなる。

　上記アルゴリズムの（ｍ,ｎ）行列（ω_ｐｑ）の更新部分を、例えばＡｄａｇｒａｄにより以下のようにして行う。

　上記アルゴリズム開始前に、行列（ω_ｐｑ）の初期値を例えば、

として設定する。

　（ｍ,ｎ）行列（ｒ_ｐｑ）をとる。上記アルゴリズム開始前に、行列（ｒ_ｐｑ）の初期値を例えば、

として設定する。

　上記アルゴリズムの（ｍ,ｎ）行列（ω_ｐｑ）の更新部分において、任意の

に対し、以下のように更新する。

　上記更新を更新（１）と呼ぶことにする。

　目的関数Ｆが数式1の場合、

の計算は以下のようにする。

　1.1)ｐ＝ｉかつＦ_{｛ｉ,ｊ｝}≠０のとき

　1.2)ｐ＝ｊかつＦ_{｛ｉ,ｊ｝}≠０のとき

　1.3)　1.1),1.2)以外のとき

　目的関数Ｆが数式2の場合、

の計算は以下のようにする。

　2.1)ｐ＝ｉのとき

　2.2)ｐ＝ｊのとき

　2.3)　2.1),2.2)以外のとき

＜本発明の実施の形態に係る単語ベクトル変更装置の作用＞

　図６は、変換手段３０の変換処理ルーチンの一例を示す図である。以下、図６の各ステップの処理内容を述べる。

Ｓ１）
　Ｓ２～Ｓ６の処理からなるターンを実行するか否かを判断する。
　所定の回数を実行済みの場合は、終了と判断して、変換処理ルーチンを終了する。
　所定の回数を実行済みでない場合は、実行すると判断してＳ２に進む。
　所定の回数を実行済みでない場合でも、現時点の行列（ω_ｐｑ）と、一つ前のＳ１時点の行列（ω_ｐｑ）とが同じ（すなわち収束している）場合、終了と判断して、変換処理ルーチンを終了してもよい。
　変換処理ルーチンを終了する場合、概念ベース２２中の各単語Ｗ_ｐとその単語ベクトルω_ｐとの対の集合を、変換後概念ベース３２として出力する。

Ｓ２）
　概念ベース２２中の単語のリストを、Ｗ_１,Ｗ_２,・・・,Ｗ_ｍとする。Ｗ_１,Ｗ_２,・・・,Ｗ_ｍの中で、Ｓ２で未選定の単語から一つ選定したＷ_ｘを処理対象の単語Ｘとし、Ｓ３に進む。未選定の単語がなければ、本ターンを終了し、Ｓ１に進む。

Ｓ３）
　辞書２４中のＷ_ｘが基点語であるレコード（複数ありえる）中の、対応する単語リストの中で、概念ベース２２中にあり、かつ、Ｓ３で未選定であり、かつ、単語Ｗ_ｘとの（集合としての）対が、本ターンのＳ４、Ｓ６においてこれまで処理をした（集合としての）対でないことを満たす単語から一つ選定したＷ_ｙを処理対象の単語Ｙとし、Ｓ４に進む。そのような単語がなければ、Ｓ５に進む。

Ｓ４）
　ｘ＜ｙのときｉ＝ｘ,ｊ＝ｙとし、ｙ＜ｘのときｉ＝ｙ,ｊ＝ｘとした上で、｛ｉ,ｊ｝に対し、上記更新（１）を行う。この際に、

を求め、

をもとに適切なｋ_{｛ｉ,ｊ｝}を求めた上で、上記更新（１）を行うというようにしてもよい。Ｓ３に進む。

Ｓ５）
　Ｗ_１,Ｗ_２,・・・,Ｗ_ｍの中で、Ｗ_ｘでなく、かつ、Ｓ３で選定したいずれのＷ_ｙでもなく、かつ、Ｓ５で未選定であり、かつ、単語Ｗ_ｘとの（集合としての）対が、本ターンのＳ４、Ｓ６においてこれまで処理をした（集合としての）対でないことを満たす単語から一つ選定したＷ_ｚを処理対象の単語Ｚとし、Ｓ６に進む。そのような単語がなければ、Ｓ２に進む。
　Ｓ６の計算量を低減するために、Ｗ_ｘを除くＷ_１,Ｗ_２,・・・,Ｗ_ｍを、変換処理ルーチン開始時のＷ_ｘとの距離の昇順にソートし、その上位Ｇ個の中から、（場合によってはソートした順序で）、上記条件を満たす単語を選定するというようにしてもよい。あるいは、Ｗ_ｘを除くＷ_１,Ｗ_２,・・・,Ｗ_ｍの中で、Ｗ_ｘとの距離が、ある閾値以下（あるいは未満）であるものの中から、（場合によっては距離の昇順にソートした順序で）、上記条件を満たす単語を選定するというようにしてもよい。

Ｓ６）
　ｘ＜ｚのときｉ＝ｘ,ｊ＝ｚとし、ｚ＜ｘのときｉ＝ｚ,ｊ＝ｘとした上で、｛ｉ,ｊ｝に対し、上記更新（１）を行う。Ｓ５に進む。

　上記変換処理ルーチンを行う前に、Ｓ２で選定する各Ｗ_ｘに対し、Ｓ３で選定することになるＷ_ｙと距離

の組や、Ｓ５で選定することになるＷ_ｚと距離

の組のリストを求め、距離

をもとに、各単語対(Ｗ_ｘ,Ｗ_ｙ)に対応するスカラー値ｋを求めておき、変換処理ルーチンでは、そのリストの順序に従ってＳ３やＳ５における選定をし、スカラー値ｋの計算はせず、既に求めたスカラー値ｋを参照するという構成にしてもよい。

　これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、ＣＰＵ等の手段で実施することが可能である。

　なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

　本発明は、単語と該単語の概念を表すベクトルとの対の集合が与えられたとき、任意の単語対の距離が適切となるように単語のベクトルを変換する単語ベクトル変更技術に適用可能である。

２２概念ベース
２４辞書
３０変換手段
３２変換後概念ベース
１００単語ベクトル変更装置

Claims

　単語と該単語の概念を表すベクトルとの対の集合である概念ベースと、
　意味的に遠いまたは近い単語対の集合である辞書を入力とし、
　前記概念ベース中の任意の単語Ａ、Ｂの対である単語対Ｃに対し、前記単語対Ｃが前記辞書中にある場合、前記単語Ａの変換後のベクトルと前記単語Ｂの変換後のベクトルとの差ベクトルＶ’と、前記単語Ａの前記概念ベース中のベクトルと前記単語Ｂの前記概念ベース中のベクトルとの差ベクトルＶにスカラー値ｋを乗算したベクトルｋＶとの差ベクトルの大きさＤを前記単語対Ｃに対応付け、かつ、前記単語対Ｃが前記辞書中にない場合、前記差ベクトルＶ’と前記差ベクトルＶとの差ベクトルの大きさＤを前記単語対Ｃに対応付け、全ての単語対Ｃに対応する前記大きさＤの総和が可能な限り小さくなるように、前記概念ベース中の任意の単語のベクトルを変換する変換手段を備えることを特徴とする単語ベクトル変更装置。
　前記変換手段は、前記単語対Ｃが、前記辞書中の意味的に遠い単語対である場合、前記スカラー値ｋを１以上の値とし、前記単語対Ｃが、前記辞書中の意味的に近い単語対である場合、前記スカラー値ｋを０以上１以下の値とする請求項１記載の単語ベクトル変更装置。
　単語と該単語の概念を表すベクトルとの対の集合である概念ベースを備えた単語ベクトル変換装置における単語ベクトル変換方法であって、
　意味的に遠いまたは近い単語対の集合である辞書を入力とし、
　変換手段が、前記概念ベース中の任意の単語Ａ、Ｂの対である単語対Ｃに対し、前記単語対Ｃが前記辞書中にある場合、前記単語Ａの変換後のベクトルと前記単語Ｂの変換後のベクトルとの差ベクトルＶ’と、前記単語Ａの前記概念ベース中のベクトルと前記単語Ｂの前記概念ベース中のベクトルとの差ベクトルＶにスカラー値ｋを乗算したベクトルｋＶとの差ベクトルの大きさＤを前記単語対Ｃに対応付け、かつ、前記単語対Ｃが前記辞書中にない場合、前記差ベクトルＶ’と前記差ベクトルＶとの差ベクトルの大きさＤを前記単語対Ｃに対応付け、全ての単語対Ｃに対応する前記大きさＤの総和が可能な限り小さくなるように、前記概念ベース中の任意の単語のベクトルを変換するステップを備えることを特徴とする単語ベクトル変更方法。
　コンピュータを、請求項１又は請求項２に記載の単語ベクトル変更装置の変換手段として機能させるためのプログラム。