WO2006095853A1

WO2006095853A1 - 学習処理方法、学習処理装置、および、プログラム

Info

Publication number: WO2006095853A1
Application number: PCT/JP2006/304738
Authority: WO
Inventors: Kouichi Doi; Tomohiro Mitsumori; Yasushi Fukuda; Hitoshi Sanei; Masaki Murata
Original assignee: National University Corporation NARA Institute of Science and Technology; National Institute Of Information And Communications Technology
Priority date: 2005-03-11
Filing date: 2006-03-10
Publication date: 2006-09-14
Also published as: CN101138001A; JP2006252333A

Abstract

　複数の学習データを用いてコンピュータによる機械学習を行う場合に、学習速度の向上と、機械学習の精度を高めることができる学習処理方法と装置を提供する。類似学習データ生成部４において、ｎ個の学習データＳＤｑのうち、被処理データとの間の類似度が高い類似学習データＳＳＤｑを選択する。機械学習器５は類似学習データＳＳＤｑを用いて機械学習を行う。

Description

学習処理方法、学習処理装置、および、プログラム

技術分野

[0001] 本発明は、学習データを用いて被処理データを処理する、学習処理方法、学習処理装置およびプログラムに関する。

背景技術

[0002] たとえば、遺伝子解析システムは、遺伝子間に生じる作用を、遺伝子 (分子)名をノードとし、作用をノード間のリンクとして表現したデータベースを用いる。

このようなデータベースを構築するには、たとえば、公開された論文のなかから、遺伝子名を抽出してノードとしてデータベースに登録する。し力しながら、公開された論文数は膨大であるため、人間が論文を見て遺伝子名を抽出するのでは負担があまりに大きい。そのため、コンピュータなどを用いて種々の論文を検索し、検索した論文データから機械的に遺伝子名を抽出することが考えられる。しカゝしながら、コンビユータに登録して、な、新規の遺伝子名を機械的に抽出するのは困難である。

同様の問題は、たとえば、人名、地名、組織名などの固有表現を文字データ力ゝら抽出する場合にも生じる。

このような問題を解決する技術力、たとえば、下記の文献 1〜3に提案されている。文献 1：「tjene/protain recognition using Support Vector Machine after dictionary matchingj , Tomohiro Mitsumori, Sevrani Fation, Masaki Murata, Kouichi Doi and Hi rohumi Doi BioCreative Workshop: Critical Assessment for Information Extraction i n Biology (BioCreative 2004), Granada, Spain, March, 2004

文献 2 :中野、平井、日本語固有表現抽出における文節情報の利用、情報処理学会論文誌、 Vol. 45 No. 3、 p934— 941、 Mar. 2004

文献 3 :平、春野、 Support Vector Machineによるテキスト分類における分類選択、情報処理学会論文誌、 Vol. 45 No. 4、 pl l l3— 1123、 Apr. 2004

サポート'ベクトル'マシーン（SVM : Support Vector Machine)法の基本事項について述べる。 SVM法は、空間を超平面で分割することにより、 2つの分類からなるデータを分類する手法であり、このとき、 2つの分類が正例と負例力なるとすると、学習データにおける正例と負例の間隔（マージン）が大き、、ものほどオープンデータで誤つた分類をする可能性が低いと考えられ、このマージンを最大にする超平面を求め、その超平面を用、て分類を行う手法である。

SVM法などのように、予め被学習データ（トレーニングデータ）について、所定の解析単位（トークン)で所望の固有表現が出現するパターンを特定し、そのパターンを学習データとして用いて、被処理データ力上記固有表現を抽出する機械学習装置が知られている。

そのような機械学習装置は、たとえば、当該機械学習装置が保持する複数の学習データの全てを用いて、被処理データから所望の固有表現を抽出して、る。

発明の開示

発明が解決しょうとする課題

[0003] 上述した機械学習装置は、被処理データの分類とは無関係に、当該機械学習装置が保持する全ての学習データを用いて当該被処理データ力固有表現を抽出している。その結果、被処理データの分類と類似度が低い学習データが用いられることがあり、固有表現を抽出する信頼性が低くなるという不具合がある。

同様の不具合は、上述した遺伝子解析システム以外の機械学習装置にもある。

[0004] 本発明は、複数の学習データを用いて被処理データに処理を施す場合に、その処理の信頼性を向上できる学習処理方法、学習処理装置およびプログラムを提供することを目的とする。

課題を解決するための手段

[0005] 本発明によれば、被学習データと該被学習データの分類を示す分類データとを有する、複数の学習データを用いて被処理データを機械学習処理する学習処理方法であって、前記複数の学習データに含まれる前記被学習データと、前記被処理データとの類似度を示す類似度データを求める第 1の工程と、前記複数の学習データのうち前記類似度データが所定の値を越えている、学習データを選択する第 2の工程と、前記第 2の工程において選択した前記学習データを用いて前記被処理データを機械学習処理する第 3の工程とを有する学習処理方法が提供される。 [0006] 好ましくは、前記複数の学習データはそれぞれ、被学習データと該被学習データの分類を示す分類データとを含み、前記第 3の工程において、前記第 2の工程において選択した前記学習データに含まれる分類データを参照して前記被処理データを機械学習処理する。

[0007] また好ましくは、前記第 1の工程において、前記被学習データを構成する処理単位データおよび前記被処理データを構成する処理単位データごとに各被学習データの特徴を、予め決められ特徴評価座標系内で規定した距離ベクトルデータとして表し、当該距離ベクトルデータを基に、前記類似度データを生成する。

また好ましくは、前記第 1の工程において、前記被処理データおよび前記被学習データに含まれる異なる種類の前記処理単位データを特定し、前記被処理データおよび被学習データの各々について、前記異なる種類の前記処理単位データの各々が含まれる数を特定し、当該特定した数を、前記被処理データおよび被学習データの各々を構成する前記処理単位データの総数で除算して指標データを生成し、前記被処理データおよび前記被学習データの各々につ!、て得られた前記異なる種類の前記処理単位データの前記指標データの組み合わせパターンを基に前記類似度データを生成する。

さらに好ましくは、前記第 1の工程において、前記被処理データおよび前記学習データの各々につ、て得られた前記異なる種類の前記処理単位データの前記指標データを要素とする距離ベクトルデータを生成し、前記被処理データの前記距離べタトルデータと、前記複数の被学習データの前記距離ベクトルデータとの関係を基に前記類似度データを生成する。

好ましくは、前記第 1の工程において、前記特定した種類の前記処理単位データを含む前記被処理データおよび被学習データの数が多くなるに従って当該種類の前記処理単位データの前記指標データの値を小さくする処理を前記指標データに対して行、、当該処理が施された後の前記指標データの前記組み合わせパターンを基に前記類似度データを生成する。

[0008] 本発明によればまた、被学習データと該被学習データの分類を示す分類データとを有する、複数の学習データを用いて被処理データを機械学習処理するプログラムであって、前記複数の学習データに含まれる前記被学習データと、前記被処理データとの類似度を示す類似度データを求める第 1の手順と、前記複数の学習データのうち、前記類似度データが所定の値を越えている、学習データを選択する第 2の手順と、前記第 2の手順において選択した前記学習データを用いて前記被処理データを機械学習処理する第 3の手順とを有するプログラムが提供される。

[0009] また本発明によれば、被学習データと該被学習データの分類を示す分類データとを有する、複数の学習データを用いて被処理データを機械学習処理する学習処理装置であって、前記複数の学習データに含まれる前記被学習データと、前記被処理データとの類似度を示す類似度データを求める類似度データ生成手段と、前記複数の学習データのうち、前記類似度データが所定の値を越えている、学習データを選択する学習データ選択手段と、前記学習データ選択手段において選択した前記学習データを用いて前記被処理データを機械学習処理する機械学習手段とを有する学習処理装置が提供される。

発明の効果

[0010] 本発明の学習処理装置、学習処理方法およびそのプログラムによれば、複数の学習データを用いて被処理データに処理を施す場合にその処理の信頼性を高めることができる。

図面の簡単な説明

[0011] [図 1]図 1は、本発明の第 1実施形態の機械学習システムの構成図である。

[図 2]図 2は、本発明の第 1の実施形態の機械学習システムを説明するための図である。

[図 3]図 3は、本発明の第 2実施形態に係わる機械学習装置の構成図である。

[図 4]図 4は、本発明の第 2実施形態の被学習データ Rqおよび学習データ SDqを説明するための図である。

[図 5]図 5は、図 3に示す類似学習データ選択部の構成図である。

[図 6]図 6は、本発明の第 2実施形態の被処理データ等を説明するための図である。

[図 7]図 7は、本発明の第 2実施形態の類似学習データを説明するための図である。

[図 8]図 8は、本発明の第 2実施形態のタグ付加部の構成図である。 [図 9]図 9は、本発明の第 2実施形態の分類タグデータ (IOB)判定データ生成部の構成図である。

[図 10]図 10は、本発明の第 2実施形態の IOB判定データを説明するための図である

[図 11]図 11は、本発明の第 2実施形態のタグ付加部を説明するための図である。

[図 12]図 12は、本発明の第 2実施形態の IOB付加部を説明するための図である。

[図 13]図 13は、図 3に示す機械学習装置の動作例を説明するための図である。

[図 14]図 14は本発明の第 3実施形態を説明するための図である。

符号の説明

[0012] 1…機械学習装置、 2…類似学習データ生成機、 3…類似度計算部、 4…類似学習データ生成部、 11· ··類似学習データ選択部、 13· ··タグ付加部、 15· ··ΙΟΒ判定データ生成部、 21…タグ付加部、 22· ··ΙΟΒ付加部、 31…入力部、 32…入力部、 33· ··加算回路、 34…学習データ選択部、 35· ··出力部、 41· ··入力部、 42· ··品詞タガ一部、 43"'Suffixタガ一部、 44· ··出力部、 51· ··入力部、 52 .SVM学習部、 53· ··出力部、 61· ··入力部、 62· ··品詞タガ一部、 63· "Suffixタガ一部、 64· ··出力部、 71· ··入力部、 72—IOB判定部、 73· ··出力部

発明を実施するための最良の形態

[0013] 以下、本発明の学習処理方法、学習処理装置およびプログラムの実施形態に係わる機械学習システムについて説明する。

[0014] i mm

図 1は本発明の第 1実施形態の機械学習システムの構成図である。

本実施形態の機械学習システム 10は、類似学習データ生成機 2と、機械学習器 5 とを有する。

類似学習データ生成機 2は、類似度計算部 3と、類似学習データ生成部 4を有する機械学習システム 10は、正答例集合 (正しい回答の例の集合）、たとえば、学習に用いるデータ（学習データ： Training Data) SDqの中から、解きたい問題、たとえば、問題データ TD (Test Data)との類似度 (Similarity )が所定の条件を満たす部分集合、たとえば、類似学習データ (Similarity Training Data) SSDqを選択し、選択した類似学習データ SSDqを機械学習器 5に対する学習データとすることによって、学習速度と学習精度の向上を図る。

このように、第 1実施の形態においては、たとえば、学習データ SDqの中から、たとえば、問題データ TDとの類似度が高い (あるいは、関連性が高い)類似学習データ SSDqを選択し、選択した類似学習データ SSDqを機械学習器 5に入力し、機械学習器 5は選択された類似学習データ SSDqを用いて機械学習をする。機械学習器 5 は、問題データ TDとの類似度が高い類似学習データ SSDqを用いて学習することにより、学習速度と学習精度の向上が向上する。

機械学習とは、コンピュータを用いて学習を行う技術をいう。

[0015] 請求項に記載の本発明の理解を促進のため、参考までに、本実施形態の構成要素と、本発明の構成要素との対応関係を説明する。

たとえば、図 1に示す問題データ TDが本発明の被処理データに対応し、学習データ SDqが本発明の学習データに対応する。被学習データ Rqが本発明の被学習データに対応する。後述する「語」が本発明の処理単位データに対応する。類似度データ BA(q)が本発明の類似度データに対応する。類似度計算部 3が本発明の類似データ生成手段に対応し、類似学習データ生成部 4が本発明の選択手段に対応し、機械学習器 5が本発明の学習処理手段に対応する。

類似度計算部 3、類似学習データ生成部 4および機械学習器 5の処理内容 (機能）をプログラムとして記述し、コンピュータで実行することが可能であり、その場合に当該プログラムが本発明のプログラムに対応する。

[0016] m^i

学習データ SDqは、たとえば、図 1および図 4を参照して後述するように、被学習データ Rqと、被学習データ Rqの分類 (または、性質: class)を示す分類データ PD (または分類タグデータ (IOB) )とを含んで、る。

類似度計算部 3は、 n個の学習データ Sqのそれぞれに含まれる被学習データ Rqの各々について、当該被学習データ Rqと問題データ TDとの類似度を計算する。被学習データ Rqおよび問題データ TDは、たとえば、 POS(Point Of Sale)データ、テキストデータおよびマルチメディアデータなどである。被学習データ Rqおよび問題データ TDはそれぞれ、複数の処理単位データを組み合わせて構成されてヽる。類似度計算部 3は、複数の被学習データ Rqの各々について、当該被学習データ R qを構成する処理単位データと、問題データ TDを構成する処理単位データとの類似度を示す類似度データを生成し、生成した類似度データを類似学習データ生成部 4 に出力する。

類似度データの生成方法については、たとえば、第 2実施の形態において具体的に述べるが、以下、類似度データの生成方法の概要を述べる。

類似度計算部 3は、まず、被学習データ Rqおよび問題データ TDの各々について、被学習データ Rqを構成する処理単位データと問題データ TDを構成する処理単位データごとに、被学習データ Rqおよび問題データ TDの特徴を、予め決められ特徴評価座標系（X, y, z)内で規定した距離ベクトルデータとして生成する。次いで、類似度計算部 3は、下記に述べるように、上記生成した距離ベクトルデータに基づいて類似度データを生成する。

類似度計算部 3は、例えば、特徴評価座標系（X, y, z)の 3つの座標パラメータ (X , Y, Z)で示される距離ベクトルデータを生成し、

Al : d(x,y)≥0

A2 : d(x,y)=d(y,x)

A3 : d(x,y)=0となる必要十分条件は x=yである

A3' : d(x,x)=0

A4: d(x,z)≤ d(x,y) + d(y,z)

とし、

Bl: A1,A2,A3,A4

B2: A1,A2,A3' ,A4

B3: A1,A2,A3

B4: A1,A2,A3'

B5: A1,A2

とした場合に、類似度データを、上記 B1,B2,B3,B4,B5のいずれかを満たす測度 (測定した値)を示す距離ベクトル関数 dOを用いて表現する。

もしくは、類似度計算部 3は類似度が増加することに対して、距離が単調に減少する類似度計算式によって距離を計算し、当該距離を示す前記類似度データを生成する。

ここで、 B1が、いわゆる「距離」に相当する。例えば、 3次元空間であればユークリツド距離であり、距離は、「d(x,_y)=[(xl- yl)²+(x2- y2)²+(x3- y3)²]^1/2」となる。

[0018] 類似度計算部 3は、「語」だけに限らず、「アルファベット」、「数」などの被学習データ Rqの各々について、当該被学習データ Rqを構成する処理単位データと、問題データ TDを構成する処理単位データとの距離を所定の座標系で示す類似度データを生成することちでさる。

この場合、類似度計算部 3は、距離計算方法として、ユークリッド距離またはユークリツド平方距離、標準化ユークリッド距離、ミンコフスキー距離、もしくはカーネル法による距離計算による評価手法を用いることができる。

[0019] 類似度計算部 3は、一つの被学習データ Rqあるいは一つの問題データ TDに対して問題とする処理単位データ群に対して求まる複数の距離、ないしは類似度に対して、距離に関しては別途与えられた類似度への変換式を用いて変換を行った後、類似度を示すベクトルとして表現し、別途定義する選択関数によってスカラー値に変換し、これを類似度データとしてもよい。

類似度計算部 3は、複数の類似度を要素として持つ類似度を示す距離ベクトルに対して、各要素の和、二乗和、最大値の選択、最小値の選択等によってスカラーに変換する計算を行ってもょヽ。

類似度計算部 3は、上記生成した距離データにゼロでない正数を加え、逆数を取つたものを類似度データとしてもょ、。

[0020] 街似学習データ選択部

類似学習データ選択部 4は、 n個の被学習データ Rqのうち、類似度計算部 3で生成した類似度データが示す類似度が所定のしきい値を越える被学習データ Rqの学習データ SDq (被学習データ SRqとすべきか)を選択し、選択した類似学習データ S SDqとして機械学習器 5に出力する。学習データ SDqから選択された類似学習データ SSDqは、もちろん、被学習データ Rqと、被学習データ Rqの分類 (または性質)を示す分類データ PD (または分類タグデータ (IOB) )とを含んで、る。

分類データ PDは、被学習データ Rqを構成する処理単位データの各々について、その分類を示している。当該分類は、たとえば、被学習データ Rqおよび問題データ TDが、電子メールである場合には、迷惑メールであるカゝ否かを示す情報であり、被学習データ Rqおよび問題データ TDが文書データである場合には、「言葉または用語」の品詞を示す情報である。

機械学習器

機械学習器 5は、類似学習データ選択部 4で選択された類似学習データ SSDqを用いて、問題データ TDの処理を行う。

具体的には、機械学習器 5は、選択された類似学習データ SSDqに含まれる分類データ PDを、問題データ TDを構成する処理単位データに付加する。

機械学習器 5は、問題データ TDを構成する処理単位データに付加され分類データ PDを用いて、たとえば、サポート'ベクトル'マシーン（SVM)法、 Artificial Neural Network法、遺伝的アルゴリズムなど、「教師有り学習」処理を行う。

すなわち、機械学習器 5は、学習データ SDqの中から、問題データ TDとの類似度が高!ヽ選択された (被学習データ Rqと、被学習データ Rqの分類を示す分類データ P Dとを含んでヽる）類似学習データ SSDqに含まれてヽる分類データを用いて問題データ TDを構成する処理単位データについて機械学習をする。このように、機械学習器 5は、問題データ TDとの類似度が高い類似学習データ SSDqの分類データを用いて学習するので、学習速度と学習精度の向上が向上する。

機械学習器 5における学習に用いる学習ルールは、 SVMにお、てはデータ分離を行う超平面を記述するパラメータ群となり、 Artificial Neural Networkにおいては各ニューロンに対する重みベクトルになる。

機械学習器 5は、機械学習法として、上記 SMVなどの他に、決定リスト、類似度に基づく方法、シンプルベイズ法、最大エントロピ一法、決定木、ニューラルネット、判別分析等の手法を用いることもできる。 [0022] 以下、機械学習器 5がー例として採用するサポート 'ベクトル ·マシーン (SVM)法について説明する。 SVM法は、例えば、文献 3等に開示されている。 SVM法は、上述したように、空間を超平面で分割することにより、 2つの分類からなるデータを分類する手法であり、このとき、 2つの分類が正例と負例力なるとすると、学習データにおける正例と負例の間隔 (マージン）が大き、ものほどオープンデータで誤った分類をする可能性が低いと考えられ、このマージンを最大にする超平面を求め、その超平面を用いて分類を行うという手法に基づき、最小の汎化誤差を保証する仮説を見つける構造的リスク最小化に基づく手法である。

機械学習器 5は、問題データ TDを超空間上で正回答例集合へと分離する際、マ一ジンを最大にすることによって最適な分離超平面を得る SVMに基づく学習処理を行う。

SVMは、例えば、入力ベクトル（問題データ TD)を Xとした場合に、下記式（2)の関数が仮説 hを示すとする。

[0023] [数 2] hix) = sign{w■ x + b}

+ 1, if w x + b > 0 , 、

…

― 1, else

[0024] 式（2)にお!/、て、 w、 bは、パラメータである。入力ベクトル Xの次元 nと VC次元 λの関係につヽては以下の補助定理が知られて、る。

[0025] 補助定理：

仮説 h (X)として超平面 h (X) = sign { w · x + b }を仮定する。

1個の訓練データ (本実施形態では、類似学習データ SSDq) x=x (iは 1〜ほでの整数)全てを含む半径 Rの球が存在し、各 Xに対して下記式 (3)が成り立つならば、 II w||を係数 wのノルムとした場合、 VC次元えについて下記式 (4)が成り立つ。

[0026] [数 3]

W X： + b ≥ 1 (3) [0027] [数 4]

[0028] 式 (4)から、 vc次元は、 ||w||に依存する場合がある。

サポート 'ベクトル ·マシーン（SVM)法は、上記訓練データを正例と負例とにわけ、正負例間のマージンが最大、すなわち、 ||w||が最小になる超平面を特定する。

機械学習器 5は、上記超平面の特定を、例えば、ラグランジ乗数を用いて 2次最適化問題として処理する。

[0029] 以上説明したように、本実施形態の機械学習システムによれば、 n個の学習データ SDqのうち問題データ TDとの間の類似度が所定以上、好ましくは、類似度の高いもののみを選択して用いて、機械学習器 5において問題データ TDの学習処理を行う。そのため、問題データ TDの学習に、問題データ TDとの間の類似度が低い学習データ SDqは用いられなくなり、処理済データ TRの信頼性が高まる。

その結果、処理済データ TRの信頼性を高めることができる。

[0030] 本実施形態の機械学習システムによれば、学習処理の精度 (信頼性）向上の他に、学習に用いるデータ量を削減し、学習に要する時間の短縮、並びにマシンリソースの低減と、う効果が得られる。

[0031] 本実施形態において、問題データ TDとしてテキストデータを入力し、個々の単語に対して、品詞情報、単語尾部スペル、語の種類を分類データとして、テキストデータ内から所望の単語を抽出する課題を設定して、学習の対象となるシステムの提示を行う。

入力や課題設定はこれに限られたものではなぐいろいろな応用ができることは明白である。たとえば、図 4に示すように、問題データ TDとして、 POS (Point Of Sales) データや、音楽、音声、テレビ番組、ビデオ映像などのマルチメディアデータ等を指定することができ、また、課題設定として、売り上げパターンの解析や、迷惑メールやニュース番組等のフィルタリングや、ユーザが所望する映像クリップを抽出することなどができる。

本実施形態は、 POSデータからの顧客動向抽出や、テキストデータやマルチメディァデータの分類、及び情報抽出を行うシステムに適用可能である。

また、本実施形態の処理単位データは、商品種とその売り上げ個数、入荷日、売上日、年齢、性別、家族構成等の購買顧客情報などを含む POS情報や、メール文章、論文、特許、 HP文書、番組表、歌詞等の文書、ないしは文章や単語へ分解したもの、楽譜データ、音楽等の時系列データ、ガスクロマトグラフィーによる出力結果や等のスペクトルデータ、ニュース番組やドラマ、ビデオ画像などの映像情報など、ある構成単位を定義し、これの組み合わせや重ね合わせ、合成、シーケンスとして構成する。または、構成されているものとして解析を行ったデータ、および、データを何らかの付加手続きを用いてカ卩ェしたデータを付加して用いることもできる。

本発明の第 2実施形態は、第 1実施形態の機械学習システムを、論文等の学習処理を行う機械学習システムに適用した実施形態である。

[0033] 本発明の理解の促進のため、参考までに、第 2実施の形態の構成要素と、本発明の構成要素との対応関係を説明する。

たとえば、図 3に示す問題データ TDが本発明の被処理データに対応し、学習データ SDqが本発明の学習データに対応する。

とえば、図 4に示す被学習データ Rqが本発明の被学習データに対応する。

2実施の形態の「語」が、本発明の処理単位データに対応する。

2実施形態の類似度データ BA(q)が本発明の類似度データに対応する。式 (6)に示す、指標データ TF (i, j)が本発明の指標データに対応する。とえば、図 13に示すステップ 2の処理が本発明の第 1の工程の処理に対応し、ステップ 3の処理が第 2の工程の処理に対応し、ステップ 5の処理が第 3の工程の処理に対応する。

たとえば、図 5に示す類似学習データ選択部 11の類似度計算部 33が本発明の類似データ生成手段に対応し、学習データ選択部 34が本発明の選択手段に対応し、図 12に示す分類タグデータ (IOB)付加部 22の IOB判定部 72が本発明の処理手段に対応している。

[0034] 図 3は、本発明の第 2施形態に係わる機械学習装置 1の全体構成図である。機械学習装置 1は、メモリ 9、類似学習データ選択部 11、タグ付加部 13、分類タグデータ（IOB)判定データ生成部 15、タグ付加部 21、並びに IOB付加部 22を有する機械学習装置 1の各構成要素は、たとえば、電子回路などのハードウェアにより構成される。後述する当該各構成要素を構成する要素も、それぞれ電子回路などのハ一ドウエアを用いて構成される。もちろん、図 3に示す機械学習装置 1の各構成要素、並びにその要素の一部あるいは全部をコンピュータの CPU(Central Processing Un it)がプログラムを実行することで実現してもよ、。

[0035] 図 3に示すメモリ 9に記憶され、類似学習データ選択部 11に入力される学習データ SDq (SDl〜SDn)を説明する。

図 4は学習データ SDq (SDl〜SDn)を説明する図である。

学習データ SDqのそれぞれは、被学習データ Rqのそれぞれと、その被学習データ Rqの分類タグデータ IOBとを有する。分類タグデータ IOBは対応する被学習データ Rqにつ!/、て予め対応づけられて!/、る。

分類タグデータ IOBは、所定の用語、たとえば、蛋白質の名称を構成する先頭の語に対して" B"を示している。分類タグデータ IOBは、先頭の語に続く語であって、上記所定の用語を構成する語に対して Tを示している。分類タグデータ IOBは、上記所定の用語を構成しな、語に対して" O"を示して、る。

第 2実施形態において、被学習データ Rqおよび問題データ TDは、たとえば、蛋白質の名称を含むような英語の論文データであり、たとえば、スペースを区切り文字とし、文末のピリオドとその直前の語は分割することを当該英文を語に分割するルールとする。

第 2実施形態では、機械学習装置 1は n個の学習データ SDqが利用可能である。

[0036] 図 3に示す各構成要素を説明する。

街似学習データ選択き _β

図 5は図 3に示す類似学習データ選択部 11の構成図である。

類似学習データ選択部 11は、第 1入力部 31、第 2入力部 32、類似度計算部 33、学習データ選択部 34、並びに出力部 35を有する。第 1入力部 31は、たとえば、機械学習装置 1が備えるメモリ（図示せず)あるいは機械学習装置 1の外部から、図 4に示す n個の学習データ SDqを入力する。

第 2入力部 32は機械学習装置 1の外部力図 6に示す問題データ TDを入力する

[0037] 類似度計算部 33は、第 1入力部 31が入力した図 4に示す n個の学習データ SDq 内の被学習データ Rqの各々について、当該被学習データ Rqと、問題データ TDとの類似度を計算する。以下、類似度の計算方法について説明する。

ここで、 n個の学習データ SDqにそれぞれ対応した n個の被学習データ Rqと、問題データ TDとに含まれる語の種類の数を kとする。 "i"は l〜kの整数、 "は11個の被学習データ Rqと 1個の問題データ TDとに付した識別子とする。

[0038] 類似度計算部 33は、下記式 (5)により指標データ TF (i, j)を計算する。

[0039] TF (i, j) = (i番目の処理単位データが j番目の被学習データ Rj (問題データ TD) に出現する回数) / (j番目の被学習データ Rj (問題データ TD)に含まれる語の総数

) … ）

[0040] 類似度計算部 33は、下記式 (6)により文章の数 DF (i)を特定する。

[0041] DF (i) = (n個の被学習データ Rqと問題データ TDとのうち、 i番目の語が出現するものの数） ·'·（6)

[0042] 類似度計算部 33は、被学習データ Rqと問題データ TDとの各々について、全ての語 iとの間の係数 w(i, j)を下記式 (7) , (8)により計算する。

[0043] IDF (i) = log [ (N + 1 ) /DF (i) ] - -- (7)

[0044] w (i, j) =TF (i, j) * IDF (i) · · · (8)

[0045] 上記データ頻度の指数 (対数) IDF (i)は、問題データ TDおよび被学習データ Rq のうち、語 iを含むものの数が多くなるに従って指数関数的にその値を小さくする。このような IDF (i)を指標データ TF (i, j)に乗じて係数 w(i, j)を演算することで、「a 」，「the」， rthisj , 「that」などの頻繁に出現する抽出すべき固有表現ではない、当該データの分類とは無関係の語が類似度に与える影響を殆どなくすことができる。

[0046] 類似度計算部 33は、被学習データ Rqと問題データ TDとの各々について、下記式

(9) , (10)によりベクトル D (q) , D (M)を規定する。 [0047] D (q) = (w(l, q) , w(2, q) , . . . , w(k, q) ) "- (9)

[0048] DM= (w(l, M) , w(2, M) , . . . , w(k, M) ) "- (10)

[0049] 類似度計算部 33は、全ての被学習データ Rqについて、下記式（11)に示す類似度データ BA (q)を計算する。

[0050] [数 11]

BA(q)= cos(DM, Dlq))

∑_t=twjt,M)- w(t,q)

t^l ， Li t=1 ，

[0051] 類似度計算部 33は類似度データ BA(q)を学習データ選択部 34に出力する。

[0052] 学習データ選択部 34は、第 1入力部 31が入力した n個の学習データ SDqのうち、類似度計算部 33から入力した類似度データ BA (q)が所定の基準値を越えるもののみを選択して類似学習データ SSDqとして出力部 35に出力する。

学習データ選択部 34は、第 1入力部 31から入力した n個の学習データ SDqのうち、類似度データ BA(q)が示す類似度が高いものから所定数分だけ選択して出力部 35に出力してもよい。図 5に示す例では、学習データ選択部 34は、学習データ SD1 , 3, 10を類似学習データ SSDqとして出力部 35に出力する。

[0053] 出力部 35は、学習データ選択部 34から入力した類似学習データ SSDqを、図 3に示すタグ付加部 13に出力する。

[0054] タグ付加部

タグ付加部 13は、図 7に示すように、類似学習データ選択部 11から入力した類似学習データ SSDqに含まれる被学習データ Rqを構成する各語について、その品詞データと、 suffix (接尾辞)データとを付カ卩して新たな類似学習データ SSDAqを生成する。

[0055] 図 8は、図 3に示したタグ付加部 13の構成図である。

タグ付加部 13は、入力部 41、品詞タガ一部 42、 Suffixタガー（Tagger)部 43、並びに出力部 44を有する。

入力部 41は、図 3に示す類似学習データ選択部 11から類似学習データ SSDqを入力し、これを品詞タガ一部 42に出力する。

品詞タガ一部 42は、入力部 41から入力した図 7に示す類似学習データ SSDq内の各語に、その品詞を示す品詞データを付加し、これを Suffixタガ一部 43に出力する

Suffixタガ一部 43は、図 7に示すように、品詞タガ一部 42から入力した品詞データが付加された類似学習データの各語に、 suffixデータをさらに付加して新たな類似学習データ SSDAqを生成し、生成した新たな類似学習データ SSDAqを出力部 44 に出力する。

第 2実施形態では、 Suffixタガ一部 43は、 3種の suffixを付加する。

出力部 44は、 Suffixタガ一部 43から入力した類似学習データ SSDAqを図 3に示す分類タグデータ (IOB)判定データ生成部 15に出力する。

[0056] IOB判定データ牛.成部

分類タグデータ (IOB)判定データ生成部 15は、タグ付加部 13から入力した図 7に示す新たな類似学習データ SSDAqを用いて、 IOB付加部 22における解析に用いる IOB判定データ（素性データ） SPを生成し、これを IOB付加部 22に出力する。

[0057] 図 9は図 3に示す IOB判定データ生成部 15の構成図である。

IOB判定データ生成部 15は、入力部 51、 SVM学習部 52および出力部 53を有する。

入力部 51は、タグ付加部 13から新たな類似学習データ SSDAqを入力し、これを S VM学習部 52に出力する。

SVM学習部 52は、入力部 51から入力した図 7に示す新たな類似学習データ SS DAqを基に、各語の分類タグデータ IOB力 I, O, Bの何れであるかを判断するために、たとえば、各語の前後 2語ずつの品詞データおよび suffixデータを用いて、ただし、サポート ·ベクトル ·マシーン（SVM)方式で図 10に示す IOB判定データ SPを生成する。なお、分類タグデータ (IOB)について、上述したように、所定の用語、たとえば、蛋白質の名称を構成する先頭の語に対して" B"を示し、先頭の語に続く語であつて、上記所定の用語を構成する語に対して" I "を示し、上記所定の用語を構成しな V、語に対して" O"を示して、る。 SVM学習部 52は、当該 SVM方式による学習処理において、たとえば、カーネル関数として多項式カーネルを用い、多値分類拡張手法としてベアワイズを用い、解析方向を文の先頭力も後ろとする。 SVM学習部 52による学習処理としては、たとえば、第 1実施形態で説明した SVMが用いられる。 SVM学習部 52は、 IOB判定データ S Pを出力部 53に出力する。

出力部 53は、 SVM学習部 52から入力した IOB判定データ SPを IOB付加部 22に出力する。

[0058] IOB判定データ生成部 15は、 SVM方式以外の学習方式、たとえば、決定リスト方式、類似度に基づく方式、シンプルベイズ方式、最大エントリピー方式、決定木方式、ニューラルネット方式、判別分析方式等を用いてもよい。

[0059] タグ付カロき β

図 3に示すタグ付加部 21は、図 6に示すように、機械学習装置 1の外部から入力した問題データ TDを構成する各語について、その品詞データと、 suffixデータとを付加して新たな問題データ TDaを生成する。

[0060] 図 11は図 3にタグ付加部 21の構成図である。

タグ付加部 21は、たとえば、入力部 61、品詞タガ一部 62、 Suffixタガ一部 63、並びに出力部 64を有する。

入力部 61は、図 3に示す機械学習装置 1の外部から問題データ TDを入力し、これを品詞タガ一部 62に出力する。

品詞タガ一部 62は、入力部 61から入力した図 6に示す問題データ TD内の各語に、その品詞を示す品詞データを付加し、これを Suffixタガ一部 63に出力する。

Suffixタガ一部 63は、図 6に示すように、品詞タガ一部 62から入力した品詞データが付加された被処理データの各語に、その suffixデータをさらに付加して新たな問題データ TDaを生成し、これを出力部 64に出力する。

出力部 64は、 Suffixタガ一部 63から入力した問題データ TDaを図 3に示す IOB 付加部 22に出力する。

[0061] IOB付加部

図 12は図 3に示す分類タグデータ (IOB)付加部 22の構成図である。 IOB付加部 22は、入力部 71、 IOB判定部 72および出力部 73を有する。

入力部 71は、 IOB判定データ生成部 15から入力した IOB判定データ SPを IOB判定部 62に出力する。

IOB判定部 72は、入力部 61から入力した IOB判定データ SPを基に、タグ付加部 2 1力も入力した図 6に示す新たな問題データ TDaの各語に、分類タグデータ IOBを付加して図 6に示す処理済データ TRを生成する。

問題データ TDを解くべき問題とすると、処理済データ TRが解くべき問題の解となる。

IOB判定部 72はテスト結果データ TDaを出力部 63に出力する。

出力部 73は IOB判定部 72から入力した処理済データ TRを機械学習装置 1の外部に出力する。

[0062] 以下、図 3に示す機械学習装置 1の動作例を説明する。

図 13は当該動作例を説明するためのフローチャートである。

ステップ 1 :

図 3に示すタグ付加部 21は、図 6に示すように、機械学習装置 1の外部から入力した問題データ TDを構成する各語について、その品詞データと、 suffixデータとを付カロして新たな問題データ TDaを生成し、これを分類タグデータ (IOB)付加部 22に出力する。

[0063] ステップ 2 :

図 5に示す類似学習データ選択部 11の類似度計算部 33は、入力部 31が入力した図 4に示す n個の学習データ SDq内の被学習データ Rqの各々にって、当該被学習データ Rqと、問題データ TDとの類似度を計算して類似度データ BA (q)を生成し、これを学習データ選択部 34に出力する。

ステップ 3：

図 5に示す学習データ選択部 34は、入力した n個の学習データ SDqのうち、類似度計算部 33から入力した類似度データ BA (q)が所定の基準値を超えるもののみを選択して選択された類似学習データ SSDqとして図 3に示すタグ付加部 13に出力する。 [0064] ステップ 4 :

図 3に示すタグ付加部 13は、図 7に示すように、類似学習データ選択部 11から入力した選択された類似学習データ SSDqに含まれる被学習データ Rqを構成する各語について、その品詞データと、 suffixデータとを付カ卩して新たな類似学習データ S SDAqを生成し、これを分類タグデータ (IOB)判定データ生成部 15に出力する。

ステップ 5：

図 3に示す IOB判定データ生成部 15は、タグ付加部 13から入力した図 7に示す選択された類似学習データ SSDAqを用いて、 IOB付加部 22における解析に用いる I OB判定データ（素性データ） SPを生成し、これを IOB付加部 22に出力する。

ステップ 6：

図 3に示す IOB付加部 22は、ステップ 5で入力した IOB判定データ SPに基づいてタグ付加部 21から入力した図 6に示す新たな問題データ TDaの各語に、分類タグデータ IOBを付カ卩して図 6に示す処理済データ TRを生成する。

機械学習装置 1は、処理済データ TRに付された分類タグデータ IOBに基づいて問題データ TD内の固有表現 (遺伝子名 )を抽出する。

[0065] 以上説明したように、機械学習装置 1によれば、メモリ 9に記憶された n個の学習データ SDqのうち問題データ TDとの間の類似度が高いもののみを選択し、選択された選択された類似学習データ SSDAqを用いて、 IOB付加部 22における新たな問題データ TDaへの分類タグデータ IOBの付カ卩を行う。

その結果、新たな問題データ TDaへの分類タグデータ IOBの付カ卩において、問題データ TDとの間の類似度が低い学習データ SDqは用いられなくなり、処理済データ TRの信頼性が高まる。すなわち、処理済データ TRから、所望の固有表現 (たとえば、遺伝子名 )を高、信頼性 (高、学習精度で)で抽出することが可能になる。

また、第 2実施形態の機械学習 1によれば、処理の信頼性 (学習精度）向上の他に、学習に用いるデータ量を削減し、学習に要する時間の短縮、並びにマシンリソースの低減と、う効果が得られる。

[0066] 3実餱

第 3実施形態は、第 1実施形態の機械学習システムを、インターネット上のコンテンッへのアクセス制御を行う機械学習システムに適用した実施形態である。

図 14は、本発明の第 3実施形態の機械学習システム 101を説明するための図である。

機械学習システム 101では、インターネット 111上のサーノ（図示せず）が記憶する複数の Webページデータ W1を学習データ生成部 112がダウンロードする。

学習データ生成部 112は、予め決められたルールに従って、上記ダウンロードした Webページデータ W1に、コンテンツの分類（分類）を示すタグデータ TGを付加して学習データ（教師データ） SDqを生成し、これを類似学習データ選択部 115に出力する。

タグデータ TGとしては、たとえば、視聴制限の有無、制限年齢以下の禁止、暴力的表現有りなどの情報を示して、る。

[0067] 類似学習データ選択部 115は、インターネット 111を介してダウンロードされた被処理データである Webページデータ W2と、学習データ SDqの Webページデータ W1 との類似関係を基に、類似度が所定の基準を満たした学習データ SDqを類似学習データ SSDqとして選択して機械学習器 116に出力する。

類似関係は、第 1実施形態において説明した手法等を用いて生成した類似度データに基づいて判断する。

[0068] 機械学習器 116は、類似学習データ選択部 115から入力した選択された類似学習データ SSDqを用いて Webページデータ W2の学習処理を行、、タグデータ TGが付された処理済 Webページデータ W3をキャッシュメモリ 118、および/または、フィルタ 125に出力する。

機械学習器 116による学習処理としては、たとえば、第 1実施形態で説明したサボート ·ベクトル ·マシーン（SVM)法が用いられる。

[0069] キャッシュメモリ 118は、処理済 Webページデータ W3を記憶する。

キャッシュ探索部 123は、コンピュータ上で動作するユーザ 'インタフェース 121などを用いてユーザが出した閲覧要求を入力すると、その閲覧要求に応じた処理済 W ebページデータ W3をキャッシュメモリ 118から読み出してフィルタ 125に出力する。キャッシュ探索部 123は、上記閲覧要求に応じた処理済 Webページデータ W3がキャッシュメモリ 118に記憶されてヽな、場合に、コンテンツローダ 131に対してその処理済 Webページデータ W3に対応した Webページデータを要求するダウンロード要求を出力する。

コンテンツローダ 131は、インターネット 111を介して、上記ダウンロード要求をサーバに送信する。

これにより、上記閲覧要求に係わる Webページデータ W1が学習データ生成部 11 2にダウンロードされる。

[0070] フィルタ 125は、所定のサーバあるいはユーザが使用するコンピュータ内に機能として組み込まれ、予め保持したフィルタルールに従って、入力した処理済 Webぺージデータ W3のタグデータ TGを検証し、所定の条件を満たす処理済 Webページデータ W3を、そのタグデータ TGを除去してユーザ'インタフェース 121に出力する。図 14の例において、キャッシュ探索部 123は、特に必須ではない。

[0071] 以上説明したように、第 3実施の形態の機械学習システム 101によれば、類似学習データ選択部 115にお!/、て、被処理データの Webページデータ W2と分類が類似した学習データ SDqのみを類似学習データ SSDqとして類似学習データ選択部 115 に出力する。

その結果、類似学習データ選択部 115において、 Webページデータ W2に高い信頼性のタグデータ TGを付けることができ、フィルタ 125におけるフィルタ処理を適切に行うことができる。

また、第 3実施形態の機械学習システム 101によれば、処理の信頼性向上の他に、学習に用いるデータ量を削減し、学習に要する時間の短縮、並びにマシンリソースの低減という効果が得られる。

[0072] 本発明は上述した第 1〜第 3実施形態には限定されない。

上述した実施形態では、本発明の被処理データおよび被学習データ Rqとして、遺伝子分野の論文 (文献)データを例示したが、それ以外のデータであってもよ!/、。たとえば、本発明は、蛋白質表現の抽出、固有表現抽出 (人名，地名など)、モダリティ表現の翻訳、格解析，格変換、並びに多義性解消等の機械学習処理にも適用可能である。産業上の利用可能性

本発明は、学習データを用いて、所定の用語を抽出すための分類データを被処理データを構成する処理単位データに付加するデータ処理システムに適用可能である

Claims

請求の範囲

[1] 被学習データと該被学習データの分類を示す分類データとを有する、複数の学習データを用いて被処理データを機械学習処理する学習処理方法であって、前記複数の学習データに含まれる前記被学習データと、前記被処理データとの類似度を示す類似度データを求める第 1の工程と、

前記複数の学習データのうち前記類似度データが所定の値を越えている、学習データを選択する第 2の工程と、

前記第 2の工程において選択した前記学習データを用いて前記被処理データを機械学習処理する第 3の工程と

を有する学習処理方法。

[2] 前記複数の学習データはそれぞれ、被学習データと該被学習データの分類を示す分類データとを含み、

前記第 3の工程において、前記第 2の工程において選択した前記学習データに含まれる分類データを参照して前記被処理データを機械学習処理する、

請求項 1に記載の学習処理方法。

[3] 前記第 1の工程において、前記被学習データを構成する処理単位データおよび前記被処理データを構成する処理単位データごとに各被学習データの特徴を、予め決められ特徴評価座標系内で規定した距離ベクトルデータとして表し、当該距離べタトルデータを基に、前記類似度データを生成する

請求項 1または 2に記載の学習処理方法。

[4] 前記被学習データは文書データであり、前記被処理データは文書データであり、前記処理単位データが語データである場合に、

前記第 1の工程において、前記被学習データおよび前記被処理データに出現する前記語データの種類を前記距離ベクトルデータの要素とし、当該種類の語データの出現頻度を前記要素の値とする前記距離ベクトルデータを生成する

請求項 3に記載の学習処理方法。

[5] 前記第 1の工程において、

前記被処理データおよび前記被学習データに含まれる異なる種類の前記処理単位データを特定し、

前記被処理データおよび被学習データの各々について、前記異なる種類の前記処理単位データの各々が含まれる数を特定し、当該特定した数を、前記被処理データおよび被学習データの各々を構成する前記処理単位データの総数で除算して指標データを生成し、

前記被処理データおよび前記被学習データの各々につ、て得られた前記異なる種類の前記処理単位データの前記指標データの組み合わせパターンを基に前記類似度データを生成する

請求項 1に記載の学習処理方法。

[6] 前記第 1の工程において、

前記被処理データおよび前記学習データの各々につ!、て得られた前記異なる種類の前記処理単位データの前記指標データを要素とする距離ベクトルデータを生成し、

前記被処理データの前記距離ベクトルデータと、前記複数の被学習データの前記距離ベクトルデータとの関係を基に前記類似度データを生成する

請求項 5に記載の学習処理方法。

[7] 前記第 1の工程において、

前記特定した種類の前記処理単位データを含む前記被処理データおよび被学習データの数が多くなるに従って当該種類の前記処理単位データの前記指標データの値を小さくする処理を前記指標データに対して行い、

当該処理が施された後の前記指標データの前記組み合わせパターンを基に前記類似度データを生成する

請求項 6に記載の学習処理方法。

[8] 前記学習データの数を nとし、

前記被処理データの数を 1とし、

n個の前記学習データにそれぞれ対応した n個の前記被学習データと、前記被処理データとに含まれる前記処理単位データの種類の数を kとし、

iを l〜kの整数、 jを N個の被学習データと 1個の被処理データとに付した識別子とし、

前記指標データ TF(i, j)を下記とし、

TF(i, j) = (i番目の処理単位データが j番目の被学習データ jに出現する回数） / (j番目の被学習データに含まれる処理単位データの総数）

前記被学習データと前記被処理データの数 DF (i)を下記とした場合に、

DF(i) = (n個の前記被学習データと前記被処理データとのうち、 i番目の処理単位データが出現するものの数）

前記第 1の工程において、前記被学習データと前記被処理データの頻度の指標（または対数) IDF(i)

IDF (i) = log [ (N + 1 ) /DF (i) ]

を計算し、

下記係数 w(i, j)を計算し、

w(i, j)=TF(i, j) *IDF(i)

前記 n個の被学習データ q(qは 1〜Nの整数）のベクトル D(q)を D(q) = (w(l、 q) , w(2, q), . . . , w(k, q))とし、前記被処理データのベクトル D (M)を DM = (w( 1、 M), w(2, M), . . . , w(k, M))とし、

l〜nの全ての qについて、前記類似度データ BA(q)を下記式（1)により計算する請求項 7に記載の学習処理方法。

[数 1]

BA q = cos(DM,D^qj)

被学習データと該被学習データの分類を示す分類データとを有する、複数の学習データを用いて被処理データを機械学習処理するプログラムであって、

前記複数の学習データに含まれる前記被学習データと、前記被処理データとの類似度を示す類似度データを求める第 1の手順と、

前記複数の学習データのうち、前記類似度データが所定の値を越えている、学習データを選択する第 2の手順と、

前記第 2の手順にお、て選択した前記学習データを用いて前記被処理データを機械学習処理する第 3の手順と

を有するプログラム。

[10] 前記複数の学習データはそれぞれ、被学習データと該被学習データの分類を示す分類データとを含み、

前記第 3の手順において、前記第 2の工程において選択した前記学習データに含まれる分類データを参照して前記被処理データを機械学習処理する、

請求項 9に記載のプログラム。

[11] 前記第 1の手順において、前記被学習データを構成する処理単位データおよび前記被処理データを構成する処理単位データごとに各被学習データの特徴を、予め決められ特徴評価座標系内で規定したベクトルデータとして表し、当該ベクトルデータを基に、前記類似度データを生成する、

請求項 9または 10に記載のプログラム。

[12] 被学習データと該被学習データの分類を示す分類データとを有する、複数の学習データを用いて被処理データを機械学習処理する学習処理装置であって、前記複数の学習データに含まれる前記被学習データと、前記被処理データとの類似度を示す類似度データを求める類似度データ生成手段と、

前記複数の学習データのうち、前記類似度データが所定の値を越えている、学習データを選択する学習データ選択手段と、

前記学習データ選択手段において選択した前記学習データを用いて前記被処理データを機械学習処理する機械学習手段と

を有する学習処理装置。

[13] 前記複数の学習データはそれぞれ、被学習データと該被学習データの分類を示す分類データとを含み、

前記機械学習手段は、前記学習データ選択手段において選択した前記学習データに含まれる分類データを参照して前記被処理データを機械学習処理する、請求項 12に記載の学習処理装置。前記類似度データ生成手段は、前記被学習データを構成する処理単位データおよび前記被処理データを構成する処理単位データごとに各被学習データの特徴を、予め決められ特徴評価座標系内で規定した距離ベクトルデータとして表し、当該距離ベクトルデータを基に、前記類似度データを生成する、

請求項 12または 13に記載の学習処理装置。