WO2009123288A1

WO2009123288A1 - 単語分類システム、方法およびプログラム

Info

Publication number: WO2009123288A1
Application number: PCT/JP2009/056900
Authority: WO
Inventors: 弘紀水口; 正明土田; 大久寿居
Original assignee: 日本電気株式会社
Priority date: 2008-04-03
Filing date: 2009-04-02
Publication date: 2009-10-08
Also published as: US20110029303A1; US8504356B2; JPWO2009123288A1; JP5447862B2

Abstract

本発明は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習部を有する単語分類システムである。

Description

[規則37.2に基づきISAが決定した発明の名称]　単語分類システム、方法およびプログラム

　本発明は単語分類システム、単語分類方法および単語分類用プログラムに関する。

　語彙分類手法の一例が、非特許文献１に記載されている。語彙分類手法の一つである単語抽出は、単語を、組織名、地名、人名、日付などの固有表現と呼ばれるカテゴリに単語分類する手法である。この手法は、テキストにあらかじめ固有表現を付与した学習データを入力し、単語分類規則を学習することで、人手によるルール生成作業を軽減することができる。

　非特許文献１では、各単語個別における出現位置周辺の文脈情報を元に単語分類規則を学習する。周辺とは、出現位置前後の２単語程度であり、文脈情報とは、単語、品詞、文字種である。これらの情報を元に、固有表現カテゴリ毎に単語分類規則を学習する。すなわち、組織名か否かを判定する単語分類規則、地名か否かを判定する単語分類規則などである。単語分類規則はSupport Vector Machinesと呼ばれる学習手法のバイナリデータとして記述されるため、人間が視認できる情報ではないが、概念的には、組織名の単語分類規則は、「大会を＜組織名＞が開催」や「システムを＜組織名＞が開発」といった単語規則などが学習されると考えられる。

　また、本発明に関連する単語分類の技術が、特許文献１に記載されている。特許文献１に記載されている技術は、各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示す値の組を複数格納しているコアワード辞書と、文書を格納している文書データベースとを用意しておき、文書データベースの格納文書から分類対象単語を検索し、さらに、その共起関係にある単語を抽出する。そして、抽出された各共起関係単語が、コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードの値から、カテゴリの順位付け判定値を形成して、分類対象単語が属するカテゴリを決定している。ここで、コアワードとはカテゴリに特有でかつ代表的な単語である。例えば、カテゴリ「芸術」であれば、「芸術」を良く表す代表的な単語で、そのカテゴリに関係する単語であり、「映画」、「音楽」、「監督」などである。
山田、工藤、松本、「Support Vector Machinesを用いた日本語固有表現抽出」、情報処理学会研究報告－自然言語処理、Vol.2001, No.20, 121-128ページ特開２００４－３３４７６６号公報

　上述した非特許文献１に記載された技術の問題点は、粒度のあらい分類しかできないことである。その理由は、単語個別の出現位置における文脈情報のみを手がかりにしているためである。例えば、日本のプロ野球チームとアメリカのプロ野球チームを分類する場合、例えば、「Ａチーム」や「Ｂチーム」と言ったそれぞれの単語出現箇所周辺の文脈情報は酷似しているため、分類することはできない。

　また、特許文献２に記載に記載された技術の問題点は、コアワードとなりうる単語を予め用意する必要があるといことである。従って、この準備は非常に手間がかかる作業であり、十分なコアワードが揃わなければ、粒度のあらい分類しかできないことである。

　そこで、本発明は、上記課題に鑑みて発明されたものであって、その目的は、詳細に単語を分類できる技術を提供することにある。

　上記課題を解決する本発明は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習部を有する単語分類システムである。

　上記課題を解決する本発明は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する単語間パターン学習部と、前記作成された単語間パターンが格納される単語間パターン記憶部と、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを出力する単語間パターン適用部と、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する分類判定部とを有する単語分類システムである。

　上記課題を解決する本発明は、分類が未知である分類未知単語の分類を判定するために用いられる学習データを生成する学習データ生成装置であって、文書で共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれから成る学習データを生成する学習データ生成部を有する学習データ生成装置である。

　上記課題を解決する本発明は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを、分類未知単語の分類判定に用いる単語分類方法である。

　上記課題を解決する本発明は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成し、分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別し、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する単語分類方法である。

　上記課題を解決する本発明は、分類が未知である分類未知単語の分類を判定するために用いられる学習データを生成する学習データ生成方法であって、文書で共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれから成る学習データを生成する学習データ生成方法である。

　上記課題を解決する本発明は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習処理を情報処理装置に実行させるプログラムである。

　上記課題を解決する本発明は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成する処理と、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する処理と、分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成する処理と、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別する処理と、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する処理とを情報処理装置に実行させるプログラムである。

　本発明は、分類判定に用いるデータとして、共出現する分類既知単語間の関係を用いているので、詳細に単語の分類を判定することができる。

図１は第１の実施の形態の単語分類システムのブロック図である。図２は分類既知単語群データベース１の一例を示す図である。図３は文書群データベース２の一例を示す図である。図４は第１の実施の形態における学習データの一例を示す図である。図５は第１の実施の形態における学習データの一例を示す図である。図６は第２の実施の形態の単語分類システムのブロック図である。図７は第２の実施の形態における学習データの一例を示す図である。図８は第２の実施の形態の単語分類システムのブロック図である。

１　　　　分類既知単語群データベース
２　　　　文書群データベース
３　　　　単語間パターンデータベース
４　　　　単語間パターン学習部
５　　　　単語間パターン適用部
６　　　　分類判定部
７　　　　入力部
８　　　　出力部

　本実施の形態の特徴を説明する。

　同じ分類の単語は、一つの文で共出現することが多く、同分類の単語間の単語や品詞は同じことが多い。したがって、単語それぞれの文脈情報のみではなく、同分類の単語間の関係を考慮することで、より詳細な単語分類を行うことができる。

　ここで、単語間の関係とは、二つの単語間の表層文字列、その出現回数、品詞、共起回数、レイアウト情報などを指す。例えば、日本のプロ野球チーム名同士であれば、ニュース記事の文に対戦相手として記載されることが多かったり、句読点や、記号などで続けて記載されたりする場合が多い。しかし、アメリカのプロ野球チーム名と日本のプロ野球チーム名とは、トレードの情報などの記載しかなく、多くの頻度がない。さらに、句読点や記号などで続けて書かれることは少ない。

　そこで、本発明は、分類が既知である単語（以下、分類既知単語と記載する）間の関係に基づいて、未分類の単語（以下、分類未知単語と記載する）の分類を判定する為のパターンデータを作成する。

　例えば、分類Ａ：｛ａ，ｂ，ｃ｝、分類Ｂ：｛ｄ，ｅ｝、分類Ｃ：｛ｇ，ｈ｝という分類が与えられたとする。ここで、ａ，ｂ，ｃ，ｄ，ｅ，ｇ，ｈは単語であり、分類名：｛単語集合｝は分類名とその単語集合を表すこととする。尚、ａ，ｂ，ｃ，ｄ，ｅ，ｇ，ｈといった単語は、上述のコアワードである必要はなく、「ＡＡＡウォーズ」や「ＢＢＢ物語」といった映画名そのものの単語や、「Ｃチーム」といったチーム名そのものの単語で良い。

　そして、分類既知単語の単語対ごとに単語間の関係から学習データを作成する。このとき、同分類の分類既知単語（以下、同分類既知単語と記載する）の単語対を正例、異分類の分類既知単語（以下、異分類既知単語と記載する）の単語対を負例とする。例えば、分類既知単語ａと分類既知単語ｂとは同分類であり、その単語対（以下も単語対をａ―ｂと表す）は同分類既知単語の単語対なので、同分類既知単語の単語対は正例である。また、分類既知単語ａと分類既知単語ｄとは異分類であり、その単語対（以下も単語対をａ―ｄと表す）は異分類既知単語の単語対なので、異分類既知単語の単語対は負例である。

　単語間の関係とは、単語ａと単語ｂとが出現する文書の単語ａと単語ｂとの間の文脈情報、レイアウト情報である。ここで、文脈情報とは、単語そのものや、周辺単語、単語間にある語の表層文字列、出現回数、品詞、文字種、共起頻度、単語間距離、係り受け関係、自然文中にあるかである。また、レイアウト情報とは、縦または横に並んでいるか、文字の大きさは同じか、HTML等の木構造の場合木の深さは同じかである。

　このようにして、分類既知単語間の関係をもとに、分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかから成る学習データを作成する。続いて、この学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する。

　そして、この単語間パターンを用いて、分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判別し、判別の結果に基づいて、分類未知単語の分類を判定するのである。

　以下、具体的な実施の形態を説明する。
＜第１の実施の形態＞
　第１の実施の形態を説明する。

　図１は第１の実施の形態における単語分類システムのブロック図である。

　第１の実施の形態における単語分類システムは、分類が既知の単語群が記憶された分類既知単語群データベース１と、文書群が記憶された文書群データベース２と、学習した単語間パターンが記憶される単語間パターンデータベース３と、分類既知単語群データベース１に記憶されている分類既知の単語集合から、分類既知単語間の文脈情報及びレイアウト情報を学習して単語間パターンを作成する単語間パターン学習部４と、単語間パターンデータベース３に記憶されている単語間パターンを用いて、分類未知の単語を含む単語対の適用データを判断する単語間パターン適用部５と、単語間パターン適用部５の判断結果に基づいて、分類未知の単語の分類を判定する分類判定部６と、分類未知の単語を入力するキーボード等の入力部７と、分類判定部６の判定結果を出力する出力部８とを備える。

　分類既知単語群データベース１は、分類が既知の単語群が分類ごとに記憶されている。分類既知単語群データベース１の一例を図２に示す。図２では、複数の分類が、「分類名｛単語群｝」の形式で保持されている。例えば、「分類Ａ：｛ａ，ｂ，ｃ｝」は、分類Ａに、単語aと単語bと単語cとが分類されていることを示す。この記憶方法は一例であり、一つの単語が複数の分類に所属してもよいし、単語毎に分類名を記述してもよい。

　文書群データベース２は、複数の文書が記憶されている。文書群データベース２の一例を図３に示す。図３では、１レコードに一文書を示しており、図中の「・・・」は省略を表している。

　単語間パターンデータベース３には、単語間パターン学習部４で作成された単語間パターンが記憶されている。この単語間パターンは、二つの単語間の関係のデータを入力すると、そのデータが、二つの単語が同じ分類同士のデータであるか否かを示すパターンである。単語間パターンは、学習アルゴリズムによって記述方法が異なる。例えば、Support Vector Machinesを用いる場合、バイナリデータとなる。尚、単語間パターンについては、後述する。

　単語間パターン学習部４は、分類既知単語群データベース１に記憶されている分類既知単語群を入力し、文書群データベース２の文書群を参照しながら、学習データを作成する。そして、学習データに基づいて単語間パターンを作成する。単語間パターン学習部４は、学習データ作成部１１と、パターン作成部１２とを備えている。

　学習データ作成部１１は、分類既知単語群データベース１に記憶されている分類既知単語の組である単語対が文書群データベース２に記憶されている文書で共出現する出現位置毎にその単語間の関係をもとに文脈情報及びレイアウト情報を学習し、その単語対の文脈情報及びレイアウト情報から成る学習データを作成する。

　例えば、「分類Ａ：｛ａ，ｂ，ｃ｝」、「分類Ｂ：｛ｄ，ｅ｝」、「分類Ｃ：｛ｇ，ｈ｝」という分類が与えられた場合、ａ－b，ａ－ｃ，ａ－ｄ，ａ－ｅ，ａ－ｇ，ａ－ｈ，ｂ－ｃ，ｂ－ｄ，ｂ－ｅ，ｂ－ｇ，ｂ－ｈ，ｃ－ｄ，ｃ－ｅ，ｃ－ｇ，ｃ－ｈ，ｄ－ｅ，ｄ－ｇ，ｄ－ｈ，ｅ－ｇ，ｅ－ｈ，ｇ－ｈの単語対（以下、単語対を、例えばａ－ｂと表す）を作成する。

　このとき、同分類既知単語の単語対を正例、異分類既知単語の単語対を負例とする。例えば、単語ａと単語ｂとの単語対は、単語ａ、単語ｂ共に分類Ａに属するので、同分類であり正例である。また、単語aと単語dとの単語対は、単語aは分類Ａに属し、単語ｄは分類Ｂに属するので、異分類であり負例である。

　また、単語間の関係とは、単語aと単語ｂとが出現する文書の単語間の文脈情報、レイアウト情報である。ここで、文脈情報とは、単語そのものや、周辺文字列、単語間にある語の表層文字列、出現回数、品詞、文字種、共起頻度、単語間距離、係り受け関係、自然文中にあるか等である。また、レイアウト情報とは、単語ａと単語ｂとが、縦または横に並んでいるか、文字の大きさは同じか、HTMLなどの木構造の場合木の深さは同じか等である。

　このようにして、これら単語対が文書群データベース２に記憶されている文書で共出現する出現位置毎に単語対の文脈情報及びレイアウト情報とその単語対の正例又は負例の情報とを含む学習データを作成する。

　パターン作成部１２は、学習データ作成部１１が作成した学習データに基づいて、パターンを学習し、単語間パターンデータを作成する。例えば、入力された単語対の適用データが同じ分類を示すものであれば正例、異なる分類であれば負例と判断するような単語間パターンを作成する。そして、作成した単語間パターンを単語間パターンデータベース３に登録する。尚、単語間パターンデータ自体の作成には、Support Vector Machines など既存のものを用いる。

　単語間パターン適用部５は、分類が未知の単語を入力部７から入力し、この分類未知単語を含む単語対の適用データを判断する。単語間パターン適用部５は、適用データ作成部２１と、パターン適用部２２とを備える。

　適用データ作成部２１は、入力された分類未知単語について、分類既知単語群データベース１に記憶されている分類が既知の単語群と文書群データベース２の文書群とを参照し、適用データを作成する。ここでは、分類未知単語と分類既知単語群データベース１に記憶されているそれぞれの分類既知単語との単語対を作成する。例えば、分類未知単語ｆが与えられた場合、分類未知単語ｆと分類既知単語ａ，ｂ，ｃ，ｄ，ｅ，ｇ，ｈとから、ｆ－ａ，ｆ－ｂ，ｆ－ｃ，ｆ－ｄ，ｆ－ｅ，ｆ－ｇ，ｆ－ｈの単語対を作成する。そして、これら単語対が文書群データベース２に記憶されている文書で共出現する出現位置毎にその単語間の関係をもとに、その単語対の文脈情報及びレイアウト情報から成る適用データを作成する。尚、この適用データは、上述した学習データ作成部１１における学習データから単語対の正例、負例の情報を除いたものと同様なものである。

　パターン適用部２２は、分類未知単語と分類既知単語との単語対の適用データを入力し、その単語対の適用データを、単語間パターンデータベース３に記憶されている単語間パターンを参照して解析する。そして、分類未知単語と分類既知単語との単語対の適用データが正例か負例かを出力する。尚、パターン適用部２２には、単語間パターン作成部１２と同様にSupport Vector Machines など既存のものを用いる。

　分類決定部６は、分類未知単語と分離既知単語との単語対の適用データの正例又は負例の情報と、その単語対の分離既知単語の分類とを入力し、分類スコアを計算し、分類未知単語の分類を判定する。分類の判定方法としては、どの分類の単語と正例が多かったかを計算し、分類を判定する方法がある。

　次に、図１の構成を参照して本実施の形態の動作について説明する。

　まず、単語間パターン学習部４が、分類既知単語群データベース１に記憶されている分類が既知の単語群を入力し、文書群データベース２の文書群を参照しながら、学習データを作成する。そして、学習データに基づいて単語間パターンを作成する。

　具体的には、学習データ作成部１１が、分類既知単語群データベース１に記憶されている分類既知単語群と文書群データベース２の文書群とを入力し、分類既知単語群データベース１に記憶されている全ての分類既知単語を組合せの単語対について、その単語対の単語が文書内で共出現する出現位置毎に単語間の関係をもとに文脈情報とレイアウト情報とを学習し、学習データを作成する。学習データは、単語間の文脈情報とレイアウト情報とから作成する。

　例えば、図２に示される分類既知単語群であるａ，ｂ，ｃ，ｄ，ｅ，ｇ，ｈの単語の全ての組合せ（単語対）について、それらの単語対が出現する文書の出現位置毎に学習データを作成する。

　単語対ａ－ｂの学習データの一例を図４、図５に示す。ここで、図４は、図３における１レコード目の文書における単語対ａ－ｂの出現位置をもとに作成した学習データの一例であり、図５は図３の２レコード目の文書における単語対ａ－ｂの出現位置をもとに作成した学習データの一例である。

　文脈情報として、単語間表層文字列、単語間品詞、単語間文字種（ひらがな、漢字、数字、記号、アルファベット、タグ）、係り受け関係にある文節に存在するか、並立関係にある文節に存在するか、単語間の形態素数を示している。

　レイアウト情報として、自然文内に出現しているか、縦横がそろっているか、文字の大きさは同じか、左右の文字列は同じかを示している。

　ここで、単語の分割や、品詞、単語間形態素数は、chasenなどの既存の形態素解析ツールを用いることができる。係り受けや並立関係認識にはcabochaなどの既存の構文解析ツールの出力を用いることができる。図５における“＜ｔｄ＞”や“＜／ｔｄ＞”などHTMLタグに関わる文字列の品詞を、“未知語-開始タグ”や、“未知語-終了タグ”として認識させるよう、形態素解析ツールの辞書をあらかじめ設定しておくと良い。なぜなら、通常これらの文字列は未知語として認識され、単なる記号やアルファベットとして認識されてしまい、有効な学習ができないためである。

　また、縦横にそろっているか否か、文字の大きさは、各文書の描画ツールを用いてそのレイアウト箇所から判断する。このとき、標準的なサイズで描画した場合を考える。例えば、HTMLデータの場合、既存のWebブラウザによって、１０２４×７６８の画面サイズでレイアウトした出力を用いる。また、HTMLデータの場合、文字列の大きさや、描画位置は、HTMLタグ情報で決まることが多いため、実際にレイアウトは行なわずタグ情報を利用して判定しても良い。

　同じ種類の単語は同じ文書に出現し、間に存在する単語も、「と」などの並立関係を表す単語や、読点や「・」などの記号で併記されることが多いため、単語間の表層文字列や、品詞、文字種、係り受け関係といった文脈情報を学習データに利用する。

　自然文ではなく、HTMLなどの半構造データの場合、同種文字列はテーブルなどのレイアウト情報に基づいて整理されることが多いため、縦横にそろっているか否か、文字の大きさといったレイアウト情報を学習データに用いている。また、HTMLデータの場合、同じレイアウトになる場合、左右の文字列が同じ場合が多いため、学習データに用いている。判定のために用いる文字列の長さは、システムで保持する。本実施形態では４文字としている。

　図４の学習データの例を説明する。図３の１レコード目の文書を参照すると、単語対ａ－ｂが出現する位置の間には「と」の文字が存在する。形態素解析ツールを用いると、これは助詞であることがわかる。この文字種はひらがなを含んでいる。また、構文解析ツールを用いると、単語対ａ－ｂの出現位置の文節同士には係り受け関係がないが並立の関係であるとわかる。この二つの単語はHTMLタグなどで囲まれていないため、自然文にあることがわかる。テキストエディアで描画すると横にそろっていることがわかる。文字列の大きさも同じである。ａとｂとのそれぞれの、左右４文字は同じでないこともわかる。これらより、図４の学習データの例となる。

　図５の学習データの例を説明する。図３の２レコード目の文書を参照すると、単語対ａ－ｂが出現する位置の間には、「＜／ｔｄ＞＜ｔｄ＞対＜／ｔｄ＞＜ｔｄ＞」が存在する。これを形態素解析すると、“＜／ｔｄ＞”，“＜ｔｄ＞”，“対”，“＜／ｔｄ＞”，“＜ｔｄ＞”の５単語に別れ、”＜／ｔｄ＞”は終了タグや“＜ｔｄ＞”は開始タグ、“対”は名詞であるとわかる。文字種は“＜／ｔｄ＞”はタグ、対は漢字を含んでいる。構文解析を行なうと、ａとｂには係り受け関係がないことがわかる。また、並立関係もないことがわかる。この二つの単語周辺はタグで囲まれているため自然文中にはないことがわかる。実際にレイアウトすると、テーブルタグであるので、横にそろっており、文字列の大きさも同じであることがわかる。それぞれの単語周辺の文字列は前方「＜ｔｄ＞」、後方「＜／ｔｄ＞」であり同じである。これらより、図５の学習データの例となる。

　上述した例は一例であり、他にも、ＨＴＭＬなどの半構造データの場合、ツリーの深さは同じであるかを含んでも良い。また、単語間の文脈情報とレイアウト情報だけでなく、関連する例にあるように、単語毎の文脈情報を含んでもよい。

　このようにして、全ての各単語対の出現位置毎に一つの学習データを作成する。尚、同分類既知単語の単語対の学習データには正例、異分類既知単語の単語対の学習データには負例の情報も付加して学習データを作成する。

　次に、パターン作成部１２が、学習データ作成部１１が作成した学習データに基づいて、単語間パターンを作成する。本実施の形態では、Support Vector Machinesを用いる。Support Vector Machinesは正例と負例とを分離するための単語間パターンを学習する。これによって、単語対の適用データが同じ分類を示すものである場合には正例、単語対の適用データが異なる分類を示すものである場合には負例となる単語間パターンが学習される。

　単語間パターン適用部５は、入力部７から分類が未知の単語を入力し、この分類未知単語と対となる分類既知単語と同じ分類であるか否かを出力する。

　具体的には、適用データ作成部２１が、入力部７から入力された分類未知単語について、分類既知単語群データベース１に記憶されている分類が既知の単語群と文書群データベース２の文書群とを参照し、適用データを作成する。適用データは、分類未知単語fと、分類既知単語ａ，ｂ，ｃ，ｄ，ｅ，ｇ，ｈの単語の全ての組合せ（単語対）について、それらの単語対が出現する文書の出現位置毎に学習データを作成する。

　例えば、分類未知単語ｆと、分類既知単語ａ，ｂ，ｃ，ｄ，ｅ，ｇ，ｈとのそれぞれの対である、ｆ－ａ，ｆ－ｂ，ｆ－ｃ，ｆ－ｄ，ｆ－ｅ，ｆ－ｇ，ｆ－ｈの各単語対について、文書群データベース２に記憶されている文書で単語対の単語が共出現する出現位置毎にそれぞれで適用データを作成する。すなわち、単語対ｆ―ａにおいて、文書群内の出現箇所が３箇所であれば、３つの適用データが作成される。ここで、適用データの作成方法は、学習データと同じ方法を用いて行なう。

　次に、パターン適用部２２が、適用データ作成部２１から適用データそれぞれに対して、単語間パターンデータベースに記憶されている単語間パターンを参照し、単語対の適用データ毎に同じ分類であるか否かを出力する。パターン適用部２２にSupport Vector Machinesを用いる場合、単語対の適用データ毎にそれぞれについて、正例か負例かを出力する。正例であれば、適用データの単語対は同じ分類であり、負例であれば適用データの単語対は異なる分類である。例えば、単語対ｆ－ａの出現箇所（適用データが３つ）が３つである場合、２つは正例、１つは負例であることもある。また、単語対ｆ－ｂの出現箇所（適用データが４つ）が４つであっても、４つ全てが正例であることもある。

　分類判定部６は、パターン適用部２２から結果を受け、分類未知単語の分類を判定する。例えば、適用データの正例又は負例の数から得られる、分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する。そして、判定結果（分類名）を出力部８に出力する。

　分類未知単語の分類の判定の一例を説明する。

　各単語対の分類の分類スコアを計算し、ある閾値以上だったもののうち、最も高かった分類に決める。例えば、分類スコアを下記の式で求める。

　分類スコア（分類）＝正例の単語対の適用データ数（分類）／単語対の全適用データ数（分類）
　正例の単語対の適用データ数（分類）は、ある分類既知単語と分類未知単語との単語対の適用データで正例になった数である。また、単語対の全適用データ数（分類）は、分類既知単語と分類未知単語との単語対の全適用データ数である。

　例えば、分類Ａに属する単語がａ，ｂ，ｃとし、分類未知の単語をｆとした場合、単語対ｆ－ａ，ｆ－ｂ，ｆ－ｃの全ての適用データの数が、単語対の全適用データ数（分類Ａ）である。また、単語対ｆ－ａ，ｆ－ｂ，ｆ－ｃの適用データのうち、正例となった適用データの数が、正例の単語対の適用データ数（分類Ａ）である。

　ここで、分類未知単語ｆを含む単語対の適用データの判定の結果、正例の単語対の適用データ数（分類Ａ）が１、単語対の全適用データ数（分類Ａ）が３、正例の単語対の適用データ数（分類Ｂ）が２、単語対の全適用データ数（分類Ｂ）が２、正例の単語対の適用データ数（分類Ｃ）が０、単語対の全適用データ数（分類Ｃ）が２となった場合、分類スコア（分類Ａ）は１／３、分類スコア（分類Ｂ）は２／２、分類スコア（分類Ｃ）は０／２となる。従って、分類未知単語ｆの分類は、最も分類スコアが高い分類Ｂとなる。

　上述の分類スコアは一例であり、単純に正例となる適用データの合計など、別の方法でも良い。
　分類スコアが閾値以上ではない場合、分類不明とする。

　以上の如く、本実施の形態では、単語間パターン学習部が単語毎の文脈情報でなく、同種分類単語や異種分類単語間の単語間の文脈情報やレイアウト情報を用いて分類規則を学習するため、従来手法より詳細に分類することができる。
＜第２の実施の形態＞
　第２の実施の形態を説明する。

　図６は第２の実施の形態の単語分類システムのブロック図である。

　図６を参照すると、第１の実施の形態と異なる所は、学習データ作成部１１が第２の学習データ作成部３１に、適用データ作成部２１が第２の適用データ作成部４１にそれぞれ置き換わっておる点である。以下、異なる点を中心に説明する。

　第２の学習データ作成部３１は、学習データを、文書に単語対が出現する毎に作成するのではなく、単語対毎に作成する点が異なる。

　第２の学習データ作成部３１は、文脈情報として単語対の出現頻度や、出現頻度を元に計算できる相互情報量といった統計量をさらに追加する。また、文書で同じ単語対が複数出現する場合、文脈情報として、単語間の文字として多かった文字列、その品詞、文字種、係り受け回数を出現数で割った値、並立関係回数を出現数で割った値、単語間の形態素数平均を用いる。また、レイアウト情報として、自然文に出現する回数を出現数で割った値、縦横でそろっている回数を出現数で割った値、文字列の大きさが同じ回数を出現数で割った値、左右の文字列が同じ回数を出現数で割った値を用いる。これらの方法により、一つの単語対に対して一つの学習データを作成する。

　第２の適用データ作成部４１は、適用データを、文書に単語対が出現する毎に作成するのではなく、単語対毎に作成する点が異なる。適用データの作成方法は、第２の学習データ作成部３１の方法と同様ある。

　次に、図６の構成を参照して本実施の形態の全体の動作について説明する。尚、異なる部分である第２の学習データ作成部３１と第２の適用データ作成部４１とについて主に説明する。

　第２の学習データ作成部３１は、分類既知単語群データベース１に記憶されている分類既知単語の組である単語対毎に、その単語対の文脈情報及びレイアウト情報から成る学習データを作成する。例えば、図２で示される分類既知単語群である、ａ，ｂ，ｃ，ｄ，ｅ，ｇ，ｈの単語の全ての組合せ毎に学習データを作成する。

　ここで、単語対ａ－ｂの学習データの一例を図７に示す。尚、単語対ａ－ｂは、図３に示される文書群データベース２の１レコード目の文書と２レコード目の文書とに出現するものとする。すると、図７に示される単語対ａ－ｂの文脈情報は、単語間表層文字列のうち出現頻度の多い３つ、それぞれの品詞、それぞれの単語間文字種、係り受け関係にある文節に存在する回数を出現数で割った値、並立関係にある文節に存在する回数を出現数で割った値、単語間の形態素数の平均、共起回数を示している。図７に示される単語対ａ－ｂのレイアウト情報は、自然文内に出現している回数を出現数で割った値、縦横がそろっている回数を出現数で割った値、文字の大きさは同じ回数を出現数で割った値、左右の文字列は同じ回数を出現数で割った値を示している。

　これらの学習データは一例であり、係り受け関係や、並立関係、自然文内の出現回数など数を表すものは、一度でも出現していたら１としても良いし、それらを組み合わせても良い。共起出現回数は、相互情報量などの統計量を用いても良い。

　そして、第１の実施の形態と同様に、単語対の正例又は負例の情報を付加して、学習データを生成し、この学習データをパターン作成部１２に出力する。

　第２の適用データ作成部４１は、入力部７から分類未知単語を入力し、入力された分類未知単語について、分類既知単語群データベース１に記憶されている分類が既知の単語群と文書群データベース２の文書群とを参照し、適用データを作成する。ここでは、分類未知単語と分類既知単語群データベース１に記憶されているそれぞれの分類既知単語との単語対を作成する。例えば、分類未知単語ｆが与えられた場合、分類未知単語ｆと分類既知単語ａ，ｂ，ｃ，ｄ，ｅ，ｇ，ｈとから、ｆ－ａ，ｆ－ｂ，ｆ－ｃ，ｆ－ｄ，ｆ－ｅ，ｆ－ｇ，ｆ－ｈの単語対を作成する。そして、これら単語対毎に文脈情報及びレイアウト情報から成る適用データを作成する。適用データの作成は、第２の学習データ作成部３１を同じ方法を用いる。

　他の構成は第１の実施の形態と同様なので、説明は省略する。

　本実施の形態では、第２の学習データ作成部が単語間の共起頻度をさらに学習データに加えることができる。
＜第３の実施の形態＞
　第３の実施の形態を説明する。

　図８は第３の実施の形態の単語分類システムのブロック図である。

　図８を参照すると、第１の実施の形態に比べ、学習データ作成部１１が第３の学習データ作成部５１に置き換わっている点が異なる。

　第１の実施の形態、第２の実施の形態では、正例より負例の学習データ数が多くなるため、単語間パターンを適用するにあたって、分類未知語を入力としてもどの分類の語とも対応が付かず未分類となってしまうことがある。負例の学習データ数が非常に多くなる理由は、異分類既知単語の単語対を全て負例としているためである。

　そこで、第３の実施の形態では、異分類既知単語の単語対のうち、特定の条件を満たすもののみを負例として扱うことで、負例の学習データ量を削減する。ここで、特定の条件とは、二語の出現する頻度、または、共起確率、または、相互情報量が高いことである。このような条件を与えることで、負例としての典型例のみを学習データに採用することで、不当に負例が多くなることを抑制する。

　以下、異なる点を中心に説明する。

　第３の学習データ作成部５１は、学習データを全ての単語対で作成するのではなく、異分類の単語対の学習データについては、一定の条件を満たす単語対のみ学習データを作成する。特定の条件とは、単語対の出現頻度、または、共起確率、または、相互情報量が高いことである。学習データの作成方法は、第１または第２の実施の形態と同じである。

　具体的に説明すると、第３の学習データ作成部５１は、分類既知単語群データベース１の分類既知単語群を入力に、文書群を参照し、分類既知単語の全ての単語対毎に学習データを作成する。学習データは、第１または第２の実施の形態と同様に単語間の文脈情報とレイアウト情報から作成する。例えば、図１に示される分類既知単語群データベース１の分類既知単語群から、ａ，ｂ，ｃ，ｄ，ｅ，ｇ，ｈの単語の組合せである単語対を作成し、この単語対毎に学習データを作成する。但し、単語対のうち異分類既知単語の単語対の学習データについては特定の条件を満たす単語対の学習データのみ作成する。

　すなわち、同分類の単語対ａ－ｂ，ａ－ｃ，ｄ－ｅ，ｇ－hは、第１または第２の実施の形態と同じく学習データを作成する。また、異分類の単語対、ａ－d，ａ－ｅ，ａ－ｇ，ａ－ｈ，ｂ－ｄ，ｂ－ｅ，ｂ－ｇ，ｂ－ｈ，ｃ－ｄ，ｃ－ｅ，ｃ－ｇ，ｃ－ｈ，ｄ－ｇ，ｄ－ｈ，ｅ－ｇ，ｅ－ｈのうち、特定の条件を満たす単語対のみ学習データを作成する。ここで、特定の条件とは、単語対の出現頻度、または、共起確率、または、相互情報量が一定の閾値を超えている、または、上位数件の単語対である。閾値や上位数件は、予めシステムに保存しておく。その後、第１または第２の実施の形態における、学習データ作成部１１、または、第２の学習データ作成部３１と同じく学習データを作成する。

　本実施の形態では、第３の学習データ作成部が、典型的な負例のみを学習データに採用することで、不当に負例が増えることを抑制する。これにより分類精度を上げることができる。

　尚、上述した第１から第３の実施の形態において、単語間の関係として、文脈情報及びレイアウト情報を用いたが、いずれかの一方のみでも良い。

　また、上述した第１から第３の実施の形態において、学習データ作成部、パターン作成部、適用データ作成部及びパターン適用部をハードウェアで構成したが、その一部又は全部をプログラムで動作するＣＰＵ等で構成することもできる。

　以上の如く、本発明の第１の態様は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習部を有する単語分類システムである。

　また、本発明の第２の態様は、上記態様において、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する単語間パターン適用部と、前記単語間パターン適用部の判断結果に基づいて、前記単語対の分類未知単語の分類を判定する分類判定部とを有する。

　また、本発明の第３の態様は、上記態様において、前記単語間パターン学習部は、文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成する学習データ作成部と、前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン作成部とを有する。

　また、本発明の第４の態様は、上記態様において、前記学習データ作成部は、同分類既知単語対又は異分類既知単語対が共出現する文書の出現位置毎に学習データを作成する。

　また、本発明の第５の態様は、上記態様において、前記学習データ作成部は、同分類既知単語対毎、又は異分類既知単語対毎に学習データを作成する。

　また、本発明の第６の態様は、上記態様において、前記学習データ作成部は、同分類既知単語対の学習データを正例の学習データとし、異分類既知単語対の学習データを負例の学習データとする。

　また、本発明の第７の態様は、上記態様において、前記学習データ作成部は、異分類単語対の学習データのうち特定の条件を満たす単語対の学習データを負例の学習データとする。

　また、本発明の第８の態様は、上記態様において、前記特定の条件は、単語間の共出現頻度が所定の値よりも高いこと、共起確率が所定の値よりも高いこと、又は相互情報量が所定の値よりも高いことのいずれかである。

　また、本発明の第９の態様は、上記態様において、前記単語間パターン適用部は、前記分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報の少なくともいずれから成る適用データを作成する適用データ作成部と、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断するパターン適用部とを有する。

　また、本発明の第１０の態様は、上記態様において、前記単語間パターン学習部は、文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成する学習データ作成部と、前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン作成部とを有する。

　また、本発明の第１１の態様は、上記態様において、前記パターン適用部は、前記単語対の適用データが正例又は負例であるかを出力する。

　また、本発明の第１２の態様は、上記態様において、前記単語間パターン作成部は、Support Vector Machinesである。

　また、本発明の第１３の態様は、上記態様において、前記パターン適用部は、Support Vector Machinesである。

　また、本発明の第１４の態様は、上記態様において、前記分類判定部は、分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する。

　本発明の第１５の態様は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する単語間パターン学習部と、前記作成された単語間パターンが格納される単語間パターン記憶部と、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを出力する単語間パターン適用部と、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する分類判定部とを有する単語分類システムである。

　本発明の第１６の態様は、分類が未知である分類未知単語の分類を判定するために用いられる学習データを生成する学習データ生成装置であって、文書で共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれから成る学習データを生成する学習データ生成部を有する学習データ生成装置である。

　本発明の第１７の態様は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを、分類未知単語の分類判定に用いる単語分類方法である。

　また、本発明の第１８の態様は、上記態様において、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断し、前記判断結果に基づいて、前記分類未知単語の分類を判定する。

　また、本発明の第１９態様は、上記態様において、文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成し、前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する。

　また、本発明の第２０の態様は、上記態様において、同分類既知単語対又は異分類既知単語対が共出現する文書の出現位置毎に学習データを作成する。

　また、本発明の第２１の態様は、上記態様において、同分類既知単語対毎、又は異分類既知単語対毎に学習データを作成する。

　また、本発明の第２２の態様は、上記態様において、同分類既知単語対の学習データを正例の学習データとして作成し、異分類既知単語対の学習データを負例の学習データとして作成する。

　また、本発明の第２３の態様は、上記態様において、異分類単語対の学習データのうち特定の条件を満たす単語対の学習データを負例の学習データとする。

　また、本発明の第２４の態様は、上記態様において、前記特定の条件は、単語間の共出現頻度が所定の値よりも高いこと、共起確率が所定の値よりも高いこと、又は相互情報量が所定の値よりも高いことのいずれかである。

　また、本発明の第２５の態様は、上記態様において、前記分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報の少なくともいずれから成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する。

　また、本発明の第２６の態様は、上記態様において、文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成し、前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する。

　また、本発明の第２７の態様は、上記態様において、前記適用データを解析し、前記単語対の適用データが正例又は負例であるかを出力する。

　また、本発明の第２８の態様は、上記態様において、分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する。

　また、本発明の第２９の態様は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成し、分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別し、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する単語分類方法である。

　本発明の第３０の態様は、分類が未知である分類未知単語の分類を判定するために用いられる学習データを生成する学習データ生成方法であって、文書で共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれから成る学習データを生成する学習データ生成方法である。

　本発明の第３１の態様は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習処理を情報処理装置に実行させるプログラムである。

　本発明の第３２の態様は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成する処理と、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する処理と、分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成する処理と、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別する処理と、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する処理とを情報処理装置に実行させるプログラムである。

　以上、好ましい実施の形態及び態様をあげて本発明を説明したが、本発明は必ずしも上記実施の形態及び態様に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。

　本出願は、２００８年４月３日に出願された日本出願特願２００８－９７５２０号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明によれば、形態素解析ツールなどのベースとなる辞書の自動分類に適用できる。また、検索システムにおいて同種語の提示による検索ナビゲーションといった用途にも適用可能である。

Claims

　文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習部を有する単語分類システム。
　入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する単語間パターン適用部と、
　前記単語間パターン適用部の判断結果に基づいて、前記単語対の分類未知単語の分類を判定する分類判定部と
を有する請求項１に記載の単語分類システム。
　前記単語間パターン学習部は、
　文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成する学習データ作成部と、
　前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン作成部と
を有する請求項１又は請求項２に記載の単語分類システム。
　前記学習データ作成部は、同分類既知単語対又は異分類既知単語対が共出現する文書の出現位置毎に学習データを作成する請求項３に記載の単語分類システム。
　前記学習データ作成部は、同分類既知単語対毎、又は異分類既知単語対毎に学習データを作成する請求項３に記載の単語分類システム。
　前記学習データ作成部は、同分類既知単語対の学習データを正例の学習データとし、異分類既知単語対の学習データを負例の学習データとする請求項３から請求項５のいずれかに記載の単語分類システム。
　前記学習データ作成部は、異分類単語対の学習データのうち特定の条件を満たす単語対の学習データを負例の学習データとする請求項６に記載の単語分類システム。
　前記特定の条件は、単語間の共出現頻度が所定の値よりも高いこと、共起確率が所定の値よりも高いこと、又は相互情報量が所定の値よりも高いことのいずれかである請求項７に記載の単語分類システム。
　前記単語間パターン適用部は、
　前記分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報の少なくともいずれから成る適用データを作成する適用データ作成部と、
　前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断するパターン適用部と
を有する請求項２に記載の単語分類システム。
　前記単語間パターン学習部は、
　文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成する学習データ作成部と、
　前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン作成部と
を有する請求項９に記載の単語分類システム。
　前記パターン適用部は、前記単語対の適用データが正例又は負例であるかを出力する請求項９又は請求項１０に記載の単語分類システム。
　前記単語間パターン作成部は、Support Vector Machinesである請求項３から請求項８、又は、請求項１０のいずれかに記載の単語分類システム。
　前記パターン適用部は、Support Vector Machinesである請求項９から請求項１１のいずれかに記載の単語分類システム。
　前記分類判定部は、分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する請求項２、又は、請求項９から請求項１３のいずれかに記載の単語分類システム。
　文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する単語間パターン学習部と、
　前記作成された単語間パターンが格納される単語間パターン記憶部と、
　入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを出力する単語間パターン適用部と、
　前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する分類判定部と
を有する単語分類システム。
　分類が未知である分類未知単語の分類を判定するために用いられる学習データを生成する学習データ生成装置であって、
　文書で共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれから成る学習データを生成する学習データ生成部を有する学習データ生成装置。
　文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを、分類未知単語の分類判定に用いる単語分類方法。
　入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、
　前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断し、
　前記判断結果に基づいて、前記分類未知単語の分類を判定する
請求項１７に記載の単語分類方法。
　文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成し、
　前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する
請求項１７又は請求項１８に記載の単語分類方法。
　同分類既知単語対又は異分類既知単語対が共出現する文書の出現位置毎に学習データを作成する請求項１９に記載の単語分類方法。
　同分類既知単語対毎、又は異分類既知単語対毎に学習データを作成する請求項１９に記載の単語分類方法。
　同分類既知単語対の学習データを正例の学習データとして作成し、異分類既知単語対の学習データを負例の学習データとして作成する請求項１９から請求項２１のいずれかに記載の単語分類方法。
　異分類単語対の学習データのうち特定の条件を満たす単語対の学習データを負例の学習データとする請求項２２に記載の単語分類方法。
　前記特定の条件は、単語間の共出現頻度が所定の値よりも高いこと、共起確率が所定の値よりも高いこと、又は相互情報量が所定の値よりも高いことのいずれかである請求項２３に記載の単語分類方法。
　前記分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報の少なくともいずれから成る適用データを作成し、
　前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する
請求項１８に記載の単語分類方法。
　文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成し、
　前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する
請求項２５に記載の単語分類方法。
　前記適用データを解析し、前記単語対の適用データが正例又は負例であるかを出力する請求項２５又は請求項２６に記載の単語分類方法。
　分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する請求項１８、又は、請求項２５から請求項２７のいずれかに記載の単語分類方法。
　文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、
　前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成し、
　分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別し、
　前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する
単語分類方法。
　分類が未知である分類未知単語の分類を判定するために用いられる学習データを生成する学習データ生成方法であって、
　文書で共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれから成る学習データを生成する
学習データ生成方法。
　文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習処理を情報処理装置に実行させるプログラム。
　文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成する処理と、
　前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する処理と、
　分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成する処理と、
　前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別する処理と、
　前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する処理と
を情報処理装置に実行させるプログラム。