JPWO2011070979A1 - 辞書作成装置、単語収集方法、及び、プログラム - Google Patents

辞書作成装置、単語収集方法、及び、プログラム Download PDF

Info

Publication number
JPWO2011070979A1
JPWO2011070979A1 JP2011545193A JP2011545193A JPWO2011070979A1 JP WO2011070979 A1 JPWO2011070979 A1 JP WO2011070979A1 JP 2011545193 A JP2011545193 A JP 2011545193A JP 2011545193 A JP2011545193 A JP 2011545193A JP WO2011070979 A1 JPWO2011070979 A1 JP WO2011070979A1
Authority
JP
Japan
Prior art keywords
category
word
words
input
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011545193A
Other languages
English (en)
Other versions
JP5761029B2 (ja
Inventor
弘紀 水口
弘紀 水口
幸貴 楠村
幸貴 楠村
大 久寿居
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011545193A priority Critical patent/JP5761029B2/ja
Publication of JPWO2011070979A1 publication Critical patent/JPWO2011070979A1/ja
Application granted granted Critical
Publication of JP5761029B2 publication Critical patent/JP5761029B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

境界単語特定部(103)は、辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する。そして、カテゴリ帰属度算出部(104)は、収集過程記憶部(108)に記録された情報に基づいて、境界単語が属するカテゴリ毎に、その境界単語がそのカテゴリに属する度合いを示すカテゴリ帰属度を算出する。そして、カテゴリ更新部(105)は、カテゴリ帰属度算出部(104)によって算出されたカテゴリ帰属度に基づいて、境界単語が所属するカテゴリを判別し、判別結果が反映されるようにカテゴリ別収集単語記憶部(109)に記憶されている情報を更新する。

Description

本発明は、辞書作成装置、単語収集方法、及び、記録媒体に関する。
少数の同種の単語を用いて、文献データやWebページ等から多数の同種の単語を収集した辞書を作成する辞書作成の手法が知られている。なお、ここでいう辞書とは、共通の上位概念を持つ同種の単語の集合のことである。
上述した辞書作成の手法の一例が、非特許文献1に記載されている。この辞書作成の手法の概略を以下に示す。
まず、収集に用いられる少量の単語を入力する。以下、はじめに入力したこれら小量の単語をシード単語と呼ぶ。次に、Web検索エンジンを利用し、シード単語を含むWebページを収集する。次に、収集したWebページからシード単語とそれ以外の語を区切るパターンを作成する。そして、このパターンを使ってWebページから単語を抽出し、シード単語に追加する。なお、シード単語が入力されてから単語が抽出されるまでをターンと呼ぶ。そして、単語が追加されたシード単語を用いて、さらにWebページを収集する。これを数ターン繰り返した後、抽出された単語をシード単語と同種の単語の集合(辞書)として出力する。
水口弘紀、河合英紀、土田正明、久寿居大、Web知識を利用したブートストラップによる辞書増殖手法、DEWS2007、2007
ここで、上述した辞書作成の手法を用いて、複数カテゴリの単語を収集する場合について考える。たとえば、レストラン名、うどん店名、ラーメン店名それぞれのカテゴリに属する単語を収集する場合について考える。
この場合、各カテゴリに属するシード単語を入力して辞書作成を行い、カテゴリ毎に別々に同種の単語を収集することとなる。しかし、このような手法で単語を収集した場合、それぞれのカテゴリに属するシード単語から作成したパターンが互いに似ているなどの理由により、複数のカテゴリに重複して属してしまう単語が出現する虞がある。例えば、レストラン名、うどん店名、ラーメン店名のそれぞれのカテゴリ全てに属する単語が出現してしまう場合がある。そして、この場合、複数のカテゴリに属する単語は、最終的にどのカテゴリに分類するのが適切なのか不明となり、カテゴリ毎の適切な単語の収集が困難になる。
本発明は、上記実情に鑑みてなされたものであり、複数カテゴリを対象として同種の単語を辞書増殖処理で収集した場合でも、収集した単語を適切にカテゴリに分類することを可能にした、辞書作成装置、単語収集方法、及び、記録媒体を提供することを目的とする。
上記目的を達成するため、本発明の第1の観点に係る辞書作成装置は、
カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段と、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶手段と、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定手段と、
前記入出力過程記録手段に記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を算出するカテゴリ帰属度算出手段と、
前記カテゴリ帰属度算出手段が算出したカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶手段に記憶されている情報を更新するカテゴリ更新手段と、
を備えることを特徴とする。
また、本発明の第2の観点に係る単語収集方法は、
カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録ステップと、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶ステップと、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定ステップと、
前記入出力過程記録ステップで記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を算出するカテゴリ帰属度算出ステップと、
前記カテゴリ帰属度算出ステップで算出されたカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶ステップに記憶されている情報を更新するカテゴリ更新ステップと、
を備えることを特徴とする。
また、本発明の第3の観点に係る記録媒体は、
コンピュータを、
カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶手段、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定手段、
前記入出力過程記録手段に記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を算出するカテゴリ帰属度算出手段、
前記カテゴリ帰属度算出手段で算出されたカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶手段に記憶されている情報を更新するカテゴリ更新手段、
として機能させるプログラムを記録したコンピュータ読取可能な記録媒体である。
本発明によれば、複数カテゴリに所属する単語についてカテゴリ帰属を算出し、カテゴリ帰属度に基づいて当該単語を最適なカテゴリに分類する。従って、複数カテゴリを対象として同種の単語を辞書増殖処理で収集した場合でも、収集した単語を適切にカテゴリに分類することができる。
本発明の第1実施形態に係る辞書作成装置の構成を示す図である。 収集過程記憶部に記憶される情報の構成例を示す図である。 カテゴリ別収集単語記憶部に記憶される情報の構成例を示す図である。 辞書作成処理の動作を説明するためのフローチャートである。 辞書増殖処理の動作を説明するためのフローチャートである。 単語間の入出力の関係を示したグラフである。 単語間の入出力の関係を示したグラフである。 本発明の第2実施形態に係る辞書作成装置の構成を示す図である。 辞書作成処理の動作を説明するためのフローチャートである。 本発明の第3実施形態に係る辞書作成装置の構成を示す図である。 カテゴリ別収集単語記憶部に記憶される情報の構成例を示す図である。 辞書作成処理の動作を説明するためのフローチャートである。 クラスタリング処理の動作を説明するためのフローチャートである。 単語間の入出力の関係を示したグラフである。 各実施形態に係る辞書作成装置をコンピュータに実装する場合の、物理的な構成の一例を示すブロック図である。
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。なお、本発明は下記の実施形態及び図面によって限定されるものではない。本発明の要旨を変更しない範囲で下記の実施形態及び図面に変更を加えることが出来るのはもちろんである。また、図中同一または相当部分には同一符号を付す。
また、本発明で辞書とは、共通の上位概念を持つ同種の単語の集合のことである。
(第1実施形態)
本発明の第1実施形態に係る辞書作成装置100について説明する。辞書作成装置100は、図1に示すように、入力部101と、辞書増殖部102と、境界単語特定部103と、カテゴリ帰属度算出部104と、カテゴリ更新部105と、出力部106と、文書記憶部107と、収集過程記憶部108と、カテゴリ別収集単語記憶部109とを備える。
入力部101は、キーボードやマウスなどから構成される。ユーザは、入力部101を介して、辞書(同種の単語の集合)を作成するためのサンプルとなる複数の単語(シード単語)と、シード単語それぞれが属する種類(カテゴリ)の名称(カテゴリ名)とを入力する。なお、本発明では、複数のカテゴリで、カテゴリ名とシード単語とを入力する。
辞書増殖部102は、非特許文献1に記載されているような従来の手法を用いて、シード単語と同種の単語を文書記憶部107に記憶されている文書内から収集する辞書増殖処理を行う。また、辞書増殖部102は、この辞書増殖処理において、どのような過程を経て単語が収集されたのかを示す情報を収集過程記憶部108に記録する。辞書増殖部102の行う辞書増殖処理の詳細については後述する。
境界単語特定部103は、カテゴリ別収集単語記憶部109を参照して、重複して複数のカテゴリに分類されている単語(境界単語)を特定する。
カテゴリ帰属度算出部104は、収集過程記憶部108とカテゴリ別収集単語記憶部109とに記憶されている情報に基づいて、境界単語が属するカテゴリ毎に、境界単語がカテゴリに属する度合いを示すカテゴリ帰属度を算出する。具体的には、カテゴリ更新部105は、境界単語が属するカテゴリ毎に、境界単語がシード単語に到達するまでの最短の到達距離(ターン数)と、カテゴリ内の単語の結びつきの度合いを示すカテゴリ密集度とを算出し、算出したこれらの情報に基づいてカテゴリ帰属度を算出する。カテゴリ帰属度算出部104の行う処理の詳細については後述する。
カテゴリ更新部105は、カテゴリ帰属度算出部104によって算出されたカテゴリ帰属度に基づいて、境界単語が属するカテゴリを判別し、その判別結果が反映されるようにカテゴリ別収集単語記憶部109を更新する。カテゴリ更新部105の行う処理の詳細については後述する。
出力部106は、種々の情報を出力する。例えば、出力部106は、辞書増殖処理によって収集された単語を、その単語が属するカテゴリ名を付して出力(表示)する。
文書記憶部107は、辞書増殖部102による単語収集の対象となる各文書を定義するデータが記憶される。なお、各文書のデータにはID(文書ID)が付されている。
収集過程記憶部108には、辞書増殖処理において、どのような入出力の過程を経て単語が収集されたのかを示す情報が記録される。具体的には、図2に示すように、収集過程記憶部108には、辞書増殖処理におけるターン毎に、当該ターンのターン数と、当該ターンで入力された入力単語と、該入力単語から生成されたパターンによって出力された出力単語とが対応付けられて記録される。
例えば、図2の先頭のエントリから、辞書増殖処理の1ターン目に、「レストランS」から作成されたパターンにより「レストランX」が抽出されたことがわかる。
図1に戻り、カテゴリ別収集単語記憶部109には、図3に示すように、収集された各単語と、各単語がどのカテゴリに分類されているかを示すカテゴリ名とが対応付けられて記憶される。
例えば、図3から、「レストランS」、「レストランT」、「レストランZ」、「レストランW」、「レストランA」、「レストランB」、「レストランX」、「レストランE」、「うどんI」、及び「うどんJ」は、レストランカテゴリに属する単語であることがわかる。また、「うどんC」、「うどんD」、「うどんG」、「うどんH」、「うどんI」、及び「うどんJ」は、うどん店カテゴリに属する単語であることがわかる。また、「うどんI」と「うどんJ」は、レストランカテゴリとうどん店カテゴリの両方に属する境界単語であることがわかる。
続いて、辞書作成装置100で実施される処理の動作について説明する。
ユーザは、入力部101を操作して、複数のカテゴリ(カテゴリ名)、及び、各カテゴリ毎に1乃至複数のシード単語を入力する。そして、ユーザは、入力したシード単語を元に、カテゴリ毎に同種の単語の集合である辞書を作成することを指示する。この指示操作に応じて、辞書作成装置100は、図4に示す辞書作成処理を行う。
辞書作成処理が開始されると、まず、辞書増殖部102は、従来の手法で辞書増殖処理を行い、入力されたシード単語に関連する単語を、入力されたカテゴリ(カテゴリ名)別に収集する(ステップS100)。
ここで、辞書増殖処理(ステップS100)の詳細について、図5のフローチャートを参照して説明する。辞書増殖処理が開始されると、まず、辞書増殖部102は、ユーザによって入力されたカテゴリ名と、カテゴリに属するシード単語とを対応付けてカテゴリ別収集単語記憶部109に登録する(ステップS101)。そして、辞書増殖部102は、ターン数を示すカウンタi(初期値0)を1インクリメントする(ステップS102)。
続いて、辞書増殖部102は、カテゴリ別収集単語記憶部109に記憶されている単語のなかから所定数の単語をランダムに選択する(ステップS103)。なお、後述するカテゴリ帰属度の算出が精度よく行われるためにも、辞書増殖部102は、カテゴリ別収集単語記憶部109に記憶されている全てのカテゴリから、満遍なく単語を選択することが望ましい。
続いて、辞書増殖部102は、文書記憶部107に記憶されている文書のなかから、選択した単語が含まれている文書を検出する(ステップS104)。なお、ここでは、選択した単語を全て含む文書のみを検出してもよいし、選択した単語のうち所定数の単語を含む文書を検出してもよい。
続いて、辞書増殖部102は、検出した文書内における、ステップS103で選択した単語が出現する位置を特定し、選択した単語とそれ以外の部分とを区切るパターンを作成する(ステップS105)。例えば、文書内で選択した単語が出現する部分の前後の所定数の文字列を、パターンとして採用すればよい。
続いて、辞書増殖部102は、作成したパターンに合致する単語を、文書記憶部107に記憶されている文書から抽出する(ステップS106)。
続いて、辞書増殖部102は、抽出した単語を、当該単語が属するカテゴリのカテゴリ名と対応付けて、カテゴリ別収集単語記憶部109に追加する(ステップS107)。なお、ここでは、単語の抽出に用いたパターンの作成の元となった単語(即ち、ステップS103で選択された単語の1つ)が属するカテゴリを、抽出した単語のカテゴリとすればよい。
例えば、単語Aから作成したパターンに合致する単語として単語Bが抽出された場合、この単語Bは、単語Aが属するカテゴリと同じカテゴリ名が付されて、カテゴリ別収集単語記憶部109に記憶される。
続いて、辞書増殖部102は、今回のターン数を示す情報(即ち、カウンタiの値)と、ステップS103で選択した各単語(入力単語)と、入力単語から作成したパターンによりステップS106で抽出した単語(出力単語)とを対応付けて、収集過程記憶部108に記憶する(ステップS108)。
続いて、辞書増殖部102は、辞書増殖を終了させるための所定の終了条件を満たしているか否かを判別する(ステップS109)。終了条件としては、例えば、カテゴリ別収集単語記憶部109に記憶した単語の数が所定数に達したか、又は、ターン数が所定数に達したか等の任意の条件を採用することが可能である。なお、後述するカテゴリ帰属度の算出が精度よく行われるためにも、ここでは、少なくとも2ターン以上は単語の収集を繰り返し実行するような終了条件が設定されていることが望ましい。
終了条件を満たしていないと判別した場合(ステップS109;No)、辞書増殖部102は、ステップS102〜ステップS108を繰り返し、新たに単語がカテゴリ別に追加されたシード単語から単語を収集する処理を引き続き行う。
終了条件を満たしていると判別した場合(ステップS109;Yes)、辞書増殖部102は、辞書増殖処理を終了し処理を境界単語特定部103に移す。
図4に戻り、境界単語特定部103は、カテゴリ別収集単語記憶部109を参照して境界単語を特定する(ステップS200)。そして、カテゴリ帰属度算出部104は、収集過程記憶部108とカテゴリ別収集単語記憶部109とに記憶されている情報に基づいて、特定した境界単語のカテゴリ帰属度を算出する(ステップS300)。
具体的には、カテゴリ帰属度算出部104は、まず、境界単語が属するカテゴリ毎に、境界単語がカテゴリ内のシード単語に入力又は出力を繰り返して到達するまでの到達距離(入出力の回数、ターン数)を求める。また、カテゴリ帰属度算出部104は、境界単語が属するカテゴリ毎に、カテゴリ内の単語の結び付きの度合いを示すカテゴリ密集度を求める。ここで、到達距離が大きい境界単語ほど、又は、カテゴリ密集度が大きいカテゴリほど、その境界単語はそのカテゴリとの関連性が薄い、即ちカテゴリ帰属度が小さくなるものと推定される。従って、例えば、カテゴリ帰属度算出部104は、到達距離とカテゴリ密集度との積の逆数を算出し、カテゴリ帰属度とすることができる。
ここで、上述したカテゴリ帰属度の算出について、例を挙げて説明する。
図6は、辞書増殖処理の結果として、図2、図3に示す情報が収集過程記憶部108、及びカテゴリ別収集単語記憶部109に記憶されている場合の、単語間の入出力の関係をグラフで示した図である。図6において、各単語はノードで表され、入力単語から出力単語の方向にアーク(矢印)で結ばれる。例えば、単語「レストランB」は、「レストランS」から作成されたパターンにより抽出されたことがわかる。また、単語「レストランB」から作成されたパターンにより「レストランT」が抽出されたことがわかる。また、図6では、1ターン目の入力単語であるシード単語「レストランS」、「レストランT」、「うどんC」、及び「うどんD」を網掛けで示している。また、レストランカテゴリ、および、うどん店カテゴリに属する単語を、それぞれ点線で囲んで示している。また、この図より、両方のカテゴリに属する単語「うどんI」、「うどんJ」が境界単語であることがわかる。以下、この場合における、境界単語「うどんI」について、カテゴリ帰属度を算出する例を説明する。
まず、レストランカテゴリについて考える。図6より、境界単語「うどんI」は、「レストランS→レストランZ→うどんI」等のルートにより、最短2ターンで、レストランカテゴリ内のシード単語「レストランS」又は「レストランT」から出力/入力される。従って、到達距離は2となる。
また、レストランカテゴリ内の各単語がシード単語「レストランS」又は「レストランT」に到達するまでの最短の距離(ターン数)は、「レストランA」「レストランB」「レストランX」「レストランZ」「レストランW」は1、「レストランE」「うどんI」「うどんJ」は2である。従って、これらを平均すると11/8となり、この逆数8/11をレストランカテゴリのカテゴリ密集度とする。そして、カテゴリ密集度と到達距離との積の逆数をカテゴリ帰属度として算出する。即ち、「うどんI」のレストランカテゴリに対するカテゴリ帰属度は、0.69となる。
同様に、うどん店カテゴリについて考える。図6より、境界単語「うどんI」は、「うどんC→うどんG→うどんI」等のルートにより、最短2ターンで、うどん店カテゴリ内のシード単語「うどんC」又は「うどんD」から出力/入力される。従って、到達距離は2となる。
また、うどん店カテゴリ内の各単語がシード単語「うどんC」又は「うどんD」に到達するまでの最短の距離(ターン数)は、「うどんG」「うどんH」は1、「うどんI」「うどんJ」は2である。従って、これらの平均は6/4となり、この逆数4/6をうどん店カテゴリのカテゴリ密集度とする。そして、カテゴリ密集度と到達距離との積の逆数をカテゴリ帰属度として算出する。即ち、「うどんI」のうどん店カテゴリに対するカテゴリ帰属度は、0.75となる。
図4に戻り、続いて、カテゴリ更新部105は、算出されたカテゴリ帰属度に基づいて、境界単語が所属するカテゴリを判別する。そして、判別結果が反映されるように、カテゴリ別収集単語記憶部109を更新する(ステップS400)。
例えば、前述した例の場合、「うどんI」については、うどん店カテゴリに対するカテゴリ帰属度(0.75)の方が、レストランカテゴリに対するカテゴリ帰属度(0.69)よりも大きい。即ち、「うどんI」は、うどん店カテゴリにより帰属していることとなる。従って、この場合、カテゴリ更新部105は、カテゴリ別収集単語記憶部109にレストランカテゴリとして登録されている「うどんI」のレコードを削除する。
また、もう一方の境界単語「うどんJ」についても、同様の手法で算出されたカテゴリ帰属度により、うどん店カテゴリに帰属することが判別される。従って、カテゴリ更新部105は、カテゴリ別収集単語記憶部109にレストランカテゴリとして登録されている「うどんJ」のレコードを削除する。
そして、最終的には、図7に示すように、各単語は適切なカテゴリに分類される。
なお、上述した例のように、カテゴリ帰属度の大きい方のカテゴリのみに境界単語が所属すると判別するのではなく、所定の閾値以上のカテゴリ帰属度のカテゴリに境界単語が帰属するものとしてカテゴリを判別してもよい。例えば、前述した例において、この所定の閾値が0.6であれば、「うどんI」はレストランとうどん店の両方のカテゴリに属することとなり、カテゴリ更新部105による更新処理は行う必要がないこととなる。
続いて、出力部106は、カテゴリ別収集単語記憶部109を参照して、収集され、カテゴリに分類された単語を、それらの情報を関連付けて出力(表示)する(ステップS500)。例えば、前述した例の場合、出力部106は、「レストランカテゴリ{レストランA、レストランB、レストランE、レストランS、レストランT、レストランW、レストランX、レストランZ}、うどん店カテゴリ{うどんC、うどんD、うどんG、うどんH、うどんI、うどんJ}」等と出力する。以上で、辞書作成処理は終了する。
このように、本実施形態では、辞書増殖処理によって複数のカテゴリに重複して所属する単語(境界単語)が出現しても、その境界単語の属するカテゴリ毎にカテゴリ帰属度を算出し、算出したカテゴリ帰属度に基づいてカテゴリを更新する。従って、複数カテゴリを対象として同種の単語を辞書増殖処理で収集した場合でも、収集した単語を適切にカテゴリに分類することができる。
(第2実施形態)
一般的に、カテゴリ内の単語のうち、シード単語に到達するまでの到達距離(入出力の回数)が離れている(多い)単語ほど、シード単語と類似する精度が悪化することが知られている。従って、そのような単語はそのカテゴリにふさわしくない単語であるといえ、そのカテゴリから削除することが望ましい。しかしながら、どの程度シード単語から離れていればその単語がカテゴリにふさわしくないのかを判断することは、適切な基準がなく困難であった。本実施形態では、境界単語を利用して、そのようなカテゴリにふさわしくない単語を、適切な基準で容易に削除することを可能にしたことを特徴とする。
第2実施形態に係る辞書作成装置200は、図8に示すように、第1実施形態の辞書作成装置100に、単語削除部201が新たに追加された構成である。なお、下記及び図面では、第1実施形態と同様のものについては、同一の符号を付す。また、第1実施形態と同様の構成要素の詳細な説明は、上記第1実施形態の説明に準じ、詳細な説明を省略する。
単語削除部201は、カテゴリ更新部により適切なカテゴリに更新(分類)された境界単語を用いてカテゴリにふさわしくない単語を判別し、判別した単語をカテゴリ別収集単語記憶部109から削除する。単語削除部201の行う処理の詳細については後述する。
なお、その他の各部(入力部101、辞書増殖部102、境界単語特定部103、カテゴリ帰属度算出部104、カテゴリ更新部105、出力部106、文書記憶部107、収集過程記憶部108、及びカテゴリ別収集単語記憶部109)は、第1実施形態と同様の処理を行うため、ここでは説明を省略する。
続いて、辞書作成装置200で実施される処理の動作について説明する。
第1実施形態と同様の指示操作に応じて、辞書作成装置200は、図9に示す辞書作成処理を行う。
辞書作成処理が開始されると、辞書作成装置200は、ステップS100〜ステップS400までは同様の処理を行う。即ち、まず、辞書増殖部102が、辞書増殖処理を行い、カテゴリ別に単語を収集する(ステップS100)。そして、境界単語特定部103は、カテゴリ別収集単語記憶部109を参照して境界単語を特定する(ステップS200)。そして、カテゴリ帰属度算出部104は、境界単語のカテゴリ帰属度を算出する(ステップS300)。なお、この際、カテゴリ帰属度算出部104は、カテゴリ帰属度算出のために求めた境界単語がカテゴリ内のシード単語に到達するまでの到達距離を、そのカテゴリ名、および、シード単語と対応付けて図示せぬ記憶部等に保持しておく。続いて、カテゴリ更新部105は、カテゴリ帰属度に基づいて、境界単語が所属するカテゴリを判別し、判別結果が反映されるように、カテゴリ別収集単語記憶部109を更新する(ステップS400)。
続いて、単語削除部201は、境界単語のシード単語までの到達距離に基づいてカテゴリにふさわしくない単語を判別し、判別した単語をカテゴリ別収集単語記憶部109から削除する(ステップS450)。
ここで、具体例を用いて、単語削除部201の行う処理について説明する。前提として、上述した一連の処理(ステップS100〜ステップS300)により、図6に示すようにカテゴリ分類で各単語が収集され、ステップS400の処理により、境界単語「うどんI」、「うどんJ」がカテゴリ帰属度に基づいて適切なカテゴリ(うどん店)に分類され、最終的に図7に示すようなカテゴリ分類で各単語が収集されているものとする。
まず、うどん店カテゴリについて考える。図7を参照すると、うどん店カテゴリとして分類された境界単語「うどんI」、「うどんJ」が、うどん店カテゴリ内のシード単語「うどんC」、「うどんD」に到達する距離は最短で2であることが分かる。従って、これを基準として、単語削除部201は、シード単語への到達距離が2以内にある単語のみをうどん店カテゴリに残し、他の単語は削除する。図7に示すように、うどん店カテゴリ内の全単語はシード単語「うどんC」、「うどんD」への最短の到達距離が2以内であるため、うどん店カテゴリについては、単語削除部201による単語の削除処理は実施されない。
続いて、レストランカテゴリについて考える。図7を参照すると、レストランカテゴリから除外された境界単語「うどんI」、「うどんJ」が、レストランカテゴリ内のシード単語「レストランS」、「レストランT」に到達する距離は最短で2であることが分かる。従って、これを基準として、単語削除部201は、シード単語への到達距離が2以上にある単語を、レストランカテゴリから除外する。図7に示すように、レストランカテゴリ内の全単語のうちシード単語「レストランS」、「レストランT」への最短の到達距離が2以上である単語は「レストランE」である。従って、単語削除部201は、カテゴリ別収集単語記憶部109にレストランカテゴリとして登録されている「レストランE」のレコードを削除する。
図9に戻り、続いて、出力部106は、第1実施形態と同様に、カテゴリ別収集単語記憶部109を参照して、収集された単語を、カテゴリに分類して出力(表示)する(ステップS500)。例えば、前述した例の場合、出力部106は、「レストランカテゴリ{レストランA、レストランB、レストランS、レストランT、レストランW、レストランX、レストランZ}、うどん店カテゴリ{うどんC、うどんD、うどんG、うどんH、うどんI、うどんJ}」等と出力する。以上で、辞書作成処理は終了する。
このように、本実施形態では、境界単語を基準として、そのシード単語までの到達距離に基づいてカテゴリに属するのに適した単語を判別する。従って、カテゴリにふさわしくない単語を、適切な基準で容易に削除することができる。
(第3実施形態)
第1実施形態、及び第2実施形態では、辞書増殖処理で複数のカテゴリに分類された境界単語について、カテゴリ毎にカテゴリ帰属度を算出して最適なカテゴリを特定した。本実施形態では、収集した単語をその入出力関係に基づいてクラスタに分類し、境界単語を含むクラスタ(境界クラスタ)に対して、カテゴリ帰属度を算出して、最適なカテゴリを特定することを特徴とする。
第3実施形態に係る辞書作成装置300は、図10に示すように、第1実施形態の辞書作成装置100に、クラスタリング部301が新たに追加された構成である。なお、下記及び図面では、第1実施形態と同様のものについては、同一の符号を付す。また、第1実施形態と同様の構成要素の詳細な説明は、上記第1実施形態の説明に準じ、詳細な説明を省略する。
クラスタリング部301は、収集過程記憶部108に記憶されている情報に基づいて、辞書増殖部102が収集した単語を複数のクラスタに分類(クラスタリング)する。クラスタリング部301の行う処理の詳細については後述する。
また、本実施形態では、カテゴリ帰属度算出部104は、収集過程記憶部108とカテゴリ別収集単語記憶部109とに記憶されている情報に基づいて、境界単語を含むクラスタ(以下、境界クラスタとする)が、どの程度カテゴリに属している単語から構成されているかの度合いを示すカテゴリ帰属度を算出する。
具体的には、カテゴリ帰属度算出部104は、境界クラスタ内の単語それぞれについてカテゴリ帰属度を算出し、その平均値を境界クラスタのカテゴリ帰属度として算出する。なお、境界クラスタ内の単語のカテゴリ帰属度の最小値を境界クラスタのカテゴリ帰属度としてもよい。
また、本実施形態では図11に示すように、カテゴリ別収集単語記憶部109には、クラスタリング部301によって分類されたクラスタを特定するクラスタ名が、当該クラスタに属する単語と対応付けられて記憶される。
なお、その他の各部(入力部101、辞書増殖部102、境界単語特定部103、カテゴリ更新部105、出力部106、文書記憶部107、収集過程記憶部108)は、第1実施形態と同様の処理を行うため、ここでは説明を省略する。
続いて、辞書作成装置300で実施される処理の動作について説明する。
第1実施形態と同様の指示操作に応じて、辞書作成装置300は、図12に示す辞書作成処理を行う。
辞書作成処理が開始されると、まず、辞書増殖部102は、第1実施形態と同様に、辞書増殖処理を行い、カテゴリ別に単語を収集する(ステップS100)。
続いて、クラスタリング部301は、辞書増殖処理によって収集された単語をクラスタに分類するクラスタリング処理を行う(ステップS150)。
図13は、クラスタリング処理(ステップS150)の詳細を示すフローチャートである。クラスタリング処理が開始されると、まず、クラスタリング部301は、カテゴリ別収集単語記憶部109から、未だ単語間の結束度を算出していない2つの単語を選択する(ステップS151)。
続いて、クラスタリング部301は、選択した2つの単語間の結束度を、収集過程記憶部108に記憶されている情報に基づいて算出する(ステップS152)。
なお、単語間の結束度とは、上述した辞書増殖処理において、共通の単語を入力にする単語同士、又は共通の単語を出力する単語同士ほど、その値が大きくなる指標のことである。例えば、2つの単語それぞれに入力される単語のうち共通の単語から2つの単語に入力される単語の割合と、2つの単語それぞれが出力する単語のうち2つの単語が共通の単語を出力する単語の割合と、の和を2つの単語間の結束度として算出することができる。
より具体的には、2つの単語a,b間の結束度をSim(a,b)とすると、以下の式により、結束度を算出することができる。
Sim(a,b)=Sim_in(a,b)+sim_out(a,b)
上式において、Sim_in(a,b)は、単語a,bそれぞれに入力される単語のうち共通の単語から入力される単語の割合を示す値である。Sim_in(a,b)=(単語aと単語bの両方に入力される共通の単語の数)/((単語aに入力される単語の数)+(単語bに入力される単語の数))と求めることができる。
また、Sim_out(a,b)は、2つの単語a,bそれぞれが出力する単語のうち共通の単語を出力する単語の割合を示す値である。Sim_out(a,b)=(単語aと単語bの両方から主力された共通の単語の数)/((単語aが出力した単語の数)+(単語bが出力した単語の数))と求めることができる。
続いて、クラスタリング部301は、カテゴリ別収集単語記憶部109に記憶されている単語の全ての組で、結束度を算出したか否かを判別する(ステップS153)。
全ての単語の組で結束度を算出していない場合(ステップS153;No)、クラスタリング部301は、結束度未算出の2つのシード単語を選択して結束度を算出する処理(ステップS151、ステップS152)を繰り返す。
シード単語の全ての組で結束度を算出した場合(ステップS153;Yes)、クラスタリング部301は、算出した結束度を類似度として、最短距離法、最長距離法、および、群平均法などの公知のクラスタリング手法を用いてクラスタリングを行い、カテゴリ別収集単語記憶部109に記憶されている単語を複数のクラスタに分類する(ステップS154)。
そして、クラスタリング部301は、クラスタリングした結果を記録する(ステップS155)。具体的には、クラスタリング部301は、カテゴリ別収集単語記憶部109に記憶されている各単語に、クラスタに分類した結果が反映されるようにクラスタ名を付与する。以上でクラスタリング処理は終了する。
このように、クラスタリング処理により、収集された単語間の結束度が算出され、算出された結束度に基づいて、収集された単語が複数のクラスタに分類される。
ここで、上述したクラスタリング処理について、具体例を挙げて説明する。図14は、図2に示す情報が収集過程記憶部108に記憶されている場合の、「レストランA」、「レストランB」、「うどんI」、及び「うどんJ」の各単語の入出力の関係をグラフで示した図である。図14において、各単語はノードで表され、入力単語から出力単語の方向にアーク(矢印)で結ばれる。また、シード単語は網掛けで示している。
ここで、「レストランA」と「レストランB」との間の結束度Sim(A,B)を算出する場合を考える。
「レストランA」に入力される単語は「レストランX」と「レストランS」であり、「レストランB」に入力される単語は「レストランS」である。そして、このうち、「レストランS」が、「レストランA」と「レストランB」の両方に入力される。したがって、Sim_in(A,B)は、1/3となる。また、「レストランA」が出力する単語は「レストランE」と「レストランT」であり、「レストランB」が出力する単語は「レストランT」である。そして、このうち、「レストランT」が、「レストランA」と「レストランB」の両方から出力される。したがって、Sim_out(A,B)は、1/3となる。したがって、結束度Sim(A,B)=Sim_in(A,B)+Sim_out(A,B)=1/3+1/3=2/3と算出される。
同様に、他の単語間の結束度についても、以下のように算出される。
レストランAとうどんIとの間の結束度:Sim(A,I)=Sim_in(A,I)+Sim_out(A,I)=0+0=0
レストランAとうどんJとの間の結束度:Sim(A,J)=Sim_in(A,J)+Sim_out(A,J)=0+0=0
レストランBとうどんIとの間の結束度:Sim(B,I)=Sim_in(B,I)+Sim_out(B,I)=0+0=0
レストランBとうどんJとの間の結束度:Sim(B,J)=Sim_in(B,J)+Sim_out(B,J)=0+0=0
うどんIとうどんJとの間の結束度:Sim(I,J)=Sim_in(I,J)+Sim_out(I,J)=4/8+0=1/2
そして、これらの単語間の結束度を類似度として、公知のクラスタリングの手法を用いたクラスタリングがなされる。例えば、この結束度から、クラスタ1{レストランA,レストランB}、クラスタ2{うどんI,うどんJ}の2つのクラスタが形成され、図11に示すように、カテゴリ別収集単語記憶部109に記憶されているこれらの単語に、クラスタ名が付与される。
図12に戻り、続いて、境界単語特定部103は、第1実施形態と同様に、カテゴリ別収集単語記憶部109を参照して境界単語を特定する(ステップS200)。上述した例では、第1実施形態と同様に、「うどんI」と「うどんJ」が境界単語として特定される。
続いて、カテゴリ帰属度算出部104は、境界単語が所属する境界クラスタのカテゴリ帰属度を算出する(ステップS300)。
ここで、上述した例における、境界クラスタのカテゴリ帰属度の算出について詳細に説明する。なお、上述した例では、が境界単語は「うどんI」「うどんJ」であるため、これらの単語が含まれるクラスタ2が境界クラスタとなる。
まず、カテゴリ帰属度算出部104は、境界クラスタ(クラスタ2)内の各単語「うどんI」「うどんJ」それぞれのカテゴリ帰属度を、第1実施形態と同様の手法で算出する。即ち、カテゴリ帰属度は、カテゴリ密集度と到達距離との積の逆数として算出することができる。従って、単語Aのαカテゴリに対するカテゴリ帰属度をカテゴリ帰属度(A,α)とすると、境界クラスタ内の各単語のカテゴリ帰属度は以下のように算出される。
カテゴリ帰属度(「うどんI」、レストラン)=0.69
カテゴリ帰属度(「うどんI」、うどん店)=0.75
カテゴリ帰属度(「うどんJ」、レストラン)=0.69
カテゴリ帰属度(「うどんJ」、うどん店)=0.75
続いて、カテゴリ帰属度算出部104は、各単語で求めたカテゴリ帰属度のカテゴリ別の平均値(又は最小値)を境界クラスタのカテゴリ帰属度として算出する。従って、クラスタ2のカテゴリ帰属度は以下のように求まる。
クラスタ2のレストランカテゴリに対するカテゴリ帰属度:0.69
クラスタ2のうどん店カテゴリに対するカテゴリ帰属度:0.75
続いて、カテゴリ更新部105は、算出された境界クラスタのカテゴリ帰属度に基づいて、境界クラスタ内の単語が所属するカテゴリを判別する。そして、カテゴリ更新部105は、判別結果が反映されるように、カテゴリ別収集単語記憶部109を更新する(ステップS400)。
例えば、前述した例では、境界クラスタであるクラスタ2について、うどん店カテゴリに対するカテゴリ帰属度(0.75)の方が、レストランカテゴリに対するカテゴリ帰属度(0.69)よりも大きいことが分かる。即ち、クラスタ2内の単語「うどんI」「うどんJ」は、うどん店カテゴリにより帰属していることとなる。従って、この場合、カテゴリ更新部105は、カテゴリ別収集単語記憶部109にレストランカテゴリとして登録されているクラスタ2内の単語「うどんI」「うどんJ」のレコードを削除する。
続いて、出力部106は、第1実施形態と同様に、カテゴリ別収集単語記憶部109を参照して、収集され、カテゴリに分類された単語を、それらの情報を関連付けて出力(表示)する(ステップS500)。なお、出力部106は、ステップS150で分類されたクラスタのクラスタ名を単語に付して出力してもよい。
このように、本実施形態では、収集した単語をクラスタリングする。そして、境界クラスタに対してカテゴリ帰属度を算出し、カテゴリ帰属度に基づいて、境界クラスタ内の単語を適切なカテゴリに分類することができる。
なお、上記各実施形態は種々の変形、および、応用が可能である。
例えば、上記各実施形態では、文書記憶部107に記憶されている文書から単語を抽出したが、これに限らず、例えば、インターネット検索エンジンを用いて、インターネット上のWebページから、単語を抽出してもよい。
また、上記各実施形態では、カテゴリ密集度と到達距離との積の逆数をカテゴリ帰属度として求めたが、あくまで一例であり、他の算出式を用いてカテゴリ帰属度を算出してもよい。例えば、カテゴリ密集度の逆数と到達距離の逆数との和をカテゴリ帰属度として算出してもよい。また、カテゴリ密集度と到達距離それぞれに所定の重み付け係数を掛けた値から、カテゴリ帰属度を算出してもよい。また、カテゴリ密集度は算出しないで、到達距離のみからカテゴリ帰属度を算出してもよい。
また、上記各実施形態では、カテゴリ密集度を、カテゴリ内の各単語のシード単語までの到達距離の平均値の逆数として算出した。しかしこれに限らず、例えば、収集過程記憶部108を参照して、カテゴリ内の単語のうち入出力関係のある組み合わせの数を、カテゴリ内の全単語の組み合わせの数で割った値(ネットワーク密度)をカテゴリ密集度としてもよい。
図15は、本発明の各実施形態に係る辞書作成装置100,200,300をコンピュータに実装する場合の、物理的な構成の一例を示すブロック図である。本発明の各実施形態に係る辞書作成装置100,200,300は、一般的なコンピュータ装置と同様のハードウェア構成によって実現することができる。辞書作成装置100,200,300は、制御部21、主記憶部22、外部記憶部23、操作部24、表示部25および入出力部26を備える。主記憶部22、外部記憶部23、操作部24、表示部25および入出力部26はいずれも内部バス20を介して制御部21に接続されている。
制御部21はCPU(Central Processing Unit)等から構成され、外部記憶部23に記憶されている制御プログラム30に従って、前述した各実施形態における辞書作成処理を実行する。
主記憶部22はRAM(Random-Access Memory)等から構成され、外部記憶部23に記憶されている制御プログラム30をロードし、制御部21の作業領域として用いられる。
外部記憶部23は、フラッシュメモリ、ハードディスク、DVD-RAM(Digital Versatile Disc Random-Access Memory)、DVD-RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成され、上述の処理を制御部21に行わせるための制御プログラム30を予め記憶する。また、外部記憶部23は、制御部21の指示に従って、この制御プログラム30が記憶するデータを制御部21に供給し、制御部21から供給されたデータを記憶する。また、外部記憶部23は、上述した各実施形態における文書記憶部107、収集過程記憶部108、および、カテゴリ別収集単語記憶部109を物理的に実現する。
操作部24はキーボードおよびマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス20に接続するインターフェース装置等から構成されている。操作部24を介して、シード単語や辞書作成処理の開始の指示が制御部21に供給される。
表示部25は、CRT(Cathode Ray Tube)またはLCD(Liquid Crystal Display)などから構成され、種々の情報を表示する。例えば、表示部25は、収集された各単語を、所属するカテゴリ名を付して表示する。
入出力部26は、無線送受信機、無線モデムまたは網終端装置、およびそれらと接続するシリアルインタフェースまたはLAN(Local Area Network)インタフェース等から構成されている。例えば、入出力部26を介して、インターネット上のWebページから単語を収集してもよい。
図1、図8、および図10に示す辞書作成装置100,200,300の辞書増殖部102、境界単語特定部103、カテゴリ帰属度算出部104、カテゴリ更新部105、出力部106、単語削除部201、および、クラスタリング部301の処理は、制御プログラム30が、制御部21、主記憶部22、外部記憶部23、操作部24、表示部25および入出力部26などを資源として用いて処理することによって実行する。
なお、前記のハードウエェア構成やフローチャートは一例であり、任意に変更および修正が可能である。
また、制御部21、主記憶部22、外部記憶部23、操作部24、入出力部26および内部バス20などから構成される辞書作成装置100,200,300の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD-ROM、DVD-ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する辞書作成装置100,200,300を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで辞書作成装置100,200,300を構成してもよい。
また、辞書作成装置100,200,300の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
本発明は2009年12月11日に出願された日本国特許出願2009−282305号に基づく。本明細書中に日本国特許出願2009−282305号の明細書、特許請求の範囲、図面全体を参照として取り込むものとする。
100 辞書作成装置
101 入力部
102 辞書増殖部
103 境界単語特定部
104 カテゴリ帰属度算出部
105 カテゴリ更新部
106 出力部
107 文書記憶部
108 収集過程記憶部
109 カテゴリ別収集単語記憶部
本発明は、辞書作成装置、単語収集方法、及び、プログラムに関する。
本発明は、上記実情に鑑みてなされたものであり、複数カテゴリを対象として同種の単語を辞書増殖処理で収集した場合でも、収集した単語を適切にカテゴリに分類することを可能にした、辞書作成装置、単語収集方法、及び、プログラムを提供することを目的とする。
上記目的を達成するため、本発明の第1の観点に係る辞書作成装置は、
カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段と、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶手段と、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定手段と、
前記入出力過程記録手段に記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を、該境界単語が該カテゴリの入力単語となる場合又は該境界単語が該カテゴリの出力単語となる場合に値が高くなるように算出するカテゴリ帰属度算出手段と、
前記カテゴリ帰属度算出手段が算出したカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶手段に記憶されている情報を更新するカテゴリ更新手段と、
を備えることを特徴とする。
また、本発明の第2の観点に係る単語収集方法は、
カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録ステップと、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶ステップと、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定ステップと、
前記入出力過程記録ステップで記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を、該境界単語が該カテゴリの入力単語となる場合又は該境界単語が該カテゴリの出力単語となる場合に値が高くなるように算出するカテゴリ帰属度算出ステップと、
前記カテゴリ帰属度算出ステップで算出されたカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶ステップに記憶されている情報を更新するカテゴリ更新ステップと、
を備えることを特徴とする。
また、本発明の第3の観点に係るプログラムは、
コンピュータを、
カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶手段、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定手段、
前記入出力過程記録手段に記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を、該境界単語が該カテゴリの入力単語となる場合又は該境界単語が該カテゴリの出力単語となる場合に値が高くなるように算出するカテゴリ帰属度算出手段、
前記カテゴリ帰属度算出手段で算出されたカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶手段に記憶されている情報を更新するカテゴリ更新手段、
として機能させるプログラムである。

Claims (13)

  1. カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段と、
    前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶手段と、
    前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定手段と、
    前記入出力過程記録手段に記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を算出するカテゴリ帰属度算出手段と、
    前記カテゴリ帰属度算出手段が算出したカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶手段に記憶されている情報を更新するカテゴリ更新手段と、
    を備えることを特徴とする辞書作成装置。
  2. カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖手段をさらに備える、
    ことを特徴とする請求項1に記載の辞書作成装置。
  3. 前記入出力過程記録手段は、複数回の入出力を繰り返した、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する、
    ことを特徴とする請求項1又は2に記載の辞書作成装置。
  4. 前記カテゴリ帰属度算出手段は、前記境界単語が所属するカテゴリ内の前記辞書増殖処理における初回の入力単語が入出力を繰り返して該境界単語に到達するまでの最短の到達距離に基づいて、該境界単語の該カテゴリに対するカテゴリ帰属度を算出する、
    ことを特徴とする請求項1乃至3の何れか1項に記載の辞書作成装置。
  5. 前記カテゴリ帰属度算出手段は、前記境界単語が所属するカテゴリ内の単語の結びつきの度合いを示すカテゴリ密集度に基づいて、該境界単語の該カテゴリに対するカテゴリ帰属度を算出する、
    ことを特徴とする請求項4に記載の辞書作成装置。
  6. 前記カテゴリ帰属度算出手段は、前記境界単語が所属するカテゴリ内の前記辞書増殖処理における初回の入力単語が入出力を繰り返して当該カテゴリ内の各単語に到達するまでの最短の到達距離の平均値に基づいて、前記カテゴリ密集度を求める、
    ことを特徴とする請求項5に記載の辞書作成装置。
  7. 前記カテゴリ帰属度算出手段は、前記境界単語が所属するカテゴリ内の単語に対する入出力関係のある単語の割合に基づいて、前記カテゴリ密集度を求める、
    ことを特徴とする請求項5に記載の辞書作成装置。
  8. 前記カテゴリ更新手段が前記境界単語が所属すると判別したカテゴリについて、当該カテゴリ内の前記辞書増殖処理における初回の入力単語が入出力を繰り返して該境界単語に到達するまでの最短の到達距離を採用距離とし、該カテゴリ内の単語のうち該採用距離以内の単語のみが該カテゴリ内の単語となるように、前記カテゴリ別収集単語記憶手段を更新する手段をさらに備える、
    ことを特徴とする、請求項1乃至7の何れか1項に記載の辞書作成装置。
  9. 前記カテゴリ更新手段が前記境界単語が所属しないと判別したカテゴリについて、当該カテゴリ内の前記辞書増殖処理における初回の入力単語が入出力を繰り返して該境界単語に到達するまでの最短の到達距離を不採用距離とし、該カテゴリ内の単語のうち該不採用距離以上の単語は該カテゴリ内の単語から除外するように、前記カテゴリ別収集単語記憶手段を更新する手段をさらに備える、
    ことを特徴とする、請求項1乃至8の何れか1項に記載の辞書作成装置。
  10. 前記入出力過程記録手段に記録された情報に基づいて、前記辞書増殖処理で収集された単語をクラスタに分類するクラスタ分類手段をさらに備え、
    前記カテゴリ帰属度算出手段は、前記境界単語が含まれる境界クラスタ内の各単語について前記カテゴリ帰属度を求め、その平均値又は最小値を該境界クラスタのカテゴリ帰属度とし、
    前記カテゴリ更新手段は、前記境界クラスタのカテゴリ帰属度に基づいて、該境界クラスタ内の単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶手段に記憶されている情報を更新する、
    ことを特徴とする、請求項1乃至9の何れか1項に記載の辞書作成装置。
  11. 前記クラスタ分類手段は、前記入出力過程記録手段に記録されている情報から、前記辞書増殖処理で収集した単語のうち共通の単語を入力にする単語同士、又は共通の単語を出力する単語同士ほどその値が大きくなる値を示す単語間の結束度を算出し、算出した結束度に基づいて、単語をクラスタに分類する、
    ことを特徴とする、請求項10に記載の辞書作成装置。
  12. カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録ステップと、
    前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶ステップと、
    前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定ステップと、
    前記入出力過程記録ステップで記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を算出するカテゴリ帰属度算出ステップと、
    前記カテゴリ帰属度算出ステップで算出されたカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶ステップに記憶されている情報を更新するカテゴリ更新ステップと、
    を備えることを特徴とする単語収集方法。
  13. コンピュータを、
    カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段、
    前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶手段、
    前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定手段、
    前記入出力過程記録手段に記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を算出するカテゴリ帰属度算出手段、
    前記カテゴリ帰属度算出手段で算出されたカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶手段に記憶されている情報を更新するカテゴリ更新手段、
    として機能させるプログラムを記録したコンピュータ読取可能な記録媒体。
JP2011545193A 2009-12-11 2010-12-03 辞書作成装置、単語収集方法、及び、プログラム Active JP5761029B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011545193A JP5761029B2 (ja) 2009-12-11 2010-12-03 辞書作成装置、単語収集方法、及び、プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009282305 2009-12-11
JP2009282305 2009-12-11
JP2011545193A JP5761029B2 (ja) 2009-12-11 2010-12-03 辞書作成装置、単語収集方法、及び、プログラム
PCT/JP2010/071695 WO2011070979A1 (ja) 2009-12-11 2010-12-03 辞書作成装置

Publications (2)

Publication Number Publication Date
JPWO2011070979A1 true JPWO2011070979A1 (ja) 2013-04-22
JP5761029B2 JP5761029B2 (ja) 2015-08-12

Family

ID=44145524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011545193A Active JP5761029B2 (ja) 2009-12-11 2010-12-03 辞書作成装置、単語収集方法、及び、プログラム

Country Status (3)

Country Link
US (1) US9600468B2 (ja)
JP (1) JP5761029B2 (ja)
WO (1) WO2011070979A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3030981A4 (en) 2013-08-09 2016-09-07 Behavioral Recognition Sys Inc SYSTEM FOR DETECTING A COGNITIVE NEUROLINGUISTIC BEHAVIOR FOR FUSING DATA OF MULTIPLE SENSORS
US10467290B1 (en) * 2015-12-29 2019-11-05 Amazon Technologies, Inc. Generating and refining a knowledge graph
EP3507721B1 (en) 2016-09-02 2022-11-23 FutureVault Inc. Real-time document filtering systems and methods
US11379669B2 (en) * 2019-07-29 2022-07-05 International Business Machines Corporation Identifying ambiguity in semantic resources

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020099730A1 (en) * 2000-05-12 2002-07-25 Applied Psychology Research Limited Automatic text classification system
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
JP3847273B2 (ja) 2003-05-12 2006-11-22 沖電気工業株式会社 単語分類装置、単語分類方法及び単語分類プログラム
US7022907B2 (en) * 2004-03-25 2006-04-04 Microsoft Corporation Automatic music mood detection
WO2006121051A1 (ja) * 2005-05-09 2006-11-16 Justsystems Corporation 文書処理装置および文書処理方法
US8204837B2 (en) 2006-01-06 2012-06-19 Sony Corporation Information processing apparatus and method, and program for providing information suitable for a predetermined mood of a user
JP4893940B2 (ja) * 2006-01-06 2012-03-07 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP4891638B2 (ja) 2006-03-16 2012-03-07 ヤフー株式会社 目的データをカテゴリに分類する方法
JP2007304950A (ja) 2006-05-12 2007-11-22 Just Syst Corp 文書処理装置および文書処理方法
JP5283208B2 (ja) * 2007-08-21 2013-09-04 国立大学法人 東京大学 情報検索システム及び方法及びプログラム並びに情報検索サービス提供方法

Also Published As

Publication number Publication date
JP5761029B2 (ja) 2015-08-12
US9600468B2 (en) 2017-03-21
WO2011070979A1 (ja) 2011-06-16
US20120310944A1 (en) 2012-12-06

Similar Documents

Publication Publication Date Title
JP5708495B2 (ja) 辞書作成装置、単語収集方法、及び、プログラム
JP5054593B2 (ja) 情報検索装置及びプログラム
JP5092165B2 (ja) データ構築方法とシステム
JP4322887B2 (ja) スレッド順位付け装置及び方法
JP7103496B2 (ja) 関連スコア算出システム、方法およびプログラム
CN103534696A (zh) 针对口语语言理解中的域检测利用查询点击记录
JP5761029B2 (ja) 辞書作成装置、単語収集方法、及び、プログラム
JP6079270B2 (ja) 情報提供装置
CN110968802B (zh) 一种用户特征的分析方法、分析装置及可读存储介质
KR100932843B1 (ko) 검색결과간의 연관도에 기초하여 클러스터링된 검색결과를제공하는 방법 및 시스템 그리고 검색결과를클러스터링하는 방법 및 시스템
Ashraf et al. WeFreS: weighted frequent subgraph mining in a single large graph
CN107402886B (zh) 堆栈分析方法及相关装置
CN110705889A (zh) 一种企业筛选方法、装置、设备及存储介质
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
KR101035037B1 (ko) 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
JP5555238B2 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
KR101818716B1 (ko) 컨셉 키워드 확장 데이터 셋 생성방법, 장치 및 컴퓨터로 판독 가능한 기록매체
JP2011154469A (ja) パターン抽出装置、パターン抽出方法及びプログラム
CN113868481A (zh) 组件获取方法、装置及电子设备和存储介质
JP6123372B2 (ja) 情報処理システム、名寄せ判定方法及びプログラム
CN111694929B (zh) 基于数据图谱的搜索方法、智能终端和可读存储介质
JP2019125025A (ja) システム、文書データの管理方法、及びプログラム
JP4222166B2 (ja) 文書収集装置、文書検索装置及び文書収集検索システム
JP5903372B2 (ja) キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム
JP2020187644A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150512

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150525

R150 Certificate of patent or registration of utility model

Ref document number: 5761029

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150