JPWO2011070979A1 - 辞書作成装置、単語収集方法、及び、プログラム - Google Patents
辞書作成装置、単語収集方法、及び、プログラム Download PDFInfo
- Publication number
- JPWO2011070979A1 JPWO2011070979A1 JP2011545193A JP2011545193A JPWO2011070979A1 JP WO2011070979 A1 JPWO2011070979 A1 JP WO2011070979A1 JP 2011545193 A JP2011545193 A JP 2011545193A JP 2011545193 A JP2011545193 A JP 2011545193A JP WO2011070979 A1 JPWO2011070979 A1 JP WO2011070979A1
- Authority
- JP
- Japan
- Prior art keywords
- category
- word
- words
- input
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段と、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶手段と、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定手段と、
前記入出力過程記録手段に記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を算出するカテゴリ帰属度算出手段と、
前記カテゴリ帰属度算出手段が算出したカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶手段に記憶されている情報を更新するカテゴリ更新手段と、
を備えることを特徴とする。
また、本発明の第2の観点に係る単語収集方法は、
カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録ステップと、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶ステップと、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定ステップと、
前記入出力過程記録ステップで記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を算出するカテゴリ帰属度算出ステップと、
前記カテゴリ帰属度算出ステップで算出されたカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶ステップに記憶されている情報を更新するカテゴリ更新ステップと、
を備えることを特徴とする。
また、本発明の第3の観点に係る記録媒体は、
コンピュータを、
カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶手段、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定手段、
前記入出力過程記録手段に記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を算出するカテゴリ帰属度算出手段、
前記カテゴリ帰属度算出手段で算出されたカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶手段に記憶されている情報を更新するカテゴリ更新手段、
として機能させるプログラムを記録したコンピュータ読取可能な記録媒体である。
また、本発明で辞書とは、共通の上位概念を持つ同種の単語の集合のことである。
本発明の第1実施形態に係る辞書作成装置100について説明する。辞書作成装置100は、図1に示すように、入力部101と、辞書増殖部102と、境界単語特定部103と、カテゴリ帰属度算出部104と、カテゴリ更新部105と、出力部106と、文書記憶部107と、収集過程記憶部108と、カテゴリ別収集単語記憶部109とを備える。
例えば、図2の先頭のエントリから、辞書増殖処理の1ターン目に、「レストランS」から作成されたパターンにより「レストランX」が抽出されたことがわかる。
例えば、図3から、「レストランS」、「レストランT」、「レストランZ」、「レストランW」、「レストランA」、「レストランB」、「レストランX」、「レストランE」、「うどんI」、及び「うどんJ」は、レストランカテゴリに属する単語であることがわかる。また、「うどんC」、「うどんD」、「うどんG」、「うどんH」、「うどんI」、及び「うどんJ」は、うどん店カテゴリに属する単語であることがわかる。また、「うどんI」と「うどんJ」は、レストランカテゴリとうどん店カテゴリの両方に属する境界単語であることがわかる。
ユーザは、入力部101を操作して、複数のカテゴリ(カテゴリ名)、及び、各カテゴリ毎に1乃至複数のシード単語を入力する。そして、ユーザは、入力したシード単語を元に、カテゴリ毎に同種の単語の集合である辞書を作成することを指示する。この指示操作に応じて、辞書作成装置100は、図4に示す辞書作成処理を行う。
例えば、単語Aから作成したパターンに合致する単語として単語Bが抽出された場合、この単語Bは、単語Aが属するカテゴリと同じカテゴリ名が付されて、カテゴリ別収集単語記憶部109に記憶される。
終了条件を満たしていると判別した場合(ステップS109;Yes)、辞書増殖部102は、辞書増殖処理を終了し処理を境界単語特定部103に移す。
図6は、辞書増殖処理の結果として、図2、図3に示す情報が収集過程記憶部108、及びカテゴリ別収集単語記憶部109に記憶されている場合の、単語間の入出力の関係をグラフで示した図である。図6において、各単語はノードで表され、入力単語から出力単語の方向にアーク(矢印)で結ばれる。例えば、単語「レストランB」は、「レストランS」から作成されたパターンにより抽出されたことがわかる。また、単語「レストランB」から作成されたパターンにより「レストランT」が抽出されたことがわかる。また、図6では、1ターン目の入力単語であるシード単語「レストランS」、「レストランT」、「うどんC」、及び「うどんD」を網掛けで示している。また、レストランカテゴリ、および、うどん店カテゴリに属する単語を、それぞれ点線で囲んで示している。また、この図より、両方のカテゴリに属する単語「うどんI」、「うどんJ」が境界単語であることがわかる。以下、この場合における、境界単語「うどんI」について、カテゴリ帰属度を算出する例を説明する。
また、レストランカテゴリ内の各単語がシード単語「レストランS」又は「レストランT」に到達するまでの最短の距離(ターン数)は、「レストランA」「レストランB」「レストランX」「レストランZ」「レストランW」は1、「レストランE」「うどんI」「うどんJ」は2である。従って、これらを平均すると11/8となり、この逆数8/11をレストランカテゴリのカテゴリ密集度とする。そして、カテゴリ密集度と到達距離との積の逆数をカテゴリ帰属度として算出する。即ち、「うどんI」のレストランカテゴリに対するカテゴリ帰属度は、0.69となる。
また、うどん店カテゴリ内の各単語がシード単語「うどんC」又は「うどんD」に到達するまでの最短の距離(ターン数)は、「うどんG」「うどんH」は1、「うどんI」「うどんJ」は2である。従って、これらの平均は6/4となり、この逆数4/6をうどん店カテゴリのカテゴリ密集度とする。そして、カテゴリ密集度と到達距離との積の逆数をカテゴリ帰属度として算出する。即ち、「うどんI」のうどん店カテゴリに対するカテゴリ帰属度は、0.75となる。
また、もう一方の境界単語「うどんJ」についても、同様の手法で算出されたカテゴリ帰属度により、うどん店カテゴリに帰属することが判別される。従って、カテゴリ更新部105は、カテゴリ別収集単語記憶部109にレストランカテゴリとして登録されている「うどんJ」のレコードを削除する。
そして、最終的には、図7に示すように、各単語は適切なカテゴリに分類される。
一般的に、カテゴリ内の単語のうち、シード単語に到達するまでの到達距離(入出力の回数)が離れている(多い)単語ほど、シード単語と類似する精度が悪化することが知られている。従って、そのような単語はそのカテゴリにふさわしくない単語であるといえ、そのカテゴリから削除することが望ましい。しかしながら、どの程度シード単語から離れていればその単語がカテゴリにふさわしくないのかを判断することは、適切な基準がなく困難であった。本実施形態では、境界単語を利用して、そのようなカテゴリにふさわしくない単語を、適切な基準で容易に削除することを可能にしたことを特徴とする。
第1実施形態と同様の指示操作に応じて、辞書作成装置200は、図9に示す辞書作成処理を行う。
第1実施形態、及び第2実施形態では、辞書増殖処理で複数のカテゴリに分類された境界単語について、カテゴリ毎にカテゴリ帰属度を算出して最適なカテゴリを特定した。本実施形態では、収集した単語をその入出力関係に基づいてクラスタに分類し、境界単語を含むクラスタ(境界クラスタ)に対して、カテゴリ帰属度を算出して、最適なカテゴリを特定することを特徴とする。
具体的には、カテゴリ帰属度算出部104は、境界クラスタ内の単語それぞれについてカテゴリ帰属度を算出し、その平均値を境界クラスタのカテゴリ帰属度として算出する。なお、境界クラスタ内の単語のカテゴリ帰属度の最小値を境界クラスタのカテゴリ帰属度としてもよい。
第1実施形態と同様の指示操作に応じて、辞書作成装置300は、図12に示す辞書作成処理を行う。
Sim(a,b)=Sim_in(a,b)+sim_out(a,b)
また、Sim_out(a,b)は、2つの単語a,bそれぞれが出力する単語のうち共通の単語を出力する単語の割合を示す値である。Sim_out(a,b)=(単語aと単語bの両方から主力された共通の単語の数)/((単語aが出力した単語の数)+(単語bが出力した単語の数))と求めることができる。
そして、クラスタリング部301は、クラスタリングした結果を記録する(ステップS155)。具体的には、クラスタリング部301は、カテゴリ別収集単語記憶部109に記憶されている各単語に、クラスタに分類した結果が反映されるようにクラスタ名を付与する。以上でクラスタリング処理は終了する。
「レストランA」に入力される単語は「レストランX」と「レストランS」であり、「レストランB」に入力される単語は「レストランS」である。そして、このうち、「レストランS」が、「レストランA」と「レストランB」の両方に入力される。したがって、Sim_in(A,B)は、1/3となる。また、「レストランA」が出力する単語は「レストランE」と「レストランT」であり、「レストランB」が出力する単語は「レストランT」である。そして、このうち、「レストランT」が、「レストランA」と「レストランB」の両方から出力される。したがって、Sim_out(A,B)は、1/3となる。したがって、結束度Sim(A,B)=Sim_in(A,B)+Sim_out(A,B)=1/3+1/3=2/3と算出される。
レストランAとうどんIとの間の結束度:Sim(A,I)=Sim_in(A,I)+Sim_out(A,I)=0+0=0
レストランAとうどんJとの間の結束度:Sim(A,J)=Sim_in(A,J)+Sim_out(A,J)=0+0=0
レストランBとうどんIとの間の結束度:Sim(B,I)=Sim_in(B,I)+Sim_out(B,I)=0+0=0
レストランBとうどんJとの間の結束度:Sim(B,J)=Sim_in(B,J)+Sim_out(B,J)=0+0=0
うどんIとうどんJとの間の結束度:Sim(I,J)=Sim_in(I,J)+Sim_out(I,J)=4/8+0=1/2
カテゴリ帰属度(「うどんI」、レストラン)=0.69
カテゴリ帰属度(「うどんI」、うどん店)=0.75
カテゴリ帰属度(「うどんJ」、レストラン)=0.69
カテゴリ帰属度(「うどんJ」、うどん店)=0.75
クラスタ2のレストランカテゴリに対するカテゴリ帰属度:0.69
クラスタ2のうどん店カテゴリに対するカテゴリ帰属度:0.75
例えば、上記各実施形態では、文書記憶部107に記憶されている文書から単語を抽出したが、これに限らず、例えば、インターネット検索エンジンを用いて、インターネット上のWebページから、単語を抽出してもよい。
101 入力部
102 辞書増殖部
103 境界単語特定部
104 カテゴリ帰属度算出部
105 カテゴリ更新部
106 出力部
107 文書記憶部
108 収集過程記憶部
109 カテゴリ別収集単語記憶部
カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段と、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶手段と、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定手段と、
前記入出力過程記録手段に記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を、該境界単語が該カテゴリの入力単語となる場合又は該境界単語が該カテゴリの出力単語となる場合に値が高くなるように算出するカテゴリ帰属度算出手段と、
前記カテゴリ帰属度算出手段が算出したカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶手段に記憶されている情報を更新するカテゴリ更新手段と、
を備えることを特徴とする。
また、本発明の第2の観点に係る単語収集方法は、
カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録ステップと、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶ステップと、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定ステップと、
前記入出力過程記録ステップで記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を、該境界単語が該カテゴリの入力単語となる場合又は該境界単語が該カテゴリの出力単語となる場合に値が高くなるように算出するカテゴリ帰属度算出ステップと、
前記カテゴリ帰属度算出ステップで算出されたカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶ステップに記憶されている情報を更新するカテゴリ更新ステップと、
を備えることを特徴とする。
また、本発明の第3の観点に係るプログラムは、
コンピュータを、
カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶手段、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定手段、
前記入出力過程記録手段に記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を、該境界単語が該カテゴリの入力単語となる場合又は該境界単語が該カテゴリの出力単語となる場合に値が高くなるように算出するカテゴリ帰属度算出手段、
前記カテゴリ帰属度算出手段で算出されたカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶手段に記憶されている情報を更新するカテゴリ更新手段、
として機能させるプログラムである。
Claims (13)
- カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段と、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶手段と、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定手段と、
前記入出力過程記録手段に記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を算出するカテゴリ帰属度算出手段と、
前記カテゴリ帰属度算出手段が算出したカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶手段に記憶されている情報を更新するカテゴリ更新手段と、
を備えることを特徴とする辞書作成装置。 - カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖手段をさらに備える、
ことを特徴とする請求項1に記載の辞書作成装置。 - 前記入出力過程記録手段は、複数回の入出力を繰り返した、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する、
ことを特徴とする請求項1又は2に記載の辞書作成装置。 - 前記カテゴリ帰属度算出手段は、前記境界単語が所属するカテゴリ内の前記辞書増殖処理における初回の入力単語が入出力を繰り返して該境界単語に到達するまでの最短の到達距離に基づいて、該境界単語の該カテゴリに対するカテゴリ帰属度を算出する、
ことを特徴とする請求項1乃至3の何れか1項に記載の辞書作成装置。 - 前記カテゴリ帰属度算出手段は、前記境界単語が所属するカテゴリ内の単語の結びつきの度合いを示すカテゴリ密集度に基づいて、該境界単語の該カテゴリに対するカテゴリ帰属度を算出する、
ことを特徴とする請求項4に記載の辞書作成装置。 - 前記カテゴリ帰属度算出手段は、前記境界単語が所属するカテゴリ内の前記辞書増殖処理における初回の入力単語が入出力を繰り返して当該カテゴリ内の各単語に到達するまでの最短の到達距離の平均値に基づいて、前記カテゴリ密集度を求める、
ことを特徴とする請求項5に記載の辞書作成装置。 - 前記カテゴリ帰属度算出手段は、前記境界単語が所属するカテゴリ内の単語に対する入出力関係のある単語の割合に基づいて、前記カテゴリ密集度を求める、
ことを特徴とする請求項5に記載の辞書作成装置。 - 前記カテゴリ更新手段が前記境界単語が所属すると判別したカテゴリについて、当該カテゴリ内の前記辞書増殖処理における初回の入力単語が入出力を繰り返して該境界単語に到達するまでの最短の到達距離を採用距離とし、該カテゴリ内の単語のうち該採用距離以内の単語のみが該カテゴリ内の単語となるように、前記カテゴリ別収集単語記憶手段を更新する手段をさらに備える、
ことを特徴とする、請求項1乃至7の何れか1項に記載の辞書作成装置。 - 前記カテゴリ更新手段が前記境界単語が所属しないと判別したカテゴリについて、当該カテゴリ内の前記辞書増殖処理における初回の入力単語が入出力を繰り返して該境界単語に到達するまでの最短の到達距離を不採用距離とし、該カテゴリ内の単語のうち該不採用距離以上の単語は該カテゴリ内の単語から除外するように、前記カテゴリ別収集単語記憶手段を更新する手段をさらに備える、
ことを特徴とする、請求項1乃至8の何れか1項に記載の辞書作成装置。 - 前記入出力過程記録手段に記録された情報に基づいて、前記辞書増殖処理で収集された単語をクラスタに分類するクラスタ分類手段をさらに備え、
前記カテゴリ帰属度算出手段は、前記境界単語が含まれる境界クラスタ内の各単語について前記カテゴリ帰属度を求め、その平均値又は最小値を該境界クラスタのカテゴリ帰属度とし、
前記カテゴリ更新手段は、前記境界クラスタのカテゴリ帰属度に基づいて、該境界クラスタ内の単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶手段に記憶されている情報を更新する、
ことを特徴とする、請求項1乃至9の何れか1項に記載の辞書作成装置。 - 前記クラスタ分類手段は、前記入出力過程記録手段に記録されている情報から、前記辞書増殖処理で収集した単語のうち共通の単語を入力にする単語同士、又は共通の単語を出力する単語同士ほどその値が大きくなる値を示す単語間の結束度を算出し、算出した結束度に基づいて、単語をクラスタに分類する、
ことを特徴とする、請求項10に記載の辞書作成装置。 - カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録ステップと、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶ステップと、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定ステップと、
前記入出力過程記録ステップで記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を算出するカテゴリ帰属度算出ステップと、
前記カテゴリ帰属度算出ステップで算出されたカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶ステップに記憶されている情報を更新するカテゴリ更新ステップと、
を備えることを特徴とする単語収集方法。 - コンピュータを、
カテゴリ毎に単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで、カテゴリ毎に単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段、
前記辞書増殖処理で収集された単語をカテゴリ別に記憶するカテゴリ別収集単語記憶手段、
前記辞書増殖処理で収集された単語のうち、複数のカテゴリに所属する境界単語を特定する境界単語特定手段、
前記入出力過程記録手段に記録された情報に基づいて、前記境界単語が属するカテゴリ毎に、該境界単語が該カテゴリに属する度合いを示すカテゴリ帰属度を算出するカテゴリ帰属度算出手段、
前記カテゴリ帰属度算出手段で算出されたカテゴリ帰属度に基づいて前記境界単語が属するカテゴリを判別し、当該判別の結果が反映されるように前記カテゴリ別収集単語記憶手段に記憶されている情報を更新するカテゴリ更新手段、
として機能させるプログラムを記録したコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011545193A JP5761029B2 (ja) | 2009-12-11 | 2010-12-03 | 辞書作成装置、単語収集方法、及び、プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009282305 | 2009-12-11 | ||
JP2009282305 | 2009-12-11 | ||
JP2011545193A JP5761029B2 (ja) | 2009-12-11 | 2010-12-03 | 辞書作成装置、単語収集方法、及び、プログラム |
PCT/JP2010/071695 WO2011070979A1 (ja) | 2009-12-11 | 2010-12-03 | 辞書作成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011070979A1 true JPWO2011070979A1 (ja) | 2013-04-22 |
JP5761029B2 JP5761029B2 (ja) | 2015-08-12 |
Family
ID=44145524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011545193A Active JP5761029B2 (ja) | 2009-12-11 | 2010-12-03 | 辞書作成装置、単語収集方法、及び、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9600468B2 (ja) |
JP (1) | JP5761029B2 (ja) |
WO (1) | WO2011070979A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3030981A4 (en) | 2013-08-09 | 2016-09-07 | Behavioral Recognition Sys Inc | SYSTEM FOR DETECTING A COGNITIVE NEUROLINGUISTIC BEHAVIOR FOR FUSING DATA OF MULTIPLE SENSORS |
US10467290B1 (en) * | 2015-12-29 | 2019-11-05 | Amazon Technologies, Inc. | Generating and refining a knowledge graph |
EP3507721B1 (en) | 2016-09-02 | 2022-11-23 | FutureVault Inc. | Real-time document filtering systems and methods |
US11379669B2 (en) * | 2019-07-29 | 2022-07-05 | International Business Machines Corporation | Identifying ambiguity in semantic resources |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020099730A1 (en) * | 2000-05-12 | 2002-07-25 | Applied Psychology Research Limited | Automatic text classification system |
JP2003242176A (ja) * | 2001-12-13 | 2003-08-29 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP3847273B2 (ja) | 2003-05-12 | 2006-11-22 | 沖電気工業株式会社 | 単語分類装置、単語分類方法及び単語分類プログラム |
US7022907B2 (en) * | 2004-03-25 | 2006-04-04 | Microsoft Corporation | Automatic music mood detection |
WO2006121051A1 (ja) * | 2005-05-09 | 2006-11-16 | Justsystems Corporation | 文書処理装置および文書処理方法 |
US8204837B2 (en) | 2006-01-06 | 2012-06-19 | Sony Corporation | Information processing apparatus and method, and program for providing information suitable for a predetermined mood of a user |
JP4893940B2 (ja) * | 2006-01-06 | 2012-03-07 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
JP4891638B2 (ja) | 2006-03-16 | 2012-03-07 | ヤフー株式会社 | 目的データをカテゴリに分類する方法 |
JP2007304950A (ja) | 2006-05-12 | 2007-11-22 | Just Syst Corp | 文書処理装置および文書処理方法 |
JP5283208B2 (ja) * | 2007-08-21 | 2013-09-04 | 国立大学法人 東京大学 | 情報検索システム及び方法及びプログラム並びに情報検索サービス提供方法 |
-
2010
- 2010-12-03 US US13/515,181 patent/US9600468B2/en active Active
- 2010-12-03 JP JP2011545193A patent/JP5761029B2/ja active Active
- 2010-12-03 WO PCT/JP2010/071695 patent/WO2011070979A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP5761029B2 (ja) | 2015-08-12 |
US9600468B2 (en) | 2017-03-21 |
WO2011070979A1 (ja) | 2011-06-16 |
US20120310944A1 (en) | 2012-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5708495B2 (ja) | 辞書作成装置、単語収集方法、及び、プログラム | |
JP5054593B2 (ja) | 情報検索装置及びプログラム | |
JP5092165B2 (ja) | データ構築方法とシステム | |
JP4322887B2 (ja) | スレッド順位付け装置及び方法 | |
JP7103496B2 (ja) | 関連スコア算出システム、方法およびプログラム | |
CN103534696A (zh) | 针对口语语言理解中的域检测利用查询点击记录 | |
JP5761029B2 (ja) | 辞書作成装置、単語収集方法、及び、プログラム | |
JP6079270B2 (ja) | 情報提供装置 | |
CN110968802B (zh) | 一种用户特征的分析方法、分析装置及可读存储介质 | |
KR100932843B1 (ko) | 검색결과간의 연관도에 기초하여 클러스터링된 검색결과를제공하는 방법 및 시스템 그리고 검색결과를클러스터링하는 방법 및 시스템 | |
Ashraf et al. | WeFreS: weighted frequent subgraph mining in a single large graph | |
CN107402886B (zh) | 堆栈分析方法及相关装置 | |
CN110705889A (zh) | 一种企业筛选方法、装置、设备及存储介质 | |
JP2011100208A (ja) | 行動推定装置、行動推定方法および行動推定プログラム | |
KR101035037B1 (ko) | 동적 임계값이 적용된 유사문서 분류화 장치 및 방법 | |
JP5555238B2 (ja) | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム | |
KR101818716B1 (ko) | 컨셉 키워드 확장 데이터 셋 생성방법, 장치 및 컴퓨터로 판독 가능한 기록매체 | |
JP2011154469A (ja) | パターン抽出装置、パターン抽出方法及びプログラム | |
CN113868481A (zh) | 组件获取方法、装置及电子设备和存储介质 | |
JP6123372B2 (ja) | 情報処理システム、名寄せ判定方法及びプログラム | |
CN111694929B (zh) | 基于数据图谱的搜索方法、智能终端和可读存储介质 | |
JP2019125025A (ja) | システム、文書データの管理方法、及びプログラム | |
JP4222166B2 (ja) | 文書収集装置、文書検索装置及び文書収集検索システム | |
JP5903372B2 (ja) | キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム | |
JP2020187644A (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150410 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150512 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150525 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5761029 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |