JPWO2013128684A1 - 辞書生成装置、方法、及びプログラム - Google Patents

辞書生成装置、方法、及びプログラム Download PDF

Info

Publication number
JPWO2013128684A1
JPWO2013128684A1 JP2013515598A JP2013515598A JPWO2013128684A1 JP WO2013128684 A1 JPWO2013128684 A1 JP WO2013128684A1 JP 2013515598 A JP2013515598 A JP 2013515598A JP 2013515598 A JP2013515598 A JP 2013515598A JP WO2013128684 A1 JPWO2013128684 A1 JP WO2013128684A1
Authority
JP
Japan
Prior art keywords
word
dictionary
text
unit
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013515598A
Other languages
English (en)
Other versions
JP5373998B1 (ja
Inventor
正人 萩原
正人 萩原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Application granted granted Critical
Publication of JP5373998B1 publication Critical patent/JP5373998B1/ja
Publication of JPWO2013128684A1 publication Critical patent/JPWO2013128684A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

辞書生成装置は、予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部と、収集されたテキストの集合に対して、単語分割モデルが組み込まれた単語分割を実行して、各テキストに境界情報を付与する解析部と、解析部により境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、選択部により選択された単語を辞書に登録する登録部とを備える。コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている。

Description

本発明の一形態は、単語辞書を生成するための装置、方法、プログラム、及びコンピュータ読取可能な記録媒体に関する。
従来から、単語辞書を用いて文章を分割することで複数の単語を得る技術(単語分割)が知られている。これに関連して下記特許文献1には、入力テキストの部分文字列と照合する単語を単語辞書から検索して単語候補として生成し、その単語辞書と照合しない入力テキストの部分文字列から未知語である可能性があるものを未知語候補として選択し、未知語モデルを用いて未知語候補の品詞別単語出現確率を推定し、動的計画法を用いて同時確率が最大となる単語列を求める技術が記載されている。
特開2001−051996号公報
テキストを正しく分割するためには、語彙的な知識を充実させるために辞書内に大量の単語を用意しておくことが望ましい。しかし、大規模な辞書を人手により構築するのは容易ではない。そこで、大規模な単語辞書を容易に構築することが要請されている。
本発明の一形態に係る辞書生成装置は、予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、収集されたテキストの集合に対して、単語分割モデルが組み込まれた単語分割を実行して、各テキストに境界情報を付与する解析部と、解析部により境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、選択部により選択された単語を辞書に登録する登録部とを備える。
本発明の一形態に係る辞書生成方法は、辞書生成装置により実行される辞書生成方法であって、予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成ステップであって、コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成ステップと、収集されたテキストの集合に対して、単語分割モデルが組み込まれた単語分割を実行して、各テキストに境界情報を付与する解析ステップと、解析ステップにおいて境界情報が付与されたテキストから辞書に登録する単語を選択する選択ステップと、選択ステップにおいて選択された単語を辞書に登録する登録ステップとを含む。
本発明の一形態に係る辞書生成プログラムは、予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、収集されたテキストの集合に対して、単語分割モデルが組み込まれた単語分割を実行して、各テキストに境界情報を付与する解析部と、解析部により境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、選択部により選択された単語を辞書に登録する登録部とをコンピュータに実行させる。
本発明の一形態に係るコンピュータ読取可能な記録媒体は、予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、収集されたテキストの集合に対して、単語分割モデルが組み込まれた単語分割を実行して、各テキストに境界情報を付与する解析部と、解析部により境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、選択部により選択された単語を辞書に登録する登録部とをコンピュータに実行させる辞書生成プログラムを記憶する。
このような形態によれば、境界情報が付与されているコーパスと、単語群とを用いて単語分割モデルが生成され、そのモデルが組み込まれた単語分割がテキスト集合に適用される。そして、この適用により境界情報が付与されたテキスト集合から単語が選択されて辞書に登録される。このように、境界情報付きのコーパスを用いた解析によりテキスト集合にも境界情報を付与した上で、そのテキスト集合から抽出された単語を登録することで、大規模な単語辞書を容易に構築することができる。
別の形態に係る辞書生成装置では、選択部が、解析部により付与された境界情報から算出される各単語の出現頻度に基づいて、辞書に登録する単語を選択してもよい。このように算出される出現頻度を考慮することで辞書の精度を上げることができる。
さらに別の形態に係る辞書生成装置では、選択部が、出現頻度が所定の閾値以上である単語を選択してもよい。一定の回数以上出現した単語のみを辞書に登録することで、辞書の精度を上げることができる。
さらに別の形態に係る辞書生成装置では、選択部が、出現頻度が閾値以上である単語を登録候補として抽出し、出現頻度が高い単語から順に該登録候補から所定数の単語を選択し、登録部が、選択部により選択された単語を単語群が記録されている辞書に追加してもよい。出現頻度が相対的に高い単語のみを辞書に登録することで、辞書の精度を上げることができる。また、予め用意されている単語群の辞書に単語を追加することで、辞書の構成を簡単にすることができる。
さらに別の形態に係る辞書生成装置では、選択部が、出現頻度が閾値以上である単語を登録候補として抽出し、出現頻度が高い単語から順に該登録候補から所定数の単語を選択し、登録部が、選択部により選択された単語を、単語群が記録されている辞書とは別の辞書に登録してもよい。出現頻度が相対的に高い単語のみを辞書に登録することで、辞書の精度を上げることができる。また、予め用意されている単語群の辞書(既存辞書)とは別の辞書に単語を追加することで、既存辞書とは異なる特性の辞書を生成することができる。
さらに別の形態に係る辞書生成装置では、登録部が、選択部により選択された単語を、単語群が記録されている辞書とは別の辞書に登録してもよい。予め用意されている単語群の辞書(既存辞書)とは別の辞書に単語を追加することで、既存辞書とは異なる特性の辞書を生成することができる。
さらに別の形態に係る辞書生成装置では、選択部が、出現頻度が閾値以上である単語を登録候補として抽出し、出現頻度の高さに応じて該登録候補の単語をグループ化し、登録部が、選択部により生成された複数のグループを、単語群が記録されている辞書とは別の複数の辞書に個別に登録してもよい。出現頻度の高さに応じて単語をグループ化し、生成された各グループを別々の辞書に登録することで、出現頻度に起因して特性が互いに異なる複数の辞書を生成することができる。
さらに別の形態に係る辞書生成装置では、収集されたテキストのそれぞれには、該テキストの分野を示す情報が関連付けられており、登録部が、選択部により選択された単語を、該単語が含まれていたテキストの分野に基づいて、分野毎に用意された辞書に個別に登録してもよい。分野毎に辞書を生成することで、特性が互いに異なる複数の辞書を生成することができる。
さらに別の形態に係る辞書生成装置では、境界情報が、文字間位置に境界が存在しないことを示す第1の情報と、文字間位置に境界が存在することを示す第2の情報と、文字間位置に境界が確率的に存在することを示す第3の情報とを含み、各単語の出現頻度が第1、第2、及び第3の情報に基づいて算出されてもよい。単に境界が存在するかしないかという二択ではなく、その中間の概念を示す第3の情報を導入することで、より適切にテキストを複数の単語に分割することができる。
さらに別の形態に係る辞書生成装置では、解析部が、第1の二値分類器及び第2の二値分類器を備え、第1の二値分類器が、各文字間位置について、第1の情報を割り当てるか第1の情報以外の情報を割り当てるかを判定し、第2の二値分類器が、第1の二値分類器により第1の情報以外の情報を割り当てると判定された文字間位置について、第2の情報を割り当てるか第3の情報を割り当てるかを判定してもよい。二値分類器を複数用いて段階的に境界情報を確定することで、高速且つ効率的にテキストに境界情報を付与することができる。
さらに別の形態に係る辞書生成装置では、収集されたテキストの集合が複数のグループに分割され、解析部、選択部、及び登録部が複数のグループのうちの一つに基づく処理を実行した後に、モデル生成部がコーパス、単語群、及び登録部により登録された単語を用いて単語分割モデルを生成し、続いて、解析部、選択部、及び登録部が複数のグループのうちの別の一つに基づく処理を実行してもよい。
本発明の一側面によれば、大規模な単語辞書を容易に構築することができる。
実施形態に係る辞書生成装置のハードウェア構成を示す図である。 図1に示す辞書生成装置の機能構成を示すブロック図である。 境界情報(単語境界タグ)の設定を説明するための図である。 図1に示す辞書生成装置の動作を示すフローチャートである。 実施形態に係る辞書生成プログラムの構成を示す図である。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。
まず、図1〜3を用いて、実施形態に係る辞書生成装置10の機能構成を説明する。辞書生成装置10は、収集された大量のテキストから成る集合(以下では「大規模テキスト」ともいう)を解析することでそのテキスト集合から単語を抽出し、抽出された単語を辞書に追加するコンピュータである。
図1に示すように、辞書生成装置10は、オペレーティングシステムやアプリケーション・プログラムなどを実行するCPU101と、ROM及びRAMで構成される主記憶部102と、ハードディスクなどで構成される補助記憶部103と、ネットワークカードなどで構成される通信制御部104と、キーボードやマウスなどの入力装置105と、ディスプレイなどの出力装置106とを備えている。
後述する辞書生成装置10の各機能的構成要素は、CPU101や主記憶部102の上に所定のソフトウェアを読み込ませ、CPU101の制御の下で通信制御部104や入力装置105、出力装置106などを動作させ、主記憶部102や補助記憶部103におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶部102や補助記憶部103内に格納される。なお、図1では辞書生成装置10が1台のコンピュータで構成されているように示しているが、辞書生成装置10の機能を複数台のコンピュータに分散させてもよい。
図2に示すように、辞書生成装置10は機能的構成要素としてモデル生成部11、解析部12、選択部13、及び登録部14を備えている。辞書生成装置10は、単語抽出処理を実行する際に、予め用意されている学習コーパス20、既存辞書31、及び大規模テキスト40を参照し、抽出された単語を単語辞書30に格納する。なお、単語辞書30は少なくとも既存辞書31を含んでおり、1以上の追加辞書32を更に含んでいてもよい。辞書生成装置10について詳細に説明する前に、これらのデータについて説明する。
学習コーパス20は、単語の境界(文を単語に分割した際の分割位置)を示す境界情報(アノテーション)が付与された(関連付けられた)テキストの集合であり、データベースとして予め用意されている。テキストは複数の単語から成る文や文字列である。本実施形態では、仮想商店街のウェブサイト内に蓄積されている商品のタイトル及び説明文からランダムに抽出した所定数のテキストを学習コーパス20の材料とする。
抽出した各テキストには、評価者の人手により境界情報が付与される。境界情報の設定は、点推定による単語分割と3段階単語分割コーパスという二つの技術に基づいて実施される。
[点推定による単語分割]
テキスト(文字列)x=x…x(x,x,…,xは文字)には、単語境界タグb=b…bが割り当てられる。ここで、bは文字xとxi+1との間(文字間位置)に単語境界が存在するか否かを表すタグであり、b=1は分割を、b=0は非分割を、それぞれ意味する。ここで、このタグbで示される値は分割の強度であるとも言える。
図3に、「ボールペンを買った。」(bo-rupen wo katta)という日本語の文(英語では「(I) bought a ballpoint pen.」)において「ん(n)」と「を(wo)」との間のタグを決定する例を示す。単語境界タグの値は,その周辺に存在する文字から得られる素性(feature)を参照して決定される。例えば、文字素性、文字種素性、及び辞書素性という3種類の素性を用いて単語境界タグの値が設定される。
文字素性は、境界bに接する、もしくは境界bを内包する長さn以下のすべての文字(n−gram)と、その位置bに対する相対位置との組合せで示される素性である。例えば図3においてn=3とした場合には、「ん(n)」と「を(wo)」との間の境界bに対して、「−1/ン(n)」「1/を(wo)」「−2/ペン(pen)」「−1/ンを(n wo)」「1/を買(wo ka)」「−3/ルペン(rupen)」「−2/ペンを(pen wo)」「−1/ンを買(n wo ka)」「1/を買っ(wo kat)」という9個の素性が得られる。
文字種素性は、文字の代わりに文字種を扱うという点以外は、上記の文字素性と同様である。文字種として、ひらがな、カタカナ、漢字、アルファベット大文字、アルファベット小文字、アラビア数字、漢数字、及び中黒(・)の8種類を考慮した。なお、用いる文字種及びその種類数は何ら限定されない。
辞書素性は、境界の周辺に位置する長さj(1≦j≦k)の単語が辞書に存在するか否かを表す素性である。辞書素性は、境界bが単語の終点に位置しているのか(L)、その始点に位置しているのか(R)、それともその単語に内包されているのか(M)を示すフラグと、その単語の長さjとの組合せで示される。もし、辞書に「ペン(pen)」「を(wo)」という単語が登録されていれば、図3における境界biに対してL2及びR1という辞書素性が作成される。なお、後述するように複数の辞書を用いる場合には、辞書素性には辞書の識別子が付与される。例えば、識別子がDIC1である辞書Aに「ペン(pen)」が登録されており、識別子がDIC2である辞書Bに「を(wo)」が登録されていれば、辞書素性はDIC1−L2、DIC2−R1等のように表される。
なお、本実施形態では、文字素性及び文字種素性におけるn−gramの最大長nを3とし、辞書素性における単語の最大長kを8としたが、これらの値は任意に定めてよい。
[3段階単語分割コーパス]
日本語には、単語境界を一意に決めるのが難しい単語が存在し、適切な単語分割の態様が場面によって異なるという問題がある。一例として、「ボールペン(bo−rupen)」(英語では「ballpoint pen」)という単語を含んだテキスト集合に対してキーワード検索を行う場合を想定する。もし「ボールペン(bo−rupen)」を分割しない場合には、「ペン(pen)」(英語では「pen」)というキーワードで検索してもテキストが抽出されないことになる(再現率の低下)。一方、「ボールペン(bo−rupen)」を「ボール(bo−ru)」(英語では「ball」)と「ペン(pen)」とに分割した場合には、スポーツ用品である「ボール(bo−ru)」をキーワードとした検索により、「ボールペン(bo−rupen)」を含むテキストが抽出されてしまう(精度の低下)。
そこで、上記のように「分割」「非分割」の2値だけでなく「半分割」という概念を導入した3段階単語分割コーパスを用いる。3段階単語分割コーパスは、確率的な値で分割の態様を示す確率的単語分割を発展させた手法である。人間が実際に認識できる単語分割の強さは多くても数段階に過ぎず、連続的な確率値で分割の態様を示す必要性は低いという理由から、この3段階単語分割コーパスが用いられる。半分割を含む単語については、その単語全体と、その単語の構成要素との両方が抽出されるので、人間にとって分割か非分割かの判断が難しい単語をとりあえず半分割として記録することが可能になると共に、境界情報の付与が容易になる。「半分割」は、文字間位置に境界が確率的に(0より大きく1より小さい確率の範囲で)存在することを示す一態様である。
3段階単語分割コーパスは、「分割」(b=1)及び「非分割」(b=0)に「半分割」(b=0.5)を加えた3段階の離散確率的単語分割により生成されるコーパスである。例えば、「ボール/ペン(bo−ru/pen)」のような複合名詞や、「折り/たたむ(ori/tatamu)」(英語では「fold」)のような複合動詞、「お/すすめ(o/susume)」(英語では「recommendation」)のような、接辞も含めて語彙化しているような単語の中の分割(これらの例では”/”で示している)は、半分割として定義するのが自然である。また、「充電池(juudenchi)」(英語では「rechargeable battery」)は、「充電(juuden)」(英語では「recharge」)と「電池(denchi)」(英語では「battery」)のような「AB+BC→ABC」型の複合語といえるが、このような単語は「充/電/池(juu/den/chi)」というように半分割される。
「ボールペンを買った。」(bo-rupen
wo katta)というテキストは、上記の点推定による単語分割と3段階単語分割コーパスとを用いて例えば図3に示すように分割される。図3の例では、「分割」(b=1)の単語境界タグは、テキストの先頭や、「ン(n)」と「を(wo)」の間などに付与されている。「半分割」(b=0.5)の単語境界タグは「ル(ru)」と「ペ(pe)」の間に付与されている。図3では「非分割」(b=0)の単語境界タグを省略しているが、文字間に境界が表されていない箇所(例えば「ペ(pe)」と「ン(n)」の間)には当該タグが付与される。
各テキストには単語境界タグが境界情報として付与されて、学習コーパス20としてデータベースに格納される。境界情報をテキストに付与する方法は任意である。一例として、「分割」をスペースで示し、「半分割」をハイフンで示し、「非分割」の表示を省略するように各テキストに境界情報を埋め込んでもよい。この場合には、境界情報が付与されたテキストを文字列のまま記録することができる。
既存辞書31は、所定数の単語の集合であり、データベースとして予め用意されている。既存辞書31は一般に用いられている電子化辞書でもよく、例えばUniDicという形態素解析辞書であってもよい。
大規模テキスト40は、収集されたテキストの集合であり、データベースとして予め用意されている。大規模テキスト40には、抽出しようとする単語やその単語の分野などに応じて、任意の文や文字列を含めてよい。例えば、仮想商店街のウェブサイトから商品のタイトル及び説明文を大量に収集し、これらの生データから大規模テキスト40を構築してもよい。大規模テキスト40として用意されるテキストの数は、学習コーパス20に含まれるテキストの数よりも圧倒的に多い。
以上を前提として辞書生成装置10の機能的構成要素を説明する。
モデル生成部11は、学習コーパス20及び単語辞書30を用いて単語分割モデルを生成する手段である。モデル生成部11は、サポート・ベクトル・マシン(SVM:Support vector machine)を備えており、学習コーパス20及び単語辞書30をこのマシンに入力して学習処理を実行させることで、単語分割モデルを生成する。この単語分割モデルは、テキストをどのように区切るべきかというルールを示しており、単語分割に用いられるパラメータ群として出力される。なお、機械学習に用いるアルゴリズムはSVMに限定されず、決定木やロジスティック回帰などであってもよい。
大規模テキスト40を解析するために、モデル生成部11は学習コーパス20及び既存辞書31に基づく学習をSVMに実行させることで、最初の単語分割モデル(ベースライン・モデル)を生成する。そして、モデル生成部11はこの単語分割モデルを解析部12に出力する。
その後、後述する解析部12、選択部13、及び登録部14の処理により単語辞書30に単語が追加されると、モデル生成部11は学習コーパス20と単語辞書30の全体とに基づく学習(再学習)処理をSVMに実行させることで、修正された単語分割モデルを生成する。ここで、単語辞書30の全体とは、既存辞書31に最初から記憶されていた単語、及び大規模テキスト40から得られた単語のすべてを意味する。
解析部12は、単語分割モデルが組み込まれた解析(単語分割)を大規模テキスト40に対して実行して、各テキストに境界情報を付与する(関連付ける)手段である。この結果、図3に示すようなテキストが大量に得られる。解析部12は大規模テキスト40を成している各テキストについてそのような単語分割を実行することで、上記「分割」(第2の情報)、「半分割」(第3の情報)、及び「非分割」(第1の情報)を示す境界情報を各テキストに付与し、処理されたすべてのテキストを選択部13に出力する。
解析部12は二つの二値分類器を備えており、これらの分類器を順に用いて3種類の境界情報を各テキストに付与する。第1の分類器は、文字間位置が「非分割」かそれ以外かを判定する手段であり、第2の分類器は、「非分割」ではないと判定された境界が「分割」か「半分割」かを判定する手段である。現実には文字間位置の過半数が「非分割」であることから、まず文字間位置が「非分割」であるか否かを判定し、続いて「非分割」ではない以外と判定された箇所について分割の態様を判定することで、効率的に境界情報を大量のテキストに付与することができる。また、二値分類器を組み合わせることで、解析部12の構造を単純化することができる。
選択部13は、解析部12により境界情報が付与されたテキストから、単語辞書30に登録する単語を選択する手段である。
まず、選択部13は入力されたテキスト群に含まれている各単語wの合計出現頻度f(w)を下記式(1)により求める。この計算は、各文字間位置に付与された境界情報bから出現頻度が得られることを意味する。
Figure 2013128684

ここで、Oは単語wの表記の出現を示しており、下記の通りに定義される。
Figure 2013128684
図3に示す「ボールペンを買った。」(bo-rupen wo katta)という一つの文における単語「ボールペン(bo−rupen)」の出現頻度は、1.0*1.0*1.0*0.5*1.0*1.0=0.5となり、その文における単語「ペン(pen)」の出現頻度は、0.5*1.0*1.0=0.5となる。これらは、その文の中に「ボールペン(bo−rupen)」及び「ペン(pen)」という単語がそれぞれ0.5回ずつ出現したものとみなされることを意味する。選択部13は、各テキストに含まれている各単語の出現頻度を求めて、単語毎にその出現頻度を集計することで、各単語の合計出現頻度を得る。
続いて、選択部13は大規模テキスト40内の単語群から、合計出現頻度が第1の閾値THa以上である単語のみを登録候補Vとして選択する(頻度による単語の足切り)。そして、選択部13は最終的に単語辞書30に登録する単語をその登録候補Vの中から選択し、必要に応じてその単語を格納する辞書(データベース)を決定する。最終的に登録する単語及び格納先の辞書の決定方法は一つに限定されるものではなく、下記の通り様々な手法を用いうる。
選択部13は、登録候補Vのうち合計出現頻度が所定の閾値以上である単語のみを既存辞書31に追加すると決定してもよい。この場合に、選択部13は合計出現頻度が第2の閾値THb(ただしTHb>THa)である単語のみを選んでもよいし、合計出現頻度が上位n位までの単語のみを選んでもよい。以下では、このような処理を「APPEND」ともいう。
あるいは、選択部13は、登録候補Vのうち合計出現頻度が所定の閾値以上である単語のみを追加辞書32に登録すると決定してもよい。この場合にも、選択部13は合計出現頻度が第2の閾値THb(ただしTHb>THa)である単語のみを選んでもよいし、合計出現頻度が上位n位までの単語のみを選んでもよい。以下では、このような処理を「TOP」ともいう。
あるいは、選択部13は、登録候補Vのすべてを追加辞書32に登録すると決定してもよい。以下では、このような処理を「ALL」ともいう。
あるいは、選択部13は登録候補Vを合計出現頻度に応じて複数の部分集合に分け、各部分集合を個別の追加辞書32に登録すると決定してもよい。登録候補Vのうち、合計出現頻度が上位n位までの部分集合をVと表すとする。この場合に選択部13は、例えば、上位1000位までの単語から成る部分集合V1000と、上位2000位までの単語から成る部分集合V2000と、上位3000位までの単語から成る部分集合V3000とを生成する。そして、選択部13は部分集合V1000、V2000、及びV3000を第1の追加辞書32、第2の追加辞書32、及び第3の追加辞書32に登録すると決定する。なお、生成する部分集合の個数や、各部分集合の大きさは任意に定めてよい。以下では、このような処理を「MULTI」という。
最終的に登録する単語を選択するとともに格納先の辞書を決定すると、選択部13はその選択結果を登録部14に出力する。
登録部14は、選択部13により選択された単語を単語辞書30に登録する手段である。単語辞書30のうちどの辞書に単語を登録するかは選択部13での処理に依存するので、登録部14は既存辞書31にのみ単語を登録するかもしれないし、一つの追加辞書32にのみ単語を登録するかもしれない。上記の「MULTI」処理の場合には、登録部14は選択された単語を複数の追加辞書32に分けて登録する。
上述したように、単語辞書30に追加された単語は単語分割モデルの修正に用いられるが、単語辞書30を単語分割以外の目的で用いてもよい。例えば、形態素解析や、自動入力機能を備える入力ボックスにおける入力候補語句の表示や、固有名詞を抽出するための知識データベースなどのために単語辞書30を用いてもよい。
次に、図4を用いて、辞書生成装置10の動作を説明するとともに本実施形態に係る辞書生成方法について説明する。
まず、モデル生成部11が、学習コーパス20及び既存辞書31に基づく学習をSVMに実行させることで最初の単語分割モデル(ベースライン・モデル)を生成する(ステップS11、モデル生成ステップ)。続いて、解析部12がそのベースライン・モデルが組み込まれた解析(単語分割)を大規模テキスト40に対して実行して、「分割」、「半分割」、又は「非分割」を示す境界情報を各テキストに付与する(関連付ける)(ステップS12、解析ステップ)。
続いて、選択部13が、辞書に登録する単語を選択する(選択ステップ)。具体的には、選択部13は境界情報付きのテキストに基づいて各単語の合計出現頻度を算出し(ステップS13)、その頻度が所定の閾値以上である単語を登録候補として選択する(ステップS14)。そして、選択部13は最終的に辞書に登録する単語を登録候補から選択すると共に、単語を登録する辞書を決定する(ステップS15)。選択部13は上記のAPPEND,TOP,ALL,MULTIなどの手法を用いて、単語を選択し辞書を指定することができる。
続いて、登録部14が選択部13での処理に基づいて、選択した単語を指定の辞書に登録する(ステップS16、登録ステップ)。
以上の処理により、単語辞書30への単語の追加が完了する。本実施形態では、拡張された単語辞書30を用いて単語分割モデルが修正される。すなわち、モデル生成部11が、学習コーパス20と単語辞書30の全体とに基づく再学習により、修正された単語分割モデルを生成する(ステップS17)。
次に、図5を用いて、コンピュータを辞書生成装置10として機能させるための辞書生成プログラムP1を説明する。
辞書生成プログラムP1は、メインモジュールP10、モデル生成モジュールP11、解析モジュールP12、選択モジュールP13、及び登録モジュールP14を備えている。
メインモジュールP10は、辞書生成機能を統括的に制御する部分である。モデル生成モジュールP11、解析モジュールP12、選択モジュールP13、及び登録モジュールP14を実行することにより実現される機能はそれぞれ、上記のモデル生成部11、解析部12、選択部13、及び登録部14の機能と同様である。
辞書生成プログラムP1は、例えば、CD−ROMやDVD−ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供される。また、辞書生成プログラムP1は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。
以上説明したように、本実施形態によれば、境界情報が付与されている学習コーパス20と、既存辞書31とを用いて単語分割モデルが生成され、そのモデルが組み込まれた単語分割が大規模テキスト40に適用される。そして、この適用により境界情報が付与されたテキスト集合から単語が選択されて単語辞書30に登録される。このように、学習コーパス20を用いた解析によりテキスト集合にも境界情報を付与した上で、そのテキスト集合から抽出された単語を登録することで、大規模な単語辞書30を容易に構築することができる。
例えば「スマホケース」(sumahoke-su)(英語では「smartphone case」)が「スマホ」(sumaho)と「ケース」(ke-su)とに分けられて、それまで未知語であった「スマホ」(sumaho)が辞書に登録され得る。なお、「スマホ」(sumaho)は、日本語の「スマートフォン」(suma-tofon)の略語である。また、「うっとろりん」(uttororin)という語句(日本語の「うっとり」(uttori)(英語では「fascinated」)に相当する未知語)も辞書に登録され得る。そして、構築された辞書を用いてテキスト解析を行うことで、登録された単語を含む文(例えば「スマホ」(sumaho)又は「うっとろりん」(uttororin)を含む文)の単語分割がより精度良く実行される。
次に、本実施形態における辞書生成装置10による単語分割性能の評価の一例を示す。単語分割性能の評価の指標には、精度(Prec)、再現率(Rec)、及びF値を用いた.正解コーパスに含まれる延べ単語数をNREF、解析結果に含まれる延べ単語数をNSY 、解析結果及び正解コーパスの両者に含まれる延べ単語数をNCORとすると、上記の3指標は下記のように定義される。
Prec=NCOR/NSYS
Rec=NCOR=NREF
F=2Prec・Rec/(Prec+Rec)
既存辞書としてUniDicの見出し語リスト(異なり304,267語)を用い、サポート・ベクトル・マシンとしてLIBLINEARをデフォルトパラメータで使用した。学習コーパスおよび大規模テキスト内の半角文字はすべて全角に統一したが、それ以上の正規化は行わなかった。
まず、学習コーパス及び大規模テキストが同じ分野である場合(同一分野の学習)の有効性について説明する。ここで、分野とは、文体、内容(ジャンル)などに基づいて文及び単語をグループ化するための概念である。同一分野の学習では、仮想商店街Aのウェブサイトからジャンルの偏り無くランダムに抽出した590商品のタイトルおよび説明文と、仮想商店街Bのウェブサイトからランダムに抽出した50商品の説明文とから3段階単語分割の学習コーパスを作成した。この学習コーパスの単語数は約11万であり、文字数は約34万であった。この学習コーパスを用いて性能を評価した。
大規模テキストとして、上記仮想商店街A内の全商品データのタイトルおよび説明文を用いた。商品数は約2700万であり、文字数は約160億であった。
この大規模テキストをベースライン・モデルにより解析して2段階単語分割を実行した場合には、異なり576,954語が抽出され、当該解析後に3段階単語分割を実行した場合には、異なり603,187語が抽出された。ここで、単語の足切りのために用いた頻度の閾値は20とした。上記「MULTI」を採用した際には、合計出現頻度の上位10万語、上位20万語、上位30万語、上位40万語、及び全体を別々の辞書として追加した。上記「TOP」を採用した際には上位10万語のみを用いた。
ベースライン・モデルによる学習結果、2段階単語分割により得られた単語辞書を用いた再学習の結果、及び3段階単語分割により得られた単語辞書を用いた再学習の結果を表1に示す。表1中の数値はすべて百分率(%)である。
Figure 2013128684
2段階単語分割を使って再学習した場合には、どの手法(APPEND/TOP/ALL/MULTI)を用いて単語を追加してもF値が向上し、このことは、提案する大規模テキストを用いた学習が有効であることを示している。F値の増加幅は、APPEND<TOP<ALL<MULTIの順で大きかった。この結果から、単語を追加する際には、既存辞書に追加するよりも別の辞書に追加した方がより効果的であり、更には、追加する単語を一つの追加辞書に登録するよりも出現頻度に応じて別々の辞書に追加した方がより効果的であることが分かった。
表1より、分類器が単語の出現頻度に応じて異なる貢献度及び重みを自動的に学習していると考えられる。さらに、3段階単語分割を使って再学習した場合には、すべての場合においてベースライン・モデルおよび2段階単語分割よりも性能が向上した。具体的には、半分割を考慮することにより、接辞を伴う単語を正確に獲得するなどの改善が得られた。
次に、学習コーパスと大規模テキストとが異なる分野である場合の有効性について説明する。用いた学習コーパスは、上記同一分野の学習におけるものと同じとした。一方、大規模テキストは、旅行予約サイトC内のユーザレビュー、宿泊施設名、宿泊プラン名、及び宿泊施設からの返答を用いた。テキスト数は348,564であり、その文字数は約1億2600万であった。この大規模テキストのうち、150件及び50件のレビューをランダムに抽出して人手による単語分割を行い、それぞれテストコーパス及び能動学習用コーパス(学習コーパスに対する追加分)として用いた。
まず、上記の商品分野の学習コーパスから学習したベースライン・モデルを用いて旅行分野の大規模テキストを解析した。この解析性能が下記表2の「ベースライン」である。
次に、商品分野の学習コーパスに分野適応用のコーパスを加えて単語分割モデルを学習した後、それを用いて大規模テキストを解析した。この解析性能が下記表2の「分野適応」である.大規模テキストを解析した後に2段階単語分割を用いると異なり41,671語が抽出され、3段階単語分割を用いると異なり44,247語が抽出された。いずれの場合も、合計出現頻度が5以上の単語のみを用いた。
これらの得られた単語を辞書に追加し、学習コーパスおよび分野適応用コーパスを用いてモデルを再学習した結果を表2に示す。表2中の数値はすべて百分率(%)である。
Figure 2013128684
この表から分かるように、学習コーパスと大規模テキストで分野が異なる場合には、3段階単語分割の場合において性能の向上が見られた。
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
上記実施形態では選択部13が出現頻度に基づいて単語を選択したが、選択部13は、この出現頻度を参照することなく、すべての単語を既存辞書31又は追加辞書32に登録してもよい。また、単語の足切りは必須の処理ではない。
上記実施形態では解析部12が大規模テキスト40の全体を解析した後に選択部13及び登録部14による処理が行われたが、解析部12は収集された大量のテキストを複数回に分けて解析してもよい。この場合には、モデル生成ステップ、解析ステップ、選択ステップ、及び登録ステップから成る一連の処理が複数回繰り返される。例えば、大規模テキスト40をグループ1〜3に分けた場合には、1ループ目の処理でグループ1が解析されて単語が登録され、2ループ目の処理でグループ2が解析されて単語が更に登録され、3ループ目の処理でグループ3が解析されて単語が更に登録される。2ループ目以降の処理では、モデル生成部11は単語辞書30の全体を参照して、修正された単語分割モデルを生成する。
上記実施形態では3段階分割の手法を用いたので境界情報は3種類であったが、境界情報の態様はこの例に限定されない。例えば、「分割」「非分割」という2種類の境界情報のみを用いて2段階の単語分割を行ってもよい。また、「分割」「非分割」と、複数種類の確率的分割とを用いて、4段階以上の単語分割を行ってもよい。例えば、b=0.33とb=0.67という確率的分割(第3の情報)を用いた4段階の単語分割を行ってもよい。いずれにしても、第3の情報に相当する分割の強度は、境界情報が「非分割」の場合の強度(例えばb=0)より大きく、境界情報が「分割」の場合の強度(例えばb=1)より小さい。
本実施形態によれば、大規模な単語辞書を容易に構築することができる。
10…辞書生成装置、11…モデル生成部、12…解析部、13…選択部、14…登録部、20…学習コーパス、30…単語辞書、31…既存辞書(単語群)、32…追加辞書、40…大規模テキスト(収集されたテキストの集合)、P1…辞書生成プログラム、P10…メインモジュール、P11…モデル生成モジュール、P12…解析モジュール、P13…選択モジュール、P14…登録モジュール。
本発明の一形態に係る辞書生成装置は、予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与され、境界情報が、文字間位置に境界が存在しないことを示す第1の情報と、文字間位置に境界が存在することを示す第2の情報と、文字間位置に境界が確率的に存在することを示す第3の情報とを含む、該モデル生成部と、収集されたテキストの集合に対して、単語分割モデルが組み込まれた単語分割を実行して、各テキストに境界情報を付与する解析部と、解析部により境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、選択部により選択された単語を辞書に登録する登録部とを備える。
本発明の一形態に係る辞書生成方法は、辞書生成装置により実行される辞書生成方法であって、予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成ステップであって、コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与され、境界情報が、文字間位置に境界が存在しないことを示す第1の情報と、文字間位置に境界が存在することを示す第2の情報と、文字間位置に境界が確率的に存在することを示す第3の情報とを含む、該モデル生成ステップと、収集されたテキストの集合に対して、単語分割モデルが組み込まれた単語分割を実行して、各テキストに境界情報を付与する解析ステップと、解析ステップにおいて境界情報が付与されたテキストから辞書に登録する単語を選択する選択ステップと、選択ステップにおいて選択された単語を辞書に登録する登録ステップとを含む。
本発明の一形態に係る辞書生成プログラムは、予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与され、境界情報が、文字間位置に境界が存在しないことを示す第1の情報と、文字間位置に境界が存在することを示す第2の情報と、文字間位置に境界が確率的に存在することを示す第3の情報とを含む、該モデル生成部と、収集されたテキストの集合に対して、単語分割モデルが組み込まれた単語分割を実行して、各テキストに境界情報を付与する解析部と、解析部により境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、選択部により選択された単語を辞書に登録する登録部とをコンピュータに実行させる。
本発明の一形態に係るコンピュータ読取可能な記録媒体は、予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与され、境界情報が、文字間位置に境界が存在しないことを示す第1の情報と、文字間位置に境界が存在することを示す第2の情報と、文字間位置に境界が確率的に存在することを示す第3の情報とを含む、該モデル生成部と、収集されたテキストの集合に対して、単語分割モデルが組み込まれた単語分割を実行して、各テキストに境界情報を付与する解析部と、解析部により境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、選択部により選択された単語を辞書に登録する登録部とをコンピュータに実行させる辞書生成プログラムを記憶する。
このような形態によれば、境界情報が付与されているコーパスと、単語群とを用いて単語分割モデルが生成され、そのモデルが組み込まれた単語分割がテキスト集合に適用される。そして、この適用により境界情報が付与されたテキスト集合から単語が選択されて辞書に登録される。このように、境界情報付きのコーパスを用いた解析によりテキスト集合にも境界情報を付与した上で、そのテキスト集合から抽出された単語を登録することで、大規模な単語辞書を容易に構築することができる。また、単に境界が存在するかしないかという二択ではなく、その中間の概念を示す第3の情報を導入することで、より適切にテキストを複数の単語に分割することができる。
さらに別の形態に係る辞書生成装置では、各単語の出現頻度が第1、第2、及び第3の情報に基づいて算出されてもよい。単に境界が存在するかしないかという二択ではなく、その中間の概念を示す第3の情報を導入することで、より適切にテキストを複数の単語に分割することができる。

Claims (14)

  1. 予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、前記コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、
    収集されたテキストの集合に対して、前記単語分割モデルが組み込まれた単語分割を実行して、各テキストに前記境界情報を付与する解析部と、
    前記解析部により前記境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、
    前記選択部により選択された単語を前記辞書に登録する登録部と
    を備える辞書生成装置。
  2. 前記選択部が、前記解析部により付与された前記境界情報から算出される各単語の出現頻度に基づいて、前記辞書に登録する単語を選択する、
    請求項1に記載の辞書生成装置。
  3. 前記選択部が、前記出現頻度が所定の閾値以上である単語を選択する、
    請求項2に記載の辞書生成装置。
  4. 前記選択部が、前記出現頻度が前記閾値以上である単語を登録候補として抽出し、前記出現頻度が高い単語から順に該登録候補から所定数の単語を選択し、
    前記登録部が、前記選択部により選択された単語を前記単語群が記録されている辞書に追加する、
    請求項3に記載の辞書生成装置。
  5. 前記選択部が、前記出現頻度が前記閾値以上である単語を登録候補として抽出し、前記出現頻度が高い単語から順に該登録候補から所定数の単語を選択し、
    前記登録部が、前記選択部により選択された単語を、前記単語群が記録されている辞書とは別の辞書に登録する、
    請求項3に記載の辞書生成装置。
  6. 前記登録部が、前記選択部により選択された単語を、前記単語群が記録されている辞書とは別の辞書に登録する、
    請求項3に記載の辞書生成装置。
  7. 前記選択部が、前記出現頻度が前記閾値以上である単語を登録候補として抽出し、前記出現頻度の高さに応じて該登録候補の単語をグループ化し、
    前記登録部が、前記選択部により生成された複数のグループを、前記単語群が記録されている辞書とは別の複数の辞書に個別に登録する、
    請求項3に記載の辞書生成装置。
  8. 前記収集されたテキストのそれぞれには、該テキストの分野を示す情報が関連付けられており、
    前記登録部が、前記選択部により選択された単語を、該単語が含まれていたテキストの分野に基づいて、前記分野毎に用意された辞書に個別に登録する、
    請求項3に記載の辞書生成装置。
  9. 前記境界情報が、文字間位置に前記境界が存在しないことを示す第1の情報と、文字間位置に前記境界が存在することを示す第2の情報と、文字間位置に前記境界が確率的に存在することを示す第3の情報とを含み、
    各単語の出現頻度が前記第1、第2、及び第3の情報に基づいて算出される、
    請求項2〜8のいずれか一項に記載の辞書生成装置。
  10. 前記解析部が、第1の二値分類器及び第2の二値分類器を備え、
    前記第1の二値分類器が、各文字間位置について、前記第1の情報を割り当てるか前記第1の情報以外の情報を割り当てるかを判定し、
    前記第2の二値分類器が、前記第1の二値分類器により前記第1の情報以外の情報を割り当てると判定された文字間位置について、前記第2の情報を割り当てるか前記第3の情報を割り当てるかを判定する、
    請求項9に記載の辞書生成装置。
  11. 前記収集されたテキストの集合が複数のグループに分割され、
    前記解析部、前記選択部、及び前記登録部が前記複数のグループのうちの一つに基づく処理を実行した後に、前記モデル生成部が前記コーパス、前記単語群、及び前記登録部により登録された単語を用いて前記単語分割モデルを生成し、続いて、前記解析部、前記選択部、及び前記登録部が前記複数のグループのうちの別の一つに基づく処理を実行する、請求項1〜10のいずれか一項に記載の辞書生成装置。
  12. 辞書生成装置により実行される辞書生成方法であって、
    予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成ステップであって、前記コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成ステップと、
    収集されたテキストの集合に対して、前記単語分割モデルが組み込まれた単語分割を実行して、各テキストに前記境界情報を付与する解析ステップと、
    前記解析ステップにおいて前記境界情報が付与されたテキストから辞書に登録する単語を選択する選択ステップと、
    前記選択ステップにおいて選択された単語を前記辞書に登録する登録ステップと
    を含む辞書生成方法。
  13. 予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、前記コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、
    収集されたテキストの集合に対して、前記単語分割モデルが組み込まれた単語分割を実行して、各テキストに前記境界情報を付与する解析部と、
    前記解析部により前記境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、
    前記選択部により選択された単語を前記辞書に登録する登録部と
    をコンピュータに実行させる辞書生成プログラム。
  14. 予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、前記コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、
    収集されたテキストの集合に対して、前記単語分割モデルが組み込まれた単語分割を実行して、各テキストに前記境界情報を付与する解析部と、
    前記解析部により前記境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、
    前記選択部により選択された単語を前記辞書に登録する登録部と
    をコンピュータに実行させる辞書生成プログラムを記憶するコンピュータ読取可能な記録媒体。
JP2013515598A 2012-02-28 2012-09-03 辞書生成装置、方法、及びプログラム Active JP5373998B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261604266P 2012-02-28 2012-02-28
US61/604266 2012-02-28
PCT/JP2012/072350 WO2013128684A1 (ja) 2012-02-28 2012-09-03 辞書生成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP5373998B1 JP5373998B1 (ja) 2013-12-18
JPWO2013128684A1 true JPWO2013128684A1 (ja) 2015-07-30

Family

ID=49081915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013515598A Active JP5373998B1 (ja) 2012-02-28 2012-09-03 辞書生成装置、方法、及びプログラム

Country Status (5)

Country Link
JP (1) JP5373998B1 (ja)
KR (1) KR101379128B1 (ja)
CN (1) CN103608805B (ja)
TW (1) TWI452475B (ja)
WO (1) WO2013128684A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701133B (zh) * 2014-11-28 2021-03-30 方正国际软件(北京)有限公司 一种地址输入的方法和设备
JP6813776B2 (ja) * 2016-10-27 2021-01-13 キヤノンマーケティングジャパン株式会社 情報処理装置、その制御方法及びプログラム
JP6707483B2 (ja) * 2017-03-09 2020-06-10 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
EP3446241A4 (en) * 2017-06-20 2019-11-06 Accenture Global Solutions Limited AUTOMATIC EXTRACTION OF A LEARNING CORPUS FOR A DATA CLASSIFIER BASED ON AUTOMATIC LEARNING ALGORITHMS
JP2019049873A (ja) * 2017-09-11 2019-03-28 株式会社Screenホールディングス 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法
CN109033183B (zh) * 2018-06-27 2021-06-25 清远墨墨教育科技有限公司 一种可编辑的云词库的解析方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3777456B2 (ja) * 1996-04-23 2006-05-24 日本電信電話株式会社 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
CN1086821C (zh) * 1998-08-13 2002-06-26 英业达股份有限公司 汉语语句切分的方法及其系统
JP2002351870A (ja) * 2001-05-29 2002-12-06 Communication Research Laboratory 形態素の解析方法
CN100530171C (zh) * 2005-01-31 2009-08-19 日电(中国)有限公司 字典学习方法和字典学习装置
JP5073349B2 (ja) 2007-04-05 2012-11-14 ヤフー株式会社 専門用語抽出装置、方法及びプログラム

Also Published As

Publication number Publication date
TWI452475B (zh) 2014-09-11
WO2013128684A1 (ja) 2013-09-06
KR20130137048A (ko) 2013-12-13
TW201335776A (zh) 2013-09-01
JP5373998B1 (ja) 2013-12-18
CN103608805A (zh) 2014-02-26
CN103608805B (zh) 2016-09-07
KR101379128B1 (ko) 2014-03-27

Similar Documents

Publication Publication Date Title
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
JP5373998B1 (ja) 辞書生成装置、方法、及びプログラム
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
JP5834883B2 (ja) 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム
US11514034B2 (en) Conversion of natural language query
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
EP3483747A1 (en) Preserving and processing ambiguity in natural language
US20190347511A1 (en) Genealogy item ranking and recommendation
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
JP6186198B2 (ja) 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム
Selamat et al. Word-length algorithm for language identification of under-resourced languages
CN114912425A (zh) 演示文稿生成方法及装置
CN103218388A (zh) 文档相似性评价系统、文档相似性评价方法以及计算机程序
JP5355483B2 (ja) 略語完全語復元装置とその方法と、プログラム
Di Castro et al. Automated extractions for machine generated mail
JP5169456B2 (ja) 文書検索システム、文書検索方法および文書検索プログラム
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
CN111581162B (zh) 一种基于本体的海量文献数据的聚类方法
CN115495636A (zh) 网页搜索方法、装置及存储介质
CN113330430B (zh) 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
Chaonithi et al. A hybrid approach for Thai word segmentation with crowdsourcing feedback system
Winarti et al. Improving stemming algorithm using morphological rules
Abu Hawas et al. Rule-based approach for Arabic root extraction: new rules to directly extract roots of Arabic words

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130919

R150 Certificate of patent or registration of utility model

Ref document number: 5373998

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250