JPWO2012081386A1 - 自然言語処理装置、方法、及びプログラム - Google Patents

自然言語処理装置、方法、及びプログラム Download PDF

Info

Publication number
JPWO2012081386A1
JPWO2012081386A1 JP2012530022A JP2012530022A JPWO2012081386A1 JP WO2012081386 A1 JPWO2012081386 A1 JP WO2012081386A1 JP 2012530022 A JP2012530022 A JP 2012530022A JP 2012530022 A JP2012530022 A JP 2012530022A JP WO2012081386 A1 JPWO2012081386 A1 JP WO2012081386A1
Authority
JP
Japan
Prior art keywords
speech
different
pattern
natural language
language processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012530022A
Other languages
English (en)
Other versions
JP5314195B2 (ja
Inventor
関根 聡
聡 関根
基 若原
基 若原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Application granted granted Critical
Publication of JP5314195B2 publication Critical patent/JP5314195B2/ja
Publication of JPWO2012081386A1 publication Critical patent/JPWO2012081386A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

自然言語処理装置10は、共通の一以上の文を複数種類の形態素解析器A1、A2,A3のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得部11と、複数の解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得部12と、取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶部13と、出現回数が所定の閾値以下である品詞異なりパターンを記憶部13から抽出し、抽出された品詞異なりパターンに対応する文字列を、未知語の候補を含む文字列として特定する候補特定部14とを備える。

Description

本発明の一形態は自然言語処理装置、自然言語処理方法、自然言語処理プログラム、及び自然言語処理プログラムを記憶したコンピュータ読取可能な記録媒体に関する。
従来から様々な目的で、テキストデータに対する自然言語処理(自然言語解析)が行われている。例えば、一般ユーザにより記述されウェブサービス上に登録されたレビューやブログなどの記事に対して、自然言語処理が行われることがある。
自然言語処理の一手法として形態素解析がある。形態素解析に関し、下記特許文献1には、辞書に登録されている単語と重複しない形態素を未知語として抜き出すための方法が記載されている。
特開2002−297589号公報
しかしながら、上記特許文献1に記載の方法のように、単に、辞書に重複する語がない単語をすべて未知語と判断していたのでは、効率的に未知語を発見することができない。
そこで、効率的に未知語を発見することが要請されている。
本発明の一形態に係る自然言語処理装置は、共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、結果取得手段により取得された複数の解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、出現回数が所定の閾値以下である品詞異なりパターンを記憶手段から抽出し、抽出された品詞異なりパターンに対応する文字列を、未知語の候補を含む文字列として特定する候補特定手段とを備える。
本発明の一形態に係る自然言語処理方法は、自然言語処理装置により実行される自然言語処理方法であって、共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得ステップと、結果取得ステップにおいて取得された複数の解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得ステップと、パターン取得ステップにおいて取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶手段に記憶する記憶ステップと、出現回数が所定の閾値以下である品詞異なりパターンを記憶手段から抽出し、抽出された品詞異なりパターンに対応する文字列を、未知語の候補を含む文字列として特定する候補特定ステップとを含むことを特徴とする。
本発明の一形態に係る自然言語処理プログラムは、コンピュータを、共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、結果取得手段により取得された複数の解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、出現回数が所定の閾値以下である品詞異なりパターンを記憶手段から抽出し、抽出された品詞異なりパターンに対応する文字列を、未知語の候補を含む文字列として特定する候補特定手段として機能させる。
本発明の一形態に係るコンピュータ読取可能な記録媒体は、コンピュータを、共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、結果取得手段により取得された複数の解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、出現回数が所定の閾値以下である品詞異なりパターンを記憶手段から抽出し、抽出された品詞異なりパターンに対応する文字列を、未知語の候補を含む文字列として特定する候補特定手段として機能させる自然言語処理プログラムを記憶する。
発明者等は、形態素解析の対象となる文が未知語を含むときには、複数種類の形態素解析器がそれぞれ、未知語の周辺において異なる解析結果を示す、という仮定に基づき鋭意検討した。この仮定に基づいて、発明者等は大量の文を複数種類の形態素解析器にかけて大量の品詞異なりパターンを抽出し、得られた品詞異なりパターンをその頻度に基づいて分析した。そして、発明者等は、頻度が低い品詞異なりパターンに対応する文字列に未知語が含まれる傾向があるという知見を得た。
上記の形態によれば、共通の一以上の文に対する複数種類の形態素解析器の解析結果に基づいて、共通の位置で区切られた文字列の品詞異なりパターン(複数の形態素解析器で得られた、当該文字列に対する品詞の集合)が得られる。この品詞異なりパターンは、その出現回数とともに記憶される。そして、出現回数が所定の閾値以下である品詞異なりパターンに対応する文字列が、未知語の候補を含むものとして特定される。このように、未知語の存在確率が高いと推定される文字列を自動的に抽出することで、未知語の探索範囲を限定して、その分、効率的に未知語を発見することが可能になる。
別の形態に係る自然言語処理装置では、複数種類の形態素解析器の間で、各形態素解析器に格納されている辞書の内容が異なってもよい。
このように、辞書の内容が互いに異なる複数の形態素解析器を用いることで、未知語を実際に含んでいる文字列をより効率的に抽出することが可能になるので、その分、効率的に未知語を発見することができる。
さらに別の形態に係る自然言語処理装置では、複数種類の形態素解析器の間で、辞書に収録されている単語の個数が異なってもよい。
さらに別の形態に係る自然言語処理装置では、複数種類の形態素解析器の間で、辞書に収録されている品詞の体系が異なってもよい。
さらに別の形態に係る自然言語処理装置では、複数種類の形態素解析器の間で、各形態素解析器に格納されている単語間の接続ルールが異なってもよい。
このように、単語間の接続ルールが互いに異なる複数の形態素解析器を用いることで、未知語を実際に含んでいる文字列をより効率的に抽出することが可能になるので、その分、効率的に未知語を発見することができる。
さらに別の形態に係る自然言語処理装置では、複数種類の形態素解析器の間で、単語間の接続に対して設定されるスコアが異なってもよい。
さらに別の形態に係る自然言語処理装置では、複数種類の形態素解析器の間で、単語間の接続に関するスコア適用のルールが異なってもよい。
本発明の一側面によれば、未知語の存在確率が高いと推定される文字列を自動的に抽出することで未知語の探索範囲が限定されるので、その分、効率的に未知語を発見することが可能になる。
実施形態に係る自然言語処理装置の機能構成を示すブロック図である。 品詞異なりパターンの取得を説明するための図である。 頻度データの集計結果の例を示す図である。 頻度データに基づく品詞異なりパターンの分析結果の例を示す図である。 図1に示す自然言語処理装置の動作を示すフローチャートである。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。
まず、図1〜4を用いて、実施形態に係る自然言語処理装置10の機能及び構成を説明する。自然言語処理装置10は自然言語処理を実行するコンピュータであり、有線あるいは無線のネットワークを介して3台の形態素解析器と接続されている。なお、形態素解析器の台数は、複数であれば何台でもよい。
まず、形態素解析器について説明する。第1形態素解析器A1、第2形態素解析器A2、及び第3形態素解析器A3は、一以上の文に対して形態素解析を実行するコンピュータである。形態素解析の対象は、一つの文であってもよいし、一以上の文を含む一つの文章であってもよいし、複数の文章であってもよい。
形態素とは、言語において意味を持つ最小の単位である。形態素解析とは、辞書を用いて文を形態素に分割し、その文法的属性を同定する処理である。既存の主な形態素解析器では形態素と品詞情報とが収録された辞書を備えている。この辞書に含まれない語については、形態素解析器は字種(日本語であれば漢字、ひらがな、カタカナ、数字、英字など)による推定を行うが、すべての形態素を辞書なしで正確に同定することは困難である。このような、形態素解析のための辞書に載っていない語を、本明細書では未知語と呼ぶ。
未知語を辞書に追加して形態素解析器の精度を上げることが重要であるが、未知語を発見する方法は十分に開発されているとは言えない。根本的に、未知語というものは絶えず新しく現れるものであり、形態素解析器の未知語処理研究においては、未知語を発見する手法が非常に重要である。
本実施形態の基本的なアイデアは、「形態素解析の対象となる文が未知語を含むときには、異なる複数の形態素解析器がそれぞれ、未知語の周辺において異なる解析結果を示す」という仮定に基づいている。しかし、各形態素解析器の出力が異なっていれば必ず未知語が存在するというわけではなく、単に各形態素解析器で定義されている単語定義や品詞定義の違いに過ぎない場合がある。
本実施形態では、異なる複数の形態素解析器により得られた解析結果を比較することで得られた、品詞の異なりパターンの出現頻度に注目する。これは、以下のような背景に基づいている。
・単語の表記をそのまま使って異なり部分を見ることは、ほぼすべての解析データを見ることに等しく効率的ではない。
・未知語があった場合には、異なる種類の形態素解析器においてそれぞれ特殊な品詞パターンができるものと考えられる。
・形態素解析器では、出現頻度が高い語は辞書に登録されているはずであり、未知語は低頻度のパターンに含まれることが多いと考えられるので、頻度を基準に考えることは理にかなっている。
ここで、異なる複数の形態素解析器(複数種類の形態素解析器)とは、保持している辞書の内容及び単語間の接続ルールの双方または何れか一方が互いに異なる形態素解析器のことである。辞書の内容が異なる例としては、収録されている単語の個数や、収録されている品詞の体系が形態素解析器ごとに異なる場合が挙げられる。単語間の接続ルールが異なる例としては、単語間の接続に対して設定されるスコアや、当該スコアの適用のルール(例えば、コスト最小法、形態素数最小法、確率モデルなど)が形態素解析器ごとに異なる場合が挙げられる。
本実施形態では、大量の文章を第1〜第3形態素解析器A1、A2,A3のそれぞれが解析する。続いて、自然言語処理装置10がその解析結果を用いて大量の品詞異なりパターンを抽出し、各品詞異なりパターンの出現回数(出現頻度)をカウントする。そして、自然言語処理装置10はその出現回数に基づいて、未知語の候補を含む文字列を特定する。
この処理を行うために、自然言語処理装置10は機能的構成要素として結果取得部(結果取得手段)11、パターン取得部(パターン取得手段)12、記憶部(記憶手段)13、候補特定部(候補特定手段)14、及び結果出力部15を備えている。
この自然言語処理装置10は、オペレーティングシステムやアプリケーション・プログラムなどを実行するCPUと、ROM及びRAMで構成される主記憶部と、ハードディスクなどで構成される補助記憶部と、ネットワークカードなどで構成される通信制御部と、キーボードやマウスなどの入力部と、モニタなどの出力部とで構成される。自然言語処理装置10の各機能は、CPUや主記憶部の上に所定のソフトウェアを読み込ませ、CPUの制御の下で通信制御部や入力部、出力部などを動作させ、主記憶部や補助記憶部におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶部や補助記憶部内に格納される。
結果取得部11は、共通の一以上の文(以下では「テキスト」ともいう)を第1〜第3形態素解析器A1、A2,A3のそれぞれに解析させることで得られた解析結果を取得する手段である。解析結果は、テキストに含まれる一以上の形態素と各形態素の品詞とを示すデータである。結果取得部11は、各形態素解析器から解析結果を受信してもよいし、各形態素解析器から解析結果を読み出してもよい。結果取得部11は、取得した複数の解析結果(3台の形態素解析器から得られた結果)をパターン取得部12に出力する。
パターン取得部12は、複数の解析結果における共通の区切り位置を検出し、その位置で区切られている文字列に対応する一以上の品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得する手段である。
パターン取得部12は、入力された複数の解析結果のそれぞれについて、形態素の区切り位置を文頭から順に検出し、すべての解析結果で共通する区切り位置(共通区切り位置)を特定する。続いて、パターン取得部12は共通区切り位置で区切られる各文字列に対応する一以上の品詞を各解析結果から抽出し、抽出されたすべての品詞から成る集合を品詞異なりパターンとして取得する。
このようなパターン取得部12の処理例を図2を用いて説明する。図2は、「私はうっとろりんとした。」(watashi-ha-uttororin-to-shita)という日本語の一文に対する第1〜第3形態素解析器A1、A2,A3(図2では、analyzer_1,analyzer_2,analyzer_3と表示されている)の解析結果である。なお、上記の和文は、英語では「I was fascinated」と訳すことができる。「うっとろりん」(uttororin)という語句は、日本語の「うっとり」(uttori)(英語の「fascinated」)に相当する未知語である。図2では、分解された各語に対して、「名詞_代名詞」や「助詞_係助詞」などの品詞が対応付けられている。なお、図2の例では、品詞が「代名詞」などのように1段階で定義されたり、「助詞_係助詞」などのように2段階で定義されたりしているが、品詞階層は各形態素解析器で任意に定義されてよい。
上記の和文は、「私/は/うっとろりん/と/した」(watashi/ha/uttororin/to/shita)というように解析(分解)されるのが望ましい。しかし、語句「うっとろりん」(uttororin)がすべての形態素解析器A1、A2,A3において未知語であるため、図2に示すように、語句「うっとろりん」(uttororin)及びその周辺の語句についての解析結果が各形態素解析器で異なっている。
図2における「===chunked===」という線は共通区切り位置である。したがって、この場合にパターン取得部12は、共通区切り位置により区切られた、「私」(watashi)、「はうっとろりんと」(hauttororinto)、及び「した」(shita)という三つの文字列を取得する。このうち、文字列「はうっとろりんと」(hauttororinto)に関して、第1形態素解析器A1は「は/うっ/とろりん/と」(ha/ut/tororin/to)と解析し、第2形態素解析器A2は「はう/っと/ろ/りんと」(hau/tto/ro/rinto)と解析し、第3形態素解析器A3は「は/うっ/とろり/ん/と」(ha/ut/torori/n/to)と解析している。また、文字列「私」(watashi)及び「した」(shita)についても、形態素の区切り方や品詞の設定が形態素解析器間で異なっている。このように、文に未知語が含まれていると、過分割や断片化などの解析誤りが起きやすくなる。また、品詞の同定も正しく行われない可能性が高い。
続いて、パターン取得部12は、複数の形態素解析器間で品詞の同定結果が異なる部分を品詞異なりパターンとして取得する。具体的には、パターン取得部12は文字列「私」(watashi)に対して解析された品詞「名詞_代名詞」「名詞_普通名詞」「代名詞」の集合を、品詞異なりパターン「名詞_代名詞|名詞_普通名詞|代名詞」として取得する。同様に、パターン取得部12は文字列「はうっとろりんと」(hauttororinto)に対応する品詞異なりパターン「助詞_係助詞、動詞_自立、名詞_固有名詞、助詞_格助詞|動詞、助詞_格助詞、名詞_普通名詞、形容詞|助詞_係助詞、感動詞_フィラー、副詞、感動詞_フィラー、助詞_格助詞」を取得する。また、パターン取得部12は文字列「した」(shita)に対応する品詞異なりパターン「動詞_自立、助動詞|接尾辞_動詞性接尾辞|動詞_非自立可能、助動詞」を取得する。ここで、記号「|」は形態素解析器間の区切りを示している。
このように品詞異なりパターンを取得すると、パターン取得部12はそのパターンのこれまでの出現回数をカウントし、品詞異なりパターン及びその出現回数を示す頻度データを記憶部13に格納する。あるいは、パターン取得部12は取得した品詞異なりパターンに対応する出現回数を1だけ増分することで、記憶部13内の頻度データを更新する。また、パターン取得部12は、品詞異なりパターン及び当該パターンに対応する文字列を示す文字列データも記憶部13に格納する。例えば、パターン取得部12は文字列「はうっとろりんと」(hauttororinto)と品詞異なりパターン「助詞_係助詞、動詞_自立、名詞_固有名詞、助詞_格助詞|動詞、助詞_格助詞、名詞_普通名詞、形容詞|助詞_係助詞、感動詞_フィラー、副詞、感動詞_フィラー、助詞_格助詞」とが互いに関連付けられた文字列データを記憶部13に格納する。
記憶部13は、上記頻度データ及び文字列データを記憶する手段である。すなわち、記憶部13は、品詞異なりパターンをその出現回数とともに記憶し、更に、品詞異なりパターンに対応する文字列も記憶する。
候補特定部14は、出現回数が所定の閾値以下である品詞異なりパターンを記憶部13から抽出し、抽出された品詞異なりパターンに対応する文字列を、未知語の候補を含む文字列として特定する手段である。
用いる閾値は任意に定めてよいが、閾値決定の一つの指針をここで説明する。一例として、ある特定のウェブサイトから1万件の記事を取得し、これらの記事を構成する約4万5千文(1文あたりの平均文字数は約30.9文字)を4台の形態素解析器で処理して頻度データを取得した。そして、これらの頻度データに基づいて品詞異なりパターンの種類数を出現回数毎に集計したところ、図3に示すような結果が得られた。図3の例において、品詞異なりパターンの総数は5829個であった。
これらの品詞異なりパターンから出現頻度毎に20個のパターンをランダムに抽出し、未知語の有無を調べたところ、図4に示すような結果が得られた。図4の結果から、出現回数が低い(例えば1,2など)品詞異なりパターンには多くの未知語が含まれている一方で、出現回数が20より高い品詞異なりパターンに未知語が含まれる確率は非常に低いことが分かる。このことから、出現頻度が低い品詞異なりパターンに対応する文字列を調べれば効率的に未知語を発見できると言え、したがって、閾値を20に設定することが考えられる。もっとも、図4の結果に基づいて別の値(例えば2,3,10など)を閾値としてもよい。
図3,4の例に従って閾値が20に設定されている場合には、候補特定部14は記憶部13を参照して、出現回数が20以下である5200個の品詞異なりパターンに対応する文字列を抽出する。これにより、未知語の候補を含む文字列(未知語を含む可能性がある文字列)が特定される。候補特定部14は、抽出(特定)した文字列を結果出力部15に出力する。
結果出力部15は、未知語の候補を含む文字列を所定の方法で出力する手段である。例えば、結果出力部15はその文字列をモニタに表示したり、データベースなどの記録媒体に格納したりしてもよい。また、結果出力部15はその文字列をプリンタに印刷したり、ネットワーク経由で他の装置に送信したりしてもよい。
ユーザは、このようにして絞り込まれた文字列(調査対象文字列)を分析して未知語を得ることができる。一手法として、ユーザは調査対象文字列を、単に未知語が含まれるか否かに分類するのではなく、まず以下の6通りに分類する。
(基準1)品詞の同定のみ誤っているもの
(基準2)形態素の過分割であると判断されるもの
(基準3)未知語が含まれていると判断できるもの
(基準4)未知語が含まれていないと判断できるもの
(基準5)出力された差異検出部分の周辺を含めて未知語と判断されるもの
(基準6)表記誤り・文区切り誤りなどの、入力に依存した結果であるもの
基準1は、単語分割の態様が各形態素解析器で共通しているものの、品詞の同定に誤りが確認される場合である。基準2は、複数の語から構成される複合語を構成単位にまで分割しているために単語分割と品詞同定が一見正しいように見えるが、複合語としての意味が失われていると判断できるものである。基準3は、基準1,2以外のケースで、辞書から全く異なる項目を形態素として採用しているために、解析結果が意味の最小単位としてふさわしくないと判断できる場合である。基準4は、どの単語分割・品詞同定についても誤りがなく、解析結果が意味の最小単位としてふさわしいと判断できる場合である。基準5は、本来ひとつの未知語として取り扱うべき文字列の一部のみが品詞異なりパターンに対応する箇所として抽出されたが、その周辺の文字列も考慮する必要がある場合である。例えば、期待する未知語「うっとろりん」(uttororin)のうち「うっと」(utto)に対応する部分だけが品詞異なりパターンに対応する文字列として抽出される場合である。基準6は、未知語として抽出する意義が薄く、分析対象外とする場合である。
ユーザは、上記6基準のうち基準3,5に相当する文字列を、未知語を含むものとして評価すればよい。なお、結果出力部15により出力された調査対象文字列は、更にコンピュータで処理されてもよいし、人手により処理されてもよい。上記6基準に基づく評価も任意の手段で行ってよい。
次に、図5を用いて、図1に示す自然言語処理装置の動作(自然言語処理方法)を説明する。まず、結果取得部11が各形態素解析器A1、A2,A3から解析結果を取得する(ステップS11、結果取得ステップ)。続いて、パターン取得部12がそれらの解析結果に基づいて品詞異なりパターンを取得し(ステップS12、パターン取得ステップ)、当該パターンの出現回数を示す頻度データと、当該パターンに対応する文字列を示す文字列データとを記憶部13に格納する(ステップS13、記憶ステップ)。
一定数以上の頻度データ及び文字列データが得られると、候補特定部14が、出現回数が所定の閾値以下の品詞異なりパターンを記憶部13から抽出する(ステップS14、候補特定ステップ)。そして、候補特定部14は抽出された品詞異なりパターンに対応する文字列を、未知語の候補を含む文字列として抽出する(ステップS15、候補特定ステップ)。最後に、結果出力部15が抽出された文字列を出力する(ステップS16)。
上述した自然言語処理装置10の一連の処理をコンピュータに実行させるためのプログラム(自然言語処理プログラム)は、例えば、CD−ROMやDVD、ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供される。また、そのプログラムは、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。
自然言語処理プログラムは、上述した自然言語処理装置10の機能に対応するモジュールを備えており、それらのモジュールがコンピュータに読み込まれて実行されることにより、上述した機能が実現される。なお、自然言語処理プログラムの各モジュールは、一台のコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって、上述した一連の処理が行われる。
以上説明したように、本実施形態によれば、共通の一以上の文に対する複数種類の形態素解析器A1、A2,A3の解析結果に基づいて、共通の位置で区切られた文字列の品詞異なりパターンが得られる。この品詞異なりパターンは、その出現回数とともに記憶される。そして、出現回数が所定の閾値以下である品詞異なりパターンに対応する文字列が、未知語の候補を含むものとして特定される。このように、未知語の存在確率が高いと推定される文字列を自動的に抽出することで、未知語の探索範囲を限定して、その分、効率的に未知語を発見することが可能になる。本実施形態の形態素解析は、日本語のように分かち書きを行わない言語で書かれた文を解析する際に、当該解析の最初の段階において、単語を認識するのに利用することができる。したがって、本発明は、日本語に限らず、分かち書きを行わない他の言語(例えば中国語や韓国語など)の処理にも適用可能である。
本実施形態において、辞書の内容が互いに異なる複数の形態素解析器A1、A2,A3を用いれば、未知語を実際に含んでいる文字列をより効率的に抽出することが可能になるので、その分、効率的に未知語を発見することができる。このような効果は、単語間の接続ルールが互いに異なる複数の形態素解析器A1、A2,A3を用いた場合にも同様に得られる。
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
A1,A2,A3…形態素解析器、10…自然言語処理装置、11…結果取得部(結果取得手段)、12…パターン取得部(パターン取得手段)、13…記憶部(記憶手段)、14…候補特定部(候補特定手段)、15…結果出力部。

Claims (10)

  1. 共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、
    前記結果取得手段により取得された複数の前記解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の前記品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、
    前記パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、
    前記出現回数が所定の閾値以下である前記品詞異なりパターンを前記記憶手段から抽出し、抽出された品詞異なりパターンに対応する前記文字列を、未知語の候補を含む文字列として特定する候補特定手段と
    を備える自然言語処理装置。
  2. 前記複数種類の形態素解析器の間で、各形態素解析器に格納されている辞書の内容が異なる、
    請求項1に記載の自然言語処理装置。
  3. 前記複数種類の形態素解析器の間で、前記辞書に収録されている単語の個数が異なる、請求項2に記載の自然言語処理装置。
  4. 前記複数種類の形態素解析器の間で、前記辞書に収録されている前記品詞の体系が異なる、
    請求項2又は3に記載の自然言語処理装置。
  5. 前記複数種類の形態素解析器の間で、各形態素解析器に格納されている単語間の接続ルールが異なる、
    請求項1〜4の何れか一項に記載の自然言語処理装置。
  6. 前記複数種類の形態素解析器の間で、前記単語間の接続に対して設定されるスコアが異なる、
    請求項5に記載の自然言語処理装置。
  7. 前記複数種類の形態素解析器の間で、前記単語間の接続に関するスコア適用のルールが異なる、
    請求項5又は6に記載の自然言語処理装置。
  8. 自然言語処理装置により実行される自然言語処理方法であって、
    共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得ステップと、
    前記結果取得ステップにおいて取得された複数の前記解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の前記品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得ステップと、
    前記パターン取得ステップにおいて取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶手段に記憶する記憶ステップと、
    前記出現回数が所定の閾値以下である前記品詞異なりパターンを前記記憶手段から抽出し、抽出された品詞異なりパターンに対応する前記文字列を、未知語の候補を含む文字列として特定する候補特定ステップと
    を含むことを特徴とする自然言語処理方法。
  9. コンピュータを、
    共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、
    前記結果取得手段により取得された複数の前記解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の前記品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、
    前記パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、
    前記出現回数が所定の閾値以下である前記品詞異なりパターンを前記記憶手段から抽出し、抽出された品詞異なりパターンに対応する前記文字列を、未知語の候補を含む文字列として特定する候補特定手段と
    して機能させる自然言語処理プログラム。
  10. コンピュータを、
    共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、
    前記結果取得手段により取得された複数の前記解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の前記品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、
    前記パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、
    前記出現回数が所定の閾値以下である前記品詞異なりパターンを前記記憶手段から抽出し、抽出された品詞異なりパターンに対応する前記文字列を、未知語の候補を含む文字列として特定する候補特定手段と
    して機能させる自然言語処理プログラムを記憶したコンピュータ読取可能な記録媒体。
JP2012530022A 2010-12-17 2011-11-28 自然言語処理装置、方法、及びプログラム Active JP5314195B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201061424283P 2010-12-17 2010-12-17
US61/424,283 2010-12-17
PCT/JP2011/077418 WO2012081386A1 (ja) 2010-12-17 2011-11-28 自然言語処理装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP5314195B2 JP5314195B2 (ja) 2013-10-16
JPWO2012081386A1 true JPWO2012081386A1 (ja) 2014-05-22

Family

ID=46244497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012530022A Active JP5314195B2 (ja) 2010-12-17 2011-11-28 自然言語処理装置、方法、及びプログラム

Country Status (6)

Country Link
US (1) US8880391B2 (ja)
EP (1) EP2653981A4 (ja)
JP (1) JP5314195B2 (ja)
KR (1) KR101364321B1 (ja)
CN (1) CN103038762B (ja)
WO (1) WO2012081386A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015129044A1 (ja) * 2014-02-28 2015-09-03 楽天株式会社 情報処理システム、情報処理方法、および情報処理プログラム
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
JP2016170750A (ja) 2015-03-16 2016-09-23 富士通株式会社 データ管理プログラム、情報処理装置およびデータ管理方法
JP2017004127A (ja) 2015-06-05 2017-01-05 富士通株式会社 テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法
WO2017163346A1 (ja) * 2016-03-23 2017-09-28 株式会社野村総合研究所 文章解析システム及びプログラム
US11507743B2 (en) * 2017-02-28 2022-11-22 Nice Ltd. System and method for automatic key phrase extraction rule generation
CN108388547A (zh) * 2018-02-24 2018-08-10 平安科技(深圳)有限公司 字符串解析方法、装置、设备及计算机可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5331556A (en) * 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
US5521816A (en) * 1994-06-01 1996-05-28 Mitsubishi Electric Research Laboratories, Inc. Word inflection correction system
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
JPH09223143A (ja) * 1996-02-16 1997-08-26 Fujitsu Ltd 文書情報処理装置
JP3777456B2 (ja) * 1996-04-23 2006-05-24 日本電信電話株式会社 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
JP2002297589A (ja) * 2001-03-30 2002-10-11 Ricoh Co Ltd 未知語収集方法
CN101539907B (zh) * 2008-03-19 2013-01-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
JP5286125B2 (ja) * 2009-03-24 2013-09-11 Kddi株式会社 単語境界決定装置および形態素解析装置
CN101706777B (zh) * 2009-11-10 2011-07-06 中国科学院计算技术研究所 机器翻译中抽取调序模板的方法及系统

Also Published As

Publication number Publication date
CN103038762B (zh) 2015-05-20
CN103038762A (zh) 2013-04-10
EP2653981A4 (en) 2018-01-17
KR20120123122A (ko) 2012-11-07
JP5314195B2 (ja) 2013-10-16
WO2012081386A1 (ja) 2012-06-21
EP2653981A1 (en) 2013-10-23
US8880391B2 (en) 2014-11-04
KR101364321B1 (ko) 2014-02-18
US20130262085A1 (en) 2013-10-03

Similar Documents

Publication Publication Date Title
JP5314195B2 (ja) 自然言語処理装置、方法、及びプログラム
CN109416705B (zh) 利用语料库中可用的信息用于数据解析和预测
US8170868B2 (en) Extracting lexical features for classifying native and non-native language usage style
Elfardy et al. Token level identification of linguistic code switching
KR100999488B1 (ko) 문서 표절 탐색 방법 및 장치
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
JP2010157178A (ja) テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US8639496B2 (en) System and method for identifying phrases in text
Brooke et al. Measuring Interlanguage: Native Language Identification with L1-influence Metrics.
JP5646792B2 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
Fetahu et al. Multiconer v2: a large multilingual dataset for fine-grained and noisy named entity recognition
CN107148624A (zh) 预处理文本的方法以及用于执行该方法的预处理系统
Barrett et al. Cross-lingual transfer of correlations between parts of speech and gaze features
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
JP2008299675A (ja) かな混在表記抽出装置、方法及びプログラム
Boulaknadel et al. Amazighe Named Entity Recognition using a A rule based approach
Bergsma et al. Predicting the semantic compositionality of prefix verbs
CN113642739B (zh) 敏感词屏蔽质量评估模型的训练方法及相应的评估方法
TWI667579B (zh) 處理文書之資訊處理裝置、資訊處理方法及用來處理文書的程式
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
Nguyen-Son et al. Identifying adversarial sentences by analyzing text complexity
KR20080049764A (ko) 주석화된 코퍼스의 분할화 오류를 탐지하는 방법
Martynov et al. Augmentation methods for spelling corruptions
WO2022123716A1 (ja) 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置
Dash et al. Decomposition of Inflected Verbs

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130704

R150 Certificate of patent or registration of utility model

Ref document number: 5314195

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250