JPWO2012132388A1 - テキスト分析装置、問題言動抽出方法および問題言動抽出プログラム - Google Patents

テキスト分析装置、問題言動抽出方法および問題言動抽出プログラム Download PDF

Info

Publication number
JPWO2012132388A1
JPWO2012132388A1 JP2013507169A JP2013507169A JPWO2012132388A1 JP WO2012132388 A1 JPWO2012132388 A1 JP WO2012132388A1 JP 2013507169 A JP2013507169 A JP 2013507169A JP 2013507169 A JP2013507169 A JP 2013507169A JP WO2012132388 A1 JPWO2012132388 A1 JP WO2012132388A1
Authority
JP
Japan
Prior art keywords
text
behavior
action
disposal
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013507169A
Other languages
English (en)
Inventor
晃裕 田村
晃裕 田村
石川 開
開 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2012132388A1 publication Critical patent/JPWO2012132388A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

大量の問題言動を低コストで抽出できるテキスト分析装置を提供する。処分行動テキスト抽出手段81は、不正もしくは違法行為に対する処分を表す行動、または、その処分を求める行動である処分行動が記載されたテキストを、入力される複数のテキストの集合である入力テキスト集合から抽出する。問題言動抽出手段82は、処分行動テキスト抽出手段81が抽出したテキストに記載された処分行動の前に行われたその処分行動がとられる原因である問題言動に関する記載を抽出する。

Description

本発明は、テキストを分析して、テキスト中に記載された不正や違法行為、不正や違法行為を予兆させる行動や発言を抽出するテキスト分析装置、問題言動抽出方法および問題言動抽出プログラムに関する。
インターネット上の掲示板やウェブログには、企業や人物による不正や違法行為、不正や違法を予兆させる行動や発言が投稿者により記述されることがある。以降、行動と発言をあわせて「言動」と記す。また、以降、不正や違法行為、不正や違法を予兆させる行動や発言を、総じて「問題言動」と表す。例えば、掲示板に「会社Aから絶対儲かると勧誘電話がかかってきた」と書き込まれたとする。この場合、この会社Aの行動は、不実告知という、特定商取引に関する法律に違反する問題言動であると言える。
この問題言動の主体の関係者や、その主体が所属する企業がこのような問題言動に関する記述を発見できれば、これらの者が主体に働きかけ、言動を改善させる等の対策を講じることができる。また、不正や違法行為を取り締まる人物および機関は、問題言動についての記述を、不正や違法行為を認識する材料としたり、詳細な捜査を行う手がかりとしたり、不正や違法行為の証拠としたりすることができる。
そこで、ウェブサイトを分析して、所定の内容を検出するシステムが存在する。特許文献1には、所定の内容に類する内容が記述された掲示板を検出する装置が記載されている。特許文献1に記載された装置は、検出したい内容のカテゴリの代表ベクトルをカテゴリデータとして記憶しておき、掲示板のベクトルとそのカテゴリの代表ベクトルとの類似度を判定する。なお、検出したい内容のカテゴリとして、犯罪に関する記述内容のカテゴリや、個人を中傷する記述内容のカテゴリ、企業に不利益を与えるような記述内容のカテゴリなどが挙げられている。そして、特許文献1に記載された装置は、判定された類似度及び監視基準データ(具体的には、監視すべき掲示板と所定カテゴリとの類似度を示す閾値)により、検出すべき掲示板を抽出する。
なお、特許文献2には、日本語文の時制を解析する解析装置が記載されている。また、特許文献3には、映像コンテンツや音声コンテンツをトピック単位に分割するトピック境界決定方法が記載されている。
また、非特許文献1には、構文パターンと手がかり表現を用いて因果関係に関する知識を自動的に抽出する方法が記載されている。非特許文献2には、特徴的な要素を抽出するデータマイニングが記載されている。
特開2010−23147号公報 特開平8−44741号公報 特許第4175093号公報
坂地泰紀, 竹内康介, 関根聡, 増山繁,"構文パターンを用いた因果関係の抽出",言語処理学会第14回年次大会, pp.1144-1147, 2008. Hang Li and Kenji Yamanishi, "Mining from open answers in questionnaire data",In Proceedings of KDD-01,pp.443-449,2001.
特許文献1に記載された装置を用いることで、問題言動に関する記載を検出することは可能である。具体的には、問題言動に関する記載の集合を学習データとして予め用意し、それらの学習データ(具体的には、問題言動を正例の集合、その他の言動を負例の集合としたデータ)からSVM(Support Vector Machine)等を用いて代表ベクトル作成する。
しかし、特許文献1には、問題言動に関する記載の集合を作成する方法は開示されていない。学習データとして問題言動に関する記載の集合を人手で作成する事も考えられる。しかし、一般に、不正や違法行為に該当する言動は無数に存在しうるため、問題言動に関する記載の集合を作成するには多くのコストがかかってしまうという課題がある。
例えば、「違法行為である不実告知に該当する言動として、ウソや事実と異なる事を言う」という行動の場合、ウソや事実と異なる事は無数に存在する。すなわち、不実告知に該当する問題言動一つをとっても、不正や違法行為に該当する言動が無数に存在し得ることが分かる。このように、問題言動の表現を網羅する代表ベクトルを生成するためには、学習データになる問題言動が多数必要となる。そのため、問題言動に関する記載を人手で作成するには膨大なコストがかかるという課題がある。
そこで、本発明は、大量の問題言動に関する記載を低コストで抽出できるテキスト分析装置、問題言動抽出方法および問題言動抽出プログラムを提供することを目的とする。
本発明によるテキスト分析装置は、不正もしくは違法行為に対する処分を表す行動、または、その処分を求める行動である処分行動を含むテキストを、入力される複数のテキストの集合である入力テキスト集合から抽出する処分行動テキスト抽出手段と、処分行動テキスト抽出手段が抽出したテキストに含まれる処分行動の前に行われたその処分行動がとられる原因である言動を問題言動として抽出する問題言動抽出手段とを備えたことを特徴とする。
本発明による問題言動抽出方法は、不正もしくは違法行為に対する処分を表す行動、または、その処分を求める行動である処分行動を含むテキストを、入力される複数のテキストの集合である入力テキスト集合から抽出し、抽出されたテキストに含まれる処分行動の前に行われたその処分行動がとられる原因である言動を問題言動として抽出することを特徴とする。
本発明による問題言動抽出プログラムは、コンピュータに、不正もしくは違法行為に対する処分を表す行動、または、その処分を求める行動である処分行動を含むテキストを、入力される複数のテキストの集合である入力テキスト集合から抽出する処分行動テキスト抽出処理、および、処分行動テキスト抽出処理で抽出されたテキストに含まれる処分行動の前に行われたその処分行動がとられる原因である言動を問題言動として抽出する問題言動抽出処理を実行させることを特徴とする。
本発明によれば、大量の問題言動に関する記載を低コストで抽出できる。
本発明によるテキスト分析装置の第1の実施形態の構成例を示すブロック図である。 第1の実施形態のテキスト分析装置の動作例を示すフローチャートである。 本発明によるテキスト分析装置の第2の実施形態の構成例を示すブロック図である。 第2の実施形態のテキスト分析装置の動作例を示すフローチャートである。 本発明によるテキスト分析装置の第3の実施形態の構成例を示すブロック図である。 第3の実施形態のテキスト分析装置の動作例を示すフローチャートである。 本発明によるテキスト分析装置の第4の実施形態の構成例を示すブロック図である。 第4の実施形態のテキスト分析装置の動作例を示すフローチャートである。 処分行動を含むテキストの例を示す説明図である。 出力結果の例を示す説明図である。 検索用テキスト集合に含まれるテキストの例を示す説明図である。 関連テキストの例を示す説明図である。 優良言動生成用テキスト集合に含まれるテキストの例を示す説明図である。 単語ごとの特徴度の例を示す説明図である。 本発明によるテキスト分析装置の最小構成の例を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明によるテキスト分析装置の第1の実施形態の構成例を示すブロック図である。また、図2は、本実施形態のテキスト分析装置の動作例を示すフローチャートである。本実施形態におけるテキスト分析装置は、プログラム制御により動作するコンピュータ10と出力手段20とを備えている。具体的には、コンピュータ10は、中央処理装置、プロセッサ、データ処理を行う装置(以下、データ処理装置と記す。)などにより実現される。
コンピュータ10は、処分行動テキスト検索手段11と、処分行動前言動抽出手段12とを含む。
処分行動テキスト検索手段11は、入力される複数のテキストの集合30(以下、入力テキスト集合30と記す。)から、不正もしくは違法行為に対する処分を表す行動、または、その処分を求める行動(以下、処分行動と記す。)に関する記載を検索する。そして、処分行動テキスト検索手段11は、入力テキスト集合30から処分行動が記載されたテキストを抽出する(ステップA1)。なお、入力テキスト集合30に含まれる各テキストには、そのテキストの種類(例えば、ニュース記事、掲示板に掲載されたテキスト、ウェブログなど)を示す属性を含んでいてもよい。その属性を含むことで、以下に説明する処分行動前言動抽出手段12は、属性ごとに処分行動前言動を抽出する方法を選択することが可能になる。
処分を求める行動として、例えば、告発や告訴などの行動が挙げられる。処分行動テキスト検索手段11は、例えば、ニュース記事や、消費者生成メディア(CGM(Consumer Generated Media))により作成されたテキストなどを含む入力テキスト集合30から処分行動が記載されたテキストを抽出してもよい。
処分行動テキスト検索手段11は、予め作成された処分行動を表す単語のリストである処分行動単語リスト40に基づいて、入力テキスト集合30から処分行動が記載されたテキストを抽出してもよい。具体的には、処分行動テキスト検索手段11は、入力テキスト集合30に対して、処分行動単語リスト40に含まれる単語を検索クエリの条件として検索を行うことでテキストを抽出してもよい。処分行動単語リスト中に含まれる単語の例として、例えば、逮捕、業務改善命令、業務停止命令、営業停止処分、告発、告訴、損害賠償請求、慰謝料請求などが挙げられる。
続いて、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストの中から、処分行動の前になされ、その処分行動の原因になった言動(以降、処分行動前言動と記す。)に関する記載を抽出する。すなわち、処分行動前言動抽出手段12は、処分行動テキスト抽出手段11が抽出したテキストに記載された処分行動の前に行われ、その処分行動がとられる原因である処分行動前言動に関する記載を抽出する(ステップA2)。このように抽出された処分行動前言動に関する記載は、処分行動がとられる原因となる言動に関する記載であり、処分行動の対象である不正や違法行為に該当する問題言動を表している。したがって、処分行動前言動に関する記載を特定することは、問題言動に関する記載を特定することと言える。
ここで、処分行動前言動として判定される言動は、書き手がテキスト化したという行動を意味するものではなく、テキストの各箇所に記載されている言動である。言動がなされた時間とは、その言動を書き手がテキスト化した時間を意味するものではなく、その言動がなされた時間を意味する。ただし、以下に述べるように、場合によっては、書き手がテキスト化した時間を、テキストの各箇所に記載されている言動の時間に近似してもよい。
処分行動前言動抽出手段12は、例えば、ステップA1で抽出されたテキストが処分行動に関連することが記載されたテキストであることを利用してもよい。例えば、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストの中から、そのテキスト内で処分行動の前になされた言動に関する記載を処分行動前言動に関する記載として抽出してもよい。
具体的には、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストの中の各言動が記載された箇所が示している時制(過去形、現在形、未来形)を判定する。そして、処分行動前言動抽出手段12は、ステップA1で使用した処分行動単語リスト40内の単語が含まれている箇所を処分行動が記載されている箇所と特定する。そして、処分行動前言動抽出手段12は、処分行動が記載された箇所が示している時制より前の時制で記載された言動に関する記載を処分行動前言動に関する記載として抽出する。
また、処分行動前言動抽出手段12は、処分行動が記載された箇所に含まれる日付を利用してもよい。処分行動前言動抽出手段12は、例えば、処分行動や各言動が記載されている同一文内に存在する日付を記載箇所の日付と特定する。ステップA1で抽出されたテキストを解析して処分行動が記載された箇所の日付が特定できた場合、処分行動前言動抽出手段12は、処分行動が記載された箇所の日付よりも前の箇所の言動に関する記載を抽出してもよい。
なお、処分行動前言動抽出手段12は、ピンポイントで日付を特定してもよい。また、処分行動前言動抽出手段12は、4月中、4月10日〜15日など、一定の範囲で日付を特定してもよい。そして、処分行動前言動抽出手段12は、ある言動が記載された箇所の日付の範囲全てが、処分行動が記載された箇所の日付より前である場合、その言動が処分行動よりも前の言動であると判定してもよい。
また、例えば、ステップA1で抽出されたテキストが、掲示板のように、各部分に日付が付与されているテキストである場合、処分行動前言動抽出手段12は、処分行動や各言動が記載された部分に付与された日付を特定してもよい。そして、処分行動前言動抽出手段12は、ステップA1で抽出されたテキスト中で、処分行動が記載された箇所の日付より前の日付が記載された部分の言動を抽出してもよい。
また、処分行動前言動抽出手段12は、例えば、ステップA1で抽出されたテキストが、言動が行われた順に記載されているテキストと仮定し、ステップA1で抽出されたテキスト中で処分行動より前に存在する言動を抽出してもよい。この処理は、ステップA1で抽出されたテキストが、事実を時系列順で列挙したテキストである場合に有効な処理である。
このように、処分行動前言動抽出手段12は、ステップA1で抽出されたテキスト中において処分行動が記載された箇所が示している日時を特定し、その日時より前の言動に関する記載を処分行動前言動に関する記載として抽出してもよい。
また、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストを解析することにより、ステップA1で抽出されたテキスト中に記載された言動から、処分行動の原因である言動を特定し、その言動に関する記載を処分行動前言動に関する記載として抽出してもよい。処分行動前言動抽出手段12は、ステップA1で抽出したテキストの中から処分行動の原因となっている部分を、例えば、自然言語処理分野において因果関係を解析する技術を用いて特定してもよい。そして、処分行動前言動抽出手段12は、特定された部分に存在する言動を処分行動前言動として抽出してもよい。
また、言動に対する原因を特定するために、原因と結果とを対応づけたパタンを記載した因果対応パタン辞書(図示せず)を予め作成しておいてもよい。このとき、処分行動前言動抽出手段12は、因果対応パタン辞書の各パタンとステップA1で抽出されたテキストとのパタンマッチングを行う。そして、処分行動前言動抽出手段12は、結果が処分行動にマッチするパタンの原因部分に記載されている言動を処分行動前言動として抽出してもよい。原因と結果とを対応づけたパタンの例として、『[原因]したため[結果]』、『[原因]ので[結果]』、『[原因]。それ故、[結果]。』、『[結果]。[原因]ため』などが挙げられる。
ここで、入力されるテキストがニュース記事の場合、報道のパタンがある程度定まっており、処分行動とその原因の報道パタンを予め設定しやすいため、より好ましい。この場合、原因と結果とを対応づけた報道パタンとして、例えば、『[原因]したとして[処分行動]がとられた』、『[原因]したため[処分行動]がとられた』などを因果対応パタン辞書に設定しておいてもよい。このとき、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストのうち、ニュース記事に対しては、因果対応パタン辞書の報道パタンとマッチングを行うことにより、原因部分に記載されている言動を処分行動前言動として抽出してもよい。
さらに、入力されるテキストがニュース記事の場合、テキスト全体が処分行動に関連する記述になっている可能性が高い。そこで、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストのうち、ニュース記事のみを対象として言動に関する記載を抽出してもよい。このようにすることで、処分行動がとられた原因である言動に関する記載をより精度高く抽出することが可能になる。
このように、処分行動前言動抽出手段12は、処分行動との因果関係に基づいて、その処分行動に対応する処分行動前言動(すなわち、問題言動)に関する記載を抽出してもよい。具体的には、処分行動前言動抽出手段12は、原因と結果とを対応づけたパタン(例えば、因果対応パタン辞書に設定されたパタン)に基づいて処分行動に対する処分行動前言動に関する記載を抽出してもよい。また、処分行動前言動抽出手段12は、自然言語処理分野において一般的に知られている因果関係を解析する技術を用いて処分行動前言動に関する記載を抽出してもよい。
また、入力されるテキストが処分行動を報じるニュース記事の場合、処分行動が過去の出来事であり、さらに、記事中の言動が処分行動に関連する言動である可能性が高い。そこで、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストのうちニュース記事のみを対象としてもよい。そして、処分行動前言動抽出手段12は、そのテキスト中の各言動の記述部分に対して時制の判定を行い、現在形と未来形の言動を除いた言動を処分行動前言動として抽出してもよい。
また、処分行動の原因である言動は、処分行動の対象者が行った言動である可能性が高い。そこで、処分行動前言動抽出手段12は、前述する各処理によって抽出した言動に関する記載のうち、処分行動の対象者が行った言動に限って処分行動前言動に関する記載を抽出してもよい。このような処理を行うことにより、抽出する問題言動の精度を向上させることができる。
処分行動前言動抽出手段12は、例えば、自然言語処理分野における格構造解析技術を利用して、処分行動の対象や言動の主体を特定してもよい。この際、対象や主体が明記されていない場合、処分行動前言動抽出手段12は、省略照応解析を行うことで必要な情報を補ってから、対象や主体を特定してもよい。そして、処分行動前言動抽出手段12は、特定した処分行動の対象者と、言動の主体が一致している言動を処分行動前言動に関する記載として抽出すればよい。
また、処分行動が記載された箇所の近傍は、処分行動に関連する記述になっている可能性が高い。そこで、処分行動前言動抽出手段12は、まず、ステップA1で抽出されたテキストから処分行動が記載された箇所を特定する。そして、処分行動前言動抽出手段12は、特定した箇所から予め設定しておいた範囲内にある近傍部分に含まれている言動の記載のみを対象として、上記の処分行動前言動に関する記載を抽出する処理を行ってもよい。このように、範囲を狭めることで、抽出する問題言動の精度を向上させることができる。例えば、処分行動の記載箇所の前n文以内、後n文以内、前後n文以内、処分行動の記載箇所と同一段落などのように近傍部分を設定してもよい。ここで、nは自然数である。
また、ステップA1で抽出されたテキストには複数の話題が含まれ、処分行動に関連しない部分が含まれている可能性がある。そこで、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストの中から、処分行動と同一の話題を表す部分に含まれている言動のみを対象として、上記の処分行動前言動に関する記載を抽出する処理を行ってもよい。
具体的には、処分行動前言動抽出手段12は、自然言語処理分野における一般的なトピック分割手法で、テキスト内の話題の境界を検出する。そして、処分行動前言動抽出手段12は、その境界に基づいて、テキストを同一の話題の塊であるセグメントに分割する。そして、処分行動前言動抽出手段12は、処分行動の記載箇所と同一のセグメント内に存在する言動のみを対象として、上記の処分行動前言動に関する記載を抽出する処理を行ってもよい。このように、同一の話題を対象として処分行動前言動を抽出することで、抽出する問題言動の精度を向上させることができる。
なお、文、文節、句、文の構文木、文の構文木の部分木、動詞とそれに係る文節のペア、動詞の格構造、主語と動詞の2項関係、文内で共起する2単語などを言動の記述単位として用いることが可能である。また、言動には、「〜する」等の肯定の言動だけでなく、「〜しない」等の言動を行わないという否定の言動を用いてもよい。
最後に、出力手段20は、ステップA2で抽出された言動に関する記載の集合を出力する(ステップA3)。その際、出力手段20は、その言動に関する記載が入力テキスト集合中に含まれていた数などの統計情報を合わせて出力してもよい。また、出力手段20は、言動が記載されたテキストと共に抽出された言動に関する記載を出力してもよい。また、出力手段20は、入力テキスト集合のテキストごとに、テキスト中に含まれるステップA2で抽出された言動に関する記載や、その記載が含まれている数などの統計情報を出力してもよい。また、出力手段20は、ステップA2で抽出された言動に関する記載の集合のうち、予め設定された閾値よりも高い頻度で入力テキスト集合に出現する言動のみに限って出力してもよい。
以上のように、本実施形態によれば、処分行動テキスト検索手段11が処分行動が記載されたテキストを入力テキスト集合30から抽出する。そして、処分行動前言動抽出手段12が抽出されたテキストに記載された処分行動の前に行われた、その処分行動がとられる原因である言動に関する記載を(すなわち、処分行動前言動)を問題言動に関する記載として抽出する。よって、大量の問題言動に関する記載を低コストで抽出できる。
具体的には、第1の実施形態では、ステップA1およびステップA2の処理を行うことで、処分行動の前になされた処分行動の原因となる問題言動に関する記載を入力テキスト集合30から自動的に抽出できる。したがって、多くのテキストを入力テキスト集合とし大量の問題言動に関する記載を抽出する場合であっても、コストを抑えることが可能になる。
さらに、本実施形態では、処分行動をもとに問題言動に関する記載を抽出する。そのため、例えば、ステップA1で与えられる処分行動単語リスト40に含まれる単語が少なくても、ステップA2の処理で、多種多様な不正や違法行為に関する問題言動の記載を抽出できる。
実施形態2.
図3は、本発明によるテキスト分析装置の第2の実施形態の構成例を示すブロック図である。また、図4は、本実施形態のテキスト分析装置の動作例を示すフローチャートである。本実施形態におけるテキスト分析装置は、プログラム制御により動作するコンピュータ110と出力手段120とを備えている。具体的には、コンピュータ110は、中央処理装置、プロセッサ、データ処理を行う装置(以下、データ処理装置と記す。)などにより実現される。
コンピュータ110は、処分行動テキスト検索手段111と、処分行動前言動抽出手段112とを含む。また、処分行動前言動抽出手段112は、処分行動前テキスト検索手段113と、言動抽出手段114とを有する。
まず、処分行動テキスト検索手段111は、入力テキスト集合30から、処分行動に関する記載を検索する。そして、処分行動テキスト検索手段111は、入力テキスト集合30から処分行動が記載されたテキストを抽出する(ステップB1)。なお、ステップB1における処分行動テキスト検索手段111の動作は、第1の実施形態におけるステップA1に示す処分行動テキスト検索手段11の動作と同様であるため、説明を省略する。
続いて、処分行動前言動抽出手段112は、ステップB1で抽出されたテキストに記載された処分行動より前になされた言動に関する記載を含むテキストを特定する。処分行動前言動抽出手段112は、処分行動より前になされた、その処分行動の原因になった言動(すなわち、処分行動前言動)に関する記載を、そのテキストの中から抽出する(ステップB2〜ステップB3)。以下、本実施形態における処分行動前言動抽出手段112の動作を説明する。
まず、処分行動前テキスト検索手段113は、テキストの集合である検索用テキスト集合50と、ステップB1で抽出されたテキストとに基づき、ステップB1で抽出されたテキスト中の処分行動より前の言動を記載したテキスト(以降、処分行動前テキストと呼ぶ)を、検索用テキスト集合50の中から抽出する。ここで、検索用テキスト集合50は、問題言動(すなわち、処分行動前言動)に関する記載を含むテキストの集合である。また、検索用テキスト集合50のテキストには、処分行動に関する記載が含まれていなくてもよい。なお、検索用テキスト集合50は、入力テキスト集合30と同一であってもよく、別に与えられた異なるテキストの集合であってもよい。
具体的には、まず、処分行動前テキスト検索手段113は、ステップB1で抽出されたテキストの中の処分行動が記載された箇所が示している日付を特定する。処分行動前テキスト検索手段113は、例えば、第1の実施形態において処分行動前言動抽出手段12が日付を特定する方法を用いて、処分行動が記載された箇所が示している日付を特定する。
また、ステップB1で抽出されたテキストが処分行動を報じたニュース記事である場合、処分行動前テキスト検索手段113は、処分行動とニュース記事の報道日との間の時間のずれは少ないことを利用し、ニュース記事の報道日を処分行動が記載された箇所の日付としてもよい。
そして、処分行動前テキスト検索手段113は、検索用テキスト集合50から処分行動が記載された箇所が示している日付よりも前の日付に行われた言動が記載されたテキスト(すなわち、処分行動前テキスト)を抽出する(ステップB2)。処分行動前テキスト検索手段113は、例えば、検索用テキスト集合50の中から、処分行動が記載された箇所が示している日付より前の日付部分を含むテキストを特定し、そのテキストを処分行動前テキストとして抽出してもよい。
また、一般に、処分行動が行われた日付から前に遡るほど、処分行動の対象である不正や違法行為に関連するテキストではなくなる可能性が高くなる。そこで、処分行動前テキスト検索手段113は、抽出対象とする処分行動前テキストを、予め設定した値より近い日付のことを記載したテキストに限定してもよい。この値には、例えば、「処分行動が記載された箇所の日付よりn日以内」のように、処分行動が記載された箇所の日付から相対的な離れ具合を指定してもよい。なお、nは自然数である。また、この値には、「XXXX年X月X日以降」のように直接日付を指定してもよい。
続いて、言動抽出手段114は、ステップB2で抽出された処分行動前テキストの中から、処分行動がとられる前の言動に関する記載を処分行動前言動に関する記載として抽出する(ステップB3)。言動抽出手段114は、例えば、処分行動前テキストの中から、処分行動が記載された箇所より前の日付の部分に記載された言動のうち、時制が未来形の言動を除いた言動を抽出してもよい。言動抽出手段114は、処分行動が記載された箇所が示している日付を特定する方法と同様の方法を用いて、各言動が記載された箇所が示している日付を特定してもよい。また、言動抽出手段114は、第1の実施形態におけるステップA2において処分行動前言動抽出手段12が処分行動前言動に関する記載を抽出する方法と同様の方法を用いて処分行動前言動に関する記載を抽出してもよい。
また、処分行動の原因である言動は、処分行動の対象者が行った言動である可能性が高い。そこで、言動抽出手段114は、上述の処理によって抽出された言動に関する記載のうち、処分行動の対象者が行った言動に関する記載に限って処分行動前言動に関する記載を抽出してもよい。このような処理を行うことにより、抽出する問題言動の精度を向上させることができる。
最後に、出力手段120は、ステップB3で抽出された言動に関する記載の集合を出力する(ステップB4)。なお、出力手段120が言動に関する記載の集合を出力する方法は、第1の実施形態におけるステップA3において出力手段20が出力する方法と同様であるため、説明を省略する。
以上のように、本実施形態によれば、処分行動前テキスト検索手段113が、入力テキスト集合30から抽出されたテキストの中から処分行動が記載された箇所が示している日時を特定し、検索用テキスト集合50から特定された日時より前に行われた言動が記載されたテキストを抽出する。そして、言動抽出手段114が、抽出されたテキストから、処分行動がとられる前の言動に関する記載を問題言動に関する記載として抽出する。
すなわち、本実施形態では、ステップB2で抽出された処分行動前テキストから問題言動に関する記載が抽出される。そのため、第1の実施形態の効果に加え、処分行動の日付を特定することで、処分行動に関する記載が含まれていないテキストからも問題言動に関する記載を抽出できる。
実施形態3.
図5は、本発明によるテキスト分析装置の第3の実施形態の構成例を示すブロック図である。また、図6は、本実施形態のテキスト分析装置の動作例を示すフローチャートである。本実施形態におけるテキスト分析装置は、プログラム制御により動作するコンピュータ210と出力手段220とを備えている。具体的には、コンピュータ210は、中央処理装置、プロセッサ、データ処理を行う装置(以下、データ処理装置と記す。)などにより実現される。
コンピュータ210は、処分行動テキスト検索手段211と、処分行動前言動抽出手段212とを含む。また、処分行動前言動抽出手段212は、関連テキスト抽出手段213と、言動抽出手段214とを有する。
まず、処分行動テキスト検索手段211は、入力テキスト集合30から、処分行動に関する記載を検索する。そして、処分行動テキスト検索手段211は、入力テキスト集合30から処分行動が記載されたテキストを抽出する(ステップC1)。なお、ステップC1における処分行動テキスト検索手段211の動作は、第1の実施形態におけるステップA1に示す処分行動テキスト検索手段11の動作と同様であるため、説明を省略する。
続いて、処分行動前言動抽出手段212は、ステップC1で抽出されたテキストに関連するテキスト(以下、関連テキストと記す。)から、ステップC1で抽出されたテキスト中の処分行動の原因になった言動(すなわち、処分行動前言動)に関する記載を抽出する(ステップC2〜ステップC3)。以下、本実施形態における処分行動前言動抽出手段212の動作を説明する。
まず、関連テキスト抽出手段213は、テキストの集合である関連テキスト抽出用テキスト集合60と、ステップC1で抽出されたテキストとに基づき、ステップC1で抽出されたテキストの関連テキストを関連テキスト抽出用テキスト集合60の中から抽出する(ステップC2)。ここで、関連テキスト抽出用テキスト集合60は、問題言動(すなわち、処分行動前言動)に関する記載を含むテキストの集合である。また、関連テキスト抽出用テキスト集合60のテキストには、処分行動に関する記載が含まれていなくてもよい。なお、関連テキスト抽出用テキスト集合60は、入力テキスト集合30と同一であってもよく、別に与えられた異なるテキストの集合であってもよい。
例えば、ステップC1で抽出されたテキストがウェブページであり、そのウェブページからリンクが張られている場合、関連テキスト抽出手段213は、そのリンク先のテキストを関連テキストとして抽出してもよい。また、関連テキスト抽出手段213は、関連テキスト抽出用テキスト集合60のテキストからステップC1で抽出されたテキストへ張られたリンクを特定した場合、そのリンク元のテキストを関連テキストとして抽出してもよい。ここで、リンクとは、他の文書の位置を示す情報である。
例えば、ステップC1で抽出されたテキストがウェブページに掲載されたニュース記事の場合、リンクの例として、関連ニュース記事へのリンクが考えられる。また、例えば、ステップC1で抽出されたテキストが、ウェブログや掲示板を代表とするCGMのように、ある情報に反応して書かれたテキストや、ある情報に起因して書かれたテキストである場合、リンクの例として、その情報元へのリンクが考えられる。
また、関連テキスト抽出手段213は、ステップC1で抽出されたテキストと類似度の高いテキストを関連テキストとして抽出してもよい。なお、類似度の高いテキストを抽出する方法については、後述する。
続いて、言動抽出手段214は、ステップC2で抽出された関連テキストの中から、ステップC1で抽出されたテキスト中の処分行動がとられる前の言動に関する記載を処分行動前言動に関する記載として抽出する(ステップC3)。具体的には、言動抽出手段214は、ステップC1で抽出されたテキスト中において処分行動が記載された箇所が示している日付を特定する。言動抽出手段214は、処分行動が記載された箇所が示している日付を特定する方法として、第2の実施形態のステップB2において処分行動前テキスト検索手段113が日付を特定する方法を用いればよい。
そして、言動抽出手段214は、関連テキストの中から、処分行動が記載された箇所より前の日付の部分に記載された言動のうち、時制が未来形の言動を除いた言動を抽出してもよい。このとき、言動抽出手段214は、第2の実施形態におけるステップB3において言動抽出手段114が処分行動前言動に関する記載を抽出する方法と同様の方法を用いて言動を抽出してもよい。
また、ステップC2で抽出された関連テキストが、ステップC1で抽出されたテキストから張られるリンク先のテキストである場合、言動抽出手段214は、リンク先のテキストの方がリンク元のテキストより先に作成されていることを利用してもよい。具体的には、言動抽出手段214は、関連テキスト中の各言動の記述箇所ごとに時制の判定を行い、関連テキスト中の各言動から未来形の言動を除いた言動に関する記載を抽出してもよい。また、言動抽出手段214は、第1の実施形態におけるステップA2において処分行動前言動抽出手段12が処分行動前言動に関する記載を抽出する方法と同様の方法を用いて処分行動前言動に関する記載を抽出してもよい。
また、処分行動の原因である言動は、処分行動の対象者が行った言動である可能性が高い。そこで、言動抽出手段214は、上述の処理によって抽出された言動に関する記載のうち、処分行動の対象者が行った言動に関する記載に限って処分行動前言動に関する記載を抽出してもよい。このような処理を行うことにより、抽出する問題言動の精度を向上させることができる。
最後に、出力手段220は、ステップC3で抽出された言動に関する記載の集合を出力する(ステップC4)。なお、出力手段220が言動に関する記載の集合を出力する方法は、第1の実施形態におけるステップA3において出力手段20が出力する方法と同様であるため、説明を省略する。
以上のように、本実施形態によれば、関連テキスト抽出手段213が、関連テキスト抽出用テキスト集合60から、入力テキスト集合30から抽出されたテキストとの類似度が高いテキスト、または、入力テキスト集合30から抽出されたテキスト中に記載されたリンクから特定されるテキスト、または、入力テキスト集合30から抽出されたテキストをリンク先として記載しているテキストを、関連テキストとして抽出する。そして、言動抽出手段214が、抽出された関連テキストから、処分行動がとられる前の言動に関する記載を問題言動に関する記載として抽出する。
すなわち、本実施形態では、ステップC2で抽出された関連テキストから問題言動に関する記載を抽出する。そのため、第1の実施形態の効果に加え、関連テキストに処分行動に関する記載が含まれていない場合であっても、ステップC1で抽出されたテキストに関連する関連テキストから問題言動に関する記載を抽出できる。
実施形態4.
図7は、本発明によるテキスト分析装置の第4の実施形態の構成例を示すブロック図である。また、図8は、本実施形態のテキスト分析装置の動作例を示すフローチャートである。本実施形態におけるテキスト分析装置は、プログラム制御により動作するコンピュータ310と出力手段320とを備えている。具体的には、コンピュータ310は、中央処理装置、プロセッサ、データ処理を行う装置(以下、データ処理装置と記す。)などにより実現される。
コンピュータ310は、処分行動テキスト検索手段311と、処分行動前言動抽出手段312と、優良言動生成手段313と、優良言動比較手段314とを備えている。
まず、処分行動テキスト検索手段311は、入力テキスト集合30から処分行動が記載されたテキストを抽出する(ステップD1)。なお、処分行動テキスト検索手段311が処分行動が記載されたテキストを抽出する方法は、第1の実施形態における処分行動テキスト検索手段11の動作と同様であるため、説明を省略する。
続いて、処分行動前言動抽出手段312は、処分行動テキスト検索手段311が抽出したテキストの中から処分行動前言動に関する記載を抽出する(ステップD2)。処分行動前言動抽出手段312は、第1の実施形態のステップA2において処分行動前言動抽出手段12と同様の方法を用いて処分行動前言動に関する記載を抽出してもよい。また、処分行動前言動抽出手段312は、第2の実施形態のステップB2〜ステップB3における処分行動前言動抽出手段112と同様の方法を用いて処分行動前言動に関する記載を抽出してもよい。また、処分行動前言動抽出手段312は、第3の実施形態のステップC1〜C2における処分行動前言動抽出手段212と同様の方法を用いて処分行動前言動に関する記載を抽出してもよい。
続いて、優良言動生成手段313は、不正および違法行為とは関係のない言動(以降、優良言動と記す。)の集合を生成するためのテキストの集合である優良言動生成用テキスト集合70から優良言動に関する記載を抽出し、優良言動の集合を生成する(ステップD3)。優良言動生成用テキスト集合70は、上述の通り、優良言動を含むテキストの集合である。優良言動生成用テキスト集合70は、入力テキスト集合30と同一であってもよく、別に与えられた異なるテキストの集合であってもよい。
優良言動生成手段313は、例えば、優良言動生成用テキスト集合70として、不正や違法行為とは無関係なテキストの集合が与えられると、そのテキストから言動に関する記載を抽出し、抽出した言動の集合を優良言動の集合として生成してもよい。不正や違法行為とは無関係なテキストの集合として、例えば、良い事を報じたニュース記事が記載されたテキストの集合などが挙げられる。
また、優良言動生成手段313は、不正や違法行為を行っていない者(以降、優良者と記す。)が主体の言動の集合を優良言動の集合として生成してもよい。例えば、予め優良者の集合を設定しておき、優良言動生成手段313が優良言動生成用テキスト集合70に含まれるテキストに記載された各言動の中から、優良者の集合に含まれる主体の言動に関する記載を抽出し、抽出した言動の集合を優良言動の集合として生成してもよい。優良者として、例えば、不正や違法行為を取り締まる者などを設定しておけばよい。
また、優良言動生成手段313は、ステップD1で抽出された処分行動の対象を特定し、特定された対象以外を優良者としてもよい。つまり、優良言動生成用テキスト集合70に含まれるテキストに記載された各言動の中から、処分行動の対象が主体の言動を除いた言動に関する記載を、優良者が主体の言動として抽出してもよい。そして、優良言動生成手段313は、抽出した言動の集合を優良言動の集合としてもよい。優良言動生成手段313は、第1の実施形態のステップA2において処分行動前言動抽出手段12が処分行動の対象や言動の主体を特定する方法(例えば、格構造解析技術)と同一の方法を用いて処分行動の対象や言動の主体を特定してもよい。
また、優良言動生成手段313は、処分行動が行われた後には、その処分行動の対象になった不正や違反行動に関する言動がなくなると仮定し、ステップD1で抽出された処分行動より後になされた言動の集合を優良言動の集合として生成してもよい。
優良言動生成手段313は、例えば、ステップD1で抽出されたテキストの中で処分行動が記載された箇所が示している日付を特定する。そして、優良言動生成手段313は、優良言動生成用テキスト集合70中のテキストから処分行動が記載された箇所が示している日付より後に作成されたテキストを特定する。優良言動生成手段313は、第2の実施形態のステップB2において処分行動前テキスト検索手段113が処分行動前テキストを抽出する方法と同様の方法を用いて、テキストを特定してもよい。さらに、優良言動生成手段313は、特定したテキスト中に記載された各言動に対して時制の判定を行う。そして、優良言動生成手段313は、各言動に関する記載の中から過去形以外の言動に関する記載を抽出し、抽出した言動の集合を優良言動の集合として生成する。
また、優良言動生成手段313は、例えば、テキストの各部分の日付を判定し、処分行動が記載された箇所が示している日付より後の日付に該当する部分を特定する。そして、優良言動生成手段313は、特定した部分に記載されている言動の中から、過去形以外の言動を抽出し、抽出した言動の集合を優良言動の集合として生成してもよい。なお、優良言動生成手段313は、各部分の日付を判定する方法として、第2の実施形態のステップB2において処分行動前テキスト検索手段113が日付を特定する方法と同様の方法を用いてもよい。
また、優良言動生成手段313は、ステップD2において、処分行動テキスト検索手段311が抽出したテキストの中から処分行動前言動として抽出されなかった言動の集合を、優良言動の集合として生成してもよい。
また、処分行動が行われた後、その処分行動の対象になった者は、不正や違反行動をとらないと仮定される。そこで、優良言動生成手段313は、ステップD1で抽出された処分行動より後になされた言動のうち、ステップD1で抽出された処分行動の対象者が主体の言動に限った集合を優良言動の集合として生成してもよい。なお、優良言動生成手段313は、処分行動より後になされた言動の特定や言動の主体の特定、処分行動の対象者の特定を、上述する方法を用いて行えばよい。
続いて、優良言動比較手段314は、ステップD2で生成された処分行動前言動の集合と、ステップD3で生成された優良言動の集合とが入力されると、優良言動の集合と比較して処分行動前言動の集合に頻出する言動の集合を抽出する(ステップD4)。具体的には、優良言動比較手段314は、一般的なマイニング方式を用いて、処分行動前言動の各要素を優良言動集合と比較し、処分行動前言動に特徴的な度合いを示す特徴度を計算する。そして、優良言動比較手段314は、処分行動前言動の集合に含まれる各言動の中から、処分行動前言動に特徴的な言動を特定する。
最後に、出力手段320は、ステップD4で抽出された言動に関する記載の集合を出力する(ステップD5)。なお、出力手段320が言動に関する記載の集合を出力する方法は、第1の実施形態におけるステップA3において出力手段20が出力する方法と同様であるため、説明を省略する。
以上のように、本実施形態によれば、優良言動生成手段313が、優良言動生成用テキスト集合70から、優良言動の集合を生成する。そして、優良言動比較手段314が、優良言動の集合と比較して処分行動前言動抽出手段312が抽出した問題言動の集合に頻出する言動の集合を、その問題言動の集合の中から抽出する。すなわち、本実施形態では、ステップD4で処分行動前言動の中から問題言動としては不適切な優良言動に該当する言動を除いている。よって、問題言動を精度よく抽出できる。
以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。第1の実施例におけるテキスト分析装置は、第1の実施形態におけるテキスト分析装置に対応する。また、以下の説明では、入力テキスト集合30がウェブページ上のテキスト集合であり、処分行動単語リスト40が、「業務停止命令」、「告訴」、「慰謝料請求」の3単語を含んでいるとする。
まず、処分行動テキスト検索手段11は、入力テキスト集合30に対して、処分行動単語リスト40に含まれる単語を検索クエリの条件として検索を行う。そして、処分行動テキスト検索手段11は、処分行動単語リスト40に含まれる単語が記載されたテキストを入力テキスト集合30から抽出する(ステップA1)。
図9は、処分行動が記載されたテキストの例を示す説明図である。図9(a)に例示する「例1」および図9(d)に例示する「例4」が、単語「慰謝料請求」が記載されたテキストである。また、図9(b)に例示する「例2」が、単語「業務停止命令」が記載されたテキストである。また、図9(c)に例示する「例3」が、単語「告発」が記載されたテキストである。
続いて、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストの中から、処分行動前言動に関する記載を抽出する。処分行動前言動抽出手段12は、例えば、ステップA1で抽出されたテキストの中から、そのテキスト中に記載された処分行動の前になされた言動に関する記載を処分行動前言動に関する記載として抽出する。
ここで、処分行動前言動として判定される言動は、書き手がテキスト化したという行動を意味するものではなく、テキストの各箇所に記載されている言動である。言動がなされた時間とは、その言動を書き手がテキスト化した時間を意味するものではなく、その言動がなされた時間を意味する。
例えば、図9(c)に例示する「例3」の257番目の書き込みは、「“名前ZZZ”が、“友達も知らずに危ない薬処方されてたみたい。”という書き込みを2000年11月25日23:15にした。」という言動が特定される。ただし、処分行動前言動抽出手段12が特定する対象は、上記言動ではなく、「友達も知らずに危ない薬処方されてた」という言動である。また、上記言動がなされた日時は、257番目の書き込みがされた2000年11月25日23:15ではなく、危ない薬が処方された時間(すなわち、2000年11月25日23:15より前)である。ただし、以下に述べるように、場合によっては、書き手がテキスト化した時間を、テキストの各箇所に記載されている言動の時間に近似してもよい。
動詞とその動詞に係る文節のペアを言動の記述単位として扱う場合について説明する。ただし、言動の記述単位は、動詞とその動詞に係る文節のペアに限定されない。言動を特定できる方法であれば、他の単位で言動を扱ってもよい。
処分行動前言動抽出手段12は、まず、各言動が記載された箇所が示している時制を判定する。処分行動前言動抽出手段12は、例えば、特許文献2に記載された方法で時制を判定してもよく、一般的に知られた他の方法を用いて時制を判定してもよい。そして、処分行動前言動抽出手段12は、処分行動が記載された箇所の時制より前の時制で記載された箇所の言動を抽出する。なお、以下の説明において時制を判定する場合、これらの方法を使用することが可能である。
ここで、図9(a)に例示する「例1」を対象として時制を判定する方法を説明する。処分行動前言動抽出手段12は、まず、ステップA1で抽出されたテキストから処分行動が記載された箇所(すなわち、ステップA1で検索クエリの条件として与えられた単語が含まれている箇所)を特定する。この場合、第2段落の第1文目に記載された「慰謝料請求を行う」という部分が特定される。そして、処分行動前言動抽出手段12は、その部分の時制を判定する。この場合、処分行動が記載された箇所が現在形であると判定される。
そして、処分行動前言動抽出手段12は、図9(a)に例示する「例1」に含まれる言動のうち、現在形より前の時制である過去形で記載された箇所の言動を抽出する。この場合、第3文目から、「人物Aが詐欺をした」、「人物Aが詐欺をしたという記事がのせられていた」、「雑誌社Bの発行する雑誌にはのせられていた」などの言動が抽出される。
また、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストに含まれる各言動のうち、処分行動が記載された箇所の日付よりも前の箇所の言動に関する記載を処分行動前言動に関する記載として抽出してもよい。
図9(b)に例示する「例2」において、第2段落の第1文目が、処分行動が記載されている箇所と特定される。処分行動前言動抽出手段12は、その文中の日付表現を抽出し、処分行動が記載された箇所の日付を4月1日であると特定する。同様に、処分行動前言動抽出手段12は、第2段落の第3文目に記載された言動の日付を3月上旬、第3段落に記載された言動の日付を(4月)3日と特定できる。そして、処分行動前言動抽出手段12は、これらの日付を比較する。この場合、処分行動前言動抽出手段12は、処分行動が記載された箇所の日付より前の言動が第2段落の第3文目に記載された言動と判定できる。そこで、処分行動前言動抽出手段12は、その文内の言動に関する記載を処分行動前言動に関する記載として抽出する。
また、例えば、ステップA1で抽出されたテキストの各部分に日付が付与されている場合、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストの中から、処分行動が記載されている箇所の日付より前の日付が記載されている部分の言動に関する記載を抽出してもよい。
例えば、ステップA1で抽出されたテキストが図9(c)に例示する「例3」の場合、処分行動は256番目の書き込みと特定される。そこで、処分行動前言動抽出手段12は、処分行動が記載された箇所の日付を「2000年11月25日22:24」と特定してもよい。そして、処分行動前言動抽出手段12は、その日付より前の部分(すなわち、255番目の書き込み内の言動)の記載を処分行動前言動に関する記載として抽出してもよい。
また、処分行動前言動抽出手段12は、例えば、ステップA1で抽出されたテキストが、言動が行われた順に記載されているテキストと仮定し、ステップA1で抽出されたテキスト中で処分行動より前に位置する言動に関する記載を抽出してもよい。例えば、ステップA1で抽出されたテキストが図9(c)に例示する「例3」の場合、処分行動は256番目の書き込みと特定される。そこで、処分行動前言動抽出手段12は、その書き込みよりも前に位置する255番目の書き込み内の言動を処分行動前言動に関する記載として抽出してもよい。
また、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストを解析することにより、ステップA1で抽出されたテキスト中の言動から、処分行動の原因である言動を特定し、その言動に関する記載を処分行動前言動に関する記載として抽出してもよい。処分行動前言動抽出手段12は、ステップA1で抽出したテキストの中から処分行動の原因となっている部分を、例えば、非特許文献1に記載された因果関係を解析する技術を用いて特定してもよい。そして、処分行動前言動抽出手段12は、特定された部分に存在する言動に関する記載を処分行動前言動に関する記載として抽出してもよい。
例えば、図9(a)に例示する「例1」の場合、「慰謝料請求を行う」という処分行動の原因は、「事実無根の記事をのせたとして」の部分と特定される。そこで、処分行動前言動抽出手段12は、その部分に含まれる言動である「事実無根の記事をのせた」を、処分行動前言動に関する記載として抽出する。
また、処分行動前言動抽出手段12は、因果対応パタン辞書を用いて処分行動前言動に関する記載を抽出してもよい。例えば、因果対応パタン辞書に、「[結果]。[原因]ため」が記載されているとする。また、ステップA1で図9(b)に例示する「例2」が抽出されたものとする。このとき、処分行動前言動抽出手段12は、まず、因果対応パタン辞書に記載された各パタンと、図9(b)に例示する「例2」の内容とを比較し、結果が処分行動にマッチするパタンを特定する。この場合、第2段落の第1文および第2文が「[結果]。[原因]ため」というパタンにマッチする。そして、処分行動前言動抽出手段12は、その原因部分に該当する『「損をさせない」とうそを言って勧誘した』の中の言動を、処分行動前言動に関する記載として抽出する。
また、入力されるテキストがニュース記事の場合、報道のパタンがある程度定まっており、処分行動とその原因の報道パタンを予め設定しやすい。そこで、処分行動とその原因の報道パタンを因果対応パタン辞書に記載しておく。そして、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストのうち、ニュース記事のみを対象に処分行動前言動に関する記載を抽出する処理を行ってもよい。図9に示す例では、ニュース記事を示す「例1」、「例2」が処理対象になる。
また、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストのうち、ニュース記事のみを対象として言動を抽出してもよい。図9に示す例では、ニュース記事を示す「例1」、「例2」が処理対象になる。
また、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストのうちニュース記事のみを対象としてもよい。このとき、処分行動前言動抽出手段12は、そのテキスト中の各言動の記述部分に対して時制の判定を行い、現在形と未来形の言動を除いた言動に関する記載を処分行動前言動に関する記載として抽出してもよい。図9に示す例では、ニュース記事を示す「例1」、「例2」が処理対象になる。この場合、例えば、図9(b)に例示する「例2」からは、未来形の第3段落を除いた部分の言動が抽出される。
また、処分行動前言動抽出手段12は、前述する各処理によって抽出した言動のうち、処分行動の対象者が行った言動に限って処分行動前言動に関する記載を抽出してもよい。この場合、処分行動前言動抽出手段12は、まず、処分行動の対象者を特定する。処分行動前言動抽出手段12は、例えば、自然言語処理分野における格構造解析技術を利用して、処分行動における動詞の格構造を解析する。そして、処分行動前言動抽出手段12は、対象格に相当する部分を処分行動の対象者として特定してもよい。また、処分行動前言動抽出手段12は、「ヲ格」、「ニ格」または「ヘ格」に相当する部分を処分行動の対象者として特定してもよい。例えば、図9(b)に例示する「例2」の場合、処分行動前言動抽出手段12は、上記2つのどちらの方法を用いても処分行動の対象者として「会社Aに」を特定できる。
そして、処分行動前言動抽出手段12は、処分行動の対象者が主体である言動を抽出する。処分行動前言動抽出手段12は、例えば、自然言語処理分野における格構造解析技術を利用して、各言動の格構造を解析し、動作主格が処分行動の対象者である言動を抽出する。また、処分行動前言動抽出手段12は、自然言語処理分野における格構造解析技術を用いて、「ガ格」が処分行動の対象者である言動を抽出してもよい。
例えば、図9(b)に例示する「例2」の場合、処分行動前言動抽出手段12は、格構造解析を行う際に、まず、省略照応解析技術を用いて省略要素を補う。そして、処分行動前言動抽出手段12は、省略要素を補った言動から、処分行動の対象者である「会社A」が主体の言動として、第2段落の第2〜4文目、及び、第3段落内の言動を抽出する。
このように、処分行動の対象者の言動に関する記載を抽出することで、例えば、違法行為を取り締まる側の言動など、処分行動には関連するが問題言動として不適切な言動を除くことができる。例えば、図9(b)に例示する「例2」の場合、第2段落第1文目の「経産省」が主体の言動に関する記載を処分行動前言動に関する記載から除くことができる。したがって、抽出される問題言動の精度が向上する。
また、処分行動前言動抽出手段12は、処分行動が記載された箇所から予め設定しておいた範囲内にある近傍部分に含まれている言動のみを対象として、上記の処分行動前言動に関する記載を抽出する処理を行ってもよい。
対象とする範囲を、例えば、処分行動が記載された箇所の前後1文としてもよい。この場合、例えば、図9(c)に例示する「例3」では、処分行動の記載箇所が256番目の書き込みになる。そのため、対象とする範囲が255〜257番目の書き込みになる。また、対象とする範囲を、処分行動が記載された箇所と同一の段落としてもよい。この場合、例えば、図9(b)に例示する「例2」では、第2段落内の言動が抽出対象になる。
このように、対象の範囲を限定することで、抽出する問題言動の精度を向上させることができる。例えば、図9(c)に例示する「例3」における256番目の書き込みから遠距離にある、病院Xと無関係な内容の書き込み(具体的には、259、260番目の書き込み)を除くことができる。
また、処分行動前言動抽出手段12は、ステップA1で抽出されたテキストの中から、処分行動と同一の話題を表す部分に含まれている言動のみを対象として、上記の処分行動前言動に関する記載を抽出する処理を行ってもよい。処分行動前言動抽出手段12は、例えば、自然言語処理分野における一般的なトピック分割手法や特許文献3に記載された方法を用いて、ステップA1で抽出されたテキスト内の話題の境界を検出する。さらに、処分行動前言動抽出手段12は、その境界に基づいて、テキストを同一の話題の塊であるセグメントに分割する。そして、処分行動前言動抽出手段12は、処分行動の記載箇所と同一のセグメント内に存在する言動のみを対象として、上記の処分行動前言動に関する記載を抽出する処理を行ってもよい。
例えば、図9(c)に例示する「例3」の場合、トピックの境界が258番目と259番目の書き込みの間に検出される。そこで、処分行動前言動抽出手段12は、処分行動の記載箇所(256番目)と同一の話題部分である255〜258番目の書き込み内の言動を抽出対象としてもよい。この場合、病院Xと無関係な話題である、259番目〜260番目の書き込みの言動を除くことができる。このように、同一の話題を対象として処分行動前言動に関する記載を抽出することで、抽出する問題言動の精度を向上させることができる。
最後に、出力手段20は、ステップA2で抽出された言動に関する記載の集合を出力する(ステップA3)。図10は、出力結果の例を示す説明図である。図10(a)に示す例では、ステップA2で「業務停止命令を出した。」、『「絶対もうかる」と勧誘。』、「訪問販売ができなくなる。」の3つの言動が処分行動前言動に関する記載として抽出されたことを示す。
出力手段20は、言語に関する記載の集合を出力する際、その言動に関する記載が入力テキスト集合中に含まれていた数などの統計情報を合わせて出力してもよい。図10(b)に示す例では、問題言動(処分行動前言動)に関する記載として、例えば、「業務停止命令を出した。」が入力テキスト集合中に2回出現したことを示す。
また、出力手段20は、言動が記載されたテキストと共に抽出された言動に関する記載を出力してもよい。図10(c)に示す例では、例えば、図9の例2や掲示板7(図9には図示せず)で特定されるテキスト中に「業務停止命令を出した。」が含まれていることを示す。
また、出力手段20は、入力テキスト集合のテキストごとに、ステップA2で抽出された言動が記載されている数などの統計情報を合わせて出力してもよい。図10(d)に示す例では、例えば、図9の例2に示すテキスト中に問題言動が3つ含まれていることを示す。
また、出力手段20は、ステップA2で抽出された言動に関する記載の集合のうち、予め設定された閾値よりも高い頻度で入力テキスト集合に出現する言動に関する記載のみに限って出力してもよい。例えば、図10(b)に例示する「例2」に対して閾値が2に設定されている場合、出力手段20は、「業務停止命令を出した。」、『「絶対もうかる」と勧誘。』を問題言動に関する記載として出力してもよい。
以上のように、本実施例におけるテキスト分析装置がステップA1およびステップA2の処理を行うことで、図10に例示する処分行動がとられる原因となる問題言動に関する記載を入力テキスト集合から自動的に抽出できる。したがって、多くのテキストを入力テキスト集合とし大量の問題言動に関する記載を抽出する場合であっても、コストを抑えることが可能になる。
さらに、本実施例では、処分行動をもとに、問題言動に関する記載を抽出する。そのため、例えば、ステップA1で与えられる処分行動単語リスト40に含まれる単語が少なくても、処分行動前言動抽出手段12は、ステップA2において、不正や違法行為に関する多種多様な問題言動に関する記載を抽出することができる。例えば、「慰謝料請求」という一つの処分行動から、図9(a)に例示する「例1」からは名誉毀損、図9(d)に例示する「例4」からは表示改竄という二種類の不正に関する言動に関する記載を抽出できる。
次に、第2の実施例について説明する。第2の実施例におけるテキスト分析装置は、第2の実施形態におけるテキスト分析装置に対応する。
まず、処分行動テキスト検索手段111は、入力テキスト集合30から、処分行動に関する記載を検索する。そして、処分行動テキスト検索手段111は、入力テキスト集合30から処分行動が記載されたテキストを抽出する(ステップB1)。なお、ステップB1における処分行動テキスト検索手段111の動作は、第1の実施例におけるステップA1に示す処分行動テキスト検索手段11の動作と同様であるため、説明を省略する。
続いて、処分行動前言動抽出手段112は、ステップB1で抽出されたテキストに記載された処分行動より前になされた言動に関する記載を含むテキストを特定する。処分行動前言動抽出手段112は、処分行動より前になされた、その処分行動の原因になった言動(すなわち、処分行動前言動)に関する記載を、そのテキストの中から抽出する(ステップB2〜ステップB3)。以下、本実施例における処分行動前言動抽出手段112の動作を説明する。
まず、処分行動前テキスト検索手段113は、検索用テキスト集合50から、ステップB1で抽出されたテキストに対応する処分行動前テキストを抽出する。図11は、検索用テキスト集合50に含まれるテキストの例を示す説明図である。本実施例では、例として、図11(a)〜(c)に例示するテキストが検索用テキスト集合50に含まれ、図9(b)に例示する「例2」に対応する処分行動前テキストを検索する動作を説明する。
処分行動前テキスト検索手段113は、まず、図9(b)に例示する「例2」に含まれる処分行動が記載された箇所が示している日付を特定する。処分行動前テキスト検索手段113は、例えば、第1の実施形態のステップA2において処分行動前言動抽出手段12が日付を特定する方法と同一の方法を用いて、業務停止命令の処分行動が記載された箇所の日付を4月1日と特定する。また、図9(b)に例示するテキストは、ニュース記事である。そのため、処分行動前テキスト検索手段113は、ニュース記事の報道日を、処分行動が記載された箇所の日付と仮定してもよい。すわなち、処分行動前テキスト検索手段113は、業務停止命令の処分行動が記載された箇所の日付を2010年4月2日と特定してもよい。
そして、処分行動前テキスト検索手段113は、検索用テキスト集合50から処分行動が記載された箇所の日付より前の日付に行われた言動が記載されたテキストを抽出する(ステップB2)。例えば、図9(b)に例示するテキストからは、処分行動が記載された部分の日付が4月1日(また、2010年4月2日)と特定される。このとき、処分行動前テキスト検索手段113は、検索用テキスト集合50の中から、処分行動が記載された部分の日付である4月1日より前の日付部分を含むテキストを抽出してもよい。
例えば、図11(b)に例示する「例2」には、2010年1月の事柄が記載されていると判定できる。そのため、処分行動前テキスト検索手段113は、このテキストを抽出する。同様に、図11(c)に例示する「例3」には、2010年3月25日の事柄が記載されていると判定できる。この日付は処分行動の日付より前である。そのため、処分行動前テキスト検索手段113は、このテキストを抽出する。一方、図11(a)に例示する「例1」には、2011年1月2日の事柄が記載されていると判定できる。そのため、処分行動前テキスト検索手段113は、このテキストを処分行動前テキストとして抽出しない。
また、処分行動前テキスト検索手段113は、抽出対象とする処分行動前テキストを、予め設定した値より近い日付のことを記載したテキストに限定してもよい。例えば、「処分行動の日付より1ヶ月前以内を抽出対象とする」と設定されていた場合、処分行動前テキスト検索手段113は、図11(a)〜(c)に例示するテキストのうち、図11(c)に例示する「例3」のみ処分行動前テキストとして抽出する。
続いて、言動抽出手段114は、ステップB2で抽出された処分行動前テキストの中から、処分行動がとられる前の言動に関する記載を処分行動前言動に関する記載として抽出する(ステップB3)。例えば、ステップB1で処分行動が記載されたテキストとして、業務停止命令が記載された図9(b)に例示する「例2」のテキストが抽出され、ステップB2で処分行動前テキストとして図11(b),(c)に例示する「例2」および「例3」が抽出されたとする。この場合、言動抽出手段114は、図11(b),(c)に例示する「例2」および「例3」から、4月1日(または、2010年4月2日)より前の言動に関する記載を抽出する。言動抽出手段114は、例えば、処分行動前テキスト中で処分行動が記載された箇所より前の日付部分に記載された言動で、時制が未来形の言動を除いた言動に関する記載を抽出してもよい。
例えば、図11(b)に例示する「例2」の場合、第1文目の日付は2010年1月であり、処分行動が記載された箇所の日付より前である。さらに、第1文目は現在形であるので、「会社Aに対する苦情が増えています。」の言動が抽出される。図11(c)に例示する「例3」の場合、97〜99番目の書き込みがされた日付はいずれも2010年3月25日であり、処分行動が記載された箇所の日付より前である。したがって、言動抽出手段114は、97〜99番目の書き込みに含まれる言動のうち、未来形の言動を除いた、「昨日もかかってきた」、「会社Aからかかってきた」、「電話がかかってきた」、「昨日きた」、「その電話無視した」を抽出する。
また、言動抽出手段114は、上述の処理によって抽出された言動のうち、処分行動の対象者が行った言動に関する記載に限って処分行動前言動に関する記載を抽出してもよい。言動抽出手段114は、例えば、第1の実施形態におけるステップA2において処分行動前言動抽出手段12が対象者を絞って処分行動前言動を抽出する方法と同様の方法を用いて処分行動前言動を抽出してもよい。この場合、例えば、図11(c)に例示する「例3」からは、「銘柄Cは必ず値上がりするって言ってた。」が抽出される。このような処理を行うことにより、問題言動として不適切な言動を排除できるため、抽出する問題言動の精度を向上させることができる。
最後に、出力手段120は、ステップB3で抽出された言動に関する記載の集合を出力する(ステップB4)。出力手段120は、例えば、「銘柄Cは必ず値上がりするって言ってた。」などを含む言動を出力する。なお、出力手段120が言動に関する記載の集合を出力する方法は、第1の実施形態におけるステップA3において出力手段20が出力する方法と同様であるため、説明を省略する。
以上のように、本実施例では、ステップB2で抽出された処分行動前テキストから問題言動に関する記載が抽出される。そのため、処分行動の日付が特定できれば、処分行動に関する記載が含まれていないテキスト中の問題言動に関する記載も抽出できる。
例えば、図11(b),(c)に例示する「例2」および「例3」には、処分行動に関する記載が含まれていない。一方で、これらのテキストには、「銘柄Cは必ず値上がりするって言ってた。」などの問題言動に関する記載が含まれている。本実施例では、第1の実施例の効果に加え、処分行動に関する記載が含まれていないテキスト中の問題言動に関する記載を抽出できる。
次に、第3の実施例について説明する。第3の実施例におけるテキスト分析装置は、第3の実施形態におけるテキスト分析装置に対応する。
まず、処分行動テキスト検索手段211は、入力テキスト集合30から、処分行動に関する記載を検索する。そして、処分行動テキスト検索手段211は、入力テキスト集合30から処分行動が記載されたテキストを抽出する(ステップC1)。なお、ステップC1における処分行動テキスト検索手段211の動作は、第1の実施形態におけるステップA1に示す処分行動テキスト検索手段11の動作と同様であるため、説明を省略する。
続いて、処分行動前言動抽出手段212は、ステップC1で抽出されたテキストの関連テキストから、ステップC1で抽出されたテキスト中の処分行動の原因になった言動(すなわち、処分行動前言動)に関する記載を抽出する(ステップC2〜ステップC3)。以下、本実施形態における処分行動前言動抽出手段212の動作を説明する。
まず、関連テキスト抽出手段213は、関連テキスト抽出用テキスト集合60と、ステップC1で抽出されたテキストとに基づき、ステップC1で抽出されたテキストの関連テキストを関連テキスト抽出用テキスト集合60の中から抽出する(ステップC2)。なお、本実施例では、関連テキスト抽出用テキスト集合60がウェブページ上のテキスト集合であるものとする。
関連テキスト抽出手段213は、例えば、リンク先のテキストを関連テキストとして特定してもよい。図12は、関連テキストの例を示す説明図である。関連テキスト抽出手段213は、例えば、図9(d)に例示する「例4」から関連テキストとして、図12に例示する「www.news.yyy/xxxxxx/」で特定されるテキストを抽出する。また、関連テキスト抽出手段213は、関連テキスト抽出用テキスト集合60のテキストからステップC1で抽出されたテキストへ張られたリンクを特定した場合、そのリンク元のテキストを関連テキストとして抽出してもよい。
また、関連テキスト抽出手段213は、ステップC1で抽出されたテキストと類似度の高いテキストを関連テキストとして抽出してもよい。具体的には、関連テキスト抽出手段213は、ステップC1で抽出されたテキストと関連テキスト抽出用テキスト集合内の各テキストを、次元を形態素とし、次元の要素が次元に対応する形態素に出現するか否かを表した単語ベクトルに変換する。この場合、関連テキスト抽出手段213は、対応する形態素が出現する場合の値を1とし、出現しない場合の値を0として表せばよい。そして、関連テキスト抽出手段213は、テキスト間の類似度として単語ベクトル間のコサイン類似度を計算し、計算したコサイン類似度が予め人手で定めた閾値より高いテキストを抽出する。なお、類似度の高いテキストの抽出方法は、上記方法に限定されない。
続いて、言動抽出手段214は、ステップC2で抽出された関連テキストの中から、ステップC1で抽出されたテキスト中の処分行動がとられる前の言動に関する記載を処分行動前言動に関する記載として抽出する(ステップC3)。例えば、図9(d)に例示する「例4」からは、処分行動が記載された箇所の日付が2009年5月6日と特定される。この場合、言動抽出手段214は、図12に例示する関連テキストの中から、2009年5月6日より前の日付部分に記載された言動で、かつ、時制が未来形の言動を除いた言動に関する記載を抽出する。このとき、言動抽出手段214は、処分行動が記載された箇所の日付を特定する方法として、第2の実施形態のステップB2において処分行動前テキスト検索手段113が日付を特定する方法を用いればよい。この場合、図12に例示するニューステキストの報道日が2009年5月5日であるため、言動抽出手段214は、図12に例示する関連テキストに含まれる言動が記載された箇所の日付を2009年5月5日と特定できる。この場合、図12に例示する関連テキストからは、未来形の言動を除いた言動である、「体調が悪くなった」、「消費期限が1ヶ月以上前に切れた食材を使い、」、「食品の表示も偽っていた。」などが抽出される。
また、ステップC2で抽出された関連テキストが、ステップC1で抽出されたテキストから張られるリンク先のテキストである場合、言動抽出手段214は、リンク先のテキストの方がリンク元のテキストより先に作成されていることを利用してもよい。具体的には、言動抽出手段214は、関連テキスト中の各言動の記述箇所ごとに時制の判定を行い、関連テキスト中の各言動から未来形の言動を除いた言動に関する記載を抽出してもよい。この場合、言動抽出手段214は、図12に例示する関連テキストに含まれる言動のうち、未来形の言動を除いた言動に関する記載を抽出する。
また、言動抽出手段214は、上述の処理によって抽出された言動のうち、処分行動の対象者が行った言動に限って処分行動前言動に関する記載を抽出してもよい。言動抽出手段214は、例えば、第1の実施形態におけるステップA2において処分行動前言動抽出手段12が対象者を絞って処分行動前言動に関する記載を抽出する方法と同様の方法を用いて処分行動前言動に関する記載を抽出してもよい。この場合、例えば、図12に例示する関連テキストからは、「消費期限が1ヶ月以上前に切れた食材を使い、」、「食品の表示も偽っていた。」が抽出される。このような処理を行うことにより、問題言動として不適切な言動を排除できるため、抽出する問題言動の精度を向上させることができる。
最後に、出力手段220は、ステップC3で抽出された言動に関する記載の集合を出力する(ステップC4)。出力手段220は、例えば、「消費期限が1ヶ月以上前に切れた食材を使い、」、「食品の表示も偽っていた。」などを含む言動を出力する。なお、出力手段220が言動に関する記載の集合を出力する方法は、第1の実施形態におけるステップA3において出力手段20が出力する方法と同様であるため、説明を省略する。
以上のように、本実施例では、ステップC2で抽出された関連テキストから問題言動に関する記載を抽出する。そのため、関連テキストに処分行動に関する記載が含まれていない場合であっても、ステップC1で抽出されたテキストに関連する関連テキストから問題言動に関する記載を抽出できる。
例えば、図12に例示する関連テキストには処分行動に関する記載が含まれていない。一方で、これらのテキストには、「消費期限が1ヶ月以上前に切れた食材を使い、」、「食品の表示も偽っていた。」などの問題言動に関する記載が含まれている。本実施例では、第1の実施例の効果に加え、処分行動に関する記載が含まれていないテキスト中の問題言動に関する記載を抽出できる。
次に、第4の実施例について説明する。第4の実施例におけるテキスト分析装置は、第4の実施形態におけるテキスト分析装置に対応する。
まず、処分行動テキスト検索手段311は、入力テキスト集合30から、処分行動に関する記載を検索する。そして、処分行動テキスト検索手段311は、入力テキスト集合30から処分行動が記載されたテキストを抽出する(ステップD1)。なお、ステップD1における処分行動テキスト検索手段311の動作は、第1の実施形態におけるステップA1に示す処分行動テキスト検索手段11の動作と同様であるため、説明を省略する。
続いて、処分行動前言動抽出手段312は、処分行動テキスト検索手段311が抽出したテキストの中から処分行動前言動に関する記載を抽出する(ステップD2)。処分行動前言動抽出手段312は、第1の実施形態のステップA2において処分行動前言動抽出手段12と同様の方法を用いて処分行動前言動に関する記載を抽出してもよい。また、処分行動前言動抽出手段312は、第2の実施形態のステップB2〜ステップB3における処分行動前言動抽出手段112と同様の方法を用いて処分行動前言動に関する記載を抽出してもよい。また、処分行動前言動抽出手段312は、第3の実施形態のステップC1〜C2における処分行動前言動抽出手段212と同様の方法を用いて処分行動前言動に関する記載を抽出してもよい。
続いて、優良言動生成手段313は、優良言動生成用テキスト集合70から優良言動に関する記載を抽出し、優良言動の集合を生成する(ステップD3)。図13は、優良言動生成用テキスト集合70に含まれるテキストの例を示す説明図である。図13に示す例では、優良言動生成用テキスト集合70が、良い事を報じたニュース記事の集合であることを示す。優良言動生成手段313は、図13に例示する優良言動生成用テキスト集合70に含まれる言動に関する記載を抽出し、その言動に関する記載を優良言動の集合として生成してもよい。
また、優良言動生成手段313は、優良者が主体の言動の集合を優良言動の集合として生成してもよい。例えば、予め優良者の集合を設定しておき、優良言動生成手段313が優良言動生成用テキスト集合70に含まれるテキストの各言動に関する記載の中から、優良者の集合に含まれる主体の言動に関する記載を抽出し、抽出した言動の集合を優良言動の集合として生成してもよい。優良者として、例えば、警視庁、警察、経産省などの役所が与えられたとする。そして、図9に例示するテキスト集合が与えられると、優良言動生成手段313は、図9(b)に例示する「例2」のテキストから、「経産省」が主体の言動「経産省は業務停止命令を出した」を優良言動として抽出する。
また、優良言動生成手段313は、ステップD1で抽出された処分行動の対象を特定し、優良言動生成用テキスト集合70に含まれるテキストの各言動の中から、処分行動の対象が主体の言動を除いた言動に関する記載を抽出してもよい。
例えば、入力テキスト集合30および優良言動生成用テキスト集合70が、共に図9に例示するテキストの集合であるとする。この場合、優良言動生成手段313は、処分行動の対象者として、図9(a)に例示する「例1」からは雑誌社B、図9(b)に例示する「例2」からは会社A、図9(c)に例示する「例3」からは病院X、図9(d)に例示する「例4」からは会社Cと、それぞれ特定する。
そして、優良言動生成手段313は、図9に例示する「例1」〜「例4」に含まれる各言動のうち、処分行動の対象者以外の言動を優良言動に関する記載として抽出してもよい。優良言動生成手段313は、例えば、図9(a)に例示する「例1」から、「人物Aは、発表した」「人物Aは100万円の慰謝料請求を行う」などの言動を優良言動に関する記載として抽出する。
なお、優良言動生成手段313は、第1の実施形態のステップA2において処分行動前言動抽出手段12が処分行動の対象や言動の主体を特定する方法(例えば、格構造解析技術)と同一の方法を用いて処分行動の対象や言動の主体を特定してもよい。
また、優良言動生成手段313は、ステップD1で抽出された処分行動より後になされた言動の集合を優良言動の集合として生成してもよい。例えば、入力テキスト集合30および優良言動生成用テキスト集合70が、共に図9に例示するテキストの集合であるとする。この場合、優良言動生成手段313は、図9(b)に例示する「例2」から処分行動が記載された箇所の日付が2010年4月1日と特定できる。
そして、優良言動生成手段313は、優良言動生成用テキスト集合70に含まれるテキストから2010年4月1日以降の日付部分に記載された言動の中から、過去形以外の言動を抽出し、抽出した言動の集合を優良言動の集合として生成する。優良言動生成手段313は、例えば、図9(b)に例示する「例2」から、「訪問販売ができなくなる」などの言動を優良言動に関する記載として抽出する。
また、例えば、図9(c)に例示する「例3」に含まれる処分行動が記載された箇所に付与された日時は、「2000/11/25 23:15」である。そのため、優良言動生成手段313は、この日時より後の日付が付与されている部分である、257〜260番目の書き込み中の言動から過去形以外の言動を抽出してもよい。この書き込みからは、例えば、「診察に時間かけてくれる」などが優良言動に関する記載として抽出される。
また、優良言動生成手段313は、ステップD2において、処分行動テキスト検索手段311が抽出したテキストの中から処分行動前言動として抽出されなかった言動の集合を、優良言動の集合として生成してもよい。例えば、入力テキスト集合30が図9に例示するテキストの集合である場合、優良言動生成手段313は、図9(b)に例示する「例2」から処分行動前言動として抽出されない「訪問販売ができなくなる」などの言動を優良言動に関する記載として抽出してもよい。
また、優良言動生成手段313は、ステップD1で抽出された処分行動より後になされた言動のうち、ステップD1で抽出された処分行動の対象者が主体の言動に限った集合を優良言動の集合として生成してもよい。例えば、入力テキスト集合30および優良言動生成用テキスト集合70が、共に図9に例示するテキストの集合であるとする。この場合、優良言動生成手段313は、ステップD1で抽出した処分行動より後になされた言動として、「訪問販売ができなくなる」を特定する。この言動の主体は、会社Aであり、処分行動の対象者である。そのため、優良言動生成手段313は、この言動を優良言動に関する記載として抽出する。仮に、主体が会社Aでなかった場合、この言動は優良言動に関する記載として抽出されない。
続いて、優良言動比較手段314は、ステップD2で生成された処分行動前言動の集合と、ステップD3で生成された優良言動の集合とが入力されると、優良言動の集合と比較して処分行動前言動の集合に頻出する言動の集合を抽出する(ステップD4)。このとき、優良言動比較手段314は、例えば、所定のカテゴリのテキストに特徴的な単語や熟語などの要素を特定する技術(非特許文献2参照。)を用いてもよい。優良言動比較手段314は、非特許文献2に記載された技術を用いることで、処分行動前言動の集合に特徴的な単語とその単語の処分行動前言動に対する特徴度を計算できる。図14は、単語ごとの特徴度の例を示す説明図である。
次に、優良言動比較手段314は、単語ごとの特徴度から、処分行動前言動の集合に対し、その集合に含まれる各言動の特徴度を計算する。この特徴度は、例えば、「言動の特徴度=言動内の要素に付与された特徴度/言動内の要素数」で計算できる。ここで、図14に示す例の場合、要素は単語に該当する。
例えば、「うそを言って勧誘した」という言動に対する形態素解析の結果は、「うそ/を/言っ/て/勧誘/し/た」になる。この場合、単語の数は7つと特定される。この場合、優良言動比較手段314は、この言動の特徴度を(0.84+0.55)/7=0.25と計算する。
そして、優良言動比較手段314は、言動の特徴度が予め人手で設定した閾値よりも高い言動を抽出し、抽出した言動の集合を優良言動の集合として生成する。例えば、閾値が0.2に設定されていた場合、この「うそを言って勧誘した」は、優良言動に関する記載として抽出される。一方、「経産省は、業務停止命令を出した。」という言動は、図14に示す例の場合、特徴度が0と計算される。そのため、この言動は優良言動に関する記載として抽出されない。
最後に、出力手段320は、ステップD4で抽出された言動に関する記載の集合を出力する(ステップD5)。例えば、上記の例では、出力手段320は、「うそを言って勧誘した」を出力し、「経産省は、業務停止命令を出した。」を出力しない。なお、出力手段320が言動の集合を出力する方法は、第1の実施形態におけるステップA3において出力手段20が出力する方法と同様であるため、説明を省略する。
以上のように、本実施形態によれば、ステップD4で処分行動前言動の中から問題言動としては不適切な優良言動に該当する言動を除いている。よって、問題言動を精度よく抽出できる。よって、本実施例では、第1の実施例における効果に加え、例えば、問題言動として不適切な言動である「経産省は、業務停止命令を出した。」を問題言動に関する記載から除くことができる。
次に、本発明の最小構成の例を説明する。図15は、本発明によるテキスト分析装置の最小構成の例を示すブロック図である。本発明によるテキスト分析装置(例えば、コンピュータ10)は、不正もしくは違法行為に対する処分を表す行動、または、その処分を求める行動である処分行動が記載されたテキストを、入力される複数のテキストの集合である入力テキスト集合(例えば、入力テキスト集合30)から抽出する処分行動テキスト抽出手段81(例えば、処分行動テキスト検索手段11)と、処分行動テキスト抽出手段81が抽出したテキストに記載された処分行動の前に行われたその処分行動がとられる原因である問題言動(例えば、処分行動前言動)に関する記載を抽出する問題言動抽出手段82(例えば、処分行動前言動抽出手段12)とを備えている。
そのような構成により、大量の問題言動に関する記載を低コストで抽出できる。
なお、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)不正もしくは違法行為に対する処分を表す行動、または、当該処分を求める行動である処分行動が記載されたテキストを、入力される複数のテキストの集合である入力テキスト集合から抽出する処分行動テキスト抽出手段と、前記処分行動テキスト抽出手段が抽出したテキストに記載された処分行動の前に行われた当該処分行動がとられる原因である問題言動に関する記載を抽出する問題言動抽出手段とを備えたことを特徴とするテキスト分析装置。
(付記2)処分行動テキスト抽出手段は、ニュース記事または消費者生成メディアにより作成されたテキストを含む入力テキスト集合から処分行動が記載されたテキストを抽出する付記1記載のテキスト分析装置。
(付記3)問題言動抽出手段は、処分行動テキスト抽出手段が抽出したテキストの中から処分行動が記載された箇所が示している日時を特定し、前記テキストの中から当該日時より前の言動に関する記載を問題言動に関する記載として抽出する付記1または付記2記載のテキスト分析装置。
(付記4)問題言動抽出手段は、処分行動テキスト抽出手段が抽出したテキストに記載された処分行動との因果関係に基づいて、当該処分行動に対応する問題言動に関する記載を抽出する付記1または付記2記載のテキスト分析装置。
(付記5)問題言動抽出手段は、処分行動テキスト抽出手段が抽出したテキストの中から処分行動が記載された箇所が示している日時を特定し、問題言動に関する記載を含むテキストの集合である問題言動含有テキストから前記日時より前に行われた言動が記載されたテキストを抽出するテキスト抽出手段と、前記テキスト抽出手段が抽出したテキストから、前記処分行動がとられる前の言動に関する記載を問題言動に関する記載として抽出する言動抽出手段とを含む付記1または付記2記載のテキスト分析装置。
(付記6)問題言動抽出手段は、問題言動に関する記載を含むテキストの集合である問題言動含有テキストから、処分行動テキスト抽出手段が抽出したテキストとの類似度が高いテキスト、または、処分行動テキスト抽出手段が抽出したテキスト中に記載された他の文書の位置情報を示すリンクから特定されるテキスト、または、処分行動テキスト抽出手段が抽出したテキストを示すリンクが記載されているテキストを、関連テキストとして抽出する関連テキスト抽出手段と、前記関連テキスト抽出手段が抽出した関連テキストから、前記処分行動がとられる前の言動に関する記載を問題言動に関する記載として抽出する言動抽出手段とを含む付記1または付記2記載のテキスト分析装置。
(付記7)不正および違法行為と無関係な言動である優良言動に関する記載を含むテキストの集合である優良言動テキスト集合から、前記優良言動の集合を生成する優良言動生成手段と、優良言動の集合と比較して問題言動抽出手段が抽出した問題言動の集合に頻出する言動を当該問題言動の集合の中から抽出する優良言動抽出手段とを備えた付記1から付記6のうちのいずれか1つに記載のテキスト分析装置。
(付記8)問題言動抽出手段は、抽出した問題言動に関する記載から処分行動の対象者が行った言動に関する記載を抽出する付記1から付記7のうちのいずれか1つに記載のテキスト分析装置。
(付記9)優良言動生成手段は、処分行動テキスト抽出手段が抽出したテキストに含まれる処分行動より後になされた言動の集合を優良言動の集合として生成する付記7記載のテキスト分析装置。
(付記10)優良言動生成手段は、不正や違法行為を行っていない者である優良者を特定し、前記優良者が主体の言動の集合を優良言動の集合として生成する付記7または付記9記載のテキスト分析装置。
(付記11)不正もしくは違法行為に対する処分を表す行動、または、当該処分を求める行動である処分行動が記載されたテキストを、入力される複数のテキストの集合である入力テキスト集合から抽出し、抽出されたテキストに記載された処分行動の前に行われた当該処分行動がとられる原因である問題言動に関する記載を抽出することを特徴とする問題言動抽出方法。
(付記12)ニュース記事または消費者生成メディアにより作成されたテキストを含む入力テキスト集合から処分行動が記載されたテキストを抽出する付記11記載の問題言動抽出方法。
(付記13)コンピュータに、不正もしくは違法行為に対する処分を表す行動、または、当該処分を求める行動である処分行動が記載されたテキストを、入力される複数のテキストの集合である入力テキスト集合から抽出する処分行動テキスト抽出処理、および、前記処分行動テキスト抽出処理で抽出されたテキストに記載された処分行動の前に行われた当該処分行動がとられる原因である問題言動に関する記載を抽出する問題言動抽出処理を実行させるための問題言動抽出プログラム。
(付記14)処分行動テキスト抽出処理で、ニュース記事または消費者生成メディアにより作成されたテキストを含む入力テキスト集合から処分行動が記載されたテキストを抽出させる付記13記載の問題言動抽出プログラム。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2011年3月28日に出願された日本特許出願2011−070202を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明によるテキスト分析装置を用いることで、処分行動につながった問題言動をテキストから自動的に抽出可能である。したがって、本発明は、不正や違法行為の捜査関係者が、ウェブページ上のテキストや新聞、雑誌等のテキストから捜査対象の処分行動につながった問題言動を抽出する際に効果を発揮する。また、本発明は、ユーザがある企業や人物が優良か否かを判定するために、その企業や人物の処分行動につながった問題言動を参照するときにも効果を発揮する。
さらに、本発明により抽出される問題言動を他の技術の学習データとして用いることが可能である。例えば、本発明で作成されたデータを特許文献1に記載された装置に適用することで、現在は処分行動がなされていなくても、これから処分行動につながるような問題言動を検出することが可能になる。したがって、本発明は、企業や組織が、その企業や組織に関連する人物や組織が問題言動を行っていないかをウェブページ上のテキストで監視するときに効果を発揮する。本発明は、不正や違法行為を取り締まったり、これらの行為に対して注意や勧告したりする立場の人物や組織が、注意や勧告の対象になる問題言動がウェブページ上に存在するか否かを監視するときにも効果を発揮する。
10,110,210,310 コンピュータ
11,111,211,311 処分行動テキスト検索手段
12,112,212,312 処分行動前言動抽出手段
113 処分行動前テキスト検索手段
114,214 言動抽出手段
213 関連テキスト抽出手段
313 優良言動生成手段
314 優良言動比較手段
20,120,220,320 出力手段
30 入力テキスト集合
40 処分行動単語リスト
50 検索用テキスト集合
60 関連テキスト抽出用テキスト集合
70 優良言動生成用テキスト集合

Claims (10)

  1. 不正もしくは違法行為に対する処分を表す行動、または、当該処分を求める行動である処分行動が記載されたテキストを、入力される複数のテキストの集合である入力テキスト集合から抽出する処分行動テキスト抽出手段と、
    前記処分行動テキスト抽出手段が抽出したテキストに記載された処分行動の前に行われた当該処分行動がとられる原因である問題言動に関する記載を抽出する問題言動抽出手段とを備えた
    ことを特徴とするテキスト分析装置。
  2. 処分行動テキスト抽出手段は、ニュース記事または消費者生成メディアにより作成されたテキストを含む入力テキスト集合から処分行動が記載されたテキストを抽出する
    請求項1記載のテキスト分析装置。
  3. 問題言動抽出手段は、処分行動テキスト抽出手段が抽出したテキストの中から処分行動が記載された箇所が示している日時を特定し、前記テキストの中から当該日時より前の言動に関する記載を問題言動に関する記載として抽出する
    請求項1または請求項2記載のテキスト分析装置。
  4. 問題言動抽出手段は、処分行動テキスト抽出手段が抽出したテキストに記載された処分行動との因果関係に基づいて、当該処分行動に対応する問題言動に関する記載を抽出する
    請求項1または請求項2記載のテキスト分析装置。
  5. 問題言動抽出手段は、
    処分行動テキスト抽出手段が抽出したテキストの中から処分行動が記載された箇所が示している日時を特定し、問題言動に関する記載を含むテキストの集合である問題言動含有テキストから前記日時より前に行われた言動が記載されたテキストを抽出するテキスト抽出手段と、
    前記テキスト抽出手段が抽出したテキストから、前記処分行動がとられる前の言動に関する記載を問題言動に関する記載として抽出する言動抽出手段とを含む
    請求項1または請求項2記載のテキスト分析装置。
  6. 問題言動抽出手段は、
    問題言動に関する記載を含むテキストの集合である問題言動含有テキストから、処分行動テキスト抽出手段が抽出したテキストとの類似度が高いテキスト、または、処分行動テキスト抽出手段が抽出したテキスト中に記載された他の文書の位置情報を示すリンクから特定されるテキスト、または、処分行動テキスト抽出手段が抽出したテキストを示すリンクが記載されているテキストを、関連テキストとして抽出する関連テキスト抽出手段と、
    前記関連テキスト抽出手段が抽出した関連テキストから、前記処分行動がとられる前の言動に関する記載を問題言動に関する記載として抽出する言動抽出手段とを含む
    請求項1または請求項2記載のテキスト分析装置。
  7. 不正および違法行為と無関係な言動である優良言動に関する記載を含むテキストの集合である優良言動テキスト集合から、前記優良言動の集合を生成する優良言動生成手段と、
    優良言動の集合と比較して問題言動抽出手段が抽出した問題言動の集合に頻出する言動を当該問題言動の集合の中から抽出する優良言動抽出手段とを備えた
    請求項1から請求項6のうちのいずれか1項に記載のテキスト分析装置。
  8. 問題言動抽出手段は、抽出した問題言動に関する記載から処分行動の対象者が行った言動に関する記載を抽出する
    請求項1から請求項7のうちのいずれか1項に記載のテキスト分析装置。
  9. 不正もしくは違法行為に対する処分を表す行動、または、当該処分を求める行動である処分行動が記載されたテキストを、入力される複数のテキストの集合である入力テキスト集合から抽出し、
    抽出されたテキストに記載された処分行動の前に行われた当該処分行動がとられる原因である問題言動に関する記載を抽出する
    ことを特徴とする問題言動抽出方法。
  10. コンピュータに、
    不正もしくは違法行為に対する処分を表す行動、または、当該処分を求める行動である処分行動が記載されたテキストを、入力される複数のテキストの集合である入力テキスト集合から抽出する処分行動テキスト抽出処理、および、
    前記処分行動テキスト抽出処理で抽出されたテキストに記載された処分行動の前に行われた当該処分行動がとられる原因である問題言動に関する記載を抽出する問題言動抽出処理
    を実行させるための問題言動抽出プログラム。
JP2013507169A 2011-03-28 2012-03-26 テキスト分析装置、問題言動抽出方法および問題言動抽出プログラム Pending JPWO2012132388A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011070202 2011-03-28
JP2011070202 2011-03-28
PCT/JP2012/002075 WO2012132388A1 (ja) 2011-03-28 2012-03-26 テキスト分析装置、問題言動抽出方法および問題言動抽出プログラム

Publications (1)

Publication Number Publication Date
JPWO2012132388A1 true JPWO2012132388A1 (ja) 2014-07-24

Family

ID=46930164

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013507169A Pending JPWO2012132388A1 (ja) 2011-03-28 2012-03-26 テキスト分析装置、問題言動抽出方法および問題言動抽出プログラム

Country Status (4)

Country Link
US (1) US20140025372A1 (ja)
JP (1) JPWO2012132388A1 (ja)
SG (1) SG193613A1 (ja)
WO (1) WO2012132388A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5924666B2 (ja) * 2012-02-27 2016-05-25 国立研究開発法人情報通信研究機構 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム
JP5895716B2 (ja) * 2012-06-01 2016-03-30 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US9348815B1 (en) 2013-06-28 2016-05-24 Digital Reasoning Systems, Inc. Systems and methods for construction, maintenance, and improvement of knowledge representations
JP5622969B1 (ja) * 2014-02-04 2014-11-12 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム
US9923931B1 (en) 2016-02-05 2018-03-20 Digital Reasoning Systems, Inc. Systems and methods for identifying violation conditions from electronic communications
JP6731198B2 (ja) * 2016-03-08 2020-07-29 国立研究開発法人情報通信研究機構 信憑性判定システム及びそのためのコンピュータプログラム
US10165073B1 (en) 2016-06-28 2018-12-25 Securus Technologies, Inc. Multiple controlled-environment facility investigative data aggregation and analysis system access to and use of social media data
JP6373320B2 (ja) * 2016-09-08 2018-08-15 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
US10904297B1 (en) 2019-06-17 2021-01-26 Securas Technologies, LLC Controlled-environment facility resident and associated non-resident telephone number investigative linkage to e-commerce application program purchases

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008282366A (ja) * 2007-05-14 2008-11-20 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020116247A1 (en) * 2001-02-15 2002-08-22 Tucker Kathleen Ann Public-initiated incident reporting system and method
JP4318643B2 (ja) * 2002-12-26 2009-08-26 富士通株式会社 運用管理方法、運用管理装置および運用管理プログラム
GB2399427A (en) * 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
US7225977B2 (en) * 2003-10-17 2007-06-05 Digimarc Corporation Fraud deterrence in connection with identity documents
US20070061338A1 (en) * 2005-06-08 2007-03-15 Scott Nyland System and method for countering abusive law enforcement and maintaining, managing and distributing information and reports regarding same
US7941386B2 (en) * 2005-10-19 2011-05-10 Adf Solutions, Inc. Forensic systems and methods using search packs that can be edited for enterprise-wide data identification, data sharing, and management
WO2007106858A2 (en) * 2006-03-15 2007-09-20 Araicom Research Llc System, method, and computer program product for data mining and automatically generating hypotheses from data repositories
US7874005B2 (en) * 2006-04-11 2011-01-18 Gold Type Business Machines System and method for non-law enforcement entities to conduct checks using law enforcement restricted databases
US20080109875A1 (en) * 2006-08-08 2008-05-08 Harold Kraft Identity information services, methods, devices, and systems background
US8868410B2 (en) * 2007-08-31 2014-10-21 National Institute Of Information And Communications Technology Non-dialogue-based and dialogue-based learning apparatus by substituting for uttered words undefined in a dictionary with word-graphs comprising of words defined in the dictionary
US20090099884A1 (en) * 2007-10-15 2009-04-16 Mci Communications Services, Inc. Method and system for detecting fraud based on financial records
US20110015948A1 (en) * 2009-07-20 2011-01-20 Jonathan Kaleb Adams Computer system for analyzing claims files to identify premium fraud

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008282366A (ja) * 2007-05-14 2008-11-20 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHAVEEVAN PECHSIRI: "Mining Causality from Texts for Question Answering System", IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. 90, no. 10, JPN6015052762, October 2007 (2007-10-01), pages 1523 - 1533, ISSN: 0003226847 *
島田 裕司: "Wikipediaを用いた事象の日付情報の推定", 第1回データ工学と情報マネジメントに関するフォーラム−DEIMフォーラム−論文集, JPN6015052757, 9 May 2009 (2009-05-09), JP, pages 1 - 7, ISSN: 0003226845 *
木村 塁: "Webからの人物事典生成のための経歴情報の自動収集", 日本データベース学会LETTERS, vol. 5, no. 2, JPN6015052759, 21 September 2006 (2006-09-21), JP, pages 29 - 32, ISSN: 0003226846 *
酒井 浩之: "新聞記事からの交通事故例および事故原因表現の抽出", 情報処理学会研究報告, vol. 2005, no. 94, JPN6015052754, 30 September 2005 (2005-09-30), JP, pages 85 - 92, ISSN: 0003226844 *

Also Published As

Publication number Publication date
WO2012132388A1 (ja) 2012-10-04
SG193613A1 (en) 2013-11-29
US20140025372A1 (en) 2014-01-23

Similar Documents

Publication Publication Date Title
US11397778B2 (en) Method and device for mining an enterprise relationship
WO2012132388A1 (ja) テキスト分析装置、問題言動抽出方法および問題言動抽出プログラム
CN109213870B (zh) 文档处理
Boumans et al. Taking stock of the toolkit: An overview of relevant automated content analysis approaches and techniques for digital journalism scholars
Chinsha et al. A syntactic approach for aspect based opinion mining
US8577884B2 (en) Automated analysis and summarization of comments in survey response data
Stamatatos et al. Clustering by authorship within and across documents
US8370278B2 (en) Ontological categorization of question concepts from document summaries
US8452772B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
US20190286676A1 (en) Contextual content collection, filtering, enrichment, curation and distribution
US20200394364A1 (en) Method and system of creating and summarizing unstructured natural language sentence clusters for efficient tagging
Kiefer Assessing the Quality of Unstructured Data: An Initial Overview.
Sun et al. Pre-processing online financial text for sentiment classification: A natural language processing approach
US9632998B2 (en) Claim polarity identification
Li et al. An intelligent approach to data extraction and task identification for process mining
Hirata et al. Uncovering the impact of COVID-19 on shipping and logistics
US10248648B1 (en) Determining whether a comment represented as natural language text is prescriptive
de Albornoz et al. Using an Emotion-based Model and Sentiment Analysis Techniques to Classify Polarity for Reputation.
Wang et al. Automatic tagging of cyber threat intelligence unstructured data using semantics extraction
Lucy et al. Words as gatekeepers: Measuring discipline-specific terms and meanings in scholarly publications
US11625536B2 (en) System and method for identification and profiling adverse events
Putri et al. Software feature extraction using infrequent feature extraction
JP2009199341A (ja) スパム・イベント検出装置及び方法並びにプログラム
Hashfi et al. Sentiment Analysis of An Internet Provider Company Based on Twitter Using Support Vector Machine and Naïve Bayes Method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160719