JPWO2016189606A1 - データ分析システム、制御方法、制御プログラム、および記録媒体 - Google Patents

データ分析システム、制御方法、制御プログラム、および記録媒体 Download PDF

Info

Publication number
JPWO2016189606A1
JPWO2016189606A1 JP2015558244A JP2015558244A JPWO2016189606A1 JP WO2016189606 A1 JPWO2016189606 A1 JP WO2016189606A1 JP 2015558244 A JP2015558244 A JP 2015558244A JP 2015558244 A JP2015558244 A JP 2015558244A JP WO2016189606 A1 JPWO2016189606 A1 JP WO2016189606A1
Authority
JP
Japan
Prior art keywords
data
target data
keyness
component
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015558244A
Other languages
English (en)
Other versions
JP5933863B1 (ja
Inventor
秀樹 武田
秀樹 武田
ヤコブ ハルスコウ
ヤコブ ハルスコウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Application granted granted Critical
Publication of JP5933863B1 publication Critical patent/JP5933863B1/ja
Publication of JPWO2016189606A1 publication Critical patent/JPWO2016189606A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

対象データを複数の構成要素に分解し、構成要素ごとに、所定の基準データセットでの出現頻度に対する対象データでの出現頻度の偏り具合を表すキーネスをそれぞれ算出し、算出した構成要素ごとのキーネスに基づいて、構成要素の中から対象データの特徴を表す構成要素を選定し、選定した構成要素のキーネスに基づいて、対象データの各部分データの重要度をそれぞれ推定し、推定した各部分データの重要度に基づいて、対象データを構成する部分データの中から当該対象データの要約となり得る部分データを抽出するようにした。

Description

本発明は、データを分析するデータ分析システム等に関し、例えば、ビッグデータを分析する人工知能システムに応用可能なものである。
従来、文書を自動的に要約する自動要約方法の1つとして生成的要約法がある。生成的要約法は、対象とする文書(以下、これを対象文書と呼ぶ)からキーワードを幾つか抽出し、抽出したこれらキーワードについて、それぞれそのキーワードの適切な上位概念を検出し、検出した上位概念を用いて対象文書の要約を作成する方法である(例えば、特許文献1参照)。
特開2015−88064号公報
上述した従来の生成的要約法によると、単語の多義性により、各キーワードの適切な上位概念を検出することが難しいという問題がある。また各キーワードの適切な上位概念を検出し得たとしても、要約を作成するに際しては自然言語生成が必要となるため、これらの上位概念を用いて自動的に要約(センテンス)を生成することは難しい。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、データの要約を簡易な方法により生成し得るデータ分析システム、制御方法、制御プログラム、および記録媒体を提案することである。
上記課題を解決するために、本発明の一態様に係るデータ分析システムは、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムにおいて、制御プログラムを記憶するメモリと、前記メモリに格納された前記制御プログラムを実行するコントローラとを備え、前記コントローラは、前記制御プログラムに基づいて、前記対象データを複数の構成要素に分解し、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出し、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定し、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定し、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定されるものであり、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出するようにした。
上記課題を解決するために、本発明の一態様に係るデータ分析システムの制御方法は、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムの制御方法において、前記対象データを複数の構成要素に分解する第1のステップと、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップとを備え、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定されようにした。
上記課題を解決するために、本発明の一態様に係る制御プログラムは、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムを制御するための制御プログラムであって、前記対象データを複数の構成要素に分解する第1のステップと、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップとを備え、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定される処理を前記データ分析システムに実行させるようにした。
上記課題を解決するために、本発明の一態様に係る記憶媒体は、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムを制御するための制御プログラムが格納された記録媒体であって、前記制御プログラムは、前記対象データを複数の構成要素に分解する第1のステップと、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップとを備え、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定される処理を前記データ分析システムに実行させるようにした。
本発明の一態様に係るデータ分析システム、制御方法、制御プログラム、および記録媒体によれば、データの要約を簡易な方法により生成することができるという効果を奏する。
本発明の一態様に係るデータ分析システムのハードウェア構成の一例を示すブロック図である。 上記データ分析システムが備えた予測コーディング機能の一例を示す機能ブロック図である。 上記データ分析システムが備えた抽出的自動要約生成機能の説明に供するフローチャートである。 上記データ分析システムが備えた予測コーディング部が実行する処理の一例を示すフローチャートである。
図1〜図4に基づいて、本発明の実施の形態を説明する。
(1)データ分析システムの構成
図1は、本実施の形態に係るデータ分析システム1(以下、単に「システム1」と略記することがある)のハードウェア構成の一例を示すブロック図である。当該システム1は、例えば、データ(デジタルデータおよびアナログデータを含む)を格納可能な任意の記録媒体(例えば、メモリ、ハードディスクなど)と、当該記録媒体に格納された制御プログラムを実行可能なコントローラ(例えば、CPU:Central Processing Unit)とを備え、当該記録媒体に少なくとも一時的に格納されたデータを分析するコンピュータ(例えば、パーソナルコンピュータ、サーバ装置、クライアント装置、ワークステーション、メインフレームなど)またはコンピュータシステム(例えば、データ分析のための主要処理を実行するサーバ装置、ユーザが使用するクライアント装置、分析対象となるデータを格納するファイルサーバなど、複数のコンピュータが統合的に動作することによってデータ分析を実現するシステム)として実現され得る。本実施の形態においては、上記システム1が後者によって実現される例(図1)を主に説明する。
なお、本実施の形態において、「データ」は、上記コンピュータによって処理可能となる形式で表現された任意のデータであってよい。上記データは、例えば、少なくとも一部において構造定義が不完全な非構造化データであってよく、自然言語によって記述された文書を少なくとも一部に含む文書データ(例えば、電子メール(添付ファイル・ヘッダ情報を含む)、技術文書(例えば、学術論文、特許公報、製品仕様書、設計図など、技術的事項を説明する文書を広く含む)、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、報告書、営業資料、契約書、組織図、事業計画書、企業分析情報、電子カルテ、ウェブページ、ブログ、ソーシャルネットワークサービスに投稿されたコメントなど)、音声データ(例えば、会話・音楽などを録音したデータ)、画像データ(例えば、複数の画素またはベクター情報から構成されるデータ)、映像データ(例えば、複数のフレーム画像から構成されるデータ)などを広く含む。
また、本実施の形態において、「参照データ」(reference data)は、例えば、ユーザによって分類情報が対応付けられたデータ(分類済みのデータであり、データと分類情報との組み合わせでなるデータ)であってよい。一方、「対象データ」(target data)は、当該分類情報が対応付けられていないデータ(参照データとしてユーザに提示されておらず、ユーザにとっては分類されていない未分類のデータ)であってよい。ここで、上記「分類情報」は、参照データを分類するために用いる識別ラベルであってよく、例えば、参照データと所定の事案とが関係することを示す「Related」ラベル、両者が特に関係することを示す「High」ラベル、および、両者が関係しないことを示す「Non-Related」ラベルのように当該参照データを3つに分類する情報であったり、「良い」、「やや良い」、「普通」、「やや悪い」、および「悪い」のように、当該参照データを5つに分類する情報であったりしてよい。
また、上記「所定の事案」は、上記システム1がデータとの関連性を評価する対象を広く含み、その範囲は制限されない。例えば、所定の事案は、当該システム1がディスカバリ支援システムとして実現される場合、ディスカバリ手続きが要求される本件訴訟であってよいし、犯罪捜査支援システムとして実現される場合、捜査対象となる犯罪であってよいし、電子メール監視システムとして実現される場合、不正行為(例えば、情報漏えい、談合など)であってよいし、医療応用システム(例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測(転倒防止)システム、予後予測システム、診断支援システムなど)として実現される場合、医薬に関する事例・事案であってよいし、インターネット応用システム(例えば、スマートメールシステム、情報アグリゲーション(キュレーション)システム、ユーザ監視システム、ソーシャルメディア運営システムなど)として実現される場合、インターネットに関する事例・事案であってよいし、プロジェクト評価システムとして実現される場合、過去に遂行したプロジェクトであってよいし、マーケティング支援システムとして実現される場合、マーケティング対象となる商品・サービスであってよいし、知財評価システムとして実現される場合、評価対象となる知的財産であってよいし、不正取引監視システムとして実現される場合、不正な金融取引であってよいし、コールセンターエスカレーションシステムとして実現される場合、過去の対応事例であってよいし、信用調査システムとして実現される場合、信用調査する対象であってよいし、ドライビング支援システムとして実現される場合、車両の運転に関することであってよいし、営業支援システムとして実現される場合、営業成績であってよい。
図1に例示されるように、本実施の形態に係るデータ分析システム1は、例えば、データ分析の主要処理を実行可能なサーバ装置2と、当該データ分析の関連処理を実行可能な一つまたは複数のクライアント装置3と、データおよび当該データに対する評価結果を記録するデータベース4を備えるストレージシステム5と、クライアント装置3およびサーバ装置2に対して、データ分析のための管理機能を提供する管理計算機6とを備えてよい。
クライアント装置3は、データの一部を参照データとしてユーザに提示する。これにより、当該ユーザは、クライアント装置3を介して参照データに対する評価・分類のための入力を行うことができる。クライアント装置3は、ハードウェア資源として、例えば、メモリと、コントローラと、バスと、入出力インターフェース(例えば、キーボード、ディスプレイなど)と、通信インターフェース(所定のネットワークを用いた通信手段7によって、クライアント装置3とサーバ装置2および管理計算機6とを通信可能に接続する)とを備えてよい。
サーバ装置2は、データと分類情報との組み合わせ(参照データ)に基づいて、当該データからパターン(例えば、データに含まれる抽象的な規則、意味、概念、様式、分布、サンプルなどを広く指し、いわゆる「特定のパターン」に限定されない)を学習し、当該パターンに基づいて、対象データと所定の事案との関連性を評価する。すなわち、サーバ装置2は、上記学習したパターンに基づいて、対象データと訴訟との関連性を評価することもできるし、対象データと犯罪捜査との関連性を評価することもできるし、対象データとユーザの嗜好との関連性を評価することもできるし、対象データとその他の任意の事象との関連性を評価することもできる。サーバ装置2は、クライアント装置3と同様に、ハードウェア資源として、例えば、メモリと、コントローラと、バスと、入出力インターフェースと、通信インターフェースとを備えてよい。
管理計算機6は、クライアント装置3、サーバ装置2、およびストレージシステム22に対して、所定の管理処理を実行する。管理計算機6は、クライアント装置3と同様に、ハードウェア資源として、例えば、メモリと、コントローラと、バスと、入出力インターフェースと、通信インターフェースとを備えてよい。なお、クライアント装置3、サーバ装置2、管理計算機6がそれぞれ備えたメモリには、各装置を制御可能なアプリケーションプログラムが記憶されており、各コントローラが当該アプリケーションプログラムをそれぞれ実行することにより、当該アプリケーションプログラム(ソフトウェア資源)とハードウェア資源とが協働し、各装置が動作する。
ストレージシステム5は、例えば、ディスクアレイシステムから構成され、データと当該データに対する評価・分類の結果とを記録するデータベース4を備えてよい。サーバ装置2とストレージ装置18とは、DAS(Direct Attached Storage)方式、またはSAN(Storage Area Network)によって接続(16)されている。
なお、図1に示されるハードウェア構成はあくまで例示に過ぎず、上記システム1は、他のハードウェア構成によっても実現され得る。例えば、サーバ装置2において実行される処理の一部または全部がクライアント装置3において実行される構成であってもよいし、当該処理の一部または全部がサーバ装置2において実行される構成であってもよいし、ストレージシステム5がサーバ装置2に内蔵される構成であってもよい。当該システム1を実現可能なハードウェア構成が多様に存在し得ることは、当業者に理解されるところであり、特定の1つの構成(例えば、図1に例示されるような構成)に限定されない。
(2)データ分析システムが備えた予測コーディング機能
図2は、本実施の形態に係るデータ分析システム1が備えた予測コーディング機能の一例を示す機能ブロック図である。
(2−1)予測コーディングの基本構成
図2に例示されるように、上記システム1は、予測コーディング部10を備えることができる。予測コーディング(Predictive Coding)部80は、人手で分類された少数のデータ(参照データ、データと分類情報との組み合わせ)に基づいて、多数のデータ(分類情報が対応付けられていない対象データ、ビッグデータ)から有意な情報を抽出できるように、当該対象データを評価する。
予測コーディング部10は、例えば、データ取得部11、分類情報取得部12、データ分類部13、構成要素抽出部14、構成要素評価部15、構成要素格納部16、およびデータ評価部17を備えることができる。
データ取得部11は、任意のメモリ(例えば、ストレージシステム5、上記システム1が備えたデータベース、インターネット上のウェブサーバ、イントラネット上のメールサーバなど)からデータを取得する。データ取得部11は、分類情報を対応付けるデータをデータ分類部13に出力し、データ分析の対象とするデータを対象データとして構成要素抽出部14に出力する。
分類情報取得部12は、ユーザによって入力された分類情報を、任意の入力装置(例えば、クライアント装置3)から取得し、当該分類情報をデータ分類部13に出力する。
データ分類部13は、データ取得部11から入力されたデータと、分類情報取得部12から入力された分類情報とを組み合わせ、当該組み合わせを参照データとして構成要素抽出部14に出力する。
構成要素抽出部14は、データ分類部13から入力された参照データから、当該参照データを構成する構成要素を抽出する。ここで、「構成要素」は、データの少なくとも一部を構成する部分データであってよく、例えば、文書を構成する形態素、キーワード、センテンス、段落、および/またはメタデータ(例えば、電子メールのヘッダ情報)であったり、音声を構成する部分音声、ボリューム(ゲイン)情報、および/または音色情報であったり、画像を構成する部分画像、部分画素、および/または輝度情報であったり、映像を構成するフレーム画像、モーション情報、および/または3次元情報であったりしてよい。構成要素抽出部14は、抽出した構成要素と当該構成要素に対応する分類情報とを構成要素評価部15に出力する。同様に、構成要素抽出部14は、データ取得部11から入力された対象データから、当該対象データを構成する構成要素を抽出し、当該構成要素をデータ評価部17に出力する。
構成要素評価部15は、構成要素抽出部14から入力された構成要素を評価する。構成要素評価部15は、例えば、参照データの少なくとも一部を構成する複数の構成要素が、上記組み合わせに寄与する度合い(言い換えれば、当該構成要素が分類情報に応じて出現する分布)をそれぞれ評価する。より具体的には、構成要素評価部15は、例えば、伝達情報量(例えば、構成要素の出現確率と分類情報の出現確率とを用いて、所定の定義式から算出される情報量)を用いて構成要素を評価することによって、当該構成要素の評価値を算出する。これにより、構成要素評価部15は、当該参照データに含まれるパターンを学習することができる。構成要素評価部15は、構成要素と当該構成要素の評価値とを構成要素格納部16に出力する。
構成要素格納部16は、構成要素評価部15から入力された構成要素および評価値を対応付け、両者を任意のメモリ(例えば、ストレージシステム5)に格納する。
データ評価部17は、構成要素抽出部14から入力された構成要素に対応付けられた評価値を任意のメモリ(例えば、ストレージシステム5)から読み出し、当該評価値に基づいて対象データを評価する。より具体的には、データ評価部88は、例えば、対象データの少なくとも一部を構成する構成要素に対応付けられた評価値を合算することによって、当該対象データの指標(例えば、対象データを序列化可能にする数値、文字、および/または記号であってよい)を導出することができる。データ評価部88は、当該対象データと当該指標とを対応付け、両者を任意のメモリ(例えば、ストレージシステム5)に格納する。
なお、上記において、「〜部」と表記した構成は、データ分析システム1が備えたコントローラが、プログラム(データ分析プログラム1)を実行することによって実現する機能構成であるため、「〜部」を、「〜処理」または「〜機能」と言い換えてもよい。また、「〜部」をハードウェア資源によって代替することもできるため、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによって多様な形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
(2−2)パターン更新機能
予測コーディング部10は、例えば、以下に説明する(2−2−1)〜(2−2−3)のように、所与の参照データ、および/または新たに得られた参照データに基づいて、構成要素の評価値を最適化することができる。
(2−2−1)評価値の最適化
構成要素評価部15は、対象データを評価した結果に基づいて再現率または適合率を算出し、当該再現率または適合率が上昇するように、構成要素がデータと分類情報との組み合わせに寄与する度合いを繰り返し評価することによって、上記学習したパターンを更新することができる。
ここで、上記「再現率」(Recall Rate)は、所定数のデータに対して発見すべきデータが占める割合(網羅性)を示す指標である。例えば、「全データの30%に対して再現率が80%」と表現した場合、発見すべきデータの80%が、指標の上位30%のデータの中に含まれていることを示す(データ分析システム1を用いず、データに総当たり(リニアレビュー)した場合、発見すべきデータの量はレビューした量に比例するため、当該比例からの乖離が大きいほどシステム1の性能が良いことを示す)。また、上記「適合率」(Precision Rate)は、上記システム1によって発見されたデータに対して、真に発見すべきデータが占める割合(正確性)を示す指標である。例えば、「全データを30%処理した時点で、適合率が80%」と表現した場合、指標の上位30%のデータに対して、発見すべきデータの占める割合が80%であることを示す。
構成要素抽出部14は、データ評価部17によって評価された結果に基づいて再現率または適合率を算出し、当該再現率または適合率が目標値を下回っていた場合、再現率または適合率が目標値を上回るまで、構成要素をデータから再抽出する。このとき、構成要素抽出部14は、前回抽出した構成要素を除いた構成要素を抽出するようにしてもよいし、前回抽出した構成要素の一部を新たな構成要素に置き換えてもよい。また、データ評価部17が、再抽出された構成要素で対象データの指標を導出する場合、再抽出された構成要素とその評価値とを用いて各データの指標(第2指標)を導出し、構成要素を再抽出する前に得られた第1指標と第2指標とから、再現率または適合率を導出し直してもよい。これにより、データ分析システム1は、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。
(2−2−2)畳み込み手法に基づく構成要素の評価
構成要素評価部15は、参照データに含まれる構成要素を評価した後、当該構成要素以外の他の構成要素の評価値を畳み込むことによって、当該構成要素の評価値に当該他の構成要素の評価値を反映させるように、当該構成要素を再評価することができる。これにより、構成要素と他の構成要素との関連性が、当該構成要素の評価値として評価されるため、データ分析システム1は、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。
(2−2−3)最適化のタイミング
構成要素評価部15は、任意のタイミングでパターン(例えば、構成要素と当該構成要素の評価値との組み合わせ)を更新することができる。すなわち、構成要素評価部15は、例えば、(a)上記システムを管理する管理ユーザから更新リクエストを受け付けたタイミングで、(b)予め設定された日時が到来したタイミングで、および/または(c)ユーザから追加レビューに関する入力を受け付けたタイミングで、上記パターンを更新することができる。
ユーザは、データ評価部17によって指標が導出された対象データの内容を確認(確認レビュー)し、当該対象データに対する分類情報を新たに入力することができる。このとき、分類情報取得部12は、新たに入力された分類情報を取得し、データ分類部13は、上記対象データと当該分類情報とを組み合わせ、当該組み合わせを新たな参照データとする。当該新たな参照データは、任意のメモリに蓄積され、例えば、上記(a)〜(c)のタイミングで上記システムにフィードバックされる。
これにより、構成要素抽出部14は、上記新たな参照データから構成要素を抽出し、構成要素評価部15は、当該構成要素を評価する。当該構成要素が以前に評価され、当該構成要素とその評価値とがメモリに格納されている場合、構成要素格納部16は、当該評価値を新たな評価結果(評価値)と置き換え、格納されていない場合、当該構成要素とその評価値とを対応付けて、当該メモリに新たに格納する。
すなわち、予測コーディング部10は、任意のタイミング(例えば、上記(a)〜(b)のタイミング)で、当該分類情報に対応するデータの少なくとも一部を構成する複数の構成要素が、当該データと当該分類情報との組み合わせに寄与する度合いを再評価することによって、上記学習したパターンを更新することができる。これにより、データ分析システム1は、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。
(2−3)管理機能
予測コーディング部10は、管理部18をさらに備えることができる(図2において図示されていない)。管理部18は、例えば、以下に説明する(2−3−1)〜(2−3−6)の機能を有する。
(2−3−1)レビュー・ヒートマップ(Review Heat Map)
データ評価部17が、複数の対象データに対してそれぞれ指標を導出し、(例えば、当該指標によって当該対象データと所定の事案との関連性が高いことが示された順に)ユーザが、当該複数の対象データをそれぞれ確認して分類情報を付与した(確認レビューした)場合を一例として考える。このとき、管理部18は、分類情報が対応付けられた対象データが、すべての対象データに対して占める割合に応じたグラデーションを用いて、複数の対象データをそれぞれ評価した結果に対する当該割合の分布を視認可能に表示することができる。
例えば、データ評価部17が、0〜10000の値域をとる数値を上記指標として導出する場合、管理部18は、例えば、当該指標を1000ごとに区切った範囲(すなわち、0〜1000を第1区間、1001〜2000を第2区間、2001〜3000を第3区間・・・とする)に対象データをそれぞれ分類し(例えば、指標が2500である対象データを第3区間に分類する)、ある範囲に分類された対象データの総数に対して、所定の分類情報(例えば、「Related」)が付与された対象データが占める割合が視認可能となるように、例えば、当該範囲の色調を変化させて(例えば、当該割合が高いほど暖色系に近づき、低いほど寒色系に近づく)、当該範囲を表示させることができる。管理部18は、他の範囲についても、同様に当該他の範囲を表示させる。
これにより、管理部18は、各範囲における上記割合の分布を、グラデーションを用いて表示することができるため、例えば、上記指標によって対象データと所定の事案との関連性が高いことが示されている範囲(例えば、当該指標が8001〜9000である第9区間)にもかかわらず、当該範囲における上記割合が寒色系の色調で示されている場合、ユーザによる確認レビューが間違っているおそれがあることを示唆することができる。すなわち、データ分析システム1は、ユーザに当該分布を一目で把握させることができるという付加的な効果をさらに奏する。
(2−3−2)セントラル・リンケージ(Central Linkage)
管理部18は、複数の主体(例えば、人、組織、コンピュータなど)間の相互関係(例えば、上下関係、系列関係、データ送受信の多寡など)を可視化することができる。例えば、第1コンピュータから第2コンピュータに電子メールが送信された場合、管理部18は、当該第1コンピュータを表す第1の円と当該第2コンピュータを表す第2の円とを、当該第1の円から当該第2の円に向かう矢印(例えば、電子メールの多寡に応じた太さを有してよい)で結んだダイアグラムを、所定の表示装置(例えば、クライアント装置3が備えたディスプレイ)に表示させることができる。
また、管理部18は、データ評価部17によって評価された結果に応じて、上記相互関係を可視化することができる。例えば、データ評価部17が、0〜10000の値域をとる数値を上記指標として導出する場合、管理部18は、例えば、指定された区間に属する指標が対応付けられた対象データ(例えば、第1コンピュータから第2コンピュータに送信された電子メール)のみに基づいて、上記ダイアグラムを上記所定の表示装置に表示させることができる。これにより、データ分析システム1は、複数の主体間の相互関係をユーザに一目で把握させることができるという付加的な効果をさらに奏する。
(2−3−3)行動抽出(Behavior Extractor)
管理部18は、所定の動作を表す第1の構成要素が対象データに含まれるか否かを判定し、含まれると判定する場合、当該所定の動作の対象を表す第2の構成要素を特定することができる。
例えば、「仕様を確定する」という文書が上記対象データに含まれる場合、当該文書から「仕様」および「確定する」という構成要素を抽出し、「確定する」という所定の動作を表す第1の構成要素(動詞)の対象である「仕様」という第2の構成要素(目的語)を特定する。次に、管理部18は、上記第1の構成要素および第2の構成要素を含む対象データの属性(性質・特徴)を示すメタ情報(属性情報)と、当該第1の構成要素および第2の構成要素とを関連付ける。ここで、上記メタ情報とは、データが有する所定の属性を示す情報であり、例えば、上記対象データが電子メールである場合、当該電子メールを送信した人物の名前、受信した人物の名前、メールアドレス、送受信された日時などであってよい。
そして、管理部18は、2つの構成要素とメタ情報とを対応付けて、所定の表示装置(例えば、クライアント装置3が備えたディスプレイ)に表示させる。例えば、管理部18は、第1の構成要素を表す円と第2の構成要素を表す円とを、当該第1の円から当該第2の円に向かう矢印で結んだダイアグラムを、上記所定の表示装置に表示させることができる。これにより、データ分析システム1は、上記所定の動作とその対象とをユーザに一目で把握させることができるという付加的な効果をさらに奏する。
(2−3−4)生成的概念抽出に基づく自動要約
管理部18は、予め選定された概念の下位概念に対応する構成要素を含むデータを複数の対象データからそれぞれ抽出し、当該複数の対象データを要約可能なコンテンツ(例えば、文書、グラフ、表など)を生成することができる。
まず、ユーザが、対象データから検出したいトピックに応じたいくつかの概念を選定し、当該選定した概念を予め管理部18に登録する。例えば、検出すべきトピックが「不正」または「不満」である場合、概念のカテゴリを「行動」、「感情」、「性質・状態」、「リスク」、および「金銭」の5つに分け、例えば「行動」については「復讐する」、「軽蔑する」など、「感情」については「苦しむこと」、「腹を立てること」など、「性質・状態」については「鈍重であること」、「態度が悪いこと」など、「リスク」については「脅す」、「だます」など、「金銭」については「人の労働に対して支払われるお金」などの概念を、ユーザが管理部18にそれぞれ登録する。
管理部18は、登録された概念ごとに、当該概念の下位概念に対応する構成要素を参照データから検索し、当該検索された構成要素を当該概念に対応付けて、任意のメモリ(例えば、ストレージシステム5)に格納する。そして、管理部18は、当該格納された構成要素を対象データから抽出し、当該構成要素に対応付けられた概念を特定し、当該概念を用いた要約を出力する。
例えば、管理部18は、ある電子メールに含まれる「監視システム受注」というテキストから「システム」、「販売」、および「する」という概念を抽出し、他の電子メールに含まれる「会計システム導入」というテキストから「システム」、「販売」、および「する」という概念を抽出し、これら電子メールの要約として「システムを販売する」を出力する。このとき、管理部18は、例えば、「システムを販売する」の概念を含む対象データが、すべての対象データに対して占める割合を示すグラフ(例えば、円グラフ)を示すことができる。これにより、データ分析システム1は、対象データの全体像をユーザに把握させることができるという付加的な効果をさらに奏する。
(2−3−5)抽出的自動要約
管理部18は、図3に示す処理手順に従って、対象とする文書(以下、これを対象文書と呼ぶ、対象データ)を構成するセンテンス(文)の中から重要なセンテンスをその対象文書の要約として抽出することができる。
この場合、管理部18は、まずデータ取得部11が取得した対象文書のデータを入力する(SP1)。このとき入力する対象文書は、単独の文書でも、また複数の文書(文書群)でもよい。
続いて、管理部18は、対象文書を形態素解析する(SP2)。この際、管理部18は、対象文書をセンテンスごとに区切り、各センテンスの認識も併せて行う。
次いで、管理部18は、ステップSP2の処理結果から、名詞、動詞および形容詞を特徴語候補として抽出する(SP3)。具体的に、管理部18は、動詞および形容詞は、ステップSP2の形態素解析の際に各形態素に関連付けられたタグ(動詞であれば「動詞−自立(自動詞)」または「名詞−サ変接続(他動詞)」、形容詞であれば「*形容*」)を利用して抽出する。
また管理部18は、名詞については、重要そうなもののみを抽出する。本実施の形態においては、名詞のうち、構文的役割(Syntactic role)が主題(Topic)、主語(Subject)、目的語(Object)、または、間接目的語(Indirect Object)のいずれかであるもののみを抽出する。これら名詞の抽出手法としては、助詞の前に存在する形態素を抽出する。例えば、主題の名詞の後には「は」、主語の名詞の後には「が」、目的語の名詞の後には「を」、間接目的語の名詞の後には「に」という助詞がそれぞれ付加されるため、これら「は」、「が」、「を」または「に」という助詞としての構文的役割を有する形態素の前の形態素を特徴語候補の名詞として抽出する。
次いで、管理部18は、ステップSP3で抽出した特徴語候補の中から特徴語を選定する(SP4)。具体的に、管理部は、まず特徴語候補ごとに、リファレンスコーパスにおけるその特徴語候補の出現頻度に対する、対象文書における当該特徴語候補の出現頻度の偏り(以下、これをキーネス(keyness)と呼ぶ)を計算する。
なおリファレンスコーパスは、キーネスを計算するために基準となるデータセット(基準データセット)であり、分析の対象とするデータ(対象文書)の種類に応じて任意に選択することができる(例えばウィキペディア(Wikipedia)日本語版を利用することができる)。例えば、音声データを分析対象とする場合には、日常会話を録音した音声データの集合を基準データセットとして選択することができ、画像・映像データを分析対象とする場合には、ウェブ検索エンジンを用いて所定の検索ワードで画像検索した場合に検索結果として現れる画像・映像データの集合を基準データセットとして選択することができる。
特徴語候補のキーネスは、対象文書における特徴語候補の出現頻度に基づいて算出可能な(対数)オッズと、リファレンスコーパスにおける当該特徴語候補の出現頻度に基づいて算出可能な(対数)オッズとの比(対数)(オッズ比(Log-Odds Ratio))、または、対象文書における当該特徴語候補の出現頻度に基づいて算出可能な(対数)尤度と、リファレンスコーパスにおける当該特徴語候補の出現頻度に基づいて算出可能な(対数)尤度若しくは(対数)オッズとの比((対数)尤度比(LLR:Log-likelihood Ratio)として算出することができる。
対数オッズ比は、分析対象となる未知データに出現する頻度をO11、参照コーパスに出現する頻度をO12とし、当該形態素とは異なる他のすべての形態素が未知データに出現する頻度をO21、当該他のすべての形態素が参照コーパスに出現する頻度をO22として、次式
により求めることができる。
また対数尤度比は、R及びRをそれぞれ次式
とし、C、C、Nをそれぞれ次式
として、次式
によりそれぞれ算出される期待出現頻度(expected frequencies)E11〜E22を利用して、次式
により算出することができる。
この後、管理部18は、特徴語候補ごとに(構文的役割ごとまたは名詞/動詞/形容詞ごと)に、キーネスの値の平均値(平均キーネス)を算出し、算出した平均キーネスを閾値として、キーネスの値が閾値以上の特徴語候補を特徴語として選定する。
次いで、管理部18は、対象文書全体から見た各センテンスの重要度を推定する(SP5)。具体的に、管理部18は、対象文書のセンテンスごとに、次式
のように、そのセンテンスに含まれる特徴語のキーネスの合計値(以下、これを合計キーネススコアと呼ぶ)を算出し、算出したセンテンスごとの合計キーネススコアを、それぞれ対象文書全体から見たそのセンテンスの重要度とする。なお(12)式において、Sはセンテンス、Fは1種類の特徴語セット(例えば名詞)、wはSに出現する形態素をそれぞれ表す。
この後、管理部18は、ステップSP5で取得した各センテンスの重要度に基づいて、各センテンスを順位付け(ランキング)する(SP6)。例えば、管理部18は、各センテンスの合計キーネススコアをそれぞれそのセンテンスの単語数で除算することにより各合計キーネススコアを正規化し、正規化した合計キーネススコアの値に基づいてセンテンスを順位付けする。この際、管理部18は、正規化した合計キーネススコアの値がより大きいセンテンスに対して、より小さい順位を付与する。従って、正規化した合計キーネススコアの値が最も大きいセンテンスに「1位」、次に正規化した合計キーネススコアの値が大きいセンテンスに「2位」、……というように各センテンスが順位付けされる。または、管理部18は、特徴語の種類の数にしたがってセンテンスを順位付けすることもできる。
続いて、管理部18は、ステップSP6で行った順位付けに基づいて、要約とすべきセンテンスを抽出し、当該センテンスを当該対象文書に含まれるコンテンツを代表する代表コンテンツ(すなわち、要約)として表示する(SP7)。管理部18は、基本的には、ステップSP6の順位付けで最も順位が高いセンテンスを対象文書の要約として対象文書から抽出する。ただし、より順位が高く、かつ2種類以上の特徴語を含む(例えば、1つ以上の名詞および1つ以上の形容詞を含む、または、1つ以上の名詞および1つ以上の動詞を含む)センテンスを対象文書の要約として抽出するようにしてもよい。また、より厳しい条件として、例えば、構文的役割が主題(Topic)である名詞を含むセンテンスのみを対象文書の要約として抽出するようにしてもよい。
以上のような抽出的自動要約によれば、対象文書の要約を簡易な方法により生成することができる。
なお、大量の文書について、個々の文書の要約を上述した抽出的自動要約生成機能を利用してそれぞれ自動生成し、生成した文書ごとの要約をその内容に応じてクラスタリングすることで、上記大量の文書をその内容に応じて分類することができる。従って、この分類結果を表示することで、上記大量の文書のざっくりとした内容をユーザに提示することができる。
また上述した抽出的自動要約生成機能をオントロジ分析にも適用することができる。この場合、上述の手順により大量の文書の要約をそれぞれ生成し、各文書の要約をそれぞれ所定の電子化辞書を用いて上位概念化し、上位概念化した要約の内容に応じて各文書を分類する。
また上述した抽出的自動要約生成機能を感情分析に利用することもできる。
さらに上述した抽出的自動要約生成機能を利用しては、文書だけでなく、音声データ、画像データおよび映像データやその他のデータなどのそのとき対象とするデータ(対象データ)を構成する部分データの中から重要な部分データをその対象データの要約として抽出することができる。
なお部分データとは、対象データの一部を構成するデータのことであり、例えば、音声データの場合には、音量ゲインが所定値を下回った箇所を区切りとして、ある区切りから次の区切りまでを部分データとすることができる。また画像の場合には、例えば、画素の相関が所定値を下回った箇所を区切りとして、ある区切りから次の区切りまでを部分データとすることができる。さらに映像データの場合には、例えば、シーンが切り替わる箇所(あるフレーム画像と次のフレーム画像との相関が低い箇所)を区切りとして、ある区切りから次の区切りまでを部分データとすることができる。
(2−3−6)トピッククラスタリング(Topic Clustering)
管理部18は、複数の対象データに含まれるトピック(主題)に応じて、当該複数の対象データをクラスタリングすることができる。例えば、管理部18は、任意の分類モデル(例えば、K平均法、サポートベクターマシン、球面クラスタリングなど)を用いて、複数の対象データをクラスタリングすることができる。これにより、データ分析システム1は、対象データの全体像をユーザに把握させることができるという付加的な効果をさらに奏する。
(2−4)フェーズ分析機能
予測コーディング部10は、フェーズ分析部19をさらに備えることができる(図2において図示されていない)。フェーズ分析部19は、例えば、以下に説明する(2−4−1)〜(2−4−3)の機能を有する。
(2−4−1)フェーズ分析
フェーズ分析部19は、所定の事案が進展する各段階を示すフェーズを分析することができる。ここで、上記システム1が犯罪捜査支援システムとして実現され、所定の事案が「談合行為」である例に基づいて、フェーズ分析部19がフェーズを分析する流れを説明する。
談合行為は、関係構築フェーズ(競合他社と関係を構築する段階)、準備フェーズ(競合他社と競合に関する情報を交換する段階)、競合フェーズ(顧客へ価格を提示し、フィードバックを得て、競合他社とコミュニケーションを取る段階)の順に進展することが知られている。そこで、上記システム1の管理者は、フェーズ分析部19に上記3つのフェーズを設定する。上記システム1は、予め設定された複数のフェーズに対してそれぞれ準備される複数種類の参照データから、当該複数のフェーズに対応する複数のパターンをそれぞれ学習し、当該複数のフェーズにそれぞれ基づいて対象データを分析することによって、例えば「分析対象である組織が、現在どのフェーズにあるか」を特定することができる。
すなわち、構成要素評価部15は、予め設定された複数のフェーズに対してそれぞれ準備される複数種類の参照データを参照し、当該複数種類の参照データにそれぞれ含まれる構成要素を評価し、当該構成要素と当該構成要素を評価した結果(評価値)とを対応付けて、フェーズごとにメモリに格納する(すなわち、当該複数のフェーズに対応する複数のパターンをそれぞれ学習する)。次に、データ評価部17は、上記フェーズごとに学習されたパターンに基づいて対象データを分析することにより、複数のフェーズに対してそれぞれ指標を導出する。
そして、フェーズ分析部19は、当該指標が各フェーズに対して予め設定された所定の判定基準(例えば、閾値)を満たしているか否か(例えば、当該指標が当該閾値を超過しているか否か)を判定し、満たしていると判定する場合、当該フェーズに対応するカウント値を増加させる。最後に、フェーズ分析部19は、当該カウント値に基づいて現在のフェーズを特定する(例えば、最大のカウント値を有するフェーズを、現在のフェーズとする)。または、フェーズごとに導出された指標が、当該フェーズに設定された所定の判定基準を満たしていると判定した場合、フェーズ分析部19は、当該フェーズを現在のフェーズとして特定することもできる。これにより、データ分析システム1は、所定の事案が進展する各段階を示すフェーズを、ユーザに示唆することができるという付加的な効果をさらに奏する。
(2−4−2)予測モデルに基づくフェーズ進展予測
フェーズ分析部19は、所定の事案に関係する所定の行為の進展を予測可能なモデルに基づいて、複数の対象データを評価することによって導出した指標から、次の行為を予測・提示することができる。
すなわち、フェーズ分析部19は、例えば、第1フェーズ(例えば、関係構築フェーズ)に対して導出された指標と、第2フェーズ(例えば、準備フェーズ)に対して導出された指標とを変数とする回帰モデル(上記進展を予測可能なモデル)を仮定し、予め最適化した回帰係数に基づいて、第3フェーズ(例えば、競合フェーズ)に進む可能性(例えば、確率)を予測することができる。これにより、データ分析システム1は、所定の事案に関係する所定の行為の進展を予測した結果を、ユーザに示唆することができるという付加的な効果をさらに奏する。
(2−4−3)判定基準の最適化
フェーズ分析部19は、データ評価部17によって導出された指標に基づいてフェーズを特定するための上記判定基準(各フェーズに対して予め設定された所定の判定基準であり、例えば、閾値)を、所与のデータに応じて最適化することができる。管理部18は、例えば、複数の対象データに対してそれぞれ導出された指標と当該指標のランキング(すなわち、指標を昇順で並べた場合における順位)との関係に対して回帰分析を行い、当該回帰分析の結果に基づいて上記判定基準を再設定(例えば、上記閾値を変更)することができる。
まず、上記システム1の管理者は、上記ランキングに対して予めランキング閾値を設定しておく。フェーズ分析部19は、データ評価部17によって導出された指標と当該指標のランキングとの関係に対して、例えば、指数型分布族に属する関数(y=eαx+β(eは自然対数の底、αおよびβは実数値をとるパラメータである))を用いた回帰分析を行い(例えば、最小自乗法により上記関数の上記パラメータを決定する)、当該関数において上記ランキング閾値に対応する指標を、新たな判定基準(変更後の閾値)として設定する。これにより、データ分析システム1は、所与のデータに応じて判定基準を最適化することができるため、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。
(2−5)補助機能
予測コーディング部10が備えた各部は、例えば、以下に説明する(2−5−1)〜(2−5−6)の補助機能を有することができる。
(2−5−1)高解像度評価
データ評価部17は、高い解像度で対象データを評価することができる。すなわち、データ評価部17は、対象データに対して指標を導出するだけでなく、例えば、対象データを複数のパーツ(例えば、当該対象データに含まれるセンテンスまたは段落(部分対象データ))に分割し、学習したパターンに基づいて当該複数の部分対象データをそれぞれ評価(部分対象データに対して指標を導出)することができる。
そして、データ評価部17は、複数の部分対象データに対してそれぞれ導出した複数の指標を統合し、当該統合指標を対象データの評価結果とすることもできる(例えば、各指標が数値として導出される場合、当該指標の最大値を抽出して当該対象データに対する統合指標としたり、当該指標の平均を当該対象データに対する統合指標としたり、当該指標を大きい順から所定数合算して当該対象データの統合指標としたりすることができる)。これにより、データ分析システム1は、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。
(2−5−2)時系列評価
時間の経過とともにその性質が変化するデータ(例えば、時間の経過とともに進行する病状を記録した電子カルテなど)を分析する場合、構成要素評価部15は、所定時間ごとに区切られた参照データ(例えば、第1区間の参照データ、第2区間の参照データ・・・)からそれぞれパターンを学習し(すなわち、当該所定時間ごとに構成要素と当該構成要素を評価した結果とを取得し)、データ評価部17は、当該パターンにそれぞれ基づいて対象データを評価することができる。すなわち、データ評価部17は、時系列に沿って対象データに対する指標を導出することができる。これにより、データ分析システム1は、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。
このとき、データ評価部17は、上記指標の時間的変化に基づいて、将来の指標を予測することができる。例えば、データ評価部17は、新たに対象データが得られる前に、時系列分析のためのモデル(例えば、自己回帰モデル、移動平均モデルなど)と、所定の期間内(例えば、過去1ヶ月)において導出された指標とに基づいて、当該新たな対象データを評価した場合に得られる次の指標を予測することができる。これにより、データ分析システム1は、将来起こり得る事象(例えば、好ましくない事態が起こるリスク)をユーザに提示できるという付加的な効果をさらに奏する。
(2−5−3)案件別評価
案件の種類に応じてその性質が変化するデータ(例えば、訴訟の種類(例えば、独占禁止法違反、情報漏洩、特許権侵害など)に応じて内容が変化する訴訟関連文書など)を分析する場合、構成要素評価部15は、案件ごとに準備された参照データ(例えば、独占禁止法違反に関する参照データ、情報漏洩に関する参照データ、……)からそれぞれパターンを学習し(すなわち、当該案件ごとに構成要素と当該構成要素を評価した結果とを取得し)、データ評価部17は、当該パターンにそれぞれ基づいて対象データを評価することができる。これにより、データ分析システム1は、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。
(2−5−4)構文解析
データ評価部17は、対象データが有する構造を解析し、当該解析した結果を当該対象データの評価に反映させることができる。例えば、対象データが少なくとも一部に文書(テキスト)を含む場合、データ評価部17は、当該文書に含まれる各センテンスの表現形態(例えば、当該センテンスが肯定形であるか、否定形であるか、消極形であるかなど)を解析し、当該解析した結果を対象データに対して導出する指標に反映させることができる。ここで、肯定形は、主題を肯定する表現(例えば、「料理が美味しい」)であり、否定形は、主題を否定する表現(例えば、「料理が不味い」または「料理が美味しくない」)であり、消極形は、主題を婉曲に肯定または否定する表現(例えば、「料理が美味しいとはいえなかった」または「料理が不味いとはいえかった」)であってよい。
データ評価部17は、上記表現形態に応じて指標を調整することができる。例えば、データ評価部17が所定の値域をとる数値を上記指標として導出する場合、データ評価部17は、例えば、肯定形に「+α」を加算し、否定形に「−β」を加算し、消極形に「+θ」を加算することによって(α、β、およびθは、それぞれ任意の数値であってよい)、上記指標を調整することができる。また、データ評価部17は、対象データに含まれるセンテンスが否定型であることを検知した場合、例えば、当該センテンスをキャンセルすることにより、当該センテンスに含まれる構成要素を指標導出の基礎にしない(当該構成要素を考慮しない)ことができる。
さらに、構成要素評価部15は、例えば、ある形態素(構成要素)がセンテンスの主語、目的語、および述語のいずれかに応じて、当該構成要素の評価値を増減させることができる。これにより、データ分析システム1は、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。
(2−5−5)構成要素間の相関(共起)を考慮した評価
データ評価部17は、対象データに含まれる第1構成要素と、当該対象データに含まれる第2構成要素との相関(共起、例えば、両者が同時に出現する頻度)を考慮して、当該対象データに対する指標を導出することができる。
例えば、対象データが少なくとも一部に文書(テキスト)を含む場合において、当該文書に「価格」という第1キーワード(第1構成要素)が出現するとき、データ評価部17は、当該第1キーワードが出現した第1位置の近傍にある第2位置(例えば、当該第1位置を含む所定の範囲に含まれる位置)に、第2キーワード(第2構成要素)が出現する数に基づいて、上記指標を導出することができる。これにより、データ分析システム1は、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。
(2−5−6)感情分析
対象データが所定の事案に対するユーザの評価情報を含む場合、データ評価部17は、当該対象データを生成したユーザの感情であって、当該評価情報に基づいて生じた当該所定の事案に対する感情を、当該対象データから抽出する(当該対象データに含まれる感情を評価する)ことができる。
例えば、商品・サービスを紹介するウェブサイト(例えば、オンライン商品サイト、レストランガイドなど)に含まれるデータを分析対象とする場合、データ評価部17は、当該商品・サービスに対するコメント(レビュー)に含まれる構成要素(例えば、「良かった」、「楽しかった」、「悪かった」、「つまらなった」などのキーワード)と、当該商品・サービスに対する評価(例えば、「とても良い」、「良い」、「普通」、「悪い」、「とても悪い」の5段階評価)との組み合わせ(参照データ)に基づいて、対象データ(例えば、他のウェブサイトに含まれるデータ)を評価することができる。このとき、データ評価部17は、例えば、誇張表現(例えば、「とても」、「非常に」など)に応じて当該評価結果を増減させることができる。これにより、データ分析システム1は、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。
(3)予測コーディング部10が実行する処理
図4は、本実施の形態に係るデータ分析システム1が備えた予測コーディング部10が実行する処理の一例を示すフローチャートである。
まず、データ取得部11が、任意のメモリからデータを取得する(SP10)。次に分類情報取得部12が、ユーザによって入力された分類情報を、任意の入力装置から取得する(SP11)。次に、データ分類部13が、当該データと分類情報とを組み合わせることによって(参照データ)、当該データを分類し(SP12)、構成要素抽出部14が、当該参照データを構成する構成要素を当該参照データから抽出する(SP13)。そして、構成要素評価部15が、当該構成要素を評価し(SP14)、構成要素格納部16が、当該構成要素と評価値とを対応付け、両者を任意のメモリに格納する(SP15)。なお、上記SP10〜SP15の処理を、「学習フェーズ」(上記システム1がパターンを学習するフェーズ)と称する。
データ取得部11が、任意のメモリから対象データを取得する(SP16)。構成要素抽出部14が、当該対象データを構成する構成要素を当該対象データから抽出する(SP17)。データ評価部17は、当該構成要素に対応付けられた評価値を任意のメモリから読み出し、当該評価値に基づいて対象データを評価する(SP18)。なお、上記S7〜S9の処理を、「評価フェーズ」(上記システム1が上記パターンに基づいて対象データを評価する)と称する。
なお、上記学習フェーズに含まれる各処理は、いずれも上記システム1において必須の処理ではないことに注意する。例えば、構成要素と当該構成要素の評価値とを対応付けて記憶するメモリが予め与えられており、予測コーディング部10が、当該メモリに格納された当該構成要素および評価値に基づいて、対象データを評価することもできる。
(4)データ分析システムが文書データ以外のデータを処理する例
本実施の形態においては、データ分析システム1が文書データを分析する場合を主に想定し、当該想定に基づく一例を説明したが、当該システム1は、文書データ以外のデータ(例えば、音声データ、画像データ、映像データなど)を分析することもできる。
例えば、音声データを分析する場合、上記システム1は、当該音声データ自体を分析の対象としてもよいし、音声認識により当該音声データを文書データに変換し、変換後の文書データを分析の対象としてもよい。前者の場合、上記システム1は、例えば、音声データを所定の長さの部分音声に分割して構成要素とし、任意の音声分析手法(例えば、隠れマルコフモデル、カルマンフィルタなど)を用いて当該部分音声を識別することによって、当該音声データを分析できる。後者の場合、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いて音声を認識し、認識後のデータに対して、実施の形態において説明した手順と同様の手順で分析できる。
また、画像データを分析する場合、上記システム1は、例えば、画像データを所定の大きさの部分画像に分割して構成要素とし、任意の画像認識手法(例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど)を用いて当該部分画像を識別することによって、当該画像データを分析できる。
さらに、映像データを分析する場合、上記システム1は、例えば、映像データに含まれる複数のフレーム画像を所定の大きさの部分画像にそれぞれ分割して構成要素とし、任意の画像認識手法(例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど)を用いて当該部分画像を識別することによって、当該映像データを分析できる。
(5)ソフトウェア・ハードウェアによる実現例
データ分析システム1の制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPUを用いてソフトウェアによって実現してもよい。
後者の場合、上記システム1は、各機能を実現するソフトウェアであるプログラム(データ分析システム1の制御プログラム)を実行するCPU、当該プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、当該プログラムを展開するRAM(Random Access Memory)などを備えている。
そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。
また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
なお、上記プログラムは、任意のプログラミング言語によって実装可能であり、例えば、Python、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装され得る。また、上記プログラムを記録した任意の記録媒体も、本発明の範疇に入る。
(6)他のアプリケーション例
上記した実施の形態においては、本発明のデータ分析システム1が、対象文書から重要度が高いセンテンスを当該対象文書の要約として抽出する抽出的自動要約生成システムとして実現される例を説明したが、当該システム1は、例えば、ディスカバリ支援システム、フォレンジックシステム、電子メール監視システム、医療応用システム(例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測(転倒防止)システム、予後予測システム、診断支援システムなど)、インターネット応用システム(例えば、スマートメールシステム、情報アグリゲーション(キュレーション)システム、ユーザ監視システム、ソーシャルメディア運営システムなど)、情報漏洩検知システム、プロジェクト評価システム、マーケティング支援システム、知財評価システム、不正取引監視システム、コールセンターエスカレーションシステム、信用調査システムなど、任意のシステムとしても実現され得る。
例えば、本発明のデータ分析システム1がディスカバリ支援システムとして実現される場合、調査対象の文書・音声・画像・映像(以下「文書等」と称する)の内容を本実施の形態の抽出的自動要約生成機能を利用してそれぞれ要約し、個々の文書等の要約結果をユーザに提示したり、さらに各文書等の要約結果をそれぞれ電子化辞書を用いて上位概念化し、上位概念化した各文書等の要約の内容に基づいてこれらの文書等を分類し、分類結果をユーザに提示するようにしてもよい。
また、本発明のデータ分析システム1がフォレンジックシステムとして実現される場合、各種調査資料(文書・音声・画像・映像を広く含む)を本実施の形態の抽出的自動要約生成機能を利用してそれぞれ要約し、個々の調査資料の要約結果をユーザに提示したり、さらに各調査資料の要約結果をそれぞれ電子化辞書を用いて上位概念化し、上位概念化した各調査資料の要約の内容に基づいてこれらの調査資料を分類し、分類結果をユーザに提示するようにしてもよい。
また、本発明のデータ分析システム1が電子メール監視システムとして実現される場合、各電子メールの内容を本実施の形態の抽出的自動要約生成機能を利用してそれぞれ要約し、個々の電子メールの要約結果をユーザに提示したり、さらに各電子メールの要約結果をそれぞれ電子化辞書を用いて上位概念化し、上位概念化した各電子メールの要約の内容に基づいてこれら電子メールを分類し、分類結果をユーザに提示するようにしてもよい。
また、本発明のデータ分析システム1が医療応用システム(例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測(転倒防止)システム予後予測システム、診断支援システムなど)として実現される場合、カルテ等の各医療データの内容を本実施の形態の抽出的自動要約生成機能を利用してそれぞれ要約し、個々の医療データの要約結果をユーザに提示したり、さらに各医療データの要約結果をそれぞれ電子化辞書を用いて上位概念化し、上位概念化した各医療データの要約の内容に基づいてこれら医療データを分類し、分類結果をユーザに提示するようにしてもよい。
また、本発明のデータ分析システム1がインターネット応用システム(例えば、スマートメールシステム、情報アグリゲーション(キュレーション)システム、ユーザ監視システム、ソーシャルメディア運営システムなど)として実現される場合、ユーザが入力した各データの内容を本実施の形態の抽出的自動要約生成機能を利用してそれぞれ要約し、個々のデータの要約結果をユーザに提示したり、さらに各データの要約結果をそれぞれ電子化辞書を用いて上位概念化し、上位概念化した各データの要約の内容に基づいてこれらデータを分類し、分類結果をユーザに提示するようにしてもよい。
また、本発明のデータ分析システム1が情報漏洩検知システムとして実現される場合、社員が作成した各電子メールや文書等の内容を本実施の形態の抽出的自動要約生成機能を利用してそれぞれ要約し、個々の電子メールや文書等の要約結果をユーザに提示したり、さらに各電子メールや文書等の要約結果をそれぞれ電子化辞書を用いて上位概念化し、上位概念化した各電子メールや文書等の要約の内容に基づいてこれら電子メールや文書等を分類し、分類結果をユーザに提示するようにしてもよい。
また、本発明のデータ分析システム1がプロジェクト評価システムとして実現される場合、種々の報告書の内容を本実施の形態の抽出的自動要約生成機能を利用してそれぞれ要約し、個々の報告書の要約結果をユーザに提示するようにしてもよい。
また、本発明のデータ分析システム1がマーケティング支援システムとして実現される場合、マーケティング調査報告書などの文書等の内容を本実施の形態の抽出的自動要約生成機能を利用してそれぞれ要約し、個々の文書等の要約結果をユーザに提示したり、さらに各文書等の要約結果をそれぞれ電子化辞書を用いて上位概念化し、上位概念化した各文書等の要約の内容に基づいてこれら文書を分類し、分類結果をユーザに提示するようにしてもよい。
また、本発明のデータ分析システム1が知財評価システムとして実現される場合、特許公報などの各種知的財産権に関連する各種文書等の内容を本実施の形態の抽出的自動要約生成機能を利用してそれぞれ要約し、個々の文書等の要約結果をユーザに提示したり、さらに各文書等の要約結果をそれぞれ電子化辞書を用いて上位概念化し、上位概念化した各文書等の要約の内容に基づいてこれら文書等を分類し、分類結果をユーザに提示するようにしてもよい。
また、本発明のデータ分析システム1が不正取引監視システムとして実現される場合、社員が作成した各電子メールや文書等の内容を本実施の形態の抽出的自動要約生成機能を利用してそれぞれ要約し、個々の電子メールや文書等の要約結果をユーザに提示したり、さらに各電子メールや文書等の要約結果をそれぞれ電子化辞書を用いて上位概念化し、上位概念化した各電子メールや文書等の要約の内容に基づいてこれら電子メールや文書等を分類し、分類結果をユーザに提示するようにしてもよい。
また、本発明のデータ分析システム1がコールセンターエスカレーションシステムとして実現される場合、コールセンタのオペレータが作成したユーザからの問合せ内容や苦情内容等を含む文書等の内容を本実施の形態の抽出的自動要約生成機能を利用してそれぞれ要約し、個々の文書等の要約結果をユーザに提示したり、さらに各文書等の要約結果をそれぞれ電子化辞書を用いて上位概念化し、上位概念化した各文書等の要約の内容に基づいてこれら文書等を分類し、分類結果をユーザに提示するようにしてもよい。
また、本発明のデータ分析システム1が信用調査システムとして実現される場合、各調査報告書の内容を本実施の形態の抽出的自動要約生成機能を利用してそれぞれ要約し、個々の調査報告書の要約結果をユーザに提示したり、さらに各調査報告書の要約結果をそれぞれ電子化辞書を用いて上位概念化し、上位概念化した各調査報告書の要約の内容に基づいてこれら調査報告書を分類し、分類結果をユーザに提示するようにしてもよい。
また、本発明のデータ分析システム1がドライビング支援システムとして実現される場合、車載センサから取得された画像や音声から重要と考えられる情報を順次ピックアップし、ピックアップした各情報を本実施の形態の抽出的自動要約生成機能を利用してそれぞれ要約し、要約結果をユーザに提示したり、さらに要約結果をそれぞれ電子化辞書を用いて上位概念化し、上位概念化した要約結果の内容に基づいて情報を分類し、分類結果をユーザに提示するようにしてもよい。
さらに、本発明のデータ分析システム1が営業支援システムとして実現される場合、各営業報告書の内容を本実施の形態の抽出的自動要約生成機能を利用してそれぞれ要約し、個々の営業報告書の要約結果をユーザに提示したり、さらに各営業報告書の要約結果をそれぞれ電子化辞書を用いて上位概念化し、上位概念化した各営業報告書の要約の内容に基づいてこれら営業報告書を分類し、分類結果をユーザに提示するようにしてもよい。
なお、本発明のデータ分析システム1が応用される分野によっては、当該分野に特有の事情を考慮して、例えば、データに前処理(例えば、当該データから重要箇所を抜き出し、当該重要箇所のみをデータ分析の対象とするなど)を施したり、データ分析の結果を表示する態様を変化させたりしてよい。こうした変形例が多様に存在し得ることは、当業者に理解されるところであり、すべての変形例が本発明の範疇に入る。
(7)まとめ
本発明の一態様に係るデータ分析システムは、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムにおいて、制御プログラムを記憶するメモリと、前記メモリに格納された前記制御プログラムを実行するコントローラとを備え、前記コントローラは、前記制御プログラムに基づいて、前記対象データを複数の構成要素に分解し、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出し、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定し、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定し、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定されるものであり、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する。かくするにつき本データ分析システムによれば、重要度の高い部分データを対象データの要約として抽出することができ、かくしてデータの要約を簡易な方法により生成することができる。
また本発明の一態様に係るデータ分析システムの制御方法は、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムの制御方法において、前記対象データを複数の構成要素に分解する第1のステップと、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップとを備え、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定される。かくするにつき本データ分析システムの制御方法によれば、重要度の高いセンテンスを対象文書の要約として抽出することができ、かくして文書の要約を簡易な方法により生成することができる。
さらに本発明の一態様に係るデータ分析システムを制御するための制御プログラムは、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムを制御するための制御プログラムであって、前記対象データを複数の構成要素に分解する第1のステップと、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップとを備え、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定される処理をデータ分析システムに実行させる。かくするにつき本制御プログラムによれば、重要度の高いセンテンスを対象文書の要約として抽出することができ、かくして文書の要約を簡易な方法により生成することができる。
さらに本発明の一態様に係る記録媒体は、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムを制御するための制御プログラムが格納された記録媒体であって、前記制御プログラムは、前記対象データを複数の構成要素に分解する第1のステップと、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップとを備え、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定される処理をデータ分析システムに実行させる。かくするにつき本記録媒体によれば、重要度の高いセンテンスを対象文書の要約として抽出することができ、かくして文書の要約を簡易な方法により生成することができる。
さらに本発明の別態様に係るデータ分析システム1は、例えば、対象データを評価するデータ分析システムであって、前記システムは、メモリと、入力制御装置と、コントローラとを備え、前記コントローラは、複数の対象データを評価し、当該評価は、例えば、各対象データと所定の事案との関連性に対応するものであり、前記複数の対象データの序列化を可能とする指標を、前記評価により生成し、ユーザが前記入力制御装置を介して与えた入力に基づいて前記指標を変化させることができ、前記メモリは、例えば、前記コントローラが評価する前記複数の対象データを少なくとも一時的に記憶し、前記入力制御装置は、例えば、前記コントローラが前記複数の対象データを序列化するための入力を前記ユーザに許容し、当該複数の対象データの序列は、例えば、前記入力に基づいて変化する前記指標に応じて変化するものであり、前記入力は、例えば、前記複数の対象データとは異なる参照データを、当該参照データと前記所定の事案との関連性に基づいて分類するものであり、当該分類は、例えば、前記参照データの内容に応じて複数の分類情報に分けられたものであり、前記複数の分類情報のうちの少なくとも1つは、前記入力によって前記参照データに付与されるものであり、前記参照データを前記ユーザに提示し、前記ユーザの入力により、前記提示された参照データに対して与えられた前記少なくとも1つの分類情報と当該参照データとの組み合わせを、前記コントローラに提供し、前記コントローラは、例えば、前記参照データに含まれる複数の構成要素が、前記入力制御装置から提供された組み合わせにそれぞれ寄与する度合いを評価することによって、前記入力により付与された分類情報に応じて当該参照データが特徴付けられるパターンを当該参照データから抽出し、前記抽出したパターンに基づいて、前記対象データと前記所定の事案との関連性を評価して前記指標を決定し、前記決定した指標を前記対象データに設定し、前記指標に応じて前記複数の対象データを序列化し、前記序列化した複数の対象データをユーザに報知する。
(8)付記事項
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
本発明は、例えば、パーソナルコンピュータ、サーバ装置、ワークステーション、メインフレームなど、任意のコンピュータに広く適用することができ、特に、ビッグデータを分析する人工知能システムに適用可能である。
1……データ分析システム、2……サーバ装置、3……クライアント装置、4……データベース、5……ストレージシステム、6……管理計算機、10……予測コーディング部、11……データ取得部、12……分類情報取得部、13……データ分類部、14……構成要素抽出部、15……構成要素評価部、16……構成要素格納部、17……データ評価部、18……管理部、19……フェーズ分析部。
上記課題を解決するために、本発明の一態様に係るデータ分析システムは、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムにおいて、制御プログラムを記憶するメモリと、前記メモリに格納された前記制御プログラムを実行するコントローラとを備え、前記コントローラは、前記制御プログラムに基づいて、前記対象データを複数の構成要素に分解し、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出し、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定し、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定し、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定されるものであり、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出し、複数の前記対象データについてそれぞれ抽出した前記部分データをその内容に応じてクラスタリングすることにより、当該複数の対象データをその内容に応じて分類し、分類結果を表示する
上記課題を解決するために、本発明の一態様に係るデータ分析システムの制御方法は、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムの制御方法において、前記対象データを複数の構成要素に分解する第1のステップと、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップと、複数の前記対象データについてそれぞれ抽出した前記部分データをその内容に応じてクラスタリングすることにより、当該複数の対象データをその内容に応じて分類し、分類結果を表示する第6のステップとを備え、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定され
上記課題を解決するために、本発明の一態様に係る制御プログラムは、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムを制御するための制御プログラムであって、前記対象データを複数の構成要素に分解する第1のステップと、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップと、複数の前記対象データについてそれぞれ抽出した前記部分データをその内容に応じてクラスタリングすることにより、当該複数の対象データをその内容に応じて分類し、分類結果を表示する第6のステップとを備え、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定される処理を前記データ分析システムに実行させる。
上記課題を解決するために、本発明の一態様に係る記憶媒体は、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムを制御するための制御プログラムが格納された記録媒体であって、前記制御プログラムは、前記対象データを複数の構成要素に分解する第1のステップと、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップと、複数の前記対象データについてそれぞれ抽出した前記部分データをその内容に応じてクラスタリングすることにより、当該複数の対象データをその内容に応じて分類し、分類結果を表示する第6のステップとを備え、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定される処理を前記データ分析システムに実行させ
上記課題を解決するために、本発明の一態様に係るデータ分析システムは、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムにおいて、制御プログラムを記憶するメモリと、前記メモリに格納された前記制御プログラムを実行するコントローラとを備え、前記コントローラは、前記制御プログラムに基づいて、前記対象データを複数の構成要素に分解し、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出し、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定し、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定し、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定されるものであり、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出し、複数の前記対象データについてそれぞれ抽出した前記部分データを所定の電子化辞書を用いて上位概念化し、上位概念化した前記部分データの内容に応じてクラスタリングすることにより、当該複数の対象データをその内容に応じて分類し、分類結果を表示するようにした。
上記課題を解決するために、本発明の一態様に係るデータ分析方法は、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムにおいて実行される制御方法であって前記データ分析システムが、前記対象データを複数の構成要素に分解する第1のステップと、前記データ分析システムが、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、前記データ分析システムが、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、前記データ分析システムが、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、前記データ分析システムが、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップと、前記データ分析システムが、複数の前記対象データについてそれぞれ抽出した前記部分データを所定の電子化辞書を用いて上位概念化し、上位概念化した前記部分データの内容に応じてクラスタリングすることにより、当該複数の対象データをその内容に応じて分類し、分類結果を表示する第6のステップとを備え、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定される、処理を前記データ分析システムに実行させるようにした。
上記課題を解決するために、本発明の一態様に係る制御プログラムは、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムを制御するための制御プログラムであって、前記対象データを複数の構成要素に分解する第1のステップと、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップと、複数の前記対象データについてそれぞれ抽出した前記部分データを所定の電子化辞書を用いて上位概念化し、上位概念化した前記部分データの内容に応じてクラスタリングすることにより、当該複数の対象データをその内容に応じて分類し、分類結果を表示する第6のステップとを備え、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定される、処理を前記データ分析システムに実行させるようにした。
上記課題を解決するために、本発明の一態様に係る記録媒体は、ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムを制御するための制御プログラムが格納された記録媒体であって、前記制御プログラムは、前記対象データを複数の構成要素に分解する第1のステップと、前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップと、複数の前記対象データについてそれぞれ抽出した前記部分データを所定の電子化辞書を用いて上位概念化し、上位概念化した前記部分データの内容に応じてクラスタリングすることにより、当該複数の対象データをその内容に応じて分類し、分類結果を表示する第6のステップとを備え、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定される、処理を前記データ分析システムに実行させるようにした。

Claims (10)

  1. ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムにおいて、
    制御プログラムを記憶するメモリと、
    前記メモリに格納された前記制御プログラムを実行するコントローラと
    を備え、
    前記コントローラは、前記制御プログラムに基づいて、
    前記対象データを複数の構成要素に分解し、
    前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出し、
    算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定し、
    前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定し、前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定されるものであり、
    推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する
    ことを特徴とするデータ分析システム。
  2. 前記対象データは、文書を表すデータであり、
    前記構成要素は、形態素であり、
    前記対象データの特徴を表す前記構成要素は、特徴語であり、
    前記部分データは、センテンスであり、
    前記コントローラは、
    前記対象データを複数の前記形態素に分解した後に、各前記形態素の構文的役割に基づいて、前記対象データの前記特徴語となり得る前記形態素を抽出し、
    抽出した前記形態素ごとの前記キーネスをそれぞれ算出し、算出した前記形態素ごとの前記キーネスに基づいて、前記形態素の中から前記対象データの前記特徴語を選定する
    ことを特徴とする請求項1に記載のデータ分析システム。
  3. 前記コントローラは、
    動詞若しくは形容詞しての前記構文的役割、または、主題、主語、目的語若しくは間接目的語となる名詞としての前記構文的役割を有するすべての前記形態素を抽出する
    ことを特徴とする請求項2に記載のデータ分析システム。
  4. 前記コントローラは、
    助詞としての前記構文的役割を有する前記形態素の前に存在する前記形態素を、主題、主語、目的語または間接目的語となる名詞としての前記構文的役割を有する前記創生要素として抽出する
    ことを特徴とする請求項3に記載のデータ分析システム。
  5. 前記コントローラは、
    各前構成要素の前記キーネスの平均値を算出し、前記キーネスが当該平均値以上の前記構成要素を前記対象データの特徴を表す前記構成要素として選定する
    ことを特徴とする請求項1に記載のデータ分析システム。
  6. 前記コントローラは、
    前記部分データごとに、当該部分データに含まれる前記対象データの特徴を表す前記構成要素の前記キーネスの合計値でなる合計キーネススコアを当該部分データの重要度としてそれぞれ算出する
    ことを特徴とする請求項1に記載のデータ分析システム。
  7. 前記コントローラは、
    前記部分データごとに、当該部分データの前記合計キーネススコアを当該部分データに含まれる前記構成要素の数で除算することにより正規化し、正規化した前記合計キーネススコアがより大きい前記部分データを前記対象データの前記要約として抽出する
    ことを特徴とする請求項6に記載のデータ分析システム。
  8. ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムの制御方法において、
    前記対象データを複数の構成要素に分解する第1のステップと、
    前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、
    算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、
    前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、
    推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップと
    を備え、
    前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、
    前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定される
    ことを特徴とするデータ分析システムの制御方法。
  9. ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムを制御するための制御プログラムであって、
    前記対象データを複数の構成要素に分解する第1のステップと、
    前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、
    算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、
    前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、
    推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップと
    を備え、
    前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、
    前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定される
    処理を前記データ分析システムに実行させることを特徴とする制御プログラム。
  10. ユーザが意味を認識可能なコンテンツを少なくとも一部に含む対象データを分析し、前記コンテンツの要約を生成するデータ分析システムを制御するための制御プログラムが格納された記録媒体であって、
    前記制御プログラムは、
    前記対象データを複数の構成要素に分解する第1のステップと、
    前記構成要素ごとに、所定の基準データセットにおける前記構成要素の出現頻度に対する、前記対象データにおける出現頻度の偏りを表すキーネスをそれぞれ算出する第2のステップと、
    算出した前記構成要素ごとの前記キーネスに基づいて、前記構成要素の中から前記対象データの特徴を表す前記構成要素を選定する第3のステップと、
    前記対象データの特徴を表す前記構成要素の前記キーネスに基づいて、各部分データの重要度をそれぞれ推定する第4のステップと、
    推定した各前記部分データの重要度に基づいて、前記対象データを構成する前記部分データの中から当該対象データの要約となり得る前記部分データを抽出する第5のステップと
    を備え、
    前記部分データは、前記構成要素を複数含むことによって前記対象データの少なくとも一部を構成するものであり、
    前記重要度は、前記部分データが前記対象データに占める重要性を表す指標として、前記キーネスに基づいて前記部分データごとに推定される
    処理を前記データ分析システムに実行させることを特徴とする記録媒体。
JP2015558244A 2015-05-22 2015-05-22 データ分析システム、制御方法、制御プログラム、および記録媒体 Active JP5933863B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/064833 WO2016189606A1 (ja) 2015-05-22 2015-05-22 データ分析システム、制御方法、制御プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP5933863B1 JP5933863B1 (ja) 2016-06-15
JPWO2016189606A1 true JPWO2016189606A1 (ja) 2017-06-22

Family

ID=56120505

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015558244A Active JP5933863B1 (ja) 2015-05-22 2015-05-22 データ分析システム、制御方法、制御プログラム、および記録媒体

Country Status (2)

Country Link
JP (1) JP5933863B1 (ja)
WO (1) WO2016189606A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11481690B2 (en) * 2016-09-16 2022-10-25 Foursquare Labs, Inc. Venue detection
JP6881203B2 (ja) * 2017-10-03 2021-06-02 富士通株式会社 分類プログラム、分類方法、および分類装置
CN113704407B (zh) * 2021-08-30 2023-08-25 平安银行股份有限公司 基于类别分析的投诉量分析方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000048025A (ja) * 1998-07-28 2000-02-18 Brother Ind Ltd 通信装置
JP2002049632A (ja) * 2000-08-03 2002-02-15 Nec Corp 要約システムとその要約方法、及び要約プログラムを記録した記録媒体
JP2005078240A (ja) * 2003-08-29 2005-03-24 Mamoru Tanaka データマイニングによる知識抽出法
JP2013016106A (ja) * 2011-07-06 2013-01-24 Kyocera Communication Systems Co Ltd 要約文生成装置
JP5526199B2 (ja) * 2012-08-22 2014-06-18 株式会社東芝 文書分類装置および文書分類処理プログラム
JP5882183B2 (ja) * 2012-11-22 2016-03-09 日本電信電話株式会社 トークスクリプト抽出装置、方法、及びプログラム
JP2014225158A (ja) * 2013-05-16 2014-12-04 日本電信電話株式会社 文書要約装置、方法、及びプログラム
JP6173848B2 (ja) * 2013-09-11 2017-08-02 株式会社東芝 文書分類装置

Also Published As

Publication number Publication date
JP5933863B1 (ja) 2016-06-15
WO2016189606A1 (ja) 2016-12-01

Similar Documents

Publication Publication Date Title
US10204153B2 (en) Data analysis system, data analysis method, data analysis program, and storage medium
Mostafa Clustering halal food consumers: A Twitter sentiment analysis
JP5885875B1 (ja) データ分析システム、データ分析方法、プログラム、および、記録媒体
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
WO2016203652A1 (ja) データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
Zhu et al. Identifying the technology convergence using patent text information: A graph convolutional networks (GCN)-based approach
Chatterjee et al. Classifying facts and opinions in Twitter messages: a deep learning-based approach
Hajhmida et al. Predicting mobile application breakout using sentiment analysis of Facebook posts
Sandhu et al. Enhanced Text Mining Approach for Better Ranking System of Customer Reviews
JP5933863B1 (ja) データ分析システム、制御方法、制御プログラム、および記録媒体
WO2016189605A1 (ja) データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
JP2017201543A (ja) データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
Kim et al. Opinion mining-based term extraction sentiment classification modeling
JP6178480B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Jishag et al. Automated review analyzing system using sentiment analysis
Liu et al. A new feature selection method for text categorization of customer reviews
Tanaltay et al. Can Social Media Predict Soccer Clubs’ Stock Prices? The Case of Turkish Teams and Twitter
Hou et al. Civil aviation safety risk intelligent early warning model based on text mining and multi-model fusion
WO2016111007A1 (ja) データ分析システム、データ分析システムの制御方法、及びデータ分析システムの制御プログラム
JP2019133478A (ja) 計算機システム
Tu et al. Real-time detection and sorting of news on microblogging platforms
Shanmugarajah et al. WoKnack–A Professional Social Media Platform for Women Using Machine Learning Approach
Matsuyama et al. Consumer analysis of high sensitivity layer
Çeltek Opinion mining or sentiment analysis of online reviews in tourism

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160502

R150 Certificate of patent or registration of utility model

Ref document number: 5933863

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250