JPWO2008108118A1

JPWO2008108118A1 - 情報処理装置及び情報処理プログラム

Info

Publication number: JPWO2008108118A1
Application number: JP2009502480A
Authority: JP
Inventors: 竹田　真弓; 真弓竹田
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2007-03-05
Filing date: 2008-01-28
Publication date: 2010-06-10
Also published as: WO2008108118A1

Abstract

テキストデータ又は音声データの中に含まれる名詞を抽出し、抽出した名詞に対して出現頻度等の優先度を付与する。そして優先度が付与された名詞のうち、優先度の高いものから順に少なくとも２つ以上の名詞を選別し、選別した名詞に対して互いに異なる表示属性を付与して選別した語句データからなる要約データを作成し、ディスプレイに表示する。このようにすることにより、簡易な要約を作成してテキストデータ等の概要を迅速に把握することが出来る。

Description

本発明は、テキストデータ又は音声データに関する要約データを作成・表示する情報処理装置及び情報処理プログラムに関するものである。

現在、個人が自分で所有する多数の文書等を電子データとしてコンピュータに記憶させて管理している場合が多い。多数の電子データをコンピュータ１つで管理できるという点では利便性が良いが、管理する電子データが多くなると全ての電子データの内容を把握することが難しくなる。

そこで電子データの概要を簡易に把握するため、電子データの要約文を作成する技術が提案されている。特許文献１に記載の技術は、情報処理装置において指定された文書の要約文を作成し、要約文を吹き出し型のウインドウで表示するという技術である。当該技術によれば、電子データの概要を要約文により簡易に把握することが出来る。
特開２００４−２５２５４５号公報

しかし、従来作成された要約文は一定量の文章となっているため、要約文を読んで電子データの概要を把握するためには多少の時間がかかり、迅速に電子データの概要を把握することが出来なかった。

そこで、本発明の目的は、簡易な要約を作成してテキストデータ等の概要を迅速に把握することができる情報処理装置及び情報処理プログラムを提供することにある。

上記目的を達成するため、本発明に係る情報処理装置は、
テキストデータ又は音声データの中に含まれる語句データを抽出する抽出手段と、
当該抽出手段によって抽出された語句データに対して優先度を付与する優先度付与手段と、
当該優先度付与手段によって優先度が付与された語句データのうち、優先度の高いものから順に少なくとも２つ以上の語句データを選別し、選別した語句データに対して互いに異なる表示属性を付与して選別した語句データからなる要約データを作成する要約作成手段と、
前記表示属性に基づき前記要約データを表示する表示手段と、
を有することを特徴とするものである。

また、本発明に係る情報処理装置は、
テキストデータ又は音声データの中に含まれる語句データを抽出する抽出手段と、
当該抽出手段によって抽出された語句データに対して、前記テキストデータ又は前記音声データにおける複数の区分毎の優先度を付与する優先度付与手段と、
当該優先度付与手段によって優先度が付与された語句データのうち、前記区分毎に優先度の高いものから順に少なくとも１つ以上の語句データを選別して、前記テキストデータ又は前記音声データ全体として複数の語句データを選別し、選別した前記複数の語句データに対して前記区分毎に互いに異なる表示属性を付与して選別した前記複数の語句データからなる要約データを作成する要約作成手段と、
前記表示属性に基づき前記要約データを表示する表示手段と、
を有することを特徴とするものである。

また、本発明に係る情報処理プログラムは、
テキストデータ又は音声データの中に含まれる語句データを抽出する抽出工程と、
当該抽出工程によって抽出された語句データに対して優先度を付与する優先度付与工程と、
当該優先度付与工程によって優先度が付与された語句データのうち、優先度の高いものから順に少なくとも２つ以上の語句データを選別し、選別した語句データに対して互いに異なる表示属性を付与して選別した語句データからなる要約データを作成する要約作成工程と、
前記表示属性に基づき前記要約データを表示する表示工程と、
をコンピュータに実行させることを特徴とするものである。

また、本発明に係る情報処理プログラムは、
テキストデータ又は音声データの中に含まれる語句データを抽出する抽出工程と、
当該抽出工程によって抽出された語句データに対して、前記テキストデータ又は前記音声データにおける複数の区分毎の優先度を付与する優先度付与工程と、
当該優先度付与工程によって優先度が付与された語句データのうち、前記区分毎に優先度の高いものから順に少なくとも１つ以上の語句データを選別して、前記テキストデータ又は前記音声データ全体として複数の語句データを選別し、選別した前記複数の語句データに対して前記区分毎に互いに異なる表示属性を付与して選別した前記複数の語句データからなる要約データを作成する要約作成工程と、
前記表示属性に基づき前記要約データを表示する表示工程と、
をコンピュータに実行させることを特徴とするものである。

本発明に係る情報処理装置及び情報処理プログラムによれば、簡易な要約を作成してテキストデータ等の概要を迅速に把握することができる。

本発明に係る情報処理装置１の制御系のブロック図である。テキストデータに関して要約データを作成する手順を説明するフローチャート図である。ディスプレイ１０７に表示された要約データの例を示す説明図である。音声データの要約データを作成する手順を説明するフローチャート図である。ページ単位で出現頻度が高い名詞を抽出して要約データを作成する手順を説明するフローチャート図である。データ領域の優先順位と出現頻度を考慮して要約データを作成する手順を説明するフローチャート図である。出現頻度を考慮して名詞を抽出し、且つその名詞の属性を解析して要約データを作成する手順を説明するフローチャート図である。ディスプレイ１０７に表示された要約データの別の例を示す説明図である。テキストデータ等をディスプレイ上で選択した場合に表示される要約データの例を示す説明図である。アイコン化されて表示される要約データの例を示す説明図である。

符号の説明

１情報処理装置
１０１ＰＣ
１０２ＲＯＭ
１０３ＲＡＭ
１０５ＨＤＤ
１０７ディスプレイ
１０８音声データ生成部

図１は本発明に係る情報処理装置１の制御系のブロック図であり、代表的な制御構成を示している。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１は情報処理装置１全体の動作を制御するものであり、システムバス１１０を介して、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０２やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３等に接続されている。このＣＰＵ１０１は、ＲＯＭ１０２に格納されている各種制御プログラムを読み出してＲＡＭ１０３に展開し、各部の動作を制御する。また、ＣＰＵ１０１は、ＲＡＭ１０３に展開したプログラムに従って各種処理を実行し、その処理結果をＲＡＭ１０３に格納するとともに、ディスプレイ１０７に表示させる。そして、ＲＡＭ１０３に格納した処理結果を所定の保存先に保存させる。尚、本実施形態においては、ＣＰＵ１０１はＲＯＭ１０２及びＲＡＭ１０３と協働することにより抽出手段、優先度付与手段、要約作成手段、語句データ属性解析手段、表示手段属性解析手段として機能する。

ネットワークインターフェイスカード（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ：ＮＩＣ）１０９は、システムバス１１０とＬＡＮ２とのインターフェイスであり、ＮＩＣ１０９を介して情報処理装置１がＬＡＮ２に接続されている。従って、ＬＡＮ２を経由して外部端末（図示せず）と情報処理装置１との間で電子データの送受信が可能である。

ＲＯＭ１０２は、プログラムやデータ等を予め記憶しており、この記録媒体は磁気的、光学的記録媒体、若しくは半導体メモリで構成されている。

ＲＡＭ１０３は、ＣＰＵ１０１によって実行される各種制御プログラムによって処理されたデータ等を一時的に記憶するワークエリアを形成する。

ＮＶＲＡＭ１０４は不揮発性のメモリである。情報処理装置１の電源がＯＦＦとなってもＮＶＲＡＭ１０４に記憶されたデータは消去されない。

ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０５は、テキストデータや音声データ等の電子データを記憶する機能を有する。磁性体を塗布または蒸着した金属のディスクを一定の間隔で複数枚重ね合わせた構造となっており、これをモータで高速に回転させて磁気ヘッドを近づけてデータを読み書きする。本発明に係る情報処理プログラムはＨＤＤ１０５に記憶されている。

通信部１０６は、他の機器とのデータ通信を行う通信インターフェイスであって、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）やＩＥＥＥ１２８４、ＩＥＥＥ１３９４、ＰＣＭＣＩＡ等により構成されている。

表示手段として機能するディスプレイ１０７はＣＰＵ１０１によって処理された結果や、ＨＤＤ１０５に記憶されている電子データを表示する。ディスプレイ１０７はカラーのディスプレイ、モノクロのディスプレイ、いずれでもよい。

音声データ生成部１０８は、情報処理装置１に接続されたマイクにより入力されたアナログ信号の音声をデジタル信号に変換し、音声データを生成するものである。音声データ生成部１０８によって生成された音声データはＨＤＤ１０５に記憶される。

次に情報処理装置１により要約データを作成する手順を説明する。

図２はテキストデータに関して要約データを作成する手順を説明するフローチャート図である。

まず要約作成用のアプリケーション（情報処理プログラム）を情報処理装置１上で起動させる（ステップＳ１）。要約作成用のアプリケーションは情報処理装置１におけるＨＤＤ１０５に記憶されている。

要約作成用のアプリケーションを起動させると、ディスプレイ１０７上に要約作成用の画面が表示され、その画面においてユーザーが要約データを作成するテキストデータを選択する（ステップＳ２）。テキストデータは文書のみのデータだけでなく、文書の他に画像のデータも含まれたデータであってもよい。テキストデータは、例えば、プレーンテキスト（．ｔｘｔ）やＲＴＦのファイル形式に従って記録されていても良いし、文書ファイル、画像ファイル、動画ファイル、音声ファイル等の一部として記録されていても良い。また、それらのファイルは1つのファイルに限定されず、複数のファイルに分かれていても良い。

ユーザーによってテキストデータが選択され、要約データの作成を開始する開始ボタンが押されると（ステップＳ３；Ｙｅｓ）、まず選択されたテキストデータ内の名詞（語句データ）を抽出する動作を実行する（ステップＳ４：抽出工程）。名詞を抽出する動作は、テキストデータ内の文章を認識して所定の規則に従って文章を語句単位で区切り、区切った語句から名詞を抽出するという動作である。語句には前置詞や接続詞等も含まれるが、それらの品詞はテキストデータの概要を表すには適さないため、ステップＳ４では名詞を抽出する。

そして名詞を抽出すると、抽出した名詞毎に出現頻度を算出する（ステップＳ５：優先度付与工程）。つまり、名詞に対して出現頻度という優先度を付与する。この出現頻度は、テキストデータ全体における対象となる名詞の使用回数であり、抽出した名詞を集計して出現頻度を算出する。

そして出現頻度が高いものから順に５つの名詞を選別し（ステップＳ６）、選別した５つの名詞に互いに異なる表示属性を付与して要約データを作成する（ステップＳ７：要約作成工程）。名詞の選別は出現頻度が高いという優先度の高いものから順に選別している。

文書において出現頻度が高い名詞は、一般的にその文書の代表的なキーワードであるといえる。従って出現頻度が高い名詞を使用して要約データを作成することが好ましく、ステップＳ６では出現頻度が高いものから順に５つの名詞を選別している。なおステップＳ６では一例として名詞の選別個数を５つとしており、２つ以上の名詞であれば５つに限定されるものではない。

また選別した５つの名詞に互いに異なる表示属性を付与する理由は、作成した要約データをディスプレイ１０７に表示する際に、要約データに使用されている名詞を区別して表示させるためである。表示属性としては文字の大きさ、文字の色などであり、その表示属性を個々の名詞で異ならせて要約データを作成する。

最終的な要約データが作成されると、ステップＳ７で付与した表示属性に基づいて選別した名詞を区別して表示するよう、要約データを表示する（ステップＳ８：表示工程）。ディスプレイ１０７に表示された要約データの例を図３に示す。

例えば図３（ａ）に示すように選別した名詞の大きさを異ならせた要約データが考えられる。テキストデータにおいて一番出現頻度が高い名詞を一番大きく表示し、出現頻度が低くなるにつれて、名詞の大きさを段々と小さくして表示することが考えられる。

また図３（ｂ）に示すように選別した名詞の色を異ならせて表示することも考えられる。一番出願頻度の多い名詞を青色、二番目に出願頻度の多い名詞を赤色、というように要約データに使用される名詞の色を各々異ならせることが考えられる。

以上図２及び図３で説明したように優先度の高いものから順に少なくとも２つ以上の名詞を選別して要約データを作成し、要約データに使用されている名詞を区別してディスプレイ上に表示するようにすれば、簡易な要約を作成してテキストデータ等の概要を迅速に把握することができる。

図２ではテキストデータに関して要約データを作成する手順を説明したが、音声データに関しても同様に要約データを作成することも考えられる。図４は音声データの要約データを作成する手順を説明するフローチャート図である。

図４に示すフローチャートは図２に示すフローチャートとほぼ同様であり、図４ではステップＳ１２で情報処理装置１におけるＨＤＤ１０５に記憶されている音声データを選択する。前述したように、音声データは情報処理装置１における音声データ生成部１０８で生成されたものである。音声データは、例えば、音声ファイルの形式に従って記録されていても良いし、文書ファイル、画像ファイル、動画ファイル等の一部として記録されていても良い。また、それらのファイルは1つのファイルに限定されず、複数のファイルに分かれていても良い。

ユーザーによって音声データが選択され（ステップＳ１２）、要約データの作成を開始する開始ボタンが押されると（ステップＳ１３；Ｙｅｓ）、選択された音声データ内の名詞（語句データ）を抽出する動作を実行する（ステップＳ１４：抽出工程）。名詞を抽出する動作は、音声データにおける音声波形を解析して所定の規則に従って名詞を抽出するという動作である。

そして図２のフローチャートと同様に、出現頻度が高いものから順に例えば５つの名詞を選別し、その選別した名詞により要約データを作成する。要約データの表示形態は図３に示した表示形態と同様のものが考えられる。

次にテキストデータの区分毎に優先度の高い名詞を抽出して要約データを作成する手順を説明する。

図５はページ単位で出現頻度が高い名詞を抽出して要約データを作成する手順を説明するフローチャート図である。

図５に示すステップＳ２１からＳ２４までの動作は、図２で示すステップＳ１からＳ４までの動作と同様であるため、ここでの詳細な説明は省略する。

ステップＳ２４でテキストデータにおける名詞を抽出すると、抽出した名詞毎に出現頻度をページ単位で算出する（ステップＳ２５：優先度付与工程）。例えばテキストデータが５頁からなるデータであれば、１頁目に使用された名詞が１頁内で何回使用されたのか、２頁目に使用された名詞が２頁内で何回使用されたのか、というようにページ単位で出現頻度を算出する。

そして最も出現頻度が高い名詞をページ毎に選別し（ステップＳ２６）、選別した名詞に互いに異なる表示属性を付与して要約データを作成する（ステップＳ２７：要約作成工程）。上の例でいえば、１頁目において最も出現頻度が高かった名詞から５頁目において最も出現頻度が高かった名詞まで、ページ毎に５つの名詞を選別する。ページ毎に最も出現頻度が高い名詞を選別する理由は、最も出現頻度が高い名詞は一般的にその頁の代表的なキーワードであるといえ、このような名詞を用いて要約データを作成すれば、テキストデータ全体の概要を把握しやすいと考えられるためである。

最終的な要約データが作成されると、ステップＳ２７で付与した表示属性に基づいて選別した名詞を区別して表示するよう、要約データを表示する（ステップＳ２８：表示工程）。要約データの表示形態は図３に示した表示形態と同様のものが考えられる。

なお、図５におけるフローチャートではテキストデータの区分として「ページ」という概念を考慮したが、所定行数毎に一つの区分としたり、所定文字数毎に一つの区分としたりするなど、ページ以外の区分であってもよい。

また、図５におけるフローチャートでは５つの名詞を選別して要約データを作成しているが、選別した名詞で重複するものがあれば要約データに表示する名詞の個数を減らし、要約データをディスプレイ１０７に表示する際に重複する名詞を大きく表示するなどとしてもよい。

以上図５で説明したようにテキストデータの区分毎に優先度の高い名詞を選別して要約データを作成し、要約データに使用されている名詞を区別してディスプレイ上に表示するようにすれば、簡易な要約を作成してテキストデータ等の概要を迅速に把握することができる。

次にテキストデータ内の領域に関する優先順位を考慮して要約データを作成する手順を説明する。

図６はデータ領域の優先順位と出現頻度を考慮して要約データを作成する手順を説明するフローチャート図である。

図６に示すステップＳ３１からＳ３３までの動作は、図２で示すステップＳ１からＳ３までの動作と同様であるため、ここでの詳細な説明は省略する。

ユーザーによってテキストデータが選択され（ステップＳ３２）、要約データの作成を開始する開始ボタンが押されると（ステップＳ３３；Ｙｅｓ）、まずテキストデータにおけるデータ領域を解析する（ステップＳ３４）。テキストデータには「概要」「要約」等、属性が付与されたデータ領域が含まれている場合がある。そこで要約データを作成する名詞を抽出するため、まずそのデータ領域の解析を行う。データ領域の解析はＣＰＵ１０１が所定のプログラムにより実行する。

データ領域の解析を実行すると、次に優先順位が最も高いデータ領域を抽出したうえで（ステップＳ３５）、抽出したデータ領域内の名詞を抽出する（ステップＳ３６）。

優先順位に関してはデータベースとしてＨＤＤ１０５に記憶されている。例えば「概要」「要約」等がデータ領域の項目としてデータベース上に規定されており、項目の優先順位もこのデータベース上に規定されている。ステップＳ３５では、ステップＳ３４で解析したデータ領域と、優先順位に関するデータベースを照合して、優先順位が最も高い領域を抽出する。

ステップＳ３６の名詞を抽出する動作は、ステップＳ３５で抽出したデータ領域内の文章を認識して所定の規則に従って文章を語句単位で区切り、区切った語句から名詞を抽出するという動作である。

名詞の抽出が完了すると、抽出した名詞毎にステップＳ３５で抽出したデータ領域内の出現頻度を算出し（ステップＳ３７）、出現頻度が高い、例えば５つの名詞を使用してステップＳ３８からＳ４０のように要約データを作成・表示する。図６に示すステップＳ３８からＳ４０までの動作は、図２で示すステップＳ６からＳ８までの動作と同様であるため、ここでの詳細な説明は省略する。

なお、優先順位の最も高いデータ領域に必要個数の名詞が含まれていない場合は、優先順位が２番目に高いデータ領域を抽出して、そのデータ領域に含まれる名詞で出現頻度の高いものを選別し要約データを作成してもよい。つまり、データ領域の優先順位と、名詞の出現頻度を色々なバリエーションで考慮し、要約データを作成するための名詞を選別することが考えられる。

以上図６で説明したようデータ領域の優先順位と、出現頻度を考慮して優先度の高い名詞を選別して要約データを作成し、要約データに使用されている名詞を区別してディスプレイ上に表示するようにすれば、簡易な要約を作成してテキストデータ等の概要を迅速に把握することができる。

次に要約データを構成する名詞の属性を考慮してディスプレイ１０７の表示形態を異ならせる内容に関して説明する。

図７は出現頻度を考慮して名詞を抽出し、且つその名詞の属性を解析して要約データを作成する手順を説明するフローチャート図である。

図７に示すステップＳ４１からＳ４６までの動作は、図２で示すステップＳ１からＳ６までの動作と同様であるため、ここでの詳細な説明は省略する。

ステップＳ４６において出現頻度の高い順に例えば５つの名詞を選別すると（ステップＳ４６）、出現頻度が高い５つの名詞に対してその属性を解析する（ステップＳ４７：語句データ属性解析工程）。例えば、選別された名詞を解析した結果、その名詞の属性がネットワークにおける専門用語であれば、「ネットワークにおける専門用語」という属性を考慮して表示属性を付与する。「ネットワークにおける専門用語」は青の表示属性を付与すると決めておけば、その表示属性が反映された要約データをユーザーが見た段階で、どのような分野の要約データであるか認識することが可能となる。

ステップＳ４７の具体的な方法としては、属性を判断するための複数のデータベースを用意し、対象となる名詞がどのデータベースの中に含まれるのか検索する。データベースとしては、例えば広辞苑のデータベース、英和・和英辞典のデータベース、技術用語のデータベース等、様々なデータベースが考えられる。所定のデータベースの中に含まれていた場合は、そのデータベースに関する表示属性を付与する。表示属性としては色であったり、文字の大きさであったり色々な属性が考えられる。

名詞の属性の解析が終了したら、選別した５つの名詞に解析結果を反映して表示属性を付与した上で要約データを作成し（ステップＳ４８）、表示属性に基づき要約データを表示させる（ステップＳ４９）。要約データの表示形態は図３に示した表示形態と同様のものが考えられる。

なお、図７のステップＳ４７では選別した５つの名詞の属性を解析して、解析結果を表示属性に反映しているが、名詞の属性ではなく、ディスプレイ１０７の属性を解析して（表示手段属性解析工程）、解析結果を表示属性に反映することも考えられる。例えば、ディスプレイ１０７がモノクロのディスプレイであれば、「モノクロ」というディスプレイの属性を考慮し、色に関する属性ではなく、文字の大きさに関する属性を名詞の表示属性に反映することが考えられる。

また、情報処理装置１の閲覧者の属性を解析して表示属性に反映することも考えられる。情報処理装置１にログインした者の属性を判断し、その者特有の属性を名詞の表示属性に反映させることが考えられる。例えば所定の閲覧者が検索エンジンで過去に検索したキーワードを記憶しておき、図７のステップＳ４６で選別した名詞が当該キーワードに該当すれば、その名詞をディスプレイ上に大きく表示する等の属性を名詞の表示属性に反映させる。

要約データの表示形態の例を図３に示したが、他の表示形態も考えられる。まず、要約データに使用される名詞を時間の経過とともに切り換える形態が考えられる。図８（ａ）に示すようにテキストデータ等で出現頻度の高い順に５つの名詞を区別して表示しているが、最も出現頻度が高い「文書」という名詞と、２番目に出現頻度が高い「管理」という名詞は残し、３番目から５番目に出現頻度が高い「閲覧」「特開」「ｐｒｏｊｅｃｔ」という名詞を所定の時間が経過したら、６番目から８番目に出現頻度が高い「表示」「情報」「仕様」という名詞に切り換えることが考えられる。このように出現頻度がそれほど高くない名詞を時間の経過とともに切り換えることにより、テキストデータ等の概要を把握しやすいように出来る。

要約作成用のアプリケーションにより作成された要約データと、その要約データの対象となるテキストデータ又は音声データは、関連付けてＨＤＤ１０５に保存される。

その保存された要約データの表示タイミングであるが、図９に示すようにディスプレイ１０７上に表示されたテキストデータ等のファイル名を情報処理装置１におけるマウスの矢印Ａで選択すると、要約データが吹き出し型のウインドウで表示されることが考えられる。つまり、テキストデータ又は音声データと要約データを関連付けて表示することが考えられる。またテキストデータ等のファイル名の代わりに図１０のＸで示すように要約データをアイコン化して表示することも考えられる。このように要約データを表示すれば、テキストデータ等の概要を迅速に把握することができる。

要約データの作成タイミングであるが、ユーザーによってテキストデータが選択され、要約データの作成を開始する開始ボタンが押される時に限るものではない。例えば、テキストデータ等を含むデータをファイル形式に従って記録（保存）するタイミングに要約データを作成しても良いし、予めフォルダを指定しておき、指定されたフォルダにテキストデータ等を含むファイルが保存されるタイミングで要約データを作成しても良い。

本発明の実施の形態を図面によって説明してきたが、本発明は当該実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲における変更や追加があっても本発明に含まれる。

Claims

テキストデータ又は音声データの中に含まれる語句データを抽出する抽出手段と、
当該抽出手段によって抽出された語句データに対して優先度を付与する優先度付与手段と、
当該優先度付与手段によって優先度が付与された語句データのうち、優先度の高いものから順に少なくとも２つ以上の語句データを選別し、選別した語句データに対して互いに異なる表示属性を付与して選別した語句データからなる要約データを作成する要約作成手段と、
前記表示属性に基づき前記要約データを表示する表示手段と、
を有することを特徴とする情報処理装置。
テキストデータ又は音声データの中に含まれる語句データを抽出する抽出手段と、
当該抽出手段によって抽出された語句データに対して、前記テキストデータ又は前記音声データにおける複数の区分毎の優先度を付与する優先度付与手段と、
当該優先度付与手段によって優先度が付与された語句データのうち、前記区分毎に優先度の高いものから順に少なくとも１つ以上の語句データを選別して、前記テキストデータ又は前記音声データ全体として複数の語句データを選別し、選別した前記複数の語句データに対して前記区分毎に互いに異なる表示属性を付与して選別した前記複数の語句データからなる要約データを作成する要約作成手段と、
前記表示属性に基づき前記要約データを表示する表示手段と、
を有することを特徴とする情報処理装置。
前記優先度は、前記テキストデータ又は前記音声データにおける語句データの出現頻度であり、
前記優先度が高いものとは、前記出現頻度が高いものをいうことを特徴とする請求の範囲第１項又は第２項に記載の情報処理装置。
前記優先度は、前記出現頻度と、語句データが属するデータ領域の優先順位であり、
前記優先度が高いものとは、前記優先順位の高いデータ領域に属する語句データのうち、前記出現頻度が高いものをいうことを特徴とする請求の範囲第３項に記載の情報処理装置。
前記要約データを構成する語句データの属性を解析し、その解析結果を前記表示属性に反映させる語句データ属性解析手段を有することを特徴とする請求の範囲第１項乃至第４項の何れか１項に記載の情報処理装置。
前記表示手段の属性を解析し、その解析結果を前記表示属性に反映させる表示手段属性解析手段を有することを特徴とする請求の範囲第１項乃至第５項の何れか１項に記載の情報処理装置。
前記表示手段は、前記テキストデータ又は前記音声データと、前記要約データとを関連付けて表示することを特徴とする請求の範囲第１項乃至第６項の何れか１項に記載の情報処理装置。
テキストデータ又は音声データの中に含まれる語句データを抽出する抽出工程と、
当該抽出工程によって抽出された語句データに対して優先度を付与する優先度付与工程と、
当該優先度付与工程によって優先度が付与された語句データのうち、優先度の高いものから順に少なくとも２つ以上の語句データを選別し、選別した語句データに対して互いに異なる表示属性を付与して選別した語句データからなる要約データを作成する要約作成工程と、
前記表示属性に基づき前記要約データを表示する表示工程と、
をコンピュータに実行させることを特徴とする情報処理プログラム。
テキストデータ又は音声データの中に含まれる語句データを抽出する抽出工程と、
当該抽出工程によって抽出された語句データに対して、前記テキストデータ又は前記音声データにおける複数の区分毎の優先度を付与する優先度付与工程と、
当該優先度付与工程によって優先度が付与された語句データのうち、前記区分毎に優先度の高いものから順に少なくとも１つ以上の語句データを選別して、前記テキストデータ又は前記音声データ全体として複数の語句データを選別し、選別した前記複数の語句データに対して前記区分毎に互いに異なる表示属性を付与して選別した前記複数の語句データからなる要約データを作成する要約作成工程と、
前記表示属性に基づき前記要約データを表示する表示工程と、
をコンピュータに実行させることを特徴とする情報処理プログラム。
前記優先度は、前記テキストデータ又は前記音声データにおける語句データの出現頻度であり、
前記優先度が高いものとは、前記出現頻度が高いものをいうことを特徴とする請求の範囲第８項又は第９項に記載の情報処理プログラム。
前記優先度は、前記出現頻度と、語句データが属するデータ領域の優先順位であり、
前記優先度が高いものとは、前記優先順位の高いデータ領域に属する語句データのうち、前記出現頻度が高いものをいうことを特徴とする請求の範囲第１０項に記載の情報処理プログラム。
前記要約データを構成する語句データの属性を解析し、その解析結果を前記表示属性に反映させる語句データ属性解析工程をコンピュータに実行させることを特徴とする請求の範囲第８項乃至第１１項の何れか１項に記載の情報処理プログラム。
コンピュータにおける表示手段の属性を解析し、その解析結果を前記表示属性に反映させる表示手段属性解析工程をコンピュータに実行させることを特徴とする請求の範囲第８項乃至第１２項の何れか１項に記載の情報処理プログラム。
前記表示工程は、前記テキストデータ又は前記音声データと、前記要約データとを関連付けて表示することを特徴とする請求の範囲第８項乃至第１３項の何れか１項に記載の情報処理プログラム。