JPWO2008108118A1 - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JPWO2008108118A1
JPWO2008108118A1 JP2009502480A JP2009502480A JPWO2008108118A1 JP WO2008108118 A1 JPWO2008108118 A1 JP WO2008108118A1 JP 2009502480 A JP2009502480 A JP 2009502480A JP 2009502480 A JP2009502480 A JP 2009502480A JP WO2008108118 A1 JPWO2008108118 A1 JP WO2008108118A1
Authority
JP
Japan
Prior art keywords
data
priority
display
phrase
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009502480A
Other languages
English (en)
Inventor
竹田 真弓
真弓 竹田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Publication of JPWO2008108118A1 publication Critical patent/JPWO2008108118A1/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

テキストデータ又は音声データの中に含まれる名詞を抽出し、抽出した名詞に対して出現頻度等の優先度を付与する。そして優先度が付与された名詞のうち、優先度の高いものから順に少なくとも2つ以上の名詞を選別し、選別した名詞に対して互いに異なる表示属性を付与して選別した語句データからなる要約データを作成し、ディスプレイに表示する。このようにすることにより、簡易な要約を作成してテキストデータ等の概要を迅速に把握することが出来る。

Description

本発明は、テキストデータ又は音声データに関する要約データを作成・表示する情報処理装置及び情報処理プログラムに関するものである。
現在、個人が自分で所有する多数の文書等を電子データとしてコンピュータに記憶させて管理している場合が多い。多数の電子データをコンピュータ1つで管理できるという点では利便性が良いが、管理する電子データが多くなると全ての電子データの内容を把握することが難しくなる。
そこで電子データの概要を簡易に把握するため、電子データの要約文を作成する技術が提案されている。特許文献1に記載の技術は、情報処理装置において指定された文書の要約文を作成し、要約文を吹き出し型のウインドウで表示するという技術である。当該技術によれば、電子データの概要を要約文により簡易に把握することが出来る。
特開2004−252545号公報
しかし、従来作成された要約文は一定量の文章となっているため、要約文を読んで電子データの概要を把握するためには多少の時間がかかり、迅速に電子データの概要を把握することが出来なかった。
そこで、本発明の目的は、簡易な要約を作成してテキストデータ等の概要を迅速に把握することができる情報処理装置及び情報処理プログラムを提供することにある。
上記目的を達成するため、本発明に係る情報処理装置は、
テキストデータ又は音声データの中に含まれる語句データを抽出する抽出手段と、
当該抽出手段によって抽出された語句データに対して優先度を付与する優先度付与手段と、
当該優先度付与手段によって優先度が付与された語句データのうち、優先度の高いものから順に少なくとも2つ以上の語句データを選別し、選別した語句データに対して互いに異なる表示属性を付与して選別した語句データからなる要約データを作成する要約作成手段と、
前記表示属性に基づき前記要約データを表示する表示手段と、
を有することを特徴とするものである。
また、本発明に係る情報処理装置は、
テキストデータ又は音声データの中に含まれる語句データを抽出する抽出手段と、
当該抽出手段によって抽出された語句データに対して、前記テキストデータ又は前記音声データにおける複数の区分毎の優先度を付与する優先度付与手段と、
当該優先度付与手段によって優先度が付与された語句データのうち、前記区分毎に優先度の高いものから順に少なくとも1つ以上の語句データを選別して、前記テキストデータ又は前記音声データ全体として複数の語句データを選別し、選別した前記複数の語句データに対して前記区分毎に互いに異なる表示属性を付与して選別した前記複数の語句データからなる要約データを作成する要約作成手段と、
前記表示属性に基づき前記要約データを表示する表示手段と、
を有することを特徴とするものである。
また、本発明に係る情報処理プログラムは、
テキストデータ又は音声データの中に含まれる語句データを抽出する抽出工程と、
当該抽出工程によって抽出された語句データに対して優先度を付与する優先度付与工程と、
当該優先度付与工程によって優先度が付与された語句データのうち、優先度の高いものから順に少なくとも2つ以上の語句データを選別し、選別した語句データに対して互いに異なる表示属性を付与して選別した語句データからなる要約データを作成する要約作成工程と、
前記表示属性に基づき前記要約データを表示する表示工程と、
をコンピュータに実行させることを特徴とするものである。
また、本発明に係る情報処理プログラムは、
テキストデータ又は音声データの中に含まれる語句データを抽出する抽出工程と、
当該抽出工程によって抽出された語句データに対して、前記テキストデータ又は前記音声データにおける複数の区分毎の優先度を付与する優先度付与工程と、
当該優先度付与工程によって優先度が付与された語句データのうち、前記区分毎に優先度の高いものから順に少なくとも1つ以上の語句データを選別して、前記テキストデータ又は前記音声データ全体として複数の語句データを選別し、選別した前記複数の語句データに対して前記区分毎に互いに異なる表示属性を付与して選別した前記複数の語句データからなる要約データを作成する要約作成工程と、
前記表示属性に基づき前記要約データを表示する表示工程と、
をコンピュータに実行させることを特徴とするものである。
本発明に係る情報処理装置及び情報処理プログラムによれば、簡易な要約を作成してテキストデータ等の概要を迅速に把握することができる。
本発明に係る情報処理装置1の制御系のブロック図である。 テキストデータに関して要約データを作成する手順を説明するフローチャート図である。 ディスプレイ107に表示された要約データの例を示す説明図である。 音声データの要約データを作成する手順を説明するフローチャート図である。 ページ単位で出現頻度が高い名詞を抽出して要約データを作成する手順を説明するフローチャート図である。 データ領域の優先順位と出現頻度を考慮して要約データを作成する手順を説明するフローチャート図である。 出現頻度を考慮して名詞を抽出し、且つその名詞の属性を解析して要約データを作成する手順を説明するフローチャート図である。 ディスプレイ107に表示された要約データの別の例を示す説明図である。 テキストデータ等をディスプレイ上で選択した場合に表示される要約データの例を示す説明図である。 アイコン化されて表示される要約データの例を示す説明図である。
符号の説明
1 情報処理装置
101 PC
102 ROM
103 RAM
105 HDD
107 ディスプレイ
108 音声データ生成部
図1は本発明に係る情報処理装置1の制御系のブロック図であり、代表的な制御構成を示している。
CPU(Central Processing Unit)101は情報処理装置1全体の動作を制御するものであり、システムバス110を介して、ROM(Read Only Memory)102やRAM(Random Access Memory)103等に接続されている。このCPU101は、ROM102に格納されている各種制御プログラムを読み出してRAM103に展開し、各部の動作を制御する。また、CPU101は、RAM103に展開したプログラムに従って各種処理を実行し、その処理結果をRAM103に格納するとともに、ディスプレイ107に表示させる。そして、RAM103に格納した処理結果を所定の保存先に保存させる。尚、本実施形態においては、CPU101はROM102及びRAM103と協働することにより抽出手段、優先度付与手段、要約作成手段、語句データ属性解析手段、表示手段属性解析手段として機能する。
ネットワークインターフェイスカード(Network Interface Card:NIC)109は、システムバス110とLAN2とのインターフェイスであり、NIC109を介して情報処理装置1がLAN2に接続されている。従って、LAN2を経由して外部端末(図示せず)と情報処理装置1との間で電子データの送受信が可能である。
ROM102は、プログラムやデータ等を予め記憶しており、この記録媒体は磁気的、光学的記録媒体、若しくは半導体メモリで構成されている。
RAM103は、CPU101によって実行される各種制御プログラムによって処理されたデータ等を一時的に記憶するワークエリアを形成する。
NVRAM104は不揮発性のメモリである。情報処理装置1の電源がOFFとなってもNVRAM104に記憶されたデータは消去されない。
HDD(Hard Disk Drive)105は、テキストデータや音声データ等の電子データを記憶する機能を有する。磁性体を塗布または蒸着した金属のディスクを一定の間隔で複数枚重ね合わせた構造となっており、これをモータで高速に回転させて磁気ヘッドを近づけてデータを読み書きする。本発明に係る情報処理プログラムはHDD105に記憶されている。
通信部106は、他の機器とのデータ通信を行う通信インターフェイスであって、例えば、USB(Universal Serial Bus)やIEEE1284、IEEE1394、PCMCIA等により構成されている。
表示手段として機能するディスプレイ107はCPU101によって処理された結果や、HDD105に記憶されている電子データを表示する。ディスプレイ107はカラーのディスプレイ、モノクロのディスプレイ、いずれでもよい。
音声データ生成部108は、情報処理装置1に接続されたマイクにより入力されたアナログ信号の音声をデジタル信号に変換し、音声データを生成するものである。音声データ生成部108によって生成された音声データはHDD105に記憶される。
次に情報処理装置1により要約データを作成する手順を説明する。
図2はテキストデータに関して要約データを作成する手順を説明するフローチャート図である。
まず要約作成用のアプリケーション(情報処理プログラム)を情報処理装置1上で起動させる(ステップS1)。要約作成用のアプリケーションは情報処理装置1におけるHDD105に記憶されている。
要約作成用のアプリケーションを起動させると、ディスプレイ107上に要約作成用の画面が表示され、その画面においてユーザーが要約データを作成するテキストデータを選択する(ステップS2)。テキストデータは文書のみのデータだけでなく、文書の他に画像のデータも含まれたデータであってもよい。テキストデータは、例えば、プレーンテキスト(.txt)やRTFのファイル形式に従って記録されていても良いし、文書ファイル、画像ファイル、動画ファイル、音声ファイル等の一部として記録されていても良い。また、それらのファイルは1つのファイルに限定されず、複数のファイルに分かれていても良い。
ユーザーによってテキストデータが選択され、要約データの作成を開始する開始ボタンが押されると(ステップS3;Yes)、まず選択されたテキストデータ内の名詞(語句データ)を抽出する動作を実行する(ステップS4:抽出工程)。名詞を抽出する動作は、テキストデータ内の文章を認識して所定の規則に従って文章を語句単位で区切り、区切った語句から名詞を抽出するという動作である。語句には前置詞や接続詞等も含まれるが、それらの品詞はテキストデータの概要を表すには適さないため、ステップS4では名詞を抽出する。
そして名詞を抽出すると、抽出した名詞毎に出現頻度を算出する(ステップS5:優先度付与工程)。つまり、名詞に対して出現頻度という優先度を付与する。この出現頻度は、テキストデータ全体における対象となる名詞の使用回数であり、抽出した名詞を集計して出現頻度を算出する。
そして出現頻度が高いものから順に5つの名詞を選別し(ステップS6)、選別した5つの名詞に互いに異なる表示属性を付与して要約データを作成する(ステップS7:要約作成工程)。名詞の選別は出現頻度が高いという優先度の高いものから順に選別している。
文書において出現頻度が高い名詞は、一般的にその文書の代表的なキーワードであるといえる。従って出現頻度が高い名詞を使用して要約データを作成することが好ましく、ステップS6では出現頻度が高いものから順に5つの名詞を選別している。なおステップS6では一例として名詞の選別個数を5つとしており、2つ以上の名詞であれば5つに限定されるものではない。
また選別した5つの名詞に互いに異なる表示属性を付与する理由は、作成した要約データをディスプレイ107に表示する際に、要約データに使用されている名詞を区別して表示させるためである。表示属性としては文字の大きさ、文字の色などであり、その表示属性を個々の名詞で異ならせて要約データを作成する。
最終的な要約データが作成されると、ステップS7で付与した表示属性に基づいて選別した名詞を区別して表示するよう、要約データを表示する(ステップS8:表示工程)。ディスプレイ107に表示された要約データの例を図3に示す。
例えば図3(a)に示すように選別した名詞の大きさを異ならせた要約データが考えられる。テキストデータにおいて一番出現頻度が高い名詞を一番大きく表示し、出現頻度が低くなるにつれて、名詞の大きさを段々と小さくして表示することが考えられる。
また図3(b)に示すように選別した名詞の色を異ならせて表示することも考えられる。一番出願頻度の多い名詞を青色、二番目に出願頻度の多い名詞を赤色、というように要約データに使用される名詞の色を各々異ならせることが考えられる。
以上図2及び図3で説明したように優先度の高いものから順に少なくとも2つ以上の名詞を選別して要約データを作成し、要約データに使用されている名詞を区別してディスプレイ上に表示するようにすれば、簡易な要約を作成してテキストデータ等の概要を迅速に把握することができる。
図2ではテキストデータに関して要約データを作成する手順を説明したが、音声データに関しても同様に要約データを作成することも考えられる。図4は音声データの要約データを作成する手順を説明するフローチャート図である。
図4に示すフローチャートは図2に示すフローチャートとほぼ同様であり、図4ではステップS12で情報処理装置1におけるHDD105に記憶されている音声データを選択する。前述したように、音声データは情報処理装置1における音声データ生成部108で生成されたものである。音声データは、例えば、音声ファイルの形式に従って記録されていても良いし、文書ファイル、画像ファイル、動画ファイル等の一部として記録されていても良い。また、それらのファイルは1つのファイルに限定されず、複数のファイルに分かれていても良い。
ユーザーによって音声データが選択され(ステップS12)、要約データの作成を開始する開始ボタンが押されると(ステップS13;Yes)、選択された音声データ内の名詞(語句データ)を抽出する動作を実行する(ステップS14:抽出工程)。名詞を抽出する動作は、音声データにおける音声波形を解析して所定の規則に従って名詞を抽出するという動作である。
そして図2のフローチャートと同様に、出現頻度が高いものから順に例えば5つの名詞を選別し、その選別した名詞により要約データを作成する。要約データの表示形態は図3に示した表示形態と同様のものが考えられる。
次にテキストデータの区分毎に優先度の高い名詞を抽出して要約データを作成する手順を説明する。
図5はページ単位で出現頻度が高い名詞を抽出して要約データを作成する手順を説明するフローチャート図である。
図5に示すステップS21からS24までの動作は、図2で示すステップS1からS4までの動作と同様であるため、ここでの詳細な説明は省略する。
ステップS24でテキストデータにおける名詞を抽出すると、抽出した名詞毎に出現頻度をページ単位で算出する(ステップS25:優先度付与工程)。例えばテキストデータが5頁からなるデータであれば、1頁目に使用された名詞が1頁内で何回使用されたのか、2頁目に使用された名詞が2頁内で何回使用されたのか、というようにページ単位で出現頻度を算出する。
そして最も出現頻度が高い名詞をページ毎に選別し(ステップS26)、選別した名詞に互いに異なる表示属性を付与して要約データを作成する(ステップS27:要約作成工程)。上の例でいえば、1頁目において最も出現頻度が高かった名詞から5頁目において最も出現頻度が高かった名詞まで、ページ毎に5つの名詞を選別する。ページ毎に最も出現頻度が高い名詞を選別する理由は、最も出現頻度が高い名詞は一般的にその頁の代表的なキーワードであるといえ、このような名詞を用いて要約データを作成すれば、テキストデータ全体の概要を把握しやすいと考えられるためである。
最終的な要約データが作成されると、ステップS27で付与した表示属性に基づいて選別した名詞を区別して表示するよう、要約データを表示する(ステップS28:表示工程)。要約データの表示形態は図3に示した表示形態と同様のものが考えられる。
なお、図5におけるフローチャートではテキストデータの区分として「ページ」という概念を考慮したが、所定行数毎に一つの区分としたり、所定文字数毎に一つの区分としたりするなど、ページ以外の区分であってもよい。
また、図5におけるフローチャートでは5つの名詞を選別して要約データを作成しているが、選別した名詞で重複するものがあれば要約データに表示する名詞の個数を減らし、要約データをディスプレイ107に表示する際に重複する名詞を大きく表示するなどとしてもよい。
以上図5で説明したようにテキストデータの区分毎に優先度の高い名詞を選別して要約データを作成し、要約データに使用されている名詞を区別してディスプレイ上に表示するようにすれば、簡易な要約を作成してテキストデータ等の概要を迅速に把握することができる。
次にテキストデータ内の領域に関する優先順位を考慮して要約データを作成する手順を説明する。
図6はデータ領域の優先順位と出現頻度を考慮して要約データを作成する手順を説明するフローチャート図である。
図6に示すステップS31からS33までの動作は、図2で示すステップS1からS3までの動作と同様であるため、ここでの詳細な説明は省略する。
ユーザーによってテキストデータが選択され(ステップS32)、要約データの作成を開始する開始ボタンが押されると(ステップS33;Yes)、まずテキストデータにおけるデータ領域を解析する(ステップS34)。テキストデータには「概要」「要約」等、属性が付与されたデータ領域が含まれている場合がある。そこで要約データを作成する名詞を抽出するため、まずそのデータ領域の解析を行う。データ領域の解析はCPU101が所定のプログラムにより実行する。
データ領域の解析を実行すると、次に優先順位が最も高いデータ領域を抽出したうえで(ステップS35)、抽出したデータ領域内の名詞を抽出する(ステップS36)。
優先順位に関してはデータベースとしてHDD105に記憶されている。例えば「概要」「要約」等がデータ領域の項目としてデータベース上に規定されており、項目の優先順位もこのデータベース上に規定されている。ステップS35では、ステップS34で解析したデータ領域と、優先順位に関するデータベースを照合して、優先順位が最も高い領域を抽出する。
ステップS36の名詞を抽出する動作は、ステップS35で抽出したデータ領域内の文章を認識して所定の規則に従って文章を語句単位で区切り、区切った語句から名詞を抽出するという動作である。
名詞の抽出が完了すると、抽出した名詞毎にステップS35で抽出したデータ領域内の出現頻度を算出し(ステップS37)、出現頻度が高い、例えば5つの名詞を使用してステップS38からS40のように要約データを作成・表示する。図6に示すステップS38からS40までの動作は、図2で示すステップS6からS8までの動作と同様であるため、ここでの詳細な説明は省略する。
なお、優先順位の最も高いデータ領域に必要個数の名詞が含まれていない場合は、優先順位が2番目に高いデータ領域を抽出して、そのデータ領域に含まれる名詞で出現頻度の高いものを選別し要約データを作成してもよい。つまり、データ領域の優先順位と、名詞の出現頻度を色々なバリエーションで考慮し、要約データを作成するための名詞を選別することが考えられる。
以上図6で説明したようデータ領域の優先順位と、出現頻度を考慮して優先度の高い名詞を選別して要約データを作成し、要約データに使用されている名詞を区別してディスプレイ上に表示するようにすれば、簡易な要約を作成してテキストデータ等の概要を迅速に把握することができる。
次に要約データを構成する名詞の属性を考慮してディスプレイ107の表示形態を異ならせる内容に関して説明する。
図7は出現頻度を考慮して名詞を抽出し、且つその名詞の属性を解析して要約データを作成する手順を説明するフローチャート図である。
図7に示すステップS41からS46までの動作は、図2で示すステップS1からS6までの動作と同様であるため、ここでの詳細な説明は省略する。
ステップS46において出現頻度の高い順に例えば5つの名詞を選別すると(ステップS46)、出現頻度が高い5つの名詞に対してその属性を解析する(ステップS47:語句データ属性解析工程)。例えば、選別された名詞を解析した結果、その名詞の属性がネットワークにおける専門用語であれば、「ネットワークにおける専門用語」という属性を考慮して表示属性を付与する。「ネットワークにおける専門用語」は青の表示属性を付与すると決めておけば、その表示属性が反映された要約データをユーザーが見た段階で、どのような分野の要約データであるか認識することが可能となる。
ステップS47の具体的な方法としては、属性を判断するための複数のデータベースを用意し、対象となる名詞がどのデータベースの中に含まれるのか検索する。データベースとしては、例えば広辞苑のデータベース、英和・和英辞典のデータベース、技術用語のデータベース等、様々なデータベースが考えられる。所定のデータベースの中に含まれていた場合は、そのデータベースに関する表示属性を付与する。表示属性としては色であったり、文字の大きさであったり色々な属性が考えられる。
名詞の属性の解析が終了したら、選別した5つの名詞に解析結果を反映して表示属性を付与した上で要約データを作成し(ステップS48)、表示属性に基づき要約データを表示させる(ステップS49)。要約データの表示形態は図3に示した表示形態と同様のものが考えられる。
なお、図7のステップS47では選別した5つの名詞の属性を解析して、解析結果を表示属性に反映しているが、名詞の属性ではなく、ディスプレイ107の属性を解析して(表示手段属性解析工程)、解析結果を表示属性に反映することも考えられる。例えば、ディスプレイ107がモノクロのディスプレイであれば、「モノクロ」というディスプレイの属性を考慮し、色に関する属性ではなく、文字の大きさに関する属性を名詞の表示属性に反映することが考えられる。
また、情報処理装置1の閲覧者の属性を解析して表示属性に反映することも考えられる。情報処理装置1にログインした者の属性を判断し、その者特有の属性を名詞の表示属性に反映させることが考えられる。例えば所定の閲覧者が検索エンジンで過去に検索したキーワードを記憶しておき、図7のステップS46で選別した名詞が当該キーワードに該当すれば、その名詞をディスプレイ上に大きく表示する等の属性を名詞の表示属性に反映させる。
要約データの表示形態の例を図3に示したが、他の表示形態も考えられる。まず、要約データに使用される名詞を時間の経過とともに切り換える形態が考えられる。図8(a)に示すようにテキストデータ等で出現頻度の高い順に5つの名詞を区別して表示しているが、最も出現頻度が高い「文書」という名詞と、2番目に出現頻度が高い「管理」という名詞は残し、3番目から5番目に出現頻度が高い「閲覧」「特開」「project」という名詞を所定の時間が経過したら、6番目から8番目に出現頻度が高い「表示」「情報」「仕様」という名詞に切り換えることが考えられる。このように出現頻度がそれほど高くない名詞を時間の経過とともに切り換えることにより、テキストデータ等の概要を把握しやすいように出来る。
要約作成用のアプリケーションにより作成された要約データと、その要約データの対象となるテキストデータ又は音声データは、関連付けてHDD105に保存される。
その保存された要約データの表示タイミングであるが、図9に示すようにディスプレイ107上に表示されたテキストデータ等のファイル名を情報処理装置1におけるマウスの矢印Aで選択すると、要約データが吹き出し型のウインドウで表示されることが考えられる。つまり、テキストデータ又は音声データと要約データを関連付けて表示することが考えられる。またテキストデータ等のファイル名の代わりに図10のXで示すように要約データをアイコン化して表示することも考えられる。このように要約データを表示すれば、テキストデータ等の概要を迅速に把握することができる。
要約データの作成タイミングであるが、ユーザーによってテキストデータが選択され、要約データの作成を開始する開始ボタンが押される時に限るものではない。例えば、テキストデータ等を含むデータをファイル形式に従って記録(保存)するタイミングに要約データを作成しても良いし、予めフォルダを指定しておき、指定されたフォルダにテキストデータ等を含むファイルが保存されるタイミングで要約データを作成しても良い。
本発明の実施の形態を図面によって説明してきたが、本発明は当該実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲における変更や追加があっても本発明に含まれる。

Claims (14)

  1. テキストデータ又は音声データの中に含まれる語句データを抽出する抽出手段と、
    当該抽出手段によって抽出された語句データに対して優先度を付与する優先度付与手段と、
    当該優先度付与手段によって優先度が付与された語句データのうち、優先度の高いものから順に少なくとも2つ以上の語句データを選別し、選別した語句データに対して互いに異なる表示属性を付与して選別した語句データからなる要約データを作成する要約作成手段と、
    前記表示属性に基づき前記要約データを表示する表示手段と、
    を有することを特徴とする情報処理装置。
  2. テキストデータ又は音声データの中に含まれる語句データを抽出する抽出手段と、
    当該抽出手段によって抽出された語句データに対して、前記テキストデータ又は前記音声データにおける複数の区分毎の優先度を付与する優先度付与手段と、
    当該優先度付与手段によって優先度が付与された語句データのうち、前記区分毎に優先度の高いものから順に少なくとも1つ以上の語句データを選別して、前記テキストデータ又は前記音声データ全体として複数の語句データを選別し、選別した前記複数の語句データに対して前記区分毎に互いに異なる表示属性を付与して選別した前記複数の語句データからなる要約データを作成する要約作成手段と、
    前記表示属性に基づき前記要約データを表示する表示手段と、
    を有することを特徴とする情報処理装置。
  3. 前記優先度は、前記テキストデータ又は前記音声データにおける語句データの出現頻度であり、
    前記優先度が高いものとは、前記出現頻度が高いものをいうことを特徴とする請求の範囲第1項又は第2項に記載の情報処理装置。
  4. 前記優先度は、前記出現頻度と、語句データが属するデータ領域の優先順位であり、
    前記優先度が高いものとは、前記優先順位の高いデータ領域に属する語句データのうち、前記出現頻度が高いものをいうことを特徴とする請求の範囲第3項に記載の情報処理装置。
  5. 前記要約データを構成する語句データの属性を解析し、その解析結果を前記表示属性に反映させる語句データ属性解析手段を有することを特徴とする請求の範囲第1項乃至第4項の何れか1項に記載の情報処理装置。
  6. 前記表示手段の属性を解析し、その解析結果を前記表示属性に反映させる表示手段属性解析手段を有することを特徴とする請求の範囲第1項乃至第5項の何れか1項に記載の情報処理装置。
  7. 前記表示手段は、前記テキストデータ又は前記音声データと、前記要約データとを関連付けて表示することを特徴とする請求の範囲第1項乃至第6項の何れか1項に記載の情報処理装置。
  8. テキストデータ又は音声データの中に含まれる語句データを抽出する抽出工程と、
    当該抽出工程によって抽出された語句データに対して優先度を付与する優先度付与工程と、
    当該優先度付与工程によって優先度が付与された語句データのうち、優先度の高いものから順に少なくとも2つ以上の語句データを選別し、選別した語句データに対して互いに異なる表示属性を付与して選別した語句データからなる要約データを作成する要約作成工程と、
    前記表示属性に基づき前記要約データを表示する表示工程と、
    をコンピュータに実行させることを特徴とする情報処理プログラム。
  9. テキストデータ又は音声データの中に含まれる語句データを抽出する抽出工程と、
    当該抽出工程によって抽出された語句データに対して、前記テキストデータ又は前記音声データにおける複数の区分毎の優先度を付与する優先度付与工程と、
    当該優先度付与工程によって優先度が付与された語句データのうち、前記区分毎に優先度の高いものから順に少なくとも1つ以上の語句データを選別して、前記テキストデータ又は前記音声データ全体として複数の語句データを選別し、選別した前記複数の語句データに対して前記区分毎に互いに異なる表示属性を付与して選別した前記複数の語句データからなる要約データを作成する要約作成工程と、
    前記表示属性に基づき前記要約データを表示する表示工程と、
    をコンピュータに実行させることを特徴とする情報処理プログラム。
  10. 前記優先度は、前記テキストデータ又は前記音声データにおける語句データの出現頻度であり、
    前記優先度が高いものとは、前記出現頻度が高いものをいうことを特徴とする請求の範囲第8項又は第9項に記載の情報処理プログラム。
  11. 前記優先度は、前記出現頻度と、語句データが属するデータ領域の優先順位であり、
    前記優先度が高いものとは、前記優先順位の高いデータ領域に属する語句データのうち、前記出現頻度が高いものをいうことを特徴とする請求の範囲第10項に記載の情報処理プログラム。
  12. 前記要約データを構成する語句データの属性を解析し、その解析結果を前記表示属性に反映させる語句データ属性解析工程をコンピュータに実行させることを特徴とする請求の範囲第8項乃至第11項の何れか1項に記載の情報処理プログラム。
  13. コンピュータにおける表示手段の属性を解析し、その解析結果を前記表示属性に反映させる表示手段属性解析工程をコンピュータに実行させることを特徴とする請求の範囲第8項乃至第12項の何れか1項に記載の情報処理プログラム。
  14. 前記表示工程は、前記テキストデータ又は前記音声データと、前記要約データとを関連付けて表示することを特徴とする請求の範囲第8項乃至第13項の何れか1項に記載の情報処理プログラム。
JP2009502480A 2007-03-05 2008-01-28 情報処理装置及び情報処理プログラム Pending JPWO2008108118A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007053910 2007-03-05
JP2007053910 2007-03-05
PCT/JP2008/051169 WO2008108118A1 (ja) 2007-03-05 2008-01-28 情報処理装置及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JPWO2008108118A1 true JPWO2008108118A1 (ja) 2010-06-10

Family

ID=39738014

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009502480A Pending JPWO2008108118A1 (ja) 2007-03-05 2008-01-28 情報処理装置及び情報処理プログラム

Country Status (2)

Country Link
JP (1) JPWO2008108118A1 (ja)
WO (1) WO2008108118A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5946678A (en) * 1995-01-11 1999-08-31 Philips Electronics North America Corporation User interface for document retrieval
GB2390704A (en) * 2002-07-09 2004-01-14 Canon Kk Automatic summary generation and display
JP4642534B2 (ja) * 2005-04-15 2011-03-02 シャープ株式会社 情報処理装置、情報処理方法、情報処理プログラム及びこれを記録したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
WO2008108118A1 (ja) 2008-09-12

Similar Documents

Publication Publication Date Title
US10366154B2 (en) Information processing device, information processing method, and computer program product
JP2022042882A (ja) 文書情報抽出装置及び文書情報抽出方法
JP2002175330A (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
JPH1145284A (ja) プロファイルの作成方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
JP2005190284A (ja) 情報分類装置および情報分類方法
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
US6470362B1 (en) Extracting ordered list of words from documents comprising text and code fragments, without interpreting the code fragments
JP7104390B2 (ja) 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム
JP7180767B2 (ja) 応答処理プログラム、応答処理方法および情報処理装置
JPWO2008108118A1 (ja) 情報処理装置及び情報処理プログラム
JP2005258592A (ja) フォーマット変換装置およびファイル検索装置
JP2001005830A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JP2004152041A (ja) 重要語句抽出装置、プログラムおよび記録媒体
JP3210842B2 (ja) 情報処理装置
JP2002259173A (ja) ファイル管理プログラム、ファイル管理プログラムを記録したコンピュータ読取可能な記録媒体、ファイル管理装置およびファイル管理方法
JP3902825B2 (ja) 文書検索システムおよび方法
JP7458543B1 (ja) 情報処理装置、情報処理方法、プログラム、及び記録媒体
JP2003058559A (ja) 文書分類方法、検索方法、分類システム及び検索システム
JP4906044B2 (ja) 情報検索装置及びその制御方法、コンピュータプログラム、並びに、記憶媒体
JP2008269216A (ja) 文書画像取得装置
JP2005258910A (ja) 階層キーワード抽出装置、方法、およびプログラム
JPWO2002095614A1 (ja) 言語・文字コード系識別処理方法
JP2023180030A (ja) 文書内指示抽出システム、文書内指示抽出方法、及び文書内指示抽出プログラム
JP4607443B2 (ja) 文書表示装置および文書表示方法