JPWO2007029348A1 - データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム - Google Patents

データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム Download PDF

Info

Publication number
JPWO2007029348A1
JPWO2007029348A1 JP2006519016A JP2006519016A JPWO2007029348A1 JP WO2007029348 A1 JPWO2007029348 A1 JP WO2007029348A1 JP 2006519016 A JP2006519016 A JP 2006519016A JP 2006519016 A JP2006519016 A JP 2006519016A JP WO2007029348 A1 JPWO2007029348 A1 JP WO2007029348A1
Authority
JP
Japan
Prior art keywords
data
terminal
server
unit
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006519016A
Other languages
English (en)
Inventor
謙互 中嶋
謙互 中嶋
Original Assignee
コミュニティーエンジン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コミュニティーエンジン株式会社 filed Critical コミュニティーエンジン株式会社
Publication of JPWO2007029348A1 publication Critical patent/JPWO2007029348A1/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、端末でウェブ上のウェブページを探索し、所定のデータをそのウェブページから抽出する。そして、抽出されたデータをサーバで照合するとともに、そのデータの蓄積を行う。すなわち、端末とサーバとでデータの抽出に係る処理を分散させてウェブ上のウェブページから所定のデータを抽出することができる。これにより、データを抽出するまでに必要とする処理を分散させ、各装置にかかる負担を少なくすることができる。そして、新規に構築されたり、更新されたりしたウェブ上のウェブページから従来にはウェブページには形成されていなかった新たなデータを見つけ出すことができる。

Description

本発明は、ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムに関するものである。また、このデータ抽出システムに利用される端末装置及びサーバ装置に関するものであり、その端末装置のプログラム及びサーバ装置のプログラムに関するものである。
従来、形態素解析によってテキストデータを解析し、数値データを名詞等の品詞と関連付けて抽出する情報抽出装置が開発されている(例えば、特許文献1参照)。この装置は、テキストデータを1文ずつ切り出し、数値を有する文を抽出する。そして、文中の係り受けを判断し、数値と関連する語句を抽出するものである。
特開2005−149359号公報
しかしながら、特許文献1に記載されている情報抽出装置は、得られたテキストデータの形態素解析、語句の抽出、語句の蓄積、語句の表示といった処理全てを単一の装置で行うため、装置に負担がかかってしまうという問題点を有している。
また、近年のネットワーク技術の発達にともない、さまざまなウェブサイトが構築されているが、そのようなウェブサイトのウェブページを形態素解析するシステムは存在していなかった。特許文献1に記載された装置のような単一の装置でウェブページを解析しようとすると膨大なデータ量をこなす必要があり、現実的ではない。また、ウェブ上の音声や画像を解析する場合にも、同様に単一の装置で行うのは無理である。
そこで、本発明は、上記実情に鑑み、語句をはじめとする所定のデータを抽出するまでに必要とする処理を分散させ、各装置にかかる負担を少なくすることができるデータ抽出システムを提供することを目的とする。また、このデータ抽出システムに利用される端末装置及びサーバ装置、そして、端末装置のプログラム及びサーバ装置のプログラムを提供することを目的とする。
本発明のデータ抽出システムは、ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムであって、複数の端末と、前記端末に接続されたサーバとを有し、前記サーバは、前記端末で抽出された前記所定のデータを蓄積するデータ蓄積手段と、抽出された前記所定のデータが前記データ蓄積手段に蓄積されているデータであるか否かを照合する照合手段とを有し、前記端末は、前記ウェブから前記ウェブページを探索する探索手段と、前記ウェブページから前記所定のデータを抽出する抽出手段と、前記照合手段で前記データ蓄積手段に蓄積されていないとされた前記所定のデータ又は該所定のデータに対応する情報を前記サーバから受信し、該所定のデータ又は該所定のデータに対応する情報を出力する出力手段とを有することを特徴とする。
本発明のデータ抽出システムによれば、端末でウェブ上のウェブページを探索し、所定のデータをそのウェブページから抽出する。そして、抽出されたデータをサーバで照合するとともに、そのデータの蓄積を行う。すなわち、端末とサーバとでデータの抽出に係る処理を分散させてウェブ上のウェブページから所定のデータを抽出することができる。これにより、新規に構築されたり、更新されたりしたウェブ上のウェブページから従来ウェブページには形成されていなかった新たなデータを見つけ出すことができる。
本発明のデータ抽出システムにおいて、前記所定のデータは、所定の形態素の品詞の組み合わせを有する語句であり、前記サーバは、前記語句を抽出するための前記形態素の品詞の組み合わせを蓄積する品詞蓄積手段を有し、前記端末は、前記探索手段で探索された前記ウェブページ中のテキストデータを形態素解析する形態素解析手段を有し、前記品詞蓄積手段に蓄積されている前記形態素の品詞の組み合わせを予め前記サーバから受信し、前記抽出手段によって、前記サーバから受信した前記形態素の品詞の組み合わせと一致する形態素の品詞の組み合わせからなる語句を前記形態素解析手段で形態素解析したテキストデータから抽出し、前記サーバの照合手段で前記データ蓄積手段に蓄積されていないとされた前記語句を前記サーバから受信し、該語句を出力手段で表示画面に表示することを特徴とする。これにより、端末でウェッブページ中のテキストデータを形態素解析し、サーバの品詞蓄積手段に蓄積されている形態素の品詞の組み合わせからなる語句を抽出することができ、サーバの照合手段でその語句がデータ蓄積手段で蓄積されているか否かを判断することができる。したがって、端末とサーバとで語句抽出に係る各処理を分散させることができる。そのため、ウェブ上の膨大なデータ量のウェブページを形態素解析することも可能となる。
本発明のデータ抽出システムにおいて、前記サーバは、複数の前記端末全てに、前記照合手段によって前記データ蓄積手段に蓄積されていないとされた前記語句を送信することを特徴とする。これにより、端末で抽出された新しい語句を全ての端末で共有することができる。また、1つの端末がウェブ上にあるテキストデータをすべて見る必要がなくなり、各端末で分担して語句を抽出することができるため、端末にかかる負担をさらに少なくすることができる。
本発明のデータ抽出システムにおいて、前記サーバは、前記抽出手段によって前記語句を抽出した前記端末に、前記照合手段によって前記データ蓄積手段に蓄積されていないとされた前記語句を送信し、前記語句を受信した端末は、該語句を他の端末に送信することを特徴とする。これにより、抽出された新しい語句を全ての端末で共有できる。そして、複数の端末2間で表示する語句を送受信可能とすることで、サーバは、全ての端末に語句を送受信することがなくなる。また、語句を受信した端末2がサーバ3に接続されている全ての端末2に送信することもない。すなわち、語句の送信をサーバ3に接続さている端末2で分散させることができ、端末2やサーバ3にかかる負担をより少なくすることができる。
本発明のデータ抽出システムにおいて、前記品詞蓄積手段は、前記端末で入力された新たな形態素の品詞の組み合わせを蓄積することを特徴とする。これにより、利用者が求める形態素の品詞の組み合わせを抽出することができる。
本発明のデータ抽出システムにおいて、前記サーバは、前記抽出手段で抽出された前記語句のうち、所定の条件を満たす語句に限って前記端末に送信することを特徴とする。これにより、所定の条件を満たす語句のみが表示され、ノイズとなる語句を表示させ難くすることができる。したがって、より的確な語句抽出が可能となる。
本発明のデータ抽出システムにおいて、前記端末は、所定の条件を満たすウェブページのみを受信することを特徴とする。これにより、端末に表示される語句からノイズとなる語句を表示させ難くすることができる。したがって、より的確な語句抽出が可能となる。
本発明のデータ抽出システムにおいて、前記サーバは、前記端末が要求する形態素の品詞の組み合わせを該端末に送信することを特徴とする。これにより、利用者が興味のある形態素の品詞の組み合わせからなる語句のみを抽出することができる。そして、利用者にとって利用しやすいシステムとなる。
本発明のデータ抽出システムにおいて、前記端末の前記出力手段は、前記表示画面に表示された前記語句が選択されることによって、前記語句が抽出された前記ウェブページを前記ウェブから受信し、前記ウェブページを該端末の表示画面に表示することを特徴とする。これにより、本システムで抽出された語句がどのように使用されているかを見ることができる。すなわち、利用者が表示された語句を新たな語句として利用しやすくなる。
本発明のデータ抽出システムにおいて、前記サーバは、複数の前記端末で前記表示画面に表示された前記語句が選択された回数を集計し、該回数に基づいた表示を前記語句と関連付けて前記端末の前記表示画面に表示させるように前記端末に送信することを特徴とする。これにより、利用者がどのような語句を注目しているかを知ることができる。
本発明のデータ抽出システムにおいて、前記端末は、前記探索手段で探索した前記ウェブページから画像を抽出する画像抽出手段を有し、前記サーバは、抽出された前記画像を受信し、前記画像を蓄積する画像蓄積手段を有し、前記照合手段によって、抽出された前記画像が前記画像蓄積手段に蓄積されているか否かを照合し、前記端末は、前記照合手段で前記画像蓄積手段に蓄積されていないとされた前記画像に対応する情報を前記サーバから受信し、前記出力手段によって、該画像に対応する情報を前記表示画面に表示することを特徴とする。これにより、ウェブ上のウェブページの画像もテキストデータ中の語句とともに同様に抽出することができる。すなわち、新規に構築されたり、更新されたりしたウェブ上のウェブページから従来にはウェブページには形成されていなかった新たな画像を見つけ出すことができる。
本発明のデータ抽出システムにおいて、前記端末は、前記画像抽出手段で抽出された前記画像のサイズを小さくするとともに減色することによって所定バイトに圧縮する画像圧縮手段を有し、前記サーバは、前記画像圧縮手段で圧縮された前記画像を受信し、前記画像蓄積手段によって、圧縮された前記画像を蓄積し、前記照合手段によって、圧縮された前記画像のビット列に基づいて、当該画像が前記画像蓄積手段に蓄積されている画像であるか否かを照合することを特徴とする。これにより、画像のサイズを小さくすることが可能となり、画像の容量が減少する。したがって、サーバの照合手段は、画像蓄積部に蓄積されている画像と端末で抽出して圧縮された画像とを早く大量に照合することができる。したがって、ウェブページから抽出される膨大なデータ量を早く大量に処理することが可能となる。
本発明のデータ抽出システムにおいて、前記端末は、前記探索手段で探索した前記ウェブページから音声を抽出する音声抽出手段を有し、前記サーバは、抽出された前記音声を受信し、前記音声を蓄積する音声蓄積手段を有し、前記照合手段によって、抽出された前記音声が前記音声蓄積手段に蓄積されているか否かを照合し、前記端末は、前記照合手段で前記音声蓄積手段に蓄積されていないとされた前記音声に対応する情報を前記サーバから受信し、前記出力手段によって、該音声を対応する情報を出力することを特徴とする。これにより、ウェブ上のウェブページの音声もテキストデータ中の語句とともに同様に抽出することができる。すなわち、新規に構築されたり、更新されたりしたウェブ上のウェブページから従来にはウェブページには形成されていなかった新たな音声を見つけ出すことができる。
本発明のデータ抽出システムにおいて、前記端末は、前記音声抽出手段で抽出された前記音声を時間軸の方向に圧縮する音声圧縮手段を有し、前記サーバは、前記音声圧縮手段で圧縮された前記音声を受信し、前記音声蓄積手段によって、圧縮された前記音声を蓄積し、前記照合手段によって、圧縮された前記音声のビット列に基づいて、当該音声が前記音声蓄積手段に蓄積されている音声であるか否かを照合することを特徴とする。これにより、音声のサイズを小さくすることが可能となり、音声の容量が減少する。したがって、サーバの照合手段は、画像蓄積部に蓄積されている音声と端末で抽出して圧縮された音声とを早く大量に照合することができる。したがって、ウェブページから抽出される膨大なデータ量を早く大量に処理することが可能となる。
本発明のデータ抽出システムにおいて、前記所定のデータは、画像であることを特徴とする。また、本発明のデータ抽出システムにおいて、前記所定のデータは、音声であることを特徴とする。これにより、画像と音声も語句と同様に抽出することができる。
本発明の端末装置は、ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムに利用され、サーバに接続された端末装置であって、前記ウェブから前記ウェブページを探索する探索手段と、前記ウェブページから前記所定のデータを抽出する抽出手段と、前記抽出手段によって抽出された前記所定のデータを前記サーバに送信するデータ送信手段と、前記データ送信手段で送信した前記所定のデータが前記サーバのデータ蓄積手段に蓄積された所定のデータであるか否かが照合され、前記データ蓄積手段に蓄積されていないとされた所定のデータ又は該所定のデータに対応する情報を前記サーバから受信するデータ受信手段と、前記データ受信手段で受信した前記所定のデータ又は該所定のデータに対応する情報を出力する出力手段とを有することを特徴とする。
本発明の端末装置によれば、ウェブページの探索と、データの抽出とを行う。すなわち、語句抽出に係る各処理を接続されたサーバとで分散させることができ、処理にかかる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理解析ができる。
本発明の端末装置のプログラムは、ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムに利用され、サーバに接続された端末装置のプログラムであって、前記ウェブから前記ウェブページを探索する探索処理と、前記ウェブページから前記所定のデータを抽出する抽出処理と、前記抽出処理によって抽出された前記所定のデータを前記サーバに送信するデータ送信処理と、前記データ送信処理で送信した前記所定のデータが前記サーバのデータ蓄積処理によって蓄積された所定のデータであるか否かが照合され、前記データ蓄積処理によって蓄積されていないとされた所定のデータ又は該所定のデータに対応する情報を前記サーバから受信するデータ受信処理と、前記データ受信処理で受信した前記所定のデータ又は該所定のデータに対応する情報を出力する出力処理とを有することを特徴とする。
本発明の端末装置のプログラムによれば、端末装置でウェブページの探索と、データの抽出といった処理を実行させ、端末装置に接続されたサーバのデータ抽出に係る各処理の分散が可能となる。すなわち、このプログラムを実装する端末装置での処理にかかる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理解析ができるプログラムを提供できる。
本発明のサーバ装置は、ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムに利用されるサーバ装置であって、前記ウェブから前記ウェブページを探索し、前記所定のデータを前記ウェブページから抽出する複数の端末と接続され、前記端末で抽出された前記所定のデータを前記端末から受信するデータ受信手段と、前記データ受信手段で受信した前記所定のデータを蓄積するデータ蓄積手段と、前記データ受信手段で受信した前記所定のデータが前記データ蓄積手段に蓄積されている語句であるか否かを照合する照合手段と、前記照合手段によって前記データ蓄積手段に蓄積されていないとされた前記所定のデータ又は該所定のデータに対応する情報を前記端末に出力させるように送信するデータ送信手段とを有することを特徴とする。
本発明のサーバ装置によれば、抽出されたデータの照合と、データの蓄積とを行う。すなわち、語句抽出に係る各処理を接続された端末とで分散させることができ、処理にかかる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理解析ができる。
本発明のサーバ装置のプログラムは、ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムに利用されるサーバ装置のプログラムであって、前記サーバ装置は、前記ウェブから前記ウェブページを探索し、前記所定のデータを前記ウェブページから抽出する複数の端末と接続され、当該プログラムは、前記端末で抽出された前記所定のデータを前記端末から受信するデータ受信処理と、前記データ受信処理で受信した前記所定のデータを蓄積するデータ蓄積処理と、前記データ受信処理で受信した前記所定のデータが前記データ蓄積処理によって蓄積された語句であるか否かを照合する照合処理と、前記照合処理によって前記データ蓄積処理によって蓄積されていないとされた前記所定のデータ又は該所定のデータに対応する情報を前記端末に出力させるように送信するデータ送信処理とを有することを特徴とする。
本発明のサーバ装置のプログラムによれば、サーバ装置で抽出されたデータの照合と、データの蓄積といった処理を実行させ、サーバ装置に接続された端末のデータ抽出に係る各処理の分散が可能となる。すなわち、このプログラムを実装するサーバ装置での処理にかかる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理解析ができるプログラムを提供できる。
本発明のデータ抽出システムは、端末でウェブ上のウェブページを探索し、所定のデータをそのウェブページから抽出する。そして、抽出されたデータをサーバで照合するとともに、そのデータの蓄積を行う。すなわち、端末とサーバとでデータの抽出に係る処理を分散させてウェブ上のウェブページから所定のデータを抽出することができる。これにより、新規に構築されたり、更新されたりしたウェブ上のウェブページから従来にはウェブページには形成されていなかった新たなデータを見つけ出すことができる。
本発明の端末装置は、ウェブページの探索と、データの抽出とを行う。すなわち、語句抽出に係る各処理を接続されたサーバとで分散させることができ、処理にかかる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理ができる。
本発明の端末装置のプログラムは、端末装置でウェブページの探索と、データの抽出といった処理を実行させ、端末装置に接続されたサーバのデータ抽出に係る各処理の分散が可能となる。すなわち、このプログラムを実装する端末装置での処理にかかる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理ができるプログラムを提供できる。
本発明のサーバ装置は、抽出されたデータの照合と、データの蓄積とを行う。すなわち、語句抽出に係る各処理を接続された端末とで分散させることができ、処理にかかる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理ができる。
本発明のサーバ装置のプログラムは、サーバ装置で抽出されたデータの照合と、データの蓄積といった処理を実行させ、サーバ装置に接続された端末のデータ抽出に係る各処理の分散が可能となる。すなわち、このプログラムを実装するサーバ装置での処理にかかる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理ができるプログラムを提供できる。
実施の形態1で説明するデータ抽出システムのネットワーク構成図である。 実施の形態1で説明するデータ抽出システムの端末の構成を示したブロック図である。 実施の形態1で説明するデータ抽出システムのサーバの構成を示したブロック図である。 実施の形態1で説明する表示画面の一例を示した図である。 実施の形態1で説明するデータ抽出システムのテキストデータから語句を抽出するまでの処理を示したフロー図である。 実施の形態1で説明するデータ抽出システムのサーバの照合部で語句を照合するまでの処理を示したフロー図である。 実施の形態2で説明するデータ抽出システムの端末の構成を示したブロック図である。 実施の形態2で説明するデータ抽出システムのネットワーク構成図である。 実施の形態3で説明するデータ抽出システムのサーバの構成を示したブロック図である。 実施の形態4で説明するデータ抽出システムの端末の構成を示したブロック図である。 実施の形態5で説明するデータ抽出システムの端末の構成を示したブロック図である。 実施の形態5で説明するデータ抽出システムのサーバの構成を示したブロック図である。 実施の形態6で説明するデータ抽出システムの端末の構成を示したブロック図である。 実施の形態6で説明するデータ抽出システムのサーバの構成を示したブロック図である。
以下、本発明について図面を参照しながら詳細に説明する。なお、本発明においては以下の記述に限定されるものではなく、本発明の要旨を逸脱しない範囲において適宜変更可能である。
[実施の形態1]
本発明のデータ抽出システムの構成例として、図1乃至図4を用いて説明する。実施の形態1で説明する本発明のデータ抽出システムは、図1のように、パーソナルコンピュータ等の端末装置である端末2が複数と、この複数の端末2にネットワーク1を介して接続されているサーバ装置であるサーバ3と、複数の端末2及びサーバ3とネットワーク1を介して接続されているウェブサーバ4とを有している。これらの端末2、サーバ3及びウェブサーバ4は、相互に通信可能となっている。
図2は、本発明のデータ抽出システムの構成を示したブロック図である。端末2は、インターフェース20、探索部21、形態素解析部22、抽出部23、出力部24、入力部25とを有している。
インターフェース20は、端末2をネットワーク1に接続している。このネットワーク1に接続されたインターフェース20を介して、端末2は、語句、品詞、テキストデータ、画像、音声等の情報をサーバ3やウェブサーバ4と送受信する。
探索部21は、ネットワークに接続されたウェブサーバ4のウェブページを探索する探索手段であり、インターフェース20を介して、ウェブサーバ4からウェブページを受信する。この探索部21は、受信したウェブページ中のテキストデータを形態素解析部22に送る。また、後述するように、出力部24によって表示画面に表示された語句を入力部25によって選択することで、選択した語句が抽出されたテキストデータを含むウェブページをウェブサーバ4から受信し、表示画面に表示させる。この探索部21は、端末2が接続されているウェブサーバ4から自動的にウェブページを探索する。
形態素解析部22は、テキストデータを形態素に分解し、その形態素の品詞を解析する形態素解析を行う形態素解析手段である。形態素解析部22は、探索部21で受信したウェブページ中のテキストデータを、所有している辞書に基づいて形態素解析を行う。形態素解析部22が使用する辞書は、形態素解析用の辞書であればよく、ウェブ上から受信するものであっても、ディスク状媒体から直接端末2に導入するものであってもよい。
抽出部23は、形態素解析部22で解析した形態素の品詞を利用して、形態素が所定の品詞の組み合わせとなっている語句を抽出する抽出手段である。この抽出部は、サーバ3の品詞蓄積部31から形態素の品詞の組み合わせを受信し、形態素解析部22で形態素解析したテキストデータからこの受信した形態素の品詞の組み合わせと一致する形態素の品詞の組み合わせとなる語句を抽出する。抽出部23は、抽出された語句をデータ送信手段として機能するインターフェース20を介してサーバ3に送信する。また抽出部23は、抽出時に、辞書にはないような未知語を含む語句は抽出しないということも可能である。
語句は、1つ又は複数の形態素からなるデータである。例えば、「図形認識ニューロン」という語句は、「図形」と「認識」と「ニューロン」という3つの形態素から構成される。また、「画面」という語句は、「画面」という1つの形態素から構成される。
そして、形態素は、名詞、形容詞、助詞や動詞といった品詞によって分類される。例えば上述の例では、「図形」、「認識」、「ニューロン」及び「画面」は全て名詞である。このように、形態素解析部22では、搭載されている辞書に基づいてテキストデータを形態素に分解し、その形態素の品詞を解析している。また、辞書にはないものに関しては、未知の語である未知語となる。
この形態素の品詞が解析された後、抽出部23では、1つの語句を形成する形態素の品詞が所定の組み合わせになっているか否かを判断し、所定の組み合わせになっているものを語句のデータとして抽出する。例えば、形態素の品詞の組み合わせとして3つの名詞が並んだものを抽出するようにサーバ3から「名詞」+「名詞」+「名詞」を受信した場合、上述の例である「図形認識ニューロン」が形態素解析したテキストデータに含まれていると、この「図形認識ニューロン」が抽出される。この品詞の組み合わせは、特に限定するものではなく、例えば、「名詞」+「助詞の「の」」+「名詞」といった品詞の中で特定の文字であってもよい。また、「未知語」のみであってもよい。
出力部24は、サーバ3の照合部33で語句蓄積部32に蓄積されていないと判断され、データ受信手段として機能するインターフェース20を介して受信した語句を図示されていない表示画面に表示させる出力手段である。この出力部24によって表示される語句は、新たに語句蓄積部32に蓄積される語句である。出力部24によって語句を表示する表示画面は、表示された語句を選択するように入力部25によって入力すると、その語句が抽出されたテキストデータを含むウェブページを表示することができる。
入力部25は、出力部24によって表示画面に表示された語句を選択することができる。また、入力部25は、サーバ3の品詞蓄積部31に蓄積する形態素の品詞の組み合わせを入力することができる。また、端末2及びサーバ3に所定の処理を行わせるように操作することもできる。例えば、サーバ3の品詞蓄積部31や語句蓄積部32に蓄積されている形態素の品詞の組み合わせや語句を端末2の表示画面に表示させるようなコマンドを入力することもできる。
この端末2は、図示されていないCPU(Central Processing Unit)の制御のもとに、所定のプログラムを実行することにより、上述した探索部21、形態素解析部22、抽出部23、出力部24、入力部25、探索条件記憶部26をはじめとする各部材の機能を実現する。
サーバ3は、図3のように、インターフェース30と、品詞蓄積部31と、語句蓄積部32と、照合部33と、回数計測部35とを有している。
インターフェース30は、サーバ3をネットワークに接続している。ネットワーク1に接続されたインターフェース30を介して、語句、品詞、画像、音声等の情報を端末2やウェブサーバ4と送受信する。
品詞蓄積部31は、端末2の抽出部23で語句を抽出するために、形態素の品詞の組み合わせを蓄積する品詞蓄積手段である。この品詞蓄積部31は、例えば、「名詞」+「名詞」+「名詞」といったように、品詞の組み合わせを蓄積している。品詞蓄積部31は、品詞送信手段となるインターフェース30を介して、蓄積している形態素の品詞の組み合わせを端末2に送信する。この品詞蓄積部31への形態素の品詞の組み合わせは、端末2の入力部25から入力されたものを蓄積することもできる。このとき、品詞の組み合わせのリストが予め形成され、そのリストに表示された形態素の品詞の組み合わせから選択するように入力部25から入力して、品詞蓄積部31に蓄積してもよい。これにより、利用者が求める形態素の品詞の組み合わせを抽出することができる。
語句蓄積部32は、端末2の抽出部23で抽出された語句を蓄積するデータ蓄積手段である。この語句蓄積部32は、抽出部23が抽出した語句をデータ受信手段であるインターフェース30を介して受信する。そして、語句蓄積部32は、照合部33で蓄積されている語句の中に受信した語句がないとされた場合、その語句を蓄積する。
また、語句蓄積部32には、蓄積する語句が抽出されたテキストデータを含むウェブページのURL(Uniform Resource Locator)をその語句と関連付けて蓄積されている。このURLは、端末2の出力部24によって表示画面に表示させるために照合部33が送信する語句とともに端末2に送信してもよいが、端末2の表示画面での入力部25による選択に応じて、端末2に送信されてもよい。
さらに、語句蓄積部32は、回数計測部35で計測された端末2の入力部25で語句が選択された回数を語句に関連付けて蓄積されている。この回数は、端末2の表示画面に表示される語句と関連付けて表示させるために、回数計測部35によって端末2に送信される。
またさらに、この語句蓄積部32に蓄積されている語句等は、端末2の入力部25によって入力される操作に応じてその返答を端末2に送信することができる。例えば、語句蓄積部32は、蓄積されている語句の履歴を見せるように端末2の入力部25から入力された場合、その履歴を端末2に送信し、端末2の表示画面に表示させることもできる。選択された回数の多い順に語句を並べて端末2の表示画面に表示させるようにすることもできる。
照合部33は、端末2の抽出部23で抽出された語句を受信し、その語句が語句蓄積部31にあるか否かを照合する照合手段である。照合の結果、照合部33が語句蓄積部32に蓄積されていないとした場合、その語句を語句蓄積部32に蓄積させるとともに、その語句をデータ送信手段となるインターフェース30を介して端末2に送信する。
回数計測部35は、端末2の表示画面に表示された語句を入力部25で選択された回数を計測する。その回数は、語句蓄積部32に蓄積される語句と関連付けて蓄積する。この回数計測部35は、サーバ3に接続されている全ての端末2で選択された回数が計測できる。この回数計測部35は、インターフェース30を介して計測した回数を、端末2の表示画面に語句に関連付けて表示されるように端末2に送信する。
このサーバ3は、図示されていないCPUの制御のもとに、所定のプログラムを実行することにより、上述した品詞蓄積部31、語句蓄積部32、照合部33、照合条件記憶部34、回数計測部35をはじめとする各部材の機能を実現する。
ウェブサーバ4は、図1のように、インターフェースを有し、ネットワーク1を介して端末2及びサーバ3と接続され、ウェブページ等の情報を送受信することができる。そして、ウェブサーバ4は、テキストデータ、画像、音声等を含むウェブページが記憶され、探索部21がこのウェブページを探索し、端末2がこのウェブページを受信する。
このように構成されるデータ抽出システムの動作について図4乃至図6を用いて説明する。まず、端末2による語句の抽出について説明する。これは、端末2が1つのテキストデータの受信毎に行われるものであり、テキストデータを受信するたびに繰り返される。
まず、端末2の探索部21がウェブページを探索する。そして、探索の結果、探索部21は、テキストデータを含むウェブページを受信する。
テキストデータを含むウェブページを受信すると、図4のような処理が行われる。端末2の形態素解析部22は、ステップS41のように受信したウェブページのテキストデータを形態素解析する。この形態素解析によってテキストデータ中の形態素の品詞を解析する。
そして、抽出部23は、テキストデータから所定の形態素の品詞の組み合わせとなる語句を抽出するために、ステップS42のように、サーバ3の品詞蓄積部31から蓄積されている形態素の品詞の組み合わせを受信する。
抽出部23は、ステップS43のように、サーバ3の品詞蓄積部31から受信した形態素の品詞の組み合わせと一致する形態素の品詞の組み合わせからなる語句が受信したテキストデータにあるか否かを確認する。抽出部23は、その結果、一致する形態素の品詞の組み合わせからなる語句がない場合、この処理を終了する。
ステップS43において、一致する形態素の品詞の組み合わせからなる語句がある場合、抽出部23は、ステップS44のように、該当する語句を抽出する。このとき、抽出部23は、その語句が抽出されたテキストデータを含むウェブページの受信先であるURLを抽出した語句に関連付ける。
そして、抽出部23は、インターフェース20を介して、ステップS45のように、抽出する語句をサーバ3に送信する。そして、抽出部23は、ステップS46のように、形態素解析されたテキストデータの中に、サーバ3の品詞蓄積部31から受信した形態素の品詞の組み合わせと一致する形態素の品詞の組み合わせからなる他の語句があるか否かを確認する。
ステップS46において、一致する形態素の品詞の組み合わせからなる他の語句がある場合、抽出部23は、ステップS44に移行し、形態素解析されたテキストデータから語句が抽出できなくなるまで繰り返す。一方、ステップS46において、一致する形態素解析の品詞の組み合わせからなる他の語句がない場合、この処理を終了する。このとき、抽出部23は、語句とともに、その語句に関連付けられたURLをサーバ3に送信する。
このようにして、探索部21が自動的に探索し、ウェブサーバ4から受信したテキストデータを含むウェブページから所定の形態素の品詞の組み合わせからなる語句を抽出することができる。
次に、端末2の抽出部23で抽出された語句の照合、及び、サーバ3に接続されている端末2への送信について説明する。これは、サーバ3が1つの語句を受信することで行われるものであり、語句の受信毎に繰り返される。
まず、サーバ3は、ステップS51のように、送信された語句を照合部33に送る。そして、照合部33は、ステップS52のように、受信した語句が語句蓄積部32にあるか否かを照合する。その結果、受信した語句が語句蓄積部32にある場合、照合部33は、ステップS53のように、照合した語句を消去し、この処理を終了する。
ステップS52において、受信した語句が語句蓄積部32にない場合、照合部33は、ステップS54のように、照合した語句を語句蓄積部32に蓄積させる。このとき、照合部33は、語句と関連付けられ、端末2から受信したその語句が抽出されたテキストデータを含むウェブページのURLも蓄積させる。
そして、照合部33は、ステップS55のように、インターフェース30を介して、照合した語句を端末2の出力部24によって表示画面に表示させるように接続されている全ての端末2に送信させる。
図6は、受信した語句を表示する表示画面の一例を示す図である。サーバ3からインターフェース30を介して語句を受信した端末2は、その語句を出力部24によって表示画面上の表示領域240に表示させる。このとき、出力部24は、受信した順に上から語句が並ぶように、語句表示欄242に表示する。このように、語句蓄積部32に蓄積されていない語句が端末2の出力部24に表示されることになる。すなわち、新しい語句が表示されることになる。表示する語句が多くなった場合、語句表示欄242の側端部分にスクロールバー等を設け、語句表示欄242をスクロールさせるように語句を表示させてもよい。また、新しい語句が表示されるたびに、上から順に語句を消去するようにしてもよい。
この語句表示欄242に表示された語句は、入力部25によって選択することができる。出力部24は、入力部25で語句が選択されるように入力された情報を探索部21に送る。そして、探索部21は、インターフェース20を介してサーバ3の語句蓄積部32に選択された語句と関連付けて蓄積されている語句が抽出されたテキストデータを含むウェブページのURLを受信する。そして、探索部21は、受信したURLに基づいてウェブサーバ4を探索し、該当するURLのウェブページを受信する。受信したウェブページは、出力部24に送られ、新たな画面で表示される。これにより、本システムで抽出された語句がどのように使用されているかを見ることができる。すなわち、利用者が表示された語句を新たな語句として利用しやすくなる。
入力部25によって語句を選択した場合、語句が選択された情報は、サーバ3に送信される。サーバ3には複数の端末2が接続されており、回数計測部35は、各端末2から受信した語句の選択の情報に基づいて、全体での語句の選択回数を計測する。そして、回数計測部35は、その語句に関連付けて選択された回数を語句蓄積部32に随時蓄積させる。
また、語句が選択された回数は、語句と関連付けられ、インターフェース30を介して端末2に送信される。送信された回数は、出力部24に渡され、関連付けられた語句に対応するように表示画面に表示される。例えば、図5のように、関連付けられた語句の横に、例えば星印を付して語句が選択された回数を表示させる。また、回数を数字で記載してもよい。さらには、数字や印で直接回数での表示でなくても、例えば、回数に基づいて選択された頻度を例えばゲージの長さや星の数で示すような印を表示させてもよい。これにより、利用者がどのような語句を注目しているかを知ることができる。
さらに、サーバ3の品詞蓄積部31から端末2の抽出部23に送信される形態素の品詞の組み合わせは、端末2を利用する利用者が要求する形態素の品詞の組み合わせであってもよい。すなわち、端末2を利用する利用者が、サーバ3の品詞蓄積部31に蓄積されている形態素の品詞の組み合わせの中から入力部25を介して所望する形態素の品詞の組み合わせを要求する。そして、サーバ3は、端末2が要求する形態素の品詞の組み合わせを端末2に送信する。この場合、端末2に送信される語句は、形態素の品詞の組み合わせを要求した端末2のみに送信されるほうがより好ましい。これにより、利用者が興味のある形態素の品詞の組み合わせからなる語句のみを抽出することができる。そして、利用者にとって利用しやすいシステムとなる。
このように、本発明のデータ抽出システムは、端末2とサーバ3とでデータとして語句の抽出に係る各処理を分散させることができる。そして、各装置にかかる負担を少なくすることができる。例えば、サーバ3に接続する端末2が多くなっても、サーバ3にかかる負担は少ない。
このサーバ3には端末2の探索部21が備えられていてもよい。この場合、端末2とともに、ウェブページを同様に探索することができる。これにより、膨大な量のウェブページを探索するという処理を端末2とサーバ3とでさらに分散させることができる。探索されたウェブページは、インターフェース30を介して端末2に送信されてもよいが、サーバ3に形態素解析部22及び抽出部23を備え、サーバ3が探索したウェブページから語句を抽出しても良い。この場合の形態素解析部22及び抽出部23は、上述した端末2に備えられているものと略同じである。サーバ3の探索部21で探索されたウェブページは、端末2と同様に、サーバ3の形態素解析部22で形態素解析される。そして、同じサーバ3内にある品詞蓄積部31に蓄積されている形態素の品詞の組み合わせを受け取り、サーバ3の抽出部23が端末2の抽出部23と同様にこの形態素の品詞の組み合わせに基づいて語句を抽出する。抽出された語句は、サーバ3の照合部33に送られ、照合される。これにより、サーバ3でも、端末2と同様に語句を抽出することができる。
また、実施の形態1で説明したように、端末2で抽出した語句をサーバ3で照合し、その結果をサーバ3に接続されている端末2に送信することで、端末2で抽出された新しい語句を全ての端末2で共有することができる。この場合、1つの端末2がウェブサーバ4にあるテキストデータをウェブページをすべて見る必要がなくなり、各端末2で分担して語句を抽出することができるため、端末2にかかる負担をさらに少なくすることができる。
[実施の形態2]
実施の形態2で説明するデータ抽出システムは、各端末2にサーバ3で照合した語句を、各端末2同士で送受信することができる送受信部29を備えた端末2を使用するシステムであり、このデータ抽出システムについて、図3乃至図8を利用して説明する。なお、実施の形態1で説明したデータ抽出システムと重複するものについては同じ番号を付して説明を省略する。
送受信部29は、図7のように、インターフェース20を介して受信した語句が出力部24に送られるときに、インターフェース20を介してその語句を受け取る。そして、送受信部29は、受け取った語句をサーバ3に接続されている他の端末2の出力部24によって表示画面に表示させるように送信する。
この送受信部29を有する端末2をサーバ3に複数接続させることで、実施の形態2で説明するデータ抽出システムが構築される。図8のように、実施の形態2で説明するデータ抽出システムは、サーバ3に送受信部29を備えた端末2a、2bが接続されている。
実施の形態1で説明したように、端末2aが抽出した語句をサーバ3で照合する。そして、サーバ3は、語句蓄積部32にない語句であるとされた場合、その語句の抽出を行った端末2aのみに送信する。
インターフェース20を介して受信した語句は、出力部24と送受信部29とに送られる。その語句は、出力部24によって表示画面に表示されるとともに、送受信部29から再びインターフェース20を介してサーバ3に接続されている他の端末2bの出力部24によって表示画面に表示させるように送信される。
端末2aから受信した語句は、端末2bの出力部24に送られ、端末2bの表示画面に表示される。このとき、サーバ3に接続されている端末2a及び端末2b以外の端末のうち、語句が送信されていない端末がある場合、端末2bは、受信した語句をその端末2に送信するために、送受信部29に送り、上述と同様に各端末2に送信する。このとき、語句蓄積部32に、語句に関連付けて蓄積される語句が選択された回数も同様に、各端末2に送信される。このように、語句や語句が選択された回数等を各端末2間で共有するように、例えば端末2同士をピアツーピア接続してもよい。例えば、端末2bは、ピアツーピア接続している他の端末2が語句を受信していないことを認識した場合、その端末2との通信路を確立し語句を送信する。これにより、ピアツーピア接続された端末2同士で語句や語句が選択された回数等の情報を共有することができる。
このように、抽出された新しい語句を全ての端末で共有できる。そして、複数の端末2間で表示する語句を送受信可能とすることで、サーバ3は、全ての端末2に語句を送受信することがなくなる。また、語句を受信した端末2がサーバ3に接続されている全ての端末2に送信することもない。すなわち、語句をサーバ3に接続さている端末2で分散させることができ、端末2やサーバ3にかかる負担をより少なくすることができる。また、端末2やサーバ3での処理が軽減されるため、語句の送受信を高速化することもできる。
[実施の形態3]
実施の形態3で説明するデータ抽出システムは、サーバ3が所定の条件を満たす語句に限って端末2に送信するものである。すなわち、図9のように、実施の形態1で説明したサーバ3に照合条件記憶部34を備えたものである。
照合条件記憶部34は、照合部33が語句を照合する条件を記憶している。照合条件記憶部34は、語句の照合毎に記憶した照合条件を照合部33に送る。照合条件を受け取った照合部34は、この照合条件に基づいて語句の照合を行う。また、この照合条件は、端末2の入力部25による入力で適宜変更することができる。
照合条件記憶部34に記憶される照合条件としては、各端末で抽出された語句が所定の回数以上送信された場合、その語句を端末2に送信するといった例が挙げられる。この場合、語句蓄積部32には、語句とともに、語句に関連付けてサーバ3に送信された回数も蓄積させる。そして、照合部33は、語句蓄積部32に送信されてきた語句があるか否かではなく、サーバ3に何回送信されてきたかを照合し、所定の回数以上となった語句のみを端末2の出力部24によって表示画面に表示させるように送信する。
例えば、「図形認識ニューロン」を誤って「図形認識ニョーロン」と記載された語句を有するテキストデータがあった場合、誤って記載された「図形認識ニョーロン」が「図形認識ニューロン」と区別され判断されてしまう。実際には、正しい記載の「図形認識ニューロン」の方が多く使用され、誤った記載の「図形認識ニョーロン」は、使用される回数が限られている。ここで、所定の回数以上サーバ3に送信された語句に限って端末2に送信することで、このような誤った記載の「図形認識ニョーロン」が端末2の表示画面に表示されなくなる。すなわち、所定の条件を満たす語句のみが表示され、ノイズである誤った記載の語句を表示させ難くすることができる。したがって、より的確な語句抽出が可能となる。
このとき、語句蓄積部32には、蓄積される語句に関連づけて蓄積されるテキストデータを含むウェブページのURLを利用して、同じURLを有するテキストデータから抽出された語句は送信されてきた回数を加算されないようにすることもできる。これにより、同じテキストデータから語句が抽出されることがなく、より的確な語句抽出が可能となる。
[実施の形態4]
実施の形態4で説明するデータ抽出システムは、端末2が所定の条件を満たすテキストデータに限って受信するものである。すなわち、図10のように、実施の形態1で説明した端末2に探索条件記憶部26を備えたものである。
探索条件記憶部26は、探索部21によるテキストデータを含むウェブページの探索の条件を記憶している。探索条件記憶部26は、探索部21がウェブサーバ4の探索を行う前に探索条件を探索部21に送る。探索条件を受け取った探索部21は、探索条件に基づいてテキストデータを含むウェブページの探索を行う。また、この探索条件は、端末2の入力部25による入力で適宜変更することができる。
探索条件記憶部26に記憶される探索条件としては、所定のURLを有するウェブページは受信しないといった例が挙げられる。この場合、探索条件記憶部26には、所定のURLが記憶されており、この探索条件とともにこのURLが探索部21に送られる。そして、探索部21は、受け取った探索条件と所定のURLに基づいてウェブページの探索を行う。このとき、探索部21は、ウェブサーバ4のウェブページのURLと探索条件記憶部26から受け取ったURLとを比較しながらテキストデータを含むウェブページを探索する。
そして、探索部21がこの探索条件に基づいてウェブページを探索することで、探索部21は、ウェブサーバ4のウェブページのURLと探索条件記憶部26から受け取ったURLとが一致しないウェブページのみを受信し、一致するウェブページは、受信しなくなる。すなわち、ウェブサーバ4のウェブページのURLと探索条件記憶部26から受け取ったURLとが一致するウェブページを排除することができる。
端末2の出力部24によって表示画面に表示される語句を無意味な語句や文字列で溢れさせる等といった目的のために、一般に利用されない語句や文字列を単に並べただけの悪意あるウェブページが存在することも考えられる。例えば「図形認識ニューロン」といった語句に似せて、「図形認識ニョーロン」や「図形認識ニャーロン」等といった無意味な語句を並べて形成されたテキストデータを含むウェブページがウェブサーバ4に作成される可能性がある。このようなウェブページを受信すると、このような無意味な語句まで抽出され、出力部24によって表示画面に表示される。そして、この語句を入力部25で選択しても、無意味な語句が単に並んだウェブページを出力部24によって表示画面に表示することになり、語句の意味や活用方法などを知ることができない。このような場合、受信するウェブページのURLを記憶させ、そのURLと一致するURLを有するウェブページは受信しないようにすることで、上述のような悪意あるウェブページがあっても、無意味な語句を表示させることがない。また、無意味な語句を表示させることがないため、その無意味な語句を入力部25で選択することもなくなり、無意味な語句が単に並ぶウェブページを表示画面に表示させることもなくなる。すなわち、端末2の出力部24によって表示画面に表示される語句からノイズとなる語句を表示させ難くすることができる。したがって、より的確な語句抽出が可能となる。なお、所定のURLを有するウェブページのみを受信することも可能である。
また、別の探索条件として、サーバ3の語句蓄積部32に蓄積された語句と関連付けて蓄積される語句が抽出されたテキストデータを含むウェブページのURLを利用することもできる。この場合、上述のように、語句蓄積部32に蓄積されたURLと一致するURLを有するウェブページを受信しないようにすることもできる。これにより、各端末2で重複して語句を抽出することが避けられ、端末2にかかる負担をより少なくすることができる。
またさらに、語句蓄積部32に蓄積された語句と関連付けて蓄積される語句が抽出されたテキストデータを含むウェブページのURLを利用して、語句蓄積部32に蓄積されるURLのウェブページの更新状況を監視し、更新されたウェブページのみを受信することも可能である。これにより、更新されたウェブページを効率的に受信することができ、端末2にかかる負担をより少なくすることができる。
また、ウェブサーバ4は、ウェブページの更新時に、例えばピング(ping)等を利用して、その更新した旨の通知を所定のサーバ等に発信させることができる。これを利用し、サーバ3は、ピング等を利用して通知される更新の情報を取得できるようにするようにしてもよい。そして、この通知を受信した端末2の探索部21がウェブページの探索を行ってもよい。これにより、ウェブページの更新の情報が低コストで即座に把握できる。また、例えば所定の時間毎にピング等でウェブページの更新した旨の通知を提供するサーバ等からその通知を取り出すようにしてもよい。
実施の形態1乃至実施の形態4で説明したように、データ抽出システムによって、円滑に語句を抽出することができる。実施の形態1乃至実施の形態4で説明したデータ抽出システムは、それぞれ独立したものに限られず、例えば、実施の形態1と実施の形態4とを組み合わせる、実施の形態2と実施の形態3とを組み合わせるように適宜組み合わせることも可能である。
本発明のデータ抽出システムにおいて、端末2の形態素解析部22は、探索部21で探索されたウェブページのみを形態素解析するに限られない。例えば、形態素解析部22を有する端末2の入力部25から入力されたテキストデータを形態素解析することも可能である。これにより、例えば、端末2の入力部25を介して、サーバ3の品詞蓄積部31に入力する際に、語句の品詞がわからない場合であっても、端末2の形態素解析部22を利用して、利用者がある語句を入力して形態素解析することで、この語句の形態素の品詞の組み合わせを知ることができる。そして、この形態素の品詞の組み合わせを品詞蓄積部31に蓄積させようとすることも可能である。これにより、より便利になる。
また、本発明のデータ抽出システムにおいて、ウェブサーバ4からウェブサーバ4のウェブページの閲覧回数を取得し、この閲覧回数に基づいて受信するウェブページの優先順位を決めることも可能である。
さらに、サーバ3の語句蓄積部32には、蓄積される語句に関連付けて、語句を照合部33で照合した日時も蓄積することができる。これにより、例えば、入力部25での入力によって、語句蓄積部32に蓄積された語句を時間軸に沿って並べることができる。すなわち、語句の出現時刻を時間軸で表した表を形成することも可能である。
[実施の形態5]
本発明のデータ抽出システムは、上述のようにウェブページの語句のみを抽出するためだけのものではない。例えば、データとして画像も実施の形態1乃至4に説明したのと同様に抽出することもできる。実施の形態5で説明する画像を抽出するデータ抽出システムについて図面を参照しながら説明する。
実施の形態5で説明するデータ抽出システムは、実施の形態1と同様に端末2とサーバ3とを有している。端末2には、図11のように、実施の形態1の抽出部23の代わりに、画像を抽出する抽出手段として画像抽出部50と、画像抽出部50によって抽出した画像を圧縮する画像圧縮手段として画像圧縮部52を備えている。そして、サーバ3には、図12のように、実施の形態1の語句蓄積部32の代わりに、画像を蓄積するデータ蓄積手段として画像蓄積部51を備えたものである。なお、実施の形態1で説明したデータ抽出システムと重複するものについては同じ番号を付して説明を省略する。
画像抽出部50は、探索部21で探索したウェブサーバ4中のウェブページから画像のデータを抽出する。この画像抽出部50は、抽出された語句をデータ送信手段として機能するインターフェース20を介してサーバ3に送信する際に、画像を圧縮するために画像圧縮部52に画像を渡す。このとき、抽出する画像は、静止画及び動画であってもよく、ウェブページ中に画像として表示されるものであればどのような拡張子を有するファイルであってもよい。
画像圧縮部52は、画像を所定のバイトに圧縮する。この画像圧縮部52は、例えば図13のような画像を画像抽出部50から受け取ると、その画像の大きさを例えば8×8ピクセルまで縮小する。そして、その画像を例えば256色に減色する。これにより、1ピクセルが8ビットの256階調となり、8×8ピクセルの画像は64バイトとなる。このように画像圧縮部52は、画像抽出部50から受け取った画像を所定のサイズに小さくするとともに減色することによって所定のバイトに圧縮する。これにより、画像のバイト数が減少する。したがって、サーバ3に送信する際にネットワーク1にかかる負担が軽減される。このように画像を圧縮した画像圧縮部52は、インターフェース20を介して圧縮した画像をサーバ3に送信する。この画像圧縮部52は、下記で説明するサーバ3の照合部33での画像の照合で圧縮した画像を使用しない場合は、備えられていなくてもよい。その場合、画像抽出部50で抽出された画像は、そのままインターフェース20を介してサーバ3に送信される。
画像蓄積部51は、端末2の画像抽出部50で抽出され、画像圧縮部52で圧縮された画像を蓄積する。さらに、画像蓄積部51は、照合部33で形成されたその画像に対応する文字や画像等の情報を、その画像と対応させて蓄積する。この画像蓄積部51は、インターフェース30を介して画像圧縮部52で圧縮された画像を受信する。そして、画像蓄積部51は、照合部33で蓄積されている画像の中に受信した画像が無いとされた場合、その画像を蓄積する。このとき、画像圧縮部52で圧縮される前の容量の大きい画像を端末2から受信し、圧縮した画像に対応させるように画像蓄積部51に蓄積してもよい。
また、画像蓄積部51には、蓄積する画像が抽出されたウェブページのURLをその画像と関連付けて蓄積されている。このURLは、端末2の出力部24によって表示画面に表示させるために、照合部33が送信する画像に対応する情報とともに端末2に送信してもよいが、表示画面に表示された画像に対応する情報を入力部25によって選択することで、端末2に送信されてもよい。
さらに、画像蓄積部51は、回数計測部35で計測された端末2の入力部25で画像が選択された回数を画像に関連付けて蓄積されている。この回数は、端末2の表示画面に表示される画像に対応する情報と関連付けて表示させるために、回数計測部35によって端末2に送信される。
またさらに、この画像蓄積部51に蓄積されている画像等は、端末2の入力部25によって入力される操作に応じてその返答を端末2に送信することができる。例えば、画像蓄積部51は、蓄積されている画像の履歴を見せるように端末2の入力部25から入力された場合、その履歴を端末2に送信し、端末2の表示画面に表示させることもできる。選択された回数の多い順に画像に対応する情報を並べて端末2の表示画面に表示させるようにすることもできる。
このように構成される実施の形態5で説明するデータ抽出システムは、まず、端末2の探索部21がウェブページを探索し、画像を含むウェブページを受信する。
端末2は、画像を含むウェブページを受信すると、そのウェブページを画像抽出部50に渡し、ウェブページ中の画像が抽出される。このとき、実施の形態1と同様に、画像抽出部50は、その画像が抽出されたウェブページの受信先であるURLを抽出した画像に関連付ける。画像抽出部51は、抽出した画像を画像圧縮部52に渡し、画像を所定のバイトに圧縮する。そして、画像圧縮部52は、インターフェース20を介して圧縮した画像をサーバ3に送信する。このとき、画像抽出部50は、画像とともに、その画像に関連付けられたURLをサーバ3に送信する。ウェブページ中に画像が複数ある場合、これを繰り返す。そして探索部21は、ウェブページ中に抽出する画像が存在しなくなった場合、新たなウェブページをウェブサーバ4から探索する。
サーバ3は、接続されている端末2から画像圧縮部52で圧縮された画像を受信すると、実施の形態1の語句と同様に処理する。サーバ3は、受信した画像を照合部33に送る。そして、照合部は、受信した画像が画像蓄積部51にあるか否かを照合する。
画像蓄積部51に蓄積されている画像は、端末2の画像圧縮部52で所定のバイトに圧縮された画像である。また、照合部33に送られてきた画像も、所定の端末2の画像圧縮部52で所定のバイトに圧縮された画像である。例えば、256色の8×8ピクセルに圧縮されている場合、照合部は、1ピクセル毎の色を比較し、照合部33に送られてきた画像と画像蓄積部51に蓄積されている画像とを照合する。この照合部33での照合の方法は、特に限定されるものではなく、圧縮の方法や圧縮率などにより適宜変更することができる。
照合部33での照合の結果、サーバ3が受信した画像が画像蓄積部51にある場合、照合部33は、照合した画像を消去する。一方、サーバ3が受信した画像が画像蓄積部51にない場合、照合部33は、照合した画像に対応する文字や画像などの情報を形成し、照合した画像とともに画像蓄積部51に蓄積させる。このとき、照合部33は、画像と関連付けられ、端末2から受信したその画像が抽出されたウェブページのURLも蓄積させる。
そして、照合部33は、インターフェース30を介して、照合した画像に対応する情報を端末2の出力部24によって表示画面に表示させるように接続されている全ての端末2に送信させる。
この表示画面に表示される画像に対応する情報を入力部25で選択するように入力することで、端末2は、表示画面に表示された情報に対応する画像のURLをサーバ3の画像蓄積部51から受信する。そして、探索部21は、受信したURLを基にウェブページを探索する。このとき、探索部21は、実施の形態1で抽出した語句を有するウェブページを表示させたように、単にウェブページを表示させるようにしてもよいが、ウェブページ中の画像を受信し、出力部24によってその画像を表示画面に表示させてもよい。
このように、実施の形態5で説明したデータ抽出システムは、データとして実施の形態1の語句に代わって画像を抽出することができる。これにより、例えば新規に構築されたり、更新されたりしたウェブ上のウェブページから従来には、ウェブページには無かった新たな画像を見つけ出すことができる。
また、抽出される画像を圧縮することで、画像の容量が小さくなり、サーバ3の照合部33は、画像蓄積部51に蓄積されている画像と端末で抽出して圧縮された画像とを早く大量に照合することができる。したがって、ウェブページから抽出される膨大なデータ量を早く大量に処理することが可能となる。
照合部33で形成される画像に対応する情報は、特に限定するものではなく、端末2の表示画面に出力部24によって表示するように出力されるものであればどのようなものであってもよい。例えば、圧縮された画像のファイル名や圧縮された画像に関連付けて蓄積されているURLの一部等であってもよく、照合部33で照合した圧縮された画像をそのまま表示させてもよい。
画像蓄積部51を有するサーバ3には、実施の形態1と同様に、端末2の探索部21が備えられていてもよい。この場合、端末2とともに、ウェブページを同様に探索することができる。これにより、膨大な量のウェブページを探索するという処理を端末2とサーバ3とでさらに分散させることができる。探索されたウェブページは、インターフェース30を介して端末2に送信されてもよいが、サーバ3に抽出部23を備え、サーバ3内が探索したウェブページから端末2の抽出部23と同様に画像を抽出しても良い。
実施の形態5で説明したデータ抽出システムは、実施の形態1乃至4と組み合わせ、語句と画像との両方を抽出するものであってもよい。この場合、実施の形態1乃至4で説明したデータ抽出システムに、画像抽出部50、画像圧縮部52、画像蓄積部51を新たに、備え付け、上述のように画像の抽出も行えるようにすることで、ウェブページ中の語句及び画像を抽出することができる。
[実施の形態6]
本発明のデータ抽出システムは、上述のようにウェブページの語句のみを抽出するためだけのものではない。例えば、データとして音声も実施の形態1乃至4に説明したのと同様に抽出することもできる。実施の形態6で説明する音声を抽出するデータ抽出システムについて図面を参照しながら説明する。
実施の形態6で説明するデータ抽出システムは、実施の形態1と同様に端末2とサーバ3とを有している。端末2には、図13のように、実施の形態1の抽出部23の代わりに、音声を抽出する抽出手段として音声抽出部60と、音声抽出部60によって抽出した音声を圧縮する音声圧縮手段として音声圧縮部62を備えている。そして、サーバ3には、図14のように、実施の形態1の語句蓄積部32の代わりに、音声を蓄積するデータ蓄積手段として音声蓄積部61を備えたものである。なお、実施の形態1で説明したデータ抽出システムと重複するものについては同じ番号を付して説明を省略する。
音声抽出部60は、探索部21で探索したウェブサーバ4中のウェブページから音声のデータを抽出する。この音声抽出部60は、抽出された語句をデータ送信手段として機能するインターフェース20を介してサーバ3に送信する際に、音声を圧縮するために音声圧縮部62に音声を渡す。このとき、抽出する音声は、ウェブページ中に音声として表示されるものであればどのような拡張子を有するファイルであってもよい。
音声圧縮部62は、音声を所定のバイトに圧縮する。この音声圧縮部62は、例えば音声を音声抽出部60から受け取ると、その音声を例えば音声ファイルに含まれるサンプリング情報を間引くようにサンプリングし、時間方向に圧縮することで、64サンプル程度に圧縮する。これにより、照合部33で比較するビット列が少なくなり、サーバ3に送信する際にネットワーク1にかかる負担が軽減される。このように音声を圧縮した音声圧縮部62は、インターフェース20を介して圧縮した音声をサーバ3に送信する。この音声圧縮部62は、下記で説明するサーバ3の照合部33での音声の照合で圧縮した音声を使用しない場合は、備えられていなくてもよい。その場合、音声抽出部60で抽出された音声は、そのままインターフェース20を介してサーバ3に送信される。
音声蓄積部61は、端末2の音声抽出部60で抽出され、音声圧縮部62で圧縮された音声を蓄積する。さらに、音声蓄積部61は、照合部33で形成されたその音声に対応する文字や画像等の情報を、その音声と対応させて蓄積する。この音声蓄積部61は、インターフェース30を介して音声圧縮部62で圧縮された音声を受信する。そして、音声蓄積部61は、照合部33で蓄積されている音声の中に受信した音声が無いとされた場合、その音声を蓄積する。このとき、音声圧縮部62で圧縮される前の容量の大きい音声を端末2から受信し、圧縮した音声に対応させるように音声蓄積部61に蓄積してもよい。
また、音声蓄積部61には、蓄積する音声が抽出されたウェブページのURLをその音声と関連付けて蓄積されている。このURLは、端末2の出力部24によって表示画面に表示させるために、照合部33が送信する音声に対応する情報とともに端末2に送信してもよいが、表示画面に表示された音声に対応する情報を入力部25によって選択することで、端末2に送信されてもよい。
さらに、音声蓄積部61は、回数計測部35で計測された端末2の入力部25で音声が選択された回数を音声に関連付けて蓄積されている。この回数は、端末2の表示画面に表示される音声に対応する情報と関連付けて表示させるために、回数計測部35によって端末2に送信される。
またさらに、この音声蓄積部61に蓄積されている音声等は、端末2の入力部25によって入力される操作に応じてその返答を端末2に送信することができる。例えば、音声蓄積部61は、蓄積されている音声の履歴を見せるように端末2の入力部25から入力された場合、その履歴を端末2に送信し、端末2の表示画面に表示させることもできる。選択された回数の多い順に音声に対応する情報を並べて端末2の表示画面に表示させるようにすることもできる。
このように構成される実施の形態5で説明するデータ抽出システムは、まず、端末2の探索部21がウェブページを探索し、音声を含むウェブページを受信する。
端末2は、音声を含むウェブページを受信すると、そのウェブページを音声抽出部60に渡し、ウェブページ中の音声が抽出される。このとき、実施の形態1と同様に、音声抽出部60は、その音声が抽出されたウェブページの受信先であるURLを抽出した音声に関連付ける。音声抽出部61は、抽出した音声を音声圧縮部62に渡し、音声を圧縮する。そして、音声圧縮部62は、インターフェース20を介して圧縮した音声をサーバ3に送信する。このとき、音声抽出部60は、音声とともに、その音声に関連付けられたURLをサーバ3に送信する。ウェブページ中に音声が複数ある場合、これを繰り返す。そして探索部21は、ウェブページ中に抽出する音声が存在しなくなった場合、新たなウェブページをウェブサーバ4から探索する。
サーバ3は、接続されている端末2から音声圧縮部62で圧縮された音声を受信すると、実施の形態1の語句と同様に処理する。サーバ3は、受信した音声を照合部33に送る。そして、照合部は、受信した音声が音声蓄積部51にあるか否かを照合する。
音声蓄積部61に蓄積されている音声は、端末2の音声圧縮部62で圧縮された音声である。また、照合部33に送られてきた音声も、所定の端末2の音声圧縮部62で圧縮された音声である。例えば、64サンプル程度にまで音声が圧縮されている場合、その圧縮によってできるビット列を比較し、照合部33に送られてきた音声と音声蓄積部61に蓄積されている音声とを照合する。この照合部33での照合の方法は、特に限定するものではなく、圧縮の方法などにより適宜変更することができる。
照合部33での照合の結果、サーバ3が受信した音声が音声蓄積部61にある場合、照合部33は、照合した音声を消去する。一方、サーバ3が受信した音声が音声蓄積部61にない場合、照合部33は、照合した音声に対応する文字や画像等の情報を形成し、照合した音声とともに音声蓄積部61に蓄積させる。また、照合部33は、音声と関連付けられ、端末2から受信したその音声が抽出されたウェブページのURLも蓄積させる。
そして、照合部33は、インターフェース30を介して、照合した音声に対応する情報を端末2の出力部24によって表示画面に表示させるように接続されている全ての端末2に送信させる。
照合部33で照合した音声とこの音声に対応する情報を受信した端末は、音声に対応する情報を出力部24に渡す。音声に対応する情報を受け取った出力部24は、その情報を表示画面に表示させる。これにより、データとして実施の形態1の語句に代わって音声を抽出することができる。これにより、例えば新規に構築されたり、更新されたりしたウェブ上のウェブページから従来には、ウェブページには無かった新たな音声を見つけ出すことができる。
この表示画面に表示される音声に対応する情報を入力部25で選択するように入力することで、端末2は、表示画面に表示された情報に対応する音声のURLをサーバ3の音声蓄積部61から受信する。そして、探索部21は、受信したURLを基にウェブページを探索する。このとき、探索部21は、実施の形態1で抽出した語句を有するウェブページを表示させたように、単にウェブページを表示させるようにしてもよいが、ウェブページ中の音声を受信し、出力部24によってその音声をスピーカ等で出力してもよい。
また、抽出される音声を圧縮することで、音声の容量が小さくなり、サーバの照合部33は、音声蓄積部61に蓄積されている音声と端末で抽出して圧縮された音声とを早く大量に照合することができる。したがって、ウェブページから抽出される膨大なデータ量を早く大量に処理することが可能となる。
照合部33で形成される音声に対応する情報は、特に限定するものではなく、端末2の表示画面に出力部24によって表示するように出力されるものであればどのようなものであってもよい。例えば、圧縮された音声のファイル名や圧縮された音声に関連付けて蓄積されているURLの一部等であってもよい。
音声蓄積部61を有するサーバ3には、実施の形態1と同様に、端末2の探索部21が備えられていてもよい。この場合、端末2とともに、ウェブページを同様に探索することができる。これにより、膨大な量のウェブページを探索するという処理を端末2とサーバ3とでさらに分散させることができる。探索されたウェブページは、インターフェース30を介して端末2に送信されてもよいが、サーバ3に抽出部23を備え、サーバ3内が探索したウェブページから端末2の抽出部23と同様に音声を抽出しても良い。
実施の形態6で説明したデータ抽出システムは、実施の形態1乃至5と組み合わせ、語句と音声や語句と画像と音声とを抽出するものであってもよい。この場合、実施の形態1乃至5で説明したデータ抽出システムに、音声抽出部60、音声圧縮部62、音声蓄積部61を新たに、備え付け、上述のように音声の抽出も行えるようにすることで、ウェブページ中の語句と音声や語句と画像と音声を抽出することができる。

Claims (20)

  1. ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムであって、
    複数の端末と、
    前記端末に接続されたサーバとを有し、
    前記サーバは、
    前記端末で抽出された前記所定のデータを蓄積するデータ蓄積手段と、
    抽出された前記所定のデータが前記データ蓄積手段に蓄積されているデータであるか否かを照合する照合手段とを有し、
    前記端末は、
    前記ウェブから前記ウェブページを探索する探索手段と、
    前記ウェブページから前記所定のデータを抽出する抽出手段と、
    前記照合手段で前記データ蓄積手段に蓄積されていないとされた前記所定のデータ又は該所定のデータに対応する情報を前記サーバから受信し、該所定のデータ又は該所定のデータに対応する情報を出力する出力手段とを有することを特徴とするデータ抽出システム。
  2. 前記所定のデータは、所定の形態素の品詞の組み合わせを有する語句であり、
    前記サーバは、
    前記語句を抽出するための前記形態素の品詞の組み合わせを蓄積する品詞蓄積手段を有し、
    前記端末は、
    前記探索手段で探索された前記ウェブページ中のテキストデータを形態素解析する形態素解析手段を有し、
    前記品詞蓄積手段に蓄積されている前記形態素の品詞の組み合わせを予め前記サーバから受信し、
    前記抽出手段によって、前記サーバから受信した前記形態素の品詞の組み合わせと一致する形態素の品詞の組み合わせからなる語句を前記形態素解析手段で形態素解析したテキストデータから抽出し、
    前記サーバの照合手段で前記データ蓄積手段に蓄積されていないとされた前記語句を前記サーバから受信し、該語句を出力手段で表示画面に表示することを特徴とする請求項1記載のデータ抽出システム。
  3. 前記サーバは、複数の前記端末全てに、前記照合手段によって前記データ蓄積手段に蓄積されていないとされた前記語句を送信することを特徴とする請求項2記載のデータ抽出システム。
  4. 前記サーバは、前記抽出手段によって前記語句を抽出した前記端末に、前記照合手段によって前記データ蓄積手段に蓄積されていないとされた前記語句を送信し、
    前記語句を受信した端末は、該語句を他の端末に送信することを特徴とする請求項2記載のデータ抽出システム。
  5. 前記品詞蓄積手段は、前記端末で入力された新たな形態素の品詞の組み合わせを蓄積することを特徴とする請求項2記載のデータ抽出システム。
  6. 前記サーバは、前記抽出手段で抽出された前記語句のうち、所定の条件を満たす語句に限って前記端末に送信することを特徴とする請求項2記載のデータ抽出システム。
  7. 前記端末は、所定の条件を満たすウェブページのみを受信することを特徴とする請求項2記載のデータ抽出システム。
  8. 前記サーバは、前記端末が要求する形態素の品詞の組み合わせを該端末に送信することを特徴とする請求項2記載のデータ抽出システム。
  9. 前記端末の前記出力手段は、前記表示画面に表示された前記語句が選択されることによって、前記語句が抽出された前記ウェブページを前記ウェブから受信し、前記ウェブページを該端末の表示画面に表示することを特徴とする請求項2記載のデータ抽出システム。
  10. 前記サーバは、複数の前記端末で前記表示画面に表示された前記語句が選択された回数を集計し、該回数に基づいた表示を前記語句と関連付けて前記端末の前記表示画面に表示させるように前記端末に送信することを特徴とする請求項2記載のデータ抽出システム。
  11. 前記端末は、前記探索手段で探索した前記ウェブページから画像を抽出する画像抽出手段を有し、
    前記サーバは、抽出された前記画像を受信し、前記画像を蓄積する画像蓄積手段を有し、前記照合手段によって、抽出された前記画像が前記画像蓄積手段に蓄積されているか否かを照合し、
    前記端末は、前記照合手段で前記画像蓄積手段に蓄積されていないとされた前記画像に対応する情報を前記サーバから受信し、前記出力手段によって、該画像に対応する情報を前記表示画面に表示することを特徴とする請求項2記載のデータ抽出システム。
  12. 前記端末は、前記画像抽出手段で抽出された前記画像のサイズを小さくするとともに減色することによって所定バイトに圧縮する画像圧縮手段を有し、
    前記サーバは、前記画像圧縮手段で圧縮された前記画像を受信し、前記画像蓄積手段によって、圧縮された前記画像を蓄積し、前記照合手段によって、圧縮された前記画像のビット列に基づいて、当該画像が前記画像蓄積手段に蓄積されている画像であるか否かを照合することを特徴とする請求項11記載のデータ抽出システム。
  13. 前記端末は、前記探索手段で探索した前記ウェブページから音声を抽出する音声抽出手段を有し、
    前記サーバは、抽出された前記音声を受信し、前記音声を蓄積する音声蓄積手段を有し、前記照合手段によって、抽出された前記音声が前記音声蓄積手段に蓄積されているか否かを照合し、
    前記端末は、前記照合手段で前記音声蓄積手段に蓄積されていないとされた前記音声に対応する情報を前記サーバから受信し、前記出力手段によって、該音声を対応する情報を出力することを特徴とする請求項2記載のデータ抽出システム。
  14. 前記端末は、前記音声抽出手段で抽出された前記音声を時間軸の方向に圧縮する音声圧縮手段を有し、
    前記サーバは、前記音声圧縮手段で圧縮された前記音声を受信し、前記音声蓄積手段によって、圧縮された前記音声を蓄積し、前記照合手段によって、圧縮された前記音声のビット列に基づいて、当該音声が前記音声蓄積手段に蓄積されている音声であるか否かを照合することを特徴とする請求項13記載のデータ抽出システム。
  15. 前記所定のデータは、画像であることを特徴とする請求項1記載のデータ抽出システム。
  16. 前記所定のデータは、音声であることを特徴とする請求項1記載のデータ抽出システム。
  17. ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムに利用され、サーバに接続された端末装置であって、
    前記ウェブから前記ウェブページを探索する探索手段と、
    前記ウェブページから前記所定のデータを抽出する抽出手段と、
    前記抽出手段によって抽出された前記所定のデータを前記サーバに送信するデータ送信手段と、
    前記データ送信手段で送信した前記所定のデータが前記サーバのデータ蓄積手段に蓄積された所定のデータであるか否かが照合され、前記データ蓄積手段に蓄積されていないとされた所定のデータ又は該所定のデータに対応する情報を前記サーバから受信するデータ受信手段と、
    前記データ受信手段で受信した前記所定のデータ又は該所定のデータに対応する情報を出力する出力手段とを有することを特徴とする端末装置。
  18. ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムに利用され、サーバに接続された端末装置のプログラムであって、
    前記ウェブから前記ウェブページを探索する探索処理と、
    前記ウェブページから前記所定のデータを抽出する抽出処理と、
    前記抽出処理によって抽出された前記所定のデータを前記サーバに送信するデータ送信処理と、
    前記データ送信処理で送信した前記所定のデータが前記サーバのデータ蓄積処理によって蓄積された所定のデータであるか否かが照合され、前記データ蓄積処理によって蓄積されていないとされた所定のデータ又は該所定のデータに対応する情報を前記サーバから受信するデータ受信処理と、
    前記データ受信処理で受信した前記所定のデータ又は該所定のデータに対応する情報を出力する出力処理とを有することを特徴とする端末装置のプログラム。
  19. ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムに利用されるサーバ装置であって、
    前記ウェブから前記ウェブページを探索し、前記所定のデータを前記ウェブページから抽出する複数の端末と接続され、
    前記端末で抽出された前記所定のデータを前記端末から受信するデータ受信手段と、
    前記データ受信手段で受信した前記所定のデータを蓄積するデータ蓄積手段と、
    前記データ受信手段で受信した前記所定のデータが前記データ蓄積手段に蓄積されている語句であるか否かを照合する照合手段と、
    前記照合手段によって前記データ蓄積手段に蓄積されていないとされた前記所定のデータ又は該所定のデータに対応する情報を前記端末に出力させるように送信するデータ送信手段とを有することを特徴とするサーバ装置。
  20. ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムに利用されるサーバ装置のプログラムであって、
    前記サーバ装置は、
    前記ウェブから前記ウェブページを探索し、前記所定のデータを前記ウェブページから抽出する複数の端末と接続され、
    当該プログラムは、
    前記端末で抽出された前記所定のデータを前記端末から受信するデータ受信処理と、
    前記データ受信処理で受信した前記所定のデータを蓄積するデータ蓄積処理と、
    前記データ受信処理で受信した前記所定のデータが前記データ蓄積処理によって蓄積された語句であるか否かを照合する照合処理と、
    前記照合処理によって前記データ蓄積処理によって蓄積されていないとされた前記所定のデータ又は該所定のデータに対応する情報を前記端末に出力させるように送信するデータ送信処理とを有することを特徴とするサーバ装置のプログラム。
JP2006519016A 2005-09-06 2005-10-27 データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム Withdrawn JPWO2007029348A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005257325 2005-09-06
JP2005257325 2005-09-06
PCT/JP2005/019775 WO2007029348A1 (ja) 2005-09-06 2005-10-27 データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム

Publications (1)

Publication Number Publication Date
JPWO2007029348A1 true JPWO2007029348A1 (ja) 2009-03-12

Family

ID=37835485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006519016A Withdrawn JPWO2007029348A1 (ja) 2005-09-06 2005-10-27 データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム

Country Status (3)

Country Link
US (2) US8321198B2 (ja)
JP (1) JPWO2007029348A1 (ja)
WO (1) WO2007029348A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280781B1 (en) 2001-03-21 2012-10-02 Amazon Technologies, Inc. Automatically purchasing a gift from a wishlist
US8195529B1 (en) 2006-11-07 2012-06-05 Amazon Technologies, Inc. Creating and maintaining gift lists in online shopping
EP1993052B1 (en) 2007-05-15 2010-09-22 Sony Corporation Data processing apparatus and method, program, and storage medium for the identification of content
JP4437559B2 (ja) * 2007-05-15 2010-03-24 ソニー株式会社 データ処理装置および方法、プログラム、並びに記録媒体
JP2009075908A (ja) * 2007-09-21 2009-04-09 Sony Corp ウェブ・ページ閲覧履歴管理システム及びウェブ・ページ閲覧履歴管理方法、並びにコンピュータ・プログラム
US8065265B2 (en) 2007-10-29 2011-11-22 Microsoft Corporation Methods and apparatus for web-based research
JP2010237948A (ja) * 2009-03-31 2010-10-21 Kddi R & D Laboratories Inc 画像処理システム
US9817539B1 (en) 2010-02-02 2017-11-14 Amazon Technologies, Inc. Discovery of items added to wish lists
EP4318271A4 (en) * 2021-04-14 2024-04-24 Mitsubishi Electric Corporation LEARNING DEVICE, INFERENCE DEVICE, PROGRAM, LEARNING METHOD AND INFERENCE METHOD

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5983170A (en) * 1996-06-25 1999-11-09 Continuum Software, Inc System and method for generating semantic analysis of textual information
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
JP3748322B2 (ja) * 1997-10-29 2006-02-22 富士通株式会社 単語登録装置及び記録媒体
JPH11282873A (ja) * 1998-03-31 1999-10-15 Central Res Inst Of Electric Power Ind 画像データベース検索装置及びその検索方法並びに記録媒体
US6192333B1 (en) * 1998-05-12 2001-02-20 Microsoft Corporation System for creating a dictionary
US6101492A (en) * 1998-07-02 2000-08-08 Lucent Technologies Inc. Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
JP2000112978A (ja) * 1998-10-05 2000-04-21 Fuji Xerox Co Ltd カスタマイズ配信装置
WO2000034845A2 (en) * 1998-12-08 2000-06-15 Mediadna, Inc. A system and method of obfuscating data
US7844594B1 (en) * 1999-06-18 2010-11-30 Surfwax, Inc. Information search, retrieval and distillation into knowledge objects
US6631369B1 (en) * 1999-06-30 2003-10-07 Microsoft Corporation Method and system for incremental web crawling
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
US6418453B1 (en) * 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service for efficient web crawling
US6480837B1 (en) * 1999-12-16 2002-11-12 International Business Machines Corporation Method, system, and program for ordering search results using a popularity weighting
US6714905B1 (en) * 2000-05-02 2004-03-30 Iphrase.Com, Inc. Parsing ambiguous grammar
US6778986B1 (en) * 2000-07-31 2004-08-17 Eliyon Technologies Corporation Computer method and apparatus for determining site type of a web site
US7139747B1 (en) * 2000-11-03 2006-11-21 Hewlett-Packard Development Company, L.P. System and method for distributed web crawling
US20020111792A1 (en) * 2001-01-02 2002-08-15 Julius Cherny Document storage, retrieval and search systems and methods
JP2002230035A (ja) * 2001-01-05 2002-08-16 Internatl Business Mach Corp <Ibm> 情報整理方法、情報処理装置、情報処理システム、記憶媒体、およびプログラム伝送装置
US7194454B2 (en) * 2001-03-12 2007-03-20 Lucent Technologies Method for organizing records of database search activity by topical relevance
US7213013B1 (en) * 2001-06-18 2007-05-01 Siebel Systems, Inc. Method, apparatus, and system for remote client search indexing
US7092872B2 (en) * 2001-06-19 2006-08-15 Fuji Xerox Co., Ltd. Systems and methods for generating analytic summaries
US7130861B2 (en) * 2001-08-16 2006-10-31 Sentius International Corporation Automated creation and delivery of database content
JP2003178261A (ja) * 2001-12-10 2003-06-27 Ricoh Co Ltd 文字認識装置およびプログラム
US20030154071A1 (en) * 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents
JP3798991B2 (ja) * 2002-02-25 2006-07-19 日本電信電話株式会社 音声信号検索方法,音声信号検索装置,そのプログラムおよびそのプログラムの記録媒体
US7072890B2 (en) * 2003-02-21 2006-07-04 The United States Of America As Represented By The Secretary Of The Air Force Method and apparatus for improved web scraping
US7502779B2 (en) * 2003-06-05 2009-03-10 International Business Machines Corporation Semantics-based searching for information in a distributed data processing system
WO2005020091A1 (en) * 2003-08-21 2005-03-03 Idilia Inc. System and method for processing text utilizing a suite of disambiguation techniques
US7685296B2 (en) * 2003-09-25 2010-03-23 Microsoft Corporation Systems and methods for client-based web crawling
JP4458517B2 (ja) 2003-11-19 2010-04-28 株式会社 日立システムアンドサービス 情報抽出装置およびその方法
US20050125412A1 (en) * 2003-12-09 2005-06-09 Nec Laboratories America, Inc. Web crawling
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
US7783476B2 (en) * 2004-05-05 2010-08-24 Microsoft Corporation Word extraction method and system for use in word-breaking using statistical information
US7454430B1 (en) * 2004-06-18 2008-11-18 Glenbrook Networks System and method for facts extraction and domain knowledge repository creation from unstructured and semi-structured documents
US7580921B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
NZ553287A (en) * 2004-08-19 2010-10-29 Claria Corp Method and apparatus for responding to end-user request for information
US20060064411A1 (en) * 2004-09-22 2006-03-23 William Gross Search engine using user intent
EP1645974B1 (en) * 2004-10-05 2014-01-01 Sony Europe Limited Self-organisation approach to semantic interoperability in peer-to-peer information exchange
US7689557B2 (en) * 2005-06-07 2010-03-30 Madan Pandit System and method of textual information analytics
US7660815B1 (en) * 2006-06-30 2010-02-09 Amazon Technologies, Inc. Method and system for occurrence frequency-based scaling of navigation path weights among online content sources

Also Published As

Publication number Publication date
WO2007029348A1 (ja) 2007-03-15
US8321198B2 (en) 2012-11-27
US20090106396A1 (en) 2009-04-23
US8700702B2 (en) 2014-04-15
US20120323882A1 (en) 2012-12-20

Similar Documents

Publication Publication Date Title
JPWO2007029348A1 (ja) データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム
US9691388B2 (en) Differential dynamic content delivery with text display
US8954844B2 (en) Differential dynamic content delivery with text display in dependence upon sound level
US8924410B2 (en) Automated scheme for identifying user intent in real-time
US9239884B2 (en) Electronic document processing with automatic generation of links to cited references
US20070192309A1 (en) Method and system for identifying sentence boundaries
US20070078814A1 (en) Novel information retrieval systems and methods
US8874590B2 (en) Apparatus and method for supporting keyword input
KR101983975B1 (ko) 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
US20050010422A1 (en) Speech processing apparatus and method
US7251602B2 (en) Voice browser system
US8346745B2 (en) Information retrieval method, computer readable medium and information retrieval apparatus
CN110889034A (zh) 数据分析方法及数据分析系统
US9875232B2 (en) Method and system for generating a definition of a word from multiple sources
KR20090083747A (ko) 웹 문서 요약 제공을 위한 사용자 단말 장치 및 웹 문서제공 방법
KR101111679B1 (ko) 검색시스템 및 그 방법
US7921126B2 (en) Patent summarization systems and methods
EP2458515A1 (en) Method and apparatus for searching contents in a communication system
KR100832859B1 (ko) 모바일 웹 콘텐츠 서비스 시스템 및 그 방법
JP2019121164A (ja) 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム
JPH10301944A (ja) Wwwブラウザ装置
US9141712B2 (en) Sequential website moving system using voice guide message
JP2002163276A (ja) 文書要約システム及び文書要約方法
JP2008269430A (ja) 文章評価システム、文章評価方法及び文章評価プログラム

Legal Events

Date Code Title Description
AA64 Notification of invalidation of claim of internal priority (with term)

Free format text: JAPANESE INTERMEDIATE CODE: A241764

Effective date: 20080521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080527

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090106