JPWO2011024716A1 - 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム - Google Patents

構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム Download PDF

Info

Publication number
JPWO2011024716A1
JPWO2011024716A1 JP2011528762A JP2011528762A JPWO2011024716A1 JP WO2011024716 A1 JPWO2011024716 A1 JP WO2011024716A1 JP 2011528762 A JP2011528762 A JP 2011528762A JP 2011528762 A JP2011528762 A JP 2011528762A JP WO2011024716 A1 JPWO2011024716 A1 JP WO2011024716A1
Authority
JP
Japan
Prior art keywords
search
unit
screen
example sentence
structured document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011528762A
Other languages
English (en)
Inventor
圭一 井口
圭一 井口
小山 和也
和也 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2011024716A1 publication Critical patent/JPWO2011024716A1/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML

Abstract

構造上は関連する位置に目安となる要素が存在しないが、表示画面上には目安となる要素が存在する場合に、該目安となる要素を自動的に検索条件として指定して目的の要素を検索する検索式を生成できる構造化文書検索式生成装置を提供する。構造化文書検索式生成装置は、検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積する例文蓄積部と、複数の例文における検索対象要素が指定される要素指定部と、指定された例文の構造を解析し、例文の構造上において指定された検索対象要素の構造上の位置を示す検索式を生成する構造解析部と、指定された例文の表示イメージを解析し、複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する画面解析部と、生成された構造上の位置を示す検索式に、決定された画面上目安要素を条件として追加したものを生成する検索式合成部とを備える。

Description

本発明は、構造化文書検索式生成装置、その方法およびプログラム、並びに構造化文書検索装置、その方法およびプログラムに関し、特に表示上の位置関係を条件に記述した検索式を自動生成できる構造化文書検索式生成システムに関する。
HTML(Hyper Text Markup Language)文書等の構造化文書を検索対象とし、Webページから所望の情報を抽出するデータ抽出システムの一例が特許文献1に開示されている。
特許文献1のデータ抽出システムは、通信装置と、中央処理装置と、データ抽出手段(データ抽出プログラム)と、データ抽出再構築手段(データ抽出再構築プログラム)とを有する。データ抽出手段は、Webページから所定の文字列を予め抽出基本データとして抽出して格納する。データ抽出再構築手段は、Webページが変更されたとき、変更後のWebページから抽出基本データを検索し、検索した抽出基本データのHTML構造の位置を表す情報に基づいて、変更後のWebページと同じHTML構造であって内容が異なるWebページから、変更前のWebページのHTML構造における抽出基本データ位置に対応する文字列を抽出するデータ抽出手段を再構築する。
具体的には、上記構成において、データ抽出再構築手段は、通信装置を使用してWebページを取得し、以前に取得したWebページと比較し、HTML構造に変化が生じたか否かを判定する。そして、変更があった場合、抽出基本データの値(文字列)と共に記述されたURL(Uniform Resource Locator)を参照して、新しいHTML構造のWebページを取得する。次に、データ抽出再構築手段は、抽出基本データの値をそれぞれ新しいHTML構造のWebページから検索し、その前後のタグを用いてデータ抽出プログラムを再構築する。これによれば、HTML構造に変更が生じた場合でも、適応するデータ抽出プログラムを生成することが可能とされている。
一方、特許文献2には、マルチメディア記述データ内に記述された各グラフィックオブジェクトの重なり部分に対しては画像データの送受信を行わず、通信量及び通信時間を削減させることが可能な画像通信システムが記載されている。特許文献2の画像通信システムには、画像の識別子と画像の領域情報によって抽出する要素を指定する技術が記載されている。
また、非特許文献1には、構造化文書に識別子を含めることにより、特定の要素を抽出する技術が記載されている。
特開2005−301437号公報 特開2003−303091号公報
米国マイクロソフト社、"Subscribing to Content with Web Slices"、MSDNライブラリ、[online]、[平成21年7月13日検索]、インターネット<URL: http://msdn.microsoft.com/en-us/library/cc196992(VS.85).aspx>
上記技術の問題点は、Webページの表示画面上には検索対象要素の目安となる要素(目安要素)が存在するが、該目安となる要素が構造上の関連する位置にない場合、条件として記述した検索式を自動的に生成できないことにある。その理由は、従来の構造化文書検索式は構造上の位置関係のみを条件として記述し、表示画面上の目安となる要素を自動的に発見できず、また条件として記述することができないためである。
すなわち、表示画面上の位置を合わせることにより、画面上の目安を配置した構造化文書においては、構造上は目安要素と検索対象要素の関係が表現されないため、目安となる要素を決定することができない。その結果、構造上の位置情報だけでは、複数の例文において共通に指定できる情報が限られ、要素を一意に指定できない場合がある。
また、特許文献2の要素抽出技術では、領域情報により情報を抽出するため、情報量や記載内容により表示領域が変化する構造化文書においては、目的の要素を抽出する検索式を記述することができない。
また、非特許文献1の要素抽出技術では、構造化文書の抽出すべき個所に識別子を含める必要があるため、抽出すべき個所に識別子が含まれていない構造化文書から目的の要素を抽出する検索式を記述することができない。
本発明の目的は、上記課題を解決し、構造上は関連する位置に目安となる要素が存在しないが、表示画面上には目安となる要素が存在する場合に、該目安となる要素を自動的に検索条件として指定して目的の要素を検索する検索式を生成できる構造化文書検索式生成装置を提供することにある。
上記目的を達成するため、本発明に係る構造化文書検索式生成装置は、検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積する例文蓄積部と、前記複数の例文における検索対象要素が指定される要素指定部と、前記要素指定部により指定された前記例文の構造を解析し、前記例文の構造上において前記指定された検索対象要素の構造上の位置を示す検索式を生成する処理を実行する構造解析部と、前記要素指定部により指定された前記例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行する画面解析部と、前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行する検索式合成部とを備えたことを特徴とする。
本発明の効果は、構造上の関連する位置に目安となる要素が存在しないが、表示画面上には目安となる要素が存在する場合に、目安とすべき要素を自動的に選択し検索式に記述できる構造化文書検索式生成装置を提供できることにある。その理由は、複数の例文について表示イメージを解析することで、画面上で対象要素に対して共通の相対位置に存在する要素を目安の要素として条件に追加するためである。
本発明の第1の実施の形態に係る構造化文書検索式生成システムの構成を示すブロック図である。 図1に示す構造化文書検索式生成システムの全体動作を示す流れ図である。 図2に示す画面解析(ステップS205)の詳細な動作を示す流れ図である。 図2及び図3の動作において、最初の例文の具体例を示す図である。 図2及び図3の動作において、二つ目の例文の具体例を示す図である。 図2及び図3の動作において、最初の例文における表示イメージの具体例を示す図である。 図2及び図3の動作において、最初の例文における目安要素の候補を示す条件の具体例を示す図である。 図2及び図3の動作において、最初の例文における構造上位置情報の具体例を示す図である。 図2及び図3の動作において、二つ目の例文における表示イメージの具体例を示す図である。 図2及び図3の動作において、二つ目の例文における目安要素の候補を示す条件の具体例を示す図である。 図2及び図3の動作において、二つ目の例文における構造上位置情報の具体例を示す図である。 図4に示す最初の例文及び図5に示す二つ目の例文から得られる検索式の具体例を示す図である。 本発明の第2の実施の形態に係る構造化文書検索式生成システムの構成を示すブロック図である。 本発明の第3の実施の形態に係る構造化文書検索システムの構成を示すブロック図である。
次に、本発明の実施の形態について、図面を参照して詳細に説明する。
(第1の実施の形態)
図1を参照すると、本発明の第1の実施の形態である構造化文書検索式生成システム(構造化文書検索式生成装置)10は、プログラム制御により動作する制御装置11と、記憶装置12と、表示装置13と、通信装置14とから構成されている。
制御装置11は、記憶装置12に記憶されている検索式生成プログラム120を逐次読み出し実行することにより、例文の構造を解析し、同じ種類の複数の例文について共通の条件を追加し、また、制御装置11は、同じ種類の複数の例文について差異のある要素を検索式から削除する機能を実行する。このため、制御装置11には、制御装置11が実行する検索式生成プログラム120の構造を機能展開したときの各機能に対応する手段として、例文収集部111と、要素指定部112と、画面解析部113と、構造解析部114と、検索式合成部115とが含まれる。これらの手段は、それぞれ概略次のように動作する。
例文収集部111は、検索対象とする構造化文書を取得し、文書種類ごとに文書名を付与して記憶装置内に作成された例文蓄積部121に蓄積する。例文収集部111は、通信部14を介して外部接続されたサーバ(図に示さず)から構造化文書を取得してもよい。なお、検索対象である構造化文書の好適な例は、HTML文書である。
ここで、「文書種類」とは、同一システムが同一目的で出力する文書を指し、たとえば、条件の入力ページ、結果一覧ページ、詳細表示ページなどの分類である。文書名の好適な例は、構造化文書内に記載されている文書の題名、構造化文書を取得するためのURLである。また、入出力装置13を操作することにより、ユーザに文書名を入力させるように構成されてもよい。なお、後述するように、記憶装置12の例文蓄積部121には、構造化文書が文書名毎に蓄積される。
要素指定部112は、記憶装置12の例文蓄積部121に蓄積された各例文における検索対象を指定し、例文蓄積部121から取得した例文、例文における検索対象要素を識別する識別子、検索対象を画面解析部113および構造解析部114に引き渡す機能を有する。
画面解析部113は、要素指定部112から引き渡された例文により、例文蓄積部121から構造化文書を取得し、表示イメージを作成し、要素指定部112により指定された検索対象要素と複数の例文において共通した相対位置に存在する要素を検索式に追加すべき目安要素として決定する機能を有する。表示イメージを表示する方法の好適な例は、構造化文書はHTML文書であり、画面解析部113はHTMLレンダリングエンジンを備え、HTMLの表示イメージを作成することである。
構造解析部114は、要素指定部112から引き渡された例文により例文蓄積部121から構造化文書を取得し、解析して、要素指定部112により指定された要素の、構造上の位置を示す検索式を構成する機能を有する。構造解析部114は、さらに複数の例文において指定された要素について共通の構造上の位置を示す検索式を構成する機能を有する。検索式の好適な例は、XPath式である。XPathは、構造化言語であるXM(Extensible Markup Language)の仕様にて定義されている、オブジェクトの位置を示すPathである。たとえば、複数の例文において、指定された要素の共通する構造はHTMLのDIVタグであるという情報だけの場合は、XPath式で”//div”と記述される。
検索式合成部115は、構造解析部114から受け取った構造上の位置を示す検索式に、画面解析部113から受け取った目安要素が対象要素のどの相対位置に存在すべきかを示した条件として追加し、記憶装置12の検索式蓄積部122に蓄積する機能を有する。条件の記述の好適な例は、図10の検索式1000に示すように、XPathの記述を拡張し、その述部(Predicate)として、画面上の上下左右のいずれに存在するかを示す記号(top、bottom、left、right)に目安要素を示すXPathを組み合わせて表現することである。
なお、要素指定部112は入出力装置13により構造化文書を画面に表示し、ユーザに検出対象の要素を指示させるように構成されてもよい。また、構造化文書毎の検索対象要素を一覧として入力するように構成されてもよい。
次に、図1の構成図及び図2、図3のフローチャートを参照して、本実施の形態の全体の動作について詳細に説明する。
まず、例文収集部111は、検索対象となる構造化文書を複数収集し、文書種類ごとに文書名を付与して、記憶装置12の例文蓄積部21に蓄積する(ステップS201)。
次に、要素指定部112は、同じ文書種類の例文のうち一つの構造化文書を入出力装置13の画面に表示し、検出対象の要素をその構造化文書内からとりこんで、構造解析部114及び、画面解析部113へ引き渡す(ステップS202)。
これを受けて、構造解析部114は、例文の構造を解析し(ステップS203)、構造上の検索対象の位置を示す検索式を構成する(ステップS204)。
また、画面解析部113は、要素指定部112から引き渡された例文及び検索対象の要素を受けて、検索対象の要素の画面上の相対位置に存在する要素のうち、条件として検索式に追加すべき要素を決定する(ステップS205)。追加すべき要素を決定するための詳細な手順は後述する。
続いて検索式合成部115は、画面解析部113及び構造解析部114の結果を受け、画面上の位置情報を構造上の検索式に追加する(ステップS206)。
上記のステップS202からステップS206の処理を同じ文書種類のうち必要な例文の数だけ繰り返す(ステップS207)。
全ての例文について処理が完了すると、検索式合成部115は、合成した検索式を検索式蓄積部122に蓄積する(ステップS208)。
次に、図3を参照して、上記の画面解析(ステップS205)により条件として検索式に追加すべき要素を決定するための詳細な動作を説明する。
画面解析部113は、まず要素指定部112から引き渡された例文を解析し、表示イメージ(後述の図6参照)を作成する(ステップS210)。
次に、検索対象要素と重複のある要素を、目安要素の候補として列挙する(ステップS211)。ここで重複のある位置に存在するとは、横軸座標が検索対象要素の右端と左端の間に存在する、または、縦軸座標が検索対象要素の上端と下端の間に存在することを言う。
次に、処理中の例文が最初の例文かどうか確認する(ステップS212)。その結果、最初の例文である場合は(ステップS212:YES)、列挙したすべての候補のXPath式を条件として記述する(ステップS213)。一方、最初の例文ではない場合は(ステップS212:NO)、各候補について、下記の操作を繰り返す(ステップS214)。
まず、候補が検索結果となる条件が既に登録されている場合は、ステップS219に飛ぶ。候補を選択する条件が登録されていない場合は、候補のXPath式を作成する(ステップS216)。
次に、作成したXPath式と最もよく一致する条件を選択する(ステップS217)。最もよく一致する条件とは、たとえば、条件および作成したXPath式をステップ毎に分解し、一致するステップ数が最も多いものとする。また別の例では、文字列値が同一の要素を選択する条件とする。
次に、選択した条件の一部を緩和することにより、候補が選択されるように変更する(ステップS218)。たとえば、条件のXPath式のステップのうち、候補に一致しないステップを任意の要素とすることで緩和する。また別の例では条件のXPath式のステップのうち、要素の出現順序が候補と一致しないステップについて、出現順序を任意とすることで緩和する。
次に、条件が処理した各例文について、一つの要素だけを指定するか確認する(ステップS219)。その結果、全ての例文について一つの要素のみを指定する場合は(ステップS219:YES)、新しい条件で置き換える(ステップS220)。
以上のステップS214からステップS220の処理を各候補について繰り返す(ステップS222)。全ての候補を処理し終わったのち、いずれの候補の選択にも使用しなかった条件を削除する(ステップS223)。
次に、図2、図3に示す動作(ステップS201〜S208、S210〜S223)の具体例について、図4〜図12を用いて説明する。
例文収集部111は、図4に示す例文1200及び図5に示す例文1300を収集し、例文蓄積部121に蓄積する。
次に、要素指定部112は、図6に示すように、最初の例文として、例文1200を表示し、ユーザの指示により検索対象要素401を指定し、画面解析部113及び、構造解析部114に引き渡す。
構造解析部114は、構造上の位置を示す好適な例として、図8に示すように、XPath式により検索対象要素401の構造上位置情報600を生成する。
画面解析部113は、図6に示すように、例文1200の表示イメージ400を生成し、検索対象要素401と重複する要素として、要素402、403、404を列挙し、この例文1200は最初の例文のため、要素402、403、404とも目安要素の候補を示す条件として追加する。図7にその条件500として、追加する条件502、503、504を図示する。
次に、要素指定部112は、二つ目の例文として、図9に示すように例文1300を表示し、ユーザの指示により検索対象要素705を指定し、画面解析部113及び、構造解析部114に引き渡す。
構造解析部114は、図11に示すようにXPath式により検索対象要素705の構造上位置情報900を生成する。なお、この例では、図8に示す構造上位置情報600と図11に示す構造上位置情報900は一致するため、特段の処理は不要だが、一致しない場合は、共通に指定できるように条件を緩和するように構成してもよい。たとえば、検索式のステップのうちいずれかを任意とする緩和が可能である。また、XPath式のステップの数が異なる場合には、“descendant::”または“//”の記述を使用し途中任意の数の要素が存在すると記述してもよい。
画面解析部113は、図9に示すように例文1300の表示イメージ700を生成し、検索対象要素705と重複する要素として、要素706、707を列挙する。
この例文1300は、最初の例文ではないため、まず要素706について処理を行う。図7に示す条件502、503、504のいずれも、要素706を検索しないため、図10に示すように、要素706の検索式条件806を生成する。図7に示す条件502、503、504のうち、条件806と最もよく一致する条件は、条件502であるため、条件502を緩和し、文字列の一致条件を削除する。緩和後の条件502が例文1200、1300ともに一つの要素のみを指定することを確認し、条件502を書き換える。
次に、残りの要素707についても同様に処理を行い、図7に示す条件502、503、504のいずれも、要素707を検索しないため、図10に示すように、要素707の検索式条件807を生成する。図7に示す条件502、503、504のうち、条件807と最もよく一致する条件は、条件503であるため、条件503を緩和する。緩和後の条件503が例文1200、1300ともに一つの要素のみを指定することを確認し、条件503を書き換える。
条件504については、いずれの候補の検索にも使用されなかったため、削除する。
その結果、図12に示す検索式1000が生成され、検索式蓄積部122に名前を付けて蓄積される。
なお、上記の条件は、図7、図10、図12に示すように、検索対象要素との相対位置のどの方向に存在するかを示す記号(top、bottom、left、right)と条件の要素を示すXPath式を組み合わせて、比較対象の要素の後ろに”[”と”]”で括って記述する。なお、ここでは前記方法で条件を記述する方法を示したが、比較対象となる二つの要素(検索対象要素と目安要素)と、方向の関係を示せれば他の方法で記述してもよい。
また、本例では、検索対象要素についてのみ目安要素を探す例を示したが、構造解析部が生成したXPath式の各ステップを示す要素について、その相対位置に共通に存在する要素を画面解析部113により列挙し、検索式合成部115により各ステップに目安要素の条件を追加するように構成してもよい。
以上説明したように、上記実施の形態による構造化文書検索式生成システムは、検索対象となる複数の例文である構造化文書における検索対象要素をそれぞれ指定する要素指定部112と、例文を外部から取得し、例文の文書種類ごとに蓄積する例文収集部111と、例文収集部111が収集した例文を文書の種類毎に蓄積する例文蓄積部121と、構造化文書の構造を解析し、検索対象要素の、複数の構造化文書における共通の構造上の位置を示した検索式を生成する構造解析部114と、構造化文書の画面上の位置情報を解析し、検索対象の、複数の構造化文書における共通の目安となる要素を選択する画面解析部113と、構造解析部114により生成された構造上の位置を示す検索式に、画面解析部113により決定された共通の目安となる要素を条件として追加したものを生成する検索式合成部115とを備える。
このような構成を採用し、例文収集部111は、複数の例文を収集し、文書種類ごとに例文蓄積部121に蓄積し、要素指定部112は、例文蓄積部121に蓄積された複数の例文における検索対象要素を指定し、構造解析部114は、複数の構造化文書を解析し、要素指定部112により指定された例文の構造を解析し、同じ種類の複数の例文について共通の構造上の位置を示した検索式を生成する。さらに、検索式合成部115は、同じ種類の複数の例文について、画面上で対象要素に対して共通の相対位置に存在する要素を目安の要素として条件に追加する。
次に、本実施の形態の効果について説明する。
本実施の形態では、構造上の位置を示す検索式を生成し、さらに複数の例文について表示イメージを解析し、画面上で対象要素に対して共通の相対位置に存在する要素を目安の要素として条件に追加するように構成されているため、構造上の関連する位置に目安となる要素が存在しないが、表示画面上には目安となる要素が存在する場合に、構造上の位置を特定したうえで、目安とすべき要素を自動的に選択し検索式に記述できる検索式生成システムを提供できる。
なお、ステップS211において、列挙する目安要素の数の上限を定め、検索対象要素に近い要素のみを列挙することにより、処理速度を改善するように構成されてもよい。
また、ステップS219において、複数の要素が選択された場合、ステップS217に戻り、別の条件について処理を繰り返すことにより、別の組み合わせによる条件の生成を試すように構成されてもよい。
(第2の実施の形態)
次に、本発明の第2の実施の形態について、図13を参照して詳細に説明する。
図13は、本実施の形態による構造化文書検索式生成システム(構造化文書検索式生成装置)の構成を示すブロック図である。図1に示す第1の実施の形態ではスタンドアロン構成の検索式生成システム10であったのに対し、本実施の形態ではネットワーク構成の検索式生成システム100を採用している。
図13を参照すると、本実施の形態による検索式生成システム100は、端末装置200と、サーバ装置300とがネットワークを介して接続され構成される。端末装置200は、ネットワーク接続環境を有する閲覧プログラム(ブラウザ)内蔵のPC(Personal Computer)相当の端末であるため、以降、検索式生成ブラウザ200という。また、サーバ装置300は、たとえば図1に示す第1の実施の形態同様、ハードウェア的には、演算制御装置11と記憶装置12と、入出力装置13と、通信装置14とを含み、検索式を自動生成するため、以降、検索式生成サーバ300という。
検索式生成ブラウザ200は、不図示のHTMLブラウジング機能に加えて、要素指定部201と、画面解析部202と、例文収集部203とを含む。
要素指定部201は、検索式生成サーバ300の例文蓄積部303から取得した例文、例文における検索対象を識別する識別子、検索対象を取得して、画面解析部202及び検索式生成サーバ300の構造解析部301に引き渡す機能を有する。
画面解析部202は、構造化文書の表示画面を解析し、要素指定部201が指定した要素と重複する要素を列挙し、位置情報条件の候補として検索式合成部302に引き渡す機能を有する。
例文収集部203は、不図示の外部接続サーバから検索対象とする構造化文書を取得し、文書種類ごとに文書名を付与して検索式生成サーバ300の例文蓄積部303に蓄積する機能を有する。なお、検索対象である構造化文書の好適な例はHTML文書である。
検索式生成サーバ300は、構造解析部301と、検索式合成部302と、例文蓄積部303と、検索式蓄積部304と、を含む。
構造解析部301は、検索式生成ブラウザ200の要素指定部201から引き渡された例文により例文蓄積部303から構造化文書を取得し、解析して、要素指定部201により指定された検索対象要素の構造上の検索式を生成する機能を有する。
検索式合成部302は、検索式生成ブラウザ200の画面解析部202から受け取った、候補要素を解析し、条件として加えるべき候補を決定し、構造解析部301から受け取った構造上の検索式に、追加した検索式を合成し、検索式蓄積部304に蓄積する機能を有する。このとき、検索式蓄積部304は、検索式合成部302により合成された検索式を、文書名、要素名とともに蓄積する。
上記のように構成された構造化文書検索式生成システム100によれば、まず、検索式生成ブラウザ200の例文収集部203は、不図示の外部接続サーバから、HTML文書からなる複数の例文を取得し、ネットワーク経由で検索式生成サーバ300の例文蓄積部303に蓄積する。このとき、例文蓄積部303は、例文収集部203による制御の下、取得されたHTML文書の種類ごとに蓄積する。
続いて、検索式生成ブラウザ200の要素指定部201は、複数の例文における検索対象要素を指定し、これを画面解析部202及び、検索式生成サーバ300の構造解析部301に引き渡す。
検索対象要素を受け取った画面解析部202は、構造化文書の表示イメージを解析し、検索対象要素と上下もしくは左右方向に重複する要素を列挙し、位置情報条件の候補として検索式生成サーバ300の検索式合成部302に引き渡す。
一方、検索対象要素を受け取った構造解析部301は、検索対象の構造上の位置を示す検索式を生成し、検索式合成部302に引き渡す。
位置情報条件の候補及び構造上の位置を示す検索式を受け取った、検索式合成部302は、図3のフローチャートに従い、条件として追加する候補を決定し、構造上の位置を示す検索式に位置情報条件を追加した、検索式を合成し、検索式蓄積部304に蓄積する。
本実施の形態では、構造上の位置を示す検索式を生成し、さらに複数の例文について表示イメージを解析し、画面上で対象要素に対して共通の相対位置に存在する要素を目安の要素として条件に追加するように構成されているため、構造上の関連する位置に目安となる要素が存在しないが、表示画面上には目安となる要素が存在する場合に、構造上の位置を特定したうえで、目安とすべき要素を自動的に選択し検索式に記述できる検索式生成システムを提供できる。
(第3の実施の形態)
次に、本発明の第3の実施の形態について、図14を参照して詳細に説明する。
図14は、本実施の形態による構造化文書検索システム1400の構成を示すブロック図である。図1に示す第1の実施の形態では検索式生成システム10であったのに対し、本実施の形態では、検索式生成システム10と同じ構成に加え、さらに検索プログラム123を記憶装置12に含み、制御装置15、入出力装置16、通信装置17を含み、制御装置15は、検索プログラム123を逐次読み込むことによって、画面検索部151、構造検索部152、統合検索部153を有する。
画面検索部151は、構造化文書を解析して表示画面イメージを作成し、検索式の条件に指定された位置に目安要素が存在することを確認する機能を有する。
構造検索部152は、構造化文書を解析して、構造上の位置情報を示した検索式に従って要素を検索する機能を有する。
統合検索部153は、構造化文書を読み込み、検索式蓄積部122から検索式を読み込み、前記検索式から構造上の位置情報を示した検索式を抽出し構造検索部152に渡し、前記検索式から画面上の目安要素を示した条件を抽出し画面検索部151に渡し、構造検索部152及び画面検索部151の結果に従い検索対象要素を出力する機能を有する。
このように構成された構造化文書検索システム1400は、次のように動作する。
すなわち、検索式を生成する段階においては、検索式生成装置10と同様に動作し、さらに、検索段階においては、統合検索部153は、通信装置17を介して構造化文書を読み込み、検索式蓄積部122から検索式を読み込み、構造検索部152を用いて検索式に記述された構造上の位置情報を検索し、画面検索部151を用いて検索式に記述された画面上の位置情報示す条件が満たされているか否かを確認し、条件が満たされた場合に該要素を検索対象要素として入出力部16を介して出力する。
本実施の形態では、構造上の検索式に加えて、複数の例文において画面上で共通の位置に存在する要素を条件として検索式に追加し、検索時に指定された要素が存在することを確認するように構成されているため、構造上は目安となる要素が存在しない場合でも、構造上の位置を特定したうえで目的の要素を確実に検索する構造化文書検索システムを提供できる。
なお、上記の構造化文書検索式生成システム及び構造化文書検索システムは、ハードウェアによって実現することもできるが、コンピュータをこれらのシステムとして機能させるためのプログラムを、コンピュータが記録媒体から読み出して、実行することによっても実現することができる。
また、上記の構造化文書検索式生成方法及び構造化文書検索方法は、ハードウェアによって実現することもできるが、コンピュータにこれらの方法を実行させるためのプログラムを、コンピュータがコンピュータ読み取り可能な記録媒体から読み出して、実行することによっても実現することができる。
また、上述したハードウェア、ソフトウェア構成は特に限定されるものではなく、上述した各構成要素の機能を実現可能であれば、いずれのものでも適用可能である。例えば、上述した各構成要素の機能毎に部品(ソフトウェアモジュール)等を独立させて個別に構成したものでも、複数の機能を1つの部品等に組み入れて一体的に構成したものでも、いずれでもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
(付記1)検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積する例文蓄積部と、前記複数の例文における検索対象要素が指定される要素指定部と、前記要素指定部により指定された前記例文の構造を解析し、前記例文の構造上において前記指定された検索対象要素の構造上の位置を示す検索式を生成する処理を実行する構造解析部と、前記要素指定部により指定された前記例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行する画面解析部と、前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行する検索式合成部とを備えたことを特徴とする構造化文書検索式生成装置。
(付記2)前記画面解析部は、複数の例文において順次、前記指定された検索対象要素の相対位置に存在する要素を目安要素候補として列挙し、最初の例文については、すべての前記目安要素候補を画面上目安要素として決定し、前記目安要素を示す検索式を条件として記述し、二番目以降の例文については、各目安要素候補について、既に記述された条件により目安要素候補が選択されない場合は、既に記述された条件のうち、最もよく一致する条件を、前記目安要素候補を選択するように緩和し、前記緩和した条件により前記各例文において一つの要素のみを検索するかを確認し、一つの要素のみを検索する場合には前記緩和した条件を前記既に記述された条件と置き換えることを特徴とする付記1記載の構造化文書検索式生成装置。
(付記3)前記画面解析部は、前記例文の表示イメージ上における検索対象要素に対して上下左右に重複する要素を目安要素候補として列挙することを特徴とする付記2記載の構造化文書検索式生成装置。
(付記4)前記画面解析部は、前記例文の表示イメージ上における検索対象要素に近い方から、あらかじめ定めた個数のみ要素を列挙することを特徴とする付記3記載の構造化文書検索式生成装置。
(付記5)前記構造化文書は、HTMLにより記述されることを特徴とする付記1記載の構造化文書検索式生成装置。
(付記6)前記構造上の位置を示す検索式は、XPath式により記述し、前記画面上目安要素は、前記例文の表示イメージ上における検索対象要素との相対位置を示す記号と、前記例文の構造上の位置を示すXPath式とにより記述されることを特徴とする付記1記載の構造化文書検索式生成装置。
(付記7)前記画面上目安要素は、前記構造上の位置を示すXPath式の述部に記述されることを特徴とする付記6記載の構造化文書検索式生成装置。
(付記8)検索対象となる構造化文書で構成される複数の例文における検索対象要素をそれぞれ指定する要素指定部と、ネットワークを介して前記例文を収集し、前記例文の文書種類毎に蓄積する例文収集部と、前記例文を解析し、前記要素指定部が指定した要素と相対位置に存在する要素を列挙する画面解析部とを備え、ネットワークを介して前記例文と、前記指定された要素と、前記列挙した要素とをそれぞれ送信することを特徴とした構造化文書検索式生成ブラウザ。
(付記9)検索対象となる構造化文書で構成される複数の例文を蓄積する例文蓄積部と、前記例文の構造を解析し、前記例文において指定された要素の構造上の位置を示す検索式を生成する構造解析部と、前記例文における前記指定された要素の構造上の位置を示す検索式と、指定された要素と相対位置に存在する要素を受け取り、受け取った要素のうち複数の例文において共通の位置に存在する要素を、前記構造上の位置を示す検索式に追加する検索式合成部とを備え、ネットワークを介して、前記指定された要素と、前記指定された要素と相対位置に存在する要素を受け取ることを特徴とした構造化文書検索式生成サーバ。
(付記10)検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積する例文蓄積部と、前記複数の例文における検索対象要素が指定される要素指定部と、前記要素指定部により指定された例文の構造を解析し、前記指定された要素の構造上の位置を示す検索式を生成する処理を実行する構造解析部と、前記要素指定部により指定された例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行する画面解析部と、前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行する検索式合成部と、構造化文書と、構造上の位置情報を示す検索式を読み込み、検索対象要素を検索する構造検索部と、前記構造化文書と、前記検索対象要素と、前記画面上目安要素を示す条件を読み込み、構造化文書の画面イメージを作成し、画面上目安要素を示す条件が合致するかを確認する画面検索部と、構造化文書と前記検索式を読み込み、検索式のうち構造上の位置を示す検索式を抽出し、前記構造検索部に渡し、検索式のうち画面上目安要素を示す条件を抽出し、前記画面検索部に渡し、すべての条件が合致する要素を検索対象要素として出力する統合検索部とを備えたことを特徴とする構造化文書検索装置。
(付記11)例文蓄積部に、検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積し、要素指定部が、前記複数の例文における検索対象要素を指定し、構造解析部が、前記要素指定部により指定された前記例文の構造を解析し、前記例文の構造上において前記指定された要素の構造上の位置を示す検索式を生成する処理を実行し、画面解析部が、前記要素指定部により指定された前記例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行し、検索式合成部が、前記構造解析部により生成された検索式に、前記画面解析部により決定された画面上目安要素を条件として追加したものを生成することを特徴とする構造化文書検索式生成方法。
(付記12)例文蓄積部に、検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積し、要素指定部が、前記複数の例文における検索対象要素を指定し、構造解析部が、前記要素指定部により指定された例文の構造を解析し、前記指定された要素の構造上の位置を示す検索式を生成する処理を実行し、画面解析部が、前記要素指定部により指定された例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行し、検索式合成部が、前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行し、構造検索部が、構造化文書と、構造上の位置情報を示す検索式を読み込み、検索対象要素を検索し、画面検索部が、前記構造化文書と、前記検索対象要素と、前記画面上目安要素を示す条件を読み込み、構造化文書の画面イメージを作成し、画面上目安要素を示す条件が合致するかを確認し、統合検索部が、構造化文書と前記検索式を読み込み、検索式のうち構造上の位置を示す検索式を抽出し、前記構造検索部に渡し、検索式のうち画面上目安要素を示す条件を抽出し、前記画面検索部に渡し、すべての条件が合致する要素を検索対象要素として出力することを特徴とする構造化文書検索方法。
(付記13)検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積する例文蓄積部と、前記複数の例文における検索対象要素が指定される要素指定部と、前記要素指定部により指定された前記例文の構造を解析し、前記例文の構造上において前記指定された検索対象要素の構造上の位置を示す検索式を生成する処理を実行する構造解析部と、前記要素指定部により指定された前記例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行する画面解析部と、前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行する検索式合成部としてコンピュータを機能させるための構造化文書検索式生成プログラム。
(付記14)検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積する例文蓄積部と、前記複数の例文における検索対象要素が指定される要素指定部と、前記要素指定部により指定された例文の構造を解析し、前記指定された要素の構造上の位置を示す検索式を生成する処理を実行する構造解析部と、前記要素指定部により指定された例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行する画面解析部と、前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行する検索式合成部と、構造化文書と、構造上の位置情報を示す検索式を読み込み、検索対象要素を検索する構造検索部と、前記構造化文書と、前記検索対象要素と、前記画面上目安要素を示す条件を読み込み、構造化文書の画面イメージを作成し、画面上目安要素を示す条件が合致するかを確認する画面検索部と、構造化文書と前記検索式を読み込み、検索式のうち構造上の位置を示す検索式を抽出し、前記構造検索部に渡し、検索式のうち画面上目安要素を示す条件を抽出し、前記画面検索部に渡し、すべての条件が合致する要素を検索対象要素として出力する統合検索部としてコンピュータを機能させるための構造化文書検索プログラム。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2009年8月26日に出願された日本出願特願2009−195449号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明によれば、Webページを自動で操作するWebページテストツールといった用途にも適用できる。また、本発明は、Webページから情報を抽出するといった用途にも適用可能である。
10、100 検索式生成システム
11 制御装置
12 記憶装置
13 入出力装置
14 通信装置
111 例文収集部
112 要素指定部
113 画面解析部
114 構造解析部
115 検索式合成部
120 検索式生成プログラム
121 例文蓄積部
122 検索式蓄積部
123 検索プログラム
151 画面検索部
152 構造検索部
153 統合検索部
200 検索式生成ブラウザ
300 検索式生成サーバ
400、700 表示イメージ
401、705 検索対象要素
402、403、404、706、707 要素
500、800 目安要素の候補を示す条件
600、900 構造上位置情報
1000 検索式
1200、1300 例文
1400 構造化文書検索システム

Claims (14)

  1. 検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積する例文蓄積部と、
    前記複数の例文における検索対象要素が指定される要素指定部と、
    前記要素指定部により指定された前記例文の構造を解析し、前記例文の構造上において前記指定された検索対象要素の構造上の位置を示す検索式を生成する処理を実行する構造解析部と、
    前記要素指定部により指定された前記例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行する画面解析部と、
    前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行する検索式合成部とを備えたことを特徴とする構造化文書検索式生成装置。
  2. 前記画面解析部は、複数の例文において順次、前記指定された検索対象要素の相対位置に存在する要素を目安要素候補として列挙し、最初の例文については、すべての前記目安要素候補を画面上目安要素として決定し、前記目安要素を示す検索式を条件として記述し、二番目以降の例文については、各目安要素候補について、既に記述された条件により目安要素候補が選択されない場合は、既に記述された条件のうち、最もよく一致する条件を、前記目安要素候補を選択するように緩和し、前記緩和した条件により前記各例文において一つの要素のみを検索するかを確認し、一つの要素のみを検索する場合には前記緩和した条件を前記既に記述された条件と置き換えることを特徴とする請求項1記載の構造化文書検索式生成装置。
  3. 前記画面解析部は、前記例文の表示イメージ上における検索対象要素に対して上下左右に重複する要素を目安要素候補として列挙することを特徴とする請求項2記載の構造化文書検索式生成装置。
  4. 前記画面解析部は、前記例文の表示イメージ上における検索対象要素に近い方から、あらかじめ定めた個数のみ要素を列挙することを特徴とする請求項3記載の構造化文書検索式生成装置。
  5. 前記構造化文書は、HTMLにより記述されることを特徴とする請求項1記載の構造化文書検索式生成装置。
  6. 前記構造上の位置を示す検索式は、XPath式により記述し、
    前記画面上目安要素は、前記例文の表示イメージ上における検索対象要素との相対位置を示す記号と、前記例文の構造上の位置を示すXPath式とにより記述されることを特徴とする請求項1記載の構造化文書検索式生成装置。
  7. 前記画面上目安要素は、前記構造上の位置を示すXPath式の述部に記述されることを特徴とする請求項6記載の構造化文書検索式生成装置。
  8. 検索対象となる構造化文書で構成される複数の例文における検索対象要素をそれぞれ指定する要素指定部と、
    ネットワークを介して前記例文を収集し、前記例文の文書種類毎に蓄積する例文収集部と、
    前記例文を解析し、前記要素指定部が指定した要素と相対位置に存在する要素を列挙する画面解析部とを備え、
    ネットワークを介して前記例文と、前記指定された要素と、前記列挙した要素とをそれぞれ送信することを特徴とした構造化文書検索式生成ブラウザ。
  9. 検索対象となる構造化文書で構成される複数の例文を蓄積する例文蓄積部と、
    前記例文の構造を解析し、前記例文において指定された要素の構造上の位置を示す検索式を生成する構造解析部と、
    前記例文における前記指定された要素の構造上の位置を示す検索式と、指定された要素と相対位置に存在する要素を受け取り、受け取った要素のうち複数の例文において共通の位置に存在する要素を、前記構造上の位置を示す検索式に追加する検索式合成部とを備え、
    ネットワークを介して、前記指定された要素と、前記指定された要素と相対位置に存在する要素を受け取ることを特徴とした構造化文書検索式生成サーバ。
  10. 検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積する例文蓄積部と、
    前記複数の例文における検索対象要素が指定される要素指定部と、
    前記要素指定部により指定された例文の構造を解析し、前記指定された要素の構造上の位置を示す検索式を生成する処理を実行する構造解析部と、
    前記要素指定部により指定された例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行する画面解析部と、
    前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行する検索式合成部と、
    構造化文書と、構造上の位置情報を示す検索式を読み込み、検索対象要素を検索する構造検索部と、
    前記構造化文書と、前記検索対象要素と、前記画面上目安要素を示す条件を読み込み、構造化文書の画面イメージを作成し、画面上目安要素を示す条件が合致するかを確認する画面検索部と、
    構造化文書と前記検索式を読み込み、検索式のうち構造上の位置を示す検索式を抽出し、前記構造検索部に渡し、検索式のうち画面上目安要素を示す条件を抽出し、前記画面検索部に渡し、すべての条件が合致する要素を検索対象要素として出力する統合検索部とを備えたことを特徴とする構造化文書検索装置。
  11. 例文蓄積部に、検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積し、
    要素指定部が、前記複数の例文における検索対象要素を指定し、
    構造解析部が、前記要素指定部により指定された前記例文の構造を解析し、前記例文の構造上において前記指定された要素の構造上の位置を示す検索式を生成する処理を実行し、
    画面解析部が、前記要素指定部により指定された前記例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行し、
    検索式合成部が、前記構造解析部により生成された検索式に、前記画面解析部により決定された画面上目安要素を条件として追加したものを生成することを特徴とする構造化文書検索式生成方法。
  12. 例文蓄積部に、検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積し、
    要素指定部が、前記複数の例文における検索対象要素を指定し、
    構造解析部が、前記要素指定部により指定された例文の構造を解析し、前記指定された要素の構造上の位置を示す検索式を生成する処理を実行し、
    画面解析部が、前記要素指定部により指定された例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行し、
    検索式合成部が、前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行し、
    構造検索部が、構造化文書と、構造上の位置情報を示す検索式を読み込み、検索対象要素を検索し、
    画面検索部が、前記構造化文書と、前記検索対象要素と、前記画面上目安要素を示す条件を読み込み、構造化文書の画面イメージを作成し、画面上目安要素を示す条件が合致するかを確認し、
    統合検索部が、構造化文書と前記検索式を読み込み、検索式のうち構造上の位置を示す検索式を抽出し、前記構造検索部に渡し、検索式のうち画面上目安要素を示す条件を抽出し、前記画面検索部に渡し、すべての条件が合致する要素を検索対象要素として出力することを特徴とする構造化文書検索方法。
  13. 検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積する例文蓄積部と、
    前記複数の例文における検索対象要素が指定される要素指定部と、
    前記要素指定部により指定された前記例文の構造を解析し、前記例文の構造上において前記指定された検索対象要素の構造上の位置を示す検索式を生成する処理を実行する構造解析部と、
    前記要素指定部により指定された前記例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行する画面解析部と、
    前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行する検索式合成部としてコンピュータを機能させるための構造化文書検索式生成プログラム。
  14. 検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積する例文蓄積部と、
    前記複数の例文における検索対象要素が指定される要素指定部と、
    前記要素指定部により指定された例文の構造を解析し、前記指定された要素の構造上の位置を示す検索式を生成する処理を実行する構造解析部と、
    前記要素指定部により指定された例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行する画面解析部と、
    前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行する検索式合成部と、
    構造化文書と、構造上の位置情報を示す検索式を読み込み、検索対象要素を検索する構造検索部と、
    前記構造化文書と、前記検索対象要素と、前記画面上目安要素を示す条件を読み込み、構造化文書の画面イメージを作成し、画面上目安要素を示す条件が合致するかを確認する画面検索部と、
    構造化文書と前記検索式を読み込み、検索式のうち構造上の位置を示す検索式を抽出し、前記構造検索部に渡し、検索式のうち画面上目安要素を示す条件を抽出し、前記画面検索部に渡し、すべての条件が合致する要素を検索対象要素として出力する統合検索部としてコンピュータを機能させるための構造化文書検索プログラム。
JP2011528762A 2009-08-26 2010-08-20 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム Withdrawn JPWO2011024716A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009195449 2009-08-26
JP2009195449 2009-08-26
PCT/JP2010/064068 WO2011024716A1 (ja) 2009-08-26 2010-08-20 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム

Publications (1)

Publication Number Publication Date
JPWO2011024716A1 true JPWO2011024716A1 (ja) 2013-01-31

Family

ID=43627822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011528762A Withdrawn JPWO2011024716A1 (ja) 2009-08-26 2010-08-20 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム

Country Status (3)

Country Link
US (1) US20120259878A1 (ja)
JP (1) JPWO2011024716A1 (ja)
WO (1) WO2011024716A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120101721A1 (en) * 2010-10-21 2012-04-26 Telenav, Inc. Navigation system with xpath repetition based field alignment mechanism and method of operation thereof
US11188526B2 (en) * 2016-04-12 2021-11-30 Koninklijke Philips N.V. Database query creation
JP7283547B2 (ja) * 2019-08-01 2023-05-30 日本電信電話株式会社 構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5628008A (en) * 1994-06-15 1997-05-06 Fuji Xerox Co., Ltd. Structured document search formula generation assisting system
JP2000029902A (ja) * 1998-07-15 2000-01-28 Nec Corp 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体
JP2003303091A (ja) * 2002-04-11 2003-10-24 Canon Inc 画像通信装置及び画像通信方法
JP2005301437A (ja) * 2004-04-07 2005-10-27 Hitachi Ins Software Ltd 適応型ウエブページデータ抽出装置および抽出プログラム
JP4909859B2 (ja) * 2007-09-28 2012-04-04 株式会社日立ハイテクノロジーズ 検査装置及び検査方法
US20100228738A1 (en) * 2009-03-04 2010-09-09 Mehta Rupesh R Adaptive document sampling for information extraction
JP2010250658A (ja) * 2009-04-17 2010-11-04 Seiko Epson Corp 印刷装置、画像処理装置、画像処理方法およびコンピュータープログラム

Also Published As

Publication number Publication date
US20120259878A1 (en) 2012-10-11
WO2011024716A1 (ja) 2011-03-03

Similar Documents

Publication Publication Date Title
US9471670B2 (en) NLP-based content recommender
US9904936B2 (en) Method and apparatus for identifying elements of a webpage in different viewports of sizes
US20060173682A1 (en) Information retrieval system, method, and program
US20120005573A1 (en) Automatically adjusting a webpage
JP5793601B2 (ja) 自動スクロール実行システムおよび方法
US20090204602A1 (en) Apparatus and methods for presenting linking abstracts for search results
JP2012511208A (ja) 提案した絞込みタームおよび垂直検索に対する検索結果のプレビュー
US20150227276A1 (en) Method and system for providing an interactive user guide on a webpage
KR101950126B1 (ko) 수학공식 처리방법, 장치, 설비 및 컴퓨터 저장 매체
JP4771915B2 (ja) Htmlテキストを変換する装置、方法、およびプログラム
JP5185402B2 (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
WO2011024716A1 (ja) 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム
CN105808623B (zh) 一种基于搜索的页面访问事件关联方法和装置
US20120254233A1 (en) Information processing system, information processor, and computer program product
US20120260161A1 (en) Method for classifying and organizing content in related web pages and freely reconstructing and displaying the content
JP5805151B2 (ja) 検索装置、検索システムおよびプログラム
JP2006331348A (ja) トラックバック元のコメント・トラックバックの集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP5263635B2 (ja) 検索式生成システム
JP2007034464A (ja) 広告コンテンツ提示システム、広告コンテンツ提示プログラム
JP2007188427A (ja) 話題画像選出方法及び装置及プログラム
Kaddu et al. To extract informative content from online web pages by using hybrid approach
KR20210098813A (ko) 텍스트 데이터 수집과 분석 장치 및 방법
JP4207992B2 (ja) 構造化文書処理システム及び構造化文書処理方法
JP2011221641A (ja) ウェブページ変換表示システム、ウェブページ変換表示方法、およびウェブページ変換表示プログラム
US10922476B1 (en) Resource-efficient generation of visual layout information associated with network-accessible documents

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20131105