WO2012147840A1

WO2012147840A1 - データベース構築装置、商標侵害検知装置、データベース構築方法、および商標侵害検知方法

Info

Publication number: WO2012147840A1
Application number: PCT/JP2012/061187
Authority: WO
Inventors: 谷川　英和; 光増満; 俊規渡辺
Original assignee: 有限会社アイ・アール・ディー
Priority date: 2011-04-28
Filing date: 2012-04-26
Publication date: 2012-11-01
Also published as: JP5312637B2; JP2013191243A; JP2013152692A; JP6095222B2

Abstract

　属性の異なるｍ個（ｍ≧３）の属性値を有する１以上のレコードを有する第一の表と、属性の異なるｎ個（ｎ≦ｍ－１）の属性値を有する１以上のレコードを有する２以上の第二の表と格納される表格納部と、Ｗｅｂページからｎ個の属性値を有する１以上のレコードを取得するためのルールが格納されるルール格納部と、ルールに従いＷｅｂページからｎ個の属性値を有する１以上のレコードを取得し、第二の表に追記する取得部と、２以上の第二の表が有する２以上のレコードを結合し、ｍ個の属性値を有するレコードを生成し、第一の表に追記する結合部とを具備するデータベース構築装置により、従来の専門用語抽出装置における、関連性のある２以上の専門用語を抽出したり、専門用語以外の情報を抽出したりすることができないという課題を解決し、Ｗｅｂ上のあらゆる情報をデータベース化することができる。

Description

データベース構築装置、商標侵害検知装置、データベース構築方法、および商標侵害検知方法

　本発明は、データベースを構築するデータベース構築装置等に関するものである。

　従来、Ｗｅｂページから専門用語を抽出する専門用語抽出装置等が開発されている（特許文献１参照）。

特開２００８－２５７５１１号公報

　Ｗｅｂ上には、膨大な量のあらゆる情報が存在している。しかしながら、当該情報は構造化されておらず、また、必要な情報が分散した状態で存在しているのが通常である。従来の専門用語抽出装置では、分散した情報を構造化して、データベースを構築することができなかった。

　本第一の発明のデータベース構築装置は、属性の異なるｍ個（ｍ≧３）の属性値を有する１以上のレコードを有する第一の表と、属性の異なるｎ個（ｎ≦ｍ－１）の属性値を有する１以上のレコードを有する２以上の第二の表とが格納される表格納部と、１以上のＷｅｂページからｎ個の属性値を有する１以上のレコードを取得するための１以上のルールが、第二の表に対応付いて格納されるルール格納部と、ルールに従い、１以上のＷｅｂページからｎ個の属性値を有する１以上のレコードを取得し、第二の表に追記する取得部と、２以上の第二の表が有する２以上のレコードを結合し、ｍ個の属性値を有する１以上のレコードを生成し、第一の表に追記する結合部とを具備するデータベース構築装置である。

　このような構成により、１以上のＷｅｂページから構造化されたデータベースを構築できる。

　本発明によるデータベース構築装置等によれば、１以上のＷｅｂページから構造化されたデータベースを構築できる。

実施の形態１における商標侵害検知装置のブロック図同実施の形態における商標侵害検知装置の商標類否判断部のブロック図同実施の形態における商標侵害検知装置の動作の一例を示すフローチャート同実施の形体における商標侵害検知装置の表示例を示す図実施の形態２における商標侵害検知装置のブロック図実施の形態３におけるデータベース構築装置５のブロック図同実施の形態におけるデータベース構築装置５の全体動作について説明するフローチャート同レコードの取得処理について説明するフローチャート同レコードの生成処理について説明するフローチャート同ルールの取得処理について説明するフローチャート同ルールの例を示す図同Ｗｅｂページの例を示す図同Ｗｅｂページの例を示す図同第一の表および第二の表の例を示す図同第一の表および第二の表の例を示す図同第一の表および第二の表の例を示す図同第二の表の例を示す図同第二の表の例を示す図同第二の表の例を示す図同第二の表の例を示す図同第二の表の例を示す図同実施の形態における同コンピュータシステムの外観の一例を示す図同実施の形態における同コンピュータシステムの構成の一例を示す図

　以下、データベース構築装置などの実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

　（実施の形態１）
　図１は、本実施の形態における商標侵害検知装置３のブロック図である。商標侵害検知装置３は、データベース３１、受付部３２、商標類否判断部３３、商品類否判断部３４、出力部３５を備える。

　データベース３１は、例えば、データベース構築装置５が構築したデータベースである。データベース３１は、「会社名」「商品名」「固有名称」を有する２以上のレコードを保持している表である。なお、商品名は、通常、役務名も含む。なお、「固有名称」は、読みを特定する称呼であることは好適である。また、データベース３１は、商品名に対応する類似群コードを保持していることは好適である。

　受付部３２は、商標と、商品の類似群コードを特定するコード特定情報とを有する調査対象商標情報を受け付ける。調査対象商標情報は、例えば、商標の文字列である商標文字列と、１以上のコード特定情報の組である。コード特定情報は、類似群コードでも良い。ここでの受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線または無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。

　商標類否判断部３３は、データベース３１が有する１以上の商品の固有名称と、調査対象商標情報が有する商標との類否判断を行う。かかる類否判断の処理は、商標の類否判断の処理と同様である。商標の類否判断の処理は、公知の方法でも良い。

　図２は、本実施の形態における商標侵害検知装置３の商標類否判断部３３のブロック図である。商標類否判断部３３は、商標文字列取得部３３１、称呼取得部３３２、称呼表示部３３３、称呼指定受付部３３４、類似検索部３３５、商標類否判断結果取得部３３６を備える。

　商標文字列取得部３３１は、受付部３２が受け付けた商標を取得する。商標を構成する文字は、漢字やアルファベットやカタカナやひらがななど、種類は問わない。

　称呼取得部３３２は、商標文字列取得部３３１が受け付けた商標から、この商標の称呼の情報である１以上の称呼情報を取得する。称呼取得部３３２は、一の商標の文字列から複数の称呼情報を取得しても良い。称呼取得部３３２が取得する称呼情報は、ひらがなまたはカタカナまたはこれらと同などの情報である。称呼情報がこれらのいずれであるかは、例えば、この称呼情報を検索に利用する後述する類似検索部３３５の仕様などによって決定される。

　称呼取得部３３２は、称呼情報をどのように取得しても良い。例えば、称呼取得部３３２は、１以上の文字列と、当該文字列の読みの情報とを対応付けて有する辞書を用いて、図示しない記憶媒体などに格納されている辞書を用いて商標文字列取得部３３１が取得した商標に対応する１以上の称呼情報を自動取得するようにしてもよい。また、ユーザなどから図示しない入力デバイスなどを介して入力された商標に対応する１以上の称呼情報を取得してもよい。この実施の形態においては、特に、称呼情報を自動取得する場合を例に挙げて説明する。

　称呼取得部３３２は、例えば、商標の文字列に対して形態素解析を行い、形態素解析により得られた商標の読みの情報を称呼情報として取得する。例えば、形態素解析を用いることにより、商標を形態素に分解し、分解された各文字列の読みを取得し、この文字列を組み合わせることで商標の称呼情報を取得することが可能である。形態素解析の技術は公知技術である。

　また、称呼取得部３３２は、商標を構成する漢字や、数字や、アルファベットなどの文字や単語などを読みに変換して、称呼情報を取得しても良い。漢字や、数字の文字や単語を読みに変換する処理は、例えば、日本語のインプットメソッドのいわゆる再変換技術や、上述したような形態素解析システムの技術により実現可能である。また、アルファベットの文字や単語を読みに変換する処理は、例えば、日本語のインプットメソッドのアルファベット列の入力を日本語に変換する技術により実現可能である。なお、アルファベットや、漢字や、数字の称呼（読み）は、一通りとは限らないため、称呼取得部３３２は、様々な組合せの複数の情報を取得しても良い。例えば「ＩＴ」から「アイティー」、「アイティイ」と「イット」という複数の称呼を取得しても良い。

　称呼取得部３３２は、さらに、取得した１以上の称呼情報を分割して１以上の分割称呼情報を取得してもよい。分割称呼情報は、具体的には、称呼情報の一部分の情報である。分割称呼情報は、例えば、後述する類似検索などで称呼情報と実質的に同じものとして利用される。例えば、称呼取得部３３２は、取得した称呼情報のそれぞれの文字列を、任意の位置で区切って、その区切った位置によって分割される前または後、またはその両方の文字列を分割称呼情報として取得する。また、称呼取得部３３２は、文字列の区切る位置を順次変更して、それぞれの区切る位置に応じて分割称呼情報を取得しても良い。例えば、称呼取得部３３２は、各称呼情報を構成する文字列をそれぞれの文字間で区切っていった場合にそれぞれ得られる区切り位置の前後の文字列を、すべて分割称呼情報として取得しても良い。

　称呼表示部３３３は、称呼取得部３３２が取得した１以上の称呼情報を図示しないモニタなどの表示デバイスに表示する。また、称呼表示部３３３は、称呼取得部３３２が取得した１以上の分割称呼情報を表示してもよい。称呼表示部３３３は、表示デバイスを含むと考えても含まないと考えてもよい。称呼表示部３３３は、表示デバイスのドライバーソフト、または表示デバイスのドライバーソフトと表示デバイスなどで実現され得る。

　称呼指定受付部３３４は、称呼取得部３３２が取得した称呼情報の１以上を指定する称呼指定情報を受け付ける。また、称呼指定受付部３３４は、称呼取得部３３２が取得した称呼情報と分割称呼情報とのうちの１以上を指定する称呼指定情報を受け付けてもよい。例えば、称呼指定受付部３３４は、称呼表示部３３３により表示された称呼情報と分割称呼情報とのうちの１以上を指定する称呼指定情報を受け付ける。称呼指定情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるものなど、何でも良い。

　類似検索部３３５は、称呼取得部３３２が取得した１以上の各称呼情報を用いて、データベース３１を検索し、１以上の各称呼情報と類似する１以上の固有名称を取得する。かかる処理を類似検索という。類似検索部３３５は、称呼取得部３３２が取得した称呼情報のうちの、称呼指定情報が指定する各称呼情報を用いて類似検索を行うようにしてもよい。また、類似検索部３３５は、称呼取得部３３２が取得した各称呼情報と各分割称呼情報とを用いて類似検索を行うようにしてもよい。なお、２つの称呼が類似するか否かを判断する処理は、既存の商標検索システムが行っている処理であり、公知技術である。

　商標類否判断結果取得部３３６は、例えば、類似検索部３３５が類似すると判断した固有名称を有するレコードを、データベース３１から取得する。

　商品類否判断部３４は、データベース３１が有する１以上の商品名または１以上の類似群コードと、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う。商品類否判断部３４は、データベース３１が有する類似群コードと調査対象商標情報が有するコード特定情報とが一致する場合に、商品が類似である、と判断する。また、商品類否判断部３４は、データベース３１が有する商品名をキーとして、図示しないデータベースを検索し、類似群コードを取得する。そして、商品類否判断部３４は、当該類似群コードと調査対象商標情報が有するコード特定情報とが一致する場合に、商品が類似である、と判断する。なお、データベースは、類似群コードと１以上の商品名が対応付いている。

　出力部３５は、商標類否判断部３３の判断結果と、商品類否判断部３４の判断結果とから、商標の類似、および商品の類似に関する情報を出力する。

　また、出力部３５は、商標類否判断部３３の判断結果すべてと、商品類否判断部３４の判断結果をすべて出力しても良く、どちらか一方であっても良い。

　出力とは、ディスプレイへの表示、プリンタによる紙などへの印字、外部の装置への送信、記録媒体への蓄積などを含む概念である。出力部３５は、表示デバイスを含むと考えても含まないと考えてもよい。出力部３５は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイスなどで実現され得る。

　図３は、本実施の形態にかかる商標侵害検知装置３の動作の一例を示すフローチャートである。以下、図３を用いて動作について説明する。

　（ステップＳ１００１）受付部３２は、調査対象商標情報、具体的には商標文字列と商品名、または類似群コードとを受け付けたか否かを判断する。受け付けた場合、ステップＳ１００２に進み、受け付けていない場合、ステップＳ１００１に戻る。

　（ステップＳ１００２）商標文字列取得部３３１は、調査対象商標情報から商標文字列を取得する。取得できた場合は、ステップＳ１００３に進み、取得できなかった場合はステップＳ１０１７へ進む。

　（ステップＳ１００３）称呼取得部３３２は、ステップＳ１００２で取得した商標文字列を用いて、１以上の称呼情報を取得する。

　（ステップＳ１００４）称呼取得部３３２は、カウンタｍに１を代入する。

　（ステップＳ１００５）称呼取得部３３２は、ステップＳ１００３で取得した称呼情報にｍ番目の称呼情報があるか否かを判断する。ある場合、ステップＳ１００６に進み、ない場合、ステップＳ１０１１に進む。

　（ステップＳ１００６）称呼取得部３３２は、カウンタｎに１を代入する。

　（ステップＳ１００７）称呼取得部３３２は、ｍ番目の称呼情報にｎ番目の区切位置があるか否かを判断する。ｎ番目の区切位置がある場合、ステップＳ１００８に進み、ない場合、ステップＳ１０１０に進む。なお、称呼情報のうちの、商標文字列を構成する各文字の読みの間や、商標文字列を構成する形態素の読みの間を、区切り位置に設定して称呼情報を分割していくようにしても良い。

　（ステップＳ１００８）称呼取得部３３２は、ｎ番目の区切位置でｍ番目の称呼情報を区切って、その前後の文字列である分割称呼情報を取得する。

　（ステップＳ１００９）称呼取得部３３２は、カウンタｎを１インクリメントする。そして、ステップＳ１００７に戻る。

　（ステップＳ１０１０）称呼取得部３３２は、カウンタｍを１インクリメントする。そして、ステップＳ１００５に戻る。

　（ステップＳ１０１１）称呼表示部３３３は、ステップＳ１００３で取得した称呼情報と、ステップＳ１００８で取得した分割称呼情報を表示する。なお、ユーザに選択させず、特定のルールで呼称指定を選択する場合は、本ステップの表示、およびステップＳ１０１２の受付をスキップしても良い。

　（ステップＳ１０１２）称呼指定受付部３３４は、称呼指定情報または分割称呼指定情報の少なくとも一方を指定する称呼指定情報を受け付けたか否かを判断する。受け付けた場合、例えば、称呼指定情報で指定された称呼情報と割称呼情報とをメモリなどの記憶媒体に一時記憶して、ステップＳ２１２に進み、受け付けていない場合、ステップＳ１０１２に戻る。

　（ステップＳ１０１３）類似検索部３３５は、カウンタｋに１を代入する。

　（ステップＳ１０１４）類似検索部３３５は、ステップＳ１０１２で受け付けた称呼指定情報によって指定された称呼情報と分割称呼情報とを合わせた中に、ｋ番目の称呼情報または分割称呼情報があるか否かを判断する。ある場合、ステップＳ１０１５に進み、ない場合、ステップＳ１０１７に進む。

　（ステップＳ１０１５）類似検索部３３５は、ｋ番目の称呼情報または分割称呼情報を用いて、データベース３１を検索し、類似検索を行う。そして、類似検索部３３５は、類似検索の結果を、図示しない記憶媒体などに蓄積する。類似検索の結果は、例えば、類似検索に用いられたｋ番目の称呼情報と、類似すると判断された称呼と、その称呼に対応付けられた会社名、および商品の固有名称とを含む情報である。

　（ステップＳ１０１６）類似検索部３３５は、カウンタｋを１インクリメントする。そして、ステップＳ１０１４に戻る。

　（ステップＳ１０１７）商品類否判断部３４は、データベース３１からステップＳ１００１で取得した調査対象商標情報の商品名または類似群コードをキーにして、商品の類否判断を行い、判断結果を、図示しない記憶媒体に蓄積する。

　（ステップＳ１０１８）ステップＳ１０１５で蓄積した類似検索結果と、ステップＳ１０１７で蓄積した情報から、商品の固有名称が共通する情報を取得する。

　（ステップＳ１０１９）出力部３５は、ステップＳ１０１８で取得した情報を出力する。そして処理を終了する。

　以下、本実施の形態における商標侵害検知装置３の具体的な動作について説明する。なお、この具体例において示したデータは、説明のために便宜上用意されたものであって、実際の運用時に使用するものではない。

　まず、ユーザが、中華そばの麺についての「針金麺」という侵害の可能性を判断したいと考えて、「針金麺」という商標文字列と、中華そばの麺の類似群コードである「３２Ｆ０３」を、商標侵害検知装置３にキーボードなどを操作して入力したとする。受付部３２は、商標文字列「針金麺」を受け付ける。そして、商標文字列取得部３３１は商標文字列を取得し、商品類否判断部３４は類似群コードを取得する。

　称呼取得部３３２は、商標文字列取得部３３１が受け付けた商標文字列「針金麺」の称呼情報を取得する。ここでは、まず、商標文字列に対して形態素解析を行って形態素ごとの読みの情報を取得する。例えば、形態素解析によって「針金麺」は２つの形態素「針金」と「麺」とに分けられ、形態素「針金」からは読みとして「ハリガネ」が、また、形態素「麺」からは読みとして「メン」が取得されたとする。それぞれの形態素には、１つの読みしか取得されないため、「針金麺」の称呼情報の一つとしてこれらの読みを単に結合した「ハリガネメン」を取得する。

　さらに、称呼取得部３３２は、予め用意された漢字の読みが格納された辞書（図示せず）から、商標文字列「針金麺」の各文字の読みを取得する。例えば、「針」からは「ハリ」、「シン」という読みを取得したとする。また「金」からは、「キン」、「コガネ」、「コン」、「カネ」を取得したとする。また、「麺」からは「メン」を取得したとする。そして、取得した文字の読みを、取得元となる文字の並びに沿って組み合わせることで称呼情報を取得する。例えば、「ハリキンメン」、「ハリコガネメン」、「ハリコンメン」、「ハリカネメン」、「シンキンメン」、「シンコガネメン」などの称呼情報が取得される。なお、形態素解析で取得した称呼情報と一致するものは、削除する。

　次に、称呼取得部３３２は、上記で取得した各称呼情報を分割して分割称呼情報を取得する。例えば、称呼情報「ハリガネメン」については、まず、区分位置を１文字目の「ハ」と２文字目の「リ」の間に設定して称呼情報を分割することで、「ハ」という分割称呼情報と、「リガネメン」という分割称呼情報とを取得する。更に、区分位置を２文字目の「リ」と３文字目の「ガ」の間に設定して称呼情報を分割することで、「ハリ」という分割称呼情報と、「ガネメン」という分割称呼情報とを取得する。同様にして、「ハリガ」、「ネメン」、「ハリガネ」、「メン」、「ハリガネメ」を取得する。但し「ン」は、分割称呼情報としては取得しない。同様にして、他の称呼情報についても分割称呼情報を取得する。なお、取得した分割称呼情報において、重複するものは一つを除いて削除する。

　そして、称呼表示部３３３は、取得した称呼情報と分割称呼情報とをモニタなどに出力する。

　図４は、称呼表示部３３３による、称呼情報と分割称呼情報との表示例を示す図である。なお、ここでは、称呼情報も分割称呼情報も、後述する類似検索においては特に区別せずに利用されるため、称呼情報と分割称呼情報とを特に区別せずに称呼として表示している。

　次に、ユーザが、図４に示した称呼情報と分割称呼情報とのうちの、類似検索に利用したいと考えるものの横のチェックボックスにチェックを入れて、「指定完了」ボタン３１を押したとする。例えば、「ハリガネメン」、「ハリガネ」、「ハリキンメン」の横のチェックボックスに図４に示すようにチェックをいれて「指定完了」ボタン３１を押すと、称呼指定受付部３３４は、チェックの入った称呼情報である「ハリガネメン」および「ハリキンメン」と、チェックの入った分割称呼情報である「ハリガネ」を受け付ける。

　次に、類似検索部３３５は、称呼指定受付部３３４が受け付けた称呼情報と分割称呼情報とのそれぞれとを用いて、データベース３１を検索し、称呼の類似検索を行う。２つの称呼の類否判断（類似検索）については、公知の技術であるので、詳細な具体例は省略する。例えば、類似検索の結果、称呼情報「ハリガネメン」と分割称呼情報「ハリガネ」については、称呼が類似する登録商標が検出されなかったが、称呼情報「ハリキンメン」については、称呼が類似する登録商標が検出されたとする。具体的には、称呼が「ハリキントン」という商品の固有名称が検出されたとする。商標類否判断結果取得部３３６は、この検出結果を図示しない記憶媒体などに一時記憶する。

　そして、商標類否判断結果取得部３３６は、類似検索の結果を取得する。

　次に、商品類否判断部３４は、類似群コード「３２Ｆ０３」と、前記「ハリキンメン」と対になる類似群コードまたは商品名とを用いて、商品の類否判断を行う。

　そして、出力部３５は、商標類否判断部３３の判断結果と商品類否判断部３４の判断結果とを用いて、商標の類似、および商品の類似に関する情報を出力する。なお、出力部３５の出力態様は問わない。

　以上、本実施の形態によれば、商標の侵害検知が行える。また、本実施の形態によれば、特に、Ｗｅｂ上の情報を用いて、商標の侵害検知が行える。

　また、本実施の形態において、称呼情報を分割した分割称呼情報を取得して、これを用いた類似検索が行えるようにしたので、ユーザが入力した商標が結合商標である場合は、分離観察や要部観察を行える。

　（実施の形態２）
　本実施の形態において、調査対象商標情報が商品名を保持し、類似群コードを保持していない場合であっても、類似群コードを用いて商品の類否判断ができる商標侵害検知装置について説明する。

　図５は、本実施の形態における商標侵害検知装置４のブロック図である。商標侵害検知装置４は、データベース４０１、受付部３２、商標類否判断部３３、商品類否判断部４０２、出力部３５を備える。受付部３２、商標類否判断部３３、出力部３５については、実施の形態１と同様であるため、説明を省略する。

　データベース４０１は、１以上の図示しないＷｅｂサーバ装置から取得した１以上のレコードを格納し得る。レコードは、会社名と商品名と固有名称とを有する。データベース４０１は、１以上のＷｅｂサーバ装置から取得した情報であれば何でもよく、後述するデータベース構築装置５を用いて構築してもよく、無作為、または調査対象商標情報の商品名をキーワードにして検索して収集したＷｅｂページから特定のルールを用いて情報を取得して構築してもよい。特定のルールとは、例えば、データベース構築装置５のルール格納部５２に格納されるルールなどである。データベース４０１が有するレコードは、商品名に対応するコード特定情報を含んでいても良い。

　商品類否判断部４０２は、データベース４０１が有する１以上の商品名と、調査対象商標情報が有する商品名とを用いて、商品の類否判断を行う。

　商品類否判断部４０２は、商品コード管理手段４０２１、コード特定情報取得手段４０２２、商品類否判断手段４０２３を備える。

　商品コード管理手段４０２１は、１以上の商品名とコード特定情報との対応を管理している。ここでのコード特定情報は、例えば、類似群コードである。

　コード特定情報取得手段４０２２は、商品コード管理手段４０２１を検索し、調査対象商標情報が有する商品名に対応するコード特定情報を取得する。また、コード特定情報取得手段４０２２は、データベース４０１のレコードが有する商品名に対応するコード特定情報を取得しても良い。

　商品類否判断手段４０２３は、調査対象商標情報が有する商品名に対応するコード特定情報と、データベース４０１のレコードが有する商品名に対応するコード特定情報とを用いて、商品の類否判断を行う。

　本実施の形態にかかる商標侵害検知装置４の動作は、商標侵害検知装置３における図１６のステップＳ１０１８の処理のみを変更したものもである。

　以下、本実施の形態における商標侵害検知装置４における商品類否判断部４０２の具体的な動作について説明する。ここでは、例として、受付部３２が受け付けた調査対象商標情報の商品名を「ビール」とし、データベース４０１には、会社名が「Ａ社」、商品名が「ラガービール」、商品の固有名称が「Ｂビール」という１組の情報が少なくとも記憶されているものとし、商品コード管理手段４０２１は、類似群コード「２８Ａ０２」と商品名「ビール」、類似群コード「２８Ａ０２」と商品名「ラガービール」という２組の情報が少なくとも記憶されているものとする。

　コード特定情報取得手段４０２２は、データベース４０１から、例えば、「ラガービール」を取得する。そして、コード特定情報取得手段４０２２は、商品コード管理手段４０２１か管理している情報を用いて、商品名「ラガービール」から類似群コード「２８Ａ０２」を取得する。次に、コード特定情報取得手段４０２２は、商品名「ビール」から類似群コード「２８Ａ０２」を取得する。

　商品類否判断手段４０２３は、コード特定情報取得手段４０２２が取得した２つの類似群コードが一致することを検出し、受付部３２が受け付けた商品「ビール」と、データベース４０１の中の商品「Ｂビール」とが類似する、と判断する。

　以上、本実施の形態によれば、Ｗｅｂサーバ装置から取得した会社名と商品名と固有名称との組に対して、類似群コードを指定しなくても、類似群コードを考慮した商標の類似検索が行える。そのため、商標の侵害状況の判断材料となる情報をユーザに提供することができる。

　また、上記実施の形態１、実施の形態２において、商品類否判断部３４、商標文字列取得部３３１、称呼取得部３３２、類似検索部３３５、商標類否判断結果取得部３３６、コード特定情報取得手段４０２２、商品類否判断手段４０２３は、通常、ＭＰＵやメモリ等から実現され得る。商品類否判断部３４等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

　（実施の形態３）
　本実施の形態において、Ｗｅｂページから２以上のレコードを取得し、当該２以上のレコードから新たなレコードを生成するデータベース構築装置５について説明する。なお、レコードとは、１または２以上の属性値の集合である。なお、レコードを属性値集合と言っても良い。

　なお、本実施の形態において、所定の情報が格納され得る格納部等において、当該格納部に情報が記憶される過程は問わないものとする。例えば、記録媒体を介して情報が格納部等で記憶されるようになってもよい。また、通信回線などを介して送信された情報が格納部等で記憶されるようになってもよい。さらに、入力デバイスを介して入力された情報が格納部等で記憶されるようになってもよい。また、本実施の形態において説明する各情報の形式、内容などは、あくまで例示であり、各情報の持つ意味を示すことができれば、形式、内容などは問わない。

　図６は、本実施の形態におけるデータベース構築装置５のブロック図である。データベース構築装置５は、表格納部５１、ルール格納部５２、スコア格納部５３、辞書格納部５４、取得部５５、結合部５６、ルール取得部５７を備える。

　表格納部５１には、第一の表と２以上の第二の表とが格納される。第一の表は、属性の異なるｍ個（ｍ≧３）の属性値を有する１以上のレコードを有する。また、第二の表は、属性の異なるｎ個（ｎ≦ｍ－１）の属性値を有する１以上のレコードを有する。つまり、レコードは、一のデータモデルにおけるレコードである。また、第一の表および第二の表は、一のデータモデルにおける１以上のレコードの集合である。例えば、当該データモデルがリレーショナル型データモデルである場合、第一の表および第二の表は、テーブルである。なお、属性、および属性値の内容は問わない。また、２以上の各第二の表の属性値の数は異なっていても良い。つまり、第二の表Ａの属性値の数のｎと第二の表Ｂの属性値の数のｎとは、異なる数でも良い。

　また、第二の表は、ｎ個の各属性がユニークであるか否かを示すユニーク識別子を有していてもよい。当該ユニーク識別子は、通常、各属性が有しているが、当該ユニーク識別子により、どの属性がユニークであるかが示されてもよい。当該ユニーク識別子は、例えば、いわゆるＲＤＢにおけるユニークキーであるが、主キーであってもよい。

　また、第一の表および第二の表は、レコードに対応するスコアを有していてもよい。当該スコアは、通常、当該レコードの信頼度を示す。また、当該スコアは、レコードが有する各属性値に対応するものであってもよい。

　「レコードの信頼度」とは、当該レコードに対する信頼の度合いを示すものである。「レコードの信頼度」は、例えば、当該レコードを取得したＷｅｂページの信頼度や、当該レコードそのものの信頼度などである。「Ｗｅｂページの信頼度」は、例えば、当該ＷｅｂページがいわゆるオフィシャルサイトのＷｅｂページである場合は高く、当該Ｗｅｂページがいわゆるオフィシャルサイト以外のＷｅｂページである場合は低いものなどである。また、「レコードそのものの信頼度」は、例えば、当該レコードの取得元であるＷｅｂページの信頼度や、当該レコードが有する各属性値と、当該属性値の条件である属性値条件との一致度などである。

　属性値条件とは、例えば、属性値の例や、属性値のパターンなどである。つまり、「属性値条件との一致度」とは、当該レコードが有する各属性値と、当該属性値の属性と同一の属性の属性値の例との一致度や、当該レコードが有する各属性値と、当該属性値の属性と同一の属性の属性値のパターンとの一致度などである。なお、属性値の例とは、属性値そのものである。また、属性値のパターンとは、例えば、属性値が予め決められた文字を含むことや、属性値が漢字列であること、属性値がカタカナ列であること、属性値がひらがな列であること、属性値が数値であることなどを示すものなどである。

　なお、「レコードの信頼度」は、「レコードの精度」や、「レコードの確度」と呼んでもよい。また、当該スコアは、レコードまたは当該レコードが有する各属性値に対応するスコアであり、当該レコードまたは当該属性値が信頼できるか否か、正しいか否かなどを判断できるものであれば、その内容は問わない。

　ルール格納部５２には、１以上のルールが格納される。当該ルールとは、１以上のＷｅｂページから、上記ｍ個または上記ｎ個の属性値を有する１以上のレコードを取得するためのルールである。

　ルールは、Ｗｅｂページが有するＨＴＭＬ（Ｈｙｐｅｒ　Ｔｅｘｔ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）を解釈して得られるテキスト文書（例えば、いわゆるＷｅｂブラウザが表示するＷｅｂページ）から、１以上のレコードを取得するためのルールや、いわゆるＨＴＭＬ文書であるＷｅｂページから、１以上のレコードを取得するためのルールなどである。

　また、ルールは、通常、正規表現であるが、例えば、いわゆる文字列のパターンや、タグのパターン、ＵＲＩ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｉｄｅｎｔｉｆｉｅｒ）のパターン、これら３つのパターンのうちの２以上のパターンの組み合わせなどであってもよい。また、ルールは、その他の表記や表現であってもよい。また、ルールは、通常、属性値を取得することを示す変数を有している。当該変数は、属性に対応するものである。

　例えば、Ｗｅｂページがテキスト文書である場合、ルールは、（１）「＄会社名＄は、．＊？＄商品名＄、＄固有名称＄を発売しました」や、（２）「％固有名称％：％商品名％」、（３）「会社概要＜改行＞社名｜＆会社名＆＜改行＞設立｜＆設立年月日＆」などである。（１）は、会社名と、商品名と、固有名称とを取得するためのルールである。（１）において、例えば、「＄会社名＄」は、当該箇所にある文字列を会社名として取得することを示す変数である。また、「．＊？」は、正規表現である。また、（２）は、固有名称と、商品名とを取得するためのルールである。（２）において、例えば、「％固有名称％」は、当該箇所にある文字列を固有名称として取得することを示す変数である。また、（３）は、会社名と、設立年月日を取得するためのルールである。（３）において、例えば、「＆設立年月日＆」は、当該箇所にある文字列を設立年月日として取得することを示す変数である。また、「＜改行＞」は、改行を示す。

　また、例えば、ＷｅｂページがＨＴＭＬ文書である場合、ルールは、（４）「＜ｐ＞＄会社名＄は、．＊？＄商品名＄、＄固有名称＄を発表しました＜／ｐ＞」や、（５）「＜ｔｄ＞％固有名称％：＜／ｔｄ＞＜ｔｄ＞％商品名％＜／ｔｄ＞」、（６）「＜ｄｉｖ．＊？＞会社概要＜／ｄｉｖ＞＜ｂｒ＞＜ｄｉｖ．＊？＞社名＜／ｄｉｖ＞＜ｄｉｖ．＊？＞＆会社名＆＜／ｄｉｖ＞＜ｂｒ＞＜ｄｉｖ．＊？＞設立＜／ｄｉｖ＞＜ｄｉｖ．＊？＞＆設立年月日＆＜／ｄｉｖ＞」などである。なお、当該（４）～（６）の意味は、上記（１）～（３）と同様であるので、説明を省略する。また、当該（４）～（６）の各ルールにおける変数や記号の意味も、上記（１）～（３）と同様であるので、説明を省略する。

　また、ルール格納部５２には、上記各変数に対応するパターンが格納されてもよい。当該パターンとは、例えば、当該変数により取得することが示される文字列が、予め決められた文字を含むことや、当該文字列が漢字列であること、当該文字列がカタカナ列であること、当該文字列がひらがな列であること、当該文字列が数値であることなどを示すものなどである。

　また、Ｗｅｂページは、通常、１以上のＷｅｂサイトが有するものであり、当該Ｗｅｂサイトを運用するサーバ装置が有する。また、Ｗｅｂページは、データベース構築装置５が備える任意の記憶装置や、記憶領域に格納されていてもよい。また、Ｗｅｂページは、前述のテキスト文書やＨＴＭＬ文書などの文書や、文、段落、文字、文字列、テキストなどを含み、広く解する。

　また、Ｗｅｂページは、当該Ｗｅｂページを識別するＷｅｂページ識別子を有していてもよい。当該Ｗｅｂページ識別子は、当該ＷｅｂページのＵＲＬや、Ｗｅｂページのファイル名、Ｗｅｂページのタイトル（ＨＴＭＬのｔｉｔｌｅ要素の要素値）、メタ情報（ＨＴＭＬのｍｅｔａ要素のｋｅｙｗｏｒｄ属性値や、ｄｅｓｃｒｉｐｔｉｏｎ属性値）などである。なお、ＵＲＬは、いわゆるドメイン名やホスト名などを含み、広く解する。

　また、ルールは、通常、当該ルールにより取得できるレコードを有する第一の表または第二の表に対応付いてルール格納部５２に格納されている。これはつまり、ルールと、当該ルールにより取得できるレコードに対応する１以上の属性、または当該レコードを有し得る表との対応関係がわかるように格納されているということである。

　スコア格納部５３には、Ｗｅｂページ識別子が対応付けられた１以上のスコアが格納される。当該スコアは、Ｗｅｂページのスコアであり、通常、当該Ｗｅｂページの信頼度を示すものである。

　辞書格納部５４には、属性ごとの１以上の属性値の集合である１以上の辞書が格納される。辞書は、属性値の例の集合であると考えてもよい。また、一の辞書は、通常、一の属性の１以上の属性値の集合である。また、辞書格納部５４には、１以上の属性値のパターンが格納されてもよい。この場合、属性値のパターンは、通常、当該属性値の属性と対応付いている。

　取得部５５は、ルール格納部５２に格納されている１以上のルールに従い、１以上のＷｅｂページから、１以上のレコードを取得する。このとき、取得部５５は、通常、当該１以上のＷｅｂページから、当該１以上のルールに合致する文字列を取得する。そして、取得部５５は、取得した文字列から、使用したルールが有する１以上の変数の箇所にある文字列を、属性値として取得する。そして、取得部５５は、当該取得した１以上のレコードを、表格納部５１に蓄積する。当該蓄積とは、第一の表または第二の表に追記することである。

　例えば、ルールに従い上記ｍ個の属性値を有する１以上のレコードを取得した場合、取得部５５は、当該レコードに対応する属性を有する第一の表に、当該取得したレコードを追記する。また、例えば、ルールに従い上記ｎ個の属性値を有する１以上のレコードを取得した場合、取得部５５は、当該レコードに対応する属性を有する表に、当該取得したレコードを追記する。当該表は、通常、第二の表である。

　また、取得部５５は、ルール格納部５２に格納されている１以上のルールが有する変数に、当該変数が対応する属性の属性値であり、表格納部５１に格納されている１以上の属性値を代入し、新たなルールを生成し、当該ルールに従い、１以上のＷｅｂページから１以上のレコードを取得してもよい。

　また、取得部５５は、ルール格納部５２に格納されている１以上のルールが有する変数に、当該変数のパターンであり、ルール格納部５２に格納されているパターンを代入し、新たなルールを生成し、当該ルールに従い、１以上のＷｅｂページから１以上のレコードを取得してもよい。

　また、取得部５５は、通常、いわゆるクローリングを行い、いわゆるＷｅｂから１以上のＷｅｂページを取得する。また、例えば、１以上のＷｅｂページが任意の記憶領域に格納されている場合、取得部５５は、当該記憶領域から、１以上のＷｅｂページを取得する。

　例えば、１以上のＷｅｂページに文字列『特許分析株式会社は、特許明細書の分析を行うソフトウェア「ＰＡＴ－Ａｎａｌｙｚｅｒ」を発売した』が存在しており、ルールが『＄会社名＄は、．＊？＄商品名＄「＄固有名称＄」を発売した』である場合、取得部５５は、まず、当該ルールに合致する当該文字列を取得する。そして、取得部５５は、当該文字列から、属性値を取得するための変数「＄会社名＄」や、「＄商品名＄」の箇所にある文字列「特許分析株式会社」、「ソフトウェア」、「ＰＡＴ－Ａｎａｌｙｚｅｒ」を、それぞれ、会社名、商品名、固有名称として取得する。そして、取得部５５は、会社名、商品名、固有名称の３つの属性を有する表に、取得したレコードを追記する。

　また、例えば、会社名「特許分析株式会社」が既に表格納部５１に格納されている場合、取得部５５は、当該会社名を上記ルールに代入し、新たなルール『特許分析株式会社は、．＊？＄商品名＄「＄固有名称＄」を発売した』を生成し、当該ルールを用いて、上記と同様に文字列「ソフトウェア」、「ＰＡＴ－Ａｎａｌｙｚｅｒ」を、それぞれ、商品名、固有名称として取得してもよい。そして、取得部５５は、商品名、固有名称の３つの属性を有する表に、取得したレコードを追記する。

　また、例えば、上記の場合において、変数「＄会社名＄」に対応するパターンが「＜漢字列＞株式会社」であるとき、取得部５５は、上記ルールに「＜漢字列＞株式会社」を代入し、新たなルール『＜漢字列＞株式会社は、．＊？＄商品名＄「＄固有名称＄」を発売した』を生成する。そして、取得部５５は、当該ルールに合致する上記文字列を取得する。そして、取得部５５は、当該文字列から、属性値を取得するための変数「＄会社名＄」や、「＄商品名＄」や、「＄固有名称」の箇所にある文字列「特許分析株式会社」、「ソフトウェア」、「ＰＡＴ－Ａｎａｌｙｚｅｒ」を、それぞれ、会社名、商品名、固有名称として取得する。

　また、取得部５５は、例えば、レコードの取得の際に、当該レコードを取得したＷｅｂページが有するＷｅｂページ識別子を取得してもよい。この場合、取得部５５は、当該レコードと、当該Ｗｅｂページ識別子とを対応付け、第一の表または第二の表に追記する。

　また、取得部５５は、例えば、レコードの取得の際に、当該レコードに対応するスコアを算出してもよい。この場合、取得部５５は、当該レコードと、当該スコアとを対応付け、第一の表または第二の表に追記する。また、取得部５５は、例えば、取得したレコードが有する各属性値に対応するスコアを算出してもよい。この場合、取得部５５は、当該各属性値と、当該スコアとを対応付け、第一の表または第二の表に追記する。また、取得部５５は、当該各属性値に対応するスコアを用いて、当該レコードに対応するスコアを算出してもよい。当該算出とは、例えば、各属性値に対応するスコアの平均を算出することなどである。この場合、取得部５５は、当該レコードと、当該スコアとを対応付け、第一の表または第二の表に追記する。

　例えば、取得部５５は、レコードを取得したＷｅｂページが有するＷｅｂページ識別子に対応するスコアを、スコア格納部５３から取得してもよい。例えば、レコードを取得したＷｅｂページのＵＲＬが「http://www.webpage.com」であり、当該ＵＲＬがスコア格納部５３においてスコア「９５」と対応付いている場合、取得部５５は、当該スコア「９５」を取得する。そして、取得部５５は、当該レコードと、当該スコアとを対応付け、第一の表または第二の表に追記する。

　また、例えば、取得部５５は、取得したレコードと、属性値条件との一致度を、スコアとして算出してもよい。この場合、取得部５５は、通常、当該レコードが有する各属性値と、当該属性値条件との一致度を算出する。また、この場合、取得部５５は、通常、当該各属性値の属性と同一の属性の属性値条件との一致度を算出する。

　例えば、当該レコードが有する属性値が会社名「特許分析株式会社」であるとする。この場合において、属性値条件が会社名の例「特許分析株式会社」であるとき、当該会社名と会社名の例が一致するので、取得部５５は、一致度「１００」を取得する。また、この場合において、属性値条件が会社名の例「特許解析株式会社」であるとき、取得部５５は、当該会社名の文字のうち当該会社名の例と一致している文字数「７」と、当該会社名の文字数「８」を取得し、「７÷８」を計算し、一致度「０．８７５」を取得する。また、この場合において、属性値条件が会社名のパターン「漢字列」であるとき、当該会社名が漢字列であるので、取得部５５は、一致度「１００」を取得する。また、この場合において、属性値条件が会社名のパターン「カタカナ列」であるとき、当該会社名がカタカナを１文字も有さないため、取得部５５は、一致度「０」を取得する。

　なお、属性値条件が属性値の例である場合、当該属性値の例は、通常、辞書格納部５４に格納されている属性値である。また、属性値条件が属性値のパターンである場合、当該属性値のパターンは、通常、取得部５５が保持しているが、任意の記憶領域または予め決められた記憶領域に格納されていてもよい。

　また、取得部５５は、例えば、取得したレコードを、いわゆる検索エンジンにて検索し、当該レコードを有するＷｅｂページの件数をスコアとして取得してもよい。例えば、取得したレコードが会社名「特許分析株式会社」と商品名「ＰＡＴ－Ａｎａｌｙｚｅｒ」であり、当該２個の属性値の両方を有するＷｅｂページを検索エンジンにて検索した結果、「１，０００」件存在する場合、取得部５５は、当該件数「１，０００」をスコアとして取得する。

　また、取得部５５は、例えば、取得したレコードの累積取得回数をスコアとして取得してもよい。当該累積取得回数の取得の方法は自明であるので、詳細な説明を省略する。

　結合部５６は、２以上の各第二の表が有する２以上のレコードを結合し、第一の表が有し得る新たなレコードを生成する。そして、結合部５６は、生成したレコードを、第一の表に追記する。ここで、「第一の表が有し得る」とは、第一の表が有するレコードになり得ることを意味し、上記ｍ個の属性値を有することを意味する。具体的には、レコードを生成する際に用いた２以上のレコードに対応する属性の数よりも、属性の数が多いことを意味する。

　例えば、結合部５６は、上記ｍ個の属性値を有するレコードを、上記ｎ個（２つの表のｎは異なり、それぞれｎ１とｎ２でも良い。）の属性値を有する２つのレコードを結合し、生成し、当該レコードを、第一の表に追記する。なお、通常、「ｍ＝ｎ１＋ｎ２－１」である。

　また、結合部５６は、例えば、以下の方法を用いて、第一の表の新たなレコードを生成する。
（１）２以上の異なる第二の表の各々が有するレコードであり、同一の属性の同一の属性値を有し、かつ当該属性が前記ユニーク識別子によりユニークであることが示される２以上のレコードを結合する。
（２）３以上の異なる第二の表の各々が有するレコードであり、同一の属性の同一の属性値を２以上有するレコードを結合する。

　なお、結合とは、いわゆるＲＤＢにおけるテーブルの結合（ＪＯＩＮ）と同意義である。つまり、結合とは、結合の対象となるレコードにおいて重複する属性値（キー）を１つにし、残りの属性値と対応付け、新たなレコードを生成することである。

　（１）は、以下の条件に合致する２以上のレコードを結合することである。
（ａ）他のレコードの属性と同一の属性を有する。
（ｂ）（ａ）の属性の属性値であり、他のレコードが有する属性値と同一の属性値を有する。
（ｃ）（ａ）の属性がユニーク識別子によりユニークであることが示される。

　なお、（１）は、例えば、結合の対象となるレコードのすべてが、当該レコードの属性がユニーク識別子を有する場合の結合方法であり、上記（ａ）～（ｃ）は、当該結合を行う条件（結合条件）である。また、（１）では、ユニーク識別子によりユニークであることが示される属性をキーに、２以上のレコードを結合する。

　また、（２）は、以下の条件に合致する３以上のレコードを結合することである。
（ａ）他の２以上のレコードの属性と同一の属性を２以上有する。
（ｂ）（ａ）の属性の属性値であり、他のレコードが有する属性値と同一の属性値を有する。

　なお、（２）は、例えば、結合の対象となるレコードの少なくとも１つが、当該レコードの属性がユニーク識別子を有さない場合の結合方法であり、上記（ａ）、（ｂ）は、当該結合を行う条件（結合条件）である。また、結合部５６は、（２）の結合を行う場合、３以上のレコードであり、当該３以上のレコードの２個ずつの属性の対応関係が、当該３以上のレコードから明らかであるようなレコードを結合することが好適である。

　例えば、属性値「Ａ」、「Ｂ」、「Ｃ」のいずれかを有する３つのレコード「Ａ－Ｂ」、「Ｂ－Ｃ」、「Ｃ－Ａ」があるとする。これら３つの各レコードは、他の２つのレコードが有する属性値と同一の属性値を、２以上有する。従って、結合部５６は、これら３つのレコードを結合し、新たなレコード「Ａ－Ｂ－Ｃ」を生成する。

　また、例えば、属性値「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」のいずれかを有する３つのレコード「Ａ－Ｂ－Ｃ」、「Ｃ－Ｄ」、「Ｄ－Ａ」があるとする。これら３つの各レコードは、他の２つのレコードが有する属性値と同一の属性値を、２以上有する。従って、結合部５６は、これら３つのレコードを結合し、新たなレコード「Ａ－Ｂ－Ｃ－Ｄ」を生成する。なお、この場合、これら３つのレコードからは、「Ｂ」と「Ｄ」との対応関係が明らかではない。従って、結合部５６は、これら３つのレコードを結合しないことが好適である。

　また、例えば、属性値「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」のいずれかを有する３つのレコード「Ａ－Ｂ」、「Ｂ－Ｃ」、「Ｃ－Ｄ」があるとする。これら３つのレコードのうち、「Ｃ－Ｄ」は、他の２つのレコードが有する属性値と同一の属性値を２以上有さない。従って、結合部５６は、これら３つのレコードを結合しない。これは、つまり、「Ａ」と「Ｄ」との対応関係が明らかではない状態で、「Ａ」と「Ｄ」との対応関係を構築することを防ぐためである。

　また、例えば、属性値「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」、「Ｅ」のいずれかを有する３つのレコード「Ａ－Ｂ－Ｃ」、「Ａ－Ｂ－Ｄ」、「Ｃ－Ｄ－Ｅ」があるとする。これら３つの各レコードは、他の２つのレコードが有する属性値と同一の属性値を、２以上有する。従って、結合部５６は、これら３つのレコードを結合し、新たなレコード「Ａ－Ｂ－Ｃ－Ｄ－Ｅ」を生成する。なお、この場合、これら３つのレコードからは、「Ｅ」と「Ａ」、「Ｅ」と「Ｂ」との対応関係が明らかではない。従って、結合部５６は、これら３つのレコードを結合しないことが好適である。しかし、結合部５６は、これら３つのレコードの一部であり、対応関係が明らかであるレコードを結合し、新たなレコード「Ａ－Ｂ－Ｃ－Ｄ」を生成してもよい。

　なお、以上について、便宜上、属性値のみで説明したが、通常、当該属性値の属性も同一でないと結合は行わない。

　また、結合部５６は、例えば、当該レコードに対応するスコアが、予め決められた条件を満たすほど高いレコードのみを用いて、新たなレコードを生成してもよい。当該条件は、通常、結合部５６が保持しているが、任意の記憶領域に格納されていてもよい。

　なお、結合部５６は、第二の表が有する２以上のレコードを結合し、第一の表が有し得る新たなレコードを生成すればよく、当該結合の方法や手順などは問わない。また、当該生成の元となる第二の表が有するレコードは、表格納部５１に格納されているものであれば何でもよい。例えば、結合部５６は、取得部５５が取得した２以上のレコードを結合してもよいし、結合部５６が生成した２以上のレコードを結合してもよいし、取得部５５が取得したレコードまたは結合部５６が生成したレコードのうちの２以上のレコードを結合してもよい。

　ルール取得部５７は、まず、１以上のＷｅｂページから、表格納部５１に格納されている１以上のレコードが存在する文字列を取得する。そして、ルール取得部５７は、当該文字列のうち、当該レコード以外の文字列を前記ルールとして取得する。そして、ルール取得部５７は、当該取得したルールを、ルール格納部５２に蓄積する。

　ルール取得部５７は、例えば、いわゆるクローリングを行い、１以上のＷｅｂページを取得する。そして、ルール取得部５７は、通常、当該Ｗｅｂページから、レコードを有するＷｅｂページを取得する。また、ルール取得部５７は、例えば、レコードを検索キーとし、いわゆる検索エンジンを用いて、１以上のＷｅｂページを取得してもよい。

　また、ルール取得部５７は、例えば、上記の様にして取得した１以上のＷｅｂページから、レコードが存在する文や、行、表など、１つのまとまりと言える文字列を取得する。

　また、ルール取得部５７は、例えば、上記の様にして取得した文字列に存在するレコードを、予め決められた変数に置換する。そして、ルール取得部５７は、当該置換後の文字列を、ルールとして取得する。例えば、当該文字列に会社名が存在する場合、ルール取得部５７は、当該文字列に存在する会社名を、当該会社名に対応する変数（例えば、「％会社名％」）に置換する。また、例えば、当該文字列に商品名および固有名称が存在する場合、ルール取得部５７は、当該文字列に存在する商品名および固有名称を、当該商品名および固有名称に対応する変数（例えば、「＄商品名」、「＄固有名称＄」）に置換する。

　また、ルール取得部５７は、例えば、対象が自明である文字列を、予め決められた変数に置換してもよい。「対象が自明である文字列」は、例えば、日付や、時刻、曜日、人名などである。また、ルール取得部５７は、例えば、いわゆる動詞や、助詞、名詞など以外の文字列を、任意の０以上の文字列を示す記号に置換してもよい。

　また、ルール取得部５７は、例えば、取得したルールと、ルール格納部５２に既に格納されているルールとから、新たなルールを生成してもよい。この場合、ルール取得部５７は、通常、取得したルールとの類似度が予め決められた条件を満たすほど高いルールを、ルール格納部５２から取得し、当該２つのルールの共通部分を、新たなルールとして取得する。なお、このとき、共通部分以外は、任意の０以上の文字列を示す記号に置換してもよいし、いわゆる論理和で連結してもよい。また、ルール取得部５７は、例えば、取得した２以上のルールから、またはルール格納部５２に既に格納される２以上のルールから上記のような新たなルールを作成してもよい。

　また、ルール取得部５７は、上記の様にして取得したルールを、ルール格納部５２に蓄積する。このとき、ルール取得部５７は、通常、取得したルールを、当該ルールを取得した際に用いたレコードを有する第一の表または第二の表に対応付けて、ルール格納部５２に蓄積する。なお、ルール取得部５７は、取得したルールと、当該ルールにより取得できるレコード（属性の集合）との対応関係がわかるように、取得したルールをルール格納部５２に蓄積すればよく、その方法や手順などは問わない。

　なお、表格納部５１、ルール格納部５２、スコア格納部５３、辞書格納部５４は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

　また、取得部５５、結合部５６、ルール取得部５７は、通常、ＭＰＵやメモリ等から実現され得る。取得部５５等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現してもよい。

　次に、データベース構築装置５の動作について説明する。なお、所定の情報におけるｉ番目の情報は、「情報［ｉ］」と記載するものとする。図７は、データベース構築装置５の全体動作を示すフローチャートである。

　（ステップＳ２２０１）取得部５５は、レコードを取得するか否かを判断する。レコードを取得する場合はステップＳ２２０２に進み、そうでない場合はステップＳ２２０３に進む。なお、

　（ステップＳ２２０２）取得部５５は、レコードを取得する。この処理の詳細は、図８のフローチャートを用いて説明する。そして、ステップＳ２２０１に戻る。

　（ステップＳ２２０３）結合部５６は、レコードを生成するか否かを判断する。レコードを生成する場合は、ステップＳ２２０４に進み、そうでない場合は、ステップＳ２２０５に進む。なお、

　（ステップＳ２２０４）結合部５６は、レコードを生成する。この処理の詳細は、図９のフローチャートを用いて説明する。そして、ステップＳ２２０１に戻る。

　（ステップＳ２２０５）ルール取得部５７は、ルールを取得するか否かを判断する。ルールを取得する場合はステップＳ２２０６に進み、そうでない場合はステップＳ２２０１に戻る。

　（ステップＳ２２０６）ルール取得部５７は、ルールを取得する。この処理の詳細は、図１０のフローチャートを用いて説明する。そして、ステップＳ２２０１に戻る。

　なお、図７のフローチャートにおいて、電源オフや処理終了の割り込みにより処理を終了してもよい。

　また、ステップＳ２２０１、ステップＳ２２０３、およびステップＳ２２０５における判断は、具体的には、例えば、データベース構築装置５が、図示しない受付部が該当する指示を受け付けたか否か判断することや、該当する動作のタイミング（周期）が予め決められており、当該タイミングになったか否かを判断することなどである。

　また、図７のフローチャートにおいて、ステップＳ２２０１の判断、ステップＳ２２０３の判断、ステップＳ２２０５の判断の順序は問わない。

　図８は、ステップＳ２２０２のレコードの取得処理を示すフローチャートである。

　（ステップＳ２３０１）取得部５５は、ルール格納部５２に格納されているすべてのルールを取得する。ここで、Ｍ個のルールが取得できたものとする。

　（ステップＳ２３０２）取得部５５は、クローリングを行い、Ｗｅｂから１以上のＷｅｂページを取得する。ここで、Ｎ個のＷｅｂページが取得できたものとする。

　（ステップＳ２３０３）取得部５５は、カウンタｉに１をセットする。

　（ステップＳ２３０４）取得部５５は、カウンタｊに１をセットする。

　（ステップＳ２３０５）取得部５５は、変数ｃｏｕｎｔに０をセットする。

　（ステップＳ２３０６）取得部５５は、ルール［ｉ］に合致する文字列が、Ｗｅｂページ［ｊ］に存在するか否かを判断する。存在する場合は、ステップＳ２３０７に進み、そうでない場合は、ステップＳ２３１１に進む。

　（ステップＳ２３０７）取得部５５は、ルール［ｉ］に合致する文字列を、Ｗｅｂページ［ｊ］から取得する。

　（ステップＳ２３０８）取得部５５は、取得した文字列からレコードを取得する。

　（ステップＳ２３０９）取得部５５は、ｃｏｕｎｔを１インクリメントする。

　（ステップＳ２３１０）取得部５５は、変数ａｔｔｒｓ［ｃｏｕｎｔ］に、取得したレコードをセットする。

　（ステップＳ２３１１）取得部５５は、ｊがＮであるか否かを判断する。Ｎである場合は、ステップ２３１３に進み、そうでない場合は、ステップＳ２３１２に進む。

　（ステップＳ２３１２）取得部５５は、ｊを１インクリメントし、ステップＳ２３０６に戻る。

　（ステップＳ２３１３）取得部５５は、ｃｏｕｎｔが１以上であるか否かを判断する。１以上である場合は、ステップＳ２３１４に進み、そうでない場合は、Ｓ２３１５に進む。

　（ステップＳ２３１４）取得部５５は、第二の表にａｔｔｒｓを追記する。

　（ステップＳ２３１５）取得部５５は、ｉがＭであるか否かを判断する。Ｍである場合は、上位処理にリターンし、そうでない場合は、ステップＳ２３１６に進む。

　（ステップＳ２３１６）取得部５５は、ｉを１インクリメントし、ステップＳ２３０４に戻る。

　なお、図８のフローチャートにおいて、一のルールごとに、Ｎ個のＷｅｂページから１以上のレコードを取得している。これにより、当該ルールを用いて取得したレコードの属性ごとに、取得したレコードを、当該属性を有する第二の表に追記することができる。

　また、図８のフローチャートにおいて、Ｍ個のすべての各ルールについて、Ｎ個のＷｅｂページから１以上のレコードを取得し、当該取得したすべてのレコードを、一括で第二の表に追記してもよい。

　図９は、ステップＳ２２０４のレコードの生成処理を示すフローチャートである。

　（ステップＳ２４０１）結合部５６は、表格納部５１に格納されているすべての第二の表を取得する。ここで、Ｍ個のレコードが取得できたものとする。

　（ステップＳ２４０２）結合部５６は、カウンタｉに１をセットする。

　（ステップＳ２４０３）結合部５６は、レコード［ｉ］に対応する属性のいずれかが、ユニーク識別子を有するか否かを判断する。有する場合は、ステップＳ２４０４に進み、そうでない場合は、ステップＳ２４１３に進む。

　（ステップＳ２４０４）結合部５６は、レコード［ｉ］を有する第二の表、およびレコード［ｉ］から、ユニーク識別子を有する属性、および当該属性に対応する属性値を取得する。

　（ステップＳ２４０５）結合部５６は、カウンタｊに１をセットする。

　（ステップＳ２４０６）結合部５６は、ｉとｊが異なるか否かを判断する。異なる場合は、ステップＳ２４０７に進み、そうでない場合は、ステップＳ２４０９に進む。

　（ステップＳ２４０７）結合部５６は、レコード［ｊ］が、ステップＳ２４０４で取得した属性に対応し、かつステップＳ２４０４で取得した属性値と同一である属性値を有するか否かを判断する。有する場合は、ステップＳ２４０８に進み、そうでない場合は、ステップＳ２４０９に進む。

　（ステップＳ２４０８）結合部５６は、レコード［ｉ］とレコード［ｊ］とを結合する。

　（ステップＳ２４０９）結合部５６は、ｊがＭであるか否かを判断する。Ｍである場合は、ステップＳ２４１１に進み、そうでない場合は、ステップＳ２４１０に進む。

　（ステップＳ２４１０）結合部５６は、ｊを１インクリメントし、ステップＳ２４０６に戻る。

　（ステップＳ２４１１）結合部５６は、ｉがＭであるか否かを判断する。Ｍである場合は、上位処理にリターンし、そうでない場合は、ステップＳ２４１２に進む。

　（ステップＳ２４１２）結合部５６は、ｉを１インクリメントし、ステップＳ２４０３に戻る。

　（ステップＳ２４１３）結合部５６は、ｊに１をセットする。

　（ステップＳ２４１４）結合部５６は、カウンタｋに１をセットする。

　（ステップＳ２４１５）結合部５６は、ｉとｊとｋとが異なるか否かを判断する。異なる場合は、ステップＳ２４１６に進み、そうでない場合は、ステップＳ２４１８に進む。

　（ステップＳ２４１６）結合部５６は、レコード［ｉ］とレコード［ｊ］とレコード［ｋ］とが、結合条件を満たすか否かを判断する。満たす場合は、ステップＳ２４１７に進み、そうでない場合は、ステップＳ２４１８に進む。

　（ステップＳ２４１７）結合部５６は、レコード［ｉ］とレコード［ｊ］とレコード［ｋ］とを結合する。

　（ステップＳ２４１８）結合部５６は、ｋがＭであるか否かを判断する。Ｍである場合は、ステップＳ２４２０に進み、そうでない場合は、Ｓ２４１９に進む。

　（ステップＳ２４１９）結合部５６は、ｋを１インクリメントし、ステップＳ２４１５に戻る。

　（ステップＳ２４２０）結合部５６は、ｊがＭであるか否かを判断する。Ｍである場合は、ステップＳ２４１１に進み、そうでない場合は、ステップＳ２４２１に進む。

　（ステップＳ２４２１）結合部５６は、ｊを１インクリメントし、ステップＳ２４１４に戻る。

　なお、図９のフローチャートにおいて、２以上のレコードが、ユニーク識別子を有する場合の結合条件を満たすか否かを判断し、満たす場合は、当該２以上のレコードを結合するようにしてもよい。

　また、図９のフローチャートにおいて、３以上のレコードが、ユニーク識別子を有さない場合の結合条件を満たすか否かを判断し、満たす場合は、当該３以上のレコードを結合するようにしてもよい。

　図１０は、ステップＳ２２０６のルールの取得処理を示すフローチャートである。

　（ステップＳ２５０１）ルール取得部５７は、表格納部５１に格納されているすべてのレコードを取得する。ここで、Ｍ個のレコードが取得できたものとする。

　（ステップＳ２５０２）ルール取得部５７は、クローリングを行い、Ｗｅｂから１以上のＷｅｂページを取得する。ここで、Ｎ個のＷｅｂページが取得できたものとする。

　（ステップＳ２５０３）ルール取得部５７は、カウンタｉに１をセットする。

　（ステップＳ２５０４）ルール取得部５７は、カウンタｊに１をセットする。

　（ステップＳ２５０５）ルール取得部５７は、変数ｃｏｕｎｔに０をセットする。

　（ステップＳ２５０６）ルール取得部５７は、レコード［ｉ］が存在する文字列が、Ｗｅｂページ［ｊ］に存在するか否かを判断する。存在する場合は、ステップＳ２５０７に進み、そうでない場合は、ステップＳ２５１１に進む。

　（ステップＳ２５０７）ルール取得部５７は、レコード［ｉ］が存在する文字列を、Ｗｅｂページ［ｊ］から取得する。ここで、ルール取得部５７は、レコード［ｉ］の中のすべての属性値を有する文をＷｅｂページ［ｊ］から取得する。

　（ステップＳ２５０８）ルール取得部５７は、取得した文字列からルールを取得する。なお、ルール取得部５７は、例えば、ステップＳ２５０７で取得した文字列の中の、レコード［ｉ］の中の属性値を変数に置き換えたルールを構成する。

　（ステップＳ２５０９）ルール取得部５７は、ｃｏｕｎｔを１インクリメントする。

　（ステップＳ２５１０）ルール取得部５７は、変数ｒｕｌｅｓ［ｃｏｕｎｔ］に、ステップＳ２５０８で取得したルールをセットする。

　（ステップＳ２５１１）ルール取得部５７は、ｊがＮであるか否かを判断する。Ｎである場合は、ステップ２５１３に進み、そうでない場合は、ステップＳ２５１２に進む。

　（ステップＳ２５１２）ルール取得部５７は、ｊを１インクリメントし、ステップＳ２５０６に戻る。

　（ステップＳ２５１３）ルール取得部５７は、ｃｏｕｎｔが１以上であるか否かを判断する。１以上である場合は、ステップＳ２５１４に進み、そうでない場合は、Ｓ２５１５に進む。

　（ステップＳ２５１４）ルール取得部５７は、ルール格納部５２にｒｕｌｅｓを蓄積する。

　（ステップＳ２５１５）ルール取得部５７は、ｉがＭであるか否かを判断する。Ｍである場合は、上位処理にリターンし、そうでない場合は、ステップＳ２５１６に進む

　なお、図１０のフローチャートにおいて、一のレコードごとに、Ｎ個のＷｅｂページから１以上のルールを取得している。これにより、当該レコードの属性ごとに、当該取得したルールを、ルール格納部５２に蓄積することができる。

　また、図１０のフローチャートにおいて、Ｍ個のすべての各レコードについて、Ｎ個のＷｅｂページから１以上のルールを取得し、当該取得したすべてのルールを、一括でルール格納部５２に蓄積してもよい。

　（具体例）
　次に、データベース構築装置５の動作の具体例について説明する。

　（例１：レコードの取得）

　本例において、ルール格納部５２には、図１１に示すルールが格納されているものとする。当該ルールは、各レコードを一意に特定するためのＩＤ（項目名：ＩＤ）と、ルール（項目名：取得ルール）と、当該ルールにより取得できるレコードの属性（項目名：属性）とを対応付けて有する。

　まず、取得部５５は、図１１のすべてのルールを取得する。

　次に、取得部５５は、クローリングを行い、Ｗｅｂから１以上のＷｅｂページを取得し、図１２および図１３に示すＷｅｂページを取得したものとする。図１２のＷｅｂページは、テキスト文書であり、図１３のＷｅｂページは、ＨＴＭＬ文書である。

　次に、取得部５５は、取得したルールの各々に合致する文字列を、取得したＷｅｂページから取得する。ここで、図１２のテキスト文書には、図１１の「ＩＤ＝０１１」のルール「＄会社名＄、＄商品名＄、＄固有名称＄を．＊？発売」に合致する文字列「株式会社良品家電、フルＨＤテレビ、ＢｅａｕｔｙＳｃｒｅｅｎを発売」が、１２行目に存在する。また、図１３のＨＴＭＬ文書には、図１１の「ＩＤ＝０２１」のルール「＜ｈ２＞＄会社名＄、＄商品名＄、固有名称＄を．＊？発売＜／ｈ２＞」に合致する文字列「＜ｈ２＞株式会社良品家電、フルＨＤテレビ、ＢｅａｕｔｙＳｃｒｅｅｎを発売＜／ｈ２＞」が、１２行目に存在する。従って、取得部５５は、当該２つの文字列を取得する。

　次に、取得部５５は、取得した文字列「株式会社良品家電、フルＨＤテレビ、ＢｅａｕｔｙＳｃｒｅｅｎを発売」から、当該文字列を取得した際に用いたルール「＄会社名＄、＄商品名＄、＄固有名称＄を．＊？発売」が有する属性値を示す変数の箇所にある文字列を取得する。そして、取得部５５は、会社名として「株式会社良品家電」、商品名として「フルＨＤテレビ」、固有名称として「ＢｅａｕｔｙＳｃｒｅｅｎ」を取得する。また、取得部５５は、取得した文字列「＜ｈ２＞株式会社良品家電、フルＨＤテレビ、ＢｅａｕｔｙＳｃｒｅｅｎを発売＜／ｈ２＞」から、当該文字列を取得した際に用いたルール「＜ｈ２＞＄会社名＄、＄商品名＄、＄固有名称＄を．＊？発売＜／ｈ２＞」が有する属性値を示す変数の箇所にある文字列を取得する。そして、取得部５５は、会社名として「株式会社良品家電」、商品名として「フルＨＤテレビ」、固有名称として「ＢｅａｕｔｙＳｃｒｅｅｎ」を取得する。

　なお、当該取得した２つのレコードが重複しているため、取得部５５は、通常、いわゆるユニーク処理を行い、最終的に１つのレコード「株式会社良品家電｜フルＨＤテレビ｜ＢｅａｕｔｙＳｃｒｅｅｎ」を取得する。

　次に、取得部５５は、取得したレコード「株式会社良品家電｜フルＨＤテレビ｜ＢｅａｕｔｙＳｃｒｅｅｎ」を、第二の表に追記する。取得部５５が取得した第二の表の例は、図１４である。なお、表格納部５１に当該レコードに対応する属性を有する表が存在しない場合、取得部５５は、まず、取得したレコードに対応する属性を有する表を生成し、当該表に取得したレコードを追記する。

　また、例えば、図１２のＷｅｂページのＵＲＬが「http://official.beautyscreen.com」であったとする。この場合、取得部５５は、当該ＵＲＬを取得してもよい。そして、取得部５５は、当該取得したＵＲＬを、取得したレコードと対応付けて、第二の表に追記してもよい。かかる場合の第二の表の例は、図１５である。

　また、例えば、スコア格納部５３に、ＵＲＬ「http://official.beautyscreen.com」とスコア「１００」とを対応付けて有するＷｅｂページスコア管理情報が格納されているとする。この場合、取得部５５は、上記ＵＲＬに対応するスコア「１００」を、スコア格納部５３から取得する。そして、取得部５５は、当該取得したスコアを、取得したレコードと対応付けて、第二の表に追記する。かかる場合の第二の表の例は、図１６である。

　（例２：レコードの生成）

　本例において、表格納部５１には、図１７から図２１に示す第二の表が格納されているものとする。当該第二の表は、それぞれ、２つの属性を有し、かつ当該属性の属性値を有する。また、当該第二の表において、項目名「ＩＤ」は、通常、属性値ではないが、属性値としてもよい。また、図１７と図１８の第二の表において、「＊」はユニーク識別子であり、当該ユニーク識別子が付された属性がユニークであることを示す。

　まず、結合部５６は、ユニーク識別子を有する図１７と図１８の第二の表を取得する。

　次に、結合部５６は、図１７の「ＩＤ＝０１１」の固有名称「ＰＡＴ－Ａｎａｌｙｚｅｒ」と同一の属性および属性値を有するレコードである図１８の「ＩＤ＝０１４」のレコード「ＰＡＴ－Ａｎａｌｙｚｅｒ｜ソフトウェア」を取得する。そして、結合部５６は、図１７の「ＩＤ＝０１１」のレコード「特許分析株式会社｜ＰＡＴ－Ａｎａｌｙｚｅｒ」と、図１８の「ＩＤ＝０１４」のレコード「ＰＡＴ－Ａｎａｌｙｚｅｒ｜ソフトウェア」とを結合し、新たなレコード「特許分析株式会社｜ＰＡＴ－Ａｎａｌｙｚｅｒ｜ソフトウェア」を生成する。

　次に、結合部５６は、生成したレコード「特許分析株式会社｜ＰＡＴ－Ａｎａｌｙｚｅｒ｜ソフトウェア」を、第一の表が有するレコードとして、表格納部５１に蓄積する。このとき、結合部５６は、図１７に示すような表の形式にて、レコードを生成する。また、このとき、例えば、表格納部５１に当該レコードに対応する属性を有する表が存在しない場合、結合部５６は、まず、生成したレコードに対応する属性を有する表を生成し、当該表に取得したレコードを追記する。

　次に、結合部５６は、上記と同様に、図１７の「ＩＤ＝０１２」の固有名称「ＢｅａｕｔｙＳｃｒｅｅｎ」と同一の属性および属性値を有するレコードである図１８の「ＩＤ＝０１１」のレコード「ＢｅａｕｔｙＳｃｒｅｅｎ｜フルＨＤテレビ」を取得する。そして、結合部５６は、図１７の「ＩＤ＝０１２」のレコード「株式会社良品家電｜ＢｅａｕｔｙＳｃｒｅｅｎ」と、図１８の「ＩＤ＝０１１」のレコード「ＢｅａｕｔｙＳｃｒｅｅｎ｜フルＨＤテレビ」とを結合し、新たなレコード「株式会社良品家電｜ＢｅａｕｔｙＳｃｒｅｅｎ｜フルＨＤテレビ」を生成する。そして、結合部５６は、上記と同様に、生成したレコード「株式会社良品家電｜ＢｅａｕｔｙＳｃｒｅｅｎ｜フルＨＤテレビ」を表格納部５１に蓄積する。なお、結合部５６は、ここで処理を終了しても良い。

　また、結合部５６は、図１７の「ＩＤ＝０１３」と「ＩＤ＝０１４」のレコードについては、図１８のレコードにおいて、同一の属性および属性値を有するレコードが存在しないので、結合の処理を行わない。

　次に、結合部５６は、ユニーク識別子を有さない図１９と図２０と図２１の第二の表を取得する。

　次に、結合部５６は、取得した第二の表の各々から、レコードを１つずつ取得し、３つのレコードの組み合わせを生成する。例えば、図２３の「ＩＤ＝０１１」のレコード、図２０の「ＩＤ＝０１１」のレコード、図２１の「ＩＤ＝０１１」のレコードを取得し、これら３つのレコードの組み合わせ『「特許分析株式会社｜情報サービス」、「電気機械器具製造｜７６０，０００千円」、「株式会社建築物｜６４０，０００千円」』を生成したとする。当該組み合わせは、結合条件を満たさないので、結合部５６は、何も行わない。

　次に、結合部５６は、上記と同様に、レコードの組み合わせを生成するために、図１９の「ＩＤ＝０１３」のレコード「株式会社建築物｜総合工事」、図２０の「ＩＤ＝０１１」のレコード「総合工事｜６４０，０００千円」、図２１の「ＩＤ＝０１１」のレコード「株式会社建築物｜６４０，０００千円」を取得し、レコードの組み合わせ『「株式会社建築物｜総合工事」、「総合工事｜６４０，０００千円」、「株式会社建築物｜６４０，０００千円」』を生成したとする。当該組み合わせは、結合条件を満たすので、結合部５６は、当該レコードを結合し、新たなレコード「株式会社建築物｜総合工事｜６４０，０００千円」を生成する。そして、結合部５６は、上記と同様に、生成したレコードを表格納部５１に蓄積する。

　（例３：ルールの取得）

　本例において、表格納部５１には、例２にて生成した第一の表、および図１７から図２１に示す第二の表が格納されているものとする。

　まず、ルール取得部５７は、クローリングを行い、Ｗｅｂから１以上のＷｅｂページを取得し、図１２および図１３に示すＷｅｂページを取得したものとする。

　次に、ルール取得部５７は、取得したレコードを順に用いて、取得した図１２と図１３のＷｅｂページから、当該属性値が出現する１以上のルールを取得する。ここで、例えば、ルール取得部５７は、図１７の「ＩＤ＝０１２」のレコード「株式会社良品家電｜ＢｅａｕｔｙＳｃｒｅｅｎ」を用いるとする。すると、ルール取得部５７は、当該レコードが有する２つの属性値の両方が存在する文字列を、図１２と図１３のＷｅｂページから取得する。図１２のテキスト文書には、当該レコードを有する文字列が、１２行目と、１３行目から１４行目に掛けて存在する。また、図１３のＨＴＭＬ文書には、当該レコードを有する文字列が、１２行目と、１３行目から１４行目に掛けて存在する。従って、ルール取得部５７は、当該行に存在する文字列「株式会社良品家電、フルＨＤテレビ、ＢｅａｕｔｙＳｃｒｅｅｎを発売」、「株式会社良品家電は、新型のフルＨＤテレビ、ＢｅａｕｔｙＳｃｒｅｅｎを、＜改行＞２０１１年１０月１４日に発売することを発表しました」、「＜ｈ２＞株式会社良品家電、フルＨＤテレビ、ＢｅａｕｔｙＳｃｒｅｅｎを発売＜／ｈ２＞」、「＜ｐ＞株式会社良品家電は、新型のフルＨＤテレビ、ＢｅａｕｔｙＳｃｒｅｅｎを、＜改行＞２０１１年１０月１４日に発売することを発表しました＜／ｐ＞」を取得する。

　ここで、会社名に対応する変数を「％会社名％」、固有名称に対応する変数を「％固有名称％」とする。次に、ルール取得部５７は、取得した文字列中の属性値を、これらの変数で置換し、新たなルール「％会社名％、フルＨＤテレビ、％固有名称％を発売」、「％会社名％は、新型のフルＨＤテレビ、％固有名称％を、＜改行＞２０１１年１０月１４日に発売することを発表しました」、「＜ｈ２＞％会社名％、フルＨＤテレビ、％固有名称％を発売＜／ｈ２＞」、「＜ｐ＞％会社名％は、新型のフルＨＤテレビ、％固有名称％を、＜改行＞２０１１年１０月１４日に発売することを発表しました＜／ｐ＞」を取得する。

　なお、取得したルールが有する「フルＨＤテレビ」は、第二の表から、商品名であることが明らかである。また、取得したルールが有する「２０１１年１０月１４日」は、その書式から日付であることが明らかである。従って、ルール取得部５７は、これらの商品名、日付を、これらに対応する変数に置換したルール「％会社名％、％商品名％、％固有名称％を発売」、「％会社名％は、新型の％商品名％、％固有名称％を、＜改行＞％日付％に発売することを発表しました」、「＜ｈ２＞％会社名％、％商品名％、％固有名称％を発売＜／ｈ２＞」、「＜ｐ＞％会社名％は、新型の％商品名％、％固有名称％を、＜改行＞％日付％に発売することを発表しました＜／ｐ＞」を取得してもよい。

　次に、ルール取得部５７は、当該取得したルールを、ルール格納部５２に蓄積する。

　以上、本実施の形態によれば、Ｗｅｂ上の膨大で構造化されていない情報から、構造化されたデータベースを自動構築できる。

　また、本実施の形態によれば、データベース化した情報を自動的に結合し、属性数の少ないレコードから、当該属性数よりも属性数の多いレコードを生成することにより、Ｗｅｂ上の膨大で構造化されていない情報から、知識を増殖できる。

　また、本実施の形態によるデータベース構築装置５によれば、レコードを取得する際のルールを、自動的に増やすことができる。

　また、上記各実施の形態において、一の装置に存在する２以上の通信手段は、物理的に一の媒体で実現されてもよいことは言うまでもない。

　また、上記各実施の形態におけるデータベース構築装置は、例えば、スタンドアロンの装置であってもよいし、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、例えば、ＡＳＰ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｅｒｖｉｃｅ　Ｐｒｏｖｉｄｅｒ）としてデータベースの構築が行われてもよい。

　また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよいし、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

　また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよいし、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。

　また、上記各実施の形態におけるデータベース構築装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、属性の異なるｍ個（ｍ≧３）の属性値を有する１以上のレコードを有する第一の表と、属性の異なるｎ個（ｎ≦ｍ－１）の属性値を有する１以上のレコードを有する２以上の第二の表と、１以上のＷｅｂページから前記ｎ個の属性値を有する１以上のレコードを取得するための１以上のルールが格納されており、コンピュータを、前記ルールに従い、１以上のＷｅｂページから前記ｎ個の属性値を有する１以上のレコードを取得し、前記第二の表に追記する取得部と、前記２以上の第二の表が有する２以上のレコードを結合し、前記ｍ個の属性値を有する１以上のレコードを生成し、前記第一の表に追記する結合部として機能させるためのプログラムである。

　なお、上記プログラムにおいて、ハードウェアでしか行われない処理は少なくとも含まれない。

　また、上記プログラムは、サーバなどからダウンロードされることによって実行されてもよいし、所定の記録媒体（例えば、ＣＤ－ＲＯＭなどの光ディスクや磁気ディスク、半導体メモリなど）に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。

　また、上記プログラムを実行するコンピュータは、単数であってもよいし、複数であってもよい。つまり、集中処理を行ってもよいし、あるいは分散処理を行ってもよい。

　また、図２２は、前述のプログラムを実行して、前述の実施の形態のデータベース構築装置等を実現するコンピュータシステム９の概観図である。前述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。

　図２２において、コンピュータシステム９は、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）ドライブ９０１１、ＦＤ（Ｆｌｅｘｉｂｌｅ　Ｄｉｓｋ）ドライブ９０１２を含むコンピュータ９０１と、キーボード９０２と、マウス９０３と、モニタ９０４とを備える。

　図２３は、コンピュータシステム９のブロック図である。図２３において、コンピュータ９０１は、ＣＤ－ＲＯＭドライブ９０１１、ＦＤドライブ９０１２に加えて、ＭＰＵ（Ｍｉｃｒｏ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１３と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ－Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０１４と、ＭＰＵ９０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０１５と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク９０１６と、ＣＤ－ＲＯＭドライブ９０１１、ＦＤドライブ９０１２、ＭＰＵ９０１３等を相互に接続するバス９０１７とを備える。ここでは図示しないが、コンピュータ９０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを備えていてもよい。

　コンピュータシステム９に、前述の実施の形態のデータベース構築装置等の機能を実行させるプログラムは、ＣＤ－ＲＯＭ９１０１、またはＦＤ９１０２に記憶されて、ＣＤ－ＲＯＭドライブ９０１１またはＦＤドライブ９０１２に挿入され、さらにハードディスク９０１６に転送されてもよい。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ９０１に送信され、ハードディスク９０１６に記憶されてもよい。プログラムは実行の際にＲＡＭ９０１５にロードされる。プログラムは、ＣＤ－ＲＯＭ９１０１、ＦＤ９１０２またはネットワークから直接、ロードされてもよい。

　プログラムは、コンピュータ９０１に、前述の実施の形態のデータベース構築装置等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいればよい。コンピュータシステム９がどのように動作するかは周知であり、詳細な説明は省略する。

　本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

　以上のように、本発明にかかるデータベース構築装置は、Ｗｅｂページからデータベースを構築できるという効果を有し、データベース構築装置等として有用である。

　３、４　商標侵害検知装置
　５　データベース構築装置
　９　コンピュータシステム
　３１、４０１　データベース
　３２　受付部
　３３　商標類否判断部
　３４、４０２　商品類否判断部
　３５　出力部
　５１　表格納部
　５２　ルール格納部
　５３　スコア格納部
　５４　辞書格納部
　５５　取得部
　５６　結合部
　５７　ルール取得部
　３３１　商標文字列取得部
　３３２　称呼取得部
　３３３　称呼表示部
　３３４　称呼指定受付部
　３３５　類似検索部
　３３６　商標類否判断結果取得部
　４０２１　商品コード管理手段
　４０２２　コード特定情報取得手段
　４０２３　商品類否判断手段

Claims

属性の異なるｍ個（ｍ≧３）の属性値を有する１以上のレコードを有する第一の表と、属性の異なるｎ個（ｎ≦ｍ－１）の属性値を有する１以上のレコードを有する２以上の第二の表とが格納される表格納部と、
１以上のＷｅｂページから前記ｎ個の属性値を有する１以上のレコードを取得するための１以上のルールが、前記第二の表に対応付いて格納されるルール格納部と、
前記ルールに従い、１以上のＷｅｂページから前記ｎ個の属性値を有する１以上のレコードを取得し、前記第二の表に追記する取得部と、
前記２以上の第二の表が有する２以上のレコードを結合し、前記ｍ個の属性値を有する１以上のレコードを生成し、前記第一の表に追記する結合部とを具備するデータベース構築装置。
前記ルール格納部には、
１以上のＷｅｂページから前記ｍ個の属性値を有する１以上のレコードを取得するための１以上のルールが、前記第一の表に対応付いて格納され、
前記取得部は、
前記ルールに従い、１以上のＷｅｂページから前記ｍ個の属性値を有する１以上のレコードを取得し、前記第一の表に追記する請求項１記載のデータベース構築装置。
前記表格納部には、
属性がユニークであるか否かを示すユニーク識別子を有する前記第二の表が格納され、
前記結合部は、
前記２以上の異なる第二の表の各々が有するレコードであり、同一の属性の同一の属性値を有し、かつ当該属性が前記ユニーク識別子によりユニークであることが示される２以上のレコードを、当該属性値をキーに結合し、前記ｍ個の属性値を有する１以上のレコードを生成し、前記第一の表に追記する請求項１記載のデータベース構築装置。
前記結合部は、
前記３以上の異なる第二の表の各々が有するレコードであり、同一の属性の同一の属性値を２以上有するレコードを、当該属性値をキーに結合し、前記ｍ個の属性値を有する１以上のレコードを生成し、前記第一の表に追記する請求項１記載のデータベース構築装置。
前記Ｗｅｂページは、当該Ｗｅｂページを識別するＷｅｂページ識別子を有し、
前記取得部は、
前記１以上のレコードを取得する際に、Ｗｅｂページが有するＷｅｂページ識別子をも取得し、当該１以上のレコードに対応付けて当該Ｗｅｂページ識別子を前記第一の表または第二の表に追記する請求項１記載のデータベース構築装置。
前記１以上のＷｅｂページから、前記表格納部に格納されている１以上のレコードが存在する文字列を取得し、当該文字列のうち、当該レコード以外の文字列を前記ルールとして取得し、前記ルール格納部に蓄積するルール取得部をさらに具備する請求項１記載のデータベース構築装置。
前記ルール取得部は、
取得した１以上のルールを、当該ルールを取得した際に用いたレコードを有する前記第一の表または第二の表に対応付けて、前記ルール格納部に蓄積する請求項６記載のデータベース構築装置。
前記結合部は、
前記表格納部に格納されている２以上の第二の表が有するレコードであり、前記取得部が取得したレコードまたは前記属性値生成部が生成したレコードのうちの２以上のレコードを結合し、前記ｍ個の属性値を有する１以上のレコードを生成し、前記第一の表に追記する請求項１記載のデータベース構築装置。
請求項１記載のデータベース構築装置を用いて構築したデータベースであり、会社名と、商品名または類似群コードと、固有名称とを有するレコードを１以上格納しているデータベースと、
商標と、商品の類似群コードを特定するコード特定情報とを有する調査対象商標情報を受け付ける受付部と、
前記データベースが有する１以上の各レコードの固有名称と、調査対象商標情報が有する商標との類否判断を行う商標類否判断部と、
前記データベースが有する１以上の商品名または１以上の類似群コードと、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う商品類否判断部と、
前記商標類否判断部の判断結果と、前記商品類否判断部の判断結果とから、商標の類似および商品の類似に関する情報を出力する出力部とを具備する商標侵害検知装置。
記録媒体に、
属性の異なるｍ個（ｍ≧３）の属性値を有する１以上のレコードを有する第一の表と、属性の異なるｎ個（ｎ≦ｍ－１）の属性値を有する１以上のレコードを有する２以上の第二の表と、
１以上のＷｅｂページから前記ｎ個の属性値を有する１以上のレコードを取得するための１以上のルールが格納されており、
取得部と、結合部とを用いて行われるデータベース構築方法であって、
前記取得部が、前記ルールに従い、１以上のＷｅｂページから前記ｎ個の属性値を有する１以上のレコードを取得し、前記第二の表に追記する取得ステップと、
前記結合部が、前記２以上の第二の表が有する２以上のレコードを結合し、前記ｍ個の属性値を有する１以上のレコードを生成し、前記第一の表に追記する結合ステップとを具備するデータベース構築方法。
記録媒体に、
請求項１記載のデータベース構築装置を用いて構築したデータベースであり、会社名と、商品名または類似群コードと、固有名称とを有するレコードを１以上格納しているデータベースが格納されており、
受付部、商標類否判断部、商品類否判断部、および出力部とを用いて行われる商標侵害検知方法であって、
前記受付部が、商標と、商品の類似群コードを特定するコード特定情報とを有する調査対象商標情報を受け付ける受付ステップと、
前記商標類否判断部が、前記データベースが有する１以上の各レコードの固有名称と、調査対象商標情報が有する商標との類否判断を行う商標類否判断ステップと、
前記商品類否判断部が、前記データベースが有する１以上の商品名または１以上の類似群コードと、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う商品類否判断ステップと、
前記出力部が、前記商標類否判断ステップにおける判断結果と、前記商品類否判断ステップにおける判断結果とから、商標の類似および商品の類似に関する情報を出力する出力ステップとを具備する商標侵害検知方法。