WO2014207941A1 - 判定装置、判定方法、及びプログラム - Google Patents

判定装置、判定方法、及びプログラム Download PDF

Info

Publication number
WO2014207941A1
WO2014207941A1 PCT/JP2013/067942 JP2013067942W WO2014207941A1 WO 2014207941 A1 WO2014207941 A1 WO 2014207941A1 JP 2013067942 W JP2013067942 W JP 2013067942W WO 2014207941 A1 WO2014207941 A1 WO 2014207941A1
Authority
WO
WIPO (PCT)
Prior art keywords
link
content
area
acquired
uri
Prior art date
Application number
PCT/JP2013/067942
Other languages
English (en)
French (fr)
Inventor
由紀子 落合
Original Assignee
楽天株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 楽天株式会社 filed Critical 楽天株式会社
Priority to PCT/JP2013/067942 priority Critical patent/WO2014207941A1/ja
Priority to JP2015523817A priority patent/JP5886477B2/ja
Priority to US14/901,081 priority patent/US10585965B2/en
Publication of WO2014207941A1 publication Critical patent/WO2014207941A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0603Catalogue ordering

Definitions

  • the present invention relates to a determination device, a determination method, and a program.
  • a system that displays content such as a URL (Uniform Resource Locator) web page linked to the text or the photo has become widespread.
  • a web catalog used in web shopping lists a plurality of products, and when a user selects a desired product code or photo, a product page (contents) containing information on the product is displayed.
  • a product code and a photo are set in a clickable area, and a URL of a product page is linked to each clickable area.
  • Patent Document 1 describes a technique for adding link information to texts, photos, etc. when converting data for creating printed matter such as magazines and catalogs into PDF data.
  • the present invention has been made in view of the above problems, and a purpose thereof is a determination device that can easily determine whether correspondence between information included in a web page and a URL linked to the information is correct or incorrect. It is in providing a determination method and a program.
  • a determination apparatus includes an information acquisition unit that acquires link source information obtained in or around a link area associated with a URI, and a storage unit that stores content Content acquisition means for acquiring content specified by the URI associated with the link area, the link source information acquired by the information acquisition means, and the content acquired by the content acquisition means And determining means for determining whether the association between the link area and the URI is correct or not.
  • the determination device may further include a character recognition unit that recognizes the link source information acquired by the information acquisition unit as a character.
  • the determination unit determines whether the link area and the URI are correctly associated based on the character recognized by the character recognition unit and the content acquired by the content acquisition unit. Also good.
  • the determination unit may determine whether the correspondence is correct or not depending on whether or not the character recognized by the character recognition unit is included in the content acquired by the content acquisition unit.
  • the determination unit determines whether the correspondence is determined based on whether or not a plurality of the characters recognized by the character recognition unit are included in the content acquired by the content acquisition unit. The correctness of the attachment may be determined.
  • the determination device may further include a coordinate acquisition unit that acquires the coordinates of the link area in the page. Further, the information acquisition unit may acquire the link source information based on the coordinates of the link area acquired by the coordinate acquisition unit.
  • the determination device may further include notification means for notifying an error message when the association is incorrect.
  • the determination device sets the link area in a page, acquires the URI corresponding to the set link area from a table in which the URI is registered in advance, and the link area, the URI, It may further include generating means for associating.
  • the URIs may be registered in correspondence with the arrangement order of the link areas.
  • the determination method includes an information acquisition step for acquiring link source information obtained from a link area associated with a URI or the periphery of the link area, and a storage unit for storing content, in the link area. Based on the content acquisition step of acquiring the content specified by the associated URI, the link source information acquired by the information acquisition step, and the content acquired by the content acquisition step, the link A determination step of determining whether or not the correspondence between the area and the URI is correct.
  • the program according to the present invention associates the link source information with the link area from the link area associated with the URI or the link area information obtained from the link area and the storage means for storing the content.
  • the link area Is a program for causing a computer to function as a determination means for determining whether or not the correspondence between the URI and the URI is correct.
  • This program may be stored in a computer-readable information storage medium such as a CD-ROM or DVD-ROM.
  • the correctness / incorrectness of the association between the link area and the URL is determined based on the characters in the link area and the content corresponding to the URL associated with the link area. Therefore, it is possible to easily determine whether the correspondence between the information included in the web page and the URL to which the information is linked is correct.
  • FIG. 6 is an operation flowchart of the determination apparatus according to the first embodiment. It is a figure which shows an example of a goods page. It is a figure which shows an example of an HTML file. It is a figure which shows an example of a web catalog and a goods page. It is a figure which shows an example of an HTML file. It is an operation
  • FIG. 1 is a diagram showing an example of a web catalog.
  • a web catalog web page
  • the web catalog lists a plurality of items of information such as soy sauce, apples and bread.
  • the product code, photo, text, and the like of each product are associated with the URL of a product page (content) on which detailed information about the corresponding product is posted.
  • the product name, product code, and photograph of the product “soy sauce” are associated with the URL of the product page “soy sauce” shown in FIG.
  • a product page of “soy sauce” see FIG.
  • the determination apparatus for example, in the form of Internet shopping as described above, the product posted in the web catalog (see FIG. 1) and the URL of the product page (see FIG. 2) on which information on the product is posted. It is possible to easily determine the correctness of the association with.
  • the determination process is executed based on the operation of the site operator.
  • FIG. 3 is a hardware configuration diagram of the determination apparatus according to the present embodiment.
  • the determination device 10 includes a communication unit 1, a CPU 2, a memory 3, and a storage unit 4.
  • the hardware elements constituting the determination device 10 are connected to each other by a bus so as to be able to exchange data.
  • the communication unit 1 transmits / receives information to / from the user terminal from the Internet, for example.
  • the CPU 2 controls each part of the apparatus and executes various types of information processing.
  • the memory 3 holds various programs and data.
  • the memory 3 also has a work area for the CPU 2.
  • the storage unit 4 includes a page DB 4a.
  • the page DB 4a stores a plurality of HTML files corresponding to a plurality of web catalogs.
  • the HTML file is created by the site operator. Specifically, the site operator obtains PDF format image data (catalog data) that is the basis of the web catalog, for example, from a printing company, and based on the obtained catalog data, a clickable area and a link corresponding thereto. An HTML file in which the destination URL is set is created. By displaying the HTML file and the image file specified in the HTML file with the web browser of the user terminal, the web catalog shown in FIG. 1 is displayed.
  • the designation of the clickable area and the designation of the link destination may be designated by, for example, a JavaScript (registered trademark) file different from HTML.
  • the linked product page associated with the product listed in the web catalog is created by the site operator and uploaded to the web server (storage means).
  • the storage unit 4 may be connected to the communication unit 1, the CPU 2, and the memory 3 via the Internet.
  • FIG. 4 is an example of an HTML file corresponding to the web catalog shown in FIG.
  • FIG. 5 is an example of a clickable area (link area) in the web catalog shown in FIG.
  • the HTML file includes an element (map data) for setting a clickable area and a URL associated with the clickable area.
  • the URL “http://aaa.co.jp/soy sauce.html” of the product page of “soy sauce” is set in the rectangular link area at the coordinates (x1, x2, x3, x4), and the coordinates (
  • the URL “http://aaa.co.jp/apple.html” of the product page of “apple” is set in the rectangular link area at the position of y1, y2, y3, y4), and the coordinates (z1, z2, z3) , Z4)
  • the URL “http://aaa.co.jp/pan.html” of the product page “pan” is set in the rectangular link area at the position of z4).
  • Each link area corresponds to a clickable area. As shown in FIG.
  • each clickable area corresponds to a product code field
  • the link area of “soy sauce” is clickable area 1
  • the link area of “apple” is clickable area 2
  • the link area of “pan” is clickable. This is indicated by area 3.
  • the clickable area 4 will be described later.
  • FIG. 6 is a functional block diagram of the determination apparatus 10.
  • the determination apparatus 10 includes a page acquisition unit 11, a coordinate acquisition unit 12 (coordinate acquisition unit), an image acquisition unit 13 (information acquisition unit), a character recognition unit 14 (character recognition unit), and a URL acquisition unit. 15, a linked page acquisition unit 16 (content acquisition unit), a character determination unit 17 (determination unit), a notification unit 18 (notification unit), and a page generation unit 19 (generation unit).
  • This program may be installed in the determination apparatus 10 from a computer-readable information storage medium such as a CD-ROM, DVD-ROM, or memory card, or may be downloaded from a communication network such as the Internet.
  • the page acquisition unit 11 acquires an HTML file corresponding to the web catalog from the page DB 4a.
  • the page acquisition unit 11 acquires, for example, an HTML file shown in FIG.
  • the coordinate acquisition unit 12 acquires the coordinates of the clickable area from the HTML file acquired by the page acquisition unit 11.
  • the coordinate acquisition unit 12 may, for example, from the map data of the HTML file shown in FIG. 4, the coordinates of the clickable area 1 (x1, x2, x3, x4), the coordinates of the clickable area 2 (y1, y2, y3, y4), or The coordinates (z1, z2, z3, z4) of the clickable area 3 are acquired.
  • the image acquisition unit 13 acquires an image (area image) (link source information) in the clickable area corresponding to the coordinates acquired by the coordinate acquisition unit 12 in the image data (catalog data) of the web catalog shown in FIG. .
  • the image acquisition unit 13 for example, the area image “ ⁇ 1234” of the clickable area 1 corresponding to the coordinates (x1, x2, x3, x4) and the area image of the clickable area 2 corresponding to the coordinates (y1, y2, y3, y4).
  • the area image “ ⁇ 3456” of the clickable area 3 corresponding to “ ⁇ 2345” or the coordinates (z1, z2, z3, z4) is acquired.
  • the image acquisition unit 13 When a predetermined mark (here, “ ⁇ ” (star mark)) is added to the catalog data, the image acquisition unit 13 recognizes the catalog data and displays a predetermined area including the mark as an area image. You may get as The image acquisition unit 13 acquires the text display as an area image when the clickable area is a text display field (clickable area 4 in FIG. 5), and acquires the photograph as an area image when the clickable area is a photo field. Note that the image acquisition unit 13 may acquire the peripheral image instead of the image in the clickable area. For example, for the clickable area 1 in FIG. 5, an area located in the posting area of the corresponding product may be acquired as an area image. If the size of the posting area of the corresponding product and the position of the clickable area in the posting area are known, the area in the posting area can be specified.
  • the character recognition unit 14 performs character recognition on the area image acquired by the image acquisition unit 13.
  • the character recognition unit 14 performs character recognition using, for example, an optical character recognition (OCR) method.
  • OCR optical character recognition
  • the character recognition unit 14 recognizes a product code when the clickable area is a product code column, and recognizes text when the clickable area is a text display column. If the character code can be acquired, the character recognition process may not be performed.
  • the URL acquisition unit 15 acquires the URL of the product page corresponding to the coordinates acquired by the coordinate acquisition unit 12 from the HTML file acquired by the page acquisition unit 11. For example, the URL acquisition unit 15 obtains the URL “http://aaa.co.jp/soy sauce” corresponding to the coordinates (x1, x2, x3, x4) of the clickable area 1 from the map data of the HTML file shown in FIG. “html”, URL “http://aaa.co.jp/apple.html” corresponding to the coordinates (y1, y2, y3, y4) of the clickable area 2, or the coordinates (z1, z2, z3) of the clickable area 3 , Z4), the URL “http://aaa.co.jp/pan.html” is acquired.
  • the link destination page acquisition unit 16 acquires the product page of the URL acquired by the URL acquisition unit 15 from the web server. For example, the linked page acquisition unit 16 receives a product page of URL “http://aaa.co.jp/soy sauce.html”, URL “http://aaa.co.jp” shown in FIG. A product page of “/apple.html” or a product page of URL “http://aaa.co.jp/bread.html” is acquired.
  • the character determination unit 17 determines whether or not the product page acquired by the linked page acquisition unit 16 includes a character recognized by the character recognition unit 14. Note that the character determination unit 17 may determine whether or not the product page includes a character that matches the recognized character. If there are a plurality of recognized characters, the number of characters greater than or equal to a predetermined ratio is determined. You may determine whether it is contained in the page. When the clickable area includes a photo column, the character determination unit 17 further calculates the similarity between the area image acquired by the image acquisition unit 13 and the image of the photo posted on the product page. The determination may be performed based on the similarity. In this case, the character determination unit 17 functions as an image processing determination unit, and calculates similarity by extracting and comparing feature points of images, for example.
  • the notification unit 18 notifies a message based on the determination result of the character determination unit 17. Specifically, when the recognized character is not included in the product page, the notification unit 18 notifies the error message because the link association is incorrect. When the recognized character is included in the product page, the notification unit 18 may notify a message that the link association is correct.
  • the page generation unit 19 performs processing of generating an HTML file (see FIG. 4) by associating the coordinates of the clickable area with the URL of the product page.
  • the HTML file generated by the page generation unit 19 is stored in the page DB 4a.
  • FIG. 7 is an operation flowchart of the determination apparatus 10 according to the first embodiment.
  • the web catalog shown in FIG. 1 and the product page shown in FIG. 2 will be described as examples.
  • the site operator creates an HTML file (see FIG. 4) corresponding to the web catalog shown in FIG. 1, and the created HTML file is stored in the page DB 4a. Further, it is assumed that a plurality of product pages shown in FIG. 2 created by the site operator are uploaded to the web server. In the web catalog shown in FIG. 1, the product code column of each product is set in the clickable areas 1 to 3 as shown in FIG. The site operator creates an HTML file based on a list in which the product code of each product and the URL of the product page are associated in advance.
  • the site operator selects an inspection mode for inspecting the correctness of the link association in the determination apparatus 10. As a result, the following inspection process is executed.
  • the page acquisition unit 11 acquires the HTML file shown in FIG. 4 from the page DB 4a (S101).
  • the coordinate acquisition unit 12 acquires the coordinates (x1, x2, x3, x4) of the clickable area 1 (see FIG. 5) from the first data of the map data in the HTML file acquired in S101 ( S102).
  • the image acquisition unit 13 is an image (area image) of the clickable area 1 corresponding to the coordinates (x1, x2, x3, x4) acquired in S102. 1) is acquired (S103).
  • “ ⁇ 1234” in the product code column is acquired as the area image 1.
  • the character recognition unit 14 performs character recognition on the area image 1 acquired in S103 (S104).
  • “ ⁇ 1234” in the area image 1 is recognized as a character.
  • the URL acquisition unit 15 includes the URL “http://aaa.co.jp/soy sauce.com” corresponding to the coordinates (x1, x2, x3, x4) acquired in S102 in the HTML file acquired in S101. html "is acquired (S105).
  • the linked page acquisition unit 16 acquires the product page (see FIG. 2) of the URL “http://aaa.co.jp/soy sauce.html” acquired in S105 from the web server (S106). .
  • the character determination unit 17 determines whether or not the character “ ⁇ 1234” recognized in S104 is included in the product page of “soy sauce” acquired in S106 (S107). In the example shown in FIG. 2, since the product code “ ⁇ 1234” is included in the product page of “soy sauce”, it is determined that the link association is correct, and the process proceeds to S109.
  • FIG. 9 shows an HTML file corresponding to the product page shown in FIG. As shown in the figure, an incorrect URL “http://aaa.co.jp/dressing.html” is set in the first data of the map data.
  • S109 it is determined whether or not there is a clickable area (uninspected area) that has not been subjected to the inspection process. Specifically, the determination process is performed with reference to the map data in the HTML file acquired in S101. Thereby, the inspection process can be executed for all the clickable areas.
  • the process returns to S102, and the coordinate acquisition unit 12 acquires the coordinates of the next clickable area from the map data of the HTML file acquired in S101.
  • the coordinate acquisition unit 12 acquires the coordinates (b1, b2, b3, b4) of the clickable area 2 (S102). Thereafter, the same processing as described above is performed.
  • the determination apparatus 10 ends the inspection process.
  • the determination device 10 it is possible to easily determine whether the correspondence between the product information of the web catalog and the URL of the product page linked to the product information is correct or incorrect. Even if the clickable area and the URL are correctly associated with each other, there is a possibility that the product page (content) specified by the URL is incorrect and does not correspond to the information on the clickable area. An error can be detected.
  • Example 2 Although the clickable area is set in the product code column in the first embodiment, the present invention is not limited to this. In the second embodiment, the clickable area is set in the text display field (clickable area 4 in FIG. 5). Below, it demonstrates centering on difference with Example 1.
  • FIG. FIG. 10 shows information on the product “A soy sauce” of the product code “ ⁇ 5678” posted in the web catalog shown in FIG. 1 and the product page of the product “A soy sauce”.
  • the coordinate acquisition unit 12 acquires the coordinates (s1, s2, s3, s4) (see FIG. 5) of the clickable area 4 from the map data in the HTML file (see FIG. 11) acquired by the page acquisition unit 11. For the clickable areas 1 to 3, the inspection process shown in the first embodiment may be executed.
  • the image acquisition unit 13 is an image (area image) of the clickable area 4 corresponding to the coordinates (s1, s2, s3, s4) acquired by the coordinate acquisition unit 12 in the catalog data (image data) of the web catalog shown in FIG. 4) is acquired.
  • a text display field is acquired as the area image 4.
  • the character recognition unit 14 performs character recognition on the area image 4 acquired by the image acquisition unit 13.
  • the text of the area image 4 is recognized as a character (word).
  • the character recognizing unit 14 performs, for example, “soy sauce”, “100 selections”, “A soy sauce”, “500 ml”, “bonito”, “mirin”, “mellow”, “taste” by morphological analysis. recognize.
  • the URL acquisition unit 15 includes, in the HTML file acquired by the page acquisition unit 11 (see FIG. 11), the URL “http: // // corresponding to the coordinates (s1, s2, s3, s4) acquired by the coordinate acquisition unit 12. “aaa.co.jp/A soy sauce.html”.
  • the linked page acquisition unit 16 acquires the product page (see FIG. 10) of the URL “http://aaa.co.jp/A soy sauce.html” acquired by the URL acquisition unit 15 from the web server.
  • the character determination unit 17 includes a product page of “A soy sauce” acquired by the linked page acquisition unit 16 that includes more than a predetermined percentage of characters among the plurality of characters recognized by the character recognition unit 14. Determine whether or not. For example, it is determined whether or not 80% (seven words) or more of the above eight words are included in the product page “A soy sauce”. In the example of FIG. 10, the product page “A soy sauce” does not include “100 selections”, but includes other 7 words. Therefore, it is determined that the link association is correct.
  • the photo column of the product may be added as a clickable area.
  • the determination process using image recognition may be executed when it is determined that there is an error in the determination process using character recognition (NO in S107).
  • the determination device 10 can determine the correctness / incorrectness of link association for various clickable areas. For one product, all of the product code field, text display field, and photo field may be set in the clickable area. In this case, the determination process corresponding to the clickable area among the above-described determination processes may be performed for each clickable area.
  • this invention demonstrated the web catalog produced using PDF, this invention is applicable to the web page in general containing a link.
  • FIG. 12 is an operation flowchart of the page generation unit 19.
  • the page generation unit 19 sets a clickable area and a link destination URL corresponding to the clickable area based on the image data in the PDF format that is the basis of the web catalog, and performs processing for creating an HTML file. That is, the page generation unit 19 automatically performs the setting of the clickable area and the association of the link destination URL.
  • image data (catalog data) of the web catalog shown in FIG. 1 is taken as an example.
  • the page generation unit 19 extracts a mark (keyword) for specifying the clickable area from the catalog data (S202). For example, “ ⁇ ” is added as a mark.
  • the page generation unit 19 arranges the product codes attached to the marks in the arrangement order based on the coordinates of the marks (S203).
  • FIG. 13 shows a product code list table arranged in the order of arrangement.
  • the page generation unit 19 determines the coordinates (x1, x2, x3, x4) of the first clickable area 1 based on the coordinates of the mark of the first product code (S204).
  • the page generation unit 19 acquires the first URL “http://aaa.co.jp/soy sauce.html” from the URL list table (see FIG. 14) created by the site operator (see FIG. 14). S205).
  • the page generation unit 19 uses the coordinates (x1, x2, x3, x4) of the first clickable area 1 determined in S204 and the first URL “http://aaa.co” acquired in S205. .Jp / soy sauce.html "is associated and registered in the HTML file (see FIG. 15) (S206).
  • the page generation unit 19 determines the coordinates (y1, y2, y3, y4) of the second clickable area 2 based on the coordinates of the mark of the second product code. Thereafter, the same processing as described above is performed, and the coordinates (y1, y2, y3, y4) of the second clickable area 2 and the second URL “http://aaa.co.jp/apple” are stored in the HTML file. .Html "is registered in association with each other.
  • the page generation unit 19 repeats the above process for all clickable areas, and the coordinates of each clickable area and each URL are registered in the HTML file in association with each other. Thereby, the HTML file shown in FIG. 4 is generated.
  • the correspondence between the coordinates of the clickable area and each URL can be automatically performed, so that errors in the association can be reduced.
  • the link destination page acquisition unit 16 converts the URL acquired by the URL acquisition unit 15 into a local address, and acquires a product page based on the converted address.
  • the link destination page acquisition unit 16 converts the URL into “local storage path + file name”. For example, “URL: http://aaa.co.jp/soy sauce.html” is converted to “C: ⁇ temp ⁇ soy sauce.html”.
  • the link destination page DB 4 b in the storage unit 4 of the determination apparatus 10 can be used. Thereby, the link destination page acquisition part 16 can acquire a goods page reliably.
  • a web catalog having only one page has been described.
  • link association and determination of link association errors can be performed by applying the present invention. Can be performed efficiently.
  • the present invention is not limited to the web page. For example, it may be displayed on a smartphone or tablet application and applied to a screen (page) including a link.
  • the link destination is specified by a URI (Uniform Resource Identifier).
  • 10 determination device 1 communication unit, 2 CPU, 3 memory, 4 storage unit, 4a page DB, 4b linked page DB, 11 page acquisition unit, 12 coordinate acquisition unit, 13 image acquisition unit, 14 character recognition unit, 15 URL Acquisition unit, 16 linked page acquisition unit, 17 character determination unit, 18 notification unit, 19 page generation unit.

Abstract

 判定装置(10)は、URLが対応付けられたリンクエリア内の画像を取得する画像取得部(13)と、コンテンツを記憶する記憶手段から、前記リンクエリアに対応付けられた前記URLによって特定されたリンク先ページを取得するリンク先ページ取得部(16)と、画像取得部(13)により取得された画像と、リンク先ページ取得部(16)により取得されたリンク先ページとに基づいて、前記リンクエリアと前記URLとの対応付けの正誤を判定する文字判定部(17)と、を含む。

Description

判定装置、判定方法、及びプログラム
 本発明は、判定装置、判定方法、及びプログラムに関する。
 近年、ユーザがウェブサイトにアクセスしてウェブページに含まれるテキストや写真を選択すると、該テキストや写真にリンクされたURL(Uniform Resource Locator)のウェブページ等のコンテンツを表示するシステムが普及している。例えば、ウェブショッピングで利用されるウェブカタログには複数の商品が一覧表示されており、ユーザが所望の商品のコードや写真を選択すると、該商品の情報を掲載した商品ページ(コンテンツ)が表示される。このようなシステムでは、商品コードや写真がクリッカブルエリアに設定されており、各クリッカブルエリアには商品ページのURLがリンクされている。
 また、特許文献1には、雑誌、カタログ等の印刷物作成用のデータをPDFデータに変換する際に、テキストや写真等に、リンク情報を付加する技術が記載されている。
特開2004-289357号公報
 上記システムでは、クリッカブルエリアとURLとの対応付けを、サイト運営者が手作業で行っているため、対応付けの誤りが生じることがある。またサイト運営者は、上記対応付けの正誤の検査を手作業で行わなければならず手間がかかる。
 本発明は、上記課題に鑑みてなされたものであり、その目的は、ウェブページに含まれる情報と、該情報のリンク先のURLとの対応付けの正誤を容易に判定することができる判定装置、判定方法、及びプログラムを提供することにある。
 上記課題を解決するために、本発明に係る判定装置は、URIが対応付けられたリンクエリア内又は該リンクエリア周辺から得られるリンク元情報を取得する情報取得手段と、コンテンツを記憶する記憶手段から、前記リンクエリアに対応付けられた前記URIによって特定されたコンテンツを取得するコンテンツ取得手段と、前記情報取得手段により取得された前記リンク元情報と、前記コンテンツ取得手段により取得された前記コンテンツとに基づいて、前記リンクエリアと前記URIとの対応付けの正誤を判定する判定手段と、を含むことを特徴とする。
 また、前記判定装置は、前記情報取得手段により取得された前記リンク元情報を文字として認識する文字認識手段をさらに含んでもよい。また、前記判定手段は、前記文字認識手段により認識された前記文字と、前記コンテンツ取得手段により取得された前記コンテンツとに基づいて、前記リンクエリアと前記URIとの対応付けの正誤を判定してもよい。
 また、前記判定手段は、前記文字認識手段により認識された前記文字が、前記コンテンツ取得手段により取得された前記コンテンツに含まれるか否かにより、前記対応付けの正誤を判定してもよい。
 また、前記判定手段は、前記文字認識手段により認識された複数の前記文字のうち所定割合以上の数の文字が、前記コンテンツ取得手段により取得された前記コンテンツに含まれるか否かにより、前記対応付けの正誤を判定してもよい。
 また、前記判定装置は、ページ内における前記リンクエリアの座標を取得する座標取得手段をさらに含んでもよい。また、前記情報取得手段は、前記座標取得手段により取得された前記リンクエリアの座標に基づいて、前記リンク元情報を取得してもよい。
 また、前記判定装置は、前記対応付けが誤っている場合にエラーメッセージを報知する報知手段をさらに含んでもよい。
 また、前記判定装置は、ページ内の前記リンクエリアを設定するとともに、予め前記URIが登録されたテーブルから、設定された前記リンクエリアに対応する前記URIを取得し、前記リンクエリアと前記URIとを対応付ける生成手段をさらに含んでもよい。
 また、前記テーブルにおいて、前記URIは、前記リンクエリアの配置順に対応して登録されていてもよい。
 また、本発明に係る判定方法は、URIが対応付けられたリンクエリア内又は該リンクエリア周辺から得られるリンク元情報を取得する情報取得ステップと、コンテンツを記憶する記憶手段から、前記リンクエリアに対応付けられた前記URIによって特定されたコンテンツを取得するコンテンツ取得ステップと、前記情報取得ステップにより取得された前記リンク元情報と、前記コンテンツ取得ステップにより取得された前記コンテンツとに基づいて、前記リンクエリアと前記URIとの対応付けの正誤を判定する判定ステップと、を含むことを特徴とする。
 また、本発明に係るプログラムは、URIが対応付けられたリンクエリア内又は該リンクエリア周辺から得られるリンク元情報を取得する情報取得手段、コンテンツを記憶する記憶手段から、前記リンクエリアに対応付けられた前記URIによって特定されたコンテンツを取得するコンテンツ取得手段、及び、前記情報取得手段により取得された前記リンク元情報と、前記コンテンツ取得手段により取得された前記コンテンツとに基づいて、前記リンクエリアと前記URIとの対応付けの正誤を判定する判定手段、としてコンピュータを機能させるためのプログラムである。このプログラムは、CD-ROMやDVD-ROMなどのコンピュータ可読情報記憶媒体に格納されてもよい。
 本発明によれば、リンクエリア内の文字とリンクエリアに対応付けられたURLに対応するコンテンツとに基づいて、リンクエリアとURLとの対応付けの正誤を判定する。よって、ウェブページに含まれる情報と、該情報のリンク先のURLとの対応付けの正誤を容易に判定することができる。
ウェブカタログの一例を示す図である。 商品ページの一例を示す図である。 判定装置のハードウェア構成図である。 HTMLファイルの一例を示す図である。 クリッカブルエリアの一例を示す図である。 判定装置の機能ブロック図である。 実施例1に係る判定装置の動作フロー図である。 商品ページの一例を示す図である。 HTMLファイルの一例を示す図である。 ウェブカタログ及び商品ページの一例を示す図である。 HTMLファイルの一例を示す図である。 ページ生成部の動作フロー図である。 商品コード一覧のテーブルを示す図である。 URL一覧のテーブルを示す図である。 HTMLファイルの一例を示す図である。 判定装置のハードウェア構成図である。
 以下、本発明の一実施形態について図面に基づき詳細に説明する。以下では、インターネットショッピングのウェブサイトで利用されるウェブカタログを例に挙げる。
 図1は、ウェブカタログの一例を示す図である。ユーザがインターネットショッピングのウェブサイトにアクセスすると、ユーザ端末にウェブカタログ(ウェブページ)が表示される。ウェブカタログには、複数の商品、例えば、しょうゆ、リンゴ、パン等の情報が一覧表示されている。各商品の商品コード、写真、テキスト等には、対応する商品の詳細情報を掲載した商品ページ(コンテンツ)のURLが対応付けられている。例えば、商品「しょうゆ」の商品名、商品コード及び写真には、図2に示す「しょうゆ」の商品ページのURLが対応付けられている。例えばユーザがウェブカタログ(図1参照)において商品「しょうゆ」の写真を選択すると、ユーザ端末には「しょうゆ」の商品ページ(図2参照)が表示される。「しょうゆ」の商品ページには、商品名、写真、商品コード、値段、容量、原材料、メーカ名等の詳細情報が掲載されている。同様に、ウェブカタログの商品「リンゴ」、「パン」には、図2に示す「リンゴ」、「パン」の商品ページが対応付けられている。なお、ユーザが商品の購入を希望する場合は、商品ページに表示された購入ボタンを選択する。
 本実施形態に係る判定装置は、例えば上記のようなインターネットショッピングの形態において、ウェブカタログ(図1参照)に掲載される商品と、該商品の情報を掲載した商品ページ(図2参照)のURLとの対応付けの正誤を容易に判定することを可能にするものである。なお上記判定処理は、サイト運営者の操作に基づき実行される。
 図3は、本実施形態に係る判定装置のハードウェア構成図である。同図に示すように、判定装置10は、通信部1、CPU2、メモリ3、及び記憶部4を含んでいる。判定装置10を構成するハードウェア要素はバスにより相互にデータの授受が可能に接続されている。通信部1は、例えばインターネットよりユーザ端末と情報の送受信を行う。CPU2は装置各部を制御したり、各種の情報処理を実行したりする。メモリ3は、各種のプログラムやデータを保持する。またメモリ3には、CPU2の作業領域も確保される。
 記憶部4には、ページDB4aが含まれる。ページDB4aには、複数のウェブカタログに対応する複数のHTMLファイルが記憶されている。HTMLファイルはサイト運営者により作成される。具体的には、サイト運営者は、ウェブカタログの元となるPDF形式の画像データ(カタログデータ)を例えば印刷会社から入手し、入手したカタログデータに基づいて、クリッカブルエリアと、これに対応するリンク先URLとを設定したHTMLファイルを作成する。このHTMLファイルとこのHTMLファイルにおいて指定された画像ファイルとをユーザ端末のウェブブラウザで表示することにより、図1に示すウェブカタログが表示される。なお、クリッカブルエリアの指定とリンク先の指定とは、例えば、HTMLとは別のJavaScript(登録商標)ファイルにて指定してもよい。ウェブカタログに掲載された商品に対応付けられたリンク先の商品ページは、サイト運営者により作成され、ウェブサーバ(記憶手段)にアップロードされている。なお記憶部4は、インターネットを介して通信部1、CPU2及びメモリ3に接続されていてもよい。
 図4は、図1に示すウェブカタログに対応するHTMLファイルの一例である。図5は、図1に示すウェブカタログにおけるクリッカブルエリア(リンクエリア)の一例である。HTMLファイルには、クリッカブルエリアと、これに対応付けるURLとを設定するための要素(mapデータ)が含まれている。ここでは、座標(x1、x2、x3、x4)の位置の四角形のリンクエリアに「しょうゆ」の商品ページのURL「http://aaa.co.jp/しょうゆ.html」が設定され、座標(y1、y2、y3、y4)の位置の四角形のリンクエリアに「リンゴ」の商品ページのURL「http://aaa.co.jp/リンゴ.html」が設定され、座標(z1、z2、z3、z4)の位置の四角形のリンクエリアに「パン」の商品ページのURL「http://aaa.co.jp/パン.html」が設定されている。それぞれのリンクエリアがクリッカブルエリアに対応する。図5に示すように、各クリッカブルエリアは商品コード欄に対応しており、「しょうゆ」のリンクエリアをクリッカブルエリア1、「リンゴ」のリンクエリアをクリッカブルエリア2、「パン」のリンクエリアをクリッカブルエリア3で示している。クリッカブルエリア4については後述する。
 図6は、判定装置10の機能ブロック図である。同図に示すように、判定装置10は、ページ取得部11、座標取得部12(座標取得手段)、画像取得部13(情報取得手段)、文字認識部14(文字認識手段)、URL取得部15、リンク先ページ取得部16(コンテンツ取得手段)、文字判定部17(判定手段)、報知部18(報知手段)、及びページ生成部19(生成手段)を含んでいる。これらの要素はメモリ3に格納されたプログラムをCPU2が実行することにより実現される。このプログラムはCD-ROM、DVD-ROM、メモリカードなどのコンピュータ可読情報記憶媒体から判定装置10にインストールされてもよいし、インターネット等の通信ネットワークからダウンロードされてもよい。
 ページ取得部11は、ページDB4aからウェブカタログに対応するHTMLファイルを取得する。ページ取得部11は、例えば図4に示すHTMLファイルを取得する。
 座標取得部12は、ページ取得部11により取得されたHTMLファイルから、クリッカブルエリアの座標を取得する。座標取得部12は、例えば、図4に示すHTMLファイルのmapデータから、クリッカブルエリア1の座標(x1、x2、x3、x4)、クリッカブルエリア2の座標(y1、y2、y3、y4)、又は、クリッカブルエリア3の座標(z1、z2、z3、z4)を取得する。
 画像取得部13は、図1に示すウェブカタログの画像データ(カタログデータ)において、座標取得部12により取得された座標に対応するクリッカブルエリア内の画像(エリア画像)(リンク元情報)を取得する。画像取得部13は、例えば座標(x1、x2、x3、x4)に対応するクリッカブルエリア1のエリア画像「★1234」、座標(y1、y2、y3、y4)に対応するクリッカブルエリア2のエリア画像「★2345」、又は、座標(z1、z2、z3、z4)に対応するクリッカブルエリア3のエリア画像「★3456」を取得する。なお、カタログデータに所定のマーク(ここでは「★」(星マーク))が付されている場合は、画像取得部13は、カタログデータを画像認識して、マークを含む所定のエリアをエリア画像として取得してもよい。画像取得部13は、クリッカブルエリアがテキスト表示欄(図5のクリッカブルエリア4)の場合はテキスト表示をエリア画像として取得し、クリッカブルエリアが写真欄の場合は写真をエリア画像として取得する。なお、画像取得部13は、クリッカブルエリア内の画像ではなく、その周辺の画像を取得してもよい。例えば、図5のクリッカブルエリア1に対して、該当商品の掲載エリア内に位置する領域をエリア画像として取得しても良い。該当商品の掲載エリアのサイズと、掲載エリアにおけるクリッカブルエリアの位置が分かっていれば、掲載エリア内の領域を特定できる。
 文字認識部14は、画像取得部13により取得されたエリア画像について文字認識を行う。文字認識部14は、例えば光学文字認識(OCR)の方式により文字認識を行う。文字認識部14は、クリッカブルエリアが商品コード欄の場合は商品コードを文字認識し、クリッカブルエリアがテキスト表示欄の場合はテキストを文字認識する。なお、文字コードを取得できる場合は文字認識処理を行わなくてもよい。
 URL取得部15は、ページ取得部11により取得されたHTMLファイルから、座標取得部12により取得された座標に対応する商品ページのURLを取得する。URL取得部15は、例えば、図4に示すHTMLファイルのmapデータから、クリッカブルエリア1の座標(x1、x2、x3、x4)に対応するURL「http://aaa.co.jp/しょうゆ.html」、クリッカブルエリア2の座標(y1、y2、y3、y4)に対応するURL「http://aaa.co.jp/リンゴ.html」、又は、クリッカブルエリア3の座標(z1、z2、z3、z4)に対応するURL「http://aaa.co.jp/パン.html」を取得する。
 リンク先ページ取得部16は、ウェブサーバから、URL取得部15により取得されたURLの商品ページを取得する。リンク先ページ取得部16は、例えば、ウェブサーバから、図2に示す、URL「http://aaa.co.jp/しょうゆ.html」の商品ページ、URL「http://aaa.co.jp/リンゴ.html」の商品ページ、又は、URL「http://aaa.co.jp/パン.html」の商品ページを取得する。
 文字判定部17は、リンク先ページ取得部16により取得された商品ページに、文字認識部14により認識された文字が含まれているか否かを判定する。なお、文字判定部17は、上記認識文字と一致する文字が上記商品ページに含まれているか否かを判定してもよいし、上記認識文字が複数の場合に所定割合以上の文字数が上記商品ページに含まれているか否かを判定してもよい。また、クリッカブルエリアに写真欄が含まれる場合は、文字判定部17は、さらに、画像取得部13により取得されたエリア画像と、商品ページに掲載されている写真の画像との類似度を算出し、類似度に基づいて上記判定を行ってもよい。この場合、文字判定部17は、画像処理判定部として機能し、例えば画像の特徴点を抽出して比較することにより類似度を算出する。
 報知部18は、文字判定部17の判定結果に基づいてメッセージを報知する。具体的には、上記認識文字が上記商品ページに含まれていない場合はリンクの対応付けが誤っているため、報知部18はエラーメッセージを報知する。なお、上記認識文字が上記商品ページに含まれている場合は、報知部18は、リンクの対応付けが正しい旨のメッセージを報知してもよい。
 ページ生成部19は、クリッカブルエリアの座標と、商品ページのURLとを対応付けてHTMLファイル(図4参照)を生成する処理を行う。ページ生成部19により生成されたHTMLファイルは、ページDB4aに記憶される。
[実施例1]
 図7は、実施例1に係る判定装置10の動作フロー図である。ここでは、図1に示すウェブカタログと、図2に示す商品ページを例に挙げて説明する。
 サイト運営者は図1に示すウェブカタログに対応するHTMLファイル(図4参照)を作成し、作成されたHTMLファイルがページDB4aに記憶されているものとする。また、ウェブサーバには、サイト運営者が作成した、図2に示す複数の商品ページがアップロードされているものとする。また、図1に示すウェブカタログにおいて、図5に示すように各商品の商品コード欄がクリッカブルエリア1~3に設定されているものとする。なお、サイト運営者は、各商品の商品コードと商品ページのURLが予め対応付けられたリストに基づいて、HTMLファイルを作成する。
 サイト運営者は、ウェブカタログに対応するHTMLファイルの作成が完了すると、判定装置10において、リンクの対応付けの正誤を検査する検査モードを選択する。これにより、以下の検査処理が実行される。
 まず、ページ取得部11は、ページDB4aから図4に示すHTMLファイルを取得する(S101)。
 次に、座標取得部12は、S101で取得されたHTMLファイルにおいて、mapデータの1番目のデータから、クリッカブルエリア1(図5参照)の座標(x1、x2、x3、x4)を取得する(S102)。
 次に、画像取得部13は、図1に示すウェブカタログの画像データ(カタログデータ)において、S102で取得された座標(x1、x2、x3、x4)に対応するクリッカブルエリア1の画像(エリア画像1)を取得する(S103)。ここでは、エリア画像1として、商品コード欄の「★1234」が取得される。
 次に、文字認識部14は、S103で取得されたエリア画像1について文字認識を行う(S104)。ここでは、エリア画像1の「★1234」が文字として認識される。
 次に、URL取得部15は、S101で取得されたHTMLファイルにおいて、S102で取得された座標(x1、x2、x3、x4)に対応するURL「http://aaa.co.jp/しょうゆ.html」を取得する(S105)。
 次に、リンク先ページ取得部16は、ウェブサーバから、S105で取得されたURL「http://aaa.co.jp/しょうゆ.html」の商品ページ(図2参照)を取得する(S106)。
 次に、文字判定部17は、S106で取得された「しょうゆ」の商品ページに、S104で認識された文字「★1234」が含まれているか否かを判定する(S107)。図2に示す例では、「しょうゆ」の商品ページに、商品コード「★1234」が含まれているため、リンクの対応付けは正しいとして、S109に移行する。
 一方、S106で取得された商品ページが例えば図8に示す内容であった場合、ウェブカタログに記載されている商品コード「★1234」と、商品ページに記載されている商品コード「★1231」とが異なっているため、リンクの対応付けが誤っているとして、S108に移行する。図9は、図8に示す商品ページに対応するHTMLファイルを示している。同図に示すように、mapデータの1番目のデータにおいて、誤ったURL「http://aaa.co.jp/ドレッシング.html」が設定されている。
 S108において報知部18がエラーメッセージを報知した後、S109に移行する。これによりサイト運営者は、HTMLファイルにおいてリンクの対応付けに誤りがあることを認識することができる。
 S109では、上記検査処理を行っていないクリッカブルエリア(未検査エリア)があるか否かを判定する。具体的には、S101で取得されたHTMLファイルにおけるmapデータを参照して上記判定処理を行う。これにより全てのクリッカブルエリアについて上記検査処理を実行することができる。
 未検査エリアがある場合はS102に戻り、座標取得部12は、S101で取得されたHTMLファイルのmapデータから次のクリッカブルエリアの座標を取得する。ここでは、座標取得部12は、クリッカブルエリア2の座標(b1、b2、b3、b4)を取得する(S102)。以降、上記と同様の処理が行われる。未検査エリアがない場合、すなわち全てのクリッカブルエリアについて上記の処理が行われた場合は、判定装置10は検査処理を終了する。
 以上のように、本実施形態に係る判定装置10によれば、ウェブカタログの商品情報と、該商品情報のリンク先の商品ページのURLとの対応付けの正誤を容易に判定することができる。また、クリッカブルエリアとURLとの対応付けが正しい場合であっても、URLで特定された商品ページ(コンテンツ)が誤っていてクリッカブルエリアの情報と対応していない虞もあるが、この場合でも上記誤りを検出することができる。
[実施例2]
 実施例1ではクリッカブルエリアが商品コード欄に設定されているが、本発明はこれに限定されない。実施例2では、クリッカブルエリアがテキスト表示欄(図5のクリッカブルエリア4)に設定されている。以下では、実施例1との相違点を中心に説明する。図10は、図1に示すウェブカタログに掲載されている商品コード「★5678」の商品「Aしょうゆ」の情報と、該商品「Aしょうゆ」の商品ページを示している。
 座標取得部12は、ページ取得部11により取得されたHTMLファイル(図11参照)において、mapデータから、クリッカブルエリア4の座標(s1、s2、s3、s4)(図5参照)を取得する。なお、クリッカブルエリア1~3については実施例1に示した検査処理を実行してもよい。
 画像取得部13は、図10に示すウェブカタログのカタログデータ(画像データ)において、座標取得部12により取得された座標(s1、s2、s3、s4)に対応するクリッカブルエリア4の画像(エリア画像4)を取得する。ここでは、エリア画像4として、テキスト表示欄が取得される。
 文字認識部14は、画像取得部13により取得されたエリア画像4について文字認識を行う。ここでは、エリア画像4のテキストが文字(単語)として認識される。具体的には、文字認識部14は、形態素解析により、例えば「しょうゆ」、「百選」、「Aしょうゆ」、「500ml」、「鰹節」、「みりん」、「まろやか」、「味わい」を認識する。
 URL取得部15は、ページ取得部11により取得されたHTMLファイル(図11参照)において、座標取得部12により取得された座標(s1、s2、s3、s4)に対応するURL「http://aaa.co.jp/Aしょうゆ.html」を取得する。
 リンク先ページ取得部16は、ウェブサーバから、URL取得部15により取得されたURL「http://aaa.co.jp/Aしょうゆ.html」の商品ページ(図10参照)を取得する。
 文字判定部17は、リンク先ページ取得部16により取得された「Aしょうゆ」の商品ページに、文字認識部14により認識された複数の文字のうち所定割合以上の数の文字が含まれているか否かを判定する。例えば、上記の8単語のうち8割(7単語)以上が、「Aしょうゆ」の商品ページに含まれているか否かを判定する。図10の例では、「Aしょうゆ」の商品ページに「百選」は含まれていないが、他の7単語が含まれている。よって、リンクの対応付けは正しいと判定される。
 このように、クリッカブルエリアがテキスト表示欄に設定されている場合には、文字数を比較することによりリンクの対応付けの正誤を判定することができる。
 ここで、クリッカブルエリアとして、商品の写真欄が追加されていてもよい。この場合は、ウェブカタログの商品の写真と、商品ページの写真とを画像認識して両者の類似度を算出し、類似度に基づいてリンクの対応付けの正誤を判断する構成とすることができる。なお、画像認識を用いた判定処理は、文字認識を用いた上記判定処理において誤りと判定された場合(S107にてNO)に実行してもよい。
 以上のように、判定装置10は、様々なクリッカブルエリアについて、リンクの対応付けの正誤を判定することができる。なお、1つの商品について、商品コード欄、テキスト表示欄、写真欄の全てがクリッカブルエリアに設定されていてもよい。この場合は、クリッカブルエリア毎に、上述した各判定処理のうち、クリッカブルエリアに対応する判定処理を行えばよい。また上記実施形態では、PDFを利用して作成したウェブカタログについて説明したが、リンクを含むウェブページ全般に本発明を適用することができる。
[htmlファイルの生成]
 ページ生成部19の詳細について説明する。図12は、ページ生成部19の動作フロー図である。
 ページ生成部19は、ウェブカタログの元となるPDF形式の画像データに基づいて、クリッカブルエリアと、これに対応するリンク先URLとを設定し、HTMLファイルを作成する処理を行う。すなわち、ページ生成部19は、クリッカブルエリアの設定とリンク先URLの対応付けとを自動で行う。ここでは、図1に示すウェブカタログの画像データ(カタログデータ)を例に挙げる。
 まず、ページ生成部19は、カタログデータを取得すると(S201)、カタログデータからクリッカブルエリアを特定するためのマーク(キーワード)を抽出する(S202)。例えばマークとして「★」が付されている。
 次に、ページ生成部19は、マークに付された商品コードを、マークの座標に基づいて配置順に並べる(S203)。図13には、配置順に並べた商品コード一覧のテーブルを示している。
 次に、ページ生成部19は、1番目の商品コードのマークの座標に基づいて、1番目のクリッカブルエリア1の座標(x1、x2、x3、x4)を決定する(S204)。
 次に、ページ生成部19は、サイト運営者により作成されたURL一覧のテーブル(図14参照)から、1番目のURL「http://aaa.co.jp/しょうゆ.html」を取得する(S205)。
 次に、ページ生成部19は、S204で決定された1番目のクリッカブルエリア1の座標(x1、x2、x3、x4)と、S205で取得された1番目のURL「http://aaa.co.jp/しょうゆ.html」とを対応付けてHTMLファイル(図15参照)に登録する(S206)。
 続いて、S204に戻り、ページ生成部19は、2番目の商品コードのマークの座標に基づいて、2番目のクリッカブルエリア2の座標(y1、y2、y3、y4)を決定する。以降、上記と同様の処理が行われ、HTMLファイルに、2番目のクリッカブルエリア2の座標(y1、y2、y3、y4)と、2番目のURL「http://aaa.co.jp/リンゴ.html」とが対応付けられて登録される。
 ページ生成部19は、全てのクリッカブルエリアについて上記処理を繰り返し行い、HTMLファイルに、各クリッカブルエリアの座標と各URLとが対応付けられて登録される。これにより、図4に示すHTMLファイルが生成される。
 ページ生成部19の構成によれば、クリッカブルエリアの座標と各URLとの対応付けを自動で行うことができるため、該対応付けの誤りを減らすことができる。
[商品ページの取得]
 図4に示すHTMLファイルでは、クリッカブルエリアに対応付けられる商品ページはURLで特定されている。しかし、商品ページがウェブサーバにアップロードされる前の段階では、商品ページをURLで特定することができない。そこで、リンク先ページ取得部16は、URL取得部15により取得されたURLをローカルアドレスに変換し、変換されたアドレスに基づいて商品ページを取得する。
 具体的には、リンク先ページ取得部16は、複数の商品ページがローカルストレージに保存されている場合、URLを「ローカルストレージのパス+ファイル名」に変換する。例えば、「URL:http://aaa.co.jp/しょうゆ.html」を、「C:¥temp¥しょうゆ.html」に変換する。なおローカルストレージとして、例えば図16に示すように判定装置10の記憶部4におけるリンク先ページDB4bとすることができる。これにより、リンク先ページ取得部16は、商品ページを確実に取得することができる。
 上記の実施形態では1ページのみのウェブカタログについて説明したが、ページ数が多いウェブカタログの場合、リンク箇所が多いため本発明を適用することでリンクの対応付け及びリンクの対応付けの誤りの判定を効率的に行うことができる。なお、上記実施形態では、本発明をウェブページに適用した場合について説明したが、ウェブページに限られない。例えば、スマーフォンやタブレットのアプリケーションで表示され、リンクを含んだ画面(ページ)に適用してもよい。この場合、リンク先はURI(Uniform Resource Identifier)によって特定される。
 10 判定装置、1 通信部、2 CPU、3 メモリ、4 記憶部、4a ページDB、4b リンク先ページDB、11 ページ取得部、12 座標取得部、13 画像取得部、14 文字認識部、15 URL取得部、16 リンク先ページ取得部、17 文字判定部、18 報知部、19 ページ生成部。

Claims (10)

  1.  URIが対応付けられたリンクエリア内又は該リンクエリア周辺から得られるリンク元情報を取得する情報取得手段と、
     コンテンツを記憶する記憶手段から、前記リンクエリアに対応付けられた前記URIによって特定されたコンテンツを取得するコンテンツ取得手段と、
     前記情報取得手段により取得された前記リンク元情報と、前記コンテンツ取得手段により取得された前記コンテンツとに基づいて、前記リンクエリアと前記URIとの対応付けの正誤を判定する判定手段と、
     を含むことを特徴とする判定装置。
  2.  前記情報取得手段により取得された前記リンク元情報を文字として認識する文字認識手段をさらに含み、
     前記判定手段は、前記文字認識手段により認識された前記文字と、前記コンテンツ取得手段により取得された前記コンテンツとに基づいて、前記リンクエリアと前記URIとの対応付けの正誤を判定することを特徴とする請求項1に記載の判定装置。
  3.  前記判定手段は、前記文字認識手段により認識された前記文字が、前記コンテンツ取得手段により取得された前記コンテンツに含まれるか否かにより、前記対応付けの正誤を判定することを特徴とする請求項2に記載の判定装置。
  4.  前記判定手段は、前記文字認識手段により認識された複数の前記文字のうち所定割合以上の数の文字が、前記コンテンツ取得手段により取得された前記コンテンツに含まれるか否かにより、前記対応付けの正誤を判定することを特徴とする請求項2に記載の判定装置。
  5.  ページ内における前記リンクエリアの座標を取得する座標取得手段をさらに含み、
     前記情報取得手段は、前記座標取得手段により取得された前記リンクエリアの座標に基づいて、前記リンク元情報を取得することを特徴とする請求項1から4の何れか1項に記載の判定装置。
  6.  前記対応付けが誤っている場合にエラーメッセージを報知する報知手段をさらに含んでいることを特徴とする請求項1から5の何れか1項に記載の判定装置。
  7.  ページ内の前記リンクエリアを設定するとともに、予め前記URIが登録されたテーブルから、設定された前記リンクエリアに対応する前記URIを取得し、前記リンクエリアと前記URIとを対応付ける生成手段をさらに含んでいることを特徴とする請求項1から6の何れか1項に記載の判定装置。
  8.  前記テーブルにおいて、前記URIは、前記リンクエリアの配置順に対応して登録されていることを特徴とする請求項7に記載の判定装置。
  9.  URIが対応付けられたリンクエリア内又は該リンクエリア周辺から得られるリンク元情報を取得する情報取得ステップと、
     コンテンツを記憶する記憶手段から、前記リンクエリアに対応付けられた前記URIによって特定されたコンテンツを取得するコンテンツ取得ステップと、
     前記情報取得ステップにより取得された前記リンク元情報と、前記コンテンツ取得ステップにより取得された前記コンテンツとに基づいて、前記リンクエリアと前記URIとの対応付けの正誤を判定する判定ステップと、
     を含むことを特徴とする判定方法。
  10.  URIが対応付けられたリンクエリア内又は該リンクエリア周辺から得られるリンク元情報を取得する情報取得手段、
     コンテンツを記憶する記憶手段から、前記リンクエリアに対応付けられた前記URIによって特定されたコンテンツを取得するコンテンツ取得手段、及び、
     前記情報取得手段により取得された前記リンク元情報と、前記コンテンツ取得手段により取得された前記コンテンツとに基づいて、前記リンクエリアと前記URIとの対応付けの正誤を判定する判定手段、
     としてコンピュータを機能させるためのプログラム。
PCT/JP2013/067942 2013-06-28 2013-06-28 判定装置、判定方法、及びプログラム WO2014207941A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2013/067942 WO2014207941A1 (ja) 2013-06-28 2013-06-28 判定装置、判定方法、及びプログラム
JP2015523817A JP5886477B2 (ja) 2013-06-28 2013-06-28 判定装置、判定方法、及びプログラム
US14/901,081 US10585965B2 (en) 2013-06-28 2013-06-28 Determination device, determination method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/067942 WO2014207941A1 (ja) 2013-06-28 2013-06-28 判定装置、判定方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2014207941A1 true WO2014207941A1 (ja) 2014-12-31

Family

ID=52141331

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/067942 WO2014207941A1 (ja) 2013-06-28 2013-06-28 判定装置、判定方法、及びプログラム

Country Status (3)

Country Link
US (1) US10585965B2 (ja)
JP (1) JP5886477B2 (ja)
WO (1) WO2014207941A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6144861B1 (ja) * 2016-03-10 2017-06-07 楽天株式会社 チェック装置、チェック方法、プログラム、ならびに、非一時的なコンピュータ読取可能な情報記録媒体

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558510B2 (en) * 2009-02-24 2017-01-31 Ebay Inc. System and method to create listings using image and voice recognition
CN107589893A (zh) * 2017-09-21 2018-01-16 上海联影医疗科技有限公司 一种数据加载方法、装置及终端
US11200294B2 (en) * 2019-03-20 2021-12-14 Hisense Visual Technology Co., Ltd. Page updating method and display device
US11663193B2 (en) * 2020-12-17 2023-05-30 International Business Machines Corporation Identifying incorrect links

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944499A (ja) * 1995-08-03 1997-02-14 Matsushita Electric Ind Co Ltd マルチメディア文書構造編集装置
JP2004139304A (ja) * 2002-10-17 2004-05-13 Nec Corp ハイパーテキスト検査装置および方法並びにプログラム
JP2007188356A (ja) * 2006-01-13 2007-07-26 Internatl Business Mach Corp <Ibm> 不正ハイパーリンク検出装置及びその方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544352A (en) * 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US6408331B1 (en) * 1995-07-27 2002-06-18 Digimarc Corporation Computer linking methods using encoded graphics
JP3768743B2 (ja) * 1999-09-20 2006-04-19 株式会社東芝 ドキュメント画像処理装置及びドキュメント画像処理方法
US6583792B1 (en) * 1999-11-09 2003-06-24 Newag Digital, Llc System and method for accurately displaying superimposed images
US6601066B1 (en) * 1999-12-17 2003-07-29 General Electric Company Method and system for verifying hyperlinks
US7600183B2 (en) * 2000-06-16 2009-10-06 Olive Software Inc. System and method for data publication through web pages
WO2003001413A1 (en) * 2001-06-22 2003-01-03 Nosa Omoigui System and method for knowledge retrieval, management, delivery and presentation
US7182462B2 (en) * 2001-12-26 2007-02-27 Infocus Corporation System and method for updating an image display device from a remote location
US7257598B2 (en) * 2002-12-19 2007-08-14 Nokia Corporation System and method for generating descriptive link names
JP2004220193A (ja) * 2003-01-10 2004-08-05 Ricoh Co Ltd Htmlリンク検査システム
JP4158567B2 (ja) 2003-03-20 2008-10-01 凸版印刷株式会社 付加情報付加方法及び付加情報付加装置、並びに付加情報付加プログラム
JP2006085234A (ja) * 2004-09-14 2006-03-30 Fuji Xerox Co Ltd 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
US7720436B2 (en) * 2006-01-09 2010-05-18 Nokia Corporation Displaying network objects in mobile devices based on geolocation
US9892196B2 (en) * 2006-04-21 2018-02-13 Excalibur Ip, Llc Method and system for entering search queries
US8489987B2 (en) * 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US20080172738A1 (en) * 2007-01-11 2008-07-17 Cary Lee Bates Method for Detecting and Remediating Misleading Hyperlinks
US9665543B2 (en) * 2007-03-21 2017-05-30 International Business Machines Corporation System and method for reference validation in word processor documents
JP4459250B2 (ja) * 2007-04-20 2010-04-28 富士通株式会社 送信方法、画像送信システム、送信装置及びプログラム
US8209599B2 (en) * 2009-04-23 2012-06-26 Xerox Corporation Method and system for handling references in markup language documents
JP5575511B2 (ja) * 2009-07-16 2014-08-20 富士フイルム株式会社 ウェブサイト閲覧システム、サーバ及びクライアント端末
US8438059B2 (en) * 2010-01-28 2013-05-07 Mypoints.Com Inc. Dynamic e-mail
JP5790345B2 (ja) * 2011-09-07 2015-10-07 株式会社リコー 画像処理装置、画像処理方法、プログラムおよび画像処理システム
US20140136508A1 (en) * 2012-11-09 2014-05-15 Palo Alto Research Center Incorporated Computer-Implemented System And Method For Providing Website Navigation Recommendations
US9305227B1 (en) * 2013-12-23 2016-04-05 Amazon Technologies, Inc. Hybrid optical character recognition
US20160110319A1 (en) * 2014-10-21 2016-04-21 Nirnay Bansal URI Font in print material processing method and apparatus thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944499A (ja) * 1995-08-03 1997-02-14 Matsushita Electric Ind Co Ltd マルチメディア文書構造編集装置
JP2004139304A (ja) * 2002-10-17 2004-05-13 Nec Corp ハイパーテキスト検査装置および方法並びにプログラム
JP2007188356A (ja) * 2006-01-13 2007-07-26 Internatl Business Mach Corp <Ibm> 不正ハイパーリンク検出装置及びその方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6144861B1 (ja) * 2016-03-10 2017-06-07 楽天株式会社 チェック装置、チェック方法、プログラム、ならびに、非一時的なコンピュータ読取可能な情報記録媒体
WO2017154169A1 (ja) * 2016-03-10 2017-09-14 楽天株式会社 チェック装置、チェック方法、プログラム、ならびに、非一時的なコンピュータ読取可能な情報記録媒体

Also Published As

Publication number Publication date
JPWO2014207941A1 (ja) 2017-02-23
JP5886477B2 (ja) 2016-03-16
US20160154893A1 (en) 2016-06-02
US10585965B2 (en) 2020-03-10

Similar Documents

Publication Publication Date Title
JP5886477B2 (ja) 判定装置、判定方法、及びプログラム
JP2018026168A (ja) 図形コードを通じてネットワーク情報にアクセスする方法、クライアントデバイス、およびサーバ
KR20210100222A (ko) 복수의 장치 상의 정보의 제공
JP7018714B2 (ja) モータ、シールおよび情報提供装置
US10606832B2 (en) Search system, search method, and program
JP5767413B1 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
JP5753642B1 (ja) 入力装置、フォーム入力方法、記録媒体およびプログラム
US9213502B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium for recording printing information
JP2008186135A (ja) 原材料原産地適正検査システム
JP5471411B2 (ja) 電子チラシ検索装置および電子チラシ検索システム
WO2016095725A1 (zh) 一种条形码扫描方法及装置
JP2018128883A (ja) 情報処理装置、方法およびプログラム
CN103164411A (zh) 浏览器的网页加载方法
JP2017102779A (ja) 管理情報の印刷方法
JP2010266924A (ja) パッケージ作成支援装置、パッケージ作成支援方法、及びプログラム
JP2004078436A (ja) 入力支援装置
JP2008112377A (ja) 画像形成システム、画像形成装置、及び画像形成プログラム
JP6144861B1 (ja) チェック装置、チェック方法、プログラム、ならびに、非一時的なコンピュータ読取可能な情報記録媒体
WO2024054606A1 (en) System and method for triggering countdown on digital user interface
JP6056580B2 (ja) レイアウト管理装置およびコンピュータプログラム
TW202145815A (zh) 資料提供方法
JP2023157558A (ja) アクセス情報取得方法、コード分割方法及びアクセス情報取得システム
JP2007193643A (ja) 案内・注文書製作装置及び方法
WO2016113887A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
US20150309975A1 (en) Non-transitory computer readable medium, information processing apparatus, and information processing method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13887655

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015523817

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14901081

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 13887655

Country of ref document: EP

Kind code of ref document: A1