WO2011149104A1 - 情報処理装置、情報処理方法、情報処理プログラム、および、記録媒体 - Google Patents

情報処理装置、情報処理方法、情報処理プログラム、および、記録媒体 Download PDF

Info

Publication number
WO2011149104A1
WO2011149104A1 PCT/JP2011/062366 JP2011062366W WO2011149104A1 WO 2011149104 A1 WO2011149104 A1 WO 2011149104A1 JP 2011062366 W JP2011062366 W JP 2011062366W WO 2011149104 A1 WO2011149104 A1 WO 2011149104A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
information
word
article data
article
Prior art date
Application number
PCT/JP2011/062366
Other languages
English (en)
French (fr)
Inventor
宗 益子
創 増田
志学 岩淵
Original Assignee
楽天株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 楽天株式会社 filed Critical 楽天株式会社
Priority to US13/696,441 priority Critical patent/US9690804B2/en
Priority to ES11786801T priority patent/ES2732924T3/es
Priority to JP2012517354A priority patent/JP5134162B2/ja
Priority to EP11786801.8A priority patent/EP2557511B1/en
Publication of WO2011149104A1 publication Critical patent/WO2011149104A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Definitions

  • the present invention relates to a technical field of an information processing apparatus, an information processing method, an information processing program, and a recording medium that process information on the Internet.
  • Patent Document 1 a clustering result that enables easy analysis of the relationship between clusters, the relationship between documents and clusters, and the clustering results that can easily grasp the relationship between documents, and the trend of document groups can be analyzed.
  • a display device is disclosed.
  • the present invention has been made in view of such a problem, and is an information processing apparatus, an information processing method, and an information processing that can specify a region even if the term appears in an article and does not exist in the database. It is an object to provide a program and a recording medium.
  • the invention described in claim 1 is directed to a regional word storage means for storing a regional word indicating a region in association with geographical information for specifying the region, and article data for acquiring article data.
  • a search result means for acquiring a search result performed by a search device based on the specified feature word, and a region related to the article data is determined based on the search result of the search result means to obtain geographic information.
  • a region specifying unit wherein the region specifying unit stores the specified characteristic word in the region word storage unit as a region word in association with the specified region.
  • the invention according to claim 2 is the information processing apparatus according to claim 1, wherein the feature word extraction unit extracts a search result feature word from a search result of the search result unit, and the region specifying unit The geographic information is obtained by referring to the regional word storage means and specifying the region from the search result characteristic word.
  • the search result means includes a plurality of related words centered on the identified characteristic word. It searches, and the area specifying means specifies the area from the related words and obtains geographic information.
  • the region specifying unit calculates the appearance frequency of the extracted feature word in the article data.
  • the geographical information is obtained by specifying a region based on the calculated appearance frequency.
  • the regional word storage means has a weighting value for each regional word, and the regional identification means calculates the calculated appearance frequency. And determining the geographical information by specifying the region based on the weighting value.
  • the invention according to claim 6 is the information processing apparatus according to any one of claims 1 to 5, wherein the article content specifying means for specifying the article content of the article data, the specified article content, Article data storage means for storing the article data in association with the specified area, mapping means for mapping a symbol corresponding to the article data on a map based on the specified area, and the article data storage means And a related article collecting means for collecting information on articles related to the specified area and the specified article content, wherein the mapping means is responsive to the number of collected articles. It is characterized by mapping symbols.
  • the mapping means determines an arrangement position of the article data in the symbol according to an information amount of the article data.
  • the article content specifying unit specifies the category of the article content
  • the mapping unit sets the mode of the symbol. It changes for every said category.
  • the invention according to claim 9 is the information processing apparatus according to any one of claims 6 to 8, wherein the article data acquisition means acquires article data related to the search keyword, and the article data is The distribution time information specifying means for specifying the distributed distribution time information from the article data, and the mapping means correspond to a plurality of the article data having different distribution time information in the article data related to the search keyword. Visualization information for visually associating symbols with each other on a map is mapped.
  • an information processing method in which an information processing apparatus performs information processing, wherein a regional word indicating a region is stored in a regional word storage unit in association with geographical information for specifying the region.
  • An article data acquisition step for acquiring article data; a feature word extraction step for extracting a feature word from the article data; and a feature word that is not stored as a regional word in the regional word storage means
  • a feature word specifying step for specifying from among words, a search result step for acquiring a search result performed by a search device using the specified feature word, and the article data based on the search result of the search result means
  • a region specifying step for specifying the region and obtaining geographical information, and in the region specifying step, in association with the specified region, A constant feature words, and to store in said local word storing means as the local language.
  • the invention described in claim 11 is a computer that stores a regional word indicating a region in association with geographical information for specifying the region, article data acquiring unit for acquiring article data, and the article data.
  • a feature word extracting means for extracting a feature word from the feature word specifying means for specifying, from the extracted feature words, a feature word that is not stored as a regional word in the regional word storage means, by the specified feature word
  • a search result means for obtaining a search result performed by a search device; and, based on a search result of the search result means, function as an area specifying means for specifying an area related to the article data and obtaining geographical information,
  • the area specifying means stores the specified characteristic word in the area word storage means as a local word in association with the specified area.
  • the invention according to claim 12 is a local language storage means for storing, in a computer, a regional word indicating a region in association with geographical information for specifying the region, an article data acquiring unit for acquiring article data, and the article data
  • a feature word extracting means for extracting a feature word from the feature word specifying means for specifying, from the extracted feature words, a feature word that is not stored as a regional word in the regional word storage means, by the specified feature word
  • a search result means for obtaining a search result performed by a search device; and, based on a search result of the search result means, function as an area specifying means for specifying an area related to the article data and obtaining geographical information,
  • the area specifying means stores the specified feature word in the area word storage means as the area word in association with the specified area. To record the program.
  • feature words are extracted from article data, and feature words that are not stored as region words in a database that stores region words indicating regions in association with geographic information for specifying regions are extracted. Appears in the article by identifying from the feature words, obtaining the search results performed by the search device using the identified feature words, identifying the region related to the article data based on the search results, and obtaining geographic information Even if it is a term that does not exist in the database, the region can be specified.
  • FIG. 1 is a schematic diagram illustrating a schematic configuration example of an information processing system 1 according to the present embodiment.
  • the information processing system 1 acquires article data from, for example, a news distribution site 5, and specifies an information processing server (an example of an information processing apparatus) 10 that identifies a region related to article data, and article data.
  • An information processing server an example of an information processing apparatus
  • a search server 20 having a search database for specifying a region and a user terminal 30 for browsing article data compiled by the information processing server 10 are provided.
  • the information processing server 10 and the search server 20 are connected by a local area network or the like, and can transmit and receive data to each other, thereby constituting a server system 7.
  • the server system 7 and the plurality of terminals 30 are connected by the network 3 and can transmit and receive data using a communication protocol (for example, TCP / IP).
  • the network 3 is constructed by, for example, the Internet, a dedicated communication line (for example, a CATV (Community Antenna Television) line), a mobile communication network (including a base station, etc.), a gateway, and the like.
  • the information processing server 10 may be connected to a shopping server (not shown) that manages a shopping site via a local area network or the like.
  • the information processing server 10 extracts feature words such as place names and landmarks included in the article data acquired from the news distribution site 5 and the like, and identifies the region related to the article data. Then, the information processing server 10 provides the terminal 30 with a Web page in which symbols corresponding to the article data are mapped on the map based on the geographic information regarding the identified area.
  • the geographical information is information related to a region such as a region name, a region-related term such as a landmark, an address, a code such as a postal code, and a latitude and longitude.
  • FIG. 2 is a block diagram illustrating an example of an overview of the information processing server 10.
  • the information processing server 10 that functions as a computer includes a communication unit 11, a storage unit 12, an input / output interface unit 13, and a system control unit 14.
  • the system control unit 14 and the input / output interface unit 13 are connected via a system bus 15.
  • the communication unit 11 is connected to the network 3 to control the communication state with the news distribution site 5 and the terminal 30, and is further connected to the local area network to transmit / receive data to / from the search server 20 on the local area network. I do.
  • the storage unit 12 includes, for example, a hard disk drive and stores various programs such as an operating system and a server program, a program downloaded to the terminal 30 and the like, data, and the like. Note that the various programs may be acquired from, for example, another server device via the network 3, or may be recorded on a recording medium and read via a drive device.
  • the storage unit 12 stores Web page files described in a markup language such as HTML (HyperText Markup Language) and XML (Extensible Markup Language).
  • the storage unit 12 stores an article database (hereinafter referred to as “article DB”) 12a that stores article data acquired from the news distribution site 5 or the like, and local words such as place names and landmarks and local related words are local.
  • article DB article database
  • a regional language database (hereinafter referred to as “regional language DB”) 12b stored every time, a map database (hereinafter referred to as “map DB”) 12c that stores information related to maps, and user information that stores user information.
  • user information DB a database
  • visualization information database hereinafter referred to as “visualization information DB”
  • article DB 12a which is an example of the article data storage means
  • article content, category, distribution time information, and geographic information related to the article data are stored in association with the article ID together with the acquired article data.
  • the article DB 12a also stores keywords for specifying article contents and article categories.
  • the article DB 12a stores an article count table in which the number of articles is counted for each geographic information and each article content relating to the identified area, and for each identified area and each category.
  • the article DB 12a stores index information generated by an indexer, snippet, and the like from article data acquired from the news distribution site 5 and the like for news article search.
  • the article DB 12a stores a table for grouping the retrieved article data based on the position information and distribution time information of the article data.
  • the regional language DB 12b which is an example of the regional language storage means, includes regional terms such as prefecture names, city names, postal codes, and address names, and regional names such as landmark names.
  • a word is stored in association with geographic information such as longitude / latitude information indicated by the area.
  • the regional language and the regional terms may be stored in association with a geographical code assigned to each corresponding place name on the map (for example, a local public organization code assigned to each local public organization).
  • the regional language DB 12b is used for landmarks, prefecture names, municipalities, zip codes, and street addresses. Have a table. Then, when the region is specified from the article data, weighting is performed when performing statistical processing on the feature words extracted from the article data. For example, in the case of a landmark table as shown in FIG. 3A, a fivefold weight is given to the landmark name. In the case of a table for prefecture names as shown in FIG. 3B, a weight of 1 is assigned to the prefecture name. In the case of the table for the municipality name as shown in FIG. 3C, a double weight is given to the municipality name. In the case of the postal code table as shown in FIG.
  • the postal code is given a three times weight.
  • the specified address is given four times the weight.
  • the weight for each of these tables is stored in the regional language DB 12b.
  • landmarks are recorded in association with addresses in the landmark table.
  • the map DB 12c stores, for example, map data of various scales, longitude / latitude data, postal code data, and address data.
  • user information DB 12d In the user information DB 12d, user ID, name, address, birthplace, telephone number, e-mail address, and attribute information such as the user's sex and age are registered in the user information DB 12d.
  • the user information DB 12d stores purchase histories of products and the like purchased at shopping sites and the like for each user using the user ID as a key. The purchase history may be acquired from the shopping server via a local area network or the like.
  • the visualization information DB 12e stores, for example, basic forms of arrows (an example of visualization information). Note that the thickness, length, direction, shape, color, start point, and end point of this arrow indicate the number of articles in the article, the distribution time information of the collected article data, and the population in a given area on the map. A deformation type controlled based on data or the like is also stored.
  • the input / output interface unit 13 is an interface process between the communication unit 11 and the storage unit 12 and the system control unit 14.
  • the system control unit 14 includes a CPU (Central Processing Unit) 14a, a ROM (Read Only Memory) 14b, a RAM (Random Access Memory) 14c, and the like.
  • the CPU 14 a reads out and executes various programs stored in the ROM 14 b and the storage unit 12 to perform processing on the acquired article data.
  • system control unit 14 collects article data from the news distribution site 5 and transmits processed article data to the terminal 30 via the communication unit 11.
  • FIG. 4 is a block diagram illustrating an example of a schematic configuration of the search server 20.
  • the search server 20 includes a communication unit 21, a storage unit 22, an input / output interface unit 23, and a system control unit 24.
  • the system control unit 24 and the input / output interface unit 23 are Are connected via a system bus 25.
  • the configuration and functions of the search server 20 are substantially the same as the configuration and functions of the information processing server 10, and therefore, the description will focus on differences in the configurations and functions of the information processing server 10.
  • the communication unit 21 controls the communication state with the information processing server 10 and the like through the network 3 and the local area network.
  • search DB search database
  • word association DB word association database
  • the search DB 22a stores Web site information related to the search keyword. For example, Web site URL (Uniform Resource Locator) information, search index information, search result snippets, and the like are stored in the search DB 22a.
  • Web site URL Uniform Resource Locator
  • the word association DB 22b As shown in FIG. 5, in the word association DB 22b, as an example of a word association storage database that associates words according to the relationship between words, the word association DB 22b relates to words according to the degree of association between words. Words are remembered. When there are a plurality of related words, the related words are stored such as the first related word and the second related word.
  • the system control unit 24 includes a CPU 24a, a ROM 24b, a RAM 24c, and the like.
  • the CPU 24 a reads out and executes various programs stored in the ROM 24 b and the storage unit 22, thereby performing processing such as search according to a request from the information processing server.
  • FIG. 6 is a block diagram illustrating an example of a schematic configuration of the terminal 30.
  • the terminal 30 that functions as a computer is a portable terminal such as a personal computer, a portable wireless telephone, or a PDA, and includes a communication unit 31, a storage unit 32, a display unit 33, and an operation unit. 34, an input / output interface unit 35, and a system control unit 36.
  • the system control unit 36 and the input / output interface unit 35 are connected via a system bus 37.
  • the communication unit 31 controls communication with the information processing server 10 and the like through the network 3.
  • the communication unit 31 has a radio communication function in order to connect to the mobile communication network of the network 3.
  • the storage unit 32 includes, for example, a hard disk drive or the like, and stores an operating system, a web browser program, and the like.
  • the display unit 33 is configured by, for example, a liquid crystal display element or an EL (Electro Luminescence) element.
  • the display unit 33 displays a pointer that is moved by a mouse operation, a Web page that includes article data acquired from the information processing server 10, and the like.
  • the operation unit 34 includes, for example, a keyboard and a mouse.
  • the operation unit 34 selects a symbol corresponding to article data arranged on the map.
  • the input / output interface unit 35 is an interface between the communication unit 31 and the storage unit 32 and the system control unit 36.
  • the system control unit 36 includes, for example, a CPU 36a, a ROM 36b, and a RAM 36c.
  • the system control unit 36 acquires the information from the information processing server 10 when the CPU 36a reads and executes various programs stored in the ROM 36b, the RAM 36c, and the storage unit 32, or by executing a script of a Web page.
  • the Web page thus displayed is displayed on the display unit 33.
  • FIG. 7 is a flowchart illustrating an operation example in which the information processing server 10 specifies a region.
  • the information processing server 10 acquires article data (step S1). Specifically, the system control unit 14 of the information processing server 10 reads, as an example of article data acquisition means, a sentence or the like of article data posted on the news distribution site from the news distribution site 5 via the communication unit 11. get. For example, the system control unit 14 of the information processing server 10 accesses the news distribution site and acquires article data based on URL (Uniform Resource ⁇ Locator) information of the news distribution site. The system control unit 14 of the information processing server 10 stores the article data in the article DB 12a with an article ID attached to the article data in order to identify the article.
  • URL Uniform Resource ⁇ Locator
  • the information processing server 10 extracts feature words from the article data (step S2). Specifically, the system control unit 14 of the information processing server 10 performs morphological analysis, syntax analysis, and the like on the sentence of the article data, and extracts feature words such as nouns as candidates for regional words and regional related words. To do. At this time, the system control unit 14 of the information processing server 10 counts the number of extracted feature words. As described above, the system control unit 14 of the information processing server 10 functions as an example of a feature word extraction unit that extracts feature words from article data.
  • the information processing server 10 determines whether or not the extracted feature word exists in the regional language DB 12b (step S3). Specifically, the system control unit 14 of the information processing server 10 reads the table for landmarks in the regional language DB 12b, the table for prefecture names, the table for city names, the table for zip codes, up to the street name. With reference to the identified address table, it is determined whether or not the extracted feature word corresponds to a regional word or the like registered in the regional language DB 12b. The system control unit 14 of the information processing server 10 identifies feature words that are not stored in the regional language DB 12b as regional languages or regional related words. For example, a landmark “XX tree” is under construction and “XX tree” does not exist in the regional language DB 12b. Thus, the system control unit 14 of the information processing server 10 functions as an example of a feature word specifying unit that specifies a feature word that is not stored as a regional word in the regional word storage unit from the extracted feature words.
  • the information processing server 10 searches based on the feature word (step S4). Specifically, the system control unit 14 of the information processing server 10 makes a request to the search server 20 to perform a Web search for the identified feature word.
  • the information processing server 10 extracts a search result feature word from the search result (step S5). Specifically, the system control unit 14 of the information processing server 10 acquires a search result such as a snippet from the search server 20. Then, the system control unit 14 of the information processing server 10 performs morphological analysis and the like from the search result as in step S2 and extracts a search result feature word. In this way, the system control unit 14 of the information processing server 10 functions as an example of a search result unit that acquires a search result performed by the search device using the specified feature word.
  • the information processing server 10 refers to the regional language DB 12b and identifies the region from the search result feature word (step S6).
  • the system control unit 14 of the information processing server 10 refers to the regional language DB 12b and extracts a search result feature word that is a regional language or a regional related word.
  • the system control unit 14 of the information processing server 10 specifies a region according to the appearance frequency in the extracted search result feature words, or is assigned to each table such as a landmark table in the region word DB 12b. The area is specified considering the weight.
  • the system control unit 14 of the information processing server 10 obtains the latitude and longitude (an example of geographical information) of the identified region with reference to the regional language DB 12b.
  • the system control unit 14 of the information processing server 10 functions as an example of a region specifying unit that specifies a region related to article data and obtains geographic information based on the search result of the search result unit. Further, the system control unit 14 of the information processing server 10 refers to the feature word extraction unit that extracts the search result feature word from the search result of the search result unit and the regional word storage unit, and determines the region from the search result feature word. It functions as an example of an area specifying means for specifying and obtaining geographical information. Further, the system control unit 14 of the information processing server 10 functions as an example of a region specifying unit that specifies a region based on the calculated appearance frequency and a weighting value and obtains geographical information. Details of how to specify the area will be described later.
  • the information processing server 10 stores the feature word as a region-related word in association with the identified region (step S7).
  • the system control unit 14 of the information processing server 10 stores in the landmark table of the regional language DB 12b in association with geographic information such as latitude / longitude and address of the identified region.
  • a new landmark an example of an area-related word “XX tree” is registered in the area language DB 12b in association with the latitude / longitude and the address.
  • the system control unit 14 of the information processing server 10 functions as an example of an area specifying unit that stores the specified feature word in the area word storage unit as the area language in association with the specified area.
  • step S7 After step S7 or when the extracted feature word exists in the regional language DB 12b (step S3; YES), the information processing server 10 has processed all the extracted feature words. Is determined (step S8). Specifically, the system control unit 14 of the information processing server 10 subtracts 1 from the number of extracted feature words (count number) to zero (step S8; NO), and ends the process. To do. If the count number is not zero (step S8; YES), the process returns to step S3 to perform processing for the next feature word.
  • FIG. 8 is a flowchart illustrating an operation example in which the information processing server 10 maps article data.
  • FIG. 9 is a schematic diagram illustrating an example of article data acquired by the information processing server 10.
  • FIG. 10 is a schematic diagram illustrating an example of the frequency of the extracted regional words.
  • FIG. 11 is a schematic diagram illustrating an example of a table constructed in the database of the information processing server 10.
  • steps S11 to S18 an operation from acquiring article data from the news distribution site 5 or the like to storing the article data or the like in the article DB 12a will be described.
  • the information processing server 10 acquires article data (step S11). Specifically, the system control unit 14 of the information processing server 10 acquires article data as shown in FIG. 9 by the same processing as step S1.
  • the information processing server 10 identifies the article content (step S12). Specifically, the system control unit 14 of the information processing server 10 performs morphological analysis as an example of the article content specifying unit, extracts feature words from the sentence of the article data, and stores the feature words and the article DB 12a. The content of the article is identified by matching with the keyword for specifying the content of the article. For example, the system control unit 14 of the information processing server 10 specifies that the content of the article is “baseball” when there is a feature word related to baseball such as “home run” or “batter” in the article data. Note that the system control unit 14 of the information processing server 10 may specify the content of an article by an existing sentence summarization algorithm or the like.
  • the information processing server 10 identifies the article category (step S13).
  • the system control unit 14 of the information processing server 10 refers to the article DB 12a as an example of the article content identification unit, and identifies the category to which the identified article content belongs. For example, if the article content is “baseball”, the category is “sports”.
  • news articles are usually divided into categories such as “international” and “sports” in a news distribution site, and the information processing server depends on the category from which the article data is acquired in the news distribution site.
  • the ten system control units 14 may specify the article category. For example, depending on the news distribution site, there is category information in the URL information, so the system control unit 14 of the information processing server 10 specifies the article category based on the URL information in which the article data exists.
  • the information processing server 10 obtains the information amount of article data (step S14). Specifically, the system control unit 14 of the information processing server 10 obtains the information amount of the article data based on the data amount of the article data corresponding to the article length, the number of characters in the sentence, the number of words, and the like. Further, the system control unit 14 of the information processing server 10 obtains the number of nouns, the number of adjectives, and the number of adverbs in the sentence of the article data by morphological analysis, syntax analysis, and the like, and based on the number of these parts of speech, The amount of information may be obtained.
  • the information processing server 10 extracts a local language from the article data (step S15). Specifically, the system control unit 14 of the information processing server 10 extracts feature words in the same manner as in step S2, refers to the regional language DB 12b, and selects a place name or landmark as an example of geographic information from the acquired article data. Extract. For example, the system control unit 14 of the information processing server 10 includes “XX tree”, “Tokyo”, “ ⁇ tower”, “Tokyo hotel”, “ ⁇ ward”, “ ⁇ ⁇ company” in the article data. And local related words are extracted. In the case of a feature word that does not exist in the regional language DB 12b, the system control unit 14 of the information processing server 10 may extract the regional related word through steps S4 to S7.
  • the information processing server 10 specifies a region related to the article data from the region language and the region-related word (step S16). Specifically, the system control unit 14 of the information processing server 10 calculates the appearance frequency of geographic information extracted from the article data. As shown in FIG. 10, a histogram of the extracted regional words and regional related words is obtained. Then, the system control unit 14 of the information processing server 10 identifies a region based on the calculated appearance frequency. For example, the system control unit 14 of the information processing server 10 obtains the “XX tree” counted most in the article. Next, with reference to the landmark table in the regional language DB 12b, the latitude / longitude of the “OO tree” necessary to map the article on the map is obtained. There is a high probability that geographic information that appears repeatedly in article data is geographic information that identifies article data.
  • the system control unit 14 of the information processing server 10 may obtain geographic information such as a geographic code corresponding to a region.
  • the system control unit 14 of the information processing server 10 refers to the regional language DB 12b and determines the local public entity code of the local public entity in which the regional related word “ ⁇ dome” exists as the geographic code.
  • the system control unit 14 of the information processing server 10 specifies the location of the head office as geographic information.
  • the information processing server 10 stores the article data in association with the specified article content, the specified category, and the specified area (step S17).
  • the system control unit 14 of the information processing server 10 associates with the acquired article data and identifies the specified article content “baseball”, the specified category “sports”, and the specified local language.
  • the article DB 12a stores the latitude / longitude of “Tokyo ⁇ ⁇ Ward” and the geographic code.
  • the information processing server 10 counts the number of articles related to the article content and geographic information (step S18). Specifically, as shown in FIG. 11, the system control unit 14 of the information processing server 10, as an example of the related article collection unit, in the table 12 t constructed in the article DB 12 a, The counter corresponding to the article content is incremented by one. At this time, as shown in FIG. 11, the system control unit 14 of the information processing server 10 associates the counter with the category. As described above, the system control unit 14 of the information processing server 10 collects information on the articles related to the specified geographic information and article contents by increasing the number of counts in the table 12t.
  • system control unit 14 of the information processing server 10 may collect information on articles having similar contents and the like of the acquired article as an example of the article related to the specified region and the article content.
  • a similar article an article having the same category, an article having a close category, an article having a geographical location, and the like can be given.
  • the system control unit 14 of the information processing server 10 may count the number of similar articles.
  • FIG. 12 is a schematic diagram illustrating an example of a window screen displayed on the terminal 30.
  • FIG. 13 is a schematic diagram illustrating an example of symbols corresponding to article data displayed on the terminal 30.
  • FIG. 14 is a schematic diagram illustrating an example of symbols corresponding to article data displayed on the terminal 30.
  • 15 and 16 are schematic diagrams illustrating an example of a window screen displayed on the terminal 30.
  • the information processing server 10 acquires map information (step S20).
  • the system control unit 14 of the information processing server 10 acquires map information 41 for Japan from the map DB 12c.
  • the information processing server 10 sets the symbol size according to the number of articles in each category and region (step S21).
  • the system control unit 14 of the information processing server 10 refers to the table 12t constructed in the article DB 12a as an example of mapping means, and for example, the geographical code belonging to each prefecture and the contents of articles belonging to each category for each prefecture.
  • the number of articles is calculated to obtain the number of articles, and the size of each symbol 50 to be mapped is set as shown in FIG.
  • the system control unit 14 of the information processing server 10 controls and displays the symbol size in accordance with the result of step S18 (related article collection means).
  • the information processing server 10 sets the symbol color according to the category (step S22). As shown by hatching lines corresponding to colors in FIG. 12, the system control unit 14 of the information processing server 10 sets a color scheme according to the category of each symbol 50. Further, the system control unit 14 of the information processing server 10 also sets the color scheme of the symbol legend in the category column 42 as shown in FIG.
  • the information processing server 10 determines the arrangement position of the article data in the symbol based on the information amount of the article data (step S23).
  • the system control unit 14 of the information processing server 10 divides the symbol 50 into concentric regions 50a, 50b, 50c and the like according to the number of articles, and the central region 50a includes Correspond to article data with a small amount of information.
  • article data having a larger amount of information is sequentially associated with the outer regions 50b and 50c.
  • the system control unit 14 of the information processing server 10 A web page or the like is set so that the data document is displayed in the balloon 55. Further, the system control unit 14 of the information processing server 10 displays a Web page or the like so that detailed article data and a link destination related to the article data are displayed when each of the areas 50a, 50b, and 50c is clicked by the operation unit 34. Set.
  • the information processing server 10 generates a Web page in which symbols corresponding to article data are mapped on a map (step S24). Specifically, as an example of the mapping unit, the system control unit 14 of the information processing server 10 maps a symbol 50 corresponding to article data on the map information 41 in Japan as shown in FIG. 40 is generated.
  • the system control unit 14 of the information processing server 10 also creates a Web page 40B relating to another area 41B in the map information of Japan.
  • the system control unit 14 of the information processing server 10 aggregates information on the article data, the number of articles in each category, and the like with reference to the article DB 12a having the table 12t based on the geographic code included in the area to be displayed. To do.
  • the system control unit 14 of the information processing server 10 sets each article content such as “baseball” and “soccer” as shown in FIG.
  • the Web page 40C is generated with reference to the article DB 12a having the table 12t so that the symbol 50 is displayed.
  • an article content column 42C is displayed on the Web page 40C.
  • the system control unit 14 of the information processing server 10 may generate a Web page so as to display the article summary columns 44B and 44C, as shown in FIGS.
  • the system control unit 14 of the information processing server 10 transmits information regarding the Web page 40 to the terminal 30 via the communication unit 11 in response to a request from the terminal 30.
  • the system control unit 36 of the terminal 30 that has received information on the Web page 40 via the communication unit 31 causes the display unit 33 to display the Web pages 40, 40B, 40C, and the like.
  • a feature word is extracted from article data, and a region word indicating a region is not stored as a region word in the region word DB 12b stored in association with geographic information for specifying the region.
  • the word is identified from the extracted feature words, and the search result obtained by the search device is acquired by the specified feature word, and the geographical information is obtained by specifying the region related to the article data based on the search result,
  • the article content of the acquired article data and geographic information related to the article data are specified, and the symbol 50 corresponding to the article data has a size corresponding to the specified geographic information and article information related to the article contents.
  • the symbol 50 is mapped and displayed on the map based on the specified geographic information, the article data can be visualized so as to improve the convenience for the user.
  • the symbol 50 having a size corresponding to the specified geographic information and the information of the article related to the article content makes it easy for the user to recognize where many related articles appear on the map.
  • the system of the information processing server 10 when determining the arrangement position of the article data in the symbol 50 according to the information amount of the article data, the system of the information processing server 10 according to the length of the article or the like.
  • the control unit 14 can provide the user with the article data in an easy-to-understand manner.
  • the system control unit 14 of the information processing server 10 can provide the user with articles of objective facts such as dates, persons, places, and publicly revealed facts.
  • the system control unit 14 of the information processing server 10 can easily understand the category by the mode of the symbol 50 and can be easily selected by the user. Provides display of article data.
  • the system control unit 14 of the information processing server 10 is less affected by noise geographic information and can accurately identify geographic information.
  • the number of articles of the article related to the specified geographic information and article content is counted in the table 12t and displayed by controlling the size of the symbol according to the number of articles, the number of articles can be easily counted. In addition, the user can easily recognize where many related articles appear on the map.
  • step S6 and step S16 a specific modification of the area in step S6 and step S16 will be described with reference to FIGS.
  • the system control unit 14 of the information processing server 10 weights each table stored in the regional language DB 12b so that the region can be identified even when the regional words extracted from the article data have the same frequency. Depending on, the frequency of regional terms and regional terms is weighted. Since “ ⁇ tower” is a landmark, the weight is five times and the score is “5”. On the other hand, since “ ⁇ ⁇ prefecture” and “ ⁇ ⁇ prefecture” are prefecture names, the weight is 1 and the score is “1”. Then, “ ⁇ tower” is counted the most from the delivered articles, and the latitude and longitude corresponding to “ ⁇ tower” are referred to the landmark table as position information for mapping the delivered articles. Identified.
  • the system control unit 14 of the information processing server 10 may apply tf-idf (Term Frequency-Inverse Document Frequency) to feature words, regional words, and regional related terms. For example, in the case of an article as shown in FIG. 17, when paragraph A is the main part of an article, about 100 articles having information on only paragraph A are distributed, and an article having information on paragraph A + paragraph B is distributed. Assume that about 20 items have been distributed. The system control unit 14 of the information processing server 10 obtains a score for each regional word and regional related term by applying tf-idf.
  • tf-idf Term Frequency-Inverse Document Frequency
  • the system control unit 14 of the information processing server 10 maps the article data to the latitude / longitude of “ ⁇ ⁇ city”. In this case, it is possible to map from the delivered article to a place name that rarely appears.
  • the system control unit 14 of the information processing server 10 calculates the appearance frequency of the feature word extracted in the article data and specifies the region based on the calculated appearance frequency, the accuracy of specifying the region is improved. be able to.
  • the system control unit 14 of the information processing server 10 uses another area language in the article data. Referring to geographical information such as region-related terms, if it is a place name or landmark related to Tokyo, “Tokyo Otemachi” is specified.
  • the system control unit 14 of the information processing server 10 specifies, the area indicated by the article data is specified as shown in step S16.
  • the system control unit 14 of the information processing server 10 obtains the association between the feature words in the article data, and associates the feature words with “Otemachi” as the center as an example of the identified feature words.
  • the system control unit 14 of the information processing server 10 performs morphological analysis, and characterizes mainly “Otemachi” based on the distance of the number of characters between feature words in the article and the word association DB 22b of the search server 20. Associate words and other words.
  • the system control unit 14 of the information processing server 10 searches for a region name or a region-related word among related words centering on “Otemachi”, and specifies a region indicating an article.
  • This modification is a modification of the operation related to the display of article data after step S20, and the description of steps S11 to S18 is omitted.
  • FIG. 20 is a flowchart showing a modified example of the operation of the information processing server 10.
  • FIG. 21 is a schematic diagram illustrating a modified example of the window screen displayed on the terminal 30.
  • the information processing server 10 acquires user information (step S30). Specifically, the system control unit 14 of the information processing server 10 determines the user's name, address, hometown, user based on the user ID of the logged-in user such as a shopping site from the user information DB 12d and the like. Gender, age, purchase history, and the like.
  • the information processing server 10 acquires map information based on the user information (step S31). Specifically, the system control unit 14 of the information processing server 10 acquires map information from the map DB 12c based on user geographical information such as an address of user information and a birth place.
  • step S22 the information processing server 10 sets the size of the symbol according to the number of articles in each category and region (step S32).
  • the information processing server 10 emphasizes the symbol corresponding to the local news according to the user geographic information of the user information (step S33). Specifically, the system control unit 14 of the information processing server 10 emphasizes the symbol corresponding to the local news according to the user address or the place of birth of the user information. For example, when the symbol 51 mapped to an area such as a user address overlaps with other symbols, the system control unit 14 of the information processing server 10 places the symbol 51 on the top of the display as shown in FIG. The symbol is emphasized by displaying it. Further, the system control unit 14 of the information processing server 10 emphasizes the symbol by changing the shape of the symbol 52 mapped to the area such as the user's hometown.
  • the information processing server 10 emphasizes the symbol of the article content that the user is likely to be interested based on the user information (step S34). Specifically, the system control unit 14 of the information processing server 10 identifies article contents and categories that the user is likely to be interested in from user information such as the user's age and purchase history from the user information DB 12d. For example, when the user is interested in sports, the system control unit 14 of the information processing server 10 changes the symbol indicating sports to a symbol color or pattern that is most noticeable. As shown in FIG. 21, the system control unit 14 of the information processing server 10 exchanges the color schemes of the legends of the symbols 42 a and 42 b in the category column 42 and exchanges the color schemes of the symbols 51 and 53 on the map. The symbols may be highlighted by some method, such as blinking the symbols.
  • step S24 the information processing server 10 generates a Web page in which symbols corresponding to article data are mapped on a map (step S35).
  • the system control unit 14 of the information processing server 10 is easily customized for each user. Can provide a display of the article data.
  • the system control unit 14 of the information processing server 10 can provide easy-to-understand customized article data display for each user. .
  • I can grasp articles about my residence.
  • past articles are accumulated and displayed in association with symbols, the articles can be traced back to the past.
  • the information processing server 10 may set a display scale of a map for mapping articles according to user information, as an example of mapping means. As shown in FIG. 22, according to the user geographic information such as the user address and the birthplace in the user information, for example, the display scale of the map of the birthplace area is expanded like the map information 61, and the web page 60 is displayed. Generate. In this case, the system control unit 14 of the information processing server 10 can provide display of article data that is easily customized for each user.
  • the article may be associated with the X region.
  • the system control unit 14 of the information processing server 10 acquires the result of searching for the article data based on the search keyword in step S41 as article data, performs the processing from step S42 to step S46, and the processing after step S49. May be performed.
  • the article data may be information describing events in a specific field on a blog, Twitter, or the like by a general user, other than news articles transmitted by a distributor.
  • one article may be mapped on the map as a symbol.
  • the scale of the map may be changed depending on the area where the map is displayed. Areas with many articles, such as Tokyo, may be displayed with an enlarged scale, and areas with few articles may be displayed with a reduced scale.
  • the change in symbol size according to the number of articles may be moderated.
  • the size of the symbol with respect to the number of articles may be adjusted according to the type of article category. For example, in a category with many articles, the symbol may be small, and the change in the size of the symbol according to the number of articles may be moderated.
  • the symbol size may be adjusted according to the number of articles according to the population of the area to be displayed. For example, in a region with a large population, the change in symbol size according to the number of articles may be moderated.
  • the number of each category in all articles (for example, the ratio of articles about sports to the total number of articles) may be displayed.
  • FIG. 23 is a flowchart illustrating an operation example of the information processing server 10.
  • FIG. 24 is a schematic diagram illustrating an example of a table constructed in the article DB 12a of the information processing server 10.
  • FIG. 25 is a schematic diagram illustrating an example of a window screen displayed on the terminal 30.
  • FIG. 26 is a schematic diagram illustrating an example of a window screen displayed on the terminal 30.
  • the information processing server 10 acquires article data (step S41). Specifically, the system control unit 14 of the information processing server 10 acquires a sentence or the like of article data as in step S1.
  • the information processing server 10 obtains the information amount of article data and the like (step S42). Specifically, the system control unit 14 of the information processing server 10 obtains the information amount of the article data as in step S14. Then, in order to search for a news article using a search keyword from the terminal 30, index information, a snippet, and the like are generated by an indexer and stored in the article DB 12a in association with the article ID.
  • the information processing server 10 identifies a region from the article data (step S43). Specifically, the system control unit 14 of the information processing server 10 extracts a regional language from the article data as in step S15, and identifies a region indicated by the article data from the extracted regional language as in step S16.
  • the information processing server 10 sets position information related to the position on the map from the specified area (step S44).
  • the system control unit 14 of the information processing server 10 refers to the regional language DB 12b as an example of the positional information specifying unit, and relates to the position on the map based on the latitude / longitude information and the geographical code of the specified region. Set location information.
  • the information processing server 10 specifies distribution time information of article data (step S45). Specifically, the system control unit 14 of the information processing server 10 specifies the delivery time information of the article data based on the delivery time of the article included in the article data, the time when the article data is uploaded, and the like.
  • the information processing server 10 stores the article data in association with the specified position information and the specified delivery time information (step S46).
  • the system control unit 14 of the information processing server 10 specifies, as an example of the article data storage unit, the geographic code of the extracted regional word “Tokyo ⁇ ⁇ Ward” in association with the article ID of the acquired article data.
  • the distribution time information and the information amount of the article data are stored in the article DB 12a.
  • the information processing server 10 acquires a search keyword (step S47). Specifically, the system control unit 14 of the information processing server 10 receives and acquires a search keyword (for example, “ ⁇ ⁇ ⁇ ”) input by the user of the terminal 30 from the terminal 30 via the communication unit 11.
  • a search keyword for example, “ ⁇ ⁇ ⁇ ”
  • the information processing server 10 searches for article data based on the search keyword (step S48). Specifically, the system control unit 14 of the information processing server 10 refers to the article DB 12a, searches for article data that matches the search keyword, and collects corresponding article data.
  • the information processing server 10 groups article data whose distribution times are close to each other in time and whose positions indicated by the position information are geographically close (step S49). Specifically, the system control unit 14 of the information processing server 10 determines that an article is distributed in an article having a distribution time close to each other (for example, an article distributed on the same day, or every day such as March 5 to March 6). And articles of geographic codes belonging to a predetermined area (an example of articles related to specific position information) are grouped. More specifically, as shown in FIG. 24, the system control unit 14 of the information processing server 10 arranges the searched article data in the order of distribution time information in the table 12s and has articles having a geographic code belonging to the same area. Assign a group number to the data. The system control unit 14 of the information processing server 10 functions as an example of a grouping unit that groups article data based on position information of a plurality of article data having different delivery time information.
  • the information processing server 10 calculates the number of articles included in the group (step S50). Specifically, as illustrated in FIG. 24, the system control unit 14 of the information processing server 10 refers to a table 12s constructed in the article DB 12a as an example of the article count calculation unit, and stores articles having the same group number. Calculate the number of articles.
  • the information processing server 10 sets the size of the symbol corresponding to the article data according to the number of articles in the group (step S51). Specifically, first, the system control unit 14 of the information processing server 10 acquires map information 71 for Japan from the map DB 12c as shown in FIG. Then, the system control unit 14 of the information processing server 10 refers to the symbols 81 to be mapped on the map information 71 of the Web page 70 according to the number of articles of each group with reference to the table 12s constructed in the article DB 12a. The sizes of 82 and 83 are set. In the table 12s, the symbol 81 corresponds to “group number: 001”, the symbol 82 corresponds to “group number: 002”, and the symbol 83 corresponds to “group number: 003”. Note that a symbol color or the like may be set according to a news category to which an article that matches the search keyword belongs.
  • the information processing server 10 determines the arrangement position of the article data in the symbols 81, 82, 83 based on the information amount of each article data (step S52).
  • the system control unit 14 of the information processing server 10 determines the arrangement position of the article data as in step S23.
  • the information processing server 10 generates an arrow on the map according to the time series of distribution time (step S53). For example, as illustrated in FIG. 25, the system control unit 14 of the information processing server 10 first generates a symbol 81 from an article distributed on March 4th. Then, a symbol 82 is generated from articles distributed from March 5th to March 7th.
  • the system control unit 14 generates an arrow 90 as an example of visualization information for visual association on the map information 71. Further, the system control unit 14 of the information processing server 10 calculates, for example, the position coordinates of the symbols 81 and 82 on the map information 71, and based on the calculated coordinates, the length of the arrow 90 and the direction of the arrow 90 Is calculated. Then, the system control unit 14 of the information processing server 10 calculates the position coordinates of the symbols 82 and 83 on the map information 71, and calculates the length of the arrow 90 and the direction of the arrow 90 based on the calculated coordinates. .
  • the positions of the symbols 81, 82, 83, etc. on the map information 71 are determined based on the position information (longitude / latitude information, geographic code, etc.) of each article data corresponding to the symbols 81, 82, 83, etc.
  • the positions of the symbols 81, 82, 83, etc. are the position of the address indicated by the geographic code, the average of the location of the address indicated by the geographic code of each grouped article data, and the center of the area on the map indicated by the group It is determined at a predetermined position of the part or the like.
  • the system control unit 14 of the information processing server 10 is a group of a plurality of article data having different delivery time information from which articles are distributed, as an example of the visualization information generation unit,
  • the coordinates of the group in the web page 70 are determined from the position information. Then, based on the determined coordinates, for example, information (arrow 90) for visually associating the positional relationship between the groups on the map shown in FIG. 25 is generated.
  • the information processing server 10 generates a Web page 70 in which arrows and symbols are mapped on a map (step S54). Specifically, as shown in FIG. 25, the system control unit 14 of the information processing server 10 relates to the article data of the delivery time information corresponding to the display period, on the map information 71 in Japan, symbols 81, 82, A web page 70 is generated by mapping 83 and the arrow 90 on the map information 71 based on the position information of each article data corresponding to the symbols 81, 82, and 83. As shown in FIG. 25, the date of the article and the search keyword “ ⁇ ⁇ ⁇ ” are displayed in the vicinity of the symbols 81, 82, 83 on the Web page 70.
  • the system control unit 14 of the information processing server 10 transmits information regarding the Web page 70 to the terminal 30 via the communication unit 11 in response to a request from the terminal 30.
  • the system control unit 36 of the terminal 30 that has received information regarding the Web page 70 via the communication unit 31 causes the display unit 33 to display the Web page 70.
  • the system control unit 14 of the information processing server 10 displays the symbol 84 in step S53. , 85, 86, 87, the arrow 90, and the position information of each article data corresponding to the symbols 84, 85, 86, 87, the web page 70 mapped on the map information 71 is generated.
  • Symbols 84, 85, 86, and 87 are regions having the largest number of articles on a predetermined day. Further, when the number of articles is the same on a predetermined day, the display area may be limited to one area or a plurality of areas may be displayed. Further, symbols may be displayed in all areas where articles are posted on a predetermined day. In these cases, a plurality of arrows 90 may appear from the same symbol.
  • the search keyword is acquired from the terminal, the article data related to the search keyword is acquired, the area indicated by the article data is specified, and the position information regarding the position on the map is determined from the specified area.
  • the distribution time information for identifying and distributing the article data is set from the article data, the article data is stored in association with the set position information and the distribution time information, and a plurality of article data having different distribution time information (for example, symbols) Visualization information (for example, arrow 90) for visually associating the positions on the map indicated by the position information of the article data indicated by 81 and the article data indicated by symbol 82) is generated on the map, and the visualization information is mapped to the map.
  • the spread of information of news articles and the state of propagation are visualized, and the user Thereby improving the convenience.
  • the user can see how information is transmitted, such as how the articles related to the search keyword are transmitted and how they move.
  • the visualization information enables the user to grasp the spread of the search keyword (word) through the article.
  • FIGS. 27 to FIG. 29 are schematic diagrams showing various modified examples of the visualization information (arrow 90).
  • the first modification example of the visualization information includes an arrow 91 according to the size (corresponding to the number of articles) of the symbols 81 and 82 or the symbols 82 and 83 at both ends of the arrow 91 as an example of the visualization information.
  • This is a case of changing the form. For example, in the case of the arrow 91 from the symbol 81 with a small number of articles to the symbol 82 with a large number of articles, the system control unit 14 of the information processing server 10 narrows the base end side of the pattern of the arrow 91, Increase the tip end of the handle.
  • the system control unit 14 of the information processing server 10 thickens the base end side of the pattern of the arrow 91, Narrow the tip side of the handle. As shown in FIG. 27, the color or the like of the arrow 91 may be changed according to the increase or decrease in the number of articles.
  • the system control unit 14 of the information processing server 10 refers to the article DB 12a, calculates the number of articles related to the specific position information, and sets the visualization information such as the arrow 91 based on the number of articles. By doing so, the user can easily recognize the spread of information intuitively. In addition, it is easy to recognize where many related articles are distributed on the map.
  • the second modification of the visualization information is that when an article stays in a certain area for a certain period of time, such as “March 5th to March 7th”, the form of the arrow is changed according to the staying time.
  • the system control unit 14 of the information processing server 10 changes the size of the base end of the arrow according to the stay time of the article.
  • the staying time is determined based on the distribution time information of the article data of each group. For example, in the case of “group number 002” in the table 12s, the stay time of the article is 3 days from the distribution time information.
  • the system control unit 14 of the information processing server 10 may change the thickness of the arrow handle or the size of the tip of the arrow according to the stay time of the article.
  • the system control unit 14 of the information processing server 10 refers to the table 12s which is an example of the article data storage unit, and the position information related to the position belonging to the predetermined area (within the predetermined range) on the map.
  • the user can intuitively grasp the spread of the information. In particular, in a certain area, if there is article information on consecutive days from “March 5th to March 7th”, there may be some useful information in that area. Can be grasped visually.
  • the third modification of the visualization information is a combination of the second modification and the third modification.
  • the base end part of the arrow in the example of the visualization information corresponds to the base end part of the third modification, and the handle part of the arrow and the tip part of the arrow are on the handle part and the tip part of the arrow of the second modification example. Correspond. In this case, the user can intuitively recognize the spread of the amount of information and can grasp the uniqueness of the region.
  • the fourth modified example of the visualization information is a case where the information relation with a place other than the map information 71 in the display frame of the screen of the Web page 70 is shown, as shown in FIG.
  • This modified example is a modified example for expressing the relationship with overseas article data.
  • An arrow 94 as an example of visualization information extends toward the symbol 81 starting from a place other than the map information 71 having article data older than the article data of the symbol 81. With this arrow 94, the user can grasp the geographical image of the information source.
  • An arrow 95 as an example of the visualization information extends from the symbol 83 to a place other than the map information 71 having article data newer than the symbol 83. With this arrow 95, the user can grasp the geographical image of the destination of the article information other than the map information 71.
  • arrows 94 and 95 which are examples of visualization information, allow the user to visually grasp the spread of information and propagation of global news articles.
  • the direction of the base end of the arrow 94 indicates the geographical position of the country, or the direction of the front end of the arrow 95 indicates the geographical position of the country. May be shown. In this case, the relationship between the article and other countries can be shown.
  • the fifth modification of the visualization information is when the visualization information is changed according to the number of accesses to the article data, and when the number of articles is expressed by a symbol color or the like.
  • the system control unit 14 of the information processing server 10 refers to the member information DB 12b and calculates the number of accesses to each article data based on the user ID and login ID of the user who has logged into the shopping site or the like. Further, the system control unit 14 of the information processing server 10 may calculate the number of accesses to each piece of article data using a cookie. In order to accurately measure the number of accesses and the number of times viewed by each user, the system control unit 14 of the information processing server 10 should not increase the number of accesses in the case of the same user by determining the user ID or the like. preferable.
  • the size of the base end may be changed in accordance with the total number of accesses to the article data belonging to the “group number: 001” at the base end of the arrow in the example of the visualization information. Further, the size of the base end portion may be changed in accordance with the total number of accesses to each piece of article data in which the base end portion of the arrow belongs to “group number: 002”. Moreover, the handle
  • the number of articles may be represented by shading or color like a symbol.
  • FIG. 29 is a schematic diagram illustrating a modified example of the window screen displayed on the terminal 30.
  • FIG. 29 shows a case where the area 72 where the symbol 82 is displayed in FIG. 25 is enlarged and displayed.
  • the system control unit 14 of the information processing server 10 further subdivides the article data into subgroups based on the “group number 002” based on the geographic code.
  • Symbols 82A, 82B, and 82C correspond to the subgroups resulting from the fine grouping, and the system control unit 14 of the information processing server 10 includes an arrow 90 from the subgroup of the symbol 82A to the subgroup of the symbol 82B, and the symbol 82B. And the arrow 90 from the subgroup to the subgroup of the symbol 82C.
  • the arrow 94B starts from the area of the symbol 81 outside the map information 71B and goes to the symbol 82A, and the arrow 95B starts from the symbol 82C and goes outside the map information 71B. Go to the area of symbol 73.
  • the system control unit 14 of the information processing server 10 when the system control unit 14 of the information processing server 10 receives a request from the terminal 30 to enlarge the area 72 where the symbol 82 is displayed, the symbol 82 is displayed from the map DB 12c.
  • the map information of the area 72 is acquired.
  • the system control unit 14 of the information processing server 10 receives a map enlargement / reduction request from the terminal 30 and acquires map information from the map DB 12c, thereby setting a scale of a map to be displayed on the display unit 33 of the terminal 30. Functions as a map scale means.
  • step S49 the system control unit 14 of the information processing server 10 groups article data whose distribution times are close to each other in time and whose positions indicated by the position information are geographically close.
  • the predetermined area is further narrowed to group the article data to generate subgroups. For example, as shown in FIG. 29, subgroups corresponding to the symbols 82A, 82B, and 82C are generated.
  • the system control unit 14 of the information processing server 10 regroups the grouped article data based on the position information when the scale of the map is controlled.
  • step S50 the system control unit 14 of the information processing server 10 calculates the number of articles included in the subgroup.
  • step S51 the system control unit 14 of the information processing server 10 sets the size of the symbols 82A, 82B, and 82C corresponding to the article data according to the number of articles in the subgroup.
  • step S52 the system control unit 14 of the information processing server 10 determines the arrangement position of the article data in the symbols 82A, 82B, and 82C based on the information amount of each article data.
  • the system control unit 14 of the information processing server 10 displays the arrow 90 from the symbol 82A to the symbol 82B and the arrow 90 from the symbol 82B to the symbol 82C according to the time series of the distribution time. Generate. Note that the system control unit 14 of the information processing server 10 may use the average distribution time of the article data in the subgroup, and determines the direction of the arrow 90 according to the average distribution time. As described above, the system control unit 14 of the information processing server 10 determines the arrangement on the map of the symbols 82A, 82B, and 82C based on the position indicated by the position information of the grouped article data, and the symbol corresponding to the group. An arrow 90 for visually associating each other on the map is generated.
  • step S54 the system control unit 14 of the information processing server 10 puts the arrow and the symbol on the map whose scale has been changed based on the position indicated by the position information of the subgrouped article data.
  • the mapped web page 70 is generated.
  • the information flow with respect to the symbol 82 includes the detailed information flow such as the symbol 82A, the arrow 90, the symbol 82B, the arrow 90, and the symbol 82C, and the user as shown by the arrows 94B and 95B. You can also understand the flow of information.
  • the search server 20 as an example of a search device may be an external search server via the network 3 instead of the server system 7.
  • the information processing server 10 as an example of the information processing apparatus may include a search device. That is, the information processing server 10 has the search DB 22a, and instead of the search server 20, the information processing server 10 may perform a search using the specified feature word and acquire a search result.
  • the present invention is not limited to the above embodiments.
  • Each of the embodiments described above is an exemplification, and any configuration that has substantially the same configuration as the technical idea described in the claims of the present invention and has the same operational effects can be used. It is included in the technical scope of the present invention.
  • Network 10 Information processing server (information processing apparatus) 12: Storage unit 12a: Article DB (article data storage means) 12b: Regional language DB (regional language storage means) 12c: Map DB 12d: User information DB 12e: Visualization information DB 20: Search server (search device) 22: Storage unit 22a: Search DB 22b: Word association DB 50, 51, 52, 53: Symbol 90, 91, 94, 94B, 95, 95B: Arrow (visualization information)

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 記事データを取得し(S1)、取得した記事データから特徴語を抽出し(S2)、地域を示す地域語を、地域を特定するための地理情報に関連付けて記憶したデータベース12bに地域語として記憶されていない特徴語を、抽出した特徴語の中から特定し(S3)、特定された特徴語により、検索装置で行った検索結果を取得し(S4、S5)、検索結果に基づき記事データに関連した地域を特定して地理情報を求め(S6)、特定された地域と関連付けて、特定された特徴語を、地域語としてデータベース12bに記憶する(S7)。

Description

情報処理装置、情報処理方法、情報処理プログラム、および、記録媒体
 本発明は、インターネット上の情報を処理する情報処理装置、情報処理方法、情報処理プログラム、および、記録媒体の技術分野に関する。
 インターネットの利用拡大に応じて、インターネット上における膨大な情報を整理し、ユーザに分かりやすく表示するための様々な技術が開発されている。例えば、特許文献1では、クラスタ間の関係や文書とクラスタ間の関係、文書間の関係を容易に把握できるクラスタリング結果を時系列で表示して文書群のトレンドの推移を分析可能にする分類結果表示装置が開示されている。
特開2005-63249号公報
 しかしながら、上記のような技術では、情報がクラスタにより分類されるが、ニュース記事等で新しく出現した情報の場合、クラスタから孤立する確率が高く、新しく出現した情報と他の情報との関連性を示すことが難しかった。特に、新しく建造された建造物等の新しいランドマークの場合、地名等用のデータベースに存在しないことが多く、どこの地域にあるか等の関連性を見出すために、ユーザは他のウェブサイトの検索等をして調べる必要があった。
 本発明は、このような問題に鑑みてなされたものであり、記事に出現した用語であって、データベースに存在しない用語であっても、地域を特定できる情報処理装置、情報処理方法、情報処理プログラム、および、記録媒体を提供することを目的とする。
 上記課題を解決するために、請求項1に記載の発明は、地域を示す地域語を、地域を特定するための地理情報に関連付けて記憶する地域語記憶手段と、記事データを取得する記事データ取得手段と、前記記事データから特徴語を抽出する特徴語抽出手段と、前記地域語記憶手段に地域語として記憶されていない特徴語を、前記抽出した特徴語の中から特定する特徴語特定手段と、前記特定された特徴語により、検索装置で行った検索結果を取得する検索結果手段と、前記検索結果手段の検索結果に基づき、前記記事データに関連した地域を特定して地理情報を求める地域特定手段と、を備え、前記地域特定手段が、前記特定された地域と関連付けて、前記特定された特徴語を、地域語として前記地域語記憶手段に記憶することを特徴とする。
 請求項2に記載の発明は、請求項1に記載の情報処理装置において、前記特徴語抽出手段が、前記検索結果手段の検索結果より検索結果特徴語を抽出し、前記地域特定手段が、前記地域語記憶手段を参照して、前記検索結果特徴語から地域を特定して地理情報を求めることを特徴とする。
 請求項3に記載の発明は、請求項1から請求項3のいずれか1項に記載の情報処理装置において、前記検索結果手段が、前記特定された特徴語を中心とする関連する単語を複数検索し、前記地域特定手段が、前記関連する単語より地域を特定して地理情報を求めることを特徴とする。
 請求項4に記載の発明は、請求項1から請求項3のいずれか1項に記載の情報処理装置において、前記地域特定手段が、前記記事データにおいて前記抽出した特徴語の出現頻度を算出し、当該算出した出現頻度に基づき地域を特定して地理情報を求めることを特徴とする。
 請求項5に記載の発明は、請求項4に記載の情報処理装置において、前記地域語記憶手段が、前記地域語毎に重み付けの値を有し、前記地域特定手段が、前記算出した出現頻度と前記重み付けの値とに基づき地域を特定して地理情報を求めることを特徴とする。
 請求項6に記載の発明は、請求項1から請求項5のいずれか1項に記載の情報処理装置において、前記記事データの記事内容を特定する記事内容特定手段と、前記特定した記事内容および前記特定された地域に関連付けて前記記事データを記憶する記事データ記憶手段と、前記特定された地域に基づき、前記記事データに対応するシンボルを地図上にマッピングするマッピング手段と、前記記事データ記憶手段を参照して、前記特定された地域と前記特定した記事内容とに関連した記事の情報を収集する関連記事収集手段と、を更に備え、前記マッピング手段は、前記収集した記事の数に応じたシンボルをマッピングすることを特徴とする。
 請求項7に記載の発明は、請求項6に記載の情報処理装置において、前記マッピング手段が、前記記事データの情報量に応じて、前記シンボル内における前記記事データの配置位置を決定することを特徴とする。
 請求項8に記載の発明は、請求項6または請求項7に記載の情報処理装置において、前記記事内容特定手段が、前記記事内容のカテゴリを特定し、前記マッピング手段が、前記シンボルの態様を前記カテゴリ毎に変更することを特徴とする。
 請求項9に記載の発明は、請求項6から請求項8のいずれか1項に記載の情報処理装置において、記事データ取得手段が、検索キーワードに関連した記事データを取得し、前記記事データが配信された配信時間情報を前記記事データから特定する配信時間情報特定手段と、前記マッピング手段が、前記検索キーワードに関連した記事データにおいて、前記配信時間情報が互いに異なる複数の前記記事データに対応するシンボル同士を、地図上で可視的に関連付けるための可視化情報をマッピングすることを特徴とする。
 請求項10に記載の発明は、情報処理装置が情報処理をする情報処理方法において、地域を示す地域語を、地域を特定するための地理情報に関連付けて地域語記憶手段に記憶する地域語記憶ステップと、記事データを取得する記事データ取得ステップと、前記記事データから特徴語を抽出する特徴語抽出ステップと、前記地域語記憶手段に地域語として記憶されていない特徴語を、前記抽出した特徴語の中から特定する特徴語特定ステップと、前記特定された特徴語により、検索装置で行った検索結果を取得する検索結果ステップと、前記検索結果手段の検索結果に基づき、前記記事データに関連した地域を特定して地理情報を求める地域特定ステップと、を有し、前記地域特定ステップにおいて、前記特定された地域と関連付けて、前記特定された特徴語を、地域語として前記地域語記憶手段に記憶することを特徴とする。
 請求項11に記載の発明は、コンピュータに、地域を示す地域語を、地域を特定するための地理情報に関連付けて記憶する地域語記憶手段、記事データを取得する記事データ取得手段、前記記事データから特徴語を抽出する特徴語抽出手段、前記地域語記憶手段に地域語として記憶されていない特徴語を、前記抽出した特徴語の中から特定する特徴語特定手段、前記特定された特徴語により、検索装置で行った検索結果を取得する検索結果手段、および、前記検索結果手段の検索結果に基づき、前記記事データに関連した地域を特定して地理情報を求める地域特定手段として機能させ、前記地域特定手段が、前記特定された地域と関連付けて、前記特定された特徴語を、地域語として前記地域語記憶手段に記憶することを特徴とする。
 請求項12に記載の発明は、コンピュータに、地域を示す地域語を、地域を特定するための地理情報に関連付けて記憶する地域語記憶手段、記事データを取得する記事データ取得手段、前記記事データから特徴語を抽出する特徴語抽出手段、前記地域語記憶手段に地域語として記憶されていない特徴語を、前記抽出した特徴語の中から特定する特徴語特定手段、前記特定された特徴語により、検索装置で行った検索結果を取得する検索結果手段、および、前記検索結果手段の検索結果に基づき、前記記事データに関連した地域を特定して地理情報を求める地域特定手段として機能させ、前記地域特定手段が、前記特定された地域と関連付けて、前記特定された特徴語を、地域語として前記地域語記憶手段に記憶することを特徴とする情報処理プログラムを記録する。
 本発明によれば、記事データから特徴語を抽出し、地域を示す地域語を、地域を特定するための地理情報に関連付けて記憶したデータベースに地域語として記憶されていない特徴語を、抽出した特徴語の中から特定し、特定された特徴語により、検索装置で行った検索結果を取得し、検索結果に基づき記事データに関連した地域を特定して地理情報を求めることにより、記事に出現した用語であって、データベースに存在しない語であっても、地域を特定することができる。
本発明の一実施形態に係る情報処理システムの概要構成例を示す模式図である。 図1の情報処理サーバの概要の一例を示すブロック図である。 図2の地域語データベースのデータ構造の一例を示す模式図である。 図2の地域語データベースのデータ構造の一例を示す模式図である。 図2の地域語データベースのデータ構造の一例を示す模式図である。 図2の地域語データベースのデータ構造の一例を示す模式図である。 図2の地域語データベースのデータ構造の一例を示す模式図である。 図1の検索サーバの概要の一例を示すブロック図である。 図4の単語連想データベースのデータ構造の一例を示す模式図である。 図1の端末の概要構成の一例を示すブロック図である。 図1の情報処理サーバが地域を特定する第1実施形態の動作例を示すフローチャートである。 図1の情報処理サーバが記事データをマッピングする動作例を示すフローチャートである。 情報処理サーバが取得する記事データの一例を示す模式図である。 抽出された地域語の頻度の一例を示す模式図である。 図1の情報処理サーバのデータベースに構築されるテーブルの一例を示す模式図である。 図1の端末に表示されるウィンドウ画面の一例を示す模式図である。 図1の端末に表示される記事データに対応するシンボルの一例を示す模式図である。 図1の端末に表示される記事データに対応するシンボルの一例を示す模式図である。 図1の端末に表示されるウィンドウ画面の一例を示す模式図である。 図1の端末に表示されるウィンドウ画面の一例を示す模式図である。 情報処理サーバが取得する記事データの変形例を示す模式図である。 情報処理サーバが取得する記事データの変形例を示す模式図である。 記事から抽出された特徴語の関連の一例を示す模式図である。 図1の情報処理サーバの動作の変形例を示すフローチャートである。 図1の端末に表示されるウィンドウ画面の変形例を示す模式図である。 図1の端末に表示されるウィンドウ画面の変形例を示す模式図である。 図1の情報処理サーバの第2実施形態の動作例を示すフローチャートである。 図1の情報処理サーバのデータベースに構築されるテーブルの一例を示す模式図である。 図1の端末に表示されるウィンドウ画面の一例を示す模式図である。 図1の端末に表示されるウィンドウ画面の一例を示す模式図である。 可視化情報の第1変形例を示す模式図である。 可視化情報の第2変形例を示す模式図である。 図1の端末に表示されるウィンドウ画面の変形例を示す模式図である。
 以下、図面を参照して本発明の実施形態について説明する。
[1.情報処理システムの構成および機能概要]
 まず、本発明の一実施形態に係る情報処理システムの概要について、図1を用いて説明する。
 図1は、本実施形態に係る情報処理システム1の概要構成例を示す模式図である。
 図1に示すように、情報処理システム1は、例えば、ニュース配信サイト5等から記事データを取得し、記事データに関する地域を特定する情報処理サーバ(情報処理装置の一例)10と、記事データに関する地域を特定するための検索データベースを有する検索サーバ20(検索装置の一例)と、情報処理サーバ10によりまとめられた記事データを閲覧するユーザの端末30と、を備えている。
 情報処理サーバ10と、検索サーバ20とは、ローカルエリアネットワーク等により接続され、相互にデータの送受信が可能になっていて、サーバシステム7を構成している。そして、サーバシステム7と、複数の端末30とは、ネットワーク3により接続され、通信プロトコル(例えば、TCP/IP)により、データの送受信が可能になっている。なお、ネットワーク3は、例えば、インターネット、専用通信回線(例えば、CATV(Community Antenna Television)回線)、移動体通信網(基地局等を含む)、および、ゲートウェイ等により構築されている。なお、情報処理サーバ10は、ローカルエリアネットワーク等により、ショッピングサイトを管理するショッピングサーバ(図示せず)と接続されていてもよい。
 情報処理サーバ10は、ニュース配信サイト5等から取得した記事データに含まれる地名やランドマーク等の特徴語を抽出し、記事データに関連した地域を特定する。そして、情報処理サーバ10は、特定した地域に関する地理情報に基づき、記事データに対応するシンボルを地図上にマッピングしたWebページを端末30に提供する。ここで、地理情報とは、地域名、ランドマークのような地域関連用語、住所、郵便番号のようなコード、緯度経度等の地域に関連する情報である。
[2.サーバ等の構成および機能]
(2.1 情報処理サーバ10の構成および機能)
 次に、情報処理サーバ10の構成および機能について、図2を用いて説明する。
 図2は、情報処理サーバ10の概要の一例を示すブロック図である。
 図2に示すように、コンピュータとして機能する情報処理サーバ10は、通信部11と、記憶部12と、入出力インターフェース部13と、システム制御部14を備えている。そして、システム制御部14と入出力インターフェース部13とは、システムバス15を介して接続されている。
 通信部11は、ネットワーク3に接続してニュース配信サイト5および端末30等との通信状態を制御し、さらに、ローカルエリアネットワークに接続して、ローカルエリアネットワーク上の検索サーバ20等とデータの送受信を行う。
 記憶部12は、例えば、ハードディスクドライブ等により構成されており、オペレーティングシステムおよびサーバプログラムや、端末30等にダウンロードして実行させるプログラム等の各種プログラムや、データ等を記憶する。なお、各種プログラムは、例えば、他のサーバ装置等からネットワーク3を介して取得されるようにしてもよいし、記録媒体に記録されてドライブ装置を介して読み込まれるようにしてもよい。また、記憶部12には、HTML(HyperText Markup Language)、XML(Extensible Markup Language)等のマークアップ言語等により記述されたWebページのファイル等が記憶されている。
 また、記憶部12は、ニュース配信サイト5等から取得した記事データ等を記憶する記事データベース(以下「記事DB」とする。)12aや、地名やランドマーク等の地域語および地域関連語が地域毎に記憶された地域語データベース(以下「地域語DB」とする。)12bや、地図に関する情報を記憶するマップデータベース(以下「マップDB」とする。)12cや、ユーザ情報を記憶するユーザ情報データベース(以下「ユーザ情報DB」とする。)12d、記事データ同士を地図上で可視的に関連付けるための可視化情報を記憶する可視化情報データベース(以下「可視化情報DB」とする。)12e等を有している。
 記事データ記憶手段の一例である記事DB12aには、例えば、取得した記事データと共に、記事データに関連した記事内容、カテゴリ、配信時間情報、および、地理情報が記事IDに関連付けられ記憶されている。また、記事DB12aには、記事内容や記事のカテゴリを特定するためのキーワードも記憶されている。また、記事DB12aには、特定した地域に関する地理情報毎かつ記事内容毎や、特定した地域毎かつカテゴリ毎に記事数をカウントした記事数テーブルが記憶されている。さらに、記事DB12aには、ニュース記事検索のため、ニュース配信サイト5等から取得した記事データからインデクサーにより生成されたインデックス情報や、スニペット等が記憶されている。また、記事DB12aには、検索された記事データに関して、記事データの位置情報や配信時間情報に基づきグループ化するためのテーブルが記憶されている。
 地域語記憶手段の一例である地域語DB12bには、図3Aから図3Eに示すように、都道府県名、市区町村名、郵便番号、住所名といった地域語や、ランドマーク名等の地域関連語が、その地域が示す経度・緯度の情報等の地理情報に関連付けて記憶されている。なお、地域語や地域関連用語は、地図上に対応する地名毎等の割り当てた地理コード(例えば、各地方公共団体に割り当てられた地方公共団体コード等)と関連付けて記憶されてもよい。
 図3Aから図3Eに示すように、地域語DB12bは、ランドマーク用のテーブル、都道府県名用のテーブル、市区町村名用のテーブル、郵便番号用のテーブル、番地名まで特定された住所用のテーブルを有している。そして、記事データから地域を特定する際に、記事データから抽出された特徴語の統計処理を行う際の重み付けがされている。例えば、図3Aに示すようなランドマーク用のテーブルの場合、ランドマーク名に対して5倍の重みを与える。図3Bに示すような都道府県名用のテーブルの場合、都道府県名に対して1倍の重みを与える。図3Cに示すような市区町村名用のテーブルの場合、市区町村名に対して2倍の重みを与える。図3Dに示すような郵便番号用のテーブルの場合、郵便番号に対して3倍の重みを与える。図3Eに示すような番地名まで特定された住所用のテーブルの場合、特定された住所に対して4倍の重みを与える。これらの各テーブルに対する重みが、地域語DB12bに記憶されている。なお、図3Aに示すように、ランドマーク用のテーブルには、ランドマークが住所とも関連付けて記録されている。
 マップDB12cには、例えば、様々な縮尺の地図の画像データ共に、経度・緯度のデータ、郵便番号のデータ、住所のデータが記憶されている。
 ユーザ情報DB12dには、会員登録されたユーザのユーザIDと、氏名と、住所と、出身地と、電話番号と、メールアドレスと、ユーザの性別や年齢といった属性情報が登録されている。また、ユーザ情報DB12dには、ユーザIDをキーにして、各ユーザにおけるショッピングサイト等で購入した商品等の購買履歴が記憶されている。なお、購買履歴は、ローカルエリアネットワーク等を介して、ショッピングサーバから取得されるようにしてもよい。
 可視化情報DB12eには、例えば、矢印(可視化情報の一例)の基本形態等が記憶されている。なお、この矢印の太さや、長さ、方向、形状、色、始点および終点の形状等が、記事の記事数や、収集された記事データの配信時間情報や、地図上の所定のエリアにおける人口データ等に基づき制御された変形タイプも記憶されている。
 入出力インターフェース部13は、通信部11および記憶部12とシステム制御部14との間のインターフェース処理である。
 システム制御部14は、CPU(Central Processing Unit)14a、ROM(Read Only Memory)14b、RAM(Random Access Memory)14c等により構成されている。システム制御部14は、CPU14aがROM14bや記憶部12に記憶された各種プログラムを読み出し実行することにより、取得した記事データに対する処理を行う。
 また、システム制御部14は、通信部11を介して、ニュース配信サイト5から記事データの収集や、処理された記事データの端末30への送信を行う。
(2.2 検索サーバ20の構成および機能)
 次に、検索サーバ20の構成および機能について、図に基づき説明する。
 図4は、検索サーバ20の概要構成の一例を示すブロック図である。
 図4に示すように、検索サーバ20は、通信部21と、記憶部22と、入出力インターフェース部23と、システム制御部24と、を備え、システム制御部24と入出力インターフェース部23とは、システムバス25を介して接続されている。なお、検索サーバ20の構成および機能は、情報処理サーバ10の構成および機能とほぼ同じであるので、情報処理サーバ10の各構成や各機能において、異なるところを中心に説明する。
 通信部21は、ネットワーク3やローカルエリアネットワーク等を通して、情報処理サーバ10等と通信状態を制御等するようになっている。
 記憶部22には、検索データベース(以下「検索DB」とする。)22aや、単語連想データベース(以下「単語連想DB」とする。)22b等が構築されている。
 検索DB22aには、検索キーワードと関連したWebサイトの情報が記憶されている。例えば、WebサイトのURL(Uniform Resource Locator)情報や、検索のためのインデックス情報や検索結果のスニペット等が検索DB22aに記憶されている。
 単語連想DB22bには、図5に示すように、単語間の関連に応じて単語間を連想付けた単語連想記憶データベースの一例として、単語間の関連度等に応じて、単語に対して関連する単語が記憶されている。関連語が複数ある場合、第1関連語、第2関連語等のように関連語が記憶される。
 システム制御部24は、CPU24a、ROM24b、RAM24c等により構成されている。そして、システム制御部24は、CPU24aが、ROM24bや記憶部22に記憶された各種プログラムを読み出し実行することにより、情報処理サーバからの要求により検索等の処理を行う。
(2.3 端末30の構成および機能)
 次に、端末30の構成および機能について、図6を用いて説明する。
 図6は、端末30の概要構成の一例を示すブロック図である。
 図6に示すように、コンピュータとして機能する端末30は、例えば、パーソナルコンピュータや携帯型無線電話機やPDA等の携帯端末であり、通信部31と、記憶部32と、表示部33と、操作部34と、入出力インターフェース部35と、システム制御部36とを備えている。そして、システム制御部36と入出力インターフェース部35とは、システムバス37を介して接続されている。
 通信部31は、ネットワーク3を通して、情報処理サーバ10等と通信を制御する。なお、端末30が携帯型無線電話機の場合、ネットワーク3の移動体通信網に接続するために、通信部31は、無線通信機能を有する。
 記憶部32は、例えば、ハードディスクドライブ等からなり、オペレーティングシステム、Webブラウザプログラム等を記憶する。
 表示部33は、例えば、液晶表示素子またはEL(Electro Luminescence)素子等によって構成されている。表示部33には、マウスの操作により移動するポインタや、情報処理サーバ10から取得した、記事データが含まれるWebページ等が表示される。
 操作部34は、例えば、キーボードおよびマウス等によって構成されている。操作部34により、マップ上に配置された記事データに対応したシンボルが選択等される。
 入出力インターフェース部35は、通信部31および記憶部32とシステム制御部36とのインターフェースである。
 システム制御部36は、例えば、CPU36aと、ROM36bと、RAM36cとを有する。そして、システム制御部36は、CPU36aが、ROM36bや、RAM36cや、記憶部32に記憶された各種プログラムを読み出して実行する場合や、Webページのスクリプトを実行することにより、情報処理サーバ10から取得したWebページを表示部33に表示させる。
[3.情報処理システムの第1実施形態の動作]
 次に、情報処理システム1の第1実施形態の動作について図7から図14を用いて説明する。
(3.1 地域の特定)
 まず、地域語DB12bに存在しない新しいランドマーク等の地域を特定し、地域語DB12bに登録する情報処理について図7を用いて説明する。
 図7は、情報処理サーバ10が地域を特定する動作例を示すフローチャートである。
 図7に示すように、情報処理サーバ10は、記事データを取得する(ステップS1)。具体的には、情報処理サーバ10のシステム制御部14は、記事データ取得手段の一例として、ニュース配信サイト5から通信部11を介して、ニュース配信サイトに掲載されている記事データの文章等を取得する。例えば、情報処理サーバ10のシステム制御部14は、ニュース配信サイトのURL(Uniform Resource Locator)情報に基づき、ニュース配信サイトにアクセスして記事データを取得する。なお、情報処理サーバ10のシステム制御部14は、記事を特定するために、記事データに記事IDを付して記事DB12aに記憶する。
 次に、情報処理サーバ10は、記事データから特徴語を抽出する(ステップS2)。具体的には、情報処理サーバ10のシステム制御部14は、記事データの文章に対して形態素解析や構文解析等をして、地域語や地域関連語の候補として、名詞等の特徴語を抽出する。このとき、情報処理サーバ10のシステム制御部14は、抽出した特徴語の数をカウントする。このように情報処理サーバ10のシステム制御部14は、記事データから特徴語を抽出する特徴語抽出手段の一例として機能する。
 次に、情報処理サーバ10は、抽出した特徴語が地域語DB12bに存在するか否かを判定する(ステップS3)。具体的には、情報処理サーバ10のシステム制御部14は、地域語DB12bのランドマーク用のテーブル、都道府県名用のテーブル、市区町村名用のテーブル、郵便番号用のテーブル、番地名まで特定された住所用のテーブルを参照して、抽出した特徴語が、地域語DB12bに登録されている地域語等に該当するか判定を行う。情報処理サーバ10のシステム制御部14は、地域語または地域関連語として地域語DB12bに記憶されていない特徴語を特定する。例えば、「○○ツリー」というランドマークが建築中であり、「○○ツリー」が地域語DB12bに存在しない場合である。このように情報処理サーバ10のシステム制御部14は、地域語記憶手段に地域語として記憶されていない特徴語を、抽出した特徴語の中から特定する特徴語特定手段の一例として機能する。
 抽出した特徴語が地域語DB12bに存在しない場合(ステップS3;NO)、情報処理サーバ10は、特徴語に基づき検索する(ステップS4)。具体的には、情報処理サーバ10のシステム制御部14は、特定された特徴語に対してWeb検索を行う要求を検索サーバ20に対して行う。
 次に、情報処理サーバ10は、検索結果より検索結果特徴語を抽出する(ステップS5)。具体的には、情報処理サーバ10のシステム制御部14は、検索サーバ20から、スニペット等の検索結果を取得する。そして、情報処理サーバ10のシステム制御部14は、検索結果から、ステップS2のように形態素解析等を行い、検索結果特徴語を抽出する。このように情報処理サーバ10のシステム制御部14は、特定された特徴語により、検索装置で行った検索結果を取得する検索結果手段の一例として機能する。
 次に、情報処理サーバ10は、地域語DB12bを参照して、検索結果特徴語から地域を特定する(ステップS6)。具体的には、情報処理サーバ10のシステム制御部14は、地域語DB12bを参照して、地域語や地域関連語である検索結果特徴語を抽出する。そして、情報処理サーバ10のシステム制御部14は、抽出した検索結果特徴語の中で、出現頻度に応じて地域を特定したり、地域語DB12bのランドマーク用のテーブル等の各テーブルに割り当てられた重みを考慮して地域を特定したりする。そして、情報処理サーバ10のシステム制御部14は、地域語DB12bを参照して、特定した地域の緯度経度(地理情報の一例)を求める。このように情報処理サーバ10のシステム制御部14は、検索結果手段の検索結果に基づき、記事データに関連した地域を特定して地理情報を求める地域特定手段の一例として機能する。また、情報処理サーバ10のシステム制御部14は、検索結果手段の検索結果より検索結果特徴語を抽出する特徴語抽出手段、および、地域語記憶手段を参照して、検索結果特徴語から地域を特定して地理情報を求める地域特定手段の一例として機能する。また、情報処理サーバ10のシステム制御部14は、算出した出現頻度と重み付けの値とに基づき地域を特定して地理情報を求める地域特定手段の一例として機能する。なお、地域の特定の仕方の詳細については後述する。
 次に、情報処理サーバ10は、特定された地域と関連付けて特徴語を地域関連語として記憶する(ステップS7)。具体的には、情報処理サーバ10のシステム制御部14は、地域語DB12bのランドマーク用のテーブルに、特定した地域の緯度・経度や住所等の地理情報と関連付けて記憶する。例えば、「○○ツリー」という新しいランドマーク(地域関連語の一例)が、緯度経度や住所に関連付けて地域語DB12bに登録される。このように、情報処理サーバ10のシステム制御部14は、特定された地域と関連付けて、特定された特徴語を、地域語として地域語記憶手段に、記憶する地域特定手段の一例として機能する。
 ステップS7の後、または、抽出した特徴語が地域語DB12bに存在する場合(ステップS3;YES)の場合、情報処理サーバ10は、抽出した全ての特徴語に対して、処理を行ったか否かを判定する(ステップS8)。具体的には、情報処理サーバ10のシステム制御部14は、抽出した特徴語の数(カウント数)から、1ずつマイナスして、ゼロになったならば(ステップS8;NO)、処理を終了する。カウント数がゼロでない場合(ステップS8;YES)、ステップS3に戻り、次の特徴語に対する処理を行う。
(3.2 マッピングのための記事データの取得)
 次に、記事データを収集し、記事データが示す地域を特定して、図式化するために必要な処理について図8から図11を用いて説明する。
 図8は、情報処理サーバ10が記事データをマッピングする動作例を示すフローチャートである。図9は、情報処理サーバ10が取得する記事データの一例を示す模式図である。図10は、抽出された地域語の頻度の一例を示す模式図である。図11は、情報処理サーバ10のデータベースに構築されるテーブルの一例を示す模式図である。
 まず、ステップS11からステップS18において、記事データをニュース配信サイト5等から取得し、記事DB12aに記事データ等を記憶するまでの動作について説明する。
 情報処理サーバ10は、記事データを取得する(ステップS11)。具体的には、情報処理サーバ10のシステム制御部14は、ステップS1と同様の処理により、図9に示すような記事データを取得する。
 次に、情報処理サーバ10は、記事内容を特定する(ステップS12)。具体的には、情報処理サーバ10のシステム制御部14は、記事内容特定手段の一例として、形態素解析をして、記事データの文章から特徴語を抽出し、特徴語と、記事DB12aに記憶されている記事内容を特定するためのキーワードとの照合を行い、記事内容を特定する。例えば、情報処理サーバ10のシステム制御部14は、記事データの中に、”ホームラン”、”バッター”等の野球に関する特徴語がある場合、”野球”の記事内容であると特定する。なお、情報処理サーバ10のシステム制御部14は、既存の文章要約のアルゴリズム等により、記事内容を特定してもよい。
 次に、情報処理サーバ10は、記事カテゴリを特定する(ステップS13)。具体的には、情報処理サーバ10のシステム制御部14は、記事内容特定手段の一例として、記事DB12aを参照して、特定された記事内容が属するカテゴリを特定する。例えば、記事内容が”野球”ならば、カテゴリは”スポーツ”である。なお、通常、ニュース配信サイトにおいては、ニュース記事が”国際”、”スポーツ”等のようにカテゴリに分けられており、ニュース配信サイトにおける、どのカテゴリから記事データを取得したかにより、情報処理サーバ10のシステム制御部14は、記事カテゴリを特定してもよい。例えば、ニュース配信サイトによっては、URL情報の中にカテゴリの情報があるので、情報処理サーバ10のシステム制御部14は、記事データがあったURL情報に基づき、記事カテゴリを特定する。
 次に、情報処理サーバ10は、記事データの情報量を求める(ステップS14)。具体的には、情報処理サーバ10のシステム制御部14は、記事の長さに対応する記事データのデータ量や、文章の字数や単語数等により、記事データの情報量を求める。また、情報処理サーバ10のシステム制御部14は、形態素解析や構文解析等により、記事データの文章における名詞の数、形容詞の数、副詞の数を求め、これらの品詞の数に基づき記事データの情報量を求めてもよい。
 次に、情報処理サーバ10は、記事データから地域語を抽出する(ステップS15)。具体的には、情報処理サーバ10のシステム制御部14は、ステップS2と同様に特徴語を抽出し、地域語DB12bを参照して、取得した記事データから地理情報の一例として地名やランドマークを抽出する。例えば、情報処理サーバ10のシステム制御部14は、記事データの中に、”○○ツリー”、”東京”、”△タワー”、”都内ホテル”、”▽▽区”、”○△会社”といった地域語、地域関連語を抽出する。なお、地域語DB12bに存在しない特徴語の場合、情報処理サーバ10のシステム制御部14は、ステップS4からステップS7を経て、地域関連語として抽出してもよい。
 次に、情報処理サーバ10は、地域語および地域関連語から記事データに関する地域を特定する(ステップS16)。具体的には、情報処理サーバ10のシステム制御部14は、記事データにおいて抽出した地理情報の出現頻度を算出する。図10に示すように、抽出した地域語および地域関連語のヒストグラムを求める。そして、情報処理サーバ10のシステム制御部14は、算出した出現頻度に基づき、地域を特定する。例えば、情報処理サーバ10のシステム制御部14は、記事おいて一番多くカウントした「○○ツリー」を求め。次に、地域語DB12bのランドマーク用のテーブル等を参照して、記事を地図上にマッピングするのに必要な「○○ツリー」の緯度・経度を求める。繰り返し記事データ中に出現する地理情報は、記事データを特定する地理情報である確率が高い。
 なお、情報処理サーバ10のシステム制御部14は、地域に対応する地理コードのような地理情報を求めてもよい。例えば、情報処理サーバ10のシステム制御部14は、地域語DB12bを参照して、地域関連語”△△ドーム”が存在する地方公共団体の地方公共団体コードを地理コードとして決定する。また、”○△会社”の場合は、情報処理サーバ10のシステム制御部14は、本社の所在地を地理情報として特定する。
 次に、情報処理サーバ10は、特定した記事内容と、特定したカテゴリと、特定した地域とに関連付けて記事データを記憶する(ステップS17)。例えば、情報処理サーバ10のシステム制御部14は、記事データ記憶手段の一例として、取得した記事データに関連付けて、特定した記事内容”野球”と、特定したカテゴリ”スポーツ”と、特定した地域語”東京都△△区”の緯度・経度、および地理コードとを記事DB12aに記憶する。
 次に、情報処理サーバ10は、記事内容および地理情報に関連した記事の記事数をカウントする(ステップS18)。具体的には、図11に示すように、情報処理サーバ10のシステム制御部14は、関連記事収集手段の一例として、記事DB12aに構築されたテーブル12tにおいて、取得した記事データの地理コード、かつ、記事内容に対応するカウンタを1つ増加させる。このとき、図11に示すように、情報処理サーバ10のシステム制御部14は、カウンタをカテゴリに対しても関連付けておく。このように、情報処理サーバ10のシステム制御部14は、テーブル12tにおいてカウント数を増やすことにより、特定された地理情報かつ記事内容に関連した記事の情報を収集する。
 なお、情報処理サーバ10のシステム制御部14は、特定された地域かつ記事内容に関連した記事の一例として、取得した記事の内容等が類似の記事の情報を収集してもよい。類似の記事の一例として、カテゴリが同じ記事、カテゴリが近い記事、地理的に近い位置の記事等が挙げられる。情報処理サーバ10のシステム制御部14は、類似の記事の数をカウントしてもよい。
(3.3 記事データの表示)
 次に、ステップS20からステップS24において、端末30の表示部33に表示させるためのWebページ(ウィンドウ画面)の生成の動作について図12から図16を用いて説明する。
 図12は、端末30に表示されるウィンドウ画面の一例を示す模式図である。図13は、端末30に表示される記事データに対応するシンボルの一例を示す模式図である。図14は、端末30に表示される記事データに対応するシンボルの一例を示す模式図である。図15および図16は、端末30に表示されるウィンドウ画面の一例を示す模式図である。
 図8に示すように、情報処理サーバ10は、地図情報を取得する(ステップS20)。例えば、図12に示すように、情報処理サーバ10のシステム制御部14は、マップDB12cから、日本の地図情報41を取得する。
 次に、情報処理サーバ10は、各カテゴリおよび地域における記事数に応じてシンボルの大きさを設定する(ステップS21)。情報処理サーバ10のシステム制御部14は、マッピング手段の一例として、記事DB12aに構築されたテーブル12tを参照し、例えば、都道府県単位で各県に属する地理コード、および、各カテゴリに属する記事内容のカウント数を集計して記事数を求め、図12に示すようにマッピングする各シンボル50の大きさを設定する。このように、情報処理サーバ10のシステム制御部14は、ステップS18(関連記事収集手段)の結果に応じてシンボルの大きさを制御して表示させる。
 次に、情報処理サーバ10はカテゴリによるシンボルの色を設定する(ステップS22)。図12において色に対応したハッチング線で示すよう、情報処理サーバ10のシステム制御部14は、各シンボル50のカテゴリに従い配色を設定する。また、情報処理サーバ10のシステム制御部14は、図12に示すように、カテゴリ欄42におけるシンボルの凡例の配色も設定する。
 次に、情報処理サーバ10は、記事データの情報量に基づき、シンボル内における記事データの配置位置を決定する(ステップS23)。情報処理サーバ10のシステム制御部14は、図13に示すように、例えば、シンボル50を記事数に応じて同心円状の領域50a、50b、50c等に分けて、中心部の領域50aには、情報量が少ない記事データを対応させる。外側の領域50b、50cには、図14のバルーン55に示すように、より情報量が多い記事データを順次対応させる。
 また、情報処理サーバ10のシステム制御部14は、図13および図14に示すように、端末30の操作部34により操作されるポインタ45が、各領域50a、50b、50cに重なったとき、記事データの文書がバルーン55の中に表示されるようにWebページ等を設定する。また、情報処理サーバ10のシステム制御部14は、各領域50a、50b、50cが操作部34によりクリックされると、詳細な記事データや記事データに関するリンク先が表示されるようにWebページ等を設定する。
 次に、情報処理サーバ10は、記事データに対応するシンボルを地図上にマッピングしたWebページを生成する(ステップS24)。具体的には、情報処理サーバ10のシステム制御部14は、マッピング手段の一例として、図12に示すように、日本の地図情報41の上に、記事データに対応するシンボル50をマッピングしたWebページ40を生成する。
 また、情報処理サーバ10のシステム制御部14は、図15に示すように、日本の地図情報の中の他のエリア41Bに関するWebページ40Bも作成する。この場合、情報処理サーバ10のシステム制御部14は、表示させるエリアに含まれる地理コードに基づき、テーブル12tを有する記事DB12aを参照して、記事データや、各カテゴリの記事数等に関する情報を集計する。
 さらに、情報処理サーバ10のシステム制御部14は、Webページ40Bにおけるカテゴリ欄42Bの特定のカテゴリがクリックされると、図16に示すように、”野球”、”サッカー”等の記事内容毎のシンボル50が表示させるように、テーブル12tを有する記事DB12aを参照してWebページ40Cを生成する。ここで、Webページ40Cには、記事内容欄42Cが表示される。なお、情報処理サーバ10のシステム制御部14は、図15や図16に示すように、記事の要約欄44B、44Cを表示するようにWebページを生成してもよい。
 そして、情報処理サーバ10のシステム制御部14は、端末30の要求に応じ、通信部11を介してWebページ40に関する情報を端末30に送信する。
 次に、Webページ40に関する情報を、通信部31を介して受信した端末30のシステム制御部36は、表示部33にWebページ40、40B、40C等を表示させる。
 以上、本実施形態によれば、記事データから特徴語を抽出し、地域を示す地域語を、地域を特定するための地理情報に関連付けて記憶した地域語DB12bに地域語として記憶されていない特徴語を、抽出した特徴語の中から特定し、特定された特徴語により、検索装置で行った検索結果を取得し、検索結果に基づき記事データに関連した地域を特定して地理情報を求め、特定された地域と関連付けて、特定された特徴語を、地域語として地域語DB12bに記憶することにより、記事に出現した用語であって、地域語DB12bに存在しない語であっても、地域を特定することができる。
 また、検索結果より検索結果特徴語を抽出し、地域語DB12bを参照して、検索結果特徴語から地域を特定する場合、ウェブサイト等の情報から地域名を特定できる特徴語を幅広く収集して利用することにより、地域を特定する精度を向上させることができる。
 また、取得した記事データの記事内容および記事データに関する地理情報を特定し、記事データに対応するシンボル50であって、特定された地理情報かつ記事内容に関連した記事の情報に応じた大きさのシンボル50を、特定した地理情報に基づき地図上にマッピングして表示させる場合、ユーザの利便性を向上させるように、記事データを可視化することができる。また、特定された地理情報かつ記事内容に関連した記事の情報に応じた大きさのシンボル50により、関連した記事が地図上のどこに多く現れているかをユーザが認識しやすくなる。
 また、図13および図14に示すように、記事データの情報量に応じて、シンボル50内における記事データの配置位置を決定する場合、記事の長さ等に応じて、情報処理サーバ10のシステム制御部14は、ユーザに記事データを分かりやすく提供することができる。特に、シンボル50の中心部の領域50aに記事の長さが短い記事を配置する場合、短い記事は端的に客観的な事実のみに基づいた記事が多いため、シンボル50の領域50aをクリックされることにより、情報処理サーバ10のシステム制御部14は、日付、人物、場所、公に明らかになっている事実等の客観的な事実の記事をユーザに提供できる。
 また、記事内容のカテゴリを特定し、シンボル50の態様をカテゴリ毎に設定する場合、情報処理サーバ10のシステム制御部14は、シンボル50の態様により、カテゴリが分かりやすくなり、ユーザが選択しやすい記事データの表示を提供できる。
 また、記事データにおける地理情報の出現頻度に基づき地理情報を特定する場合、情報処理サーバ10のシステム制御部14は、雑音の地理情報に影響されにくく、精度よく地理情報を特定できる。
 また、特定された地理情報かつ記事内容に関連した記事の記事数をテーブル12tにおいてカウントし、記事数に応じてシンボルの大きさを制御して表示させる場合、容易に記事数をカウントできる。また、地図上のどこに関連した記事が多く現れているかを、ユーザが認識しやすくなる。
 次に、ステップS6およびステップS16における地域の特定の変形例について図17から図19を用いて説明する。
 記事データから抽出した地域語および地域関連用語の頻度が同じであった場合でも地域が特定できるように、情報処理サーバ10のシステム制御部14は、地域語DB12bに記憶されている各テーブルの重みに応じて、地域語および地域関連用語の頻度に対して重み付けを行う。”△タワー”は、ランドマークであるので、重みが5倍であり、スコアが”5”となる。一方、”△○県”および”△▽県”は、都道府県名であるので、重みが1倍で、スコアは「1」となる。そして、配信された記事から「△タワー」一番多くカウントしたことになり、配信した記事をマッピングする位置情報として、ランドマーク用のテーブルを参照して”△タワー”に対応する緯度、経度が特定される。
 次の変形例として、情報処理サーバ10のシステム制御部14は、特徴語、地域語および地域関連用語に対してtf-idf(Term Frequency-Inverse Document Frequency)を適用してもよい。例えば、図17に示すような記事の場合、段落Aが、記事の主要部である場合、段落Aのみの情報を有する記事が100件ほど配信され、段落A+段落Bの情報を有する記事が20件ほど配信されたとする。情報処理サーバ10のシステム制御部14は、tf-idfを適用することにより、各地域語および地域関連用語に対してスコアを求める。例えば、”△タワー”の出現頻度が”4”で、”○▽市”の出現頻度が”1”でも、”○▽市”のスコアが、”△タワー”のスコアよりも高くなり、”○▽市”が記事の地域として特定される。そして、情報処理サーバ10のシステム制御部14は、記事データを”○▽市”の緯度・経度にマッピングする。この場合、配信された記事から、出現が希少の地名にマッピングすることができる。一方、段落Aのみの情報を有する記事が20件ほど配信され、段落A+段落Bの情報を有する記事が100件ほど配信されたとする。この場合、tf-idfを適用することで、”△タワー”のスコアが”○▽市”のスコアよりも高くなることもある。
 このように、情報処理サーバ10のシステム制御部14が、記事データにおいて抽出した特徴語の出現頻度を算出し、当該算出した出現頻度に基づき地域を特定する場合、地域を特定する精度を向上させることができる。
 次の変形例として、図18に示すように、記事中に”●●●●さん”のように、固有名詞(人名)が含まれている場合は、情報処理サーバ10のシステム制御部14は、”品川区xxx”という詳細な地域のレベルではなく、”品川区”という大まかな地域を特定する。さらに、情報処理サーバ10のシステム制御部14は、記事中を”▼▼▼店を”東京都品川区”に、”品川区xxx”を ”品川区xxx”に置き換え、記事をマッピングする緯度、経度を”東京都品川区”に対応する緯度、経度にする。この場合、固有名詞が含まれている記事が、より正確にかつ詳細にマッピングされるのを防ぐことができる。
 ここで、異なる場所に同一の地名が存在する場合の地域を特定する処理について説明する。
 同じ記事内にある他の地域名や地域関連語から、地域を特定する。例えば、”大手町”という地域名は、東京都と愛媛県とにあるので、”大手町”が抽出された場合、情報処理サーバ10のシステム制御部14は、記事データ内の他の地域語、地域関連用語等の地理情報を参照して、東京都に関連する地名やランドマーク等であれば、”東京の大手町”と特定する。情報処理サーバ10のシステム制御部14は、特定する際に、ステップS16で示したように、記事データが示す地域を特定する。
 または、情報処理サーバ10のシステム制御部14は、記事データ内の特徴語同士の関連を求め、特定した特徴語の一例として”大手町”を中心として特徴語を関連させる。なお、情報処理サーバ10のシステム制御部14は、形態素解析をして、記事内のおける特徴語間の文字数の距離等や、検索サーバ20の単語連想DB22bにより、”大手町”を中心として特徴語や、その他の単語を関連させる。情報処理サーバ10のシステム制御部14は、”大手町”を中心した関連先の単語の中で、地域名か地域関連語を検索して、記事を示す地域を特定する。
 このように特定された特徴語を中心とする関連する単語を複数検索し、関連する単語より地域を特定する場合、関連する単語より地名を割り出すことにより、地域を特定する精度を向上させることができる。なお、図19に示すように、”大手町”を中心した関連先の単語を示したグラフを端末30の表示部33に表示させて、特定された地域が正しいか否かをユーザに判断させて、入力を受け付けてもよい。ユーザによる判断を反映して、記事が示す地域が特定される。
 次に、動作の変形例について、図20および図21を用いて説明する。なお、この変形例は、ステップS20以降の記事データの表示に関する動作の変形例であり、ステップS11からステップS18の説明は省略する。
 図20は、情報処理サーバ10の動作の変形例を示すフローチャートである。図21は、端末30に表示されるウィンドウ画面の変形例を示す模式図である。
 図20に示すように、情報処理サーバ10は、ユーザ情報を取得する(ステップS30)。具体的には、情報処理サーバ10のシステム制御部14は、ユーザ情報DB12d等から、ショッピングサイト等のログインしているユーザのユーザIDに基づき、ユーザの氏名と、住所と、出身地と、ユーザの性別と、年齢と、購買履歴等とを取得する。
 次に、情報処理サーバ10は、ユーザ情報に基づき、地図情報を取得する(ステップS31)。具体的には、情報処理サーバ10のシステム制御部14は、ユーザ情報の住所や出身地等のユーザ地理情報に基づき、マップDB12cから地図情報を取得する。
 次に、ステップS22のように、情報処理サーバ10は、各カテゴリおよび地域における記事数によりシンボルの大きさを設定する(ステップS32)。
 次に、情報処理サーバ10は、ユーザ情報のユーザ地理情報に応じて、ローカルニュースに対応するシンボルを強調する(ステップS33)。具体的には、情報処理サーバ10のシステム制御部14は、ユーザ情報のユーザ住所や出身地に応じて、ローカルニュースに対応するシンボルを強調する。例えば、情報処理サーバ10のシステム制御部14は、ユーザ住所等のエリアにマッピングされたシンボル51が他のシンボルと重なっている場合、図21に示すように、シンボル51を表示上一番上に表示させることによりシンボルを強調させる。また、情報処理サーバ10のシステム制御部14は、ユーザの出身地等のエリアにマッピングされたシンボル52の形状を変えることによりシンボルを強調させる。
 次に、情報処理サーバ10は、ユーザ情報に基づき、ユーザが関心を示しそうな記事内容のシンボルを強調する(ステップS34)。具体的には、情報処理サーバ10のシステム制御部14は、ユーザ情報DB12d等からユーザの年齢や購買履歴等のユーザ情報からユーザが関心を示しそうな記事内容やカテゴリを特定する。そして、例えば、ユーザがスポーツに関心がある場合、情報処理サーバ10のシステム制御部14は、スポーツを示すシンボルを、一番目に付きやすい、シンボルの色やパターンに等に変更する。図21に示すように、情報処理サーバ10のシステム制御部14は、カテゴリ欄42におけるシンボル42aとシンボル42bの凡例の配色を交換し、地図上におけるシンボル51とシンボル53との配色を交換する。なお、これらシンボルの強調表示はシンボルを点滅させる等、シンボルが何らかの方法で強調されればよい。
 次に、ステップS24のように、情報処理サーバ10は、記事データに対応するシンボルを地図上にマッピングしたWebページを生成する(ステップS35)。
 以上のように、ユーザ情報のユーザ住所に関連した地域にマッピングされているシンボル50、51、52の表示を設定する場合、情報処理サーバ10のシステム制御部14は、ユーザ毎に分かりやすくカスタマイズされた記事データの表示を提供できる。
 また、ユーザ情報を取得し、ユーザ情報に応じてシンボル50、53の表示を設定する場合、情報処理サーバ10のシステム制御部14は、ユーザ毎に分かりやすくカスタマイズされた記事データの表示を提供できる。また、自分の住居地等に関する記事を把握できる。さらに、過去の記事を累積してシンボルの中に対応付けて表示させる場合、過去にさかのぼり、記事を把握できる。
 なお、情報処理サーバ10は、マッピング手段の一例として、ユーザ情報に応じて、記事をマッピングする地図の表示スケールを設定してもよい。図22に示すように、ユーザ情報のうちユーザ住所や出身地等のユーザ地理情報に応じて、例えば出身地のエリアのマップの表示スケールを地図情報61のように拡大して、Webページ60を生成する。この場合、情報処理サーバ10のシステム制御部14は、ユーザ毎に分かりやすくカスタマイズされた記事データの表示を提供できる。
 また、記事の配信元がC地方の新聞社であって、記事内にX地方を含む周辺の地域名や地域関連語がある場合、記事をX地方に関連付けてもよい。
 なお、情報処理サーバ10のシステム制御部14は、ステップS41において、検索キーワードに基づき記事データを検索した結果を、記事データとして取得し、ステップS42からステップS46の処理を行い、ステップS49以降の処理を行ってもよい。また、記事データは、配信社が発信するニュースの記事以外でも、一般ユーザがブログやツイッター等において、特定の分野の出来事を記載した情報でもよい。
 また、カテゴリ毎でまとめてシンボルを出す代わりに、記事1つをシンボルとして、地図上にマッピングしてもよい。
 また、地図を表示させる地域によって、地図の縮尺を変更してもよい。東京などの記事が多い地域は、縮尺を大きくして拡大した地域が表示され、逆に記事が少ない地域は、縮尺を小さくして広域が表示されてもよい。
 シンボルの大きさに関して、東京地区等、記事が多い地域は、記事の数に応じたシンボルの大きさの変化を緩やかにしてもよい。また、記事のカテゴリの種類によって、記事数に対するシンボルの大きさを調節してもよい。例えば、記事の多いカテゴリは、シンボルが小さめで、記事数に応じたシンボルの大きさの変化を緩やかにしてもよい。また、表示させる地域の人口に応じて、記事数に応じたシンボルの大きさを調節してもよい。例えば、人口が多い地域は、記事数に応じたシンボルの大きさの変化を緩やかにしてもよい。
 また、各地域で、全記事中の各カテゴリの数(例えば、全記事数に対するスポーツに関する記事の割合)が表示されてもよい。
[4.情報処理システムの第2実施形態の動作]
 次に、情報処理システム1における第2実施形態の動作について図23から図26を用いて説明する。なお、前記第1実施形態と同一または対応する部分には、同一の符号を用いて説明する。その他の実施形態および変形例も同様とする。
 図23は、情報処理サーバ10の動作例を示すフローチャートである。図24は、情報処理サーバ10の記事DB12aに構築されるテーブルの一例を示す模式図である。図25は、端末30に表示されるウィンドウ画面の一例を示す模式図である。図26は、端末30に表示されるウィンドウ画面の一例を示す模式図である。
(4.1 記事データの記憶)
 まず、ステップS41からステップS46において、記事データをニュース配信サイト5等から取得し、記事DB12aに記事データ等を記憶するまでの動作について説明する。
 まず、図23に示すように、情報処理サーバ10は、記事データを取得する(ステップS41)。具体的には、情報処理サーバ10のシステム制御部14は、ステップS1のように、記事データの文章等を取得する。
 次に、情報処理サーバ10は、記事データの情報量等を求める(ステップS42)。具体的には、情報処理サーバ10のシステム制御部14は、ステップS14のように、記事データの情報量を求める。そして、端末30からの検索キーワードによりニュース記事を検索するために、インデクサーによりインデックス情報や、スニペット等を生成し、記事IDに関連付けて記事DB12aに記憶する。
 次に、情報処理サーバ10は、記事データから地域を特定する(ステップS43)。具体的には、情報処理サーバ10のシステム制御部14は、ステップS15のように、記事データから地域語を抽出し、ステップS16のように抽出した地域語から記事データが示す地域を特定する。
 次に、情報処理サーバ10は、特定された地域から地図上の位置に関する位置情報の設定する(ステップS44)。具体的には、情報処理サーバ10のシステム制御部14は、位置情報特定手段の一例として、地域語DB12bを参照して、特定した地域の緯度経度情報や地理コードに基づき、地図上の位置に関する位置情報を設定する。
 次に、情報処理サーバ10は、記事データの配信時間情報を特定する(ステップS45)。具体的には、情報処理サーバ10のシステム制御部14は、記事データに含まれる記事の配信時間や記事データがアップロードされた時間等により、記事データの配信時間情報を特定する。
 次に、情報処理サーバ10は、特定した位置情報と、特定した配信時間情報とに関連付けて記事データを記憶する(ステップS46)。例えば、情報処理サーバ10のシステム制御部14は、記事データ記憶手段の一例として、取得した記事データの記事IDに関連付けて、抽出した地域語”東京都△△区”の地理コードと、特定した配信時間情報と、記事データの情報量等とを、記事DB12aに記憶する。
(4.2 記事データの検索およびグループ化)
 次に、ステップS47からステップS50において、検索キーワードに基づき適合する記事データを検索し、記事データの位置情報および配信時間情報に基づき、記事データをグループ化する動作について説明する。
 まず、情報処理サーバ10は、検索キーワードを取得する(ステップS47)。具体的には、情報処理サーバ10のシステム制御部14は、端末30のユーザが入力した検索キーワード(例えば”△○▽”)を端末30から通信部11を介して受信して取得する。
 次に、情報処理サーバ10は、検索キーワードに基づき記事データを検索する(ステップS48)。具体的には、情報処理サーバ10のシステム制御部14は、記事DB12aを参照して、検索キーワードに適合する記事データを検索して、該当する記事データを収集する。
 次に、情報処理サーバ10は、配信時間が互いに時間的に近い記事データであって、位置情報が示す位置が地理的に近い記事データをグルーピングする(ステップS49)。具体的には、情報処理サーバ10のシステム制御部14は、記事が配信された配信時間が互いに近い記事(例えば、同日に配信された記事や、3月5日~3月6日ように連日に配信された記事)であって、所定のエリアに属する地理コードの記事(特定の位置情報に関連した記事の一例)をグルーピングする。さらに具体的には、情報処理サーバ10のシステム制御部14は、図24に示すように、テーブル12sにおいて、検索した記事データを配信時間情報の順に並べ、同一のエリアに属する地理コードを有する記事データにグループ番号を割り当てる。情報処理サーバ10のシステム制御部14は、配信時間情報が互いに異なる複数の記事データの位置情報に基づき、記事データをグループ化するグループ化手段の一例として機能する。
 次に、情報処理サーバ10は、グループに含まれる記事数を算出する(ステップS50)。具体的には、図24に示すように、情報処理サーバ10のシステム制御部14は、記事数算出手段の一例として、記事DB12aに構築されたテーブル12sを参照して、同じグループ番号の記事の記事数を算出する。
(4.3 記事データの表示)
 次に、ステップS51からステップS54において、端末30の表示部33に表示させるためのWebページ(ウィンドウ画面)の生成の動作について説明する。
 情報処理サーバ10は、記事データに対応するシンボルの大きさをグループの記事数に応じて設定する(ステップS51)。具体的には、まず、情報処理サーバ10のシステム制御部14は、図25に示すように、マップDB12cから、日本の地図情報71を取得する。そして、情報処理サーバ10のシステム制御部14は、記事DB12aに構築されたテーブル12sを参照し集計した各グループの記事数に応じて、Webページ70の地図情報71上にマッピングする各シンボル81、82、83の大きさを設定する。テーブル12sにおいて、シンボル81は、”グループ番号:001”に対応し、シンボル82は、”グループ番号:002”に対応し、シンボル83は、”グループ番号:003”に対応する。なお、検索キーワードに適合する記事が属するニュースのカテゴリによりシンボルの色等を設定してもよい。
 次に、情報処理サーバ10は、各記事データの情報量に基づきシンボル81、82、83内における記事データの配置位置を決定する(ステップS52)。情報処理サーバ10のシステム制御部14は、ステップS23のように、記事データの配置位置を決定する
 次に、情報処理サーバ10は、配信時間の時系列に従って、地図上の矢印を生成する(ステップS53)。例えば、図25に示すように、情報処理サーバ10のシステム制御部14は、まず、シンボル81を、3月4日に配信された記事から生成する。そして、3月5日~3月7日に配信された記事からシンボル82を生成する。
 そして、システム制御部14は、地図情報71上で可視的に関連付けるための可視化情報の一例として、矢印90を生成する。また、情報処理サーバ10のシステム制御部14は、例えば、シンボル81およびシンボル82の地図情報71上における位置座標を算出し、算出した座標に基づき、矢印90の長さ、および、矢印90の方向を算出する。そして、情報処理サーバ10のシステム制御部14は、シンボル82およびシンボル83の地図情報71上における位置座標を算出し、算出した座標に基づき矢印90の長さ、および、矢印90の方向を算出する。
 ここで、シンボル81、82、83等の地図情報71上における位置は、シンボル81、82、83等に対応する各記事データの位置情報(経度緯度情報、地理コード等)に基づき決定される。例えば、シンボル81、82、83等の位置は、地理コードが示す住所の位置や、グループ化された各記事データの地理コードが示す住所の位置の平均や、グループが示す地図上のエリアの中心部等の所定の位置等に決定される。このように、情報処理サーバ10のシステム制御部14は、可視化情報生成手段の一例として、記事が配信された配信時間情報が互いに異なる複数の記事データのグループであって、グループ内の記事データの位置情報からWebページ70におけるグループの座標を決定する。そして、決定した座標に基づいて、グループの位置関係を、例えば、図25に示した地図上で可視的に関連付けるための情報(矢印90)を生成する。
 次に、情報処理サーバ10は、矢印とシンボルとを地図上にマッピングしたWebページ70を生成する(ステップS54)。具体的には、情報処理サーバ10のシステム制御部14は、図25に示すように、表示期間に対応した配信時間情報の記事データに関して、日本の地図情報71の上に、シンボル81、82、83と、矢印90とを、シンボル81、82、83に対応する各記事データの位置情報に基づき、地図情報71上にマッピングしたWebページ70を生成する。なお、図25に示すように、Webページ70には、記事の日付と、検索キーワード”△○▽”とが、各シンボル81、82、83の近傍に表示される。
 そして、情報処理サーバ10のシステム制御部14は、端末30の要求に応じ、通信部11を介してWebページ70に関する情報を端末30に送信する。
 次に、Webページ70に関する情報を、通信部31を介して受信した端末30のシステム制御部36は、表示部33にWebページ70を表示させる。
 次に、図26に示すように、所定期間内の配信時間情報に対応した記事データを表示させる表示期間が変更された場合、ステップS53で、情報処理サーバ10のシステム制御部14は、シンボル84、85、86、87と、矢印90と、シンボル84、85、86、87に対応する各記事データの位置情報に基づき、地図情報71上にマッピングしたWebページ70を生成する。なお、シンボル84、85、86、87は、所定の日に最も記事数が多い地域とする。また、所定日に記事数が同数の場合、表示させる地域を1つの地域に限定してもよいし、複数個表示させてもよい。さらに、所定の日に記事があった地域すべてにシンボルを表示させてもよい。これらの場合、同じシンボルから複数の矢印90が出てもよい。
 以上、本実施形態によれば、端末から検索キーワードを取得し、検索キーワードに関連した記事データを取得し、記事データが示す地域を特定し、特定された地域から地図上における位置に関する位置情報を特定し、記事データが配信された配信時間情報を記事データから設定し、設定した位置情報および配信時間情報に関連付けて記事データを記憶し、配信時間情報が互いに異なる複数の記事データ(例えば、シンボル81が示す記事データおよびシンボル82が示す記事データ)の位置情報が示す地図上の位置同士を、地図上で可視的に関連付けるための可視化情報(例えば、矢印90)を生成し、可視化情報を地図と共に端末30の表示部33に表示させることにより、ニュース記事の情報の広がりや伝搬の様子を可視化し、ユーザの利便性を向上させることができる。また、ユーザは、Webページ70の地図上において、検索キーワードに関連した記事の伝わり方、移動の様子と言った情報の伝搬の具合を見ることができる。また、可視化情報により、記事を介して検索キーワード(言葉)の広がりを、ユーザが把握することができる。
 次に、可視化情報の変形例について、図27から図29を用いて説明する。
 図27から図29は、可視化情報(矢印90)の様々な変形例を示す模式図である。
 可視化情報の第1変形例は、図27に示すように、可視化情報の一例の矢印91の両端のシンボル81、82またはシンボル82、83の大きさ(記事数に対応)に応じて、矢印91の形態を変更する場合である。例えば、情報処理サーバ10のシステム制御部14は、記事数が少ないシンボル81から、記事数の多いシンボル82への矢印91の場合、矢印91の柄の基端部側を細くし、矢印91の柄の先端部側を太くする。一方、情報処理サーバ10のシステム制御部14は、記事数が多いシンボル82から、記事数の少ないシンボル83への矢印91の場合、矢印91の柄の基端部側を太くし、矢印91の柄の先端部側を細くする。なお、図27に示すように、記事数の増減に応じて、矢印91の色等を変えてもよい。
 このように、情報処理サーバ10のシステム制御部14が、記事DB12aを参照して、特定の位置情報に関連した記事の記事数を算出し、記事数に基づき、矢印91等の可視化情報を設定することで、ユーザは直感的に情報の広がりを認識しやすくなる。また、地図上のどこに関連した記事が多く配信されているかを、認識しやすくなる。
 可視化情報の第2変形例は、あるエリアに記事が、連日”3月5日~3月7日”のように、一定期間留まっている場合に、その滞在時間に応じて矢印の形態を変更する場合である。例えば、情報処理サーバ10のシステム制御部14は、矢印の基端部の大きさを、記事の滞在時間に応じて変更させる。滞在時間は、各グループの記事データの配信時間情報に基づき決定される。例えば、テーブル12sにおいて”グループ番号002”の場合、配信時間情報より、記事の滞在時間は3日となる。また、情報処理サーバ10のシステム制御部14は、記事の滞在時間に応じて、矢印の柄部の太さや、矢印の先端部の大きさを変更させてもよい。
 このように、情報処理サーバ10のシステム制御部14が、記事データ記憶手段の一例であるテーブル12sを参照して、地図上の所定のエリア(所定の範囲内)に属する位置に関連した位置情報を有する記事データを収集し、収集された記事データの配信時間情報に基づき、可視化情報を設定する場合、ユーザは、直感的に情報の広がりを把握することができる。特に、あるエリア内において、”3月5日~3月7日”の連日に記事の情報がある場合、そのエリアに何か有用な情報が存在する可能性があり、情報における地域の特異性を可視的に把握することができる。
 可視化情報の第3変形例は、第2変形例と第3変形例とを組み合わせた場合である。可視化情報の一例の矢印の基端部は、第3変形例の基端部に対応し、矢印の柄部と、矢印の先端部とは、第2変形例の矢印の柄部と先端部に対応する。この場合、ユーザは直感的に情報の量の広がりを認識しやすくなると共に、地域の特異性を把握することができる。
 可視化情報の第4変形例は、図28に示すように、Webページ70の画面の表示枠の地図情報71以外の場所との情報の関連を示す場合である。この変形例は、特に海外の記事データとの関連を表現するための変形例である。
 可視化情報の一例の矢印94は、シンボル81の記事データより古い記事データを有する地図情報71以外の場所を起点として、シンボル81に向かって延びる。この矢印94により、ユーザは、情報源の地理的イメージを把握できる。また、可視化情報の一例の矢印95は、シンボル83を起点にして、シンボル83より新しい記事データを有する地図情報71以外の場所に向かって延びている。この矢印95により、ユーザは、地図情報71以外における記事の情報の行き先の地理的イメージを把握できる。
 また、可視化情報の一例の矢印94、95により、ユーザは、大局的なニュース記事の情報の広がりや伝搬の様子を可視的に把握できる。
 なお、ある国の要人が、来日した記事の場合、矢印94の基端部の方向が、その国の地理的位置を示したり、矢印95の先端部の方向がその国の地理的位置を示すようにしてもよい。この場合、記事と他の国との関係を示すことができる。
 可視化情報の第5変形例は、記事データへのアクセス回数に応じて可視化情報を変更した場合と、記事数をシンボルの色等により表現した場合とである。
 情報処理サーバ10のシステム制御部14が、会員情報DB12bを参照して、ショッピングサイト等にログインしているユーザのユーザIDやログインIDに基づき、各記事データに対するアクセス回数を算出する。また、情報処理サーバ10のシステム制御部14は、クッキー(Cookie)により、各記事データに対するアクセス回数を算出でもよい。なお、このアクセス回数、各ユーザにより閲覧された回数を正確に測定するため、情報処理サーバ10のシステム制御部14は、ユーザID等の判定により同一ユーザの場合は、アクセス回数を増加させない方が好ましい。
 可視化情報の一例の矢印の基端部が、”グループ番号:001”に属する各記事データへのアクセス回数の合計に応じて、基端部の大きさが変更されてもよい。また、矢印の基端部が、”グループ番号:002”に属する各記事データへのアクセス回数の合計に応じて、基端部の大きさが変更されてもよい。また、矢印の基端部側の柄部が、基端部の大きさに応じて、太くなってもよい。アクセス数が多いということは、そのエリアに関する記事に、関心を示して見ている人の数が多い可能性が高いことを、情報の伝搬と共にユーザは可視的に把握することができる。
 また、記事数に対応したシンボルの大きさの代わりに、シンボルの様に、濃淡や色により、記事数を表してもよい。
 次に、端末30に表示されるウィンドウ画面の変形例について、図29を用いて説明する。
 図29は、端末30に表示されるウィンドウ画面の変形例を示す模式図である。
 この図29は、図25においてシンボル82が表示されているエリア72を拡大して表示させた場合である。情報処理サーバ10のシステム制御部14は、テーブル12sにおいて、”グループ番号002”を地理コードに基づき、記事データをさらに細かくグルーピングしてサブグループにする。細かくグルーピングされた結果のサブグループに、シンボル82A、82B、82Cが対応し、情報処理サーバ10のシステム制御部14は、シンボル82Aのサブグループからシンボル82Bのサブグループへの矢印90と、シンボル82Bのサブグループからシンボル82Cのサブグループへの矢印90と、を生成する。
 さらに、可視化情報の第4変形例のように、矢印94Bは、地図情報71B外のシンボル81のエリアを起点として、シンボル82Aに向かい、矢印95Bは、シンボル82Cを起点とし、地図情報71B外のシンボル73のエリアに向かう。
 この変形例の場合、情報処理サーバ10のシステム制御部14は、端末30から、シンボル82が表示されているエリア72を拡大させる旨の要求を受信すると、マップDB12cから、シンボル82が表示されているエリア72の地図情報を取得する。情報処理サーバ10のシステム制御部14は、端末30から地図の拡大や縮小の要求を受信し、マップDB12cから地図情報を取得することにより、端末30の表示部33に表示させる地図のスケールを設定する地図スケール手段として機能する。
 次に、ステップS49のように、情報処理サーバ10のシステム制御部14は、配信時間が互いに時間的に近い記事データであって、位置情報が示す位置が地理的に近い記事データをグルーピングするが、”グループ番号002”に属する記事データに関して、所定のエリアをさらに狭くして、記事データのグルーピングを行い、サブグループを生成する。例えば、図29に示すように、シンボル82A、82B、82Cに対応するサブグループが生成される。このように、情報処理サーバ10のシステム制御部14は、地図のスケールが制御された場合に、グループされた記事データを、位置情報に基づきグループ化し直す。
 次に、ステップS50のように、情報処理サーバ10のシステム制御部14は、サブグループに含まれる記事数を算出する。
 次に、ステップS51のように、情報処理サーバ10のシステム制御部14は、記事データに対応するシンボル82A、82B、82Cの大きさをサブグループの記事数により設定する。
 次に、ステップS52のように、情報処理サーバ10のシステム制御部14は、各記事データの情報量に基づきシンボル82A、82B、82Cにおける記事データの配置位置を決定する。
 次に、ステップS53のように、情報処理サーバ10のシステム制御部14は、配信時間の時系列に従って、シンボル82Aからシンボル82Bへの矢印90と、シンボル82Bからシンボル82Cへの矢印90と、を生成する。なお、情報処理サーバ10のシステム制御部14は、サブグループ内の記事データの平均配信時間を用いてもよく、平均配信時間に従い、矢印90の方向を決定する。このように、情報処理サーバ10のシステム制御部14は、グループ化された記事データの位置情報が示す位置に基づき、シンボル82A、82B、82Cの地図上で配置を決め、グループに対応してシンボル同士を、地図上で可視的に関連付けるための矢印90を生成する。
 次に、ステップS54のように、情報処理サーバ10のシステム制御部14は、サブグループ化された記事データの位置情報が示す位置に基づき、矢印とシンボルとを、スケールが変更された地図上にマッピングしたWebページ70を生成する。
 本変形例の場合、シンボル82に対する情報の流れとして、シンボル82A、矢印90、シンボル82B、矢印90、シンボル82Cのように、詳細な情報の流れと共に、ユーザは矢印94B、95Bのように、全体の情報の流れも把握できる。
 なお、検索装置の一例の検索サーバ20は、サーバシステム7内でなく、ネットワーク3を介した外部の検索サーバでもよい。また、情報処理装置の一例の情報処理サーバ10が、検索装置を有してもよい。すなわち、情報処理サーバ10が、検索DB22aを有し、検索サーバ20の代わりに、情報処理サーバ10が、特定された特徴語による検索を行い、検索結果を取得してもよい。
 さらに、本発明は、上記各実施形態に限定されるものではない。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。
 3:ネットワーク
 10:情報処理サーバ(情報処理装置)
 12:記憶部
 12a:記事DB(記事データ記憶手段)
 12b:地域語DB(地域語記憶手段)
 12c:マップDB
 12d:ユーザ情報DB
 12e:可視化情報DB
 20:検索サーバ(検索装置)
 22:記憶部
 22a:検索DB
 22b:単語連想DB
 50、51、52、53:シンボル
 90、91、94、94B、95、95B:矢印(可視化情報)

Claims (12)

  1.  地域を示す地域語を、地域を特定するための地理情報に関連付けて記憶する地域語記憶手段と、
     記事データを取得する記事データ取得手段と、
     前記記事データから特徴語を抽出する特徴語抽出手段と、
     前記地域語記憶手段に地域語として記憶されていない特徴語を、前記抽出した特徴語の中から特定する特徴語特定手段と、
     前記特定された特徴語により、検索装置で行った検索結果を取得する検索結果手段と、
     前記検索結果手段の検索結果に基づき、前記記事データに関連した地域を特定して地理情報を求める地域特定手段と、
     を備え、
     前記地域特定手段が、前記特定された地域と関連付けて、前記特定された特徴語を、地域語として前記地域語記憶手段に記憶することを特徴とする情報処理装置。
  2.  請求項1に記載の情報処理装置において、
     前記特徴語抽出手段が、前記検索結果手段の検索結果より検索結果特徴語を抽出し、
     前記地域特定手段が、前記地域語記憶手段を参照して、前記検索結果特徴語から地域を特定して地理情報を求めることを特徴とする情報処理装置。
  3.  請求項1から請求項3のいずれか1項に記載の情報処理装置において、
     前記検索結果手段が、前記特定された特徴語を中心とする関連する単語を複数検索し、
     前記地域特定手段が、前記関連する単語より地域を特定して地理情報を求めることを特徴とする情報処理装置。
  4.  請求項1から請求項3のいずれか1項に記載の情報処理装置において、
     前記地域特定手段が、前記記事データにおいて前記抽出した特徴語の出現頻度を算出し、当該算出した出現頻度に基づき地域を特定して地理情報を求めることを特徴とする情報処理装置。
  5.  請求項4に記載の情報処理装置において、
     前記地域語記憶手段が、前記地域語毎に重み付けの値を有し、
     前記地域特定手段が、前記算出した出現頻度と前記重み付けの値とに基づき地域を特定して地理情報を求めることを特徴とする情報処理装置。
  6.  請求項1から請求項5のいずれか1項に記載の情報処理装置において、
     前記記事データの記事内容を特定する記事内容特定手段と、
     前記特定した記事内容および前記特定された地域に関連付けて前記記事データを記憶する記事データ記憶手段と、
     前記特定された地域に基づき、前記記事データに対応するシンボルを地図上にマッピングするマッピング手段と、
     前記記事データ記憶手段を参照して、前記特定された地域と前記特定した記事内容とに関連した記事の情報を収集する関連記事収集手段と、を更に備え、
     前記マッピング手段は、
     前記収集した記事の数に応じたシンボルをマッピングすることを特徴とする情報処理装置。
  7.  請求項6に記載の情報処理装置において、
     前記マッピング手段が、
     前記記事データの情報量に応じて、前記シンボル内における前記記事データの配置位置を決定することを特徴とする情報処理装置。
  8.  請求項6または請求項7に記載の情報処理装置において、
     前記記事内容特定手段が、前記記事内容のカテゴリを特定し、
     前記マッピング手段が、前記シンボルの態様を前記カテゴリ毎に変更することを特徴とする情報処理装置。
  9.  請求項6から請求項8のいずれか1項に記載の情報処理装置において、
     記事データ取得手段が、検索キーワードに関連した記事データを取得し、
     前記記事データが配信された配信時間情報を前記記事データから特定する配信時間情報特定手段と、
     前記マッピング手段が、前記検索キーワードに関連した記事データにおいて、前記配信時間情報が互いに異なる複数の前記記事データに対応するシンボル同士を、地図上で可視的に関連付けるための可視化情報をマッピングすることを特徴とする情報処理装置。
  10.  情報処理装置が情報処理をする情報処理方法において、
     地域を示す地域語を、地域を特定するための地理情報に関連付けて地域語記憶手段に記憶する地域語記憶ステップと、
     記事データを取得する記事データ取得ステップと、
     前記記事データから特徴語を抽出する特徴語抽出ステップと、
     前記地域語記憶手段に地域語として記憶されていない特徴語を、前記抽出した特徴語の中から特定する特徴語特定ステップと、
     前記特定された特徴語により、検索装置で行った検索結果を取得する検索結果ステップと、
     前記検索結果手段の検索結果に基づき、前記記事データに関連した地域を特定して地理情報を求める地域特定ステップと、
     を有し、
     前記地域特定ステップにおいて、前記特定された地域と関連付けて、前記特定された特徴語を、地域語として前記地域語記憶手段に記憶することを特徴とする情報処理方法。
  11.  コンピュータに、
     地域を示す地域語を、地域を特定するための地理情報に関連付けて記憶する地域語記憶手段、
     記事データを取得する記事データ取得手段、
     前記記事データから特徴語を抽出する特徴語抽出手段、
     前記地域語記憶手段に地域語として記憶されていない特徴語を、前記抽出した特徴語の中から特定する特徴語特定手段、
     前記特定された特徴語により、検索装置で行った検索結果を取得する検索結果手段、および、
     前記検索結果手段の検索結果に基づき、前記記事データに関連した地域を特定して地理情報を求める地域特定手段として機能させ、
     前記地域特定手段が、前記特定された地域と関連付けて、前記特定された特徴語を、地域語として前記地域語記憶手段に記憶することを特徴とする情報処理プログラム。
  12.  コンピュータに、
     地域を示す地域語を、地域を特定するための地理情報に関連付けて記憶する地域語記憶手段、
     記事データを取得する記事データ取得手段、
     前記記事データから特徴語を抽出する特徴語抽出手段、
     前記地域語記憶手段に地域語として記憶されていない特徴語を、前記抽出した特徴語の中から特定する特徴語特定手段、
     前記特定された特徴語により、検索装置で行った検索結果を取得する検索結果手段、および、
     前記検索結果手段の検索結果に基づき、前記記事データに関連した地域を特定して地理情報を求める地域特定手段として機能させ、
     前記地域特定手段が、前記特定された地域と関連付けて、前記特定された特徴語を、地域語として前記地域語記憶手段に記憶することを特徴とする情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2011/062366 2010-05-28 2011-05-30 情報処理装置、情報処理方法、情報処理プログラム、および、記録媒体 WO2011149104A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US13/696,441 US9690804B2 (en) 2010-05-28 2011-05-30 Information processing device, information processing method, information processing program, and recording medium
ES11786801T ES2732924T3 (es) 2010-05-28 2011-05-30 Dispositivo de procesamiento de información, método de procesamiento de información, programa de procesamiento de información y soporte de registro
JP2012517354A JP5134162B2 (ja) 2010-05-28 2011-05-30 情報処理装置、情報処理方法、情報処理プログラム、および、記録媒体
EP11786801.8A EP2557511B1 (en) 2010-05-28 2011-05-30 Information processing device, information processing method, information processing programme, and recording medium

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010-123191 2010-05-28
JP2010123191 2010-05-28
JP2010-145065 2010-06-25
JP2010145065 2010-06-25

Publications (1)

Publication Number Publication Date
WO2011149104A1 true WO2011149104A1 (ja) 2011-12-01

Family

ID=45004086

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/062366 WO2011149104A1 (ja) 2010-05-28 2011-05-30 情報処理装置、情報処理方法、情報処理プログラム、および、記録媒体

Country Status (5)

Country Link
US (1) US9690804B2 (ja)
EP (1) EP2557511B1 (ja)
JP (1) JP5134162B2 (ja)
ES (1) ES2732924T3 (ja)
WO (1) WO2011149104A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013228888A (ja) * 2012-04-25 2013-11-07 Nippon Telegr & Teleph Corp <Ntt> 地域推定装置及び方法及びプログラム
JP2014137632A (ja) * 2013-01-15 2014-07-28 Nippon Hoso Kyokai <Nhk> 情報抽出装置及びプログラム
JP2015125667A (ja) * 2013-12-27 2015-07-06 株式会社Nttドコモ 表示制御装置及び表示制御方法
JP2016122374A (ja) * 2014-12-25 2016-07-07 株式会社ライブ・アース 情報提示システム、サーバ装置及び情報提示方法
JP2017501501A (ja) * 2013-12-31 2017-01-12 グーグル インコーポレイテッド ニュースタイムラインおよび薦められるニュースエディションの生成
JP2023000362A (ja) * 2021-06-17 2023-01-04 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5868784B2 (ja) * 2012-05-31 2016-02-24 横河電機株式会社 プロセス監視システム及び方法
JP6051081B2 (ja) * 2013-03-18 2016-12-21 株式会社富士通アドバンストエンジニアリング 検索装置、検索方法および検索プログラム
US9858260B2 (en) 2014-04-01 2018-01-02 Drumright Group LLP System and method for analyzing items using lexicon analysis and filtering process
CN110069667B (zh) * 2017-11-03 2022-07-19 北京搜狗科技发展有限公司 一种搜索方法、装置以及用于搜索的装置
JP2019096176A (ja) * 2017-11-27 2019-06-20 セイコーエプソン株式会社 機器探索装置、及び機器探索方法
CN111859982B (zh) * 2020-06-19 2024-04-26 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063249A (ja) 2003-08-18 2005-03-10 Fuji Xerox Co Ltd 分類結果表示装置および方法
US20080033652A1 (en) * 2006-08-05 2008-02-07 Patrick Hensley Determining and displaying the geographic location of articles
JP2010198281A (ja) * 2009-02-25 2010-09-09 Hyogo Prefecture 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205671A1 (en) * 2000-09-13 2004-10-14 Tatsuya Sukehiro Natural-language processing system
US9098545B2 (en) * 2007-07-10 2015-08-04 Raj Abhyanker Hot news neighborhood banter in a geo-spatial social network
US8423565B2 (en) * 2006-12-21 2013-04-16 Digital Doors, Inc. Information life cycle search engine and method
JP5185089B2 (ja) * 2008-11-28 2013-04-17 株式会社デンソーアイティーラボラトリ コンテンツ位置推定装置
US8374390B2 (en) * 2009-06-24 2013-02-12 Navteq B.V. Generating a graphic model of a geographic object and systems thereof
US20110167001A1 (en) * 2010-01-07 2011-07-07 The Western Union Company Geodictionary
US20120084323A1 (en) * 2010-10-02 2012-04-05 Microsoft Corporation Geographic text search using image-mined data
JP5285727B2 (ja) * 2011-02-22 2013-09-11 シャープ株式会社 画像形成装置、および、画像形成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063249A (ja) 2003-08-18 2005-03-10 Fuji Xerox Co Ltd 分類結果表示装置および方法
US20080033652A1 (en) * 2006-08-05 2008-02-07 Patrick Hensley Determining and displaying the geographic location of articles
JP2010198281A (ja) * 2009-02-25 2010-09-09 Hyogo Prefecture 情報処理装置、情報処理方法、およびプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Hyakubun wa Ikken ni Shikazu - Anata no Shiranai Saishin Site e Taikan! Web2.0", NIKKEI PERSONAL COMPUTING, 27 November 2006 (2006-11-27), pages 56 - 61, XP008163879 *
CHIKARA HASHIMOTO: "Construction of Domain Dictionary for Fundamental Vocabulary and its Application to Automatic Blog Categorization with the Dynamic Estimation of Unknown Words' Domains", JOURNAL OF NATURAL LANGUAGE PROCESSING, vol. 15, no. 5, 10 October 2008 (2008-10-10), pages 73 - 97, XP008163877 *
MASAYUKI KODAMA: "An Implementation of a NewsML Management System using Meta Data", 2006 NENDO ANNUAL CONFERENCE OF JSAI (DAI 20 KAI) RONBUNSHU, 9 June 2006 (2006-06-09), pages 1 - 4, XP008162788 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013228888A (ja) * 2012-04-25 2013-11-07 Nippon Telegr & Teleph Corp <Ntt> 地域推定装置及び方法及びプログラム
JP2014137632A (ja) * 2013-01-15 2014-07-28 Nippon Hoso Kyokai <Nhk> 情報抽出装置及びプログラム
JP2015125667A (ja) * 2013-12-27 2015-07-06 株式会社Nttドコモ 表示制御装置及び表示制御方法
JP2017501501A (ja) * 2013-12-31 2017-01-12 グーグル インコーポレイテッド ニュースタイムラインおよび薦められるニュースエディションの生成
JP2016122374A (ja) * 2014-12-25 2016-07-07 株式会社ライブ・アース 情報提示システム、サーバ装置及び情報提示方法
JP2023000362A (ja) * 2021-06-17 2023-01-04 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7407770B2 (ja) 2021-06-17 2024-01-04 Lineヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Also Published As

Publication number Publication date
EP2557511B1 (en) 2019-05-01
EP2557511A1 (en) 2013-02-13
US9690804B2 (en) 2017-06-27
EP2557511A4 (en) 2014-11-26
JPWO2011149104A1 (ja) 2013-07-25
US20130066906A1 (en) 2013-03-14
ES2732924T3 (es) 2019-11-26
JP5134162B2 (ja) 2013-01-30

Similar Documents

Publication Publication Date Title
JP5134162B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、および、記録媒体
CN108776907B (zh) 广告智能推荐方法、服务器及存储介质
JP5150799B1 (ja) 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
JP5601730B2 (ja) 広告表示プログラム、広告表示装置、広告表示方法、記録媒体、および、広告表示システム
US8892537B2 (en) System and method for providing total homepage service
EP1950670A1 (en) Document data display process method, document data display process system and software program for document data display process
JP2002032401A (ja) 文書検索方法及び文書検索装置及び文書検索方法をコンピュータに実現させるためのプログラムを記録したコンピュータで読取可能な記録媒体
KR20100128321A (ko) 광고 표시 방법, 광고 표시 시스템 및 광고 표시 프로그램
JP2007272814A (ja) 広告配信システム、広告配信方法及び広告配信プログラム
WO2012063772A1 (ja) 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、記録媒体、および、関連語登録システム
CN106462613A (zh) 基于用户属性来对建议进行排名
WO2017061038A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP4943109B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2015215797A (ja) ネット上での検索結果のランキングシステム
KR100572751B1 (ko) 웹 기반의 지리정보 검색 시스템
JP2011002982A (ja) コンテンツ提供装置、コンテンツ提供方法およびコンテンツ提供プログラム
KR100929925B1 (ko) 홈페이지 통합 서비스 제공 시스템 및 방법
JP2008046879A (ja) ページ表示装置、ページ表示方法、およびコンピュータプログラム
JP5331166B2 (ja) 検索サーバ及び方法
JP2011128968A (ja) Webページの提供のためのサーバ装置、端末装置、Webサーバ装置、プログラムおよびWebページデータ
JP2012190167A (ja) 情報処理装置および情報処理方法
KR20110114969A (ko) 관심 정보 제공 시스템 및 방법
KR20090003853A (ko) 룰을 이용한 실시간 자동 정보 추출 시스템 및 방법
KR101623523B1 (ko) 이미지 단어 해석에 기반한 사용자 니즈 파악 방법
JP2012103924A (ja) 関連語登録装置、関連語登録方法、関連語登録装置用プログラム、記録媒体、および、関連語登録システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11786801

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012517354

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2011786801

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13696441

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE