WO2011090036A1 - 動向情報検索装置、動向情報検索方法および記録媒体 - Google Patents

動向情報検索装置、動向情報検索方法および記録媒体 Download PDF

Info

Publication number
WO2011090036A1
WO2011090036A1 PCT/JP2011/050783 JP2011050783W WO2011090036A1 WO 2011090036 A1 WO2011090036 A1 WO 2011090036A1 JP 2011050783 W JP2011050783 W JP 2011050783W WO 2011090036 A1 WO2011090036 A1 WO 2011090036A1
Authority
WO
WIPO (PCT)
Prior art keywords
trend information
trend
search
expression
document
Prior art date
Application number
PCT/JP2011/050783
Other languages
English (en)
French (fr)
Inventor
河合 英紀
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US13/574,148 priority Critical patent/US20120284305A1/en
Priority to JP2011550913A priority patent/JP5786718B2/ja
Publication of WO2011090036A1 publication Critical patent/WO2011090036A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling

Definitions

  • the present invention relates to a trend information search device, a trend information search method, and a recording medium.
  • Patent Document 1 discloses a data determination support system that supports investment decisions of investors and the like.
  • This data judgment support system stores an asset price database (DB) that stores time-series data such as stock prices and exchange rates of companies, an economic index DB that stores time-series data such as gross domestic product and crude oil prices, and news articles.
  • DB asset price database
  • economic index DB stores time-series data such as gross domestic product and crude oil prices
  • news articles such as gross domestic product and crude oil prices
  • This data judgment support system uses these databases to display exchange rate fluctuations and changes in Dubai crude oil prices, as well as display related news in that period.
  • Patent Document 2 analyzes what a general investor expects, and based on the analysis result, determines which of the information on stock prices is intentional information for working on stock prices. An information gathering and analysis system is described.
  • Patent Documents 3-6 techniques for supporting analysis of information are disclosed in Patent Documents 3-6.
  • the document data providing device extracts words from dated document data, adds up the number of words of each word for each field and period, obtains the appearance frequency of these words, and calculates the frequency of each field and each period. A certain number of words with a high frequency of appearance are extracted as feature words.
  • the document data provision device displays the feature words of the document data of the period, and when a specific feature word is selected, the document header of the document data including the feature words Display
  • the information analysis system which concerns on patent document 4 memorize
  • This information department seat system merges the collected information and the geographical condition information associated with it, and the associated information is analyzed as merge information.
  • Patent Document 5 describes a data processing apparatus that displays changes in trend information and factors thereof.
  • the trend information extraction unit of the data processing apparatus extracts trend information to be processed from the acquired corpus.
  • the factor information extraction unit extracts information presumed to be a factor of change in the extracted trend information.
  • the key word extraction unit extracts key words presumed to be useful for analysis of trend information.
  • the trend information display unit generates a graph indicating the fluctuation of the extracted trend information.
  • the factor information display unit displays the factor information that has caused the fluctuation of the trend information in addition to the graph generated by the trend information display unit.
  • the factor information display unit extracts and displays factor information useful for analysis of trend information according to a predetermined condition.
  • Patent Document 6 describes a technique for providing a user with feedback information for improving a query.
  • the query inspection device inspects a query using selectivity regarding the meaning and appearance feature of an image object to provide feedback information to the user.
  • the feedback information includes the maximum and minimum number of matches for the query, alternatives to the elements of the query (meaning and appearance features), and the estimated number of images matching the query.
  • JP 2007-087354 JP, 2009-163598 A Japanese Patent Laid-Open No. 2000-172701 JP, 2005-128893, A Japanese Patent Application Publication No. 2007-241905 Japanese Patent Application Laid-Open No. 11-328185
  • the first problem of the techniques according to Patent Documents 1 to 6 is that the system needs to hold in advance a database of statistical values to be analyzed, such as company performance to be analyzed and economic indicators. Therefore, it is not possible to analyze statistics that are not held as a database.
  • a method of acquiring arbitrary statistics data from an external corpus such as the Web for example, using a query of AND conditions consisting of a plurality of keywords such as "2001 AND N company AND sales" in a search engine of the Internet
  • keywords such as "2001 AND N company AND sales”
  • documents containing these keywords do not necessarily contain information on desired statistics.
  • a document that hits “2001 AND N Company AND Sales” may include a document that is a noise regarding job information and a company outline in a news release.
  • the present invention has been made in view of the above circumstances, and provides a trend information search device, a trend information search method, and a recording medium capable of automatically acquiring a document including trend information of statistics from an external corpus. With the goal.
  • a trend information search device is It is a trend information search device for searching trend information of statistics,
  • An expanded query generation unit that generates an expanded query by adding, as a search condition, a trend information element, which is a character string characteristically appearing in a document including trend information, to the input search condition;
  • Search means for searching external data using the query generated by the expanded query generation means;
  • Trend information evaluation means for evaluating the degree to which trend information of a statistic matching the input condition is included in the document searched by the search means based on the appearance mode of the trend information element in the document; And the like.
  • a trend information search method is A trend information search method for searching a document including trend information of a statistic, An extended query generation step of adding a trend information element which is a character string characteristically appearing in a sentence representing trend information to the input search condition, and generating an expanded query; A search step for searching external data using the query generated in the expanded query generation step; A trend information evaluation step of evaluating the degree to which trend information of a statistic matching the input condition is included in the document searched in the search step, based on the appearance mode of the trend information element in the document; And the like.
  • a computer readable recording medium storing a trend information search program is: On the computer An expanded query generation step of generating an expanded query by adding a trend information element which is a character string characteristically appearing in a sentence representing trend information to the inputted condition; A search step for searching external data using the query generated in the expanded query generation step; A trend information evaluation step of evaluating the degree to which trend information of a statistic matching the input condition is included in the document searched in the search step, based on the appearance mode of the trend information element in the document; Is recorded a program that is characterized in that
  • the present invention it is possible to automatically acquire trend information of statistics on topics that the user is interested in from an external corpus such as the Web, even if the statistics are not held by the system.
  • FIG. 6 is a diagram showing an example of a screen for inputting a search condition according to the first embodiment.
  • FIG. 6 is a diagram showing an example of a screen for inputting a search condition according to the first embodiment.
  • FIG. 5 is a diagram showing an example of data stored in a trend information storage unit in the first embodiment. 5 is a flowchart illustrating an example of trend information search processing according to the first embodiment. It is a block diagram which shows the structural example of the search device which concerns on Embodiment 2 of this invention.
  • FIG. 16 is a diagram showing an example of data stored in a cause sentence storage unit in the second embodiment.
  • FIG. 15 is a flowchart illustrating an example of trend information search processing according to the second embodiment. It is a block diagram which shows the structural example of the search device which concerns on Embodiment 3 of this invention. It is a flowchart which shows an example of the trend information search process which concerns on Embodiment 3.
  • FIG. FIG. 18 is a diagram showing an example of data stored in a cause sentence storage unit in the third embodiment. It is a block diagram which shows the structural example of the search device which concerns on Embodiment 4 of this invention.
  • FIG. 18 is a diagram showing an example of data stored in a reputation information storage unit in the fourth embodiment.
  • 15 is a flowchart illustrating an example of trend information search processing according to the fourth embodiment. It is a block diagram which shows the example of the hardware constitutions of the search device based on Embodiment 1-4 of this invention.
  • a sentence that describes the trend of statistics is characterized in that expressions that are elements for describing the trend of statistics appear in relation to each other. This element is called a "trend information element".
  • the “trend information element” includes topic words, statistic names, term expressions, trend expressions, comparative expressions, unit expressions, and the like.
  • a topic word is an expression that represents a topic that is a target of statistics. In the case of "the sales in 2001 of N company", “N company” corresponds to the topic word.
  • the statistic name is an expression representing the type of statistic that is the object of the statistic. In the case of "sales in 2001 of N company", "sales” is the statistic name.
  • period expression is an expression representing a period in which statistics are measured. In the case of "the sales in 2001 of N company", "2001” is the term expression.
  • the trend expression is an expression that represents increase or decrease of the statistic (value). Examples of trend expressions include “increase”, “decrease”, “level”, “under and over”, “peak” and “bottoming”.
  • a comparative expression is an expression used to compare statistics to some reference. Specific examples of comparative expressions include “YoY”, “YoY”, “YoY”, and “Change”.
  • a unit expression is an expression used to describe the value of a statistic. For example, if it is a statistic related to the amount, such as “sales”, “net profit”, “GDP”, “family income”, “trillion yen”, “billion yen”, “1000 yen”, “yen” etc. correspond to this. In addition, if it is a statistical quantity such as “shipment number” or “sales number”, “1 billion units”, “1000 units”, “100 units”, “units”, etc. correspond to this. Furthermore, in the case of statistics concerning the number of people, such as “total population” and “number of users”, “1 billion people”, “1 million people”, “1000 people”, “people”, etc. correspond to this.
  • the search device 100 (trend information search device) according to the first embodiment of the present invention includes, as shown in FIG. 1, a storage device 1, a data processing device 2, an input unit 3, and an output unit 4.
  • the storage device 1 physically includes a hard disk, a flash memory, and the like, and functionally includes a trend information storage unit 11.
  • the data processing device 2 physically comprises a CPU or the like, and functionally comprises an extended query generation unit 21, a trend information search unit 22, and a trend information determination unit 23.
  • the input unit 3 includes a keyboard and a pointing device such as a mouse.
  • the input unit 3 receives an input of information by the user, and transmits the input information to the data processing device 2.
  • the input unit 3 receives, from the user as a search condition, a keyword representing a topic to be searched, a statistic name relating to the topic, and a period to be a target of statistics.
  • the output unit 4 is configured of a display or the like.
  • the output unit 4 displays the screen transmitted from the data processing device 2.
  • FIG. 2 shows an example of a screen on which the user inputs search conditions.
  • the search condition input screen C1 of FIG. 2 includes a form C11 for receiving an input of a topic, a form C12 for receiving an input of a statistic name, a form C13 for receiving an input of a year, and a search button C14.
  • a search button C14 When the user presses the search button C14, a search is executed under the search conditions input to the forms C11 to C13 at that time.
  • “N company” as a topic word, "sales” as a statistic name, and "2001” as a year are input.
  • the screen for inputting the search condition is not limited to the above example.
  • the term expression is not limited to the year, and may be quarter, month, week, and so on.
  • the method of inputting the period expression may be a method of specifying the date and time of the beginning and the end of the period.
  • the user may input a certain event, and the designated period may be before or after the date and time the event occurred.
  • the expanded query generation unit 21 generates a query for searching for a document that is likely to include trend information related to the topic word, the statistic name, and the term expression input by the user.
  • An example of a simple method of generating a query is a method of generating a query by connecting topic words, statistic names, and period expressions with an AND operator. Using this method, for example, the query “N company AND sales AND 2001” is generated for the search condition of FIG.
  • the document containing "N company", "sales amount” and "2001” is not necessarily the document describing the fact that the sales of N company in 2001 decreased. Therefore, in order to obtain target trend information with higher probability, the expanded query generation unit 21 expands the query.
  • Query expansion includes synonym expansion, trend expression expansion, comparison expression expansion, unit expansion, and the like.
  • the expansion of the query by synonyms is to generate a query in which a plurality of synonyms registered in the synonym dictionary in advance are connected by the OR operator.
  • the expansion of queries by synonyms includes expansion by topic words synonyms, expansion by statistical name synonyms, expansion by year synonyms, extension by trend synonyms, etc. For example, when the query is expanded with the official name (NXXX) of N company that is a synonym for the topic word “N company”, the query becomes “(N company OR NXXX)”. If the query is expanded by the synonym "income" to the statistic name "sales amount”, the query becomes “(sales amount OR income)". When the query is expanded with the synonym "2001” for the term expression "2001”, the query becomes "(2001 OR 2001)". When the query is expanded by the above synonyms with all the words entered as the search conditions in FIG. 2, the expanded query is “(N company OR NXXX) AND (sales volume OR income) AND (2001 OR 2001) It becomes ".
  • the expansion of query by trend expression is to generate a query in which typical expressions used in describing increase or decrease of statistics are connected by OR operator.
  • typical expressions used in describing the increase or decrease of statistics are “increase”, “decrease” and the like.
  • the meaning of "increase” is “expansion”, “growth”, etc.
  • Synonyms for "decrease” are “fall”, “reduction”, etc.
  • the expanded query is “(N company OR NXXX) AND (sales volume OR income) AND (2001 OR 2001) AND (increase OR expansion OR growth OR decrease OR decline OR reduction).
  • the query expansion method using trend expression is not limited to the above example.
  • a method is also possible in which the user can limit the range of expansion by the trend expression.
  • this method is used, a screen for the user to input search conditions is shown in FIG.
  • the expanded query generation unit 21 expands the query by the trend expression, using only the expression that means decrease.
  • the expansion query is “(N company OR NXXX) AND (sales volume OR income) AND (2001 OR 2001) AND (decrease OR drop OR reduction)”.
  • the expansion of the query by the comparison expression is to generate a query in which typical expressions used in comparing temporal transitions of statistics are connected by an OR operator.
  • typical expressions used when comparing the time transition of statistics are “transition” "year-on-year”, “year-on-year”, and "year-on-year”.
  • the expanded query is “N (N Corporation OR NXXX) AND (Sales OR income) AND (2001 OR 2001) AND (Decrease OR decline OR contraction) AND (Trend OR OR OR Y / Y Y / Y Y / Y)
  • the expansion of the query by unit expression is to generate a query in which units of statistics are connected by an OR operator.
  • the unit is determined by statistics. Which unit expression corresponds to which statistic is defined and stored.
  • the unit corresponding to the statistical amount "sales amount” is "trillion yen” "one billion yen” "one million yen” etc.
  • the trend information search unit 22 searches the external data 5 using the expanded query generated by the expanded query generation unit 21, and passes the document group of the search result to the trend information determination unit 23.
  • the external data 5 is a document on the Internet, a document stored in a document database in an intranet, or the like.
  • the trend information search unit 22 may have its own search means, or may have a means for executing a search using an external search engine.
  • the trend information determination unit 23 determines whether each document of the search result passed from the trend information search unit 22 is a document including the trend information intended by the user. For discrimination, the trend information discrimination unit 22 evaluates the degree to which the document includes trend information. This evaluation is performed based on the appearance of the trend information element in the document.
  • the manner in which the trend information element appears in the document means, for example, the frequency at which the trend information element appears in the document, the frequency at which a predetermined language pattern appears, and the frequency at which the trend information appears in the document title.
  • the language pattern referred to here indicates a type of word arrangement used to express a certain meaning in a document including trend information. Specific examples of language patterns are “ ⁇ topic word> ⁇ year>”, “ ⁇ year> ⁇ topic word>”, “ ⁇ year> ⁇ statistics>”, and “ ⁇ statistics> ⁇ year>” , Etc
  • the degree to which the document includes the trend information element is represented by the integrated score S.
  • the combined score S is calculated by any one or a combination of a topic score TS, a statistic score SS, a period score PS, a trend score MS, a comparison score CS, and a unit score US.
  • the trend information determination unit 23 creates data in which the search keyword and the document ID designated by the user, and the sentences subjected to the determination are summarized, and stores the data in the trend information storage unit 11.
  • the topic score TS is a score obtained by quantifying whether the document is a document related to a topic word input by the user.
  • the topic score TS can be calculated using the number ts1 of topic words appearing in the document title and the number ts2 of topic words appearing in the text.
  • the method of calculating the topic score TS is not limited to this.
  • As another method of calculating the topic score TS for example, there is a method of adding the appearance frequency of related words of topic words or the product of the appearance frequency and the degree of association to the topic score TS.
  • the related term of the topic word can be obtained as follows. (1) A set of documents searched by the trend information search unit 22 using the expanded query generated by the trend expression expansion unit 21 is G1. (2) A set of documents retrieved by the trend information search unit 22 using the query excluding the topic word and its synonyms among the expanded queries generated by the trend expression expansion unit 21 is G2.
  • the appearance frequency of the word t in the document set G1 is F_G1 (t)
  • the appearance frequency of the word t in the document set G2 is F_G2 (t).
  • the value of R (t) F_G1 (t) / F_G2 (t) is taken as the association frequency of the word t and the topic element. Calculate R (t) for every word t included in the sentence.
  • the words included in the document are arranged in descending order by R (t), and the top N words are taken as topic word related words. Note that N is a predetermined natural number, and R (t) is its degree of association.
  • the statistic score SS is a score obtained by quantifying whether or not the retrieved document has a description related to the statistic input by the user.
  • the statistic score SS is the number ss1 of occurrences of the language pattern “ ⁇ statistical word of ⁇ topic word>”, the number ss2 of statistics appearing in the document title, and the number of statistics appearing in the text It can be calculated from ss3.
  • the period score PS is a score obtained by quantifying whether or not the retrieved document has a description regarding the period input by the user.
  • the year score YS can be calculated using, for example, ys1, ys2, and ys3.
  • ys1 is a language pattern of " ⁇ topic word> ⁇ year>"," ⁇ yearword> ⁇ topicword”,” ⁇ year> ⁇ statistics>", and " ⁇ statistics> ⁇ year>” (the trend information element
  • the combination pattern is the number that appears in the text.
  • ys2 is the number of year expressions appearing in the document title.
  • ys3 is the number of year expressions that appear in the text.
  • the period score PS can be defined by extending and applying the method of calculating the year score YS to a general period expression.
  • the entered period represents a quarter or a month
  • the expression (of course, including its synonyms) representing the year including the period is a target of calculation in obtaining PS It becomes. For example, first, numerical values are calculated for the input period elements in the same manner as the year score YS. Next, it is calculated similarly to the year score YS whether the expression showing the year including the period appears. Finally, the period score PS is calculated by weighting and adding the two numbers.
  • the trend score MS is a score that quantifies whether or not the trend expression input by the user appears in the retrieved document.
  • the trend score MS can be calculated based on ms1, ms2, and ms3.
  • ms1 is the number of occurrences of the language pattern “ ⁇ statistics> is ⁇ trend expression>” in the text.
  • ms2 is the number of trend expressions that appear in the document title.
  • ms3 is the number of trend expressions appearing in the text.
  • the comparison score CS is a score obtained by quantifying whether or not the search result document has a comparison expression such as "year-to-year ratio" or "transition".
  • the comparison expression score CS can be calculated from cs1, cs2, and cs3.
  • cs1 is the number of occurrences of the language pattern “ ⁇ statistics> is ⁇ comparison expression>” and “ ⁇ statistics> ⁇ comparisonexpression>” in the text.
  • cs2 is the number of comparison expressions appearing in the document title.
  • cs3 is the number of comparison expressions appearing in the text.
  • the comparison score CS is a weighted linear sum of cs1, cs2, and cs3.
  • the unit expression score US is a score obtained by quantifying whether or not there is a unit expression related to the statistic input by the user in the search result document.
  • the unit score US can be calculated from us 1, us 2 and us 3.
  • us1 is the number of occurrences of the language pattern “ ⁇ statistics> is ⁇ number> ⁇ unit>” and “ ⁇ statistics> is ⁇ number> ⁇ unit>” in the text.
  • us2 is the number of unit expressions appearing in the document title.
  • us3 is the number of unit expressions appearing in the text.
  • the trend information determination unit 23 performs determination using the integrated score S.
  • the integrated score S is calculated using the topic score TS, the statistic score SS, the year score YS, the trend expression score MS, the comparison expression score CS, and the unit expression score US.
  • the integrated score S is a numerical value that evaluates the degree to which the document includes trend information of a statistic that matches the search condition.
  • the weights W1 to W6 are numerical values arbitrarily determined based on experiments.
  • the trend information determination unit 23 stores the document determined to include the trend information in the trend information storage unit 11. Further, the number of trend expression elements appearing in each paragraph in the document is counted, and the paragraph in which the appearance frequency of the trend expression element is most frequently stored in the trend information list in the trend information storage unit 11.
  • topic score TS topic score TS, statistic score SS, year score YS, trend expression score MS, comparison expression score CS, unit expression score US, language pattern of each expression
  • the method of calculating each score is not limited to this.
  • the method of determining whether the text of the search result contains trend information intended by the user is not limited to the above example.
  • the determination method may be, for example, a method using a pattern recognition method.
  • supervised learning was performed using sentences including known trend information, using the number of matches of each expression to the language pattern, the appearance frequency in the title, and the appearance frequency in the text as feature vectors.
  • Discrimination is performed using a discriminator.
  • examples of classifiers used include support vector machines and neural networks.
  • the trend information storage unit 11 stores trend information that is searched by the trend information search unit 22 and determined as trend information by the trend information determination unit 23 in association with the original document information.
  • An example of data stored in the trend information storage unit 11 is shown in FIG.
  • the document ID is identification information (ID: IDentifier) for distinguishing individual documents, and uses an address indicating the location of the document body such as a URL (Uniform Resource Locator) or a file path. It is also good.
  • the topic word, the statistic name, the year (period expression), the document ID, and the trend information list are used as an example of data stored in the trend information storage unit 11, but in addition, by document ID
  • the content of the document body to be shown, the creation date of the document, the update date, the creator, and other information may be stored, and the present invention is not limited to the content described in the present embodiment.
  • the output unit 4 displays the trend information list (FIG. 4) stored in the trend information storage unit 11 as a search result for the user.
  • trend information search processing 1 An example of processing (trend information search processing 1) in which the search device 100 generates an extended query, searches, and determines the acquired document will be described with reference to FIG.
  • the expanded query generation unit 21 expands the search condition input in S11 to generate a query (S11).
  • the expansion of the search condition is one or more expansion processes selected from an expansion by a synonymous element, an expansion by a trend element, an expansion by a comparison element, and an expansion by a unit element.
  • the generated query is passed to the trend information search unit 22.
  • the process of S11 will be specifically described by taking, as an example, the case where the topic word "N company", the statistic name "sales amount”, and the year expression "2001” are input on the search condition input screen C1 of FIG. .
  • the case where the synonym extension, the trend expression extension, the comparison expression extension, and the unit expression extension are all performed will be described as an example.
  • the query is “(N company OR NXXX) AND (sales volume OR income) AND (2001 OR 2001) AND (increase OR expansion OR growth OR decrease OR decrease OR reduction) AND (transition OR year-on-year OR previous year Year-on-year comparison OR year-on-year comparison) AND (Trillion yen OR 1 billion yen OR 1 million yen))
  • the combination of query expansion processing may be any combination determined in advance or a combination set by the user.
  • the trend information search unit 22 searches the external data 5 using the expanded query passed from the expanded query generation unit 21, and passes the document group of the search result to the trend information determination unit 23 (S12).
  • the trend information determination unit 23 describes whether or not trend information of statistics matching the search condition designated by the user is described. (S13). The determination is performed based on any one of the topic score TS, the statistic score SS, the year score YS, the trend expression score MS, the comparison expression score CS, the unit expression score US, or a combination thereof. The score to be used may be a predetermined score or a score selected by the user. Then, the trend information determination unit 23 creates the data shown in FIG. 4 based on the determination result, and stores the data in the trend information storage unit 11.
  • the data processing device 2 displays the trend information list stored in the trend information storage unit 11 as a search result on the output unit 4 (S14), and ends the process.
  • the search device 100 generates an expanded query using trend information elements based on topic words, statistic names, and period expressions input by the user, and from the external data Search for documents containing relevant trend information.
  • trend information elements such as topic word, statistic name, year (period expression), trend expression, comparison expression, unit expression, etc.
  • a trend that conforms to the search condition input by the user in the text Determine if information can be included.
  • the search device 100 can automatically acquire trend information of statistics on a topic that the user is interested in from an external corpus such as the Web. .
  • the reason is that the expanded query is generated using the trend information element based on the topic word and statistic name input by the user, and the document including the matching trend information is retrieved from the external data and retrieved. This is because the degree of including trend information that matches the search condition input by the user is evaluated based on the appearance mode of the trend information element in the document.
  • the search device 200 according to the second embodiment is characterized in that it has a function of extracting and storing a “cause statement” that explains the cause of the trend of statistics, as compared with the first embodiment.
  • the search device 200 includes a cause sentence storage unit 12, a cause sentence candidate extraction unit 24, and a cause sentence determination unit 25.
  • the cause sentence storage unit 12 stores a cause sentence which is extracted from the trend information storage unit 11 by the cause sentence candidate extraction unit 24 and determined as a sentence explaining the cause of the trend information by the cause sentence determination unit 25. .
  • FIG. 7 shows an example of data stored in the cause sentence storage unit. Referring to FIG. 7, regarding the statistic name "sales amount" of the topic word "N company", the cause sentence of the document D01 which is "decreased” in the 2001 fiscal year is "personal products centered on personal computers: 25.8% It can be understood that the description is "... due to the decrease.”
  • a combination of a topic word, a statistic name, a term expression, a trend expression, a document ID, and a cause sentence list is used as an example of data stored in the cause sentence storage unit 12.
  • information such as the content of the document body indicated by the document ID, the creation date of the document, the update date, and the creator may be stored, and the present invention is not limited to the content described in this embodiment.
  • the cause sentence candidate extraction unit 24 includes, from each document of the document group stored in the trend information storage unit 11, a sentence including a language pattern representing a cause such as “influence” “cause” “for” “with”. Extract The cause sentence candidate extraction unit 24 passes the extracted sentence to the cause sentence determination unit 25 as a cause sentence candidate for explaining the cause of the trend information specified by the user.
  • the cause sentence determination unit 25 determines whether each cause sentence candidate passed from the cause sentence candidate extraction unit 24 is a cause sentence. The determination is performed using the following numerical values.
  • the numerical value is the appearance frequency FT of the topic word or its related term input by the user in the sentence, the appearance frequency FS of the statistic expression in the sentence, the appearance frequency FY of the year expression in the sentence, the sentence The appearance frequency FM of the trend expression in 1, the appearance frequency FC of the comparison expression in the sentence, and the appearance frequency FU of the unit expression in the sentence.
  • the cause sentence determining unit 25 determines whether the sentence of the cause sentence candidate is a cause sentence explaining the cause of the trend information specified by the user. .
  • the appearance frequency FY of the year expression can generally be replaced with the appearance frequency of the term expression.
  • the cause sentence determination unit 25 stores the search condition and the document ID designated by the user, and the list of sentences determined as the cause sentence in the cause sentence storage unit 12.
  • the determination is performed by the integrated score F.
  • the integrated score F is a score obtained by evaluating the degree to which the cause sentence candidate is the cause sentence.
  • the weights V1 to V6 and the threshold value ⁇ are predetermined values obtained empirically.
  • the combination of the score to be used may be a predetermined arbitrary combination, and may be a combination set by the user.
  • the method of calculating the integrated score F as a weighted linear sum of FT, FS, FY, FM, FC, and FU is described.
  • the method of determining the integrated score F is not limited to this.
  • the method of determining whether the sentence of the cause sentence candidate is the cause sentence is not limited to the above example.
  • the determination method may be performed using, for example, a method of pattern recognition.
  • supervised learning was performed using sentences including known trend information, using the number of matches of each expression to the language pattern, the appearance frequency in the title, and the appearance frequency in the text as feature vectors.
  • Discrimination is performed using a discriminator.
  • examples of classifiers used include support vector machines and neural networks.
  • the output unit 4 integrates the trend information list stored in the trend information storage unit 11 and the cause sentence list stored in the cause sentence storage unit 12 and displays the result as a search result.
  • FIG. 8 shows an example of a screen displaying a search result.
  • the search result screen C3 in the example of FIG. 8 displays a list of documents determined to include trend information and a cause sentence. Also, the document ID portion is a link, and by clicking, the document body can be accessed.
  • the trend information search process 2 differs from the trend information search process 1 of the first embodiment shown in FIG. 5 in that it includes a cause sentence candidate extraction process (S24) and a cause sentence determination process (S25).
  • the processes of S21 to S23 are the same as the processes of S11 to S13 of the trend information search process 1 shown in FIG.
  • the cause sentence candidate extraction unit 24 extracts candidate cause sentences from each document of the document group stored in the trend information storage unit 11. Do.
  • the document to be extracted is a sentence including a language pattern that indicates the cause, such as “influence”, “cause”, “reason”, “for”, “in conjunction with”, and the like.
  • the cause sentence candidate extraction unit 24 passes the extracted cause sentence candidate to the cause sentence determination unit 25 (S24).
  • the cause sentence determination unit 25 determines whether each of the cause sentence candidate sentences extracted by the cause sentence candidate extraction unit 24 is a cause sentence (S25). Discrimination is performed using the integrated score F calculated using the following numerical values.
  • the numerical values are the frequency of occurrence FT of the topic word or its related words input by the user in the document, the frequency of occurrence FS of the statistic expression, the frequency of occurrence FY of the year expression, and the frequency FM of the trend expression , And one or more combinations of the frequency of occurrence FC of the comparison expression and the frequency of occurrence FU of the unit expression.
  • the combination of numerical values to be used may be any combination determined in advance, or may be a combination set by the user.
  • the cause sentence determination unit 25 creates the list shown in FIG. 7 from the determination result, and stores the list in the cause sentence storage unit 12.
  • the data processing device 2 integrates the trend information list stored in the trend information storage unit 11 and the cause sentence list stored in the cause sentence storage unit 12 and displays the result on the output unit 4 as a search result. (S27), the process ends.
  • the search apparatus 200 extracts candidates of cause sentences explaining the cause of the trend information with the language pattern representing the cause as a clue, and whether or not it is the cause sentence from the appearance frequency of the trend information element To determine the Thus, for trend information automatically acquired from an external corpus such as the Web, it is possible to extract a causative sentence describing the trend information.
  • the search device 300 according to the third embodiment is characterized in that it includes a year expression expansion unit 26 in addition to the configuration described in the second embodiment.
  • the other configuration is the same as that of the second embodiment.
  • the year expression expansion unit 26 generates a year expression query corresponding to each of the Y years before and after the year input by the user, and repeatedly executes trend information search processing, trend information determination processing, and cause sentences for each year. It instructs the downstream to perform candidate extraction processing and cause sentence identification processing.
  • FIG. 11 is a flowchart illustrating an example of the operation of trend information search according to the third embodiment.
  • the year expression expansion process (S30) and the process of confirming whether or not the search process has ended for all the expanded years (S36) Differs in that it contains
  • the search target is the period from fiscal 1998 to fiscal 2004.
  • the search process is performed for seven years from fiscal 1998 to fiscal 2004.
  • the fiscal year query used for the first search is "fiscal year 1998" and the second is "fiscal year 1999".
  • the trend expression expansion unit 21 generates an expansion query using the year query generated by the year expression expansion unit 26 (S31).
  • the trend information search unit 22, the trend information determination unit 23, the cause sentence candidate extraction unit 24, and the cause sentence determination unit 25 perform trend information search (S32), trend information determination (S33), cause sentence candidate extraction (S34). And cause statement determination (S35).
  • the processes of steps S32 to S35 are the same as the processes of steps S22 to S25 of FIG.
  • step S36 the year expression expansion unit 26 checks whether or not the process has been performed for all the years included in the expanded period. If an unprocessed year remains (step S36; NO), the process target is set to the next year, and the process returns to step S30 to repeat the processing following the trend expression expansion. If the process has ended for all the years included in the extended period (step S36; YES), the process is ended.
  • FIG. 12 An example of data stored in the cause sentence storage unit in the third embodiment is shown in FIG. It can be seen from FIG. 12 that sales of company N fluctuated from 1998 to 2004 due to different causes.
  • the unit of the period for searching the trend information by the year has been described as an example.
  • the unit of the period is not limited to the year.
  • the term expression may be in units of quarters, months, weeks, etc., or an expression specifying the date and time of the beginning and the end of the term.
  • the period expansion unit instead of the year expression expansion unit 26, the period expansion unit extends the search target period to a predetermined range before and after the search period on the basis of the designated period.
  • the search device 300 repeatedly generates the expanded query over a predetermined range before and after the period input by the user, and searches for the trend information and the cause sentence. Therefore, the user can grasp the trend of statistics and the transition of the cause of the trend before and after the period in which the user is interested.
  • FIG. 4 a configuration example of the search device 400 according to the fourth embodiment will be described with reference to FIG.
  • the configuration of the search device 400 differs from the configuration of the search device 300 shown in FIG. 10 in that the reputation information extraction unit 27 and the reputation information storage unit 13 are provided.
  • the other configuration is the same as that of the third embodiment.
  • the reputation information extraction unit 27 extracts the sender information of the document from which the cause sentence is extracted, and determines whether the reputation in the document is positive or negative.
  • the reputation determination unit stores the determination result in the reputation information storage unit 13.
  • the sender information is the domain name of the web site, the meta information of the document, the signature described in the news article, and the like.
  • the positive expression dictionary stores positive expressions such as “wonderful”, “good”, and “good”.
  • the negative expression dictionary stores negative expressions such as "slowness”, “deterioration”, “slowness” and the like. In this example, if the ratio FP / FN of the appearance frequency FP of the positive expression to the appearance frequency FN of the negative expression in the document is 1 or more, the positive reputation is determined, and if less than 1, the negative reputation is discriminated.
  • the reputation information storage unit 13 stores information on the year, the document ID, the sender ID, and the reputation as additional information related to the document stored in the cause sentence storage unit 12.
  • FIG. 14 shows an example of data stored in the reputation information storage unit.
  • the sender P01 sends documents with positive and negative reputations depending on the year, but the sender P02 always sends negative documents regardless of the year, and the sender P03 does not It can be seen that they always send out positive documents.
  • trend information search processing 4 An example of processing (trend information search processing 4) performed in the search device 400 will be described with reference to FIG.
  • the operation of the trend information search according to the fourth embodiment differs from the trend information search process 3 shown in FIG. 11 in that it includes a reputation information extraction process (S46).
  • trend information search processing 4 When the user presses a search execution button, trend information search processing 4 is executed.
  • the processing contents from the year expression expansion process (S40) in FIG. 15 to the cause sentence discrimination (S45) are the same as the operations in S30 to S35 in FIG.
  • the reputation information extraction unit 27 extracts the sender information of the document from which the cause sentence is extracted. Next, the reputation information extraction unit 27 determines whether the reputation in this document is positive or negative. Then, the reputation information extraction unit 27 stores the determination result in the reputation information storage unit 13 (S46).
  • step S47 If the process has not been completed for all the years included in the expanded period (step S47; NO), the process returns to step S40, the process target is set to the next year, and the process following the trend expression expansion is repeated. If the process has ended for all the years included in the expanded period (step S47; YES), the process ends.
  • the search device 400 extracts the sender information of the document from which the cause sentence is extracted, and determines whether the reputation in the document is positive or negative.
  • the user can grasp the transition of what kind of reputation document a certain sender sends out each year.
  • FIG. 16 shows an example of the hardware configuration of the search device (the search device 100, the search device 200, the search device 300, and the search device 400) according to the embodiment of the present invention.
  • the search apparatus (search apparatus 100 and search apparatus 200 and search apparatus 300 and search apparatus 400) are, as shown in FIG. 16, a control unit 31, a main storage unit 32, an external storage unit 33, an operation unit 34, a display unit 35, The transceiver unit 36 is provided.
  • the main storage unit 32, the external storage unit 33, the operation unit 34, the display unit 35, and the transmission / reception unit 36 are all connected to the control unit 31 via the internal bus 38.
  • the control unit 31 is configured of a CPU (Central Processing Unit) or the like.
  • the control unit 31 executes processing in accordance with the trend information search program 37 stored in the external storage unit 33.
  • the main storage unit 32 is configured by a RAM (Random-Access Memory) or the like.
  • the main storage unit 32 loads the trend information search program 37 stored in the external storage unit 33, and is used as a work area of the control unit 31.
  • the external storage unit 33 includes a flash memory, a hard disk, a DVD-RAM (Digital Versatile Disc Random-Access Memory), a DVD-RW (Digital Versatile Disc Rewritable), and the like.
  • the external storage unit 33 stores the trend information search program 37 in advance. Further, the external storage unit 33 supplies the stored data to the control unit 31 according to the instruction of the control unit 31 and stores the data supplied from the control unit 31.
  • the trend information storage unit 11, the cause sentence storage unit 12 and the reputation information storage unit 13 are configured by storage areas secured in the external storage unit 33.
  • a part or all of the trend information storage unit 11, the cause sentence storage unit 12 and the reputation information storage unit 13 may be temporarily configured as a part of the storage area of the main storage unit 32.
  • the operation unit 34 includes a keyboard and a pointing device such as a mouse, and an interface device for connecting the keyboard and the pointing device to the internal bus 38.
  • the user uses the operation unit 34 to input keywords of trend information and the like.
  • the display unit 35 is configured of a CRT (Cathode Ray Tube) or an LCD (Liquid Crystal Display).
  • the display unit 35 displays a screen for inputting a search keyword or a search result.
  • the display unit 35 may also be configured of a printer and its interface device.
  • the transmission / reception unit 36 is configured of communication devices and a serial interface or LAN (Local Area Network) interface connected to them.
  • the transmitting and receiving unit 36 transmits a query to a search engine on the Internet, a document database in an intranet, and the like via a network (not shown), and receives document data of a search result.
  • Functions of the expanded query generation unit 21, the trend information search unit 22, the trend information determination unit 23, the cause sentence candidate extraction unit 24, the cause sentence determination unit 25, the year expression expansion unit 26 and the reputation information extraction unit 27 are the control unit 31, This is realized by executing the trend information search program 37 using the main storage unit 32, the external storage unit 33, the operation unit 34, the display unit 35, the transmission / reception unit 36, and the like.
  • the main part that performs processing for the search device including the control unit 31, the main storage unit 32, the external storage unit 33, the transmitting and receiving unit 36, etc. is not a dedicated system but an ordinary computer system. It can be realized using.
  • a computer program for executing the above-mentioned operation is stored and distributed in a computer readable recording medium (flexible disc, CD-ROM, DVD-ROM, etc.), and the computer program is installed in the computer.
  • a search device may be configured to execute the above process.
  • the computer program may be stored in the storage device 1 of a server device on a communication network such as the Internet, and the search device may be configured by a normal computer system downloading or the like.
  • the computer program may be posted on a bulletin board (BBS: Bulletin Board System) on a communication network, and the computer program may be distributed via the network. Then, the computer program may be activated and executed in the same manner as other application programs under the control of the OS so that the above-described processing can be executed.
  • BSS Bulletin Board System
  • the search device of the present invention can be used to collect decision materials in analyzing the transition of company performance and stock prices or the transition of macroeconomic indicators.

Abstract

 検索装置(100)は、利用者が指定したトピックに関する統計量の動向情報を検索する。拡張クエリ生成部(21)は、利用者が入力した条件に対し、動向情報要素を付加することによって拡張したクエリを生成する。動向情報検索部(22)は、拡張クエリ生成部(21)で生成されたクエリを用いて外部データ(5)を検索する。動向情報判別部(23)は、動向情報検索部(22)によって検索された文書に対し、動向情報要素の出現パターンを元に入力した条件に適合する統計量の動向情報が含まれるか否かを判別する。

Description

動向情報検索装置、動向情報検索方法および記録媒体
 本発明は、動向情報検索装置、動向情報検索方法および記録媒体に関する。
 企業の業績や経済指標の動向を調査及び評価することは、投資判断にとって重要なプロセスである。このプロセスを効率化し、適切な投資判断を支援するシステムが提案されている。
 例えば、特許文献1は、投資家等の投資判断を支援するデータ判断支援システムを開示する。このデータ判断支援システムは、企業の株価や為替などの時系列データを格納した資産価格データベース(DB)、国内総生産や原油価格などの時系列データを格納した経済指標DB、およびニュース記事を格納したニュースDBを備える。このデータ判断支援システムは、これらのデータベースを用いて、為替相場の変動やドバイ原油価格の変動をグラフ表示すると共に、その期間における関連ニュースを表示する。
 また、特許文献2は、一般の投資家が期待していることを分析し、分析結果に基づいて、株価に関する情報のうちどれが株価の工作のための故意の情報であるかを判別する株価情報収集分析システムが記載されている。
 また、情報の分析を支援する技術が特許文献3-6に開示されている。
 特許文献3に係る文書データ提供装置は、日付つき文書データから単語を抽出し、分野、期間毎に各単語の単語数を集計し、これらの単語の出現頻度を求め、各分野および各期間の出現頻度の大きい一定数の単語を特徴語として抽出する。この文書データ提供装置は利用者により分野と期間が指定されると、その期間の文書データの特徴語を表示し、特定の特徴語が選択されたならその特徴語を含む文書データの文書見出し等を表示する。
 特許文献4に係る情報分析システムは、収集情報、地理条件情報および範囲条件情報を記憶し、収集情報と地理条件情報の対応付けを範囲条件情報に基づいて行う。この情報部席システムは、収集情報とそれに対応付けられる地理条件情報とをマージし、対応付けが行われた情報がマージ情報として分析される。
 特許文献5には、動向情報の変化とその要因を表示するデータ処理装置が記載されている。データ処理装置の動向情報抽出部は、取得したコーパスから、処理対象となる動向情報を抽出する。要因情報抽出部は、抽出された動向情報の変化の要因となったと推測される情報を抽出する。重要語抽出部は、動向情報の分析に有用であると推測される重要語を抽出する。動向情報表示部は、抽出された動向情報の変動を示すグラフを生成する。要因情報表示部は、動向情報表示部が生成したグラフに、動向情報の変動の要因となった要因情報を合わせて表示する。要因情報表示部は、所定の条件にしたがって、動向情報の分析に有用な要因情報を抽出して表示する。
 特許文献6には、ユーザにクエリを改善するためのフィードバック情報を提供する技術が記載されている。特許文献6に係るクエリ検査装置は、イメージ・オブジェクトの意味と外見上の特徴に関する選択度を使用してクエリを検査し、ユーザにフィードバック情報を提供する。フィードバック情報には、クエリにマッチする最大数と最小数、クエリの要素(意味および外見上の特徴)に対する代替案、およびクエリにマッチするイメージの見積数が含まれる。
特開2007-087354号公報 特開2009-163598号公報 特開2000-172701号公報 特開2005-128893号公報 特開2007-241905号公報 特開平11-328185号公報
 特許文献1~6に係る技術の第1の問題点は、分析対象とする企業業績や経済指標など、分析対象となる統計量のデータベースをシステムがあらかじめ保有しておく必要がある点である。そのため、データベースとして保有されていない統計量に関する分析ができない。
 例えば、特許文献1~6に係る技術では、「2001年のN社の売上高が減少した原因を知りたい」といった、利用者が興味を持った任意のトピックに関する統計量の変化の原因を抽出・分析するためには、あらかじめN社の売上高に関するデータや関連ニュースを保有していない限りは困難である。
 任意の統計量データをWebなどの外部コーパスから取得する方法としては、例えば、「2001年 AND N社 AND 売上高」などの複数のキーワードからなるAND条件のクエリを使って、インターネットのサーチエンジンで検索する方法が考えられる。しかし、これらのキーワードが含まれる文書に、必ず所望の統計量の情報が記載されているとは限らない。例えば、「2001年 AND N社 AND 売上高」にヒットする文書には、求人情報やニュースリリースにおける会社概要等に関するノイズとなる文書が含まれ得る。会社概要には、社名、最新単年度での売上高、会社の沿革などが記述されているため、その文書に掲載されているのは2008年度のN社の売上高で、会社の沿革として「2001年にコンタクトセンターを設置」などの内容であったとしても、「2001年 AND N社 AND 売上高」がヒットしてしまう。
 一方、「N社は、2001年9月中間期決算を発表、売上高は前年同期比0.4%減の2兆4680億円」のように、検索対象とする統計量の動向に関して記述されている文書は、利用者の興味に適合していると言える。このような利用者の興味に適合している統計量の動向に関する文書を外部コーパスから検索することが求められる。
 本発明は上述のような事情に鑑みてなされたもので、統計量の動向情報を含む文書を、外部コーパスから自動的に取得できる動向情報検索装置、動向情報検索方法および記録媒体を提供することを目的とする。
 本発明の第1の観点に係る動向情報検索装置は、
 統計量の動向情報を検索する動向情報検索装置であって、
 入力された検索条件に、動向情報を含む文書に特徴的に現れる文字列である動向情報要素を検索条件として付加して、拡張されたクエリを生成する拡張クエリ生成手段と、
 前記拡張クエリ生成手段で生成されたクエリを用いて外部データを検索するための検索手段と、
 前記検索手段によって検索された文書に、前記入力した条件に適合する統計量の動向情報が含まれる程度を、当該文書における前記動向情報要素の出現様態に基づいて評価する動向情報評価手段と、
 を備えることを特徴とする。
 本発明の第2の観点に係る動向情報検索方法は、
 統計量の動向情報を含む文書を検索する動向情報検索方法であって、
 入力された検索条件に、動向情報を表す文章に特徴的に現れる文字列である動向情報要素を付加し、拡張されたクエリを生成する拡張クエリ生成ステップと、
 前記拡張クエリ生成ステップで生成されたクエリを用いて外部データを検索するための検索ステップと、
 前記検索ステップで検索された文書に、前記入力した条件に適合する統計量の動向情報が含まれる程度を、当該文書における前記動向情報要素の出現様態に基づいて評価する動向情報評価ステップと、
 を備えることを特徴とする。
 本発明の第3の観点に係る動向情報検索用プログラムを記録したコンピュータ読み取り可能な記録媒体は、
 コンピュータに、
 入力された条件に、動向情報を表す文章に特徴的に現れる文字列である動向情報要素を付加することによって拡張したクエリを生成する拡張クエリ生成ステップ、
 前記拡張クエリ生成ステップで生成されたクエリを用いて外部データを検索するための検索ステップ、
 前記検索ステップで検索された文書に、前記入力した条件に適合する統計量の動向情報が含まれる程度を、当該文書における前記動向情報要素の出現様態に基づいて評価する動向情報評価ステップ、
 を実行させることを特徴とするプログラムを記録している。
 本発明によれば、システムが保有していない統計量であっても、利用者が興味のあるトピックに関する統計量の動向情報を、Webなどの外部コーパスから自動的に取得できる。
本発明の実施形態1に係る検索装置の構成例を示すブロック図である。 実施形態1に係る検索条件を入力する画面の例を示す図である。 実施形態1に係る検索条件を入力する画面の例を示す図である。 実施形態1において動向情報記憶部に記憶されるデータの例を示す図である。 実施形態1に係る動向情報検索処理の一例を示すフローチャートである。 本発明の実施の形態2に係る検索装置の構成例を示すブロック図である。 実施形態2において原因文記憶部に記憶されるデータの例を示す図である。 実施形態2に係る検索結果を表示する画面の例を示す図である。 実施形態2に係る動向情報検索処理の一例を示すフローチャートである。 本発明の実施形態3に係る検索装置の構成例を示すブロック図である。 実施形態3に係る動向情報検索処理の一例を示すフローチャートである。 実施形態3において原因文記憶部に記憶されるデータの例を示す図である。 本発明の実施形態4に係る検索装置の構成例を示すブロック図である。 実施形態4において評判情報記憶部に記憶されるデータの例を示す図である。 実施形態4に係る動向情報検索処理の一例を示すフローチャートである。 本発明の実施形態1~4に係る検索装置のハードウェア構成の例を示すブロック図である。
 以下、本発明を実施するための形態について図を参照して詳細に説明する。なお図中、同一または同等の部分には同一の符号を付す。最初に、本実施形態において検索対象となる統計量の動向情報を含む文書の特徴について説明する。
 統計量の動向を記述する文章は、統計量の動向を記述するための要素となる表現が互いに関連しあって出現することを特徴とする。この要素を、「動向情報要素」と呼ぶ。「動向情報要素」には、トピック語、統計量名、期間表現、動向表現、比較表現、単位表現、などが含まれる。
 トピック語は、統計の対象となるトピックを表す表現である。「N社の2001年の売上高」であれば、「N社」がトピック語に当たる。
 統計量名は、統計の対象となる統計量の種類を表す表現である。「N社の2001年の売上高」であれば、「売上高」が統計量名に当たる。
 期間表現は、統計が計測された期間を表す表現である。「N社の2001年の売上高」であれば、「2001年」が期間表現に当たる。
 動向表現は、統計量(値)の増減を表す表現である。動向表現の例としては、「増加」「減少」「横ばい」「乱高下」「ピーク」「底打ち」などが挙げられる。
 比較表現は、統計量を何らかの基準と比較するために使われる表現である。比較表現の具体例としては、「前年比」「前年同期比」「前年同月比」「推移」などが挙げられる。
 単位表現は、統計量の値を記述するために使われる表現である。例えば、「売上高」や「純利益」「GDP」「世帯年収」など、金額に関係する統計量であれば「兆円」「10億円」「1000円」「円」などがこれに当たる。また、「出荷台数」や「販売台数」などの統計量であれば「10億台」「1000台」「100台」「台」などがこれに当たる。さらに、「総人口」や「利用者数」など、人数に関する統計量であれば「10億人」「100万人」「千人」「人」などがこれに当たる。
 統計量の動向情報を効率良く収集するためには、上記のような動向情報要素を含む文書を検索し、その文書内で動向情報要素が互いに関連しあって出現しているか否かを判別する必要がある。
 (実施形態1)
 本発明の実施形態1に係る検索装置100(動向情報検索装置)は、図1に示すように、記憶装置1と、データ処理装置2と、入力部3と、出力部4と、を備える。
 記憶装置1は、物理的にはハードディスクやフラッシュメモリなどから構成され、機能的には動向情報記憶部11を備える。
 データ処理装置2は、物理的にはCPU等から構成され、機能的には、拡張クエリ生成部21、動向情報検索部22、動向情報判別部23から構成される。
 入力部3は、キーボード、およびマウスなどのポインティングデバイスから構成される。入力部3は、利用者による情報の入力を受け付け、当該入力された情報をデータ処理装置2に伝える。
 入力部3は、利用者から検索対象となるトピックを表すキーワードと、そのトピックに関係する統計量名と、統計の対象となる期間と、を検索条件として受け付ける。
 出力部4は、ディスプレイ等から構成される。出力部4は、データ処理装置2から伝達された画面を表示する。
 図2に利用者が検索条件を入力する画面の例を示す。図2の検索条件入力画面C1は、トピックの入力を受け付けるフォームC11と、統計量名の入力を受け付けるフォームC12と、年度の入力を受け付けるフォームC13と、検索ボタンC14と、を含む。利用者が検索ボタンC14を押すと、そのときフォームC11~C13に入力されている検索条件で検索が実行される。図2では、トピック語として「N社」、統計量名として「売上高」、年度として「2001」、が入力されている。
 なお、検索条件を入力する画面は上記の例に限らない。例えば、期間表現は年度に限らず、四半期、月、週などであってもよい。また、期間表現を入力する方法は、期間の初めと終わりの日時を指定する方法であってもよい。また、利用者がある出来事を入力し、その出来事が起こった日時以前または以後を指定期間とする方法も可能である。
 拡張クエリ生成部21は、利用者が入力したトピック語、統計量名、期間表現、に関する動向情報が含まれる可能性の高い文書を検索するためのクエリを生成する。クエリを生成する単純な方法の例は、トピック語、統計量名、期間表現、をAND演算子でつないでクエリを生成する方法である。
 この方法を使用すると、例えば、図2の検索条件に対して、クエリ「N社 AND 売上高 AND 2001年」が生成される。しかし、前記したように、単に「N社」「売上高」「2001年」が含まれる文書が、2001年のN社の売上高が減少した事実を記載した文書であるとは限らない。そこで、より高い確率で目的とする動向情報を得るために、拡張クエリ生成部21はクエリの拡張を行う。クエリの拡張には、同義語による拡張、動向表現による拡張、比較表現による拡張、単位による拡張、などが含まれる。
 同義語によるクエリの拡張とは、あらかじめ同義語辞書に登録している複数の同義語をOR演算子で接続したクエリを生成することである。同義語によるクエリの拡張には、トピック語の同義語による拡張、統計量名の同義語による拡張、年度表現の同義語による拡張、動向表現の同義語による拡張、等が含まれる。例えば、トピック語「N社」に対して、同義語であるN社の正式名称(NXXX)でクエリを拡張すると、クエリは「(N社 OR NXXX)」となる。統計量名「売上高」に対して、同義語「所得」でクエリを拡張すると、クエリは「(売上高 OR 所得)」となる。期間表現「2001年」に対して、同義語「平成13年」でクエリを拡張すると、クエリは「(2001年 OR 平成13年)」となる。図2の検索条件として入力されたすべての語句を上記同義語によってクエリを拡張すると、拡張されたクエリは「(N社 OR NXXX) AND (売上高 OR 所得) AND (2001年 OR 平成13年)」となる。
 動向表現によるクエリの拡張とは、統計量の増減を記述する際に使われる典型的な表現をOR演算子で接続したクエリを生成することである。統計量の増減を記述する際に使われる典型的な表現の例は、「増加」「減少」などである。さらに、「増加」の同義は、「拡大」「成長」などである。「減少」の同義語は、「落ち込み」「縮小」などである。例えば、図2の検索条件に対してすべての語句を上記同義語により拡張し、上記動向表現でも拡張すると、拡張クエリは「(N社 OR NXXX) AND (売上高 OR 収入) AND (2001年 OR 平成13年) AND (増加 OR 拡大 OR 成長 OR 減少 OR 落ち込み OR 縮小)」となる。
 なお、動向表現によるクエリの拡張方法は、上記の例に限られない。例えば、利用者が既に検索対象となる統計量の対象年度における動向を知っているのであれば、利用者が、動向表現による拡張の範囲を限定できる方法も可能である。この方法を使用した場合において、利用者が検索条件を入力する画面を図3に示す。
 ここで、利用者が既に「2001年のN社の売上高」が「減少」傾向であったことを知っている場合を例にとって説明する。図3には、統計情報の動向の方向が、アイコンC24によって表示されている。この例では、利用者は「減少」を選択した後に検索ボタンC25を押す。拡張クエリ生成部21はこれに応答して、減少を意味する表現のみを使用して、動向表現によるクエリの拡張を行う。その場合、拡張クエリは「(N社 OR NXXX) AND (売上高 OR 収入) AND (2001年 OR 平成13年) AND (減少 OR 落ち込み OR 縮小)」となる。
 比較表現によるクエリの拡張とは、統計量の時間的推移を比較する際に使われる典型的な表現を、OR演算子で接続したクエリを生成することである。統計量の時間的推移を比較する際に使われる典型的な表現の例は、「推移」「前年比」「前年同期比」「前年同月比」である。例えば、図3の検索条件に、同義語によるクエリの拡張と、減少方向の動向表現によるクエリの拡張と、比較表現によるクエリの拡張を行った場合、拡張クエリは、「(N社 OR NXXX) AND (売上高 OR 収入) AND (2001年 OR 平成13年) AND  (減少 OR 落ち込み OR 縮小) AND (推移 OR 前年比 OR 前年同期比 OR 前年同月比)」となる。
 単位表現によるクエリの拡張とは、統計量の単位をOR演算子で接続したクエリを生成することである。単位は、統計量によって定まる。どの統計量にどの単位表現が対応するかは、定義して記憶している。統計量「売上高」に対応する単位は、「兆円」「10億円」「100万円」などである。例えば、図3の検索条件に対して、同義語によるクエリの拡張と、減少方向の動向表現によるクエリの拡張と、比較表現によるクエリの拡張と、単位表現によるクエリの拡張と、を行った場合、拡張クエリは、「(N社 OR NXXX) AND (売上高 OR 収入) AND (2001年 OR 平成13年) AND  (減少 OR 落ち込み OR 縮小) AND (推移 OR 前年比 OR 前年同期比 OR 前年同月比) AND (兆円 OR 10億円 OR 100万円)」となる。
 動向情報検索部22は、拡張クエリ生成部21が生成した拡張クエリを用いて外部データ5を検索し、検索結果の文書群を動向情報判別部23に渡す。ここで、外部データ5とは、インターネット上の文書や、イントラネット内の文書データベースにおさめられた文書などである。なお、動向情報検索部22は、独自の検索手段を備えていても良いし、外部の検索エンジンを使用して検索を実行する手段を備えていてもよい。
 動向情報判別部23は、動向情報検索部22から渡された検索結果の各文書について、その文書が、利用者が目的とする動向情報を含む文書であるかどうか判別する。判別のために、動向情報判別部22は、その文書が動向情報を含む程度を評価する。この評価は、文書に動向情報要素が現れる様態に基づいて行われる。ここで言う文書に動向情報要素が現れる様態とは、例えば、文書中に、動向情報要素が現れる頻度、所定の言語パターンが現れる頻度、文書のタイトルに動向情報が現れる頻度、を言う。
 なお、ここで言う言語パターンとは、動向情報を含む文書においてある意味を表すために用いられる単語配列の類型を表す。言語パターンの具体例は、「<トピック語>の<年度>」、「<年度>の<トピック語>」、「<年度>の<統計量>」、「<統計量>の<年度>」、等である
 本実施形態では、文書が動向情報要素を含む程度を統合スコアSによって表す。統合スコアSは、トピックスコアTS、統計量スコアSS、期間スコアPS、動向スコアMS、比較スコアCS、単位スコアUS、のいずれか一つまたは複数の組合せにより計算される。さらに、動向情報判別部23は、利用者の指定した検索キーワードと文書ID、および、判別の対象となった文章をまとめたデータを作成し、当該データを動向情報記憶部11に記憶する。
 ここで、トピックスコアTSとは、文書が利用者が入力したトピック語に関する文書か否かを数値化したスコアである。トピックスコアTSは、文書のタイトルに出現するトピック語の数ts1、本文中に出現するトピック語の数ts2、を用いて算出できる。具体的には、TSはts1とts2との重み付き線形和
  TS=W11・ts1+W12・ts2
から計算できる。ここで、重みW11と重みW12は実験に基づき任意に決められた値であるが、W11>W12であることが好ましい。
 なお、ここでは理解を容易にするために、トピックスコアTSの計算にトピック語そのものの出現頻度を用いる場合について述べた。しかし、トピックスコアTSの算出方法はこれに限られない。その他のトピックスコアTSの算出方法として、例えば、トピック語の関連語の出現頻度や、出現頻度と関連度との積をトピックスコアTSに加算する方法がある。なお、トピック語の関連語は、以下のようにして求めることができる。
(1)動向表現拡張部21が生成した拡張クエリを用いて動向情報検索部22が検索した文書集合をG1とする。
(2)動向表現拡張部21が生成した拡張クエリのうち、トピック語とその同義語を除いたクエリを用いて動向情報検索部22が検索した文書集合をG2とする。
(3)文書集合G1での単語tの出現頻度をF_G1(t)、文書集合G2での単語tの出現頻度をF_G2(t)とする。
(4)R(t)=F_G1(t)/F_G2(t)の値を単語tとトピック要素の関連度数とする。文章に含まれるすべての単語tについてR(t)を計算する。文書に含まれる各単語をR(t)で降順に並べ、上位N個の単語をトピック語の関連語とする。なお、Nは所定の自然数としR(t)をその関連度とする。
 統計量スコアSSは、検索した文書に利用者が入力した統計量に関する記述があるか否かを数値化したスコアである。統計量スコアSSは、「<トピック語>の<統計量>」という言語パターンが本文中に出現する数ss1、文書のタイトルに出現する統計量の数ss2、本文中に出現する統計量の数ss3、から算出できる。具体的には、SSはss1とss2とss3との重み付き線形和
  SS=W21・ss1+W22・ss2+W23・ss3
として計算できる。ここで、重みW21、重みW22、重みW23、は実験に基づいて任意に決められた値であるが、W21>W22>W23であることが好ましい。
 期間スコアPSは、検索した文書に利用者が入力した期間に関する記述があるか否かを数値化したスコアである。特に年を期間の単位とした場合の期間スコアを年度スコアYSという。年度スコアYSは、例えばys1とys2とys3とを用いて計算できる。ys1は「<トピック語>の<年度>」「<年度>の<トピック語>」「<年度>の<統計量>」「<統計量>の<年度>」という言語パターン(動向情報要素の組み合わせのパターン)が本文中に出現する数である。ys2は文書のタイトルに出現する年度表現の数である。ys3は本文中に出現する年度表現の数である。このとき、年度スコアYSは、ys1とys2とys3との重み付き線形和
  YS=W31・ys1+W32・ys2+W33・ys3
として計算できる。ここで、重みW31、W32、W33は実験に基づき任意に決められた値であるが、W31>W32>W33であることが好ましい。
 年度スコアYSの計算方法を一般的な期間表現に拡張して適応して、期間スコアPSが定義できる。入力された期間が四半期または月を表す場合、PSを求めるに当たっては、指定した四半期または月を表す要素だけでなく当該期間を含む年を表わす表現(当然、その同義語を含む)も計算の対象となる。例えば、まず当該入力された期間要素について年度スコアYSと同様に数値が計算される。次に、その期間を含む年を表す表現が出現するか否かを、年度スコアYSと同じように計算する。最後に、二つの数に重みを付けて加算することにより、期間スコアPSが算出される。
 動向スコアMSは、検索した文書に利用者が入力した動向表現が出現するか否かを数値化したスコアである。動向スコアMSは、ms1とms2とms3とを元に計算できる。ms1は「<統計量>が<動向表現>」という言語パターンが本文中に出現する数である。ms2は文書のタイトルに出現する動向表現の数である。ms3は本文中に出現する動向表現の数である。このとき、動向表現スコアMSは、ms1とms2とms3との重み付き線形和
  MS=W41・ms1+W42・ms2+W43・ms3
として計算できる。ここで、重みW41、重みW42、重みW43、は実験に基づき任意に決められた数値であるが、W41>W42>W43であることが好ましい。
 比較スコアCSは、検索結果文書に「前年比」や「推移」などの比較表現があるか否かを数値化したスコアである。比較表現スコアCSは、cs1とcs2とcs3とから計算できる。cs1は「<統計量>は<比較表現>」「<統計量>の<比較表現>」という言語パターンが本文中に出現する数である。cs2は文書のタイトルに出現する比較表現の数である。cs3は本文中に出現する比較表現の数である。比較スコアCSは、cs1とcs2とcs3との重み付き線形和
  CS=W51・cs1+W52・cs2+W53・cs3
として計算できる。ここで、重みW51、重みW52、重みW53、は実験に基づき任意に定めた値であるが、W51>W52>W53であることが好ましい。
 単位表現スコアUSは、検索結果文書に利用者が入力した統計量に関する単位表現があるか否かを数値化したスコアである。単位スコアUSは、us1とus2とus3とから計算できる。us1は「<統計量>は<数値><単位>」「<統計量>が<数値><単位>」という言語パターンが本文中に出現する数である。us2は文書のタイトルに出現する単位表現の数である。us3は本文中に出現する単位表現の数である。単位スコアUSは、us1とus2とus3の重み付き線形和
  CS=W61・us1+W62・us2+W63・us3
として計算できる。ここで、重みW61、重みW62、重みW63、は実験に基づき任意に定めた値であるが、W61>W62>W63であることが好ましい。
 動向情報判別部23は、統合スコアSを用いて判別を行う。統合スコアSは、トピックスコアTS、統計量スコアSS、年度スコアYS、動向表現スコアMS、比較表現スコアCS、単位表現スコアUS、を用いて算出される。統合スコアSは、その文書が検索条件に適合する統計量の動向情報が含まれる程度を評価した数値である。統合スコアS具体的には、各スコアの重み付線形和
  S=W1・TS+W2・SS+W3・YS+W4・MS+W5・CS+W6・US
として計算できる。動向情報判別部23は、統合スコアSがあらかじめ定めた閾値θを超えた場合に、その文書に動向情報が含まれていると判別する。ここで、重みW1~W6は、実験に基づき任意に定めた数値である。
 動向情報判別部23は、動向情報が含まれていると判別した文書を、動向情報記憶部11に格納する。また、文書中の各段落に出現する動向表現要素の数を計数し、最も動向表現要素の出現回数が多かった段落を動向情報記憶部11における動向情報リストに格納する。
 なお、ここまで理解を容易にするために、トピックスコアTS、統計量スコアSS、年度スコアYS、動向表現スコアMS、比較表現スコアCS、単位表現スコアUS、の計算を、それぞれの表現の言語パターンへの一致数、タイトルでの出現頻度および本文での出現頻度の重み付線形和として計算する方法について述べた。しかし、各スコアを計算する方法はこれに限られない。また、検索結果の文章が、利用者が目的とする動向情報を含んでいるか否かの判別方法は、上記の例に限られない。判別方法は、例えば、パターン認識の手法を用いた方法でも良い。この場合は、例えば、それぞれの表現の言語パターンへの一致数、タイトルでの出現頻度、本文での出現頻度、を特徴ベクトルとして、周知の動向情報を含む文章を用いて教師有り学習を行った識別器を用いて判別を行う。このとき、使用する識別器の例として、サポートベクターマシンやニューラルネットワークが挙げられる。
 動向情報記憶部11には、動向情報検索部22によって検索され、動向情報判別部23によって動向情報であると判別された動向情報が、元になる文書情報と対応付けられて格納される。動向情報記憶部11に格納されるデータの例を図4に示す。図4の例では、トピック語「N社」の統計量名「売上高」について、年度「2001年」の動向情報が文書ID=D01に記述されている。文書ID=D01の文書が動向情報である根拠は、「N社は、2001年9月中間期決算を発表、売上高は前年同期比0.4%減の2兆4680億円」という記述であることが分かる。なお、ここで文書IDとは、個別の文書を区別するための識別情報(ID:IDentifier)であり、URL(Uniform Resource Locator)やファイルパスのような、文書本体の所在を示すアドレスを使ってもよい。
 なお、図4では、動向情報記憶部11に格納されるデータの例として、トピック語、統計量名、年度(期間表現)、文書ID、動向情報リストとしているが、他にも、文書IDで示される文書本体の内容や、文書の作成日、更新日、作成者等の情報を格納してもよく、本実施の形態に述べた内容に限定されない。
 出力部4は、利用者に検索結果として動向情報記憶部11に記憶された動向情報リスト(図4)を表示する。
 以上で、検索装置100の機能の説明は終了する。次に、検索装置100で行われる処理が、フローチャートを参照して説明される。
 検索装置100において、拡張クエリを生成し、検索し、取得した文書を判別する、処理(動向情報検索処理1)の一例を、図5を参照して説明する。
 図2又は図3の検索条件入力画面(C1、C2)を用いて、利用者が入力部3から検索条件を入力し、検索ボタンを押すと、動向情報検索処理1が開始される。
 まず、拡張クエリ生成部21がS11で入力された検索条件を拡張して、クエリを生成する(S11)。検索条件の拡張とは、同義要素による拡張、動向要素による拡張、比較要素による拡張、単位要素による拡張、から選択された一つ又は複数の拡張処理である。生成されたクエリは、動向情報検索部22に渡される。
 例えば、S11の処理を、図2の検索条件入力画面C1でトピック語「N社」、統計量名「売上高」、年度表現「2001」、が入力された場合を例にとって具体的に説明する。同義語による拡張、動向表現による拡張、比較表現による拡張、単位表現による拡張、のすべてを行った場合を例に説明する。このとき、クエリは「(N社 OR NXXX) AND (売上高 OR 収入) AND (2001年 OR 平成13年) AND (増加 OR 拡大 OR 成長 OR 減少 OR 落ち込み OR 縮小) AND (推移 OR 前年比 OR 前年同期比 OR 前年同月比) AND (兆円 OR 10億円 OR 100万円))」となる。なお、クエリの拡張処理の組合せは、予め定められた任意の組合せでも良いし、利用者が設定した組み合わせでも良い。
 動向情報検索部22は、拡張クエリ生成部21から渡された拡張クエリを用いて外部データ5を検索し、検索結果の文書群を動向情報判別部23に渡す(S12)。
 次に、動向情報判別部23は、動向情報検索部22から渡された検索結果文書群の各文書について、利用者の指定した検索条件に一致する統計量の動向情報が記載されているか否かを判別する(S13)。当該判別は、トピックスコアTS、統計量スコアSS、年度スコアYS、動向表現スコアMS、比較表現スコアCS、単位表現スコアUS、のいずれかまたはそれらの組合せに基づいて行われる。なお、使用されるスコアは、予め定められたスコアであってもよいし、利用者が選択したスコアでも良い。そして、動向情報判別部23は、判別結果に基づいて図4に示したデータを作成し、当該データを動向情報記憶部11に記憶する。
 最後に、データ処理装置2は、動向情報記憶部11に記憶された動向情報リストを検索結果として出力部4に表示し(S14)、処理を終了する。
 以上説明したように、実施形態1に係る検索装置100は、利用者が入力したトピック語、統計量名、期間表現、を元に、動向情報要素を用いて拡張クエリを生成し、外部データから適合する動向情報が含まれる文書を検索する。また、トピック語、統計量名、年度(期間表現)、動向表現、比較表現、単位表現、などの動向情報要素の出現態様に基づいて、その文章に利用者が入力した検索条件に適合する動向情報を含むまれるか否かを判別する。このように、検索装置100はシステムが保有していない統計量であっても、利用者が興味のあるトピックに関する統計量の動向情報を、Webなどの外部コーパスから自動的に取得することができる。その理由は、利用者が入力したトピック語および統計量名を元に動向情報要素を用いて拡張されたクエリを生成し、外部データから適合する動向情報が含まれる文書を検索し、検索された文書中での動向情報要素の出現様態に基づいて利用者が入力した検索条件に適合する動向情報を含む程度を評価するからである。
 (実施形態2)
 次に本発明の実施形態2について説明する。実施形態2に係る検索装置200は、実施形態1と比べて、統計量の動向の原因を説明する「原因文」を抽出して記憶する機能を持つ点を特徴とする。
 実施形態2に係る検索装置200の構成例を、図6を参照して説明する。検索装置200は、実施形態1の検索装置100の構成に加えて、原因文記憶部12と、原因文候補抽出部24と、原因文判別部25と、を備える。
 原因文記憶部12には、原因文候補抽出部24によって動向情報記憶部11から抽出され、原因文判別部25によって動向情報の原因を説明する文であると判別された原因文が格納される。図7は、原因文記憶部に格納されるデータの例を示す。図7を見ると、トピック語「N社」の統計量名「売上高」について、2001年度に「減少」である文書D01の原因文は、「パソコンを中心としたパーソナルプロダクツは25.8%減になった影響で...」という記述であることが分かる。
 なお、図7では、トピック語、統計量名、期間表現、動向表現、文書IDおよび原因文リストの組を、原因文記憶部12に格納されるデータの例としている。それら以外に、文書IDで示される文書本体の内容や、文書の作成日、更新日、作成者等の情報を格納してもよく、本実施の形態に述べた内容に限定されない。
 原因文候補抽出部24は、動向情報記憶部11に記憶された文書群の各文書から、「影響」「原因」「~のため」「~に伴い」など、原因を表す言語パターンを含む文を抽出する。原因文候補抽出部24は、抽出した文を、利用者が指定した動向情報の原因を説明する原因文の候補として原因文判別部25に渡す。
 原因文判別部25は、原因文候補抽出部24から渡された原因文候補のそれぞれについて、原因文であるか判別する。判別は、以下の数値を用いて行われる。その数値とは、当該文における利用者が入力したトピック語またはその関連語の出現頻度FTと、当該文における統計量表現の出現頻度FSと、当該文における年度表現の出現頻度FYと、当該文における動向表現の出現頻度FMと、当該文における比較表現の出現頻度FCと、当該文における単位表現の出現頻度FUと、である。原因文判別部25は、以上の数値の、いずれか一つまたは複数の組合せに基づいて、原因文候補の文が利用者が指定した動向情報の原因を説明する原因文か否かを判別する。なお、年度表現の出現頻度FYは、一般的には期間表現の出現頻度に置き換えられうる。
 原因文判別部25は、利用者の指定した検索条件と文書ID、および、原因文と判別された文のリストを原因文記憶部12に格納する。
 上記判別は、統合スコアFによって行われる。統合スコアFは、原因文候補が原因文である程度を評価したスコアである。統合スコアFは、例えば、各スコアの重み付線形和
  F=V1・FT+V2・FS+V3・FY+V4・FM+V5・FC+V6・FU
から計算される。統合スコアFが所定の閾値ωを超えた場合に、原因文判別部25はその候補文が原因文であると判別する。ここで、重みV1~V6及び閾値ωは、経験的に求められた所定の値である。なお、使用されるスコアの組み合わせは、予め定められた任意の組み合わせでも良いし、利用者が設定した組み合わせでも良い。
 なお、理解を容易にするために、統合スコアFを、FTとFSとFYとFMとFCとFUとの重み付線形和として計算する方法について述べた。しかし、統合スコアFを求める方法はこれに限られない。また、原因文候補の文が原因文か否かを判別する方法は、上記の例に限られない。当該判別方法は、例えば、パターン認識の手法を用いて行っても良い。この場合は、例えば、それぞれの表現の言語パターンへの一致数、タイトルでの出現頻度、本文での出現頻度、を特徴ベクトルとして、周知の動向情報を含む文章を用いて教師有り学習を行った識別器を用いて判別を行う。このとき、使用する識別器の例として、サポートベクターマシンやニューラルネットワークが挙げられる。
 出力部4は、動向情報記憶部11に記憶された動向情報リストと、原因文記憶部12に記憶された原因文リストと、を統合し、検索結果として表示する。図8は、検索結果を表示する画面の例を示す。図8の例の検索結果画面C3は、動向情報と原因文を含むと判別された文書がリスト表示している。また、文書IDの部分はリンクになっており、クリックすることで、文書本体へアクセスすることができる。
 次に、検索装置200において、拡張クエリを生成し、動向情報を検索し、原因文を判別する、処理(動向情報検索処理2)の一例を、図9を参照して説明する。
 動向情報検索処理2は、図5に示される実施形態1の動向情報検索処理1と比較して、原因文候補抽出処理(S24)と、原因文判別処理(S25)とを含む点で異なる。動向情報検索処理2において、S21~S23の処理は、図5に示す動向情報検索処理1のS11~S13の処理と同様である。
 動向情報判別部23によって動向情報記憶部11に動向情報が記憶されると、原因文候補抽出部24は、動向情報記憶部11に記憶された文書群の各文書から、原因文の候補を抽出する。抽出される文書は、「影響」「原因」「理由」「~のため」「~に伴い」など、原因を表す言語パターンを含む文である。原因文候補抽出部24は、抽出した原因文候補を原因文判別部25に渡す(S24)。
 次に、原因文判別部25は、原因文候補抽出部24が抽出した原因文候補の文のそれぞれが、原因文であるか否かを判別する(S25)。判別は、以下の数値を用いて計算された統合スコアFを用いて行われる。その数値とは、文書中における、利用者が入力したトピック語またはその関連語の出現頻度FTと、統計量表現の出現頻度FSと、年度表現の出現頻度FYと、動向表現の出現頻度FMと、比較表現の出現頻度FCと、単位表現の出現頻度FUと、の一又は複数の組み合わせである。なお、使用される数値の組み合わせは、予め定められた任意の組み合わせでも良いし、利用者が設定した組み合わせでも良い。原因文判別部25は、判別結果から図7に示したリストを作成し、当該リストを原因文記憶部12に記憶する。
 最後に、データ処理装置2は、動向情報記憶部11に記憶された動向情報リストと、原因文記憶部12に記憶された原因文リストと、を統合し、検索結果として出力部4に表示し(S27)、処理を終了する。
 以上説明したように、実施形態2の検索装置200は、原因を表す言語パターンを手がかりに動向情報の原因を説明する原因文の候補を抽出し、動向情報要素の出現頻度から原因文か否かの判別を行う。このように、Webなどの外部コーパスから自動的に取得した動向情報に対し、その動向情報を説明する原因文を抽出することができる。
 (実施形態3)
 次に実施形態3について説明する。実施形態3に係る検索装置300は、図5に示すように、実施形態2で説明した構成に加え年度表現拡張部26を備えている点に特徴がある。その他の構成は、実施の形態2と同様である。
 年度表現拡張部26は、利用者が入力した年度の前後Y年の年度それぞれに対応した年度表現のクエリを生成し、各年度それぞれについて、繰り返して動向情報検索処理、動向情報判別処理、原因文候補抽出処理、原因文判別処理、を行うよう下流に指令する。
 次に、検索装置300において行われる処理(動向情報検索処理3)の一例を、図11を参照して説明する。
 図11は、実施形態3に係る動向情報検索の動作の一例を示す流れ図である。本実施の形態3の動作は、図9に示される実施形態2の動作に加えて、年度表現拡張処理(S30)と、拡張した年度全てについて検索処理が終了したかどうか確認する処理(S36)とを含む点で異なる。
 まず、年度表現拡張部26は、利用者が入力した年度の前Y年の年度に検索条件を拡張し、処理対象となる年度に対応する年度表現に係るクエリを生成する(ステップS30)。例えば、利用者が検索条件として入力した年度が2001年で、Y=3である例を用いて具体的に説明する。このとき、検索対象となるのは1998年度から2004年度までの期間である。検索処理は、1998年度から2004年度までの7年について実行される。最初の検索に使用される年度クエリは「1998年度」であり、二度目は「1999年度」である。
 その後、動向表現拡張部21では、年度表現拡張部26が生成した年度クエリを用いて、拡張クエリが生成される(S31)。
 以降、動向情報検索部22と動向情報判別部23と原因文候補抽出部24と原因文判別部25とが、動向情報検索(S32)、動向情報判別(S33)、原因文候補抽出(S34)および原因文判別(S35)を実行する。ステップS32~ステップS35の処理は、図9のステップS22~ステップS25の処理と同様である。
 次に、年度表現拡張部26が、拡張された期間に含まれる全ての年度について処理が行われたかどうかをチェック(ステップS36)する。未処理の年度が残っていれば(ステップS36;NO)、処理対象を次の年度に設定してステップS30に戻って動向表現拡張以下の処理を繰り返す。拡張された期間に含まれる全ての年度について処理が終了していた場合(ステップS36;YES)、処理は終了される。
 実施形態3において原因文記憶部に記憶されるデータの例を図12に示す。図12を見ると、1998年から2004年にかけて、それぞれ異なる原因でN社の売上高が増減していることがわかる。
 なお、ここでは理解を容易にするために動向情報を検索する期間の単位を年で設定することを例にして説明した。しかし、期間の単位は年に限らない。例えば、期間表現は四半期、月、週などの単位でもよいし、期間の初めと終わりの日時を指定する表現でもよい。この場合は、年度表現拡張部26に変わって期間拡張部が、指定された期間を単位として、検索対象となる期間を前後の所定の範囲に拡張する。
 以上説明したように、実施形態3の検索装置300は、利用者が入力した期間の前後の所定の範囲にわたって繰り返し拡張クエリを生成して検索を行い、動向情報及び原因文を抽出する。そのため、利用者は、利用者の興味がある期間の前後における、統計量の動向およびの当該動向の原因の変遷を把握することができる。
 (実施形態4)
 次に本発明の実施形態4について説明する。まず、実施形態4に係る検索装置400の構成例を、図13を参照して説明する。検索装置400の構成は、図10に示された検索装置300の構成と比較すると、評判情報抽出部27と評判情報記憶部13とを備える点で異なる。その他の構成は、実施の形態3と同様である。
 評判情報抽出部27は、原因文が抽出された文書の発信者情報を抽出し、文書内の評判がポジティブなのかネガティブなのかを判別する。評判判別部は、判別結果を評判情報記憶部13に記憶する。
 このとき、発信者情報は、Webサイトのドメイン名、文書のメタ情報、ニュース記事に記載されている署名、等である。
 また、評判情報の判別方法の例として、保持しておいた、ポジティブ表現辞書と、ネガティブ表現辞書と、を利用する方法がある。ポジティブ表現辞書は「素晴らしい」「好調」「良い」などのポジティブ表現を記憶する。ネガティブ表現辞書は「低迷」「悪化」「鈍い」などのネガティブ表現を記憶する。この例では、文書中におけるポジティブ表現の出現頻度FPとネガティブ表現の出現頻度FNの比FP/FNが1以上であれば、ポジティブな評判、1未満であればネガティブな評判と判別される。
 評判情報記憶部13は、原因文記憶部12に格納されている文書に関する追加の情報として、年度、文書ID、発信者ID、評判、の情報を格納する。図14は、評判情報記憶部に格納されるデータの例を示す。図14の例では、発信者P01は、年度によってポジティブとネガティブな評判の文書を発信しているが、発信者P02は年度によらず常にネガティブな文書を発信しており、発信者P03は年度によらず常にポジティブな文書を発信していることが分かる。
 次に、検索装置400において行われる処理(動向情報検索処理4)の一例を、図15を参照して説明する。実施形態4の動向情報検索の動作は、図11に示された動向情報検索処理3と比較して、評判情報抽出処理(S46)を含む点で異なる。
 利用者が検索実行ボタンを押すと、動向情報検索処理4が実行される。動向情報検索処理4において、図15の年度表現拡張処理(S40)から、原因文判別(S45)までの処理内容は、図11のS30~S35の動作と同じである。
 原因文判別部25が判別した原因文が原因文記憶部12に記憶されると(S45)、評判情報抽出部27は、原因文が抽出された文書について、発信者情報を抽出する。次に、評判情報抽出部27は、この文書内の評判がポジティブなのかネガティブなのかを判別する。そして、評判情報抽出部27は、判別結果を評判情報記憶部13に記憶する(S46)。
 拡大された期間に含まれる全ての年度について処理が終わっていなければ(ステップS47;NO)、ステップS40に戻って処理対象を次の年度に設定して、動向表現拡張以下の処理を繰り返す。拡大された期間に含まれる全ての年度について処理が終了していれば(ステップS47;YES)、処理を終了する。
 以上説明したように、実施形態4に係る検索装置400は、原因文が抽出された文書について、発信者情報を抽出するとともに、文書内の評判がポジティブなのかネガティブなのかを判別する。これにより、利用者は、ある発信者が年度ごとにどのような評判の文書を発信しているか、その推移を把握することができる。
 図16に本発明の実施の形態に係る検索装置(検索装置100及び検索装置200及び検索装置300及び検索装置400)のハードウェア構成の例を示す。検索装置(検索装置100及び検索装置200及び検索装置300及び検索装置400)は、図16に示すように、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35、送受信部36、を備える。主記憶部32、外部記憶部33、操作部34、表示部35、送受信部36、はいずれも内部バス38を介して制御部31に接続されている。
 制御部31はCPU(Central Processing Unit)等から構成される。制御部31は外部記憶部33に記憶されている動向情報検索用プログラム37に従って、処理を実行する。
 主記憶部32はRAM(Random-Access Memory)等から構成される。主記憶部32は外部記憶部33に記憶されている動向情報検索用プログラム37をロードし、制御部31の作業領域として用いられる。
 外部記憶部33は、フラッシュメモリ、ハードディスク、DVD-RAM(Digital Versatile Disc Random-Access Memory)、DVD-RW(Digital Versatile Disc ReWritable)等から構成される。外部記憶部33は、動向情報検索用プログラム37を予め記憶する。また、外部記憶部33は、制御部31の指示に従って、記憶したデータを制御部31に供給し、制御部31から供給されたデータを記憶する。
 動向情報記憶部11、原因文記憶部12および評判情報記憶部13は、外部記憶部33内に確保された記憶領域で構成される。また、動向情報記憶部11、原因文記憶部12および評判情報記憶部13の一部または全部は、一時的に主記憶部32の記憶領域の一部で構成されうる。
 操作部34はキーボードおよびマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス38に接続するインタフェース装置から構成される。操作部34を用いて、利用者は動向情報のキーワードの入力等を行う。
 表示部35は、CRT(Cathode Ray Tube)またはLCD(Liquid Crystal Display)などから構成される。表示部35は、検索キーワードを入力する画面または検索結果を表示する。表示部35はまた、プリンタおよびそのインタフェース装置から構成される場合がある。
 送受信部36は、通信装置、およびそれらと接続するシリアルインタフェースまたはLAN(Local Area Network)インタフェースから構成される。送受信部36は、ネットワーク(図示せず)を介して、インターネット上の検索エンジンや、イントラネット内の文書データベースなどにクエリを送信し、検索結果の文書データを受信する。
 拡張クエリ生成部21、動向情報検索部22、動向情報判別部23、原因文候補抽出部24、原因文判別部25、年度表現拡張部26および評判情報抽出部27の機能は、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35および送受信部36などを用いて動向情報検索用プログラム37を実行することによって実現される。
 上記のハードウェア構成やフローチャートは一例である。ハードウェア構成や実行処理は発明の特徴を変更しない範囲で任意に変更および修正が可能である。
 例えば、制御部31、主記憶部32、外部記憶部33、送受信部36などから構成される検索装置のための処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD-ROM、DVD-ROM等)に記憶して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する検索装置を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置1に当該コンピュータプログラムを記憶しておき、通常のコンピュータシステムがダウンロード等することで検索装置を構成してもよい。
 また、検索装置の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置1に記憶してもよい。
 また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS:Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
 なお、本発明は、本発明の広義の趣旨及び範囲を逸脱することなく、様々な実施形態及び変形が可能とされるものである。また、上述した実施形態は、本発明を説明するためのものであり、本発明の範囲を限定するものではない。つまり、本発明の範囲は、実施形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、本発明の範囲内とみなされる。
 本発明は2010年1月19日に出願された日本国特許出願2010-009085号に基づく。本明細書中に日本国特許出願2010-009085号の明細書、特許請求の範囲、図面全体を参照として取り込むものとする。
 本発明の検索装置は、企業の業績や株価の推移、または、マクロ経済指標の推移の原因を分析する際の判断材料を収集するために利用できる。
  1 記憶装置
  2 データ処理装置
  3 入力部
  4 出力部
 11 動向情報記憶部
 12 原因文記憶部
 13 評判情報記憶部
 21 拡張クエリ生成部
 22 動向情報検索部
 23 動向情報判別部
 24 原因文候補抽出部
 25 原因文判別部
 26 年度表現拡張部
 27 評判情報抽出部
 31 制御部
 32 主記憶部
 33 外部記憶部
 34 操作部
 35 表示部
 36 送受信部
 37 動向情報検索用プログラム
 38 内部バス
 100 検索装置
 200 検索装置
 300 検索装置
 400 検索装置

Claims (10)

  1.  統計量の動向情報を検索する動向情報検索装置であって、
     入力された検索条件に、動向情報を含む文書に特徴的に現れる文字列である動向情報要素を検索条件として付加して、拡張されたクエリを生成する拡張クエリ生成手段と、
     前記拡張クエリ生成手段で生成されたクエリを用いて外部データを検索するための検索手段と、
     前記検索手段によって検索された文書に、前記入力した条件に適合する統計量の動向情報が含まれる程度を、当該文書における前記動向情報要素の出現様態に基づいて評価する動向情報評価手段と、
     を備えることを特徴とする動向情報検索装置。
  2.  前記動向情報要素は、トピック語、統計量名、期間表現、動向表現、比較表現、もしくは単位表現、またはそれらの組合せのうちの少なくとも1つを含み、
     前記拡張クエリ生成手段は、前記動向情報要素の同義語を用いて前記クエリを生成する、
     ことを特徴とする請求項1に記載の動向情報検索装置。
  3.  前記動向情報要素は、トピック語、統計量名、期間表現、動向表現、比較表現、もしくは単位表現、またはそれらの組合せのうちの少なくとも1つを含み、
     前記動向情報評価手段は、前記動向情報要素の同義語の出現様態に基づいて、前記入力した条件に適合する統計量の動向情報が含まれる程度を評価する、
     ことを特徴とする請求項1または2に記載の動向情報検索装置。
  4.  前記動向情報評価手段は、前記動向情報要素及びその同義語と、所定の言語パターンと、が前記文書に現れる頻度から算出されるスコアによって前記入力した条件に適合する統計量の動向情報が含まれる程度を評価する、
     ことを特徴とする請求項3に記載の動向情報検索装置。
  5.  前記検索手段によって検索された文書から、原因を表す言語パターンを含む一又は複数の文を抽出し、前記入力した条件に適合する統計量の動向の原因を説明する原因文の候補とする原因文候補抽出手段と、
     前記原因文の候補が、前記統計量の動向の原因を説明する原因文である程度を、前記動向情報要素の出現頻度に基づいて評価する原因文評価手段と、
     をさらに備えることを特徴とする請求項1ないし4のいずれか1項に記載の動向情報検索装置。
  6.  前記動向情報要素は、トピック語、統計量名、期間表現、動向表現、比較表現、もしくは単位表現、またはそれらの組合せのうちの少なくとも1つを含む、
     ことを特徴とする請求項5に記載の動向情報検索装置。
  7.  前記原因文候補抽出手段によって前記原因文の候補が抽出された文書について、その文書の発信者情報を抽出し、前記文書内の評判がポジティブかネガティブかを評価する評判情報抽出手段を、
     さらに備えることを特徴とする請求項5または6に記載の動向情報検索装置。
  8.  前記入力された条件の期間を含む前後の期間に拡張したクエリを生成する期間表現拡張手段を、
     さらに備えることを特徴とる請求項1ないし7のいずれか1項に記載の動向情報検索装置。
  9.  統計量の動向情報を含む文書を検索する動向情報検索方法であって、
     入力された検索条件に、動向情報を表す文章に特徴的に現れる文字列である動向情報要素を付加し、拡張されたクエリを生成する拡張クエリ生成ステップと、
     前記拡張クエリ生成ステップで生成されたクエリを用いて外部データを検索するための検索ステップと、
     前記検索ステップで検索された文書に、前記入力した条件に適合する統計量の動向情報が含まれる程度を、当該文書における前記動向情報要素の出現様態に基づいて評価する動向情報評価ステップと、
     を備えることを特徴とする動向情報検索方法。
  10.  コンピュータに、
     入力された条件に、動向情報を表す文章に特徴的に現れる文字列である動向情報要素を付加することによって拡張したクエリを生成する拡張クエリ生成ステップ、
     前記拡張クエリ生成ステップで生成されたクエリを用いて外部データを検索するための検索ステップ、
     前記検索ステップで検索された文書に、前記入力した条件に適合する統計量の動向情報が含まれる程度を、当該文書における前記動向情報要素の出現様態に基づいて評価する動向情報評価ステップ、
     を実行させることを特徴とする動向情報検索用プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2011/050783 2010-01-19 2011-01-18 動向情報検索装置、動向情報検索方法および記録媒体 WO2011090036A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/574,148 US20120284305A1 (en) 2010-01-19 2011-01-18 Trend information search device, trend information search method and recording medium
JP2011550913A JP5786718B2 (ja) 2010-01-19 2011-01-18 動向情報検索装置、動向情報検索方法およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010009085 2010-01-19
JP2010-009085 2010-01-19

Publications (1)

Publication Number Publication Date
WO2011090036A1 true WO2011090036A1 (ja) 2011-07-28

Family

ID=44306838

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/050783 WO2011090036A1 (ja) 2010-01-19 2011-01-18 動向情報検索装置、動向情報検索方法および記録媒体

Country Status (3)

Country Link
US (1) US20120284305A1 (ja)
JP (1) JP5786718B2 (ja)
WO (1) WO2011090036A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331493A (zh) * 2014-11-17 2015-02-04 百度在线网络技术(北京)有限公司 通过计算机实现的用于生成趋势解释数据的方法及装置
JP6155409B1 (ja) * 2017-01-23 2017-06-28 株式会社xenodata lab. 決算分析システムおよび決算分析プログラム
JP2018120567A (ja) * 2017-01-23 2018-08-02 株式会社xenodata lab. 決算分析システムおよび決算分析プログラム
JP2020129232A (ja) * 2019-02-07 2020-08-27 株式会社日本総合研究所 機械学習装置、プログラム及び機械学習方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10922363B1 (en) * 2010-04-21 2021-02-16 Richard Paiz Codex search patterns
US11048765B1 (en) 2008-06-25 2021-06-29 Richard Paiz Search engine optimizer
US11809506B1 (en) 2013-02-26 2023-11-07 Richard Paiz Multivariant analyzing replicating intelligent ambience evolving system
US11741090B1 (en) 2013-02-26 2023-08-29 Richard Paiz Site rank codex search patterns
US20140280017A1 (en) * 2013-03-12 2014-09-18 Microsoft Corporation Aggregations for trending topic summarization
US9244952B2 (en) 2013-03-17 2016-01-26 Alation, Inc. Editable and searchable markup pages automatically populated through user query monitoring
KR102425770B1 (ko) * 2020-04-13 2022-07-28 네이버 주식회사 급상승 검색어 제공 방법 및 시스템
CN113642974A (zh) * 2020-05-10 2021-11-12 张孟强 基于求职招聘双方需求的循环双向竞价匹配方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002329056A (ja) * 2001-04-27 2002-11-15 Mitsubishi Electric Corp 情報処理装置及び情報処理方法
JP2004192374A (ja) * 2002-12-12 2004-07-08 Ricoh Co Ltd 文書検索装置、プログラムおよび記録媒体
JP2006146802A (ja) * 2004-11-24 2006-06-08 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニング方法
JP2008541233A (ja) * 2005-05-04 2008-11-20 グーグル・インコーポレーテッド オリジナルのユーザ入力に基づくユーザ入力の提案および絞込み

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US6581056B1 (en) * 1996-06-27 2003-06-17 Xerox Corporation Information retrieval system providing secondary content analysis on collections of information objects
US6038560A (en) * 1997-05-21 2000-03-14 Oracle Corporation Concept knowledge base search and retrieval system
US6201884B1 (en) * 1999-02-16 2001-03-13 Schlumberger Technology Corporation Apparatus and method for trend analysis in graphical information involving spatial data
US7194483B1 (en) * 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US7069263B1 (en) * 2002-02-19 2006-06-27 Oracle International Corporation Automatic trend analysis data capture
US8375286B2 (en) * 2002-09-19 2013-02-12 Ancestry.com Operations, Inc. Systems and methods for displaying statistical information on a web page
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US8375048B1 (en) * 2004-01-20 2013-02-12 Microsoft Corporation Query augmentation
US7958115B2 (en) * 2004-07-29 2011-06-07 Yahoo! Inc. Search systems and methods using in-line contextual queries
US20060047636A1 (en) * 2004-08-26 2006-03-02 Mohania Mukesh K Method and system for context-oriented association of unstructured content with the result of a structured database query
US8135694B2 (en) * 2006-03-13 2012-03-13 Adobe Systems Incorporated Augmenting the contents of an electronic document with data retrieved from a search
US7877381B2 (en) * 2006-03-24 2011-01-25 International Business Machines Corporation Progressive refinement of a federated query plan during query execution
US7475063B2 (en) * 2006-04-19 2009-01-06 Google Inc. Augmenting queries with synonyms selected using language statistics
US8126874B2 (en) * 2006-05-09 2012-02-28 Google Inc. Systems and methods for generating statistics from search engine query logs
US7860886B2 (en) * 2006-09-29 2010-12-28 A9.Com, Inc. Strategy for providing query results based on analysis of user intent
KR100837751B1 (ko) * 2006-12-12 2008-06-13 엔에이치엔(주) 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템
US8166026B1 (en) * 2006-12-26 2012-04-24 uAffect.org LLC User-centric, user-weighted method and apparatus for improving relevance and analysis of information sharing and searching
US10394771B2 (en) * 2007-02-28 2019-08-27 International Business Machines Corporation Use of search templates to identify slow information server search patterns
JP4810469B2 (ja) * 2007-03-02 2011-11-09 株式会社東芝 検索支援装置、プログラム及び検索支援システム
JP5168961B2 (ja) * 2007-03-19 2013-03-27 富士通株式会社 最新評判情報通知プログラム、記録媒体、装置及び方法
JP4359787B2 (ja) * 2007-07-02 2009-11-04 ソニー株式会社 情報処理装置、コンテンツの評判検索方法およびコンテンツの評判検索システム
CN101339551B (zh) * 2007-07-05 2013-01-30 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
JP5309543B2 (ja) * 2007-12-06 2013-10-09 日本電気株式会社 情報検索サーバ、情報検索方法及びプログラム
US20110246889A1 (en) * 2008-12-10 2011-10-06 Herman Moore Statistical and visual sports analysis system
US8756229B2 (en) * 2009-06-26 2014-06-17 Quantifind, Inc. System and methods for units-based numeric information retrieval

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002329056A (ja) * 2001-04-27 2002-11-15 Mitsubishi Electric Corp 情報処理装置及び情報処理方法
JP2004192374A (ja) * 2002-12-12 2004-07-08 Ricoh Co Ltd 文書検索装置、プログラムおよび記録媒体
JP2006146802A (ja) * 2004-11-24 2006-06-08 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニング方法
JP2008541233A (ja) * 2005-05-04 2008-11-20 グーグル・インコーポレーテッド オリジナルのユーザ入力に基づくユーザ入力の提案および絞込み

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YASUHIRO UENISHI ET AL.: "Sotai Hyogen ni Motozuita Doko Joho Chushutsu System no Kochiku", PROCEEDINGS OF THE 15TH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, 2 March 2009 (2009-03-02), pages 160 - 163 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331493A (zh) * 2014-11-17 2015-02-04 百度在线网络技术(北京)有限公司 通过计算机实现的用于生成趋势解释数据的方法及装置
CN104331493B (zh) * 2014-11-17 2017-07-07 百度在线网络技术(北京)有限公司 通过计算机实现的用于生成趋势解释数据的方法及装置
JP6155409B1 (ja) * 2017-01-23 2017-06-28 株式会社xenodata lab. 決算分析システムおよび決算分析プログラム
JP2018120284A (ja) * 2017-01-23 2018-08-02 株式会社xenodata lab. 決算分析システムおよび決算分析プログラム
JP2018120567A (ja) * 2017-01-23 2018-08-02 株式会社xenodata lab. 決算分析システムおよび決算分析プログラム
JP2020129232A (ja) * 2019-02-07 2020-08-27 株式会社日本総合研究所 機械学習装置、プログラム及び機械学習方法
JP7280705B2 (ja) 2019-02-07 2023-05-24 株式会社日本総合研究所 機械学習装置、プログラム及び機械学習方法

Also Published As

Publication number Publication date
US20120284305A1 (en) 2012-11-08
JPWO2011090036A1 (ja) 2013-05-23
JP5786718B2 (ja) 2015-09-30

Similar Documents

Publication Publication Date Title
JP5786718B2 (ja) 動向情報検索装置、動向情報検索方法およびプログラム
CN107111614B (zh) 使用统计流数据进行不同语言之间的机器翻译
US8849789B2 (en) System and method for searching for documents
US8082247B2 (en) Best-bet recommendations
US11195050B2 (en) Machine learning to generate and evaluate visualizations
EP2289007B1 (en) Search results ranking using editing distance and document information
US8117177B2 (en) Apparatus and method for searching information based on character strings in documents
EP1522933B1 (en) Computer aided query to task mapping
CN108460082B (zh) 一种推荐方法及装置,电子设备
US20130066887A1 (en) Determining relevant information for domains of interest
US20070198459A1 (en) System and method for online information analysis
US20110213761A1 (en) Searchable web site discovery and recommendation
US20060288038A1 (en) Generation of a blended classification model
JP5329540B2 (ja) ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム
CN102722498A (zh) 搜索引擎及其实现方法
JP4896132B2 (ja) 情報価値を反映した情報検索方法及びその装置
CN102737021A (zh) 搜索引擎及其实现方法
TWI461942B (zh) An ad management apparatus, an advertisement selecting apparatus, an advertisement management method, an advertisement management program, and a recording medium on which an advertisement management program is recorded
US20100169316A1 (en) Search query concept based recommendations
US9552415B2 (en) Category classification processing device and method
KR102107474B1 (ko) 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법
JP5048852B2 (ja) 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP2006268690A (ja) Faq提示・改善方法、faq提示・改善装置およびfaq提示・改善プログラム
JP2010146366A (ja) 情報提供サーバ
WO2021250950A1 (ja) 文書検索の性能を評価する方法、システム、および装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11734642

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011550913

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13574148

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 11734642

Country of ref document: EP

Kind code of ref document: A1