WO2012137782A1 - 嗜好可視化システム及び検閲システム - Google Patents

嗜好可視化システム及び検閲システム Download PDF

Info

Publication number
WO2012137782A1
WO2012137782A1 PCT/JP2012/059093 JP2012059093W WO2012137782A1 WO 2012137782 A1 WO2012137782 A1 WO 2012137782A1 JP 2012059093 W JP2012059093 W JP 2012059093W WO 2012137782 A1 WO2012137782 A1 WO 2012137782A1
Authority
WO
WIPO (PCT)
Prior art keywords
text data
data
generated
predetermined
censorship
Prior art date
Application number
PCT/JP2012/059093
Other languages
English (en)
French (fr)
Inventor
富士本 淳
野中 誠之
勝倉 裕
Original Assignee
株式会社ユニバーサルエンターテインメント
株式会社ピートゥピーエー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ユニバーサルエンターテインメント, 株式会社ピートゥピーエー filed Critical 株式会社ユニバーサルエンターテインメント
Priority to CN201280016719.3A priority Critical patent/CN103635898B/zh
Priority to US14/006,217 priority patent/US10055487B2/en
Publication of WO2012137782A1 publication Critical patent/WO2012137782A1/ja
Priority to US16/028,478 priority patent/US20190012376A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Definitions

  • This relates to a system for monitoring text acquired via a network.
  • the conventional censorship system is effective for information that clearly appears to be inappropriate words, but is completely powerless for information that is suppressed or transformed and released in the censorship field.
  • the censorship field is a space composed of a collection of texts to be censored provided by the user, for example.
  • the core system is an artificial intelligence system that answers questions from users
  • the preference information that exists in the censorship field is left untouched and the censorship function in the censorship field remains lacking. It only answered questions from users.
  • the present invention has been made in view of the above points, and the object of the present invention is also to information that is suppressed or deformed and released in a censorship field, such as preference information.
  • An object of the present invention is to provide an information processing system that can appropriately cope with the information, a visualization system for the information necessary to realize the information processing system, and a visualization function for the information.
  • the information processing system is The personally generated data generated by an individual is decomposed into a plurality of pieces of decomposed data that can be semantically identified, and data that satisfies a predetermined related condition and a predetermined characteristic condition for the target that each of the decomposed data indicates is extracted,
  • a censorship field generating means for generating a collection of the extracted first extracted data as a censorship field;
  • Visualization means for extracting data satisfying a specific condition indicating a predetermined specificity with respect to the object from the collection of the first extracted data, and detecting and visualizing the predetermined specificity from the extracted second extracted data; Have.
  • FIG. 1A is a block diagram showing an outline of a basic system using a visualization system and a censorship system according to this embodiment.
  • the customer (individual) of the core system inputs various text data through an input box on the Web screen, e-mail, blog, bulletin board or Twitter. This is an individual utterance. These text data are acquired by the core system. In general, an individual utterance is stored as text data in a server of a core system in a state where it can be read via a network.
  • the core system is a system that mainly provides services such as EC site, SNS, search site, artificial intelligence site and so on.
  • the backbone system provides an individual service (basic service) to the customer of the backbone system according to the backbone system.
  • the EC site is a site that mainly sells its own products and services using a network.
  • SNS is a service that forms a social network using various networks so that people can communicate with each other.
  • the search site is a site that mainly provides a service for searching for a target WEB in order to acquire various types of information.
  • Artificial intelligence is a site configured to provide a service that allows automatic conversations over a network.
  • the core system has a database that stores personal information about customers of the core system.
  • the personal information is information about the customer necessary for the service provided by the core system, such as the customer's real name and address.
  • the core system supplies utterances acquired from customers to the censorship system.
  • the censorship system has a database for performing various censorship controls.
  • the censorship system generates a censorship field, refers to a database for censorship control, and provides censorship control (individual service) suitable for the core system.
  • a customer who is determined to be interested in a new product is provided with various information related to the new product.
  • customers who are mentally and psychologically burdened will be provided with information, music, and videos that will make them feel at ease.
  • various services can be stopped, such as blocking the network connection.
  • the censorship system supplies the visualization system with information for censorship regarding utterances acquired from customers.
  • the visualization system accumulates history information from the supplied information for censorship, generates monitoring information from the history information, and supplies it to the censorship system.
  • the censorship system provides the above-described censorship control (individual service) to the basic system based on the supplied monitoring information.
  • FIG.1 (b) is a block diagram which shows the outline of the visualization system by this Embodiment.
  • the visualization system includes a censor field generation function, a visualization function, and a monitoring function.
  • the censorship field generation function is a function for generating a censorship field from an individual utterance.
  • the visualization function is a function for visualizing the specificity by detecting the specificity of the utterance from the generated censorship field.
  • the monitoring function is a function for mainly monitoring an individual who speaks an utterance in which specificity is detected.
  • FIGS. 2A and 2B are block diagrams showing an outline of the preference visualization system and the censorship system according to the present embodiment.
  • a system comprising a computer that receives a piece of external information including text data composed of a plurality of character strings through an input interface and executes a program for extracting specific information of the content, the computer comprising the computer Execute the following process by executing the program.
  • data including predetermined contents is discarded from text data based on personally generated data generated by an individual.
  • the personally generated data may be data generated by an individual.
  • This text data includes data input to an input box on a Web screen, e-mail, blog, bulletin board, Twitter (registered trademark), or the like.
  • data generated by an individual includes audio data and image data. In the case of audio data, image data, etc., it can be converted into text data by executing recognition processing.
  • Text data based on personally generated data generated by an individual means text data converted from voice data, image data, or the like into text data as described above.
  • the predetermined contents include, for example, personal information.
  • personal information refers to information such as name, address, and telephone number that can immediately identify an individual.
  • an account, a handle name, etc. are not included in the personal information because the individual cannot be identified immediately by that information alone.
  • the text data obtained by discarding the predetermined content is decomposed into disassembled text data that can be identified semantically.
  • the process of decomposing into decomposed text data that can be distinguished from semantics includes morphological analysis. By performing morphological analysis, it can be separated into predetermined parts of speech such as nouns, verbs and adjectives, and can be separated into unit data whose meaning can be identified.
  • the decomposed text data is stored in association with the user ID.
  • the user ID is information that can identify the individual who generated the personally generated data. It should be noted that it is only necessary to be able to identify an individual, and it is not necessary to be information that specifies personal information.
  • This disassembled text data corresponds to “related words”.
  • Text data based on personally generated data generated by an individual is decomposed into decomposed text data that can be semantically identified, and among the decomposed text data, related objects that satisfy a predetermined related condition for a predetermined object indicated by the decomposed text data Extracting relevant text data to be shown; Storing the related text data in association with the predetermined related condition.
  • related text data indicating a related object is extracted from the decomposed text data.
  • the decomposed text data is unit data obtained by dividing the text data so that the meaning can be identified.
  • the related target is a target that satisfies a predetermined related condition for the target indicated by the decomposed text data.
  • the predetermined target indicated by the decomposed text data includes, for example, various topics and contents included in text data such as mail. Specifically, there are certain predetermined foods, cars and sightseeing spots.
  • the related object satisfying the predetermined related condition is an object related to the object indicated by the decomposed text data.
  • the relation satisfies a predetermined relation condition.
  • the related object can include a soy sauce-flavored ramen, a salty ramen, a tonkotsu ramen, or the like.
  • predetermined targets and related conditions may be determined so that information desired by the operator of the censorship system can be extracted.
  • the related target cannot be extracted, and the extraction result may be insufficient.
  • the related condition it is possible to extract not only the predetermined object but also information including the predetermined object and related objects related thereto.
  • the operator of the censorship system defines the related conditions, the desired information can be accurately extracted without being too narrow and not too wide.
  • the process of extracting related text data indicating related objects that satisfy this predetermined related condition corresponds to the “basic filter”.
  • One related condition corresponds to one basic filter.
  • One domain is generated by extracting the related text data from the decomposed text data according to one related condition.
  • One domain includes both decomposed text data indicating a predetermined object and decomposed text data indicating a related object.
  • the related text data is constituted by the decomposed text data indicating the predetermined object and the decomposed text data indicating the related object.
  • Domain means a collection composed of related text data extracted from decomposed text data. By making the relevant conditions different, a single domain corresponding to the relevant condition is generated.
  • the operator of the censorship system can define the relevant conditions. Therefore, the operator of the censorship system can define a plurality of related conditions so that a desired extraction result can be obtained, and can generate a domain for each of them.
  • a domain for indicating the above-described related condition is configured.
  • the domain is for distinguishing and identifying a plurality of related conditions. Therefore, a domain is generated corresponding to each of a plurality of related conditions.
  • each of the four domains (u 1 to u 4 ) is surrounded by a broken line. As will be described later, each of the four domains (u 1 to u 4 ) is composed of five subspaces.
  • the domain illustrated in FIG. 3A is a diagram illustrating an example in which four domains (u 1 to u 4 ) are generated using four related conditions (basic filters). Each domain has associated text data that satisfies the associated condition.
  • the extracted related text data is stored in association with a predetermined related condition.
  • a predetermined related condition not only the related text data but also a predetermined related condition from which it is extracted can be stored, and the conditions for subsequent processing can be accurately determined.
  • not only one word spoken by an individual is subject to censorship, but it is possible to include words related to one word spoken, for example, hidden words, etc. Can be spread.
  • the predetermined feature condition is a condition related to an attribute of a predetermined target indicated by the text data. Attributes are various features such as characteristics and spot colors of a predetermined target. These various characteristics may be not only objective characteristics but also subjectively expressed characteristics based on feelings and psychology with respect to a predetermined target.
  • attributes can be regarded as so-called preferences.
  • psychological characteristics related to a predetermined object and statistical characteristics related to the predetermined object.
  • Psychological characteristics include aggressive and emotional psychological expressions, impulsive psychological expressions, and expressions related to desires for a predetermined object.
  • the statistical features include various statistics such as the number of times and time related to a predetermined target, and methods and means for obtaining these various statistics.
  • Attribute is processed numerically as a feature parameter. By digitizing, it is possible to evaluate the characteristics of the censored object and the related object. For example, the attribute can extract expressions such as emotion and psychology of the person who generated the personally generated data from an adjective expression or an adverbial expression included in the text data based on the personally generated data.
  • the attributes related to the predetermined target and the related target are tasty, bad, sweet, spicy, hot, cold, want to eat, never want to eat again, etc.
  • the predetermined target and related targets are cars, the individual states about the predetermined target and related targets such as good fuel efficiency, poor fuel efficiency, eco, hybrid, large size, small size, want to buy or not buy yet.
  • the process of extracting feature text data satisfying this predetermined feature corresponds to the “adapted filter”.
  • a partial space is generated by this process.
  • feature text data is extracted from text data based on personally generated data.
  • feature text data is extracted from text data based on personally generated data generated by an individual.
  • decomposed text data generated in the second aspect described above The feature text data may be extracted from the feature text, or the feature text data may be extracted from the related text data extracted in the third mode.
  • the attribute is not only a predetermined target but also various characteristics such as characteristics and special colors of both the predetermined target and the related target.
  • These various features may be not only objective features but also subjectively expressed features based on emotions and psychology. In this way, it is possible to extract not only feature text data indicating the attributes of a predetermined object, but also extract feature text data indicating attributes of both the predetermined object and the related object.
  • the censorship field shown in FIG. 3A is a diagram showing an example in which five preferences are defined using five feature conditions (adapted filters).
  • one subspace can be specified by defining related conditions (basic filter) and feature conditions (adapted filter).
  • a partial space can be generated by extraction using related conditions (basic filters) and feature conditions (adapted filters). Therefore, feature text data satisfying the related condition (basic filter) and the feature condition (matching filter) belongs to the subspace.
  • the domain (u 1 ) is composed of five subspaces (e 11 to e 15 )
  • the domain (u 2 ) is composed of five subspaces (e 21 to e 25 )
  • the domain (u 3 ) is 5 one subspace consists (e 31 ⁇ e 35)
  • domain (u 4) is composed of five parts spaces (e 41 ⁇ e 45).
  • a censorship field can be constructed from partial spaces generated based on a plurality of related conditions (basic filters) and a plurality of characteristic conditions (adapted filters).
  • a plurality of desired subspaces can be specified by using a plurality of predetermined related conditions (basic filters) and a plurality of predetermined characteristic conditions (adapted filters).
  • feature text data that satisfies a predetermined feature condition can be extracted from both decomposed text data indicating a predetermined object and decomposed text data indicating a related object. That is, decomposed text data including a target that satisfies a predetermined feature condition among a predetermined target and a related target is extracted as feature text data.
  • distribution characteristics consisting of decomposed text data and characteristic text data can be extracted in the censorship field.
  • This distribution characteristic reflects the manner in which information in the censorship field is suppressed or transformed and released. Based on this distribution characteristic, the operator of the censorship system can select one or more subspaces that need to be censored.
  • feature text data is stored in association with a predetermined feature condition.
  • a predetermined feature condition extracted from the feature text data can be stored, and the subsequent processing conditions can be accurately determined.
  • singular text data satisfying a singular condition indicating a predetermined singularity is extracted from the text data.
  • the unique condition indicating the predetermined specificity means, for example, the specificity for the predetermined object. Specificity can be determined, for example, based on whether various amounts, degrees, change rates, and the like related to a predetermined object are larger or smaller than a predetermined threshold. Various amounts, degrees, change rates, and the like are parameters that can be calculated by a predetermined calculation process, and can characterize an event that occurs with respect to a predetermined object.
  • the process of extracting singular text data that satisfies the predetermined singular condition corresponds to a “configuration filter”.
  • a candidate space is generated by this process.
  • unique text data can be extracted from text data based on personally generated data.
  • the range of the target to be monitored can be defined, and the possibility that the monitoring result includes noise can be reduced.
  • Text data based on personally generated data generated by an individual is decomposed into decomposed text data that can be semantically identified, and a relation indicating a related object that satisfies a predetermined relation condition for the object indicated by the decomposed text data among the decomposed text data Extracting text data; and A step of extracting feature text data satisfying a predetermined feature condition for an attribute indicated by the text data from the related text data; Extracting singular text data satisfying a singular condition indicating a predetermined singularity with respect to an object indicated by the feature text data.
  • FIG. 2B (e) a sixth aspect of the present embodiment will be described.
  • the text data based on the personally generated data is decomposed into decomposed text data by the preference visualizing operation for censorship according to the second aspect.
  • the related text data is extracted from the decomposed text data by the preference visualization operation for censorship according to the third aspect.
  • feature text data is extracted from the related text data.
  • unique text data is extracted from the feature text data extracted in this way.
  • the candidate space can be generated inside the partial space.
  • candidate spaces that satisfy a singular condition indicating a predetermined specificity are generated for 20 partial spaces. If the singular condition is satisfied, the candidate space is extracted, and the number of partial spaces constituting the candidate space may be one or more.
  • the singular condition indicating the predetermined specificity means the specificity not only for the predetermined target but also for both the predetermined target and the related target. For example, the determination can be made based on whether the number, amount, degree, rate of change, and the like related to the predetermined target and the related target are larger or smaller than a predetermined threshold.
  • the various numbers, amounts, degrees, change rates, and the like are parameters that can be calculated by a predetermined calculation process, and can characterize events occurring with respect to a predetermined object and related objects.
  • the predetermined object and the related object in some partial spaces have some specificity with respect to the predetermined object and the related objects in the remaining partial spaces.
  • the singular text data indicating the predetermined target and the related target included in the partial space determined to have specificity by the step of extracting the specific text data satisfying the predetermined singularity (configuration filter). Can be extracted.
  • the word “ramen” Singular text data is extracted from related text data and feature text data. If the rate of change in the number of appearances of the word indicating the product name of the new product is greater than that in the remaining partial space, the specific text data is extracted assuming that a predetermined specific condition is satisfied. As described above, by comparing between a plurality of partial spaces for a predetermined target and a related target, a partial space that is biased or distorted with respect to the predetermined target and the related target among a plurality of partial spaces is acquired. The specific text data can be extracted by determining the specificities related to the predetermined target and the related target.
  • the visualization method is used to determine the importance of specificity from the appearance frequency and distribution of unique data, rather than judging only the presence or absence of unique text data in multiple subspaces. It has.
  • the seventh aspect of the present embodiment Generates history information related to a target history indicated by text data based on personally generated data generated by an individual, and extracts historical text data satisfying a predetermined history condition for the history information from the text data based on the personally generated data And a process of A reference number referred to by text data based on the personally generated data is generated in association with a user ID that can identify the individual who generated the personally generated data, and the reference number of the text data based on the personally generated data is predetermined. Extracting reference text data satisfying the reference condition.
  • the count as the reference number is a count based on reference to data corresponding to a user ID for identifying an individual or a speech number, and corresponds to RT in Twitter and Re: in email.
  • a celebrity's remarks such as “Mr. A said,” “What remark, what did you say,” and it ’s attracting attention. It is a number, not simply abandoned data with a high frequency and frequency.
  • history information relating to a history of a target indicated by text data based on personally generated data generated by an individual is generated.
  • the history information is information indicating the history of the object indicated by the text data. For example, there are the number and frequency that words related to the object are included in the text data, the number and frequency of text data including words related to the object, and the appearance rate. By these, the individual who generated the personal generation data can obtain the number, frequency, and appearance rate of generating information about the object in the past.
  • the history information it is possible to make a determination including not only a determination using a certain time and a certain time but also the state of progress and change.
  • it is possible to make a determination using a certain target by using a certain level of density, a magnitude such as a frequency or the number of times, and a degree of change in transition with time.
  • history text data satisfying a predetermined history condition for the history information is extracted from the text data.
  • the number of references is the number of text data based on personally generated data referenced by other individuals. That is, the number of text data based on personally generated data generated by one individual is referred to by another individual.
  • reference text data satisfying a predetermined reference condition for the number of references is extracted from text data based on personally generated data.
  • ⁇ ⁇ Searches can be made including the situation that changes over time according to the history information. Moreover, the magnitude of the influence of the individual corresponding to the user ID can be acquired from the reference number.
  • History text data is extracted from the decomposed text data generated in the second mode, history text data is extracted from the related text data extracted in the third mode, or history is extracted from the feature text data extracted in the sixth mode. Text data may be extracted.
  • ⁇ When extracting historical text data from feature text data> it is preferable to extract history text data from the feature text data extracted in the sixth mode.
  • a monitoring space is generated from the candidate space. That is, as shown in FIG. 3A, a domain is generated according to the third aspect, a subspace is generated according to the fourth aspect, and a candidate space is generated according to the fifth aspect. A monitoring space is generated.
  • the predetermined object not only the predetermined object but also the number and frequency of the words related to both the predetermined object and the related object included in the text data, the number of text data including the words related to the object and the related object, There are frequency and appearance rate.
  • the history information it is possible to make a determination including not only a determination using a certain time and a certain time but also the state of progress and change.
  • it is possible to make a determination using a certain target by using a certain level of density, a magnitude such as a frequency or the number of times, and a degree of change in transition with time.
  • the method further includes the step of generating monitoring information based on the history text data.
  • monitoring mainly monitors an individual who has generated personally generated data based on historical text data based on historical text data, or monitors an object indicated by historical text data based on historical text data. Or monitoring both individuals and subjects.
  • the monitoring information is information indicating the individuals and objects to be monitored and the contents and methods of monitoring for these.
  • the individual to be monitored can be determined by using the user ID.
  • the method further includes the step of generating a censorship control command based on the monitoring information.
  • the censorship control command is generated as a specific executable command in accordance with the person or object to be monitored and the content and method of monitoring for these. For example, some censorship control commands can be executed by a software process that transmits a predetermined message or predetermined data to a user ID to be monitored. Some censorship control commands can be executed by hardware processing such as cutting off the electrical connection of the network. In addition, the censorship control command may execute new information provision that matches personal preference characteristics. In this way, not only the provision of services to individuals is restricted or transformed, but also provision of new services and related information is included.
  • Information processing system Text data based on personally generated data generated by an individual is decomposed into decomposed text data that can be semantically identified, and from the decomposed text data, a predetermined related condition for an object indicated by the decomposed text data and a predetermined characteristic condition for the object And a censorship field generation means for generating a collection of the first extracted data extracted as a censorship field.
  • Visualization means for extracting data satisfying a specific condition indicating a predetermined specificity with respect to the object from the collection of the first extracted data, and detecting and visualizing the predetermined specificity from the extracted second extracted data; Have.
  • the information processing system It is preferable to have monitoring means for determining an individual to be monitored and monitoring contents for monitoring control based on the second extracted data.
  • FIG. 4 is a diagram illustrating an example of a network to which the monitoring system (censorship system) of the present embodiment is connected.
  • Network 10 Various terminals and a monitoring system 100 are communicably connected to the network 10.
  • nodes composed of various communication devices (not shown) such as routers and hubs are connected to each other to form a communication network.
  • the network 10 communicates with various terminal devices and monitoring systems 100 connected to the network 10 regardless of the type such as wired, wireless, dedicated line, switched line, and local area network (LAN). be able to.
  • Various types of information flowing through the network 10 are divided into a plurality of packets and transferred between nodes. In this way, information can be transmitted from the source terminal device to the destination terminal device.
  • Terminal device Various terminal devices that are communicably connected to the network 10 include a computer 12, a mobile phone 14, a fixed telephone (including an IP telephone) 16, a mobile terminal device (not shown), and the like.
  • the mobile terminal device is connected to the network 10 via a wireless communication network (not shown).
  • the fixed telephone 16 is connected to the network 10 via a fixed telephone network (not shown).
  • the terminal device is mainly operated by an individual, and can send various data input or generated by the individual to the network 10.
  • the server 20 stores various data input or generated by various terminal devices. Examples of the server 20 include various servers such as a web server, a mail server, and a database server. The server 20 may be of any type, function, or number as long as it can store data transmitted from the terminal device via the network 10 so that the monitoring system 100 can read the data.
  • the server 20 also stores creator identification data for identifying the creator who created the data input or generated by the terminal device.
  • the creator identification data is included in the data itself input or generated by the terminal device.
  • date / time data indicating the date / time when the data is input or generated by the terminal device is also stored. These creator identification data and date / time data may be stored in a readable manner by the monitoring system 100, similarly to data input or generated by the terminal device.
  • Monitoring system 100 (censorship system)
  • the monitoring system 100 is connected to the network 10 constantly or at every predetermined timing.
  • the monitoring system 100 mainly collects and acquires various data stored in the server 20.
  • the case where various data are acquired from the server 20 is demonstrated.
  • the data input or generated in the terminal device is mainly text data input or generated by an individual.
  • the text data may be in binary format as long as it can be converted into text format.
  • These text data are data transmitted by the individual via the network 10 such as data generated as a blog or short data such as so-called Twitter, and can be collected by the monitoring system 100 via the network 10. If it is. That is, text data that can be collected by the monitoring system 100 by being transmitted to the public via the network 10 may be used.
  • data that is input or generated in the terminal device includes voice data and image data. Even such voice data and image data can be converted into text data by various recognition processes such as voice recognition and image recognition.
  • the monitoring system 100 targets not only text data originally but also data converted to text data. Conversion from audio data or image data to text data may be executed in the monitoring system 100 or outside the monitoring system 100.
  • the monitoring system 100 includes a central processing unit (CPU), a random access memory (RAM), a read only memory (ROM), an input / output interface (I / O), and an external storage device. These function according to a predetermined program, thereby configuring a censorship field generation device, a monitoring information extraction device, a candidate space generation device, etc., which will be described later.
  • CPU central processing unit
  • RAM random access memory
  • ROM read only memory
  • I / O input / output interface
  • the monitoring system 100 has an input / output interface (I / O).
  • the monitoring system 100 is connected to the network 10 via an input / output interface (I / O).
  • the monitoring system 100 collects various data via the network 10.
  • the conversion device does not process the text data when the collected data is text data.
  • the conversion device selects a recognition process according to the data format and converts it into text data. As described above, the data conversion may be executed in the monitoring system 100 or outside the monitoring system 100.
  • the text data handled by the monitoring system 100 of the present embodiment includes data that is originally text data without being processed by the conversion device, and data that has been converted into text data by the conversion device.
  • these data are referred to as processing text data.
  • the processing text data includes various words to be processed such as a person, an article, and a place name.
  • the server 20 stores the creator identification data and the date / time data so that the monitoring system 100 can read them.
  • the creator identification data and date / time data are associated with the processing text data. By doing so, it becomes possible to perform a search using the creator who created the processing text data and the date and time when the processing text data was created.
  • the text data for processing is input or generated by various individuals. For this reason, various kinds of personal information may be included in the processing text data.
  • the monitoring system 100 performs a process of discarding the personal information from the processing text data from the viewpoint of protecting the personal information. For example, the name of a person who identifies an individual, the address of the individual, a telephone number, an e-mail address, and the like are discriminated, and those are discarded from the processing text data and the processing text data is processed.
  • the processing text data is data indicating various objects expressed by the creator.
  • the subject represents a concept across various fields, such as a famous person, food, car, music, and travel.
  • processing for dividing the processing text data into unit data consisting of a minimum character string having a predetermined meaning is executed.
  • processing for dividing the processing text data into unit data consisting of a minimum character string having a predetermined meaning is executed.
  • morphemes unit data called morphemes.
  • the process of dividing the data indicating the target is not limited to the morphological analysis, and may be any process that separates the text data for processing into data of a desired character string.
  • Creator identification data and date / time data are associated with processing text data. Therefore, the creator identification data and date / time data associated with the processing text data can be directly associated with the character string data indicating the object.
  • the subject is a concept of famous person, food, car, music, travel, etc. Therefore, there are related related objects such as synonyms, synonyms and secret words.
  • related related objects such as synonyms, synonyms and secret words.
  • at least data indicating a related target is added to data indicating one target. For example, by using a predetermined thesaurus, related related objects such as synonyms, synonyms and secret words can be derived.
  • ⁇ First stage> As a first step, by executing a retirement program, various expressions (text data) input are related to, for example, related verbs (a plurality of semantically distinguishable plurals) such as genres, preferences, dialects, and emotions.
  • the decomposed text data is converted into predetermined related text data).
  • This processing is pre-processing for analyzing whether there is a specific related term to be monitored prepared in advance in the group of related terms. By performing this processing, it is possible to avoid the problem of personal information leaking even if the related term group itself leaks to the outside.
  • the text data mentioned above is input from the outside via the input interface.
  • a person hereinafter referred to as a censor
  • a censor who is subject to censorship with respect to a related term as a “certain individual” who has input text data can be specified by the user ID.
  • the user ID and the related term are associated with each other and handled as a pair.
  • the computer censors when the first filtering process (for example, corresponding to the basic filter) replaces the “thing suitable for energy saving” with the related term and replaces it with “hybrid” or “electricity”, the computer censors. Generate a field.
  • the generation of the censorship field is a pre-processing of filtering for generating a subsequent partial space or monitoring space.
  • the replacement related words are composed of multiple filters (basic filters) with different slang levels, the same number of domains as the number of these basic filters are generated. Will be.
  • the filter can be made into a suitable specific filter (domain term), and the design freedom of the censorship system can be increased and the system can be easily operated.
  • a domain is defined for each basic filter described above.
  • censors and related terms are associated with each other in the same space as the sub-space, candidate space, and monitoring space to be generated later.
  • ⁇ Second stage> a partial space corresponding to each second filtering process is generated by executing a second filtering process on the domain generated in the first stage. Also in the second filtering process, since the link between the censor and the related term is maintained, the censor and the related term are also linked in the partial space generated by the second filtering process.
  • a second filtering process adapted to each of a plurality of types of genres prepared in advance is executed while treating a censor and a related term in pairs.
  • the plurality of types of filters in the second filtering process may be hundreds or thousands of filters.
  • the filter of “second filtering process adapted to each of a plurality of types of genres prepared in advance” may be a slang filter, a classification filter, or a psychological filter.
  • the domain is filtered to determine whether a single secret word is used.
  • the second filtering process is performed with a single slang filter for a related term “Uzai” as a slang. Then, it is possible to extract a series of related text data groups in which the user ID corresponding to this related word is linked to the related word “Uzai”. In this case, a related text data group related to bullying may be extracted.
  • a single related term is assigned to a plurality of decomposed text data whose meaning of the text data input from the outside can be identified.
  • the dissociated text data of the same meaning expressed variously can be monitored with one related terminology.
  • a lookup table for assigning one related term to the decomposed text data may be referred to.
  • the history information is generated from the partial space generated by the second filtering process and stored in the history information database.
  • the history information specifies the domain that constitutes the subspace, specifies the type of the matching filter used for the second filtering process, characterizes the domain, and shows what related terms are included. It is information that can be judged.
  • an output interface for outputting history information database information to an external visualization device for example, the date and time when external input was made, the user ID for specifying the individual who input the external information, and the related term group converted from the external information on the display in the form of a table represented by a character string
  • a visualization device for example, the date and time when external input was made, the user ID for specifying the individual who input the external information, and the related term group converted from the external information on the display in the form of a table represented by a character string
  • a third filtering process is performed on the partial space generated in the second stage.
  • the third filtering process is a filtering process suitable for determining whether or not the situation is a peculiar situation with respect to related terms included in the subspace. That is, for each related verb having a different monitoring level, a determination process is performed to determine whether or not a predetermined specific condition is satisfied, and a related term satisfying the specific condition is extracted as a candidate space. In the extracted candidate space, related text data is included for each user ID.
  • “Issuance of singular conditions” means “narcotics”, “murder”, “bullying”, “suicide”, “nuclear bomb”, “super delicious”, which is set to a danger level at the slang level, for example, If it appears even once, it is filtered by a predetermined determination that “feeling good”, “nuclear”, “bad feeling”, “delicious” appears frequently in a series of external information (for example, 10 times) .
  • ⁇ Fourth stage> it is determined whether or not the candidate target user ID is set as a monitoring target from the history information based on the input date and time data of the candidate space, and the uniqueness of the user ID set as the monitoring target is determined.
  • the fourth filtering processing program is executed to determine the setting of the monitoring space based on the candidate space including the various factors and the related text data group of the different partial space of the input date and time data of the same user ID To do. Then, the related text data set in the monitoring space and the user ID to be monitored are stored in the database as the monitoring information in a state where they can be taken out for later monitoring.
  • “Store in the database in a state where it can be retrieved for later monitoring” means that the monitoring information database storing the monitoring information is connected to the monitoring device and monitoring is performed when external information is input from the outside.
  • the censoring command related to it is output to the outside, and even if it is not the user ID of the monitoring target person, a unique factor used by the monitoring target person When there is a subspace containing the related verb, the censor command related to it is output to the outside.
  • the concept of censorship is generated so that the place formed by the users of the basic system is the place of censorship. Therefore, the censorship in the censorship system according to the present embodiment is characterized by functions and services provided by the censorship system, unlike simple censorship.
  • the censorship system according to this embodiment not only discovers and monitors individuals who make antisocial utterances and anti-common sense utterances, but also seems to be mentally and / or psychologically unstable and concerned. Individuals and suffering individuals may be discovered through speech and used to take appropriate actions to protect them. As described above, the censorship system according to the present embodiment is a system that can handle an individual's mental state and psychological state.
  • utterance mainly refers to writing various information in e-mail, SMS, blog, Twitter, input box on a Web screen, bulletin board, and the like.
  • the content of this utterance is the object of censorship in the censorship system according to this embodiment.
  • the censorship system according to the present embodiment acquires information written in an email, SMS, blog, Twitter, an input box on a Web screen, a bulletin board, etc., and analyzes the content of the utterance.
  • Information written in e-mail, SMS, blog, Twitter, input box on the Web screen, bulletin board, etc. is mainly in the form of text data.
  • any data that can be converted into text data is treated as an utterance and is subject to censorship.
  • various data formats such as audio data and image data can be converted into text data by performing recognition processing.
  • the censorship system according to the present embodiment analyzes the content using the converted text data and sets it as an object of censorship as an utterance.
  • This utterance corresponds to “personally generated data generated by an individual” and “text data based on personally generated data generated by an individual”.
  • the personal information that is the target in the present embodiment is information that can specify an individual only by the information. For example, name and address. On the other hand, if the individual cannot be identified only by the information and the individual can be identified by referring to other information, the information is not treated as personal information.
  • the censorship system in the present embodiment handles personal information included in the content of utterances uttered by individuals.
  • the censorship system is configured on the basis of keywords called related terms, and functions and services provided by the censorship system are realized based on related information held by related terms. Accordingly, related terms are different from so-called keywords used in normal search processing and the like. Unlike simple keywords, the related terminology can associate various information such as domains and preferences with each other in order to configure information such as history information and monitoring information described later.
  • This related term includes data for expressing a predetermined target included in the content of the utterance.
  • An object included in an utterance is a specific, substantive thing or abstract idea that an individual wants to express by speaking.
  • uniqueID is information for identifying the individual who made the utterance.
  • the censorship system associates the uniqueID with the content of the utterance and manages it as a related term.
  • uniqueID is not personal information itself.
  • the uniqueID includes, for example, a telephone number, a license number, an IP address, and a handle name on a bulletin board. uniqueID can identify an individual by referring to other information. Accordingly, personal information is not leaked outside from the censorship system, but the operator of the censorship system can specify an individual using the uniqueID.
  • the date / time information is information such as the date and time and hour / minute / second indicating the time when the user spoke.
  • the censorship system manages date / time information as a related term in association with the content of the utterance, like the uniqueID. Note that it is not necessary to use all the information on the date and time, and the hour, minute, and second, and the information desired by the operator of the censorship system may be selected as appropriate.
  • the date / time information can be acquired from the date / time when the mail was transmitted or the date / time written on the bulletin board.
  • a related term indicating a predetermined target desired by the operator of the censorship system is extracted from the content uttered by the individual and is used as a censorship target.
  • a censor system first uses a basic filter.
  • a related term indicating a predetermined target included in the content uttered by an individual is subject to censorship.
  • the predetermined object is a specific and substantial thing or an abstract idea that an individual wants to express by speaking.
  • related objects are objects that have been expanded from predetermined objects by using synonyms, synonyms, synonyms, associative words, synonyms, related words, etc. is there. Using both the related terminology indicating the predetermined target and the related terminology indicating the related target expanded from the predetermined target, the target is censored.
  • the basic filter used in the censorship system extracts both a related term indicating a predetermined target desired by the operator of the censorship system and a related term indicating a related target related to the predetermined target. It is a filter.
  • the basic filter it is possible to extract both a related term indicating a predetermined target and a related term indicating a related target to be censored. By doing so, synonyms and hidden words can be censored, and the censorship desired by the operator of the censorship system can be realized accurately.
  • a basic filter may be configured using a generally available so-called thesaurus.
  • the basic filter may be configured using a thesaurus that is stored and created by the operator of the censorship system.
  • At least one basic filter can be set.
  • One domain can be formed by extracting both a related term indicating a predetermined target and a related term indicating a related target from the content spoken by the individual using a basic filter.
  • One domain is a collection area including a related term indicating a predetermined target and a related term indicating a related target extracted by the basic filter.
  • ⁇ Filters for classifying related terms can be defined for multiple classes as multiple basic filters.
  • the keyword (related term) which shows the various object contained in the content which the individual uttered can be divided and extracted for several classes, and a domain can be formed with the extracted related term.
  • the predetermined category includes a predetermined genre, a theme, a category, and the like.
  • FIG. 3A is a diagram illustrating an example of a partial space and a censorship field.
  • one cell means one subspace.
  • the partial space will be described later.
  • the censorship field shown in FIG. 3A is composed of four domains (u 1 to u 4 ) formed by four basic filters.
  • the domain is for distinguishing and identifying a plurality of basic filters.
  • a domain (u 1 ) is generated by the first basic filter.
  • the first domain is an area of a collection formed by extracting according to the setting condition of the first basic filter from the related terms indicating the predetermined target and the related target included in the content spoken by the individual. is there.
  • the second domain (u 2 ) is a collection area formed by related terms indicating a predetermined target or a related target extracted according to the setting condition of the second basic filter
  • the third domain (u 2 ) is a collection area formed by a predetermined target extracted according to the setting condition of the third basic filter and a related term indicating the related target
  • the fourth domain (u 4 ) Is an area of a collection formed by a predetermined target extracted according to the setting condition of the fourth basic filter and a related term indicating a related target.
  • the contents uttered by an individual are censored including their emotions.
  • the person speaks with a good feeling there are a case where the person speaks with a bad feeling.
  • the search result is helpful or only reference is not made by simply searching with a keyword.
  • emotions about a predetermined object are acquired from the content of the utterance, and the emotions can also be censored.
  • emotions for a predetermined object are treated as preferences related to the predetermined object.
  • the preference is based on the content spoken by the individual, specifically, a word indicating a predetermined target, an adjective, an adverb, a verb from text data such as an email, SMS, blog, Twitter, input box on a Web screen, bulletin board, etc. And the like, and the adjectives, adverbs, verbs, etc. are classified and the preference for a predetermined object is analyzed.
  • the degree of emotion for a predetermined object is also analyzed. For example, it is treated as a preference including the degree of emotions such as having very good feelings, moderate feelings, not feeling well, and not feeling very well.
  • the number of times the emotion is expressed is also treated as a preference. That is, it is treated as a preference that the product is praised many times, talks badly many times, or speaks only once.
  • the preference is a characteristic that is expressed subjectively based on feelings and psychology with respect to a predetermined object included in an individual utterance. In other words, the preference is what an individual feels, thinks about, or thinks about a predetermined target.
  • the preference may be any subjective expression that can be extracted from text data such as mail, SMS, blog, Twitter, input box on the Web screen, bulletin board, and the like. The preference is converted into a characteristic parameter based on the text data so that it can be processed as a numerical value.
  • an adaptive filter is used to extract a preference for a predetermined target from the content of an individual utterance.
  • At least one adaptive filter can be set.
  • the preference for a predetermined target can be extracted from the content spoken by the individual using one matching filter.
  • One preference is a preference extracted by one matching filter and indicates a preference for a predetermined target.
  • the preference corresponding to each is extracted.
  • FIG. 3A is a diagram showing an example of a subspace and a censorship field.
  • one cell means one subspace.
  • the partial space will be described later.
  • the field of censorship is, for example, a space composed of a collection of text data that is acquired from the content of an individual utterance and is subject to censorship. More specifically, the censorship field is composed of at least one text data to be censored, and when there is a collection of a plurality of text data, the censorship field is composed of these collections.
  • the field of censorship is, for example, a space (plane) having a preference axis as a horizontal axis and a domain axis as a vertical axis, as shown in FIG. Further, as shown in FIG. 3B, the field of censorship can be a space having a time axis in addition to a preference axis and a domain axis.
  • the place of censorship is a space composed of a collection of text data to be censored.
  • This collection need not be a collection concept used in mathematics, but may be any collection of text data.
  • you may comprise a some collection with the same text data.
  • the field of censorship may be configured such that the first collection and the second collection are configured by the same text data.
  • one partial space can be constituted by one group.
  • the adaptive filter is for distinguishing and identifying a plurality of preferences.
  • the partial space included in the first preference is formed by being extracted according to the setting condition of the first adaptive filter among various preferences for a predetermined target or related target included in the content spoken by the individual. An area of gathering.
  • one cell means one partial space.
  • a domain is generated by the basic filter, and a subspace is generated by being extracted from the domain by the adaptive filter.
  • FIG. 6 is a diagram illustrating an outline of the basic filter, the adaptive filter, and the subspace.
  • the basic filter is a filter for extracting related verbs to be censored by the censorship system according to the present embodiment from individual utterances.
  • an individual utterance is a large amount of stored personal data as shown in FIG.
  • the personal data may be data stored in a predetermined server or collected and stored by a censorship system.
  • the basic filter can extract not only a related term indicating a predetermined target included in the content uttered by the individual but also a related term indicating a related target related to the predetermined target.
  • basic filters not only related terms but also words that can be associated with or related to related terms, related terms can be censored, and related terms can be censored. can do.
  • level A a term that can be clearly understood by the general public as being censored
  • level B subject to censorship by interested persons Terms that can be understood
  • Level C It can also be set as terms that are understood to be censored by experts in related terms.
  • the slang can be visualized by selecting the slang level. For example, even if a level C slang is buried by a number of level A slangs, it is visualized so that they can be compared with each other.
  • a domain is generated by extracting a predetermined related term from an individual utterance by a basic filter.
  • a predetermined related term is extracted from an individual utterance by an i th basic filter, and an i th domain u i is generated by the extracted related term.
  • the extracted related terms are linked to a person to be censored (hereinafter referred to as a censor).
  • the censor is a person specified by the uniqueID described above.
  • a domain u i is generated corresponding to the basic filter. As shown in FIG. 3A, a plurality of domains u i can be generated from an individual utterance by changing and processing the basic filter.
  • the domain u i is generated by the basic filter in the subspace generating apparatus.
  • the operator can set a basic filter, and the related terminator specific to the operator can be extracted from the individual utterance, and the related term can be extracted without omission from the individual utterance.
  • a domain is a collection composed of related terms (keywords). Further, the domain is a space including a set of pairs of related terms and censors to be censored while associating uniqueIDs with the extracted related terms and adjusting the level of the slang language.
  • the related terms may be collected by a related term collection device.
  • you may expand synonyms, such as a slang, with a synonym expansion assistance apparatus.
  • the related term collection device and the synonym expansion support device are managed and operated by the operator so that the operator of the censorship system can perform the desired censorship.
  • the adaptive filter is a filter for extracting a preference for a predetermined target from the content of an individual utterance.
  • the preference is a feature that is subjectively expressed based on feelings and psychology with respect to a predetermined target included in an individual utterance. That is, the preference is what an individual feels, thinks about, or thinks about a predetermined target.
  • the preference is converted into a characteristic parameter so that it can be processed as a numerical value.
  • the matching filter may include a classification filter, a slang filter, and a psychological filter.
  • the classification filter is a filter for classifying and extracting a preference for a predetermined object indicated by a related term.
  • the slang filter is a filter for enabling extraction even when a preference for a predetermined object is expressed in slang.
  • the psychological filter is a filter that enables a psychological expression for a predetermined object to be extracted.
  • the adaptive filter includes at least one of a classification filter, a slang filter, and a psychological filter.
  • a classification filter When there are a plurality of types of classification filters, hidden word filters, and psychological filters, one matching filter may be configured by a combination thereof.
  • the j-th matching filter C j is configured by a combination of a classification filter, a secret word filter, and a psychological filter.
  • the domain u i is generated from the personal utterance according to the basic filter.
  • the related terms satisfying the matching filter C j are extracted from the related terms included in the domain u i
  • a subspace e ij is generated by the extracted related terms.
  • the subspace e ij is composed of related terms extracted by both the basic filter (i th domain) and the matching filter C j among the related terms included in the individual utterance. It becomes a gathering.
  • the subspace is a space that associates a uniqueID with an extracted related terminology and includes a set of pairs of related terms and censors to be censored.
  • the subspace generation device generates a subspace e ij from the related terms included in the domain u i using the matching filter C j .
  • the operator can set the application filter, and the preference specific to the operator can be extracted from the personal utterance, and the preference can be extracted from the personal utterance without omission.
  • the basic filter corresponds to “predetermined related conditions”.
  • the adaptive filter corresponds to the “predetermined feature condition”.
  • the related terms included in the subspace correspond to “first extracted data” and “characteristic text data”.
  • FIG. 7 is a diagram illustrating an outline of the configuration filter and the candidate space generation device.
  • the configuration filter is a filter for extracting related terms indicating specificity among related terms included in the partial space e ij .
  • the composition filter is a filter for extracting a related term satisfying a singular condition such that the number of utterances about a predetermined object is very large or the utterance starts suddenly at a certain time for a predetermined object. is there.
  • the unique condition can be expressed by conditions based on various related terminology characteristics defined for the censor and the related term set x as shown in FIG.
  • the i-th related term attribute i the idiom level Li of the i-th related term, the censoring frequency Ni of the i-th related term, and the censoring of the i-th related term
  • Field appearance rate Ni / Nd Nd: total number of related terms
  • subspace frequency ni of i-th related term subspace appearance rate ni / ns (ns: total number of related terms) of i-th related term
  • Subspace weight ⁇ ( ns / Nd)
  • a candidate space is generated by extracting a subspace including a related term in which such specificity appears.
  • the peculiarity in the subspace has characteristics such as bias and distortion in which the related term exists in the subspace.
  • the related terms satisfying the singular condition c ij are extracted from the related terms included in the subspace e ij generated by the above, and the candidate space ⁇ ij is generated by the extracted related terms.
  • the candidate space ⁇ ij is extracted by three types of filters, that is, the basic filter (i-th domain), the matching filter C j, and the constituent filter among the related terms included in the individual utterances. A group consisting of related terms.
  • the candidate space is a space that includes a set of pairs of related terms and censors that should be censored by associating uniqueIDs with the extracted related terms.
  • the censor is a person specified by the uniqueID described above.
  • a candidate space ⁇ ij is generated by a candidate space generation device by using a constituent filter for a related term satisfying the singular condition c ij from a related term included in the subspace e ij .
  • the peculiar property of the related term can be defined for each domain and preference specified by the operation side, so that the censor and the related term directly connected to the service on the operation side can be extracted.
  • a related term extracted using this constituent filter is referred to as a specific related term.
  • a censor associated with a related term extracted using a constituent filter is referred to as a candidate (a person who is a candidate to be monitored).
  • the matching filter corresponds to the “singular condition indicating the predetermined specificity”.
  • the related verbs included in the candidate space correspond to “unique related text data”.
  • FIG. 8 is a diagram showing an overview of the balanced filter and the monitoring space generation device.
  • the equilibrium filter is a filter for generating a monitoring space by extracting related terms satisfying a predetermined history condition for related terms included in the candidate space.
  • the history condition is a condition related to related terms.
  • the history condition is a related term that a person always utters, a related term that a person utters for the first time, or a related term that is spoken by many individuals at present. This is a condition that can be determined from the history of lyrics. It is possible to determine whether or not the history condition is satisfied by performing various statistical processes on the related terminology.
  • f ij ⁇ (m, w, h)
  • x (m, w) ⁇ ij
  • h ⁇ hist ij ⁇ is calculated using an equilibrium filter corresponding to the history condition hist ij for the related term.
  • h h (frequency (x), reference (m)).
  • the monitoring space f ij has four types of filters: a basic filter (i-th domain), an adaptive filter C j , a constituent filter, and a balanced filter among related terms included in an individual utterance. It is a collection composed of related terms extracted by. Furthermore, the monitoring space is a space including a collection of pairs of related terms and censors to be censored by associating uniqueIDs with the extracted related terms as in the partial space and the candidate space. The censor is a person specified by the uniqueID described above.
  • the monitoring space generating device generates the monitoring space f ij by using the equilibrium filter for the related terms satisfying the history condition hist ij from the related terms included in the candidate space ⁇ ij .
  • history conditions can be defined for each domain and preference specified by the operation side, so that it is possible to extract a monitor and specific related terms directly connected to the service on the operation side.
  • the candidate space sigma ij can configure the history visualization device X ⁇ shiguma ij, the monitoring space f ij, is possible to configure the history visualization device Y ⁇ f ij it can.
  • a history visualization device it is possible to configure a daily fluctuation visualization device for showing daily fluctuations and a daily fluctuation visualization device for showing daily fluctuations, and display various data. it can.
  • the balanced filter corresponds to the “predetermined history condition”.
  • the related terms included in the candidate space correspond to “history text data”.
  • FIG. 10 is a block diagram showing an overview of a preference visualization system (censorship system) available online.
  • the related term extraction device shown in FIG. 10 includes the partial space generation device described above (see FIG. 11). This partial space generation device executes the same processing as described above. That is, the domain u i is generated from an individual utterance by the basic filter, and the subspace e ij is generated from the domain u i by the adaptive filter.
  • the related term extraction device has a monitoring device (see FIG. 12).
  • the monitoring device refers to the monitoring information based on the related term and uniqueID (censor) included in the subspace e ij , and the censor (monitorer) to be monitored and the related term in which the specificity is found. (Singular related terminology) and history characteristics related to the specific related terminology are acquired from the monitoring information.
  • the monitoring device outputs the acquired monitoring person, singular related terminology, and history characteristics to the censorship control device.
  • the censor may not be a monitor. In such a case, the monitoring device outputs the censor and the related terminology to the censor control device.
  • the censorship control device acquires a censorship control command based on monitoring information such as singular related terms and history characteristics, and outputs it to the output conversion device (see FIG. 13).
  • Censorship control commands include, for example, ignore (normal guarantee), warning (security), statistical output (customer service), recommendation (advertisement), education (risk management), encouragement (nursing care), entertainment information (enrichment), etc.
  • the censorship control command is stored in a table so that the censorship control command can be selected according to the singular related term and the history characteristic.
  • the censorship control device transmits output information to the output conversion device according to the contents of these censorship control commands.
  • output information is output from the output conversion device, an output log for storing the contents, output date and time, output uniqueID, and the like is generated and stored in the output storage device.
  • the output conversion device refers to the output log stored in the output storage device and determines whether or not to output the output information. For example, if the output information has already been output to the individual indicated by the uniqueID, output of the output information is stopped.
  • FIG. 11 is a basic filter and an adaptive filter in an online available censorship system, which performs the same processing as described above. That is, the domain u i is generated from an individual utterance by the basic filter, and the subspace e ij is generated from the domain u i by the adaptive filter.
  • the censorship control command is a command for issuing warning information or encouraging information to an individual who has been censored as a result of censorship.
  • the censorship control command is a command for controlling an apparatus or system used by an individual. By issuing the censorship control command in this way, it is possible to disconnect the communication line of the device or system used by an individual who is making an antisocial utterance or an antisense utterance.
  • Such a censorship control command defines the content desired by the operator of the censorship system according to the result of censorship.
  • EC electronic commerce
  • B to B Business to Business
  • B to C Business to Consumer
  • C to C Consumer to Consumer
  • a general EC site of B to B to which the present invention is applied in this embodiment is connected to a plurality of personal terminals through a network such as the Internet centering on a core system, and is accessed through each terminal. Connected with personal information database. Then, various input information is obtained from a plurality of terminal groups, and within the basic system, an anime community that likes or is interested in anime, a religious community that has a lot of input information about religious elements, or food There are potentially multiple genres of communities, such as gourmet communities with a lot of utterances, but these communities have not been visualized (cannot be extracted as a group, there is no extraction mechanism) ) Was common.
  • EC sites in this example, it was linked with a core system that operates a gourmet search site (“Gurume Navi” in FIG. 14).
  • a gourmet search site as the EC site, an individual accesses the backbone system through a terminal and responds to input information entered on a search screen downloaded from the backbone system.
  • the preference visualization system and the censorship system (hereinafter referred to as an information processing system) according to the present invention can also perform action processing such as interactive information provision and communication disconnection on the terminal side.
  • the input conversion device converts the input information into one data format (text information in this embodiment) handled by the information processing system.
  • the input information is not limited to a method in which character input is performed by key input using a keyboard, a touch panel, or the like, and the input information of the present invention can also adopt an input form by voice recognition described later.
  • the information processing system of this embodiment is a history information database (history information DB), a monitoring information database (monitoring information DB), and filter editing control for editing various filters, in addition to a preference visualization system and a censorship system. And a command editing control device for editing various censorship control commands.
  • the censorship system includes the input conversion device described above, an output conversion device that outputs censor control commands to the outside in a proper output form, and a censor control command database that stores various commands edited by the command editing control device.
  • a censor control command database that stores various commands edited by the command editing control device.
  • the censorship control device that refers to the censorship control command database according to the monitoring information output from the preference visualization system, and outputs it to the backbone system via the output conversion device, and the output An output log storage device that stores output logs of various censorship control commands output from the conversion device.
  • the preference visualization system includes a related term extraction device, a monitoring information extraction device, and a filter editing device that edits various filters by input of the filter editing control unit.
  • the functions of each device have the functions described in the above-described embodiments.
  • the preference visualization system refers to the monitoring information database in accordance with information output from the related term extraction device and the monitoring information extraction device according to the portion that performs history visualization with reference to the history information database, A monitoring device that outputs monitoring information to the censorship control device is also provided.
  • one domain is an NG word that should be alerted, and the related term “gathering” is the first utterance made by this individual ID.
  • the history is specified as a new customer, and processing data called an alarm is generated as a command for censor control.
  • the domain is noodles
  • the preference is “like” based on the utterance of this individual and the content of the utterance
  • the customer is referred to the history information. From these results, the command is pasta and recommended.
  • the domain is noodles, and this person utters ramen many times and the preference is “like” based on the content of the utterance, and it speaks very often. So it becomes a history characteristic as a regular customer.
  • processing data as the internal state described above is generated as follows.
  • processing for changing / unifying the input information into a data format such as text that can be processed is performed.
  • the censor space generation apparatus and the partial space generation apparatus perform processing using the above-described basic filter and adaptive filter while referring to the history information database, thereby first generating the above-described censorship field.
  • the candidate space generation device and the monitoring space generation device of the monitoring information extracting device refer to the monitoring information database, and perform processing using the configuration filter and the balance filter as described above via the monitoring device.
  • the censorship control device extracts a command corresponding to the output information from the censorship control command database, and provides the result to the terminal via the output conversion device. Send a command to the system.
  • “Providing the result to the terminal” means that in addition to providing various concierge information, when a domain of the NG word is generated, an NG word is uttered exceeding a predetermined threshold This includes actions such as forcibly disconnecting the communication line between the basic system and the individual terminal that spoke the NG word.
  • the provision of individual services according to the customer's preference and the output control according to the risk situation of the input contents are executed by the censorship control command output to the core system. If it is the gourmet search site mentioned above, according to a censorship control command, gourmet search is controlled with respect to an individual (customer), and a result is provided.
  • the information processing system of the present invention executes a plurality of types of filter processing on a plurality of types of input information from a plurality of personal terminals obtained through the backbone system.
  • a censorship field generation function for generating a censorship field, and a visualization function for newly visualizing input information input from the core system for the censorship field generated by the censorship field generation function It has a monitoring function of outputting one of the censor control commands prepared in advance as a result of this execution to the basic system in order to execute the censor control command at the terminal from which the input information is obtained. Yes.
  • FIG. 15 shows an example in which the present invention is applied to an EC site in the first embodiment, but in the second embodiment, the basic system that provides an artificial intelligence service that supports customers is linked with the present invention.
  • An example is shown.
  • the basic configuration of the information processing system according to the second embodiment is the same as that described in the first embodiment.
  • the difference from the first embodiment is that the basic system to be linked is different and the basic system to be linked is different. Since the input information to be input is different, each filter is also different, and as a result, the censorship control command to be output to the backbone system is different.
  • the input information that is input to the basic system is, for example, “Caiwa (product name) question” Can you tell me how to install it? "
  • the internal state of the result of the data processing performed to output the censorship control command is that “Caiwa” is the product name for the related term “Caiwa”.
  • the domain is "product”
  • the domain of this personal ID and product and the history information is "important customer”
  • the preference is "question” from the utterance "question” in the input information, and the result is output to the core system
  • the censorship control commands are stored as important customers, products, and questions.
  • the related term “introduction” is treated as “question” from the utterance that the domain is “business” and the preference is “please tell me”, and the history characteristic is referred to as “new customer” by referring to the history information.
  • the censorship control command is output to the core system as a result of newcomer, business, and question.
  • FIG. 16 shows an example in which the present invention is applied to a basic system of an EC site in the first embodiment, and an example in which the present invention is applied to a basic system responsible for customer support in artificial intelligence. Shows an example in which the present invention is applied to a basic system that carries out a voice control service of a robot.
  • the basic configuration of the information processing system in the present embodiment is the same as that described in the first and second embodiments. The difference from the first and second embodiments is that the linked basic systems are different and the linked basic systems. Since the input information to be input is different from each other, the filters are also different, and as a result, the censor control commands to be output to the backbone system are different.
  • the input form from the terminal in the first and second embodiments is mainly the input form such as a keyboard, but in this third embodiment, the voice feature is replaced with text data. It is different in that it is utilized.
  • the filter mentioned above is prepared so that the amount of features, such as the strength of the volume, also affects the input voice, and a domain corresponding to the emotion is generated depending on the volume of the voice. It will be.
  • the main system is loudly loud with a volume above a predetermined threshold, “Idiot!” On the microphone connected to the terminal.
  • voice input is made.
  • the guidance screen may be a two-way conversation by voice through a robot instead of the web screen.
  • the voice input in this case is a related word “loud” because the volume exceeds a certain threshold, the domain is “volume”, the preference is “anger”, and the past history is referred to as “problem customer”. History attributes, these results, censorship control commands become troubled customers, loud, angry. Also, the sentence length filter allows the speech input to be short as “idiot”, so the related terminology is “short sentence”, the domain is “sentence length”, the history characteristic is “general customer” from the past history, and the censorship control obtained as a result Command becomes general customer, short sentence, anger.
  • the meaning of the utterances obtained by recognizing the speech input as text is not only processed by the filter in the same way as in the first and second embodiments, but in the case of speech input, emotions are determined from the volume and sentence length. Analysis can be performed.
  • a censorship control command to the core system when an individual is angry, a censorship control command that responds with a low attitude is output, or in the case of a problem customer who responds the same way many times Can output a censorship control command for responding as a problem customer in addition to responding to anger. Therefore, anyone can solve the problem more easily by responding according to the censorship control comment.
  • the preference information existing in the field of censorship is reflected by linking the artificial intelligence system and the above censorship system or censorship function. It can also provide an artificial intelligence system that answers questions.
  • An information processing system includes: Decompose personally generated data generated by a large number of individuals participating in the core system into a plurality of pieces of decomposed data that can be distinguished from each other, and a predetermined related condition characterized for each community with respect to the object indicated by each of the decomposed data and the object Censorship field generation means for extracting data satisfying a predetermined characteristic condition characterized for each community and generating a set of extracted first extracted data as a censorship field; From the set of the first extracted data, data that satisfies a specific condition indicating a predetermined specificity that is characterized for each community with respect to the target is extracted, and the predetermined specificity is detected from the extracted second extracted data and visualized Visualizing means.
  • the above-described “relevant personalized data generated by an individual is decomposed into a plurality of pieces of decomposed data that can be semantically identified, and each of the objects indicated by the decomposed data has a predetermined related condition characterized for each community and a community for the objects.
  • text data is adopted as the data format of the basic axis as data that can be distinguished. ing.
  • those data formats can also be applied to the present invention.
  • the present invention is not limited to text data, but when text data is employed, the following is achieved. That is, an information processing system according to another aspect of the present invention Text data based on personally generated data generated by an individual is decomposed into decomposed text data that can be semantically identified, and a predetermined related condition characterized for each community with respect to an object indicated by the decomposed text data from the decomposed text data and the object Censorship field generation means for extracting data satisfying a predetermined characteristic condition characterized for each community and generating a collection of the extracted first extracted data as a censorship field; From the collection of the first extracted data, data satisfying a specific condition indicating a predetermined specificity characterized for each community with respect to the target is extracted, and the predetermined specificity is detected and visualized from the extracted second extracted data Visualization means to Based on said 2nd extraction data, it can have a monitoring means which determines the individual who should be monitored and the monitoring content which controls monitoring.
  • network 20 server 100 monitoring system, censorship system, preference visualization system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

 本願は、嗜好情報のように、検閲の場において抑圧されたり変形して放出されたりしている情報に対しても適切に対応できる監視システム、あるいはこの監視システムを実現するために必要となる当該情報の可視化システムや当該情報の可視化機能を提供する。 本願の情報処理システムは、基幹システムに参加し構成する多数の個人によって生成された個人生成データに基づくテキストデータを意味識別可能な分解した分解テキストデータから、対象についてコミュニティ毎に特徴付けられる所定の関連条件と対象の属性についてコミュニティ毎に特徴付けられる所定の特徴条件とを満たすデータを抽出し、対象に関してコミュニティ毎に特徴付けられる所定の特異性を示す特異条件を満たすデータを抽出して、所定の特異性を検出して可視化し、監視すべき個人と監視の制御をする監視内容とを決定する。

Description

[規則37.2に基づきISAが決定した発明の名称] 嗜好可視化システム及び検閲システム
 ネットワークを介して取得したテキストを監視するシステムに関する。
 従来、ネットワークを介して提供される情報のうち不適切であると判別した情報の提供を阻止する方法や装置があった(たとえば、特許文献1参照)。この方法や装置は、ネットワークを介して提供される情報のうち、有害と思われる情報を子供などが視認できないようにするためのものである。ネットワークを介して提供される情報から単語を抽出し、抽出した単語の各々に対する重みを、予め求めて記憶しておいた単語リストから読み出し、阻止するか否かを判断するものであった。
特開2001-28006号公報
 従来の検閲システムでは、不適切と思われる単語が明快に現れる情報に対しては有効であるものの、検閲の場において抑圧されたり変形して放出されたりする情報に対しては全く無力であった。ここで、検閲の場とは、たとえば、利用者によって提供される検閲の対象となるテキストの集まり(collection)から構成される空間である。
 したがって、従来までの情報サービスを提供する基幹システムにおいては、その基幹システムの利用者が参加するコミュニティ毎に形成される検閲の場において抑圧されたり変形して放出されたりする個別の嗜好情報に関しては、それを扱うための手法が確立されておらず、不作為のままで放置されることが多かった。
 例えば、上記の基幹システムが利用者からの質問に答える人工知能システムである場合には、検閲の場に存在する嗜好情報は不作為のままで放置され、検閲の場における検閲機能が欠如したままで利用者からの質問に答えるのみであった。
 本発明は、上述の点に鑑みてなされたものであり、その目的とするところは、嗜好情報のように、検閲の場において抑圧されたり変形して放出されたりしている情報に対しても適切に対応できる情報処理システム、あるいはこの情報処理システムを実現するために必要となる当該情報の可視化システムや当該情報の可視化機能を提供することにある。
 本実施の形態による情報処理システムは、
 個人によって生成された個人生成データを意味識別可能な複数の分解データに分解し、前記分解データのそれぞれが示す対象について所定の関連条件と前記対象について所定の特徴条件とを満たすデータを抽出し、抽出した第1抽出データの集まりを検閲の場として生成する検閲の場生成手段と、
 前記第1抽出データの集まりから、前記対象に関して所定の特異性を示す特異条件を満たすデータを抽出し、抽出した第2抽出データから前記所定の特異性を検出して可視化する可視化手段と、を有する。
 嗜好情報のように、検閲の場において抑圧されたり変形して放出されたりしている情報に対しても適切に対応できる。
本実施の形態による可視化システム及び検閲システムを用いた基幹システムの概略を示すブロック図(a)と、可視化システムの概略を示すブロック図(b)とである。 本実施の形態による嗜好可視化システム及び検閲システムにおける処理の概要を示すブロック図である。 本実施の形態による嗜好可視化システム及び検閲システムにおける処理の概要を示すブロック図である。 本実施の形態による嗜好可視化システム及び検閲システムにおける検閲の場の概略を示す図(a)と、検閲の場の時間変化を示す図(b)である。 本実施の形態の嗜好可視化システム(検閲システム)が接続されたネットワークの例を示す図である。 本実施の形態による嗜好可視化システム及び検閲システムの概略を示すブロック図である。 本実施の形態による嗜好可視化システム及び検閲システムにおける部分空間生成装置の概略を示すブロック図である。 本実施の形態による嗜好可視化システム及び検閲システムにおける候補空間生成装置の概略を示すブロック図である。 本実施の形態による嗜好可視化システム及び検閲システムにおける監視空間生成装置の概略を示すブロック図である。 本実施の形態による嗜好可視化システム及び検閲システムにおける履歴可視化装置の概略を示すブロック図である。 オンライン利用可能な嗜好可視化システム(検閲システム)の概要を示すブロック図である。 オンライン利用可能な嗜好可視化システム(検閲システム)における部分空間生成装置の概略を示すブロック図である。 本実施の形態による嗜好可視化システム及び検閲システムにおける監視装置の概略を示すブロック図である。 本実施の形態による嗜好可視化システム及び検閲システムにおける検閲制御装置の概略を示すブロック図である。 第1の実施例の嗜好可視化システム及び検閲システムを示すブロック図である。 第2の実施例の嗜好可視化システム及び検閲システムを示すブロック図である。 第3の実施例の嗜好可視化システム及び検閲システムを示すブロック図である。
 以下に、本発明の実施例について図面に基づいて説明する。
<<<本実施の形態の概略>>>
 図1(a)は、本実施の形態による可視化システム及び検閲システムを用いた基幹システムの概略を示すブロック図である。
 基幹システムの顧客(個人)は、Web画面上の入力Boxやメールやブログや掲示板やTwitterなどで各種のテキストデータの入力をする。これが個人の発話となる。これらのテキストデータは、基幹システムが取得する。一般に、個人の発話は、テキストデータとして、ネットワークを介して読み取り可能な状態に基幹システムのサーバに記憶される。
 基幹システムは、主にECサイト、SNS、検索サイト、人口知能サイトなどのサービスを提供するシステムである。基幹システムは、基幹システムの顧客に対して、基幹システムに応じて個別サービス(基幹サービス)を提供する。なお、ECサイトは、主として、ネットワークを利用して自社の商品やサービスを販売するサイトである。また、SNSは、主として、人と人とのコミュニケーションを図ることができるように、社会的ネットワークを各種のネットワークを用いて形成するサービスである。検索サイトは、各種の情報を取得するために、主として目的とするWEBを探すためのサービスを提供するサイトである。また、人工知能は、ネットワークを介して、自動的に会話をすることができるサービスを提供するように構成されたサイトである。
 基幹システムは、基幹システムの顧客についての個人情報を記憶するデータベースを有する。個人情報は、顧客の実名や住所など、基幹システムが提供するサービスに必要な顧客に関する情報である。
 基幹システムは、顧客から取得した発話を検閲システムに供給する。検閲システムは、各種の検閲制御をするためのデータベースを有する。検閲システムでは、後述するように、検閲の場を生成し、検閲制御をするためのデータベースを参照して、基幹システムに適合した検閲制御(個別サービス)を提供する。たとえば、新製品に興味があると判断された顧客には、新製品に関する各種の情報を提供する。また、精神的・心理的に負担がかかっている顧客には、心を安らかにするような情報や音楽や動画などを提供する。さらに、反社会的・反常識的な発話をするものには、ネットワークの接続を遮断するなど、各種のサービスを中止できるようにする。
 検閲システムは、顧客から取得した発話に関して検閲のための情報を可視化システムに供給する。可視化システムは、供給された検閲のための情報から履歴情報を蓄積するとともに、履歴情報から監視情報を生成し、検閲システムに供給する。検閲システムは、供給された監視情報に基づいて、上述した検閲制御(個別サービス)を基幹システムに提供する。
 図1(b)は、本実施の形態による可視化システムの概略を示すブロック図である。可視化システムは、検閲の場生成機能と、可視化機能と、監視機能とからなる。検閲の場生成機能は、個人の発話から検閲の場を生成する機能である。可視化機能は、生成した検閲の場から発話について特異性を検出して特異性を可視化するための機能である。監視機能は、特異性が検出された発話について、主として発話の個人について監視する機能である。
 図2A及び図2Bは、本実施の形態による嗜好可視化システム及び検閲システムの概略を示すブロック図である。
<<第1の態様>>
 本実施の形態の第1の態様によれば、
 複数の文字列からなるテキストデータを含む一つの外部情報を、入力インターフェイスを通じて受信し、その内容の特異な情報を抽出するためのプログラムを実行するコンピュータを備えたシステムであって、このコンピュータは前記プログラムを実行して以下の処理を実行する。
 入力されたテキストデータを捨象して予め用意された複数の関連テキストデータに変換する処理と、
 その一つの外部情報に関連テキストデータが示す対象に関して所定の特異性を示す特異条件を満たす場合には、その関連データを特異な関連テキストデータとして判定する処理と、
 特異な関連テキストデータとして判定した関連テキストデータを、その外部情報に含まれる個人を識別するためのユーザID及び特異条件に関わる条件と関連して記憶する処理とを含む。
 たとえば、特定の個人の会話に頻繁に出てくる表現をその個人に対して特異なものとして捉えるという新たな嗜好抽出機能を持つことによって、その個人が好きな食べ物、趣味、或いは、興味のあるジャンルを間接的に割り出すことが可能となる。
<<第2の態様>>
 また、本実施の形態の第2の態様によれば、
 個人によって生成された個人生成データに基づくテキストデータから所定の内容を含むデータを捨象し、捨象したテキストデータを意味識別可能な分解テキストデータに分解する工程と、
 前記分解テキストデータを、個人生成データを生成した個人を識別できるユーザIDに関連づけて記憶する工程と、を含む。
 図2A(a)を参照して、本実施の形態の第2の態様について説明する。まず、個人によって生成された個人生成データに基づくテキストデータから所定の内容を含むデータを捨象する。本実施の形態において、個人生成データは、個人によって生成されたデータであればよい。たとえば、個人がキーボードなどから入力したテキストデータなどがある。このテキストデータには、Web画面上の入力Boxやメールやブログや掲示板やTwitter(登録商標)などに入力されたデータがある。また、個人によって生成されたデータには、音声データや画像データなどもある。音声データや画像データなどの場合には、認識処理を実行することによって、テキストデータに変換することができる。個人によって生成された個人生成データに基づくテキストデータとは、このように、音声データや画像データなどからテキストデータに変換したテキストデータを意味する。
 また、所定の内容とは、たとえば、個人情報などがある。ここで、個人情報は、個人を直ちに特定することができる氏名や住所や電話番号などの情報をいう。なお、アカウントやハンドル名などは、他のデータベースなどを参照することで個人を特定できる可能性はあるが、その情報のみでは直ちに個人を特定できないので個人情報には含めない。このような所定の内容を捨象することによって、処理すべきテキストデータに個人情報などの所定の内容が含まれないようにすることができる。
 さらに、所定の内容を捨象したテキストデータを意味識別可能な分解テキストデータに分解する。たとえば、意味識別可能な分解テキストデータに分解する処理には、形態素解析などがある。形態素解析をすることによって、名詞や動詞や形容詞などの所定の品詞に分離することができ、意味を識別できる単位データに分離することができる。
 さらにまた、分解テキストデータをユーザIDに関連づけて記憶する。ここで、ユーザIDは、個人生成データを生成した個人を識別できる情報である。なお、個人を識別できればよく、個人情報を特定する情報である必要はない。
 このようにすることで、所定の内容を含むデータを捨象するので、個人生成データに含まれる個人情報などの所定の内容を示すデータが嗜好可視化システムや検閲システムから外部に漏れることを防止できる。
 この分解テキストデータが「関連詞」に対応する。
<<第3の態様>>
 また、本実施の形態の第3の態様によれば、
 個人によって生成された個人生成データに基づくテキストデータを意味識別可能な分解テキストデータに分解し、前記分解テキストデータのうち、前記分解テキストデータが示す所定の対象について所定の関連条件を満たす関連対象を示す関連テキストデータを抽出する工程と、
 前記関連テキストデータを前記所定の関連条件に関連づけて記憶する工程と、を含む。
 図2A(b)を参照して、本実施の形態の第3の態様について説明する。まず、分解テキストデータのうち関連対象を示す関連テキストデータを抽出する。分解テキストデータは、上述したように、意味を識別できるようにテキストデータを分割した単位データである。
 関連対象は、分解テキストデータが示す対象について所定の関連条件を満たす対象である。分解テキストデータが示す所定の対象とは、たとえば、メールなどのテキストデータに含まれている各種の話題や内容などである。具体的には、ある所定の食品や車や観光地などがある。所定の関連条件を満たす関連対象とは、分解テキストデータが示す対象に関連する対象である。関連は、所定の関連条件を満たすものである。たとえば、所定の対象が食品のラーメンである場合に、所定の関連条件を定めることによって、関連対象に、醤油味のラーメンや、塩味のラーメンや、とんこつ味のラーメンなどを含めることができる。
 これらの所定の対象や関連条件は、検閲システムの運用者が所望する情報が抽出できるように定めればよい。所定の対象のみを抽出した場合には、関連する対象を抽出することができず、抽出結果が不十分になる可能性がある。関連条件を適宜定めることによって、所定の対象だけでなく、所定の対象とそれに関する関連対象とを含む情報を抽出することができる。検閲システムの運用者が関連条件を定めることによって、所望する情報を狭すぎずかつ広すぎず的確に抽出することができる。
 この所定の関連条件を満たす関連対象を示す関連テキストデータを抽出する工程が、「基本フィルタ」に対応する。1つの関連条件が1つの基本フィルタに対応する。1つの関連条件によって分解テキストデータから関連テキストデータを抽出する工程によって1つのドメインが生成される。1つのドメインには、所定の対象を示す分解テキストデータと、関連対象を示す分解テキストデータとの双方を含む。所定の対象を示す分解テキストデータと、関連対象を示す分解テキストデータとによって、関連テキストデータが構成される。
 ドメインは、分解テキストデータから抽出した関連テキストデータによって構成される集まり(collection)を意味する。関連条件を異ならしめることで、その関連条件に応じた単一のドメインが生成される。検閲システムの運用者が関連条件を定めることができる。したがって、検閲システムの運用者は、所望する抽出結果が得られるように複数の関連条件を定めて、その各々についてドメインを生成することができる。
 図3(a)に示すように、上述した関連条件を示すためのドメインが構成される。ドメインは、複数の関連条件を区分して識別するためのものである。したがって、複数の関連条件の各々に対応してドメインが生成される。
 図3(a)に示した検閲の場の例では、ドメインは、u~uの4つのみであり、上述したように関連条件(基本フィルタ)を異ならしめることで、4つのドメイン(u~u)が生成される。図3(a)では、4つのドメイン(u~u)の各々を破線で囲んで示した。後述するように、4つのドメイン(u~u)の各々は、5つの部分空間からなる。図3(a)に示したドメインは、4つの関連条件(基本フィルタ)を用いて4つのドメイン(u~u)が生成された例を示す図である。ドメインの各々には、それぞれに対応する関連条件を満たす関連テキストデータが属する。
 さらに、抽出した関連テキストデータを所定の関連条件に関連づけて記憶する。このようにすることで、関連テキストデータだけでなく、それを抽出した所定の関連条件も記憶させることができ、その後の処理の条件を的確に定めることができる。具体的には、ある個人が発話したある1つの単語のみを検閲の対象とするのではなく、発話した1つの単語に関連する単語、たとえば、隠語などを含めることができ、検閲すべき範囲を広げることができる。
<<第4の態様>>
 また、本実施の形態の第4の態様によれば、
 個人によって生成された個人生成データに基づくテキストデータのうち、テキストデータが示す対象について所定の特徴条件を満たす特徴テキストデータを抽出する工程と、
 前記特徴テキストデータを前記所定の特徴条件に関連づけて記憶する工程と、を含む。
 図2A(c)を参照して、本実施の形態の第4の態様について説明する。まず、テキストデータのうち、所定の特徴条件を満たす特徴テキストデータを抽出する。所定の特徴条件は、テキストデータが示す所定の対象の属性に関する条件である。属性は、所定の対象の特性や特色などの各種の特徴である。この各種の特徴は、客観的な特徴だけでなく、所定の対象に対する感情や心理などに基づく主観的に表現される特徴でもよい。
 また、属性は、いわゆる嗜好と捉えることができる。所定の対象に関する心理的な特徴や、所定の対象に関する統計的な特徴などがある。心理的な特徴には、所定の対象に関して、攻撃的・感情的な心理的な表現、衝動的な心理的な表現、欲求に関する表現などがある。また、統計的な特徴には、所定の対象に関する回数や時間などの各種の統計量や、これらの各種の統計量を得る手法や手段などがある。
 属性(嗜好)は、特徴パラメータとして数値化して処理する。数値化することによって、検閲対象や関連対象の特徴を評価することができる。たとえば、属性は、個人生成データに基づくテキストデータに含まれる形容詞的な表現や副詞的な表現などから、個人生成データを生成した個人の感情や心理などの表現を抽出することができる。
 具体的には、所定の対象及び関連対象が食品である場合には、所定の対象及び関連対象に関する属性として、おいしい、まずい、甘い、辛い、熱い、冷たい、また食べたい、二度と食べたくないなどの所定の対象及び関連対象について個人によって述べられた客観的及び主観的な各種の特徴がある。また、所定の対象及び関連対象が車である場合は、燃費が良い、燃費が悪い、エコ、ハイブリッド、大型、小型、是非購入したい、未だ購入しないなどの所定の対象及び関連対象について個人によって述べられた客観的及び主観的な各種の特徴がある。
 この所定の特徴条件を満たす特徴テキストデータを抽出する工程が、「適合フィルタ」に対応する。この工程によって部分空間が生成される。この場合には、個人生成データに基づくテキストデータから特徴テキストデータが抽出される。
 上述した本実施の形態の第4の態様では、個人によって生成された個人生成データに基づくテキストデータから特徴テキストデータを抽出する場合を示したが、上述した第2の態様で生成した分解テキストデータから特徴テキストデータを抽出したり、第3の態様で抽出した関連テキストデータから特徴テキストデータを抽出したりしてもよい。
<関連テキストデータから特徴テキストデータを抽出する場合>
 特に、第3の態様で抽出した関連テキストデータから特徴テキストデータを抽出するのが好ましい。関連テキストデータから特徴テキストデータを抽出することで、部分空間が生成される。この場合には、属性は、所定の対象だけでなく、所定の対象と関連対象との双方の特性や特色などの各種の特徴である。この各種の特徴は、客観的な特徴だけでなく、感情や心理などに基づく主観的に表現される特徴でもよい。このようにすることで、所定の対象の属性を示す特徴テキストデータを抽出するだけでなく、所定の対象と関連対象との双方の属性を示す特徴テキストデータを抽出することができる。
 図3(a)に示した検閲の場の例では、属性(嗜好)は、j=1~5の5つのみであるが、上述したように特徴条件(適合フィルタ)を異ならしめることで、嗜好を切り替えることができる。図3(a)に示した検閲の場は、5つの特徴条件(適合フィルタ)を用いて5つの嗜好を画定した例を示す図である。
 生成したドメインにおいて、関連条件(基本フィルタ)と特徴条件(適合フィルタ)とを定めることで、1つの部分空間を指定することができる。すなわち、関連条件(基本フィルタ)と特徴条件(適合フィルタ)とによって抽出することで部分空間を生成できる。したがって、部分空間には、関連条件(基本フィルタ)と特徴条件(適合フィルタ)を満たす特徴テキストデータが属する。
 たとえば、図3(a)の例では、所定の関連条件(基本フィルタ)(i=2に対応する関連条件)を用いることで、ドメイン(u)を抽出できる。次に、その抽出されたドメイン(u)に対して、嗜好として、所定の特徴条件(適合フィルタ)(j=3に対応する特徴条件)を用いることで、ドメイン(u)のうちの部分空間(e23)((i,j)=(2,3))を抽出できる。すなわち、図3(a)の例では、20個の部分空間(e11~e45)のうち、所定の関連条件(基本フィルタ)と特徴条件(適合フィルタ)とによって、1つの部分空間を抽出できる。部分空間を抽出することによって、抽出された部分空間に属する特徴テキストデータを抽出することができる。たとえば、(i,j)=(2,3)の部分空間に属する特徴テキストデータを抽出することができる。
 図3(a)に示すように、4つのドメイン(u)(i=1~4)の各々は、5つの部分空間からなる。ドメイン(u)は、5つの部分空間(e11~e15)からなり、ドメイン(u)は、5つの部分空間(e21~e25)からなり、ドメイン(u)は、5つの部分空間(e31~e35)からなり、ドメイン(u)は、5つの部分空間(e41~e45)からなる。
 複数の関連条件(基本フィルタ)と複数の特徴条件(適合フィルタ)に基づいて生成された部分空間から検閲の場が構成できる。この検閲の場において、所定の複数の関連条件(基本フィルタ)と、所定の複数の特徴条件(適合フィルタ)とを用いることによって、所望する複数の部分空間を指定することができる。このようにすることで、検閲システムの運用者が、検閲が必要であると所望する部分空間を指定することができる。
 また、所定の対象を示す分解テキストデータと、関連対象を示す分解テキストデータとの双方から、所定の特徴条件を満たす特徴テキストデータを抽出できる。すなわち、所定の対象と関連対象とのうちの所定の特徴条件を満たす対象が含まれる分解テキストデータが、特徴テキストデータとして抽出される。
 さらに、検閲の場において、分解テキストデータと特徴テキストデータからなる分布特性を抽出することができる。この分布特性は、検閲の場における情報の抑圧されたり変形して放出されたりしている様態を反映したものである。この分布特性に基づき、検閲システムの運用者が、検閲が必要となる一つあるいは複数の部分空間を選択することができる。
 さらにまた、特徴テキストデータを所定の特徴条件に関連づけて記憶する。このようにすることで、特徴テキストデータだけでなく、それを抽出した所定の特徴条件も記憶させることができ、その後の処理の条件を的確に定めることができる。
<<第5の態様>>
 また、本実施の形態の第5の態様によれば、
 個人によって生成された個人生成データに基づくテキストデータのうち、テキストデータが示す対象に関して所定の特異性を示す特異条件を満たす特異テキストデータを抽出する工程を含む。
 図2A(d)を参照して、本実施の形態の第5の態様について説明する。まず、テキストデータのうち、所定の特異性を示す特異条件を満たす特異テキストデータを抽出する。所定の特異性を示す特異条件は、たとえば、所定の対象についての特異性を意味する。特異性は、たとえば、所定の対象に関する各種の量や度合いや変化率などが所定の閾値よりも大きいか又は小さいかによって判断できる。各種の量や度合いや変化率などは、所定の演算処理によって算出できるパラメータであり、所定の対象に関して生じている事象を特徴付けられるものである。
 この所定の特異条件を満たす特異テキストデータを抽出する工程が、「構成フィルタ」に対応する。この工程によって候補空間が生成される。この場合には、個人生成データに基づくテキストデータから特異テキストデータを抽出できる。
 テキストデータが示す対象に関して所定の特異性を示す特異条件を満たす特異テキストデータを抽出するので、監視すべき対象の範囲を画定でき、監視結果にノイズが含まれる可能性を低くできる。
<<第6の態様>>
 また、本実施の形態の第6の態様によれば、
 個人によって生成された個人生成データに基づくテキストデータを意味識別可能な分解テキストデータに分解し、前記分解テキストデータのうち、前記分解テキストデータが示す対象について所定の関連条件を満たす関連対象を示す関連テキストデータを抽出する工程と、
 前記関連テキストデータのうち、テキストデータが示す対象の属性について所定の特徴条件を満たす特徴テキストデータを抽出する工程と、
 特徴テキストデータが示す対象に関して所定の特異性を示す特異条件を満たす特異テキストデータを抽出する工程と、を含む。
 図2B(e)を参照して、本実施の形態の第6の態様について説明する。図2B(e)に示すように、特徴テキストデータから特異テキストデータを抽出するように構成することができる。ここで、特徴テキストデータは、第2の態様による検閲のための嗜好可視化作業によって、個人生成データに基づくテキストデータを分解テキストデータに分解する。次に、第3の態様による検閲のための嗜好可視化作業によって、分解テキストデータから関連テキストデータを抽出する。次に、第4の態様による検閲のための嗜好可視化作業に基づいて、関連テキストデータから特徴テキストデータを抽出する。第6の態様による検閲のための嗜好可視化作業には、このようにして抽出された特徴テキストデータから特異テキストデータを抽出する。
 このように、特徴テキストデータから特異テキストデータを抽出することで、部分空間の内部に候補空間を生成することができる。たとえば、図3(a)に示した検閲の場の例では、20個の部分空間に対して、所定の特異性を示す特異条件を満たす候補空間が生成される。特異条件を満たせば候補空間は抽出され、候補空間を構成する部分空間の数は、1つでも複数でもよい。
 所定の特異性を示す特異条件は、所定の対象だけでなく、所定の対象と関連対象との双方についての特異性を意味する。たとえば、所定の対象及び関連対象に関する各種の数や量や度合いや変化率などが所定の閾値よりも大きいか又は小さいかによって判断できる。各種の数や量や度合いや変化率などは、所定の演算処理によって算出できるパラメータであり、所定の対象及び関連対象に関して生じている事象を特徴付けられるものである。
 特に、複数の部分空間が構成されている場合であって、一部の部分空間における所定の対象及び関連対象が、残りの部分空間における所定の対象及び関連対象に対して、なんらかの特異性を有する場合には、所定の特異条件を満たす特異テキストデータを抽出する工程(構成フィルタ)によって、特異性を有すると判断された一部の部分空間に含まれる所定の対象及び関連対象を示す特異テキストデータを抽出することができる。
 たとえば、あるドメインのうちの一部の部分空間において「ラーメン」という語(発話)の出現回数が、残りの部分空間よりも多い場合には、所定の特異条件を満たすとして、「ラーメン」という語を含む関連テキストデータや特徴テキストデータから特異テキストデータを抽出する。また、新製品の商品名を示す語の出現回数の変化率が、残りの部分空間よりも多い場合には、所定の特異条件を満たすとして特異テキストデータを抽出する。このように、所定の対象及び関連対象について複数の部分空間の間で比較することで、複数の部分空間のうち、所定の対象及び関連対象について偏っている部分空間や歪んでいる部分空間を取得でき、所定の対象及び関連対象に関する特異性を判断して、特異テキストデータを抽出することができる。
 また、たとえば、後述する所定の一のコミュニティを一のドメインに対応するようにして、複数の部分空間を構成した場合には、複数のコミュニティの間で特異性を有する部分空間を発見して、所定の対象及び関連対象に関する特異性を判断することができる。
 テキストデータが示す対象に関して所定の特異性を示す特異条件を満たす特異テキストデータを抽出するので、所定の関連条件(基本フィルタ)や所定の特異条件(適合フィルタ)に基づいて監視すべき対象の範囲を画定でき、監視結果にノイズが含まれる可能性を低くできる。
 また、複数の部分空間の中で、特異テキストデータの有無だけで特異性を判断するのではなく、特異データの出現頻度や分布などから、特異性の重要度を判断する、可視化手法を合わせて具備している。
<<第7の態様>>
 また、本実施の形態の第7の態様によれば、
 個人によって生成された個人生成データに基づくテキストデータが示す対象の履歴に関する履歴情報を生成し、前記個人生成データに基づくテキストデータのうち、前記履歴情報について所定の履歴条件を満たす履歴テキストデータを抽出する工程と、
 前記個人生成データに基づくテキストデータが参照された参照数を、個人生成データを生成した個人を識別できるユーザIDに関連づけて生成し、前記個人生成データに基づくテキストデータのうち、前記参照数について所定の参照条件を満たす参照テキストデータを抽出する工程と、を含む。
 ここで、参照数としてのカウントは、個人を識別するユーザIDに相当するデータ、又は発言の番号などの参照に基づくカウントであり、Twitterで言えばRT、メールで言えばRe:に相当する。たとえば、新製品についてのコメントを抽出した場合に、最初に発言した人物の新商品の名称=捨象したワードについて、最初に発言した人物の発言の重要度が増す訳ではない。有名人の発言などで、「Aさんがこう言っていた」「何番の発言で、こう言っていた」の様に、注目されている=参照数が増えている事を抽出する為の、参照数であり、単純に頻度や回数が多い、捨象されたデータではない。
 図2B(f)を参照して、本実施の形態の第7の態様について説明する。まず、個人によって生成された個人生成データに基づくテキストデータが示す対象の履歴に関する履歴情報を生成する。履歴情報は、テキストデータが示す対象についての履歴を示す情報である。たとえば、対象に関する語がテキストデータに含まれている数や頻度や、対象に関する語を含むテキストデータの数や頻度や出現率などがある。これらによって、個人生成データを生成した個人が、対象についての情報を過去に生成した回数や頻度や出現率を得ることができる。履歴情報を用いることにより、ある一定の時刻や一定の時期を用いた判断だけでなく、経過や変化の状態を含めて判断できる。また、所定の対象に関してなんらかの密度の高低や頻度や回数などの大小や、時間による推移の変化の程度も用いて判断できる。
 さらに、この履歴情報について所定の履歴条件を満たす履歴テキストデータをテキストデータから抽出する。
 個人生成データに基づくテキストデータが参照された参照数をユーザIDに関連づけて生成する。参照数は、個人生成データに基づくテキストデータが他の個人によって参照された数である。すなわち、一の個人が生成した個人生成データに基づくテキストデータを、他の個人が参照した数である。
 さらに、参照数について所定の参照条件を満たす参照テキストデータを、個人生成データに基づくテキストデータから抽出する。
 履歴情報によって時間とともに変化する状況を含めて検索することができる。また、参照数によりユーザIDに対応する個人の影響の大きさを取得できる。
 上述した本実施の形態の第7の態様では、個人によって生成された個人生成データに基づくテキストデータから、履歴情報を生成したり、履歴テキストデータを抽出したりする場合を示したが、上述した第2の態様で生成した分解テキストデータから履歴テキストデータを抽出したり、第3の態様で抽出した関連テキストデータから履歴テキストデータを抽出したり、第6の態様で抽出した特徴テキストデータから履歴テキストデータを抽出したりしてもよい。
<特徴テキストデータから履歴テキストデータを抽出する場合>
 特に、第6の態様で抽出した特徴テキストデータから履歴テキストデータを抽出するのが好ましい。特徴テキストデータから履歴テキストデータを抽出することで、候補空間から監視空間が生成される。すなわち、図3(a)に示すように、第3の態様によってドメインが生成され、第4の態様によって部分空間が生成され、第5の態様によって候補空間が生成され、この第7の態様によって監視空間が生成される。
 この場合には、所定の対象だけでなく、所定の対象と関連対象との双方に関する語がテキストデータに含まれている数や頻度や、対象と関連対象とに関する語を含むテキストデータの数や頻度や出現率などがある。これらによって、個人生成データを生成した個人が、対象と関連対象についての情報を過去に生成した回数や頻度や出現率を得ることができる。履歴情報を用いることにより、ある一定の時刻や一定の時期を用いた判断だけでなく、経過や変化の状態を含めて判断できる。また、所定の対象に関してなんらかの密度の高低や頻度や回数などの大小や、時間による推移の変化の程度も用いて判断できる。このようにすることで、図3(b)に示すように、時間とともに変化する部分空間を監視空間として抽出して生成することができる。
<<第8の態様>>
 また、本実施の形態の第8の態様によれば、
 前記履歴テキストデータに基づいて監視情報を生成する工程をさらに有する。
 たとえば、監視は、主として、履歴テキストデータに基づいて、履歴テキストデータの元になった個人生成データを生成した個人を監視したり、履歴テキストデータに基づいて、履歴テキストデータが示す対象を監視したり、個人と対象との双方を監視することを意味する。監視情報は、監視すべき個人や対象と、これらに対する監視の内容や方法などを示す情報である。また、監視すべき個人は、ユーザIDを用いることによって定めることができる。
<<第9の態様>>
 また、本実施の形態の第9の態様によれば、
 前記監視情報に基づいて検閲制御コマンドを生成する工程をさらに有する。
 検閲制御コマンドは、監視すべき個人や対象と、これらに対する監視の内容や方法などに応じて具体的な実行可能なコマンドとして生成される。たとえば、検閲制御コマンドは、監視すべきユーザIDに対して所定のメッセージや所定のデータを送信したりするソフトウェア処理によって実行できるものがある。また、検閲制御コマンドは、ネットワークの電気的な接続を遮断するなどのハードウェア処理によって実行できるものもある。また、検閲制御コマンドは、個人の嗜好特性に見合った、新たな情報提供を実行することもある。この様に、個人に対してサービスの提供を抑制したり変形したりするだけでなく、新たなサービスや関連情報の提供を行うことも含まれる。
 以上から、以下のような情報処理システムも提供できる。
 情報処理システムは、
 個人によって生成された個人生成データに基づくテキストデータを意味識別可能な分解テキストデータに分解し、前記分解テキストデータから、前記分解テキストデータが示す対象について所定の関連条件と前記対象について所定の特徴条件とを満たすデータを抽出し、抽出した第1抽出データの集まりを検閲の場として生成する検閲の場生成手段と、
 前記第1抽出データの集まりから、前記対象に関して所定の特異性を示す特異条件を満たすデータを抽出し、抽出した第2抽出データから前記所定の特異性を検出して可視化する可視化手段と、を有する。
 さらに、情報処理システムは、
 前記第2抽出データに基づいて、監視すべき個人と監視の制御をする監視内容とを決定する監視手段とを有することが好ましい。
<<<監視システムを含むネットワーク環境>>>
 図4は、本実施の形態の監視システム(検閲システム)が接続されたネットワークの例を示す図である。
<<ネットワーク10>>
 ネットワーク10には、各種の端末装置や、監視システム100が通信可能に接続されている。ネットワーク10には、ルータやハブなどの各種の通信機器(図示せず)によって構成されるノードが相互に接続されて通信網を形成している。ネットワーク10は、有線、無線、専用回線、交換回線、ローカル・エリア・ネットワーク(LAN)などの種類を問わず、ネットワーク10に接続されている各種の端末装置や監視システム100との間で通信することができる。ネットワーク10を流れる各種の情報は、複数のパケットなどに分割されてノード間を転送される。このようにすることで、発信元の端末装置から送信先の端末装置に至るまで、情報を送信することができる。
<<端末装置>>
 ネットワーク10に通信可能に接続されている各種の端末装置には、コンピュータ12や携帯電話14や固定電話機(IP電話機を含む)16や携帯端末装置(図示せず)などがある。携帯端末装置は、無線通信網(図示せず)を介してネットワーク10に接続されている。また、固定電話機16は、固定電話網(図示せず)を介してネットワーク10に接続されている。端末装置は、主として、個人が操作するものであり、個人が入力したり生成したりした各種のデータをネットワーク10に送り出すことができる。
<<サーバ20>>
 サーバ20は、各種の端末装置で入力又は生成された各種のデータを保存する。サーバ20は、たとえば、ウェブサーバやメールサーバやデータベースサーバなどの各種のサーバがある。サーバ20は、その種類や機能や数は問わないが、ネットワーク10を介して、端末装置から送信されたデータを監視システム100が読み出し可能に記憶するものであればよい。
 また、サーバ20は、端末装置で入力又は生成されたデータを作成した作成者を識別する作成者識別データも記憶する。端末装置で入力又は生成されたデータ自体に作成者識別データが含まれている場合もある。さらに、端末装置でデータが入力又は生成された日時を示す日時データも記憶する。これらの作成者識別データや日時データは、端末装置で入力又は生成されたデータと同様に、監視システム100が読み出し可能に記憶されるものであればよい。
<<監視システム100(検閲システム)>>
 監視システム100は、ネットワーク10に常時又は所定のタイミングごとに接続される。監視システム100は、主として、サーバ20に蓄えられた各種のデータを収集して取得する。なお、サーバ20からではなく、各種の端末装置から発せられた各種のデータを収集してもよい。いずれにしても、個人が各種の端末装置を操作することによって入力・生成された各種のデータを、ネットワークを介して取得できればよい。以下では、サーバ20から各種のデータを取得する場合について説明する。
 端末装置において入力されたり生成されたりするデータは、主として、個人によって入力されたり生成されたりしたテキストデータである。なお、テキストデータは、バイナリ形式であっても、テキスト形式に変換できるものであればよい。
 これらのテキストデータは、ブログとして生成されたデータや、いわゆるTwitterなどのような短いデータなど、個人がネットワーク10を介して発信するデータで、かつ、監視システム100がネットワーク10を介して収集できるデータであればよい。すなわち、個人がネットワーク10を介して公衆に発信し、監視システム100が収集できるテキスト形式のデータであればよい。
 また、端末装置において入力されたり生成されたりするデータは、テキストデータのほか、音声データや画像データなどもある。このような音声データや画像データなどであっても、音声認識や画像認識などの各種の認識処理によって、テキストデータに変換することができる。監視システム100は、元々テキストデータであるもののほかに、テキストデータに変換されたものも処理の対象とする。音声データや画像データからテキストデータへの変換は、監視システム100において実行しても、監視システム100の外部において実行してもよい。
<<<監視システム100の構成>>>
 監視システム100は、中央処理装置(CPU)、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、入出力インターフェイス(I/O)及び外部記憶装置を有する。これらが所定のプログラムに従って機能することによって、後述する検閲の場生成装置、監視情報抽出装置、候補空間生成装置などを構成する。
<<変換装置>>
 監視システム100は、入出力インターフェイス(I/O)を有する。監視システム100は、入出力インターフェイス(I/O)を介してネットワーク10に接続されている。監視システム100は、ネットワーク10を介して各種のデータを収集する。変換装置は、収集したデータがテキストデータである場合には、テキストデータを加工しない。一方、変換装置は、収集したデータが音声データや画像データ等である場合には、データの形式に応じた認識処理を選択し、テキストデータに変換する。なお、上述したように、データの変換は、監視システム100において実行しても、監視システム100の外部において実行してもよい。
 このように、本実施の形態の監視システム100で扱うテキストデータには、変換装置による処理を経ることなく元々テキストデータであるデータや、変換装置によってテキストデータに変換されたデータがある。以下では、これらのデータを処理用テキストデータと称する。処理用テキストデータには、人物、物品、地名などの対象となる各種の単語が含まれている。
<<処理用テキストデータの対応付け>>
 上述したように、サーバ20は、作成者識別データ及び日時データも監視システム100が読み出し可能に記憶する。作成者識別データ及び日時データを処理用テキストデータに対応付ける。このようにすることで、処理用テキストデータを作成した作成者や、処理用テキストデータが作成された日時を用いた検索をすることが可能になる。
<<個人データの捨象>>
 処理用テキストデータは、様々な個人が入力したり生成したりしたものである。このため、処理用テキストデータに各種の個人情報が含まれている可能性がある。本実施の形態の監視システム100は、個人情報を保護する観点から、処理用テキストデータから個人情報を捨象する処理をする。たとえば、個人を特定する人名やその個人の住所、電話番号、メールアドレスなどを判別し、処理用テキストデータからそれらを捨象し処理用テキストデータを加工する。
<<関連語句の生成>>
 処理用テキストデータは、作成者が表現する各種の対象を示すデータである。たとえば、対象は、有名な人物、食品、車、音楽、旅行など、各種の分野にわたる概念を示す。この対象を示すデータにするために、処理用テキストデータを、所定の意味を有する最小の文字列からなる単位データに分割する処理を実行する。たとえば、処理用テキストデータに対して形態素解析をすることによって形態素という単位データに分解することができる。なお、対象を示すデータに分割する処理は、形態素解析には限られず、処理用テキストデータから所望する文字列のデータに分離する処理ならばよい。
 処理用テキストデータには、作成者識別データ及び日時データが対応付けられている。したがって、処理用テキストデータに対応付けられている作成者識別データ及び日時データを、そのまま、対象を示す文字列データに対応付けることができる。
 上述したように、対象は、有名な人物、食品、車、音楽、旅行などの概念である。したがって、対象には、同義語や類語や隠語などの関連する関連対象が存在する。検索の漏れを防止するために、一の対象を示すデータに対して、少なくとも関連対象を示すデータを付加する。たとえば、所定のシソーラスを用いることで、同義語や類語や隠語などの関連する関連対象を導出できる。
 図5を参照して、より具体的な嗜好可視化システム及び検閲システムを説明する。
<第1段階>
 第1段階として、捨象プログラムを実行することによって、入力される様々な表現(テキストデータ)を、例えば、ジャンルや嗜好あるいは方言や感情などの複数のカテゴリからなる関連詞(意味識別可能な複数の分解テキストデータを予め定められた関連テキストデータに変換したもの)に加工する。この加工処理は、関連詞の群の中に予め用意された監視したい特異な関連詞が存在するかどうかを分析する処理のための前処理である。この加工処理をすることによって、関連詞の群自体が外部に流出しても個人情報が流出する問題を回避できる。
 上述したテキストデータは、入力インターフェイスを介して外部から入力される。テキストデータを入力した「ある個人」として、関連詞について検閲の対象にされる者(以下、検閲者と称する)は、ユーザIDによって特定できる。このユーザIDと関連詞とは、紐付けられて対で扱われる。
 この関連詞には、例えば、(1)明らかに検閲対象であることが分かる用語、(2)関心を持つ者には検閲対象であることがわかる用語、(3)専門家には検閲対象であることがわかる用語などの隠語が含まれている。したがって、従来のように、ある所定の言葉、たとえば、危険な言葉やある用語を発するユーザだけを抽出して特定するような検閲とは異なる。
 例えば、ある歌手に興味のある人間であれば、その歌手について相性などを入力する場合もあるし、また、車関係に興味のある人間であれば、「省エネに適した物」や「エコ」という表現を使うことで、ハイブリッドカーや電気自動車のことを指す場合もあり得る。したがって、第1のフィルタリング処理(たとえば、基本フィルタに対応)により、コンピュータが「省エネに適した物」を関連詞に紐付けして置き換える場合には、「ハイブリッド」とか「電気」に置き換えて検閲の場を生成する。この検閲の場の生成は、後の部分空間や監視空間を生成するためのフィルタリングの前処理である。
 しかも、前述した(1)~(3)のように、置き換える関連詞が異なる隠語レベルの異なる複数のフィルタ(基本フィルタ)で構成しているので、これらの基本フィルタの数と同数のドメインが生成されることになる。隠語レベルの異なる基本フィルタを変更することによって、関連詞について検閲の対象にされる者がある業界に精通している人である場合に適したフィルタにしたり、この検閲システムを運用する運用者に適した特有のフィルタ(ドメイン用語)にしたりすることができ、検閲システムの設計の自由度を高くし運用が容易なシステムにできる。
 上述した基本フィルタごとにドメインが画定される。
 さらに、そのままの生のテキストデータでドメインを生成した場合には、本人の承諾を得ること無く個人情報が外部に流出したときには、法的な問題が生じ得る。このような場合に、隠語レベルの異なる複数のフィルタを用いることによって個人情報を捨象するとともに、上述した関連詞に変換することによって、検閲対象から外れてしまうという問題を回避できる。
 このドメインにおいては、後に生成する部分空間や候補空間や監視空間と同様に、その空間内において検閲者と関連詞とが紐付けされている。
<第2段階>
 次に、第2段階として、第1段階で生成したドメインに対して、第2のフィルタリング処理を実行することによって、第2のフィルタリング処理ごとに応じた部分空間を生成する。第2のフィルタリング処理においても、検閲者と関連詞との紐付けを維持するので、第2のフィルタリング処理によって生成される部分空間においても、検閲者と関連詞とは紐付けされている。検閲者と関連詞とを対で扱いつつ、予め用意された複数種類のジャンルごとに適合する第2のフィルタリング処理を実行する。第2のフィルタリング処理の複数種類のフィルタは、数百とか数千の多数のフィルタであってもよい。
 より具体的に、「予め用意された複数種類のジャンルごとに適合する第2のフィルタリング処理」のフィルタは、隠語フィルタや分類フィルタあるいは心理フィルタであってもよい。例えば、ある一つの隠語が用いられているかどうかを、ドメインに対してフィルタリングする。
 たとえば、ドメインが、学校の生徒が書き込みを行うWEBの掲示板の内容に基づいて生成された空間である場合に、ある隠語としての関連詞「うざい」について、一つの隠語フィルタで第2のフィルタリング処理をすると、関連詞「うざい」に、この関連詞に対応するユーザIDを紐付けた一連の関連テキストデータ群を抽出できる。この場合には、いじめに関連する関連テキストデータ群を抽出している可能性がある。
 また、ある心理を表す関連詞で第2のフィルタリング処理をすると、ドメインにおいて、その心理に関連するユーザIDとその関連詞が登場する一連の他の関連詞(他の関連テキストデータ)が抽出されて、部分空間が生成される。隠語としては、地方や地域や業界によって様々な表現が存在するので、検閲システムを運用する運用者側が設定できるように設計することが好ましい。
 また、外部から入力されたテキストデータの意味識別可能な複数の分解テキストデータに対して、ある一つの関連詞を割り当てるように設定してもよい。このように構成することで、様々な表現をされる同じような意味の分解テキストデータを一つの関連詞で監視できる。この場合には、分解テキストデータに一つの関連詞を割り当てるためのルックアップテーブルなどを参照するように構成すればよい。
 さらに、新たに入力された外部情報をリアルタイムで監視する場合には、様々に表現された外部情報が監視すべき監視情報としての関連詞に相当するか否かを、外部情報よりも広がりのある範囲に亘って監視することができる。一方、監視対象となるユーザIDが頻繁に使用する関連詞を新たに特異な関連詞として監視対象とすることによって、時間の経過とともに移り変わる変化も容易に監視できる。
 第2のフィルタリング処理によって生成された部分空間から履歴情報を生成し、履歴情報データベースに格納する。履歴情報は、部分空間を構成するドメインを指定し、第2のフィルタリング処理に用いる適合フィルタの種類を指定することで、そのドメインを特徴付けて、どのような関連詞が含まれているのかを判断できる情報である。
 また、履歴情報データベースの情報を外部の可視化装置に出力するための出力インターフェイスを設けることができる。可視化装置としては、例えば、外部入力がなされた日時や、その外部情報を入力した個人を特定するためのユーザIDや、外部情報から変換した関連詞群を文字列で表した表形式でディスプレイに視覚的に表示するものや、あるいは、ディスプレイに棒グラフや曲線グラフとして視覚的に表示するものなどがある。
<第3段階>
 さらに、第3段階として、第2段階で生成した部分空間に対して、第3のフィルタリング処理を実行する。第3のフィルタリング処理は、部分空間に含まれる関連詞に関して特異な状況である否かを判断するために適したフィルタリング処理である。つまり、ある監視レベルの異なる関連詞ごとに、所定の特異条件を満たしたかどうかの判定処理を実行し、特異条件を満たす関連詞を候補空間として抽出する。抽出した候補空間には、ユーザIDごとに関連テキストデータがふくまれる。
 「特異条件を満たしたかどうか」とは、隠語レベルで危険レベルに設定される「麻薬」、「殺人」、「いじめ」、「自殺」、「核爆弾」、「超美味しい」が、例えば、一回でも出てきた場合、「気持ちよい」、「核」、「気持ち悪い」、「美味しい」が一連の外部情報に出現する頻度が高い(例えば、10回)といった予め定められた判定によってフィルタリングされる。
<第4段階>
 加えて、第4段階として、候補空間の前記入力日時データに基づく履歴情報から、前記候補対象のユーザIDを監視対象に設定するかどうかを判定し、この監視対象として設定したユーザIDの前記特異な因子が含まれる候補空間、および、同ユーザIDの前記入力日時データの異なる他の部分空間の関連テキストデータ群に基づいて監視空間の設定を決定するために、第4のフィルタリング処理プログラムを実行する。そして、前記監視空間に設定された関連テキストデータ及び監視対象となるユーザIDを前記監視情報として、後の監視のために取り出し可能な状態でデータベースに格納する。「後の監視のために取り出し可能な状態でデータベースに格納する」とは、監視情報を記憶した監視情報データベースが監視装置と接続されており、外部から外部情報が入力された場合において、が監視対象者のユーザIDからの外部情報である場合には、それに関連する検閲コマンドを外部に出力する一方、監視対象者のユーザIDでない場合であっても、監視対象者が使用する特異な因子とした関連詞が含まれる部分空間が存在した場合に、それに関連する検閲コマンドを外部に出力するようにしている。
<<<本実施の形態による検閲システムの詳細>>>
<<検閲>>
 本実施の形態による検閲システムにより、基幹システムの利用者から形成される場を検閲の場とするような検閲の概念が生成される。したがって、本実施の形態による検閲システムにおける検閲とは、単なる検閲とは異なり、検閲システムが提供する機能やサービスによって特徴付けられるものである。
 本実施の形態による検閲システムは、反社会的な発話や反常識的な発話などをする個人を発見して監視するだけでなく、精神的及び/又は心理的に不安定で悩んでいるような個人や苦痛を感じている個人を発話を介して発見し、保護するために適切な対応をすることに利用してもよい。このように、本実施の形態による検閲システムは、個人の精神状態や心理状態を含めて扱うことができるシステムである。
<<発話>>
 本実施の形態において、発話とは、主として、メール、SMS、ブログ、Twitter、Web画面上の入力Box、掲示板などに様々な情報を書き込むことをいう。この発話の内容が、本実施の形態による検閲システムにおける検閲の対象である。本実施の形態の検閲システムは、メール、SMS、ブログ、Twitter、Web画面上の入力Box、掲示板などに書き込まれた情報を取得して、発話の内容を解析する。メール、SMS、ブログ、Twitter、Web画面上の入力Box、掲示板などに書き込まれた情報は、主として、テキストデータの形式である。
 なお、本実施の形態の検閲システムでは、音声データや画像データなどの形式であっても、テキストデータに変換できるデータならば発話として扱い検閲の対象とする。たとえば、認識処理をすることによって、音声データや画像データなどの各種のデータ形式でも、テキストデータに変換できればよい。本実施の形態の検閲システムは、変換したテキストデータを用いて内容を解析し、発話として検閲の対象とする。
 この発話が、「個人によって生成された個人生成データ」や「個人によって生成された個人生成データに基づくテキストデータ」に対応する。
<<個人情報>>
 本実施の形態において対象となる個人情報は、その情報のみで個人を特定できる情報である。たとえば、氏名や住所などである。一方、その情報のみでは個人を特定できず、他の情報を参照することで個人を特定できる場合には、その情報を個人情報として扱わない。本実施の形態における検閲システムは、個人が発した発話の内容に含まれている個人情報を捨象して扱う。
<<関連詞>>
 本実施の形態による検閲システムは、関連詞と呼ぶキーワードを基礎として構成されており、関連詞が保持している関連情報に基づいて、検閲システムが提供する機能やサービスが実現されている。したがって、関連詞は、通常の検索処理などに用いられるいわゆるキーワードとは異なる。関連詞は、単なるキーワードと異なり、後述する履歴情報や監視情報などの情報を構成するために、たとえば、ドメインや嗜好などの各種の情報を互いに関連づけることができる。
 この関連詞は、発話の内容に含まれた所定の対象を表現するためのデータを含む。発話に含まれる対象とは、個人が発話することによって表現したい具体的で実体的な事物や抽象的な観念などである。
 関連詞が、「関連テキストデータ」に対応する。
<<uniqueID(ユーザID)>>
 uniqueIDは、発話をした個人を特定するための情報である。検閲システムは、uniqueIDを発話の内容と関連づけて関連詞として管理する。uniqueIDは、個人情報そのものではない。uniqueIDは、たとえば、電話番号や免許証番号やIPアドレスや掲示板におけるハンドル名などがある。uniqueIDは他の情報を参照することで個人を特定できる。したがって、検閲システムから外部に個人情報が漏れることはないが、検閲システムの運用者は、uniqueIDを用いて個人を特定することができる。
<<日時情報>>
 日時情報は、個人によって発話されたときを示す年月日及び時分秒などの情報である。検閲システムは、uniqueIDと同様に、日時情報を発話の内容と関連づけて関連詞として管理する。なお、年月日及び時分秒の全ての情報を用いる必要はなく、検閲システムの運用者が所望する情報を適宜選択して用いればよい。たとえば、メールが送信された日時や、掲示板に書き込まれた日時から日時情報を取得できる。
<<ドメイン>>
 本実施の形態における検閲システムでは、個人が発話した内容から、検閲システムの運用者が所望する所定の対象を示す関連詞を抽出して検閲の対象とする。個人の発話の内容から所定の対象を示す関連詞を抽出するために、検閲システムでは、まず、基本フィルタを用いる。
 さらに、本実施の形態における検閲システムでは、個人が発話した内容に含まれる所定の対象を示す関連詞だけでなく、その所定の対象に関連する関連対象を示す関連詞との双方を検閲の対象にする。上述したように、所定の対象は、個人が発話することによって表現したい具体的で実体的な事物や抽象的な観念などである。また、関連する対象は、所定の対象を示す語の同義語や同意語や類義語や連想語や類意語や関連語などのほか隠語などを用いることによって、所定の対象から拡張された対象である。所定の対象を示す関連詞と、その所定の対象から拡張された関連対象を示す関連詞との双方を用いて検閲の対象にする。
 本実施の形態における検閲システムで用いる基本フィルタは、検閲システムの運用者が所望する所定の対象を示す関連詞と、この所定の対象に関連する関連対象を示す関連詞との双方を抽出するためのフィルタである。基本フィルタを用いることによって、所定の対象を示す関連詞と、関連対象を示す関連詞との双方を抽出して、検閲の対象にすることができる。このようにすることで、同義語や隠語なども検閲の対象にすることができ、検閲システムの運用者が所望する検閲を的確に実現することができる。
 所定の対象から関連対象に拡張するために、一般的に入手できるいわゆるシソーラスを用いて基本フィルタを構成してもよい。また、検閲システムの運用者が独自に蓄積・作成したシソーラスを用いて基本フィルタを構成してもよい。検閲システムの運用者が基本フィルタを適宜変更できるように検閲システムを構成することで、検閲システムの運用者が所望する範囲まで関連対象を拡張でき、より的確な検閲を実現することができる。
 基本フィルタは、少なくとも1つ設定することができる。一の基本フィルタを用いて、所定の対象を示す関連詞と関連対象を示す関連詞との双方を個人が発話した内容から抽出することで、一のドメインを形成することができる。一のドメインは、基本フィルタによって抽出された所定の対象を示す関連詞と関連対象を示す関連詞とを含む集まり(collection)の領域である。基本フィルタを複数設定したときには、その各々に対応したドメインが形成される。このようにすることで、各種の所定の対象を示す関連詞と関連対象を示す関連詞とを抽出でき、検閲をより確実に実行することができる。
 複数の基本フィルタとして、複数の類ごとに関連詞を区分するためのフィルタを定めることができる。このようにすることで、個人が発話した内容に含まれている各種の対象を示すキーワード(関連詞)を複数の類ごとに区分して抽出し、抽出した関連詞によってドメインを形成できる。たとえば、所定の類として、所定のジャンルやテーマやカテゴリなどがある。
 図3(a)は、部分空間及び検閲の場の例を示す図である。図3(a)に示す検閲の場においては、1つのセルは、1つの部分空間を意味する。部分空間については、後で説明する。この図3(a)に示した検閲の場は、4つの基本フィルタによって形成された4つのドメイン(u~u)からなる。図3(a)に示すように、複数の基本フィルタ(関連条件)を示すためのドメインを用いる。すなわち、第1の基本フィルタは第1のドメイン(i=1)に対応し、第2の基本フィルタは第2のドメイン(i=2)に対応し、第3の基本フィルタは第3のドメイン(i=3)に対応し、第4の基本フィルタは第4のドメイン(i=4)に対応する。このように、ドメインは、複数の基本フィルタを区分して識別するためのものである。
 第1の基本フィルタによって、ドメイン(u)が生成される。第1のドメインは、個人が発話した内容に含まれている所定の対象や関連対象を示す関連詞のうち、第1の基本フィルタの設定条件に応じて抽出されて形成された集まりの領域である。同様に、第2のドメイン(u)は、第2の基本フィルタの設定条件に応じて抽出された所定の対象や関連対象を示す関連詞によって形成された集まりの領域であり、第3のドメイン(u)は、第3の基本フィルタの設定条件に応じて抽出された所定の対象や関連対象を示す関連詞とによって形成された集まりの領域であり、第4のドメイン(u)は、第4の基本フィルタの設定条件に応じて抽出された所定の対象や関連対象を示す関連詞とによって形成された集まりの領域である。このようにドメインを形成したことにより、ドメインの各々には、所定の対象や関連対象を示す関連詞が少なくとも1つずつ含まれている。
<<嗜好>>
 本実施の形態における検閲システムでは、個人が発話した内容について、その感情を含めて検閲する。一般に、所定の対象について個人が発話するときに、所定の対象に対してよい感情をもって発話している場合と、よくない感情をもって発話している場合とがある。たとえば、ある商品について発話しているときに、その商品に対して、購入したくないとか、絶対に使いたくないなどの不満を感じている場合と、是非購入したいなどの満足している場合とがある。したがって、同じ対象について個人が発話している場合であっても、単にキーワードで検索をしただけでは、検索結果が参考になるものもあれば、参考にならないものもある。このような観点から、所定の対象についての感情を発話の内容から取得し、感情についても検閲の対象にできるようにする。
 本実施の形態における検閲システムでは、所定の対象に対する感情を、所定の対象に関する嗜好として扱う。嗜好は、個人が発話した内容から、具体的には、メール、SMS、ブログ、Twitter、Web画面上の入力Box、掲示板などのテキストデータから、所定の対象を示す語と、形容詞や副詞や動詞などとを抽出し、それらの形容詞や副詞や動詞などを分類して所定の対象に対する嗜好を解析する。その際に、所定の対象に対する感情の程度も解析する。たとえば、非常によい感情を持っている、そこそこよい感情を持っている、あまりよく思っていない、極めてよく思っていないなどの感情の程度も含めて嗜好として扱う。また、その感情を表現している回数なども嗜好として扱う。すなわち、何度も商品をほめているとか、何度も悪口をいっているとか、1回しか発話していないといったことも嗜好として扱う。
 嗜好は、感情に基づく表現に限られず、心理に基づく表現も含まれる。すなわち、嗜好は、個人の発話に含まれている所定の対象に対する感情や心理に基づく主観的に表現される特徴である。言い換えれば、嗜好は、個人が所定の対象に対して感じたことや考えたことや思ったりしたことなどである。嗜好は、メール、SMS、ブログ、Twitter、Web画面上の入力Box、掲示板などのテキストデータから抽出できる主観的な表現であればよい。嗜好は、テキストデータに基づいて特徴パラメータ化されて、演算可能に数値として処理できるようにされている。
 本実施の形態における検閲システムでは、個人の発話の内容から所定の対象に対する嗜好を抽出するために適合フィルタを用いる。適合フィルタは、少なくとも1つ設定することができる。一の適合フィルタを用いて、所定の対象に対する嗜好を個人が発話した内容から抽出することができる。一の嗜好は、一の適合フィルタによって抽出された嗜好であって所定の対象に対する嗜好を示す。適合フィルタを複数設定したときには、その各々に対応した嗜好が抽出される。このようにすることで、所定の対象に対する各種の嗜好を抽出でき、所定の対象に対する感情や心理状態を含めて検閲を実現できる。
 上述したように、図3(a)は部分空間及び検閲の場の例を示す図である。図3(a)に示す検閲の場においては、1つのセルは、1つの部分空間を意味する。部分空間については、後で説明する。検閲の場は、たとえば、個人の発話の内容から取得して検閲の対象となるテキストデータの集まり(collection)から構成される空間である。より具体的には、検閲の場は、検閲の対象となる少なくとも一つのテキストデータから構成され、複数のテキストデータの集まりがある場合には、それらの集まりから構成される。検閲の場は、たとえば、図3(a)に示すように、横軸として嗜好の軸と、縦軸としてドメインの軸とを有する空間(平面)である。さらに、検閲の場は、図3(b)に示すように、嗜好の軸と、ドメインの軸とのほかに、時間の軸を有する空間とすることができる。
 上述したように、検閲の場は、検閲の対象となるテキストデータの集まり(collection)から構成される空間である。この集まりは、数学で用いられる集合の概念である必要はなく、テキストデータを集めて形成したものであればよい。また、同一のテキストデータによって、複数の集まりを構成してもよい。たとえば、同一のテキストデータによって、第1の集まりと第2の集まりを構成するようにして検閲の場を構成してもよい。また、たとえば、一の集まりによって、一の部分空間を構成することができる。
 この図3(a)に示した検閲の場は、5つの適合フィルタの各々に対応する5つの嗜好(j=1~5)を有する。図3(a)に示すように、複数の適合フィルタ(特徴条件)を示すための嗜好を用いる。すなわち、第1の適合フィルタは第1の嗜好(j=1)に対応し、第2の適合フィルタは第2の嗜好(j=2)に対応し、第3の適合フィルタは第3の嗜好(j=3)に対応し、第4の適合フィルタは第4の嗜好(j=4)に対応し、第5の適合フィルタは第5の嗜好(j=5)に対応する。このように、適合フィルタは、複数の嗜好を区分して識別するためのものである。
 第1の嗜好に含まれる部分空間は、個人が発話した内容に含まれている所定の対象や関連対象に対する様々な嗜好のうち、第1の適合フィルタの設定条件に応じて抽出されて形成された集まりの領域である。同様に、第2の嗜好(j=2)に含まれる部分空間は、第2の適合フィルタの設定条件に応じて抽出された所定の対象や関連対象に対する嗜好によって形成された集まりの領域であり、第3の嗜好(j=3)に含まれる部分空間は、第3の適合フィルタの設定条件に応じて抽出された所定の対象や関連対象に対する嗜好によって形成された集まりの領域であり、第4の嗜好(j=4)に含まれる部分空間は、第4の適合フィルタの設定条件に応じて抽出された所定の対象や関連対象に対する嗜好によって形成された集まりの領域であり、第5の嗜好(j=5)に含まれる部分空間は、第5の適合フィルタの設定条件に応じて抽出された所定の対象や関連対象に対する嗜好によって形成された集まりの領域である。
 上述したように、図3(a)に示す検閲の場において、1つのセルは1つの部分空間を意味する。後述するように、基本フィルタによってドメインが生成され、適合フィルタによって、ドメインから抽出されて部分空間が生成される。
<<基本フィルタ・適合フィルタ・部分空間>>
 図6は、基本フィルタと適合フィルタと部分空間の概要を示す図である。
<基本フィルタ>
 基本フィルタは、個人の発話のうち、本実施の形態による検閲システムが検閲の対象とする関連詞を抽出するためのフィルタである。たとえば、個人の発話は、図6に示すように、蓄積された多数の個人データである。個人データは、所定のサーバに蓄積されたデータでも、検閲システムが収集して蓄積したものでもよい。
 基本フィルタは、個人が発話した内容に含まれる所定の対象を示す関連詞だけでなく、その所定の対象に関連する関連対象を示す関連詞も抽出することができる。基本フィルタを用いることによって、単なる関連詞だけでなく、関連詞が示す対象から連想できたり関連詞に関連したりする語や、関連詞の隠語や、関連詞の同義語なども検閲の対象にすることができる。
 図6に示すように、基本フィルタを構成する関連詞の隠語レベルとして、レベルA:明らかに検閲対象であることが一般公衆に理解できる用語、レベルB:関心を有する者には検閲対象であることがわかる用語、レベルC:関連詞の専門家などには検閲対象であることがわかる用語などのように設定することもできる。また、隠語は隠語レベルを選択して可視化できるようにする。たとえば、レベルCの隠語が、数多く存在するレベルAの隠語によって埋もれてしまう場合であっても、可視化して相互に比較できるようにする。
 基本フィルタによって、個人の発話のうち、所定の関連詞を抽出することによって、ドメインが生成される。図6に示すように、具体的には、i番目の基本フィルタによって、個人の発話のうち、所定の関連詞を抽出され、抽出された関連詞によって、i番目のドメインuが生成される。このドメインuにおいては、抽出された関連詞は検閲の対象とされる者(以下、検閲者と称する。)と紐付けられる。検閲者は、上述したuniqueIDによって特定される者である。
 基本フィルタに対応してドメインuが生成される。図3(a)に示すように、基本フィルタを変更して処理することによって、個人の発話から複数のドメインuを生成することができる。
 部分空間生成装置における基本フィルタによって、ドメインuが生成される。部分空間生成装置においては、運用者が基本フィルタを設定することができ、運用者に特有の関連詞を個人の発話から抽出でき、個人の発話から漏れなく関連詞を抽出することができる。ドメインは、関連詞(キーワード)によって構成される集まりである。さらに、ドメインは、抽出した関連詞にuniqueIDを紐付け、隠語レベルを調節しながら検閲の対象とすべき関連詞と検閲者との対の集まりを含む空間である。
 関連詞は、関連詞収集装置によって収集してもよい。また、隠語などの同義語は、同義語拡張支援装置によって拡張してもよい。関連詞収集装置や同義語拡張支援装置は、検閲システムの運用者が所望する検閲ができるように、運用者によって管理され作動される。
<適合フィルタ>
 適合フィルタは、個人の発話の内容から所定の対象に対する嗜好を抽出するためのフィルタである。上述したように、嗜好は、個人の発話に含まれている所定の対象に対する感情や心理に基づく主観的に表現される特徴である。すなわち、嗜好は、個人が所定の対象に対して感じたことや考えたことや思ったりしたことなどである。嗜好は、特徴パラメータ化されて、演算可能に数値として処理できるようにされている。
 図6に示すように、適合フィルタは、分類フィルタと、隠語フィルタと、心理フィルタとから構成してもよい。分類フィルタは、関連詞によって示される所定の対象に対する嗜好を分類して抽出するためのフィルタである。隠語フィルタは、所定の対象に対する嗜好を隠語で表現した場合にも抽出できるようにするためのフィルタである。心理フィルタは、所定の対象に対する心理に基づく表現を抽出できるようにするためのフィルタである。
 適合フィルタは、分類フィルタと隠語フィルタと心理フィルタとのうちの少なくとも1種類からなる。分類フィルタと、隠語フィルタと、心理フィルタとの各々が、複数種類ある場合には、それらの組合せによって、1つの適合フィルタを構成してもよい。たとえば、分類フィルタと、隠語フィルタと、心理フィルタとの組合せによって、j番目の適合フィルタCが構成される。
<部分空間>
 上述したように、基本フィルタに応じて個人の発話からドメインuが生成される。ドメインuに対してj番目の適合フィルタCを用いて、u∩Cを演算することによって、ドメインuに含まれている関連詞から、適合フィルタCを満たす関連詞を抽出し、抽出した関連詞によって部分空間eijが生成される。このように処理することで、部分空間eijは、個人の発話に含まれる関連詞のうち、基本フィルタ(i番目のドメイン)と適合フィルタCとの双方によって抽出された関連詞によって構成される集まりとなる。また、部分空間は、ドメインと同様に、抽出された関連詞にuniqueIDを紐付け、検閲の対象とすべき関連詞と検閲者との対の集まりを含む空間である。
 部分空間生成装置によって、ドメインuに含まれている関連詞から、適合フィルタCを用いて部分空間eijが生成される。部分空間生成装置においては、運用者が適用フィルタを設定することができ、運用者に特有の嗜好を個人の発話から抽出でき、個人の発話から漏れなく嗜好を抽出することができる。
 基本フィルタが、「所定の関連条件」に対応する。適合フィルタが、「所定の特徴条件」に対応する。部分空間に含まれている関連詞が、「第1抽出データ」や「特徴テキストデータ」に対応する。
<<構成フィルタ・候補空間>>
 図7は、構成フィルタと候補空間生成装置の概要を示す図である。
 構成フィルタは、部分空間eijに含まれている関連詞のうち、特異性を示す関連詞を抽出するためのフィルタである。たとえば、構成フィルタは、所定の対象について発話された回数が非常に多いとか、所定の対象についてある時期を境に急に発話が始まったとかの特異条件を満たす関連詞を抽出するためのフィルタである。
 適合フィルタによって抽出された部分空間のうち、特異条件を満たす関連詞を含む部分空間を抽出し、抽出した部分空間から候補空間を生成する。
 特異条件は、たとえば、図7に示すように、検閲者と関連詞の組xに対して定義される種々の関連詞特性に基づく条件で表すことができる。
 関連詞特性としては、たとえば、i番目の関連詞の属性iや、i番目の関連詞の隠語レベルLiや、i番目の関連詞の検閲の場頻度Niや、i番目の関連詞の検閲の場出現率Ni/Nd(Nd:全関連詞数)や、i番目の関連詞の部分空間頻度niや、i番目の関連詞の部分空間出現率ni/ns(ns:全関連詞数)や、部分空間の重みα(=ns/Nd)や、i番目の関連詞の特異指標Δ(=(ni/Ni)/α)などがある。
 さらに、Si、Si/Sd、si、si/ss、β=ss/Sd、Δs=(si/Si)/βなどを特異条件として用いることもできる。これらは、部分空間におけるカバー率を示すパラメータであり、Sdは、検閲の場における検閲文数であり、ssは、部分空間における検閲文数である。
 このような各種の関連詞特性を用いることによって、特異性が現れてくる関連詞を発見しやすくできる。このような特異性が現れた関連詞を含む部分空間を抽出して候補空間を生成する。たとえば、部分空間における特異性は、部分空間において関連詞が存在する偏りや歪などの特性がある。
 図7に示すように、関連詞の特異条件cijに対応する構成フィルタを用いて、σij={x|x∈eij,Δ(x)≧cij}を演算することによって、適合フィルタによって生成された部分空間eijに含まれる関連詞から、特異条件cijを満たす関連詞を抽出し、抽出した関連詞によって候補空間σijが生成される。このように処理することで、候補空間σijは、個人の発話に含まれる関連詞のうち、基本フィルタ(i番目のドメイン)と適合フィルタCと構成フィルタの3種類のフィルタによって抽出された関連詞によって構成される集まりとなる。また、候補空間は、部分空間と同様に、抽出された関連詞にuniqueIDを紐付け、検閲の対象とすべき関連詞と検閲者との対の集まりを含む空間である。検閲者は、上述したuniqueIDによって特定される者である。
 候補空間生成装置によって、部分空間eijに含まれる関連詞から、特異条件cijを満たす関連詞を構成フィルタを用いて候補空間σijが生成される。候補空間生成装置においては、運用側の指定したドメインや嗜好ごとに、関連詞の特異特性を定義することができるので、運用側のサービスに直結する検閲者と関連詞とを抽出することができる。この構成フィルタを用いて抽出された関連詞を特異関連詞と称する。また、構成フィルタを用いて抽出された関連詞に紐付けられた検閲者を候補者(監視すべき候補とされた者)と称する。
 適合フィルタが、「所定の特異性を示す特異条件」に対応する。候補空間に含まれる関連詞が、「特異な関連テキストデータ」に対応する。
<<平衡フィルタ・監視空間>>
 図8は、平衡フィルタと監視空間生成装置の概要を示す図である。
 平衡フィルタは、候補空間に含まれる関連詞について、所定の履歴条件を満たす関連詞を抽出して監視空間を生成するためのフィルタである。履歴条件は、関連詞に関する条件である。たとえば、履歴条件は、ある個人がいつも発話する関連詞であるとか、ある個人がはじめて発話した関連詞であるとか、現在多くの個人が発話して話題になっている関連詞であるなどの関連詞についての履歴から定めることができる条件である。関連詞について、各種の統計処理を行うことで履歴条件を満たすか否かを判断することができる。
 たとえば、関連詞に関する履歴条件histijに対応する平衡フィルタを用いて、fij={(m,w,h)|x=(m,w)∈σij,h∈histij}を演算することによって、構成フィルタによって生成された候補空間σijに含まれる関連詞から、履歴条件histijを満たす関連詞を抽出し、抽出した関連詞によって監視空間fijが生成される。ここで、h=h(frequency(x),reference(m))である。このように処理することで、監視空間fijは、個人の発話に含まれる関連詞のうち、基本フィルタ(i番目のドメイン)と適合フィルタCと構成フィルタと平衡フィルタとの4種類のフィルタによって抽出された関連詞によって構成される集まりとなる。さらに、監視空間は、部分空間や候補空間と同様に、抽出された関連詞にuniqueIDを紐付け、検閲の対象とすべき関連詞と検閲者との対の集まりを含む空間である。検閲者は、上述したuniqueIDによって特定される者である。
 監視空間生成装置によって、候補空間σijに含まれる関連詞から、履歴条件histijを満たす関連詞を平衡フィルタを用いて監視空間fijが生成される。監視空間生成装置においては、運用側の指定したドメインや嗜好ごとに、履歴条件を定義することができるので、運用側のサービスに直結する監視者や特異関連詞を抽出することができる。
 図8や図9に示すように、候補空間σijについて、x∈σijの履歴可視化装置を構成することができ、監視空間fijについて、y∈fijの履歴可視化装置を構成することができる。このような履歴可視化装置を構成することによって、日間変動を示すための日間変動可視化装置や、日内の変動を示すための日内変動可視化装置を構成することができ、各種のデータを表示することができる。
 たとえば、このような履歴特性を得ることによって、図3(b)に示すように、時刻とともに特異性が変化する部分空間を検出することができる。したがって、現在の発話や、過去のある特定の時刻における発話のみならず、発話の内容が徐々に変化したり、突然変化したりするような部分空間を検出でき、このような個人も監視の対象にすることができる。さらに、時刻の変化から将来の予測も立てることができ、将来にわたって監視すべきであるか否かも判断することができる。
 平衡フィルタが、「所定の履歴条件」に対応する。候補空間に含まれる関連詞が、「履歴テキストデータ」に対応する。
<<<オンライン利用可能な検閲システム>>>
 図10は、オンライン利用可能な嗜好可視化システム(検閲システム)の概要を示すブロック図である。
 図10に示す関連詞抽出装置は、上述した部分空間生成装置からなる(図11参照)。この部分空間生成装置は、上述したものと同様の処理を実行する。すなわち、基本フィルタによって、個人の発話からドメインuが生成され、適合フィルタによって、ドメインuから部分空間eijが生成される。
 また、関連詞抽出装置は、監視装置を有する(図12参照)。監視装置は、部分空間eijに含まれる関連詞とuniqueID(検閲者)とに基づいて、監視情報を参照し、監視すべき検閲者(監視者)と、特異性が見出された関連詞(特異関連詞)と、特異関連詞に関する履歴特性とを監視情報から取得する。監視装置は、取得した監視者と特異関連詞と履歴特性とを検閲制御装置に出力する。なお、複数の個人に対して新製品の広告などの情報を提供するような場合には、検閲者が監視者でない場合もある。このような場合には、監視装置は、検閲者と関連詞とを検閲制御装置に出力する。
 検閲制御装置は、特異関連詞や履歴特性などの監視情報に基づいて、検閲制御コマンドを取得し、出力変換装置に出力する(図13参照)。検閲制御コマンドとして、たとえば、無視(正常保証)、警告(セキュリティ)、統計出力(顧客サービス)、リコメンド(広告)、教育(リスク管理)、励まし(介護)、エンタメ情報(豊心)などがある。検閲制御コマンドは、特異関連詞と履歴特性とに応じて選択できるようにテーブルに記憶されている。
 検閲制御装置は、これらの検閲制御コマンドの内容に応じて出力変換装置に出力情報を送信する。出力変換装置から出力情報が出力されたときには、その内容や出力した日時や出力したuniqueIDなどを記憶するための出力ログを生成し、出力記憶装置に記憶させる。また、出力変換装置は、出力記憶装置に記憶させた出力ログを参照し、出力情報を出力するか否かを判断する。たとえば、既にあるuniqueIDが示す個人に既に出力情報を出力している場合には、出力情報の出力を中止する。
 図11は、オンライン利用可能な検閲システムにおける基本フィルタと適合フィルタであり、これは、上述したものと同じ処理を実行する。すなわち、基本フィルタによって、個人の発話からドメインuが生成され、適合フィルタによって、ドメインuから部分空間eijが生成される。
<<検閲制御コマンド>>
 検閲制御コマンドは、検閲をした結果、検閲の対象となった個人に警告の情報を発したり、励ましの情報を発したりするためのコマンドである。また、検閲制御コマンドは、個人が使用している装置やシステムに対して制御するためのコマンドである。このように検閲制御コマンドを発することで、反社会的な発話や反常識的な発話をしている個人が使用している装置やシステムの通信回線を切断することができる。このような検閲制御コマンドは、検閲の結果に応じて検閲システムの運用者が所望する内容を定められる。
 図14に示すのは、インターネットなどのネットワークを利用して、契約や決済などを行う電子商取引(EC=エレクトロニックコマース)を実行可能な基幹システムに対して本発明を適用した実施例を示している。
 電子商取引は、一般的に大きく3つに分けられ、企業同士の取引を「B to B」(Business to Business)、企業と消費者の間の取引を「B to C」(Business to Consumer)、消費者同士の取引を「C to C」(Consumer to Consumer)と呼ばれている。
 本実施例で本発明を適用するB to Bの一般的なECサイトは、基幹システムを中心としてインターネットなどのネットワークを通じて、複数の個人の端末と接続されており、また、それぞれの端末を通じてアクセスする個人の個人情報データベースと接続されている。そして、複数の端末群から様々な入力情報を得て、前記基幹システムの内部では、アニメが好き、又はアニメに興味のあるアニメコミュニティや宗教的要素の入力情報が多い宗教コミュニティ、或いは、食について発話が多かったりするグルメコミュニティなど複数のジャンルのコミュニティが潜在的に存在しているが、これらコミュニティは群を可視化することはなされていない(群として抽出することができない、抽出する仕組みが存在しない)のが一般的であった。
 さらに、このようなECサイトの一つとして、本実施例ではグルメ検索サイト(図14の「ぐるめナビ」)を運営する基幹システムと連携させた。本発明とECサイトとを連携させることによって、当該ECサイトとしてのグルメ検索サイトにおいて、ある個人が端末を通じて前記基幹システムにアクセスし、その基幹システムからダウンロードされた検索画面に入力した入力情報に応じて、本発明における嗜好可視化システム及び検閲システム(以下、情報処理システムと言う)はインタラクティブな情報提供や通信切断などのアクション的な処理をも前記端末側にて実行することができる。
 例えば、個人の前記端末を通じて、「集会カレーってある?でも、美味しいパスタやラーメンが食べたい」と文字入力による入力情報として基幹サーバに送信されたとする。この入力情報が情報処理システムの入力インターフェイスを通じて入力されると、入力変換装置によって、当該情報処理システムで扱われる一のデータ形式(この実施例の場合にはテキスト情報)に変換される。入力情報としてはキーボードやタッチパネルなどを用いて文字入力をキー入力で行う方式に限らず、本発明の入力情報は後述する音声認識による入力形態も採用することができる。
 ここで、本実施例の上記情報処理システムとは、嗜好可視化システムと検閲システムに加えて、履歴情報データベース(履歴情報DB)、監視情報データベース(監視情報DB)、各種フィルタを編集するフィルタ編集制御部、各種の検閲制御コマンドを編集するコマンド編集制御装置とから構成されている。
 また、前記検閲システムには、前述した入力変換装置および外部に検閲制御コマンドを適正な出力形態で出力する出力変換装置と、前記コマンド編集制御装置によって編集された各種コマンドを記憶した検閲制御コマンドデータベース(検閲制御コマンドDB)と、前記嗜好可視化システムから出力された監視情報に応じて前記検閲制御コマンドデータベースを参照し、前記出力変換装置を介して前記基幹システムに出力する検閲制御装置と、前記出力変換装置から出力された各種の検閲制御コマンドの出力ログを記憶する出力ログ記憶装置とを備えている。
 さらに、嗜好可視化システムには、関連詞抽出装置と監視情報抽出装置、そして、前記フィルタ編集制御部の入力によって各種フィルタを編集するフィルタ編集装置を含んでいる。各装置の機能は前述した実施形態で説明した機能を備えている。また、同嗜好可視化システムには、前記履歴情報データベースを参照して履歴可視化を行う部分と、前記関連詞抽出装置と監視情報抽出装置からの情報出力に応じて、監視情報データベースを参照し、前記検閲制御装置に監視情報を出力する監視装置も備えられている。
 このような上記情報処理システムによれば、例えば、「集会カレーってある?でも、美味しいパスタやラーメンが食べたい」との入力情報が入力された場合、その入力情報のおのおのから次のような内部状態での処理データが生成される(図14参照)。
 すなわち、関連詞としての「集会」の入力情報に対して、一のドメインが警報を発すべきNG語であること、「集会」という関連詞が、この個人のIDが行った初めての発話である場合には、履歴特定としては新参客としての扱いとし、検閲制御するためのコマンドとして警報という処理データが生成される。
 また、パスタという関連詞の入力情報に対しては、ドメインが麺類、この個人が何度も発話していることや発話の内容から嗜好が「好き」、そして、履歴情報を参照して常連客としての履歴特性とし、これらの結果からコマンドがパスタ、オススメとなる。
 さらに、ラーメンという関連詞の入力情報に対しては、ドメインが麺類、この個人が何度もラーメンを発話していることや発話の内容から嗜好が「好き」、極めて何度も発話しているので常連客としての履歴特性となる。
 そして、前述した内部状態としての上記処理データは、次のようにして生成される。前記基幹システムから本情報処理システムへ入力情報が得られると、その入力情報を処理可能なテキストなどのデータ形式に変更/統一するための処理を行い、このデータに対して、前記関連詞抽出装置の検閲空間生成装置と部分空間生成装置が前記履歴情報データベースを参照しつつ、前述した基本フィルタと適合フィルタを用いて処理を行うことによって、まずは、前述した検閲の場を生成する。
 次に、前記監視情報抽出装置の候補空間生成装置と監視空間生成装置とは、監視情報データベースを参照しつつ、前述したような構成フィルタや平衡フィルタを用いて処理することによって監視装置を介して監視情報を検閲システムに出力し、この出力情報に応じたコマンドを検閲制御装置が検閲制御コマンドデータベースから抽出して、前記出力変換装置を介して前記端末に対して結果を提供するために、基幹システムに対してコマンドを送出する。
 「前記端末に対して結果を提供する」とは、様々なコンシェルジュ的な情報提供の他、前記NG語のドメインを生成した場合に、ある定められた閾値を超えてNG語が発話された場合に基幹システムとそのNG語を発話した個人の端末との通信回線を強制的に切断することなどのアクションも含まれる。つまり、顧客の嗜好に合わせた個別サービスの提供や、入力内容のリスク状況に合わせた出力制御を、基幹システムに出力する検閲制御コマンドによって実行させる。前述したグルメ検索サイトであれば、検閲制御コマンドに従い、個人(顧客)に対して、グルメ検索を制御し、結果を提供する。
 以上が実施例1であるが、本発明の情報処理システムは、基幹システムを介して得られた複数の個人の端末からの複数種類の入力情報に対して、複数種類のフィルタ処理を実行して検閲の場を生成する検閲の場生成機能と、この検閲の場生成機能によって生成された検閲の場に対して、新たに前記基幹システムから入力される入力情報を可視化する可視化機能を実行し、この実行の結果で予め用意された検閲制御コマンドの一つを前記基幹システムに対して、入力情報が得られた端末にて検閲制御コマンドを実行するために出力する監視機能を有することを特徴としている。
 図15に示すのは、実施例1では本発明をECサイトに適用した例を示したが、本実施例2では、顧客サポートをする人工知能サービスを提供する基幹システムと本発明とを連携させた例を示す。本実施例2における情報処理システムの基本構成は、実施例1で説明したものと同様であり、実施例1と異なるのは、連携する基幹システムが異なることと、連携する基幹システムが異なることから入力される入力情報が異なるので、各フィルタも異なり、結果として基幹システムへ出力する検閲制御のコマンドが異なることになる。
 より具体的には、この実施例2では、顧客サポートをする人工知能サービスを提供する基幹システムであるので、前記基幹システムに入力される入力情報は、例えば、「Caiwa(商品名)の質問ですが、導入方法を教えてください」が考えられる。この場合、検閲制御コマンドを出力するためにデータ処理が行われた結果の内部の状態は、図15に示すように、「Caiwa」の関連詞に対して、「Caiwa」が商品名であることからドメインが「商品」、この個人IDと商品というドメインと履歴情報から「重要客」とされ、入力情報内の「質問」という発話から嗜好が「質問」、その結果で基幹システムに出力される検閲制御コマンドは、重要客、商品、質問として記憶されている。また、「導入」という関連詞に対しては、ドメインが「ビジネス」、嗜好が「教えてください」との発話から「質問」、履歴特性が履歴情報を参照して「新参客」として取り扱われ、検閲制御コマンドは、新参者、ビジネス、質問という結果で基幹システムに出力コマンドが出力される。
 図16に示すのは、実施例1では本発明をECサイトの基幹システムに適用した例、実施例2では人工知能における顧客サポートを担う基幹システムに適用した例を示したが、本実施例3では、ロボットの音声制御サービスを担う基幹システムに本発明を適用した例を示している。本実施例における情報処理システムの基本構成は、実施例1と2とで説明したものと同様であり、実施例1及び2と異なるのは、連携する基幹システムが異なることと、連携する基幹システムが異なることから入力される入力情報が異なるので、各フィルタも異なり、結果として基幹システムへ出力する検閲制御のコマンドが異なることになる。また、前記実施例1と2における端末からの入力形態が、主にキーボードなどの入力形態であったものを本実施例3では音声入力によって行わせしめる点、及び音声の特徴量をテキストデータに置き換えて活用している点で異なっている。
 そして、音声入力であるので、入力される音声には音量の強弱などの特徴量も影響するように、前述したフィルタが用意されており、音声の大きさによって感情に応じたドメインが生成されることになる。
 すなわち、基幹システムは端末側のモニタに対して発話を促す案内画面「どうぞお話ください」を表示した後に、例えば、端末に接続されたマイクに「馬鹿!」と所定の閾値以上の音量の大声で音声入力がなされたとする。勿論、前記案内画面はweb画面にかえてロボットを通じて音声で双方向で会話する方式のものであっても良い。
 この場合における音声入力は、ある閾値を超えた音量であったことから「大声」という関連詞となり、ドメインが「音量」、嗜好が「怒り」、過去の履歴を参照して「問題客」という履歴属性、これらの結果、検閲制御コマンドが問題客、大声、怒りとなる。また、文長というフィルタによって、音声入力が「馬鹿」と短いので関連詞が「短文」、ドメインが「文長」、履歴特性が過去の履歴から「一般客」、この結果で得られる検閲制御コマンドが一般客、短文、怒りとなる。
 このように、音声入力された音声をテキスト認識して発話された意味を実施例1や2と同様にフィルタによって処理するだけでなく、音声入力の場合には、その音量や文長などから感情的な分析を実行することができる。つまり、基幹システムへ検閲制御コマンドとしては、個人が怒っている場合には、低姿勢で回答するような検閲制御コマンドを出力したり、何度も同じような対応をしている問題客の場合には、怒りへの対応とは別に問題客として対応したりするための検閲制御コマンドを出力することができる。したがって、検閲制御コメントに従って対応することによって、誰でもより容易に問題解決を行うことができるようになる。
<<他の形態>>
 さらに、本発明によれば、基幹システムの利用者が形成する検閲の場において不作為のままで放置されることが多かった個別の嗜好情報に着目し、その表現内容を検閲の場における特性として整理する手法を確立することにより、基幹システムの個別サービスに結び付けることを可能とする検閲システムあるいは検閲機能を提供もできる。
 また、本発明によれば、利用者からの質問に答える人工知能システムにおいては、人工知能システムと上記の検閲システムあるいは検閲機能とを結び付けることにより、検閲の場に存在する嗜好情報を反映して質問に答える人工知能システムを提供もできる。
 本発明の他の形態による情報処理システムは、
 基幹システムに参加する多数の個人によって生成された個人生成データを意味識別可能な複数の分解データに分解し、前記分解データのそれぞれが示す対象についてコミュニティ毎に特徴付けられる所定の関連条件と前記対象についてコミュニティ毎に特徴付けられる所定の特徴条件とを満たすデータを抽出し、抽出した第1抽出データの集合を検閲の場として生成する検閲の場生成手段と、
 前記第1抽出データの集合から、前記対象に関してコミュニティ毎に特徴付けられる所定の特異性を示す特異条件を満たすデータを抽出し、抽出した第2抽出データから前記所定の特異性を検出して可視化する可視化手段と、を有することができる。
 さらに、上述した「個人によって生成された個人生成データを意味識別可能な複数の分解データに分解し、前記分解データのそれぞれが示す対象についてコミュニティ毎に特徴付けられる所定の関連条件と前記対象についてコミュニティ毎に特徴付けられる所定の特徴条件とを満たすデータを抽出し」においては、上述した本発明の実施の形態において説明したように、意味識別可能なデータとしてテキストデータを基軸のデータ形式として採用している。しかしながら、将来、テキストデータに変わる意味識別が可能な他のデータ形式が出現した場合にはそれらのデータ形式も本発明に適用することができる。
 本発明は、このように、テキストデータに限定されないが、テキストデータを採用した場合には、以下の通りである。すなわち、本発明の他の形態による情報処理システムは、
 個人によって生成された個人生成データに基づくテキストデータを意味識別可能な分解テキストデータに分解し、前記分解テキストデータから前記分解テキストデータが示す対象についてコミュニティ毎に特徴付けられる所定の関連条件と前記対象についてコミュニティ毎に特徴付けられる所定の特微条件とを満たすデータを抽出し、抽出した第1抽出データの集まりを検閲の場として生成する検閲の場生成手段と、
 前記第1抽出データの集まりから、前記対象に関してコミュニティ毎に特徴付けられる所定の特異性を示す特異条件を満たすデータを抽出し、抽出した第2抽出データから前記所定の特異性を検出して可視化する可視化手段と、
 前記第2抽出データに基づいて、監視すべき個人と監視の制御をする監視内容とを決定する監視手段とを有するものにできる。
 10 ネットワーク
 20 サーバ
 100 監視システム、検閲システム、嗜好可視化システム

Claims (10)

  1.  個人によって生成された個人生成データを意味識別可能な複数の分解データに分解し、前記分解データのそれぞれが示す対象について所定の関連条件と前記対象について所定の特徴条件とを満たすデータを抽出し、抽出した第1抽出データの集まりを検閲の場として生成する検閲の場生成手段と、
     前記第1抽出データの集まりから、前記対象に関して所定の特異性を示す特異条件を満たすデータを抽出し、抽出した第2抽出データから前記所定の特異性を検出して可視化する可視化手段と、を有する情報処理システム。
  2.  複数の文字列からなるテキストデータを含む一つの外部情報を、入力インターフェイスを通じて受信し、その内容の特異な情報を抽出するためのプログラムを実行するコンピュータを備えたシステムであって、このコンピュータは前記プログラムを実行して以下の処理を実行する。
     入力されたテキストデータを捨象して予め用意された複数の関連テキストデータに変換する処理と、
     その一つの外部情報に関連テキストデータが示す対象に関して所定の特異性を示す特異条件を満たす場合には、その関連データを特異な関連テキストデータとして判定する処理と、
     特異な関連テキストデータとして判定した関連テキストデータを、その外部情報に含まれる個人を識別するためのユーザID及び特異条件に関わる条件と関連して記憶する処理とを含む。
  3.  個人によって生成された個人生成データに基づくテキストデータから所定の内容を含むデータを捨象し、捨象したテキストデータを意味識別可能な分解テキストデータに分解する工程と、
     前記分解テキストデータを、個人生成データを生成した個人を識別できるユーザIDに関連づけて記憶する工程と、を含む嗜好可視化方法。
  4.  個人によって生成された個人生成データに基づくテキストデータを意味識別可能な分解テキストデータに分解し、前記分解テキストデータのうち、前記分解テキストデータが示す対象について所定の関連条件を満たす関連対象を示す関連テキストデータを抽出する工程と、
     前記関連テキストデータを前記所定の関連条件に関連づけて記憶する工程と、を含む嗜好可視化方法。
  5.  個人によって生成された個人生成データに基づくテキストデータのうち、テキストデータが示す対象の属性について所定の特徴条件を満たす特徴テキストデータを抽出する工程と、
     前記特徴テキストデータを前記所定の特徴条件に関連づけて記憶する工程と、を含む嗜好可視化方法。
  6.  個人によって生成された個人生成データに基づくテキストデータのうち、テキストデータが示す対象に関して所定の特異性を示す特異条件を満たすテキストデータを抽出する工程を含む嗜好可視化方法。
  7.  個人によって生成された個人生成データに基づくテキストデータを意味識別可能な分解テキストデータに分解し、前記分解テキストデータのうち、前記分解テキストデータが示す対象について所定の関連条件を満たす関連対象を示す関連テキストデータを抽出する工程と、
     前記関連テキストデータのうち、テキストデータが示す対象の属性について所定の特徴条件を満たす特徴テキストデータを抽出する工程と、
     特徴テキストデータが示す対象に関して所定の特異性を示す特異条件を満たす特異テキストデータを抽出する工程と、を含む嗜好可視化方法。
  8.  個人によって生成された個人生成データに基づくテキストデータが示す対象の履歴に関する履歴情報を生成し、前記個人生成データに基づくテキストデータのうち、前記履歴情報について所定の履歴条件を満たす履歴テキストデータを抽出する工程と、
     前記個人生成データに基づくテキストデータが参照された参照数を、個人生成データを生成した個人を識別できるユーザIDに関連づけて生成し、前記個人生成データに基づくテキストデータのうち、前記参照数について所定の参照条件を満たすテキストデータを抽出する工程と、を含む嗜好可視化方法。
  9.  前記履歴テキストデータに基づいて監視情報を生成する工程を、さらに有することを特徴とする請求項8に記載の嗜好可視化方法。
  10.  個人によって生成された個人生成データに基づくテキストデータが示す対象の履歴に関する履歴情報を生成し、前記個人生成データに基づくテキストデータのうち、前記履歴情報について所定の履歴条件を満たす履歴テキストデータを抽出する工程と、
     前記個人生成データに基づくテキストデータが参照された参照数を、個人生成データを生成した個人を識別できるユーザIDに関連づけて生成し、前記個人生成データに基づくテキストデータのうち、前記参照数について所定の参照条件を満たすテキストデータを抽出する工程と、
     前記履歴テキストデータに基づいて監視情報を生成する工程と、
     前記監視情報に基づいて検閲制御コマンドを生成する工程と、を含む検閲方法。
     
PCT/JP2012/059093 2011-04-08 2012-04-03 嗜好可視化システム及び検閲システム WO2012137782A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201280016719.3A CN103635898B (zh) 2011-04-08 2012-04-03 喜好可视化系统和审查系统
US14/006,217 US10055487B2 (en) 2011-04-08 2012-04-03 Preference visualization system and censorship system
US16/028,478 US20190012376A1 (en) 2011-04-08 2018-07-06 Preference visualization system and censorship system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011086407A JP5872183B2 (ja) 2011-04-08 2011-04-08 情報処理システム、嗜好可視化システム及び検閲システム並びに嗜好可視化方法
JP2011-086407 2011-04-08

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US14/006,217 A-371-Of-International US10055487B2 (en) 2011-04-08 2012-04-03 Preference visualization system and censorship system
US16/028,478 Continuation US20190012376A1 (en) 2011-04-08 2018-07-06 Preference visualization system and censorship system

Publications (1)

Publication Number Publication Date
WO2012137782A1 true WO2012137782A1 (ja) 2012-10-11

Family

ID=46969178

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/059093 WO2012137782A1 (ja) 2011-04-08 2012-04-03 嗜好可視化システム及び検閲システム

Country Status (4)

Country Link
US (2) US10055487B2 (ja)
JP (1) JP5872183B2 (ja)
CN (1) CN103635898B (ja)
WO (1) WO2012137782A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809229A (zh) * 2015-05-07 2015-07-29 北京京东尚科信息技术有限公司 一种文本特征词提取方法及系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577510A (zh) * 2012-07-23 2014-02-12 阿里巴巴集团控股有限公司 搜索结果数据的展现方法,搜索服务器及移动终端
JP5958237B2 (ja) * 2012-09-25 2016-07-27 富士通株式会社 熱流体シミュレーション方法及び熱流体シミュレーション装置
US8909656B2 (en) * 2013-03-15 2014-12-09 Palantir Technologies Inc. Filter chains with associated multipath views for exploring large data sets
WO2020202314A1 (ja) * 2019-03-29 2020-10-08 株式会社Aill コミュニケーション支援サーバ、コミュニケーション支援システム、コミュニケーション支援方法、及びコミュニケーション支援プログラム
CN113033577B (zh) * 2021-03-26 2022-06-03 山东科技大学 一种基于伴方差修正模型的海洋目标特征提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115468A (ja) * 2003-10-03 2005-04-28 Mitsubishi Electric Corp テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP2006146567A (ja) * 2004-11-19 2006-06-08 Internatl Business Mach Corp <Ibm> 表現検出システム、表現検出方法、及びプログラム
JP2006236379A (ja) * 2006-04-26 2006-09-07 Nec Corp 情報分類装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183306B2 (en) * 1998-12-18 2015-11-10 Microsoft Technology Licensing, Llc Automated selection of appropriate information based on a computer user's context
JP2001028006A (ja) 1999-07-15 2001-01-30 Kdd Corp 情報自動フィルタリング方法および装置
US6976070B1 (en) * 1999-02-16 2005-12-13 Kdd Corporation Method and apparatus for automatic information filtering using URL hierarchical structure and automatic word weight learning
JP4479366B2 (ja) * 2004-06-14 2010-06-09 ソニー株式会社 番組情報処理システム,番組情報管理サーバ,番組情報利用端末およびコンピュータプログラム。
US7549119B2 (en) * 2004-11-18 2009-06-16 Neopets, Inc. Method and system for filtering website content
US7783622B1 (en) * 2006-07-21 2010-08-24 Aol Inc. Identification of electronic content significant to a user
US7930302B2 (en) * 2006-11-22 2011-04-19 Intuit Inc. Method and system for analyzing user-generated content
US8024280B2 (en) * 2006-12-21 2011-09-20 Yahoo! Inc. Academic filter
JP5243783B2 (ja) * 2007-12-27 2013-07-24 インターナショナル・ビジネス・マシーンズ・コーポレーション コミュニティ・システム、コミュニティ・システムの活動記録方法、及びコミュニティ・システムの活動記録用プログラム
US8763087B2 (en) * 2008-10-09 2014-06-24 Yahoo! Inc. System and method for content access control
US20100169313A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Pangenetic Web Item Feedback System
US20110119130A1 (en) * 2009-07-10 2011-05-19 Agan Thomas E Methods, systems, and apparatus to manage meal planning and coupon dispensing
EP2454712A4 (en) * 2009-07-16 2013-01-23 Bluefin Labs Inc DETERMINATION AND DISPLAY OF SOCIAL INTERESTS IN TIME-BASED MEDIA
US20110087737A1 (en) * 2009-10-14 2011-04-14 Cbs Interactive, Inc. Systems and methods for living user reviews
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
US8688691B2 (en) * 2011-01-13 2014-04-01 International Business Machines Corporation Relevancy ranking of search results in a network based upon a user's computer-related activities

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115468A (ja) * 2003-10-03 2005-04-28 Mitsubishi Electric Corp テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP2006146567A (ja) * 2004-11-19 2006-06-08 Internatl Business Mach Corp <Ibm> 表現検出システム、表現検出方法、及びプログラム
JP2006236379A (ja) * 2006-04-26 2006-09-07 Nec Corp 情報分類装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809229A (zh) * 2015-05-07 2015-07-29 北京京东尚科信息技术有限公司 一种文本特征词提取方法及系统

Also Published As

Publication number Publication date
US20190012376A1 (en) 2019-01-10
US10055487B2 (en) 2018-08-21
US20140019464A1 (en) 2014-01-16
JP5872183B2 (ja) 2016-03-01
JP2012221222A (ja) 2012-11-12
CN103635898A (zh) 2014-03-12
CN103635898B (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
García-Díaz et al. Detecting misogyny in Spanish tweets. An approach based on linguistics features and word embeddings
Yeomans et al. The politeness Package: Detecting Politeness in Natural Language.
CN110297907B (zh) 生成访谈报告的方法、计算机可读存储介质和终端设备
JP4129987B2 (ja) テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム
Gianfortoni et al. Modeling of stylistic variation in social media with stretchy patterns
US20220245354A1 (en) Automated classification of emotio-cogniton
JP5872183B2 (ja) 情報処理システム、嗜好可視化システム及び検閲システム並びに嗜好可視化方法
JP2009099088A (ja) Snsユーザプロファイル摘出装置、摘出方法並びに摘出プログラム、及び該ユーザプロファイルを利用する装置
Badugu et al. Emotion detection on twitter data using knowledge base approach
CN110297906B (zh) 生成访谈报告的方法、计算机可读存储介质和终端设备
JP7096172B2 (ja) キャラクタ性に応じた形容発話を含む対話シナリオを生成する装置、プログラム及び方法
Onyenwe et al. The impact of political party/candidate on the election results from a sentiment analysis perspective using# AnambraDecides2017 tweets
Tran et al. A hybrid approach for building a Vietnamese sentiment dictionary
Vaziripour et al. Analyzing the political sentiment of tweets in Farsi
Baker Corpora and gender studies
Alnajjar et al. Talent, Skill and Support. A Method for Automatic Creation of Slogans
Cajueiro et al. A comprehensive review of automatic text summarization techniques: method, data, evaluation and coding
JP2005309907A (ja) ユーザコメントダイジェストの生成方法・装置・プログラム
Heaton et al. Language models as emotional classifiers for textual conversation
Hoek et al. Automatic coherence analysis of Dutch: Testing the subjectivity hypothesis on a larger scale
Hristova Text analytics for customer satisfaction prediction: A case study in the banking domain
Soni et al. Comparative analysis of rotten tomatoes movie reviews using sentiment analysis
Gelbukh Sentiment analysis and opinion mining: Keynote address
Najafi et al. Comparing analysis of social media content with traditional survey methods of predicting opening night box-office revenues for motion pictures
Lee Use-centric mining of customer reviews

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12767689

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14006217

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12767689

Country of ref document: EP

Kind code of ref document: A1