WO2013054839A1 - 画像認識システムを備えた知識情報処理サーバシステム - Google Patents

画像認識システムを備えた知識情報処理サーバシステム Download PDF

Info

Publication number
WO2013054839A1
WO2013054839A1 PCT/JP2012/076303 JP2012076303W WO2013054839A1 WO 2013054839 A1 WO2013054839 A1 WO 2013054839A1 JP 2012076303 W JP2012076303 W JP 2012076303W WO 2013054839 A1 WO2013054839 A1 WO 2013054839A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
image
network
image recognition
information processing
Prior art date
Application number
PCT/JP2012/076303
Other languages
English (en)
French (fr)
Inventor
久夛良木 健
隆 薄
靖彦 横手
Original Assignee
サイバーアイ・エンタテインメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by サイバーアイ・エンタテインメント株式会社 filed Critical サイバーアイ・エンタテインメント株式会社
Priority to US14/351,484 priority Critical patent/US20140289323A1/en
Priority to EP12840365.6A priority patent/EP2767907A4/en
Publication of WO2013054839A1 publication Critical patent/WO2013054839A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/08Annexed information, e.g. attachments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Definitions

  • the present invention recognizes an image signal reflecting a subjective field of view of a user obtained from a camera incorporated in a headset system that can be worn on the user's head via a network via the user's network terminal.
  • objects such as a specific object, general object, person, photograph, or scene that the user has been interested in
  • the name of the camera image can be extracted by two-way communication by voice between the server system and the user, and the extraction process and the image recognition result of the objects are extracted from the server.
  • the system side passes the earphone built in the headset system via the user's network terminal. , And notifies the voice information to the user.
  • the user by enabling the user to keep voice tags such as messages, tweets, questions, etc. for the various targets that the user is interested in, various users including themselves in different time spaces
  • voice tags such as messages, tweets, questions, etc.
  • the user receives various messages and tweets related to the subject accumulated in the server system by voice in synchronization with the focus on the subject. It enables the user to return a further voice response to each message or tweet, thereby invoking a wide range of social communication related to the common focus of various users.
  • a wide range of users and various keywords can be obtained by continuously collecting, analyzing and accumulating on the server system a wide range of social communications originating from the visual interest of the many users who have been evoked.
  • various interests can be acquired as dynamic interest graphs, providing highly customized services based on them, providing highly recommended recommendations, or dynamic advertisements and announcements
  • the present invention relates to a knowledge information processing server system provided with the image recognition system, which can be connected to an effective information providing service for the like.
  • This information providing apparatus includes an access history storage means for storing access frequency information indicating a frequency of access to each content by a user in association with user identification information for identifying the user, and access to each content between the users.
  • Inter-user similarity calculating means for calculating similarity between users representing similarity of tendency based on the access frequency information stored in the access history storage means, and similarity between users between the user and each user Calculated by the content score calculation means, which calculates the content score, which is information representing the usefulness of the content for the user, from the access frequency information of each user weighted by the degree, and the content score calculation means
  • the content score of each content is determined as the user identification information.
  • Index storage means for storing in association with each other, query input means for accepting an input of a query including user identification information transmitted from a communication terminal device, and content identification of content conforming to the query accepted by the query input means Providing information generation that obtains information and generates provision information from the obtained content identification information with reference to the content score stored in the index storage means in association with the user identification information included in the query
  • An information providing apparatus comprising: means; and provision information output means for outputting the provision information generated by the provision information generation means to the communication terminal device.
  • General object recognition is a technique in which a computer recognizes an object included in an image obtained by capturing a real-world scene with a general name.
  • all attempts were made to build rules and models by hand.
  • an approach based on statistical machine learning using computers attracted attention. Became the trigger for the general object recognition boom.
  • a keyword for an image can be automatically assigned to the target image, and the image can be classified and searched according to its semantic content.
  • the goal is to realize all human image recognition functions with a computer (Non-Patent Document 1).
  • General object recognition technology has advanced rapidly with the approach from image database and the introduction of statistical probability methods.
  • Non-patent Document 2 a method for learning object correspondence by using data obtained by manually assigning keywords to images and performing object recognition
  • Non-patent Document 2 a method based on local features (non-patented) Reference 3).
  • SIFT method Non-patent Document 4
  • Video Google Non-Patent Document 5
  • a technique called “Bag-of-Keypoints” or “Bag-of-Features” was announced.
  • a target image is treated as a set of representative local pattern image pieces called visual words, and the appearance frequency is expressed by a multidimensional histogram.
  • Non-Patent Document 6 Non-Patent Document 6
  • the image recognition system side constructed on the server side is inquired via the network for the image taken by the network terminal with the camera, and the huge image database stored on the server side is used.
  • the image recognition system side recognizes the main objects included in the uploaded image by comparing and collating those images with the image feature database group describing the characteristics of each object that has been learned in advance.
  • a service for promptly presenting the recognition result to the network terminal side has already started.
  • image recognition techniques a specific human face detection technique has been rapidly applied and developed as one of methods for identifying individuals. In order to accurately extract the face of a specific person from a large number of face images, it is necessary to perform prior learning of a large number of face images.
  • the amount of knowledge database that must be prepared becomes extremely large, so that it is necessary to introduce a somewhat large-scale image recognition system.
  • the system when detecting a general “average face” used for auto-focusing in electronic cameras or identifying a limited number of human faces, the system is small enough to fit in a small housing such as an electronic camera. It can now be easily implemented.
  • a map providing service using the Internet that has started in service in recent years, it has become possible to have a bird's-eye view of street photographs (street views) at key points on the map.
  • Non-Patent Document 7 the license plate of a car accidentally reflected, the face of a pedestrian, or the state of a private house that can be glimpsed across the road are filtered to a level that cannot be discriminated beyond a certain level. The need to redisplay has also emerged (Non-Patent Document 7).
  • AR augmented reality
  • a three-dimensional positioning system using position information that can be acquired from a GPS, a wireless base station, etc., a network mobile terminal that is integrally provided with a camera, a display device, etc. was calculated from the above three-dimensional positioning system.
  • the real world image captured by the camera and the annotation (annotation) accumulated as digital information on the server are superimposed, and the real world as an air tag (Airtag) floating in cyberspace (Non-patent Document 8).
  • SNS social networking sites
  • communication between users is organically promoted by a user search function, a message transmission / reception function, and a community function such as a bulletin board.
  • SNS users actively participate in bulletin boards where users with similar hobbies and preferences gather, exchange personal information such as documents, images, and voices, and introduce their friends to other acquaintances, etc. By doing so, we can further deepen the mutual connection between people and broaden communication on the network organically and broadly.
  • a comment-added moving image distribution system that enables shared communication using the moving image as a medium among a plurality of users by scrolling and displaying these comment groups on the moving image surface (Patent Document 2).
  • the system receives comment information from the comment distribution server and starts playback of the shared video, and reads and reads a comment corresponding to a specific video playback time of the video to be played from the comment information from the comment distribution server.
  • the comment group can be displayed together with the video during the video playback time associated with the comment group.
  • the comment information can be individually displayed as a list, and when specific comment data is selected from the displayed comment information, the video is reproduced from the video playback time corresponding to the comment grant time of the selected comment data. And the read comment data is redisplayed on the display unit. Also, a comment input operation by the user is accepted, and the video playback time at the time when the comment is input is transmitted as comment addition time together with the comment content to the comment distribution server.
  • SNS also has a movement to place more emphasis on the real-time nature of communication by greatly limiting the size of information packets that can be exchanged on the network.
  • These user's short tweets and address data such as URLs related to them are embedded in real-time and extensively on the Internet. Share the occasional experience with a wide range of users, not only by tweeting with the user's text, but also as a single piece of information that includes image and audio data.
  • a service for invoking real-time communication on a global scale has already started (Non-Patent Document 9).
  • the technique disclosed in Patent Document 3 is a voice document conversion device that inputs and generates document information by inputting voice, and includes a display device that receives document information output and displays it on a screen.
  • a speech document conversion apparatus a speech recognition unit for recognizing input speech, a conversion table for converting input speech into a kanji mixed text, and receiving and aligning speech recognized from the speech recognition unit, the conversion table
  • a document forming unit that retrieves and converts to a sentence and edits the document in a predetermined format, a document memory that stores and saves the edited document, transmits the stored document information, and displays other information and signals
  • a transmission / reception unit that transmits / receives data to / from the device, and the display device transmits / receives information / signals to / from the transmission / reception unit of the voice document conversion device, and the received document information is displayed as display information.
  • a display information memory is characterized in that it has a display panel for displaying the display information to the storage window.
  • a speech synthesis system that reads a sentence consisting of character information on a computer fluently in a specified language is one of the most advanced areas in recent years.
  • the speech synthesis system is also called a speech synthesizer and includes a text-to-speech system that converts text into speech, a system that converts phonetic symbols into speech, and the like.
  • Historically since the development of computer-based speech synthesis systems has progressed since the end of the 1960s, there were many impersonal inorganic materials that made the speech produced by the early speech synthesizers feel like computer-generated speech.
  • Speech synthesis is possible.
  • the speech synthesis system built on the server side can not only use an enormous dictionary, but also its voice algorithm itself can incorporate a large number of digital filters so that it can produce complex sounds close to humans.
  • the applicable range has expanded further in recent years.
  • Speech synthesis technology can be broadly divided into formant synthesis and connected synthesis.
  • parameters such as frequency and timbre are adjusted on a computer without using human speech to generate an artificial synthesized waveform. These are often often heard as artificial sounds.
  • the concatenated synthesis is basically a method of recording human speech and synthesizing speech close to the real voice by smoothly connecting the phoneme fragments and the like.
  • the speech recorded for a certain period of time is divided into “sounds”, “syllables”, “morphemes”, “words”, “spoken words”, “sentences”, etc., and indexed to create a searchable speech library group.
  • a speech library is extracted with optimal phonemes and syllables as appropriate, and finally converted into a fluent series of speech close to human speech with appropriate accents.
  • the technique disclosed in Patent Document 4 is a recording voice recording unit in addition to a recording voice storage unit, an input text analysis unit, a recording voice selection unit, a connection boundary calculation unit, a rule synthesis unit, and a connection synthesis unit.
  • the target is an animal or a person
  • a kind of visual wall will be created by inserting a camera-equipped mobile terminal between the target and yourself, and the search results will first be displayed on the mobile phone. Because I tried to check with the terminal, communication with the target and the people around it tended to be interrupted, even temporarily.
  • these series of search processes take a considerable amount of time, even if the user suddenly becomes interested in objects, people, animals, or scenes that he / she sees while going out, the above series of operations can be performed on the spot. In many cases, it was not possible to complete the process, and it was necessary to take the photograph once taken home and search again on the PC.
  • Augmented Reality In a service called Augmented Reality, which has recently been put into practical use, positioning obtained from GPS, etc. as one of the methods to link the actual space in which we exist and the cyber space configured in the computer network
  • direction information there is a method of using direction information facing the camera together.
  • the use of only the position information often makes it difficult to deal with the real world situation that changes every moment, such as the movement of the target object itself or the fact that the target does not exist at the time of observation.
  • Unlike various buildings and city landmarks that are basically fixedly associated with location information, it is possible to move and transport objects such as cars, moving people and animals, or concepts such as "sunset".
  • the system does not have an image recognition function, it is difficult to associate each other in an essential sense.
  • the target stream video includes a live video distribution by a general user in addition to a press conference, a presentation, a national assembly relay, an event, a sport, and the like.
  • video sharing services it is possible to share a “place” related to an event in progress in real time via a network. However, it takes time and patience to follow the endless live stream video distribution.
  • microblogs real-time message exchange services
  • the user is interested in the tweet about the object or situation that he / she is interested in at that time, and the object of interest of other users in the vicinity of the user or in the field of view. Can not be said to give enough effective awareness.
  • a network communication system is a multifunctional input / output device that can be connected to a network terminal that can be connected to the Internet by wire or wirelessly. Reflecting the user's subjective field of view and viewpoint obtained from a headset system that has the above microphone, one or more earphones, and one or more image pickup devices (cameras) as one body.
  • An image and a sound signal can be uploaded to the knowledge information processing server system provided with the image recognition system on the Internet via the network terminal, and the specific object or general object focused on by the user included in the image Voice recognition system for people, photos or scenes
  • the series of image recognition processes and image recognition results by the user are As a result of the cooperative operation with the synthesis system, the server system side via the Internet, via the user's network terminal, the image recognition result and the recognition process as audio information for the earphones incorporated in the user's headset system, It is possible to notify the user's network terminal as voice and image information, and for the voice recognition, the message or tweet that the user has spoken with his / her own voice to the target that has become image recognizable.
  • the server system side Analyzing, classifying, and accumulating messages and tweets through a network and sharing them among a wide range of users, including those who have seen the same target, can endow the visual curiosity of many users.
  • the server system statistically observes, accumulates, and analyzes communications between these wide-ranging users, and is specific to the user or specific users.
  • the location of dynamic interests and curiosity common to all users and their transitions can be expressed by the above-mentioned extensive “user” group, “keyword” group that can be extracted, and node groups related to various “targets”. It can be acquired as a dynamic interest graph that connects the two.
  • the server system side accurately extracts and recognizes the target by cooperative operation with the voice recognition system, and the image recognition result As a reconfirmation for the user from the server system side, the user explicitly makes a sound to the server system side.
  • the server system side extracts a new object or event group that co-occurs on the target based on the camera video reflecting the user's subjective field of view, and expresses the target more accurately As a co-occurrence event that can be performed, they are formed into a series of sentences, and by the cooperative operation with the speech synthesis system, it is possible to ask the user to confirm again by voice.
  • the present invention provides an image signal reflecting a user's subjective field of view obtained from a camera incorporated in a headset system that can be worn on the user's head via the network via the network terminal of the user.
  • objects such as a specific object, a general object, a person, a photograph, or a scene that the user has been interested in
  • objects can be extracted by two-way communication by voice between the server system and the user, so that the user's “ It enables object extraction and recognition processing that reflects “subjectivity”, and has the effect of improving the image recognition rate itself.
  • Targeting (pointing) operation by the user of the speech there by incorporating a two-way process of re-confirmation by the voice from the server side to it, it is possible to continuously machine learning to the image recognition system.
  • a dynamic interest graph having various keywords and various objects as constituent node groups can be acquired.
  • the collection frequency can be further increased. This makes it possible to more effectively incorporate human “knowledge” into a continuous learning process by a computer system.
  • the present invention uploads voice messages and tweets left by the user into the server system via the network for the target of the user who can be recognized by the knowledge information processing system including the image recognition system.
  • the server system side via the network, via the user's network terminal
  • the messages and tweets can be sent interactively by voice communication with the user.
  • the description of the interest graph held in the server system can be performed in real time on the server system side by analyzing and classifying the contents related to the messages and tweets left by the user for various objects. Based on the above, the main topic included in the message or tweet is extracted, and other highly related topics with the extracted topic as the central node are extracted. By making it possible to share with other users and groups of users over the network, it is possible to continuously induce network communication that originates from various objects and events seen by a wide range of users. It becomes.
  • not only the message or tweet issued from the user side but also various interests, curiosity, or questions emanating from the server system side can be raised to the user or a group of users.
  • a specific user shows a certain level of interest in a specific target beyond the range that can be assumed from the relationship between the target nodes described in the interest graph, or conversely, only a certain level of interest
  • the relevant question or comment from the server system side is given to the user or a specific
  • the network communication system includes a headset system 200, a network terminal 220, a knowledge information processing server system 300, a biometric authentication system 310, a speech recognition system 320, and a speech synthesis system 330.
  • One or more headset systems exist, and one or more headset systems are connected to one network terminal via a network 251.
  • One or more network terminals exist and are connected to the Internet 250.
  • the knowledge information processing server system is connected to the biometric authentication system 310, the speech recognition system 320, and the speech synthesis system 330 through networks 252, 253, and 254, respectively.
  • the biological information processing system may be connected to the Internet 250.
  • the network in this embodiment may be a dedicated line, a public line including the Internet, or a virtual dedicated line constructed using VPN technology on the public line. .
  • the network is defined as described above.
  • FIG. 2A shows a configuration example of a headset system 200 according to an embodiment of the present invention.
  • the headset system is an interface device that can use the network communication system 100 when worn by a user, as shown in FIG.
  • headset systems 200a to 200c are connected to network terminal 220a via connections 251a to 251c
  • headset systems 200d to 200e are connected to network terminal 220b via connections 251d to 251e.
  • the headset system 200 indicates any one of the headset systems 200a to 200f.
  • the headset systems 200a to 200f need not all be the same model. Any similar device having an equivalent function or a minimum feasible function may be used.
  • the headset system 200 includes the following element groups, but is not limited thereto, and some of them may be selected and mounted.
  • There are one or more earphones 202 which are monaural or stereo, and notify the user of various voice information including messages and tweets of other users, responses by voice from the server system, and the like.
  • One or more biometric authentication sensors 204 exist, and as one example, obtains vein information (from the eardrum or outer ear) which is one of the useful biometric identification information of the user, and cooperates with the biometric authentication system 310, The user, the headset system, and the knowledge information processing server system 300 are authenticated and associated.
  • One or more biometric information sensors 205 exist, and acquire various biometric information (vital signs) that can be detected such as a user's body temperature, heart rate, blood pressure, brain wave, respiration, eye movement, vocalization, and body movement.
  • the depth sensor 206 detects the movement of a living body of a certain size or larger, including a human, approaching a user wearing the headset system.
  • the image output device 207 displays various notification information from the knowledge information processing server system 300.
  • the position information sensor 208 detects the position (latitude / longitude, altitude, direction) of the user wearing the headset system.
  • the position information sensor may be equipped with a six-axis motion sensor or the like, so that the movement direction, direction, rotation, and the like are additionally detected.
  • the environment sensor 209 detects brightness, color temperature, noise, sound pressure level, temperature and humidity, etc. around the headset system.
  • the gaze detection sensor 210 directly detects the user's gaze direction by irradiating a safe light beam from a part of the headset system toward the user's pupil or retina and measuring the reflected light. To do.
  • the wireless communication device 211 performs communication with the network terminal 220 and communication with the knowledge information processing server system 300.
  • the power supply unit 212 refers to a battery or the like for supplying power to the entire headset system. However, when the power supply unit 212 can be connected to the network terminal by wire, the power supply unit 212 may be supplied from the outside.
  • FIG. 2C shows a configuration example of the network terminal 220 in one embodiment of the present invention.
  • network terminals 220a to 220f are client terminal devices widely used by users, including PCs, personal digital assistants (PDAs), tablets, mobile phones that can be connected to the Internet, smartphones, etc., which are connected to the Internet. It shows how it is being done.
  • the term “network terminal 220” refers to any one of the network terminals 220a to 220f connected to the Internet.
  • the network terminals 220a to 220f do not need to be the same model. Any terminal device having an equivalent function or a minimum feasible function may be used.
  • the network terminal 220 includes the following element groups, but is not limited thereto, and some of them may be selected and mounted.
  • the operation unit 221 is a user interface unit of the network terminal 220 together with the display unit 222.
  • the network communication unit 223 is in charge of communication with the Internet and communication with one or more headset systems.
  • the network communication unit may be IMT-2000, IEEE 802.11, Bluetooth, IEEE 802.3, or a unique wired / wireless standard, and a mixed form via a router.
  • the recognition engine 224 is an image optimized for the network terminal specialized in image recognition processing related to a limited object from the image recognition processing function of the image recognition system 301 which is a main component of the knowledge information processing server system 300.
  • a recognition program is downloaded from the knowledge information processing server system side and executed.
  • the network terminal side also has a part of the image detection / recognition function within a certain range, thereby reducing the processing load on the image recognition system side on the server side and the load on the network line.
  • preliminary preprocessing corresponding to steps 30-20 to 30-37 in FIG. 3A described later can be executed.
  • the synchronization management unit 225 performs synchronization processing with the server side when the line is temporarily disconnected due to a network failure or the like and the line is restored.
  • the CPU 226 is a central processing unit
  • the storage unit 227 is a main memory device, and is a primary and secondary storage device including a flash memory and the like.
  • the power supply unit 228 is a power supply such as a battery for supplying power to the entire network terminal.
  • These network terminals play a buffering role for the network. For example, even if information that is not important to the user is uploaded to the network side, it is a noise in the sense of linking with the user for the knowledge processing server system 300, and an unnecessary overhead for the network line. Therefore, by performing a certain degree of screening processing on the network terminal side as much as possible, it is possible to secure an effective network bandwidth for the user and improve the response speed for processing with high locality.
  • FIG. 3A is used to explain the flow of the target image extraction process 30-01 by the user's voice when focusing on the target that the user is interested in as an embodiment of the present invention.
  • a specific object, a general object, a person, a photograph, or a scene is collectively referred to as “target”.
  • the target image extraction process starts with a voice input trigger by the user in step 30-02.
  • a voice input trigger a specific word or a series of natural languages may be used, a user's utterance may be detected by detecting a change in sound pressure level, or a GUI on the network terminal 220 may be detected. Depending on the operation.
  • a series of target image extraction and image recognition process flows are executed in the order of voice recognition process, image feature extraction process, target object extraction process, and image recognition process. Specifically, the user's utterance is recognized from the waiting for a voice input command (30-04), a word string is extracted from a series of words uttered by the user by the voice recognition process, and image features are based on the word string. Perform image extraction processing based on the image feature group that can be extracted, and if there are multiple targets, or if it is difficult to extract features from the target itself, further images for the user By obtaining the input of the feature group, a process for more surely recognizing the target focused by the user on the server side is configured.
  • the pointing method of the target by the user's voice there are a plurality of cases in which the user performs pointing while selecting each of the image feature groups individually as exemplified in steps 30-06 to 30-15. It is assumed that there are more cases of pointing together as a series of words including a group of image features. In this case, there is a high possibility that a plurality of image feature element groups expressing the target are obtained from the object extraction processing using a plurality of image feature groups performed in parallel. If more features can be extracted therefrom, the pointing accuracy of the target object is further increased.
  • the image recognition processing 30-16 by the image recognition system is started with the image feature group that can be extracted as a clue.
  • Image recognition is performed by the general object recognition system 106, the specific object recognition system 110, and the scene recognition system 108. In FIG. 3A, these are expressed in a continuous flow, but the image recognition processing can be performed in parallel or further in parallel in each of general object recognition, specific object recognition, and scene recognition processing.
  • the processing time related to the recognition speed of the image recognition processing can be greatly shortened. As a result of the above, it becomes possible to notify the user of various recognition results related to the image-recognized target as an image recognition result related to the target by voice.
  • the system side correctly extracts the target that the user really paid attention to.
  • the question remains.
  • the knowledge information processing server system side equipped with the image recognition system examines the proximity situation of the target based on the camera video, and “co-occurrence with the target”. ”Are extracted (30-38), and these new feature elements not explicitly pointed to by the user are added to the reconfirmation elements (30-39).
  • the reconfirmation by voice (30-40) it is possible to reconfirm that the target object of the user and the object extracted by the server system side are the same.
  • the above-described series of processes is basically a process related to the same object, and the user can always shift his / her interest to another object in his / her action. Therefore, a larger outer process loop including the steps in FIG. 3A is also included.
  • the image recognition processing loop may be started when the user wears the headset system, may be started by a voice trigger similar to Step 30-02, or operates the network terminal. You can start by things, but not necessarily.
  • the stop of the processing loop may be performed when the user removes the headset, or may be triggered by voice, or may be stopped by operating the network terminal, as in the means for starting the processing loop. However, it is not necessarily limited to them.
  • the target recognized as a result of the user's attention may be configured to be able to answer an inquiry at a later date by adding the spatiotemporal information and recording it in a graph database 365 described later.
  • the target image extraction process shown in FIG. 3A is an important process in the present invention, and each step will be described below.
  • a voice input trigger (30-02) is generated by the user, and after uploading of the camera image (30-03) is started, a word string is extracted from the user target detection command by the voice recognition processing 30-05, and the word If the column matches any feature in the condition groups 30-07 to 30-15, the sequence is transferred to the image feature extraction process.
  • the word string is “target name” (30-06)
  • the annotation is assumed to reflect a certain recognition judgment of the user.
  • Object recognition execution (110) processing is performed. If there is a discrepancy between the comparison result and the annotation, or if there is a question, the user is urged to call out that there is a possibility of misrecognition by the user.
  • execution (106) of general object recognition related to the general noun is performed, and the target is extracted from the image feature.
  • a scene recognition execution (108) process related to the scene is performed, and a target region is extracted from the image feature.
  • it may be specified as a scene including a plurality of features. For example, it is a designation method such as (state) yellow (color) taxi (general object) running on the left side (position) of a road (general object) and number “1234 (specific object)”.
  • These target designations may be a series of words, or may be designated individually.
  • a new image feature can be added and the objects can be narrowed down through a reconfirmation process by the image recognition system.
  • the image extraction result is reconfirmed by issuing a voice question to the user, for example, “is it?” (30-40). If the target object is extracted as intended by the user with respect to the reconfirmation contents, the user speaks a word or a word indicating that and executes Step 30-50 “End of camera image upload”, The target image extraction process is terminated (30-51). On the other hand, if it is different from the user's intention, the process returns to the step 30-04 “Waiting for voice command input” to input a further image feature group.
  • the process is interrupted (QUIT) and the target image extraction process is terminated. .
  • the color extraction process 30-20 is performed.
  • a method of extracting a range for each color in the RGB three primary colors may be used, or they may be extracted in the YUV color space. Moreover, it is not limited to these specific color space expressions.
  • the object is separated and extracted (30-29), and segmentation (cutout area) information is obtained.
  • the target image recognition process (30-16) is performed using the segmentation information as a clue.
  • the shape feature extraction 30-21 is performed.
  • the outline and main shape features are extracted while performing edge tracking on the target, and then the shape template / matching process is performed.
  • other methods may be used.
  • the object is separated (30-30), and segmentation information is obtained.
  • the target image recognition process (30-16) is performed using the segmentation information as a clue.
  • co-occurrence objects and co-occurrence events are extracted (30-38), and descriptions about all the feature groups that can be extracted are generated (30-39). Ask for reconfirmation (30-40). If the result is YES, the uploading of the camera image is terminated (30-50), and the target image extraction process by voice is terminated (30-51).
  • the object size detection process 30-22 is performed. Is called.
  • the relative size comparison of the target object separated by the feature extraction process other than the size in the object size detection process with other objects in the vicinity is interactive voice communication with the user. It is executed by. For example, it is an instruction such as “larger than the next to the left”. The reason for this is that when there is a single object, there is no specific index that can be used to compare the size of the target. However, other methods may be used.
  • the object is separated (30-31) to obtain segmentation information.
  • the target image recognition process (30-16) is performed using the segmentation information as a clue. Thereafter, using the image recognition processing result, co-occurrence objects and co-occurrence events are extracted (30-38), and descriptions about all the feature groups that can be extracted are generated (30-39). Ask for reconfirmation (30-40). If the result is YES, the uploading of the camera image is terminated (30-50), and the target image extraction process by voice is terminated (30-51).
  • the luminance detection process 30-23 is performed.
  • the luminance of the specific area is obtained from the RGB three primary colors or from the YUV color space, but other methods may be used.
  • extraction of relative luminance compared with the surroundings of the target is executed by interactive voice communication with the user. For example, an instruction such as “shining brighter than the surroundings”.
  • the object is separated (30-32), and segmentation information is obtained.
  • the target image recognition process (30-16) is performed using the segmentation information as a clue.
  • co-occurrence objects and co-occurrence events are extracted (30-38), and descriptions about all the feature groups that can be extracted are generated (30-39).
  • Ask for reconfirmation (30-40). If the result is YES, the uploading of the camera image is terminated (30-50), and the target image extraction process by voice is terminated (30-51).
  • the depth detection process 30-24 is performed.
  • the depth may be directly measured using the depth sensor 206 provided in the user's headset system 200, or may be calculated by calculation from parallax information obtained from two or more camera images. good. Also, other methods may be used.
  • the object is separated (30-33), and segmentation information is obtained.
  • the target image recognition process (30-16) is performed using the segmentation information as a clue.
  • the target region detection 30-25 is performed. Done.
  • the entire camera image reflecting the user's main field of view is divided into meshes at equal intervals in advance, and the target is specified from an area designation such as “upper right corner” as an interactive instruction from the user. It may be narrowed down or specified by a place where the target exists, such as “on the desk”. Moreover, the designation
  • region may be sufficient. After detecting the position / region where the target exists, the target is separated (30-34), and segmentation information is obtained.
  • the target image recognition process (30-16) is performed using the segmentation information as a clue. Thereafter, using the image recognition processing result, other co-occurrence objects and co-occurrence events are extracted (30-38), and a description including the co-occurrence feature group that can be extracted is generated (30-39). The user is requested to confirm again with the description (30-40). If the result is YES, the uploading of the camera image is terminated (30-50), and the target image extraction process by voice is terminated (30-51).
  • the co-occurrence relationship related to the target Detection 30-26 is performed.
  • the segmentation information related to the corresponding feature extracted by each process (106, 108, 110, 30-20 to 30-28) shown in FIG. 3A is used to deal with the segmentation information.
  • the target is extracted by examining the co-occurrence relationship with each feature. For example, an instruction such as “It is reflected together with” is used, but other methods may be used.
  • the target is separated based on the positional relationship between the target and the other object (30-35), and segmentation information related to the target is obtained.
  • the target image recognition process (30-16) is performed using the segmentation information as a clue.
  • other co-occurrence objects and co-occurrence events are extracted (30-38), and a description including the co-occurrence feature group that can be extracted is generated (30-39).
  • the motion detection process 30-27 is performed.
  • the motion detection processing by referring to a plurality of images continuously developed on the time axis, each image is divided into a plurality of mesh regions, and the regions are compared with each other, thereby moving the camera itself.
  • a region that is relatively moved individually is found, and a difference extraction (30-36) process of the region is performed, and segmentation information relating to the region that is relatively moved compared to the surroundings Get.
  • other methods may be used.
  • target image recognition processing (30-16) is performed.
  • the state detection process 30-28 is performed.
  • the state of an object for example, a motion state (stationary, moving, vibration, floating, rising, descending, flying, rotating, migrating, approaching, moving away, etc.), operating state (running, jumping) , Crouching, sitting, sleeping, lying down, sleeping, eating, drinking, observable emotions, etc.)
  • estimation and extraction (30-37) is performed from a plurality of continuous image groups to obtain segmentation information.
  • target image recognition processing (30-16) is performed.
  • the user can stop the target image extraction process by the user's utterance in the reconfirmation (30-40) step shown in FIG. If the cancel command is recognized in the voice recognition process 30-05, the process proceeds to step 30-50 to end the camera image upload and the voice target image extraction process is ended (30-51).
  • the processing time is prolonged for a certain time or longer, the situation indicating the progress of the processing for the purpose of continuing to attract interest to the user, and related information by voice I can tell you. For example, “We are still inquiring the server about the recognition process we are focusing on. Currently, people are paying attention to the same target. Please wait a little longer.”
  • a progress message such as “The progress is halfway” can be returned to the user by voice.
  • FIG. 3A will be described from the flow of data using FIG. 3B.
  • the input is an image 35-01 and an utterance 35-02.
  • the recognition / extraction processing control 35-03 one or more of steps 30-06 to 30-15 in FIG. 3A are executed in response to the input of the utterance 35-02, and step 35-16 in FIG. 3A is executed for the image 35-01.
  • at least one of general unit recognition processing by the general object recognition processing system 110, specific object recognition processing by the specific object recognition system 110, and scene recognition processing by the scene recognition system 108 is executed.
  • Each functional block of the image recognition systems 106, 108, and 110 can be further parallelized for each execution unit, and is distributed to one or more processes by the image recognition process dispatch 35-04 and executed in parallel.
  • steps 30-07 to 30-15 in FIG. 3A are executed for the input of the utterance 35-02
  • the feature extraction processing 30-20 to 30-28 and the separation extraction processing 30-29 to 30- 37 is executed.
  • the recognition / extraction processing control 35-03 when the user's utterance includes a word that affects the processing order (for example, in the case of “above”, it is necessary to recognize the image of “ ⁇ ”). Next, “up” is processed), and the order control is performed.
  • the recognition / extraction processing control 35-03 accesses a graph database 365 described later and extracts a representative node 35-06 (if the node does not exist in the database, a new representative node is generated. )
  • the image 35-01 is processed in accordance with the utterance 35-02, and the graph structure 35-07 as a result relating to the simultaneously executed recognition / extraction processing groups is accumulated in the graph database 365.
  • a series of data flows by the recognition / extraction processing control 35-03 for the input image 35-01 continues as long as the utterance 35-02 is valid for the input image.
  • FIG. 4A the target pointing operation by the voice of the user in one embodiment of the present invention will be described. This is an application to the procedure described in FIG. 3A.
  • the location of FIG. 4A (A) is around Times Square, Manhattan, New York. It is assumed that a user at this place or a user who has seen this picture tweeted utterance 41 “A yellow taxi on the load on the left side”. From here, the speech recognition system 320 extracts a plurality of character strings or word strings from the utterance 41. There are five words that can be extracted from the utterance: “One” “Yellow” “Taxi” looks like “Left” “On the road”.
  • the “target name”, “target color information”, “target position”, “region where the target exists” and the target target in the target image extraction flow shown in FIG. It turns out that it is the object of. From these clues, detection / extraction processing of the object having the image feature group is started, and it is possible for the image recognition system side to reply to the user by voice that there is a possibility that it is a dotted circle (50) taxi.
  • the reconfirmation content there is a case where the reconfirmation content is not always reliable if it is reconfirmed only with the feature element group explicitly indicated by the user.
  • Each of these detectable word strings indicates “unique name”, “general noun”, “scene”, “color”, “position”, “region”, “location”, etc., and image detection / extraction processing corresponding to them is performed. Executed. The result is delivered to the knowledge information processing server system 300 together with the spatiotemporal information and the image information. Note that the image shown in FIG. 4A is an example of the present invention and is not limited thereto.
  • FIG. 4B (A) is a snapshot of a portion of the graph structure (described below) acquired for an image reflecting the user's main field of view described in FIG. 4A.
  • the relationship between the image recognition process and the graph structure will be described.
  • the node (60) is a node representative of FIG. 4A, and is linked to the node (61) that records the image data of FIG. 4A. Hereinafter, information is expressed using a node-node link.
  • the node (60) is also linked to the node (62) representing the place and the node (63) representing the time, thereby holding information on the shooting location and time. Further, the node (60) is linked to the node (64) and the node (65).
  • the node (64) is a node representing the object of the dotted circle (50) in FIG. 4A, and the feature amount T1 (65), the feature amount T2 (66), the color attribute (67), and the cutout are expressed by the utterance 41.
  • the node (65) is a node representing the object of the dotted circle (51) in FIG. 4A, and holds the same information as the node (64). Note that the node (60), that is, FIG. 4A is linked to the node (77) as the subjective visual image of the user 1.
  • FIG. 4B (B) information held by the node (81) representing the subjective view of the node (80) representing the user 2 is shown in FIG. 4B (B).
  • the node (82) is a target representative node corresponding to the dotted circle (51) in FIG.
  • feature amounts C1 (84) and C2 (85) are held as information.
  • B1 (70) and B2 (71) that are feature quantities linked to the node (65) and C1 (84) and C2 (85) that are feature quantities linked to the node (82) are general object recognition systems.
  • the representative feature amount D (91) is calculated and attached to the learning when it is determined that they are the same target (that is, they belong to the same category), or when they can be statistically new centroids. Is done.
  • the learning result is recorded in the Visual Word dictionary 110-10.
  • a partial graph is generated by linking the node (90) representing the object and the subnode groups (91 to 93 and 75 to 76), and the node (60) links the node (65) to the node (90). ) And replace the link.
  • the node 81 replaces the link with the node 82 with the link with the node 90.
  • the feature group extracted in the feature extraction process corresponding to steps 30-20 to 30-28 shown in FIG. 3A can be expressed as a graph structure having the user's speech, segmentation information, and the feature as nodes.
  • the graph structure holds the feature nodes relating to the colors.
  • the graph structure is compared with the subgraph when a representative node related to the object already exists.
  • the graph structure is a partial graph of the representative node (64).
  • Such integration of the graph structure may be recorded. Thereby, in this example, since the relationship between the user's utterance and the color feature can be recorded, the probability of the color feature corresponding to “yellow” is increased.
  • the database group (107, 109, 111, 110-10) related to image recognition described later and the graph database 365 described later grow (acquire new data) by the procedure described above.
  • the case of a general object has been described. However, even for a specific object, a person, a photograph, or a scene, information related to the object is similarly stored in the database group.
  • the procedure can be used, for example, when selecting a target target of the user from a plurality of target candidates that can be extracted in steps 30-38 and 30-39 of the procedure in FIG. 3A.
  • Step (S10) extracts a representative node corresponding to the co-occurring object / event as a result of step 30-38 from the graph database 365 (S11).
  • This step is performed by accessing the graph database in Step 30-16 and Steps 30-20 to 30-28 shown in FIG. 3A.
  • the target nodes (64) and (65) can be extracted from the link of the node 60 in FIG. 4A and the two color nodes (67) and (72).
  • step (S11) one or more representative nodes can be extracted.
  • step (S13) one representative node is stored in variable i.
  • the number of nodes referring to the representative node of the variable i is stored in the variable n_ref [i] (S14).
  • the link from the node referring to the node (90) is the link of the dotted circle (94), and is “3”.
  • the total number of nodes in the subgraph of node i is substituted for n_all [i] (S15). In the node (90) of FIG. 4B (C), “5” is substituted.
  • n_ref [i] greater than a specified value? Is judged. If YES, 1 is substituted for n_fea [i] (S17), and if NO, 0 is substituted (S18).
  • step (S19) a value obtained by dividing the number of nodes corresponding to the feature spoken by the user by n_all [i] is added to n_fea [i] by the procedure shown in FIG. 3A in the subgraph of node i. .
  • the binomial set ⁇ n_all [i], n_fea [i] ⁇ is set as the selection priority for the node i.
  • the graph structure reflecting the learning result by the image recognition process is used as the calculation reference, and the learning result can be reflected in the selection priority.
  • the node related to the feature is added to the representative node, so the selection calculated in the above step The priority changes.
  • the calculation of the selection priority is not limited to this method.
  • the link weight may be considered.
  • the node (74) and the node (75) are counted with the other nodes having the same weight, and the number of nodes is counted.
  • the node (74) and the node (75) are strongly related to each other. You may count as one node. In this way, the relationship between nodes may be considered.
  • the second term is a value of “1” or more among the node groups arranged in descending order of the value of the first term of the selection priority.
  • the second term is calculated from the relationship with the specified value in step (S16). That is, it is calculated from the non-reference number of the representative node. For example, when the specified value in step (S16) is set to “2”, a representative node to which a plurality of two or more users are linked (that is, a target object of the user once) is selected.
  • the selection priorities expressed by the binomial sets may be normalized and compared as a two-dimensional vector.
  • the feature quantity node in the subgraph related to the representative node, the representative feature quantity within the corresponding class of the node (91) in the example of FIG. 4B (C) (for example, the feature quantity in the Visual Word dictionary 110-10)
  • the selection priority may be calculated in consideration of the distance to
  • the upload of the camera image may be terminated (30-50) on the assumption that the object has been recognized by the user. .
  • the present invention includes an image recognition system 301, a biometric authentication unit 302, an interest graph unit 303, a voice processing unit 304, a situation recognition unit 305, a message storage unit 306, a reproduction processing unit 307, and a user management unit 308.
  • the present invention is not limited thereto, and some of them may be selected and configured.
  • the voice processing unit 304 converts the user's utterance picked up by the headset system 200 worn by the user into an utterance word string using the voice recognition system 320.
  • an output from a reproduction processing unit 306, which will be described later, is notified to the user as voice through the headset system using the voice synthesis system 330.
  • image recognition processing such as general object recognition, specific object recognition, and scene recognition is performed on the image from the headset system 200.
  • the image recognition system 301 includes a general object recognition system 106, a scene recognition system 108, a specific object recognition system 110, an image category database 107, a scene component database 109, and a mother database (hereinafter abbreviated as MDB) 111.
  • the general object recognition system 106 includes a general object recognition unit 106-01, a category detection unit 106-02, a category learning unit 106-03, and a new category registration unit 106-04. 108-01, feature extraction unit 108-02, weight learning unit 108-03, and scene recognition unit 108-04.
  • the specific object recognition system 110 includes a specific object recognition unit 110-01 and an MDB search unit 110. -02, an MDB learning unit 110-03, and a new MDB registration unit 110-04.
  • the image category database 107 is composed of a category classification database 107-01 and unspecified category data 107-02.
  • the element database 109 includes a scene element database 109-01 and metadata. Is composed of a book 109-02, MDB111 consists of detailed design data 111-01, incidental information data 111-02, feature data 111-03, and an unspecified object data 111-04.
  • the functional blocks of the image recognition system 301 are not necessarily limited to these, these representative functions will be briefly described.
  • General object recognition system 106 recognizes an object included in an image with a general name or category.
  • the categories here are hierarchical, even if they are recognized as the same general object, but are further subdivided categories (the same chair has four chairs or a chair with no legs at all) Can be classified and recognized as a global category (including chairs, desks and chests, all of which are broadly classified as “furniture” categories).
  • Category recognition is the “classification” meaning this classification, the proposition of classifying objects into known classes, and categories are also called classes.
  • the general object recognition unit 106-01 extracts local feature amounts from the feature points of the object in the input image, and the local feature amounts are similar to or similar to the description of the predetermined feature amount obtained by learning in advance. Are compared with each other to determine whether the object is a known general object.
  • the category detection unit 106-02 specifies or estimates which category (class) an object that can be recognized as a general object belongs to or collates with the category classification database 107-01. As a result, the category detection unit 106-02 stores the specified category in the database. When an additional feature amount that is to be added or modified is found, the category learning unit 106-03 re-learns and updates the description of the general object in the category classification database 107-01. Also, once it is determined that the feature quantity of the object designated as the unspecified category data 107-02 and its feature quantity are very similar to the feature quantity of another unspecified object detected separately, they are newly discovered. In the new category registration unit 106-04, the feature amount is newly registered in the category classification database 107-01, and a new general name is assigned to the object. Is done.
  • the scene recognition system 108 detects characteristic image components that dominate the whole or a part of the input image using a plurality of feature extraction systems having different properties, and describes them in the scene component database 109.
  • the scene elements database 109-01 and the multi-dimensional space are mutually referenced to obtain a pattern in which each input element group is detected in the specific scene by statistical processing, and control all or part of the image. It is recognized whether or not a certain area is the specific scene.
  • the metadata group attached to the input image is collated with the image components described in the metadata dictionary 109-02 registered in advance in the scene component database 109, thereby further improving the accuracy of scene detection. It becomes possible to improve.
  • the area extraction unit 108-01 divides the entire image into a plurality of areas as necessary, and enables scene discrimination for each area. For example, from a surveillance camera installed on the wall or roof of a building in an urban space, it is possible to overlook a plurality of scenes such as intersections and entrances of many stores.
  • the feature extraction unit 108-02 uses the recognition results obtained from various available image feature amounts such as local feature amounts of the plurality of feature points detected in the designated image region, color information, and object shapes, in the subsequent stage. This is input to the weight learning unit 108-03, the probability that each element co-occurs in a specific scene is obtained, and input to the scene recognition unit 108-04 to perform scene discrimination for the final input image.
  • the specific object recognition system 110 sequentially compares the characteristics of the object detected from the input image with the characteristics of the specific object group stored in the MDB 111 in advance, and finally performs identification processing (Identification) of the object.
  • the total number of specific objects existing on the earth is enormous, and it is not practical to collate with all these specific objects. Therefore, as will be described later, it is necessary to narrow down the category and search range of an object within a certain range in advance of the specific object recognition system.
  • the specific object recognition unit 110-01 compares the local feature amount at the detected image feature point with the feature parameter group in the MDB 111 obtained by learning, and to which specific object the object is applied. Discrimination is determined by statistical processing.
  • the MDB 111 holds detailed data regarding the specific object that is available at that time.
  • Basic information necessary for reconstructing and manufacturing an object, such as finishing, is held in the MDB 111.
  • the incidental information data 111-02 holds various information related to the object such as the name of the object, the manufacturer, the part number, the date and time, the material, the composition, and the processing information.
  • the feature amount data 111-03 holds information related to feature points and feature amounts of individual objects generated based on the design information.
  • the unspecified object data 111-04 is temporarily stored in the MDB 111 for future analysis as data of an unknown object that does not belong to any specific object at that time.
  • the MDB search unit 110-02 provides a function of searching for detailed data corresponding to the specific object, and the MDB learning unit 110-03 describes the object in the MDB 111 through an adaptive and dynamic learning process. Add or modify content.
  • the new MDB registration unit 110-04 sets the object as a new specified object. New registration process.
  • FIG. 6B shows an example of the system configuration and functional blocks of the general object recognition unit 106-01 according to an embodiment of the present invention.
  • the functional blocks of the general object recognition unit 106-01 are not necessarily limited to these, but a general object recognition method when Bag-of-Features (hereinafter abbreviated as BoF) is applied as a representative feature extraction method. Is briefly described below.
  • the general object recognition unit 106-01 includes a learning unit 106-10, a comparison unit 106-11, a vector quantization histogram unit (learning) 110-11, a vector quantization histogram unit (comparison) 110-14, and a vector quantization histogram.
  • the learning unit 110-16 includes an identification unit 110-15.
  • the learning unit 110-16 includes a local feature amount extraction unit (learning) 110-07, a vector quantization unit (learning) 110-08, a Visual Word creation unit 110-09, and a Visual Word. And a dictionary (CodeBook) 110-10.
  • BoF extracts image feature points that appear in an image, expresses the entire object as an aggregate of a plurality of local feature values (Visual Word) without using the relative positional relationship, and displays them as a Visual Word obtained by learning.
  • the object is compared with a dictionary (CodeBook) 110-10 to determine which object is closest to the structure of the local feature values.
  • a multidimensional feature vector obtained by the local feature quantity extraction unit (learning) 110-07 constituting the learning unit 106-10 is converted into a feature vector group having a fixed number of dimensions by the subsequent vector quantization unit (learning) 110-08.
  • the Visual Word creation unit 110-09 generates Visual Word for each feature vector based on each centroid vector.
  • Known clustering methods include the k-means method and the mean-shift method.
  • the generated Visual Word is stored in the Visual Word dictionary (CodeBook) 110-10, the local feature values extracted from the input image are collated with each other, and the vector quantization unit (comparison) 110-13 Vector quantization is performed for each Visual Word. Thereafter, in the vector quantization histogram section (comparison) 110-14, histograms for all Visual Words are generated.
  • the total number (dimension number) of each bin of the histogram is usually thousands to tens of thousands, and there are many histogram bins that do not have feature matching at all depending on the input image, but there are also bins with remarkable feature matching, A normalization process is performed so that the sum of all bin values of the histogram becomes 1 in a lump.
  • the obtained vector quantization histogram is input to the vector quantization histogram discriminating unit 110-15 at the subsequent stage, and as an example, in a support vector machine (hereinafter referred to as SVM) which is a representative discriminator, a class to which an object belongs, That is, it recognizes what kind of general object the object is.
  • SVM support vector machine
  • the recognition result here can also be used as a learning process for the Visual Word dictionary.
  • information obtained from other methods use of metadata and collective intelligence
  • FIG. 6C shows a schematic block diagram of the entire general object recognition system 106 including the general object recognition unit 106-01 according to an embodiment of the present invention.
  • General objects belong to various categories, and they have a multiple hierarchical structure. For example, humans belong to a higher category “mammals”, and mammals belong to a higher category “animals”. Are humans also hair colors, eye colors, adults or children? It is possible to recognize in other categories such as.
  • the existence of the category classification database 107-01 is indispensable for making these recognition judgments. This is a collection of “knowledge” of civilization, and future learning and discovery will add new “knowledge” to it and continue to evolve.
  • the classes identified by the general object recognition unit 106-01 are classified into the category classification database as various multidimensional and hierarchical structures. 107-01.
  • the general object recognized in the continuous learning is collated with the category classification database 107-01, and the category detection unit 106-02 recognizes the belonging category. Thereafter, the recognition result is delivered to the category learning unit 106-03, and consistency with the description in the category classification database 107-01 is checked.
  • An object that has been recognized as a general object sometimes contains a plurality of recognition results.
  • FIG. 6D is a block diagram showing a typical example of the scene recognition system 108 according to the present invention for recognizing and determining a scene included in an input image according to an embodiment of the present invention.
  • a plurality of objects can generally be recognized from a learning image and an input image. For example, if objects such as “trees”, “grass”, and “animals” can be recognized simultaneously with areas representing “sky”, “sun”, “ground”, etc., whether they are “zoos” or “ Whether it is a “grass” can be inferred from the overall landscape and co-occurrence relationships with other objects discovered.
  • the scene recognition system 108 includes an area extraction unit 108-01, a feature extraction unit 108-02, a strong classifier (weight learning unit) 108-03, a scene recognition unit 108-04, and a scene component database 109.
  • the extraction unit 108-02 includes a local feature amount extraction unit 108-05, a color information extraction unit 108-06, an object shape extraction unit 108-07, a context extraction unit 108-08, and weak classifiers 108-09 to 108-12.
  • the scene recognition unit 108-04 includes a scene classification unit 108-13, a scene learning unit 108-14, and a new scene registration unit 108-15.
  • a scene component database 109 is a scene element database 109. -01 and a metadata dictionary 109-02.
  • the region extracting unit 108-01 performs region extraction related to the target image in order to effectively extract the characteristics of the target object without being affected by the background or other objects.
  • a graph-based region segmentation method (Efficient Graph-Based Image Segmentation) or the like is known.
  • the extracted object images are input to the local feature amount extraction unit 108-05, the color information extraction unit 108-06, the object shape extraction unit 108-07, and the context extraction unit 108-08, respectively.
  • the obtained feature quantities are subjected to discrimination processing in the weak classifiers 108-09 to 108-12, and are integratedly modeled as a multidimensional feature quantity group.
  • These modeled feature quantity groups are input to a strong classifier 108-03 having a weighted learning function, and a recognition determination result for a final object image is obtained.
  • a typical example of the weak classifier is SVM, and an example of the strong classifier is AdaBoost.
  • an input image often includes a plurality of objects and a plurality of categories that are a superordinate concept thereof, and a human can imagine a specific scene or situation (context) at a glance from there.
  • a human can imagine a specific scene or situation (context) at a glance from there.
  • a single object or a single category is presented, it is difficult to determine what scene the input image represents.
  • the surrounding situation where these objects exist, their mutual positional relationship, and the co-occurrence relationship of each object or category have an important meaning for discrimination of the scene.
  • the object group and category group that can be image-recognized in the previous section are collated based on the appearance probability of the component group for each scene described in the scene element database 109-01, and the subsequent scene recognition unit 108- In 04, it is determined using a statistical method what scene the input image represents.
  • Metadata attached to images can be a useful information source.
  • metadata attached by humans may be an assumption or obvious error, or an image may be indirectly captured as a metaphor. May not always be the case.
  • a comprehensive judgment is made with reference to co-occurrence events related to the target that can be extracted from the knowledge information processing server system equipped with the image recognition system, and the final object or category recognition process is performed. It is desirable to be done.
  • a plurality of scenes can be obtained from one image. For example, it may be “Summer Sea” and “Beach”. In that case, a plurality of scene names are assigned to the image.
  • FIG. 6E shows a configuration example and function blocks of the entire system of the specific object recognition system 110 according to the embodiment of the present invention.
  • the specific object recognition system 110 includes a general object recognition system 106, a scene recognition system 108, an MDB 111, a specific object recognition unit 110-01, an MDB search unit 110-02, an MDB learning unit 110-03, and a new MDB registration unit 110-04-.
  • the specific object recognition unit 110-01 includes a two-dimensional mapping unit 110-05, an individual image cutout unit 110-06, a local feature amount extraction unit (learning) 110-07, and a vector quantization unit (learning) 110.
  • Visual Word creation unit 110-09 Visual Word dictionary (CodeBook) 110-10, Vector quantization histogram part (learning) 110-11, Local feature quantity extraction part (comparison) 110-12, Vector quantization part ( Comparison) 110-13, vector quantization histogram portion (comparison) 110-14, Vector quantization histogram identifying unit 110-15, shape feature extraction unit 110-16, and a shape comparison section 110-17, the color information extraction unit 110-18, and color comparison unit 110-19.
  • the class (category) to which the target object belongs can be recognized by the general object recognition system 106, can the object be further recognized as a specific object? You can move on to the process of narrowing down. If a class is not specified to some extent, a search from an infinite number of specific objects is forced, and it cannot be said that it is practical in terms of time and cost.
  • the feature quantity obtained from the specific object recognition system 110 can be used for further narrowing down, and unique identification information (a product name, a specific trademark, a logo, etc.) can be recognized on a part of the object. In other cases, or in cases where useful metadata or the like is attached in advance, further pinpointing can be performed.
  • the MDB search unit 110-02 sequentially extracts detailed data and design data related to a plurality of object candidate groups from the MDB 111, and based on them, the matching process with the input image is performed. Executed. Even when an object is not an industrial product or when detailed design data itself does not exist, a certain degree of identification can be made by matching image features and image features that can be detected in detail if there is a photograph, etc. Object recognition is possible. However, there are rare cases where the appearance of the input image and the comparison image is exactly the same, and there are cases where each is recognized as a different object even if they are the same.
  • the two-dimensional mapping unit 110-05 converts the three-dimensional data in the MDB 111 into a two-dimensional image according to the appearance of the input image.
  • Visualization makes it possible to perform highly accurate feature matching processing.
  • the rendering process to the two-dimensional image in the two-dimensional mapping unit 110-05 is performed by mapping all the directions from all viewpoints, the calculation time and the calculation cost are unnecessarily increased. Narrowing processing according to how it looks is necessary.
  • various feature quantities obtained from highly accurate data using the MDB 111 can be obtained in advance in the learning process.
  • the local feature amount of the object is detected by the local feature amount extraction unit 110-07, and each local feature amount is converted into a plurality of similar feature groups by the vector quantization unit (learning) 110-08.
  • the Visual Word creation unit 110-09 converts it into a multi-dimensional feature amount set and registers them in the Visual Word dictionary 110-10. These are continuously performed for a large number of learning images until sufficient recognition accuracy is obtained.
  • the learning image is, for example, a photograph
  • the image resolution is insufficient
  • the influence of noise, the influence of occlusion, the influence of objects other than the target is unavoidable, but if it is based on the MDB 111, there is no noise
  • it is possible to extract the features of the target image in an ideal state based on high-precision data it is possible to configure a recognition system with significantly improved extraction and separation accuracy compared to conventional methods Become.
  • the local feature point and the feature amount are calculated by the local feature amount extraction unit (comparison) 110-12, and learning is performed in advance.
  • the vector quantization histogram identification unit 110-15 identifies and determines whether the object is the same as or similar to the learned object, or not.
  • SVM Small Vector Machine
  • AdaBoost AdaBoost that enables weighting of discriminating judgment after learning is also widely used as an effective discriminator.
  • the shape feature of the object is also useful to use the shape feature of the object for the purpose of further improving the detection accuracy as well as the local feature amount.
  • the object cut out from the input image is input to the shape comparison unit 110-17 via the shape feature quantity extraction unit 110-16, and identification is performed using the shape features of each part of the object.
  • the identification result is fed back to the MDB search unit 110-02, so that the narrowing down process for the MDB 111 becomes possible.
  • the shape feature quantity extraction means HoG (Histograms of Oriented Gradients) and the like are known.
  • the shape feature is also useful for the purpose of significantly reducing rendering processing from multiple viewpoint directions for obtaining a two-dimensional map using the MDB 111.
  • the color characteristics and texture (surface treatment) of the object are useful for the purpose of improving the image recognition accuracy.
  • the extracted input image is input to the color information extraction unit 110-18, and the color comparison unit 110-19 extracts the color information of the object or the texture, and the result is input to the MDB search unit 110-02.
  • the MDB search unit 110-02. By performing feedback, further narrowing processing can be performed in the MDB 111. Through the series of processes, the specific object recognition process can be performed more effectively.
  • the processing procedure 340 of the biometric authentication unit 302 will be described with reference to FIG.
  • the user wears the headset system 200 (341)
  • the following biometric authentication process starts.
  • the biometric authentication system 302.
  • SSL Secure Sockets Layer
  • TLS Transport Layer Security
  • biometric information 345 is acquired from the biometric sensor 204 provided in the headset system.
  • biometric authentication information vein pattern information in the outer ear portion or eardrum of the user wearing the headset system can be used, but these may be selected and combined, but are not limited thereto.
  • the biometric authentication information is sent to the biometric authentication system as a template.
  • Step 355 in FIG. 7 describes the processing on the biometric authentication system side.
  • the template is registered in the knowledge information processing server system 300 as a user.
  • a signature + encryption function f (x, y) is generated from the template, and in step 358, the function is returned to the headset system.
  • x in f (x, y) is data to be signature-encrypted
  • y is biometric authentication information used for signature encryption.
  • decision 345 it is confirmed whether or not the function has been obtained. If YES, the function is used for communication between the headset system and the knowledge information processing server system (346). If the determination 345 is NO, it is determined whether or not the determination 345 is NO (349). If YES, an authentication error is notified to the user (350). If the determination 349 is NO, the process is repeated from step 344. Thereafter, after waiting for a specified time in step (347), the loop (343) is repeated. When the user removes the headset system or when the authentication error occurs, the encrypted communication path with the biometric authentication system is disconnected (348).
  • FIG. 8A shows a configuration example of the interest graph unit 303 in one embodiment of the present invention.
  • access to the graph database 365 is described as direct access to the graph database 365 and the user database 366.
  • an interest graph applied to a user who is using the system is applied.
  • the graph storage unit 360 includes only necessary portions from the graph structure data stored in the graph database 365, and necessary portion information related to the user described in the user database 366. Can be selectively read out on its own high-speed memory and cached internally.
  • the graph calculation unit 361 extracts a partial graph from the graph storage unit 360 or calculates an interest graph related to the user.
  • the relevance calculation unit 362 performs n (> 1) next node extraction, filtering processing, link generation / breakage between nodes, and the like regarding relevance between nodes.
  • the statistical information processing unit 363 processes nodes and link data in the graph database as statistical information, and finds a new relationship. For example, when a certain subgraph is close in information distance to another subgraph and similar subgraphs can be classified in the same cluster, it can be determined that the new subgraph has a high probability of being included in the cluster.
  • the user database 366 is a database that holds information about the user, and is used by the biometric authentication unit 302.
  • a graph structure centered on a node corresponding to the user in the user database is handled as the interest graph of the user.
  • FIG. 8B (A) shows a basic access method for the graph database (365).
  • the value (371) is obtained from the key (370) by the locate operation (372).
  • the key (370) is derived by calculating the value (373) with a hash function.
  • a hash function For example, when the SHA-1 algorithm is used for the hash function, the key (370) is 160 bits long.
  • the Locate operation (372) a distributed hash table method can be used.
  • the relationship between the key and value is expressed by (key, ⁇ value ⁇ ) and is used as a storage unit in the graph database.
  • the node n1 (375) is (n1,1 ⁇ node n1 ⁇ ) and the node n2 (376) is (n2, ⁇ node n2 ⁇ ).
  • n1 and n2 are the keys of the node n1 (375) and the node n2 (376), respectively, and the hash calculation is performed on the node entity n1 (375) and the node entity n2 (376) to obtain the respective keys.
  • the link l1 (377) is expressed by (l1, ⁇ n1, n2 ⁇ ) similarly to the node, and ⁇ n1, n2 ⁇ is hash-calculated to obtain the key (l1) 377.
  • FIG. 8B (D) is an example of the components of the graph database.
  • the node management unit 380) manages the nodes
  • the link management unit 381 manages the links
  • the data management unit 382 manages data related to the node so as to be recorded in the data storage unit 386.
  • the history management unit 410 in FIG. 9A manages the usage history in the network communication system 100 for each user. For example, it is possible to leave the focus on the object as a footprint. Or how far have you played the same message or tweet so that you don't play it repeatedly? Record. Alternatively, when the playback of a message or tweet is stopped halfway, the portion where the playback is stopped is recorded for subsequent continuous playback.
  • FIG. 9B shows a part of the graph structure recorded in the graph database 365 as an example.
  • the user (417) node, the target (415) node, and the message and tweet (416) node are each connected by a link.
  • the reproduction of the message or tweet related to the target (415) of the user (417) is resumed from the reproduction position recorded as the node (418).
  • the usage history in the present embodiment is not limited to these methods, and other methods that can be expected to have the same effect may be used.
  • the message selection unit 411 is managed for each user, and selects a suitable message and tweet when a plurality of messages and tweet are recorded in the target focused by the user. For example, it may be played back in order of recorded time. It is also possible to selectively select and play back topics of interest of the user from the interest graph for the user. Also, messages and tweets that explicitly specify the user may be played preferentially. Note that the procedure for selecting messages and tweets in the present embodiment is not limited to these.
  • the current interest 412 is managed and stored for each user as a node group representing the current interest of the user in the interest graph unit 303.
  • the message selection unit searches the graph structure from the node group corresponding to the current interest of the user in the current interest, so that the user selects a node group having a high degree of interest at the time, and the conversation described later.
  • the input elements of the engine 430 are converted into a series of sentences and reproduced.
  • the object and degree of interest of the user are obtained from, for example, a graph structure in FIG. In FIG. 17, the user (1001) node has links to the node (1005) and the node (1002). That is, from this link, it is assumed that “wine” and “car” are interested. Whether the user is more interested in “wine” or “car” is compared with the graph structure connected from the node “wine” and the graph structure connected from the node “car”, and more interested in those who have more nodes May be high, or from the attention history related to the node, the interest may be higher due to the number of times of attention, or the user may specify the strength of his / her own interest, and the present invention is limited to these. Not.
  • the message storage unit 306 according to an embodiment of the present invention will be described with reference to FIG.
  • Messages and tweets 391 uttered by the user and / or images 421 taken by the headset system 200 are recorded in the message database 420 by the message storage unit.
  • the message node generation unit 422 acquires the message and information to be tweeted from the interest graph unit 303, and generates a message node.
  • the message management unit 423 associates the message or tweet with the message node, and records the message or tweet in the graph database 365.
  • the image 421 taken by the headset system may be recorded in the graph database 365 in the same manner. Note that the same service on the network may be used via the network for recording the message or tweet.
  • the playback processing unit 307 according to an embodiment of the present invention will be described with reference to FIG.
  • the user's utterance including the user's message and tweet 391 is recognized by the voice recognition system 320 and converted into a single or a plurality of word strings.
  • the word string is "A user is currently paying attention to something?" "Indicating spatiotemporal information?"
  • the situation identifier is given and sent to the conversation engine 430 which is a component of the playback processing unit 306.
  • the identifier as the output of the situation recognition unit 304 is not limited to each situation described above, and may be configured by a method that does not use the identifier.
  • the playback processing unit 307 is composed of the conversation engine 430, the target processing unit 431, the command processing unit 432, and the user message playback unit 433. However, these may be selected and added with new functions. However, the present invention is not limited to this configuration.
  • the target processing unit is executed when an identifier indicating that the target is being focused is given from the situation recognition unit, and performs a series of processes illustrated in FIG. 3A.
  • the user message reproduction unit reproduces a message or tweet left in the target and / or an associated image.
  • the user management unit 308 according to an embodiment of the present invention will be described with reference to FIG.
  • the user management unit manages an ACL (access control list) of authorized users in a graph structure.
  • FIG. 12A shows a state in which one user (451) node has a link with a permission (450) node. This gives the user permission for the node linked to the permission node. If the node is a message or tweet, you can play them.
  • FIG. 12B is an example in which permission is given to a specific user group.
  • the permission (452) node collectively gives permission to the user 1 (454) node, the user 2 (455) node, and the user 3 (456) node linked to the user group (453) node. Is shown.
  • FIG. 12C is an example in which a permission (457) node is given to all (458) nodes in a lump.
  • a specific user (460) node is given a permission (459) node only for a specific time or time zone (461) node and a specific place / region (462) node. It shows a state.
  • the ACL in this embodiment may have a configuration other than that shown in FIG.
  • a configuration may be adopted in which a non-permitted node is introduced to explicitly indicate a user who is not permitted.
  • the permission node may be further refined to introduce a reproduction permission node and a recording permission node, so that the form of permission may be changed depending on whether the message or tweet is reproduced or recorded.
  • FIG. 13A is used to explain an example of a use case scenario centered on a user who uses the network communication system 100 according to an embodiment of the present invention.
  • the shootable range of the camera provided in the headset system 200 worn by the user is referred to as a visual field 503, and the direction in which the user is mainly viewing is the user's subjective visual field: subjective vision 502. Call.
  • the user wears the network terminal 220, picks up the user's speech (506 or 507) with the microphone 201 incorporated in the headset system, and incorporates the camera incorporated in the headset system that reflects the user's subjective view. It is uploaded to the knowledge information processing server system 300 side together with the video imaged by 203. From the knowledge information processing server system side, it is possible to return audio information, video / text information, etc. to the earphone 202 or the network terminal 220 incorporated in the headset system.
  • FIG. 13A it is assumed that the user 500 is looking at the object group 505, and the user 501 is looking at the scene 504.
  • the object group 505 is photographed in the visual field 503 of the user's camera according to the procedure shown in FIG. 3A, and the image is uploaded to the knowledge information processing server system 300 side.
  • the image recognition system 301 extracts a specific object and / or a general object that can be recognized therefrom.
  • the user 500 is focused by the voice of the user such as “upper right” or “wine”.
  • the pointing operation is performed to notify the image recognition system that the user is currently paying attention to the object 508.
  • the knowledge information processing server system side issues a reconfirmation inquiry including a co-occurrence event not explicitly indicated by the user such as “Wine in ice bucket?”
  • the headset system 200 can be notified by voice. If the content of the reconfirmation notification is different from the user's intention, for example, the user utters “different” and issues a user's additional target selection instruction to the server system side by voice, It may be possible to enable a process for seeking re-detection. Alternatively, the user may directly specify or modify the target of interest using the GUI on the network terminal.
  • the user 501 is viewing the scene 504, and uploads a camera image reflecting the user's subjective visual field 503 to the knowledge information processing server system side provided with the image recognition engine, so that the server system side
  • the image recognition system incorporated in FIG. 2 infers that the target scene 504 is probably a “mountain landscape”.
  • the user 501 utters his / her message or tweet to the scene, for example, “nostalgic satoyama” by voice, and the message or tweet is transmitted to the server system side via the user's headset system 200. Recorded with camera video.
  • the user 501's tweet “nostalgic satoyama” is sent from the server system side to the user via the network. It is possible to send the user with audio information.
  • user communication related to the shared experience is evoked for common and impressive scenes that anyone can imagine, such as "sunset", even if the actual scenery and its location are different. Things are possible.
  • a message or tweet left by the user 500 or the user 501 with respect to a specific target is specified according to a condition set in advance by the user by an instruction by the user's voice or a direct operation on the network terminal 220. Only the user, the specific user group, or all the users can be selectively left.
  • a message or tweet left by the user 500 or the user 501 with respect to a specific target is specified according to a condition preset by the user by a user's voice instruction or direct operation on the network terminal 220. It is possible to leave selectively for a time or a time zone and / or a specific place, a specific region, and / or a specific user, a specific user group, or all users.
  • FIG. 13B is used to explain an example of network communication induced by visual curiosity for a common object, derived from the use case scenario.
  • network communication induced by the visual curiosity a description will be given of a situation in which a plurality of users are watching “sakura” in different situations in different time spaces.
  • User 1 (550) who accidentally saw cherry blossoms (560) tweeted as "beautiful cherry blossoms” and user 2 (551) tweeted as "Cherry blossoms are in full bloom” (561) in another time and space. Yes.
  • the user 4 (553) who sees the petals flowing on the water surface at a distant place murmurs, “Is the cherry blossom petal?”.
  • the target 601 includes a user (600) node, a keyword (602) node, a target image feature (603) node, a time / time zone (604) node, a location / region (605) node, a message, It is linked to each node of the tweet 607.
  • ACL (606) is linked to the target 601.
  • An ACL (608) node, a time / time zone (609) node, and a location / region (610) node are linked to the message and tweet (607) node. That is, FIG. 14 shows the target of the user, its time / time zone, place / region, extracted in the process of step 30-01 shown in FIG.
  • the graph structure shown in FIG. 14 is configured so that information not limited to the described time / time zone, location / region, and ACL can be recorded by adding or deleting nodes. Also good.
  • the general object recognition system 106 detects (901) the category to which the target belongs.
  • a category node is searched from the graph database 365 (902), and it is confirmed whether the category exists in the graph database 365 (903). If it does not exist, a new category node is added and recorded in the graph database (904).
  • a specific object is detected by the specific object recognition system 110 (905), and it is confirmed whether it already exists on the graph database (907). If it does not exist, a new specific object node is added (908) and recorded on the graph database (909).
  • the scene recognition system 108 detects a scene (910), searches a scene node from the graph database 365 (911), and checks whether the scene exists in the graph database ( 912). If not, a node related to the scene is generated and added to the graph database (913). When these series of processes are completed, the time stamp information obtained by the above process is additionally recorded on the graph database in the category node, the specific object node, or the scene node (914), and the process is terminated.
  • the new node group generation for registration in the graph database 365 described in FIG. 15 may be performed during the reconfirmation process by the user illustrated in FIG. 3A.
  • the word string extracted by the voice recognition system can be associated with various features extracted on the knowledge information processing server system side provided with the image recognition system.
  • the server system side asks the user to confirm by voice that “is it a red bus?” If the answer is "Taxi,” the server system will eventually recognize the taxi 50 by performing additional image feature extraction processing, and the user will be told that a yellow taxi on the left has been detected. Issue a reconfirmation by, and the user responds “yes” to it.
  • all the detected feature groups related to the taxi 50 are set as related node groups related to the view (scene), together with the node groups related to the words “taxi” and “yellow” confirmed by the user, the graph database 365. Can be registered within.
  • the time stamp linked to the category node, the specific object node, or the scene node shown in FIG. 15 can be associated with the user.
  • the attention history of the user can be configured as a partial graph of the acquired interest graph.
  • the state of interest of the user in a specific space-time focused on the target and the situation relating to other node groups associated therewith can be obtained via the user's voice or the GUI on the network terminal 220 via the image. It is possible to make an inquiry to the knowledge information processing server system 300 provided with the recognition system.
  • various states related to the object of interest in a specific space-time that can be derived from the acquired interest graph subgraph from the server system side are given to the user by voice, text, photo, graphic It is possible to notify with information.
  • the history of interest includes the spatiotemporal information, user information, and the like.
  • the target image information are stored as a graph structure in the graph database 365. Accordingly, it is possible to configure the attention history so that the graph structure can be directly referred to and analyzed.
  • the graph structure (1000) is an interest graph of the user (1001) node at a certain time.
  • the user is interested in the vehicle type A (1003) node and the vehicle type B (1004) node as specific objects, and they belong to the category “car” (1002) node.
  • the user is also interested in three target (specific objects 1006 to 1008) nodes, which belong to the wine (1005) node.
  • target vehicle type X (1011) node is assumed that the user pays attention to the target vehicle type X (1011) node.
  • the server system generates a link (1040) connecting the graph structure (1010) including the target vehicle type X (1011) node to the car (1002) node.
  • the server system can propose an enclosure (1020) to the user.
  • FIG. 17 shows a snapshot example of the graph structure centering on the user (1001) node in a state where the growth of the interest graph shown in FIG. 16 is further advanced.
  • the figure represents the following state.
  • the user (1001) node is interested in a specific scene (1030) node in addition to the car (1002) node and the wine (1005) node.
  • the car (1002) node is particularly interested in each node of the car type A (1003), the car type B (1004), and the car type X (1011) as specific objects, and the wine (1005) node has five kinds of wine (1006, 1007, 1008, 1021, and 1022) Interested in nodes.
  • the specific scene (1030) node is a scene represented by the image (1031) node, and is shot at the specific location (1034) node at the specific time (1033) node and listed in the ACL (1032) node. Playback is allowed only for the selected user.
  • the vehicle type X (1011) node is represented by an image (1012) node, where various user messages and tweets (1013) nodes are left, and for the users listed in the ACL (1036) node Only they are allowed to play.
  • the engine specification and color are described as nodes.
  • similar attributes are described for five types of wine (1006, 1007, 1008, 1021, and 1022) nodes. Note that some of these nodes may be directly linked from another user 2 (1036).
  • FIG. 18A is used to explain means for recording or reproducing a user's message or tweet as voice in one embodiment of the present invention.
  • the user specifies (1101) the target by the procedure shown in FIG.
  • a recipient who can receive the message or tweet is specified (ACL) and bound to the variable A.
  • whether to record or reproduce is selected (1105), and in the case of recording processing, the recording procedure of the message or tweet is executed (1106).
  • a necessary node group is generated from the four variables (O, T, P, A) and recorded in the graph database 365 (1107).
  • the selection (1105) is a reproduction process
  • a corresponding node group is extracted from the graph database 365 from the four variables (O, T, P, A) (1108), and a message remaining on the node or A procedure for reproducing a tweet is executed (1109), and a series of processes is terminated.
  • FIG. 18B explains step 1102 at the time of reproduction in FIG. 18A in detail.
  • the user selects whether the time / time zone is designated by voice or the time / time zone is designated directly by the GUI on the network terminal 220 (1111).
  • the user utters time / time zone (1112), and the voice recognition system 320 performs recognition processing (1113). Whether the result is a time / time zone is confirmed (1114), and if the result is correct, the designated time / time zone data is stored in the variable T (1116). If not, return the time / time zone to the utterance (1112).
  • the process is interrupted (QUIT)
  • the process ends by utterance.
  • the time / time zone is designated by the GUI of the network terminal (1115)
  • the input time / time zone is directly stored in the variable T (1116), and a series of end processing is performed.
  • FIG. 18C explains in detail the step 1103 during reproduction in FIG. 18A.
  • the user selects whether to specify the location / area by voice or to directly specify the location / area using the GUI on the network terminal 220.
  • the user utters a place / region (1122), and the voice recognition system 320 performs voice recognition processing (1123). It is confirmed whether the result is the place / region where the utterance was made (1124). If the result is correct, it is converted into latitude / longitude data (1127) and stored in the variable P (1128). If not, go back to Talking (1122) Place / Region.
  • the process is interrupted (QUIT), the process ends by utterance.
  • the map is displayed on the GUI of the network terminal (1125) and the location / area is directly specified on the screen of the network terminal (1126)
  • the latitude / longitude data is stored in the variable P, A series of processing ends (1128).
  • FIG. 19 a time or a time zone when a message is received by a recipient from among a plurality of messages and tweets left for a specific target, and / or A procedure for narrowing playback by making it possible to specify the remaining place or area and / or the remaining user name will be described.
  • the user who is the reception target focuses on the target according to the procedure described in FIG. 3A, and each corresponding node group is selected in advance (1140).
  • the time / time zone and place / region to be reproduced for the target are specified by the procedure shown in FIG. 18B and FIG. 18C (1201).
  • it is designated who will reproduce the message or tweet left (1202).
  • the ACL is checked (1203), and data is extracted from the node corresponding to the message or tweet that meets the specified condition and / or the node corresponding to the video (1204).
  • the next processing is repeatedly applied to all the nodes (1205).
  • the head information worn by the reception target user is obtained from the graph database 365 by using the message information related to the node and the user information leaving the tweet, and using the reproduction processing unit 306 shown in FIG.
  • the set system 200 and / or the network terminal 220 associated with the reception target user is notified by voice and / or text (1208).
  • the notification content is voice
  • it is played from the earphone built in the headset system.
  • the notification content is text, photo, and / or figure
  • information other than the voice is sent to the message or tweet on the network terminal. Synchronously displayed (1209).
  • the playback processing unit 306 is used to attach the user to be received.
  • the headset system 200 and / or the network terminal 220 associated with the user to be received as audio and / or image information that does not include the user information leaving the message or tweet. (1207)
  • the series of processing is repeatedly ended for all the extracted nodes.
  • the processing is repeatedly performed for all the nodes extracted in the loop (1205), but other means may be used.
  • an appropriate message or tweet may be selected for the user to be received using the situation recognition unit 305, and only the message or tweet and / or the accompanying video information may be reproduced.
  • time / time zone and location / region (1201) for the purpose of receiving the space-time retrospectively with respect to messages and tweets recorded in the past and image information based on them, although an example of designating a specific time / time zone and location / region has been shown, conversely, a future time / time zone and location / region may be designated. In that case, it becomes possible to deliver the message, the tweet, and the video information that is the basis of the message, to the designated future space-time in a “time capsule”.
  • the target of interest may be displayed on the network terminal in synchronization with the reproduction of the message or tweet.
  • the message or tweet is left to the recipient user by means of voice information from the knowledge information processing server system equipped with the image recognition system toward the subject outside the subjective view of the recipient user.
  • An instruction to move the head toward the target or move in the direction in which the target exists is given, and as a result, when the target user catches the target within the subjective field of view, it remains on the target. It may be configured to play back messages and tweets. Further, another means that can obtain a similar effect may be used.
  • the history management unit 410 which is a component of the situation recognition unit, records the playback position at that time in the corresponding node.
  • Image information obtained from a camera image incorporated in the user's headset system when the user points directly to the target of interest or directly touches the target with a finger regardless of the user's voice instruction An embodiment in which the image recognition system side analyzes the image in real time to identify the target of interest will be described based on the above.
  • FIG. 20A shows an example of the user's subjective view (1300).
  • wine (1301), ice bucket (1304), and two other objects 1302, 1303 are detected.
  • the user's finger 1310) directly indicates the wine.
  • the user can also directly touch the wine of interest (1301).
  • pointing with a finger it may be pointed using a stick-like tool close to the user, or a light beam such as a laser pointer may be directly irradiated onto the object.
  • FIG. 20B illustrates a target pointing procedure using fingers (1310).
  • the screen of FIG. 20A is an image from a camera reflecting the subjective visual field of the user.
  • the user's hand (1311) including the finger (1310) is detected from the screen.
  • the camera image is image-analyzed by the image recognition system, the main orientation (1312) is obtained from the shape characteristics of the finger (1310) and the hand (1311) detected therefrom, and the direction indicated by the finger (1310) is extracted.
  • the detection of the orientation (1312) may be executed locally by the image recognition engine 224 incorporated on the network terminal 220 side.
  • the orientation is detected (1322), there is a high possibility that an object pointed to by the user exists on the vector line.
  • an object existing on the vector line is detected from the image of FIG. 20A by a cooperative operation with the image recognition system 301 (1323), and image recognition processing of the target object is executed (1324).
  • the image detection and recognition processing can be performed on the recognition engine 224 which is one component on the user's network terminal 220 side, and the load on the network side can be greatly reduced. Further, high-speed tracking processing with less latency (time delay) can be performed even for a quick pointing operation by the user.
  • the final image recognition result is confirmed by making an inquiry to the knowledge information processing server system 300 provided with the image recognition system via the network, and the user is notified of the name of the recognition target (1325). If the image recognition result of the pointing object matches the user's intention, the pointing process is terminated (1325). If the result is different from the user's intention, an additional instruction request is issued (1327) and the process proceeds to step (1322). Return and continue pointing operation. Similarly, if the user has not explicitly confirmed the pointing of interest, it is assumed that the detection result is not as intended, and the above processing is repeated, or it is regarded as silent consent.
  • interactive communication can be performed between the knowledge information processing server system 300 including the image recognition system and the user.
  • the intelligent server system confirms to the user that “the target is 1302?” However, it is possible to ask the question again, "Yes, but what is this?”
  • the position information sensor 208 provided in the headset system 200 is used to detect the movement state of the headset system each time, so that the user wearing the headset system can A procedure for detecting the possibility of starting to pay attention to a certain object will be described.
  • FIG. 21 shows a state transition regarding the operation of the headset system 200.
  • the operation start (1400) state is a state in which the headset system starts to move from a certain stationary state. In the movement of the headset system, in addition to the parallel movement of the headset system itself (up / down, left / right, front / rear), the position of the headset system itself remains unchanged, and the direction of the headset system is changed by the user's swinging motion ( (See left and right, see up and down) motion.
  • Stop (1403) is a state where the headset system is stationary.
  • the short-time stationary (1404) state is a state where the headset system is temporarily stationary.
  • the long-time stationary (1405) state is a state where the headset system is stationary for a while.
  • the headset system transitions (1410) to a stopped (1403) state.
  • the stop (1403) state continues for a predetermined time or longer, the state transits (1411) to the short-time stationary (1404) state.
  • the short-time control state (1404) continues for a certain period of time and then remains stationary for a long time, the state transitions (1413) to the long-time stationary state (1405).
  • the headset system starts moving again from the short-time stationary state (1404) or the long-time stationary state (1405), the state transitions again to the operation start (1400) state (1412 or 1414).
  • the headset when the headset is in a short-time stationary (1404) state, it is determined that there is a possibility that the user has started to focus on an object in front of the eyes, and the knowledge information processing provided with the image recognition system
  • the camera incorporated in the headset system can be automatically put into the shooting start state to prepare for the subsequent series of processing.
  • the user's wearing reaction of the headset system may include actions such as tilting the neck (question), shaking the neck left and right (denial), and shaking the head up and down (consent). It is also possible to detect from data that can be detected from the position information sensor 208 provided in the.
  • the swing gestures frequently used by these users may vary depending on local customs and habits of each user. Therefore, it is necessary for the server system side to acquire the individual user's individual or region-specific gestures after learning, and to retain and reflect the attribute.
  • FIG. 22 shows an example of photo extraction in one embodiment of the present invention.
  • the photographic image is a closed area surrounded by a rectangular area affine-transformed according to the viewpoint position
  • the size of the object detected from within that area exists on a scale that is significantly different from the size of the object outside that area.
  • a general object that should originally be a three-dimensional object included in a specific area, or each feature point extracted from the specific object does not cause a relative position shift accompanying the user's viewpoint movement, and the specific closed area
  • information on the distance to an object that can be acquired from a camera that can directly detect the depth information of an image, or depth information of an object that can be acquired from binocular parallax from multiple camera images can be acquired.
  • the closed area is likely to be a flat printed matter or a photograph. It is possible that. In a similar situation, the scenery outside the window can satisfy the same conditions, but it may be possible to estimate to some extent from the surrounding situation whether it is a window or a flat image.
  • the photographs themselves are regarded as one specific object, and similar information is obtained by inquiring the knowledge information processing server system 300 provided with the image recognition system. Search for photos. As a result, if a similar or similar photographic image is found, connecting other users who are viewing, have seen, or are likely to view the same or similar photographic image in different time spaces. Is possible.
  • 23A and 23B will be used to describe a conversation with a target of interest in one embodiment of the present invention.
  • the camera captures the user's image of interest (1600).
  • the target image is recognized from the camera image reflecting the user's subjective field of view by the cooperative operation with the image recognition system 301 on the network through the target extraction process shown in FIG. 3A (1602).
  • a graph structure related to the target of interest is extracted from the graph database 365, and a node group related to messages and tweets remaining in the target of interest is extracted (1603).
  • the ACL specifying the recipient of the message or tweet is confirmed (1604).
  • the message or tweet associated with the target node group is displayed as the headset system 200 or the network terminal 220 of the user.
  • it can be notified by voice, image, figure, illustration, or character information (1605).
  • a mechanism for the user to speak further toward the target of interest by speaking (1606) in response to the message or tweet.
  • the utterance content is recognized by a cooperative operation with the voice recognition system 320 (1607) and converted into an utterance character string.
  • the character string is sent to the conversation engine 430, and based on the interest graph related to the user, the conversation engine 430 on the knowledge information processing server system 300 side selects an optimal topic from time to time (1608), and the voice It can be delivered as voice information to the headset system 201 of the user via the synthesis system 330. Thereby, the user can continue continuous voice communication with the server system.
  • the knowledge information processing server system 300 sends a response to the question as detailed information in the MDB 111 or a related node related to the subject of interest. Pull out from the group and notify the user by voice information.
  • continuous topics can be extracted from the server system side by tracing the related nodes related to the topic on the basis of the user's interest graph, and can be provided in a timely manner.
  • the continuous conversation is repeated by returning to step 1606 as long as the utterance by the user continues, and continues until the utterance of the user disappears (1609), and then ends.
  • the interactive conversation between the wide range of users and the knowledge information processing server system 300 described above can also play an important role as a learning path of the interest graph unit 303 itself.
  • the user prompts frequent conversation with respect to a specific target or topic, it is assumed that the user has a very strong interest in the target or topic, and a node related to the interest and a node related to the user It is possible to add weights to direct or indirect links.
  • the user refuses continuous conversation for a specific target or topic, the user may have lost interest in the target or topic. It is also possible to reduce the weight for the direct or indirect link between the node and the node related to the user.
  • this embodiment may be configured such that a two-way conversation between the user and the knowledge information processing server system 300 is started from an intermediate step.
  • FIG. 23B shows a configuration example of the conversation engine 430 in an embodiment of the present invention.
  • the input to the conversation engine is a graph structure 1640 centered on the target node and an utterance character string 1641 from the speech recognition system 320.
  • the former takes out information related to the object through related node extraction 1651 and sends it to keyword extraction 1650.
  • a plurality of keyword groups are extracted with reference to the ontology dictionary 1652 based on the utterance character string and the information.
  • topic extraction 1653 selects one from the plurality of keyword groups.
  • topic history management is performed so as not to repeat the same conversation.
  • the keyword extraction may be configured such that a new keyword group that is frequently referred to by other users or is highly interested in the user is preferentially extracted.
  • a reaction sentence converted into a natural colloquial form is created 1642 while referring to the conversation pattern dictionary 1655 in the reaction sentence generation 1654 and delivered to the subsequent speech synthesis system 330.
  • the conversation pattern dictionary 1655 describes the rules of sentences recalled from the keyword group. For example, for a user utterance with “Hello!”, Reply “I'm fine tank you. And you?”, For a user utterance with “I”, reply “you”, or “I “Like it.” describes typical conversation rules such as “Would you like to talk about?”. Response rules may include variables. In that case, the variable is assigned from the user's utterance.
  • the knowledge information processing server system 300 side selects a keyword group according to the user's interest from the contents described in the interest graph unit 303 stored in the server system, and based on the interest graph.
  • the user By generating an appropriate response sentence, it becomes possible for the user to continue to have a strong motivation to continue the conversation, and at the same time, it can be configured to have a feeling of having a conversation with the target.
  • the graph database 365 records a specific user including itself, a specific user group, or a node group corresponding to the entire user. Groups and nodes that record messages and tweets left for them are linked together to form a graph structure.
  • the statistical information processing unit 363 extracts a keyword group related to the message or tweet, and the situation recognition unit 305 selectively transmits the related voice, image, figure, You may comprise a present Example so that it may notify by an illustration or character information.
  • FIG. 24 a cooperative operation between the headset systems when two or more head systems 200 are connected to one network terminal 220 will be described as an embodiment of the present invention.
  • four users each wear the headset system 200, and the direction in which each user is looking is shown.
  • a marker or the like for position calibration is displayed on the shared network terminal (1701 to 1704), and is constantly monitored by a camera incorporated in each user's headset system. It is possible to grasp the mutual positional relationship and movement of users.
  • a time-axis modulated image pattern is displayed on the display device of the shared network terminal, captured by a camera image provided in each user's headset system, and demodulated, and the same positional relationship is obtained. You may ask.
  • the network terminal can automatically perform calibration of the field of view and line of sight of each camera, calibration of each user's headset system and the shared network terminal, and tracking processing. You can always know the position. Thereby, the network terminal side can recognize which user the input operation is related to the GUI operation on the shared network terminal. Thereby, on the shared display device of the shared network terminal, it is possible to display a sub-screen group having an alignment for each user in consideration of the position of each user.
  • the user asked a question related to the target on the network. It is possible to keep the target object that has become unknown by allowing other users to send new information and answers to those unknown objects via the network. A procedure for selecting and learning necessary information from the inside will be described.
  • the procedure 1800 starts from a voice input trigger 1801 by the user.
  • the voice input trigger may be uttered by a specific word by a user, a sudden change in sound pressure level picked up by a microphone, or a GUI of the network terminal unit 220. Moreover, it is not restrict
  • uploading of the camera image is started (1802), and a voice command is waited (1803).
  • voice recognition processing 1804
  • the user utters a command group for extracting the target of interest by voice
  • they are subjected to voice recognition processing (1804). For example, the pointing processing of the target of interest by voice using the means shown in FIG. It is determined whether it is completed (1805).
  • a camera image related to the inquiry target and a question or comment by the user's voice are set and issued on the network (1809).
  • Wiki if there is a new information provision or answer from Wiki, it is collected (1810), and the content is verified by the user or a large number of users and / or the knowledge information processing server system 300 side (1811).
  • the verification process the validity of the received answer is determined. If the verification is passed, the target is newly registered (1812). In the new registration, each node group corresponding to the question, comment, information, and answer is generated, associated as a node group related to the target, and recorded in the graph database 365. If the verification fails, a hold process 1822 is performed. In the hold process, the fact that the inquiry process to Wiki in step 1808 or 1818 is incomplete is recorded, and the information / answer collection process from Wiki in step 1810 is backed up until an answer that passes the verification is collected. Continue on the ground.
  • the process proceeds to the target image recognition process (1813).
  • the specific object recognition is performed by the specific object recognition system 110 in the present embodiment.
  • the general object recognition is performed by the general object recognition system 106. Shows the scene recognition performed by the scene recognition system 108, but these image recognition processes themselves are not necessarily executed serially as in the present example, and each of them is individually or in parallel. The recognition units may be further executed in parallel. Or you may combine, after optimizing each of them.
  • a voice reconfirmation message is issued to the user (1820), and if the user can confirm it correctly, the upload of the camera image is terminated. (1821) and the series of target image recognition processing is terminated (1823).
  • the target remains unconfirmed (1817), and an inquiry to Wiki on the network is started (1818).
  • the contents and validity of the new information and answer group received from Wiki are verified (1811). If the verification is passed, the target is registered (1812). In the registration, a node group corresponding to the question / comment and information / answer is generated and recorded in the graph database 365 in association with the node group related to the target.
  • the position information sensor may be a GPS (Global Positioning System), but is not limited thereto.
  • the position information detected by the position information sensor and the absolute time are added to the image taken by the camera 203 provided in the headset system, and uploaded to the knowledge information processing server system 300 provided with the image recognition system.
  • the information recorded in the graph database 365 can be calibrated.
  • FIG. 26A is an example of a graph structure related to the graph database image 504 (FIG. 13A) before the upload. Since the “sun” is “just above”, it can be estimated that the time zone is around noon.
  • FIG. 26B shows an example of the graph structure after the image upload.
  • the time corresponding to the image can be accurately determined. Further, it is possible to calibrate the error inherent in the position information itself detected by the position information sensor 208 based on the recognition result by the server system from the image captured by the camera.
  • the server system can be configured to add a useful information group obtained therefrom to the graph structure related to the image 504.
  • an object in the uploaded image is determined as a suspicious object in the knowledge information processing server system 300 provided with the image recognition system
  • information that can be obtained by image analysis of the suspicious object is obtained. It can be recorded in the graph database 365 as an information group related to such a suspicious object.
  • the presence or discovery of the suspicious object may be automatically and promptly notified to a specific user or organization that can be set in advance.
  • collation with a previously registered suspicious object or an object in a normal state can be performed by a cooperative operation with the graph database 365.
  • the present system may be configured so that the suspicious situation or scene can be detected.
  • a GUI on the user's network terminal 220 may be used to specify the discovery target.
  • the knowledge information processing server system 300 provided with the image recognition system pushes data related to a specific discovery target image and a necessary detection filter group onto the network terminal of the user, and the server system side specifies You may comprise so that a discovery object can be searched jointly among a wide range of users.
  • a node related to the specified discovery object from the graph database 365 in the server system
  • the specific image detection filter group optimized to detect the target is obtained. You may comprise so that it can do.
  • the headset system 200 and the network terminal 220 worn by the user may be configured as an integral unit.
  • a wireless communication system that can be directly connected to the network in the headset system, and a translucent display that covers a part of the user's field of view are incorporated, and a part of the network terminal is incorporated in the headset system itself, or The whole function may be incorporated and configured as an integral unit.
  • the display unit 222 can be integrated into the image output device 207.
  • the wireless communication device 211 in the headset system is responsible for communication between the network terminals, they can also be integrated into the network communication unit 223.
  • the other image feature detection unit 224, CPU 225, and storage unit 226 can be incorporated into the headset.
  • FIG. 28 shows an example of processing performed by the network terminal 220 alone in a situation where the network connection with the server is temporarily disconnected. Temporary interruptions in network connections can occur frequently when moving into tunnels, concrete-covered buildings, or on aircraft. In addition, when the radio wave condition deteriorates for various reasons, or when the maximum number of connected cells set for each radio base station is exceeded, the network connection speed tends to decrease significantly.
  • 28A and 28F show the main functional block configurations of the headset system 200 worn by the user and the network terminal 220 of the user.
  • various applications can be resident in the form of software that can be downloaded through a network by a CPU 226 incorporated therein.
  • the executable program scale, the amount of information that can be referred to, or the amount of data itself is significantly limited as compared with the configuration on the server, the knowledge information processing server system 300 provided with the image recognition system has a problem.
  • FIG. 28D shows the main functional unit configuration of the image recognition system 301 constructed on the server side.
  • the specific object recognition system 110 the general object recognition system 106, and the scene recognition system 108
  • all of the existing or present existing image recognition targets that have been required up to now are included. Covers objects, people, photographs, or entire scenes that can have proper / generic nouns attached. These infinite types and targets must be prepared originally, and further learning will be necessary in the future to discover objects and events and increase the number of items to be recognized, and the overall execution environment itself is extremely It does not reach the hands of network terminals that have limited information processing capacity and memory capacity. Their comprehensive functions are placed on powerful computer resources on the server side and huge database systems via the network. It will be taken.
  • the image recognition program 229 that can be executed on the network terminal 220 shown in (A) a feature data group that has been learned that is made resident on the recognition engine 224 after being downloaded from the server side and that is necessary for each recognition target.
  • a feature data group that has been learned that is made resident on the recognition engine 224 after being downloaded from the server side and that is necessary for each recognition target.
  • the interactive voice conversation function with the knowledge information processing server system 300 provided with the image recognition system is executed under certain restrictions by the voice recognition program 230 and the voice synthesis program 231 on the network terminal 220. It becomes possible.
  • the speech recognition system 320, the speech synthesis system 330, and the speech synthesis system 330 in the conversation engine 430 constituting the server system are included. It is necessary to download in advance the minimum necessary execution program group and data set from the speech recognition dictionary database 321 and the conversation pattern dictionary 1655, which are corresponding knowledge databases, into the storage unit 227 on the user's network terminal 220. .
  • the speech candidate system is voiced by the voice synthesis system 330 on the network in advance, and then the compressed voice is recorded.
  • Data may be downloaded onto the storage unit 227 on the user's network terminal 220 as data.
  • various images are transmitted from a network terminal represented by a PC or a smartphone with a camera, or the headset system to the knowledge information processing server system 300 provided with the image recognition system via the Internet.
  • a network terminal represented by a PC or a smartphone with a camera, or the headset system
  • various image components that can be recognized by the server system from the image or a specific object, general object, person, or scene included in the image
  • a group of nodes corresponding to the group, and / or metadata attached to the image and / or a keyword group that can be extracted from a message or tweet of the user related to the image, and / or communication between users related to the image, It can be extracted as a node group.
  • an image related to a specific target or scene that can be specified by the user, or a specific place or region can be selected and extracted, and based on them, an album that collects similar or similar objects and scenes can be created, or an image group related to a certain place or region can be extracted.
  • videos from a plurality of viewpoint directions when they are taken from a specific object, videos from a plurality of viewpoint directions, Alternatively, it can be aggregated as videos taken in different environments, or if they are a group of images related to a specific place or region, it is possible to move various viewpoints by connecting them to continuous and / or discrete panoramic images. Make it possible.
  • the metadata that is a component group of panoramic images that can identify the location and area, the metadata that is attached to each image uploaded via the Internet, or the knowledge information processing server system 300 that includes the image recognition system Estimate or acquire the time or period when the object existed by inquiring a wide range of users via the Internet or various knowledge databases on the Internet. It is possible to sort the image group along the time axis based on the time axis information, and to reconstruct the panoramic image at an arbitrary time point or period that can be designated by the user based on the sorted image group. . As a result, the user can specify an arbitrary “time-space” including an arbitrary place and region, and can move the viewpoint of the real-world video existing on the “time-space” as the panoramic image. You will be able to enjoy it.
  • a group of users who are highly interested in the object or deeply related to the specific place or region are displayed in the graph database.
  • 365 based on the target, or network communication organized for each specific place or area by those users, and from there, various kinds of information related to the specific object or specific place or area It becomes possible to construct a network communication system that enables sharing of comments, messages and tweets, provision of new information by participating users, or a search request for specific unknown / missing / missing information.
  • FIG. 29 three photos and photos (A) extracted by designating a specific “time-space” from the image group uploaded on the server system in one embodiment according to the present invention.
  • a photograph (B) and a photograph (C) are shown as examples.
  • the state of the Tokyo Nihonbashi neighborhood in the first half of 1900 is shown.
  • the “Nomura Securities” headquarters building which is known as a landmark building in the center of the left side of the screen, can recognize a specific object. It shows a building that looks like a “warehouse” and two “trams” on a bridge that can recognize general objects.
  • the above-described series of image recognition processing is executed by a cooperative operation with the specific object recognition system 110, the general object recognition 106, and the scene recognition system 108 provided in the image recognition system 301.
  • the user specifies only the spatio-temporal information, and only the image group photographed in the spatio-temporal space is extracted.
  • a spatio-temporal movement display system that can be reconstructed into a continuous or discrete panoramic image and the user can freely move the viewpoint in the space, or can freely move in the space. This will be described using a schematic implementation example.
  • image upload (2200) is started via the network terminal 220 of the user to the knowledge information processing server system 300 provided with the image recognition system via the Internet.
  • the uploaded image starts image recognition processing in the image recognition system 301 (2201). If metadata has been assigned to the image file in advance, metadata extraction processing (2204) is executed. When character information is found in the image, character information extraction processing (2203) is performed using OCR (Optical Character Recognition), etc., and then metadata extraction processing (2204) is performed. Get useful metadata.
  • the image on each object in the image is clipped by the user's GUI on the network terminal 220 or the pointing processing of the target of interest by the voice described in FIG. 3A.
  • the processing is performed, the object is narrowed down by the MDB search unit 110-02 according to the class information recognized by the general object recognition system 106 and the scene recognition system 108 for the target, and detailed information about the image
  • the specific object recognition system 110 performs comparison and collation processing with the object by referring to the MDB 111 in which the reference object is described.
  • the metadata group is referred to and the time axis information is added to the image. Is there? It is determined whether or not (2205).
  • the time information in which the object group in the image exists is extracted from the description in the MDB 111, and it is determined whether or not the object exists within the time on reference (2206). To do. If the existence is confirmed, whether there is an object that cannot be recognized in the same time with respect to another object other than the object that can be recognized as an image (2207), similarly from the description in the MDB 111 When the determination is made and all the consistency is confirmed, the process of estimating the shooting time (2208) for the image is performed. In other cases, the time information is unknown (2209) and the node information is updated.
  • information related to the location exists in the image (2210)
  • information related to the location where the object group in the image exists is extracted from the description in the MDB 111, and the object exists at the location on reference. It is determined whether or not (2210). If the existence is confirmed, it is determined whether there is any object that cannot be recognized in the same place for other objects other than the object (2211), similarly from the description in the MDB 111. Then, at the time when all the consistency is confirmed, an estimation (2212) process of the place where the image is taken is performed. In other cases, the location information is unknown (2213) and the node information is updated.
  • the metadata group that can be extracted from the image itself that can be acquired or attached to the image itself and the spatiotemporal information that can be estimated are collated again,
  • the acquisition (2214) of the spatiotemporal information relating to the entire image is completed, and the spatiotemporal information is linked to the node relating to the image (2215). If there is a flaw in the above consistency, it is assumed that there is an error in the metadata itself, a recognition error in the image recognition system, or an error or deficiency in the contents described in the MDB 111, and a subsequent re-verification process is prepared.
  • the user can specify an arbitrary spatio-temporal and extract an image group that matches the condition (2216).
  • an image group captured at an arbitrary place (2217) and an arbitrary time (2218) is extracted from a large number of image groups by tracing a node related to the designated time space (2219).
  • a panoramic image can be reconstructed by continuously connecting the detected specific feature points (2220). It becomes possible.
  • it can be reconstructed as a discrete panoramic image by performing extensive estimation processing from available information such as a map, drawing, or design drawing described in the MDB 111. It becomes possible.
  • the knowledge information processing server system 300 including the image recognition system continuously performs the learning process for acquiring the series of spatiotemporal information on a large number of uploaded images (including moving images).
  • a continuous panoramic image having spatiotemporal information can be acquired.
  • the user can specify an arbitrary time / space and enjoy an image experience (2221) related to an arbitrary viewpoint movement or an arbitrary time in the same space.
  • a GUI operation on the user's network terminal or
  • the result recognized by the server system by the selective extraction process related to the specific object, the general object, the person, or the scene focused on by the user by the pointing operation by the sound processing can be designated in advance including the user together with the input image.
  • the configuration of a network communication system that can be shared among a wide range of users will be described.
  • the image 2101 uploaded by the user is subjected to selection / extraction processing 2103 in the server system.
  • the user may execute the selection / extraction process according to the procedure shown in FIG. 3A, or the selection / extraction command shown in FIG. 30 may be executed by operating the GUI 2104. May be.
  • the image cut out by the selection / extraction process is recognized by the image recognition system 301.
  • the result is analyzed / classified / accumulated in the interest graph unit 303 and recorded in the graph database 365 together with the keyword group and spatiotemporal information.
  • the user may perform writing using a message, a tweet 2106, or character information 2105 when uploading an image. These messages, tweets, and text information issued by the user are also analyzed / classified / accumulated in the interest graph section.
  • the user, the user group including the user, or the entire user can select an image recorded from the interest graph section based on the keyword group and / or spatiotemporal information (2106) related to the target. It is possible to induce a wide range of network communication related to the image. Further, the communication between the wide range of users is observed / accumulated on the server system side and analyzed by the statistical information processing unit 363 which is one component of the interest graph unit 303, so that the user-specific or specific Link dynamic interests and curiosity that are specific to a user group or common to all users and their transitions between the broad user group, keywords that can be extracted, and nodes related to various subjects of interest. It can be acquired as a dynamic interest graph.
  • the system according to the present invention can be configured as a more convenient system by combining with various existing technologies. Examples are given below.
  • a user's utterance is picked up by a microphone incorporated in the headset system 200, and a word string and a syntax included in the utterance are extracted by the voice recognition system 320, and then automatically translated on a network.
  • the voice recognition system 320 By utilizing the system, it is possible to translate the translated word string into a different language, convert the translated word string into speech by the speech synthesis system 330, and then transmit it to other users as a message or tweet of the user.
  • the voice information from the knowledge information processing server system 300 provided with the image recognition system can be received in a language that can be specified by the user.
  • the signal source when a specific image modulation pattern is extracted together with a predetermined recognition marker from an image captured by a camera incorporated in a user's headset system in the field of view, the signal source If the signal source is in the display device or in the vicinity thereof when the presence is alerted to the user, the modulated image pattern is demodulated by a cooperative operation with the recognition engine 224, and address information such as URL obtained therefrom Can be sent via the user's headset system by referring to the user via the Internet. This makes it possible to effectively send audio information related to the display image to the user from various display devices that the user has accidentally seen. As a result, the effectiveness of digital signage as an electronic advertising medium can be further enhanced.
  • voice information is sent all at once from all digital signage that users can see, it may be felt as unnecessary noise in some cases, so the above-mentioned related to each user Based on the interest graph, only an advertisement or the like that reflects a different preference for each user may be selected and sent as different audio information for each individual user.
  • the server system 300 can be configured so as to be prepared for a situation where the biometric information value of the user suddenly changes when an event is encountered or when the possibility of encounter is increased.
  • the biometric information that can be acquired includes the user's body temperature, heart rate, blood pressure, sweating, skin surface condition, myoelectric potential, brain waves, eye movement, vocalization, head movement, body movement, and the like.
  • the server system side starts accumulating / analyzing related biological information at the same time.
  • the analysis of the camera image is started, and the image component group that can be extracted from the camera image can be registered in the graph database 365 and the user database 366 as a cause element group that may be related to the situation. To do.
  • a specific object, a general object, a person, a photograph, or a scene that can be predicted to be a cause of an abnormal change in the biometric information value that is different for each individual user.
  • the server system side promptly informs the user of the possibility by voice and / or text, image, vibration, etc. via the network. It is possible to configure the server system to notify.
  • the knowledge information processing server system 300 side including the recognition system can be configured.
  • biometric authentication system when biometric authentication is possible by acquiring a user-specific voiceprint, vein pattern, retinal pattern, or the like from the headset system that can be worn by the user on the head, the user and the image
  • This system can be configured such that the knowledge information processing server system 300 provided with the recognition system is uniquely bound.
  • the biometric authentication device can be incorporated into the headset system of the user, it can be configured to automatically log in and log out when the headset system is attached or detached. By constantly monitoring the association using the biometric information on the server system side, unauthorized login and unauthorized use by different users can be eliminated.
  • the user authentication is normally performed, the following information group is bound to the user.
  • (1) User profile that can be set by the user (2) User voice (3) Camera image (4) Spatio-temporal information (5) Biometric information (6) Other sensor information
  • the face part and / or the user is specified for each user.
  • Specific portions of possible images are extracted and detected by the image recognition system 301 incorporated in the knowledge information processing server system 300 provided with the image recognition system, and the specific image areas are indistinguishable. It can be configured to automatically filter. This makes it possible to set certain browsing restrictions including privacy protection.
  • a plurality of cameras can be installed in a headset system that a user can wear on the head.
  • imaging parallax can be provided in a plurality of cameras as one embodiment.
  • a three-dimensional camera that can directly measure the depth (distance) to the target object using a plurality of imaging elements having different properties can be incorporated.
  • a specific target designated by the server system or a surrounding area for a specific user designated by the server system in response to a voice instruction from the knowledge information processing server system 300 provided with the image recognition system By requesting the server system to shoot the user from various viewpoints, the server system side can grasp the subject in three dimensions or the surrounding situation.
  • the server system can be configured so that the related database group including the MDB 111 in the server system can be updated based on the image recognition result.
  • a depth sensor having directivity can be incorporated in a headset system that can be worn by a user on the head. As a result, it is possible to detect a movement of a living body or an object including a person approaching the user wearing the headset system and notify the user of the situation concerned by voice.
  • the camera and the image recognition engine incorporated in the user's headset system are automatically activated, and the portion of the user's network terminal where real-time processing is required so as to be able to immediately respond to sudden approach of an unexpected object
  • the knowledge information processing server system 300 equipped with the image recognition system can execute and execute a part that requires advanced information processing, a specific object that approaches the user It is possible to quickly identify / analyze a specific person, a specific animal, etc., and promptly call the result to the user by voice information or vibration.
  • an imaging system capable of photographing all directions including a periphery around the user or an upper part and a lower part of the headset system that can be worn on the head of the user.
  • a plurality of cameras capable of photographing a field of view from the rear or side that is outside the user's subjective field of view to the user's headset system.
  • an environmental sensor group capable of measuring the following environmental values can be arbitrarily incorporated in a headset system that can be worn by the user on the head.
  • Ambient brightness (luminosity) (2) Color temperature of illumination and external light
  • Ambient environmental noise (4) Ambient sound pressure level This makes it possible to reduce the ambient environmental noise and cope with the optimal camera exposure state, and to recognize the image It becomes possible to improve the recognition accuracy of the system and the recognition accuracy of the speech recognition system.
  • a translucent display device can be incorporated in a headset system that can be worn on the head of a user so as to cover a part of the field of view of the user.
  • the head head system can be configured integrally with a display display as a head mounted display (HMD) or a scouter.
  • An apparatus that enables such a display system includes an image projection system called retinal sensing that directly scans and projects image information onto the user's retina, or a device that projects an image on a translucent reflector placed in front of the eye. It has been known.
  • a part or all of the image displayed on the display screen of the user's network terminal can be displayed on the display device. Communication with the knowledge information processing server system 300 provided with the image recognition system directly via the Internet is possible without taking it out in front of the eyes.
  • a line-of-sight detection sensor may be provided in the form of the HMD that can be mounted on the head by the user, the scouter, or the same.
  • An optical sensor array may be used for the line-of-sight detection sensor, and the position of the user's pupil is detected and the line-of-sight position of the user is extracted at high speed by measuring the reflected light of the light beam emitted from the optical sensor array. I can do it.
  • a dotted line frame 2001 is a visual field image of the scouter 2002 worn by the user.
  • the viewpoint marker 2003 may be superimposed and displayed on the target in the direction of the user's line of sight. In that case, it is possible to enable calibration by an instruction by the user's voice so that the position of the viewpoint marker is displayed at the same position as the target.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 広範なソーシャル・コミュニケーションを喚起する。 インターネットに接続可能なネットワーク端末に接続され、ユーザの頭部に装着可能なヘッドセットシステムから得られるユーザの主観的な視野等を反映した画像、及び音声信号を、ネットワーク端末経由で知識情報処理サーバシステムにアップロードし、画像に内包されているユーザが着目した特定物体等に対し、音声認識システムとの協調動作により、ユーザ自身の音声による着目対象の指定、選択等を、サーバシステム上で可能にし、ユーザによる一連の画像認識プロセス及び画像認識結果を、音声合成システムとの協調動作により、サーバシステム側がインターネットを介し、ユーザのネットワーク端末経由で、画像認識結果及びその認識プロセスをユーザのヘッドセットシステムに組込まれたイヤフォンに対し音声情報として通知し、ユーザのメッセージやつぶやきを広範なユーザ間で共有可能にする。

Description

画像認識システムを備えた知識情報処理サーバシステム
 本発明は、ユーザの頭部に装着可能なヘッドセットシステムに組み込まれたカメラから得られる当該ユーザの主観的な視野を反映した画像信号を、当該ユーザのネットワーク端末経由でネットワークを介して画像認識システムを備えた知識情報処理サーバシステム側に適宜アップロードする事で、当該ユーザが関心を持って着目した特定物体、一般物体、人、写真、或いはシーン等の1以上の対象(以降「対象」と呼称)が、上記カメラ映像中のいずれに当るのかを、前記サーバシステムと当該ユーザ間の音声による双方向のコミュニケーションにより抽出可能にした上で、それら対象の抽出過程及び画像認識結果を、上記サーバシステム側が当該ユーザのネットワーク端末経由で、上記ヘッドセットシステムに組込まれたイヤフォンを通し、当該ユーザに対し音声情報により通知する事を特徴とする。
 その上で当該ユーザが着目する様々な対象に対し、当該ユーザの音声によるメッセージやつぶやき、或いは質問等の音声タグを残す事を可能にする事で、異なる時空間内において自らを含む様々なユーザが当該対象に偶然遭遇する、或いはそれら対象を偶然目にした時に、前記サーバシステム側に蓄積された当該対象に係る様々なメッセージやつぶやき群を、当該対象への着目に同期して音声で受取る事を可能にし、それら個々のメッセージやつぶやきに対し、ユーザがさらなる音声応答を返す事を可能にする事で、様々なユーザの共通の着目対象に係る広範なソーシャル・コミュニケーションを喚起する事を特徴とする。
 その上で、当該喚起された多数のユーザの視覚的関心に端を発する広範なソーシャル・コミュニケーションを、前記サーバシステム側で継続的に収集・解析・蓄積する事で、広範なユーザ、様々なキーワード、及び様々な対象を構成ノード群とする、動的なインタレストグラフとして獲得可能にし、それらを基に高度にカスタマイズされたサービスの提供、精度の高いリコメンデーションの提示、或いは動的な広告や告知等への効果的な情報提供サービスに繋げる事を可能にする、前記画像認識システムを備えた知識情報処理サーバシステムに関する。
 近年のインターネットの世界的な普及により、ネットワーク上の情報量が急激に増大しつつある事から、それら膨大な量の情報の海の中から目的とする情報を効果的且つ高速に探し出す手段としての検索技術が急速に進歩して来た。現在では、強力な検索エンジンを備えたポータルサイトがいくつも運営されている。また、閲覧者の検索キーワードやアクセス履歴等を解析し、閲覧者の嗜好にあったWebページや広告等を各々の検索結果に関連して配信する技術も開発され、閲覧者が多用するキーワードに基づく効果的なマーケティング活動等への応用も始まっている。
 例えば、ユーザにとって有用な情報を精度良く且つ容易に提供する事が出来る情報提供装置がある(特許文献1)。この情報提供装置は、ユーザによる各コンテンツに対するアクセスの頻度を表すアクセス頻度情報を、当該ユーザを識別するユーザ識別情報に対応付けて格納するアクセス履歴格納手段と、各ユーザ間における各コンテンツへのアクセス傾向の類似性を表すユーザ間類似度を、前記アクセス履歴格納手段に格納された前記アクセス頻度情報に基づいて算出するユーザ間類似度計算手段と、ユーザと各ユーザとの間の前記ユーザ間類似度により重み付けした、当該各ユーザの前記アクセス頻度情報から、当該ユーザにとってのコンテンツの有用度を表す情報であるコンテンツ・スコアを算出するコンテンツ・スコア計算手段と、前記コンテンツ・スコア計算手段によって算出された各コンテンツの前記コンテンツ・スコアを、前記ユーザ識別情報に対応付けて記憶するインデックス格納手段と、通信端末装置から送信されたユーザ識別情報を含むクエリの入力を受け付けるクエリ入力手段と、前記クエリ入力手段により受け付けられた前記クエリに適合するコンテンツのコンテンツ識別情報を取得し、当該クエリに含まれるユーザ識別情報に対応付けられて前記インデックス格納手段に記憶された前記コンテンツ・スコアを参照して、取得した前記コンテンツ識別情報から提供情報を生成する提供情報生成手段と、前記提供情報生成手段により生成された前記提供情報を、前記通信端末装置に出力する提供情報出力手段とを備える事を特徴とする、情報提供装置である。
 これらのキーワード等の文字情報を検索クエリとする検索手段をさらに拡大する目的で、画像認識技術を備えた検索エンジンの開発が近年進み、文字に代わり画像そのものを入力クエリとする画像検索サービスが、広くインターネット上で提供される様になって来ている。画像認識技術の研究の始まりは、一般に40年以上前に遡る事が出来る。以来、コンピュータの高速化と機械学習技術の進歩と共に、線画解釈(1970年代)、人手によるルールや幾何形状モデルによって構築された知識データベースに基づく認知モデル、3次元モデル表現(1980年代)といった研究が漸次行われる様になった。1990年代に入ると、特に顔画像の認識や学習による認識に関する研究が盛んになった。2000年代になると、コンピュータの処理能力の一層の向上により、統計処理や機械学習の為に必要となる膨大な計算処理が比較的安価に実行可能になった為、一般物体認識に関する研究が進んだ。一般物体認識とは、実世界のシーンを撮影した画像に対して、コンピュータがその画像中に含まれる物体を一般的な名称で認識する技術である。1980年代には、全て人手によってルールやモデルの構築を試みていたが、大量のデータを手軽に扱える様になったこの時期には、コンピュータを活用した統計的機械学習によるアプローチが注目され、近年の一般物体認識ブームのきっかけとなった。一般物体認識技術によって、画像に対するキーワードを対象画像に自動的に付与する事が可能になり、画像をその意味内容によって分類及び検索する事も可能になる。近い将来には、コンピュータによって全ての人間の画像認識機能を実現する事が目標とされている(非特許文献1)。一般物体認識技術は、画像データベースからのアプローチと統計的確率手法の導入によって急速に進歩した。その中でも先駆的な研究として、画像に人手でキーワードを付与したデータから個々の画像との対応付けを学習し物体認識を行なう手法(非特許文献2)や、局所特徴量に基づく手法(非特許文献3)等がある。また、局所特徴量による特定物体認識に関する研究にSIFT法(非特許文献4)、及びVideo Google(非特許文献5)等がある。その後、2004年に入り、「Bag-of-Keypoints」あるいは「Bag-of-Features」と呼ばれる手法が発表された。この手法は、対象となる画像をビジュアル・ワード(visual word)と呼ばれる代表的な局所パターン画像片の集合として扱い、その出現頻度を多次元のヒストグラムで表現する。具体的には、SIFT法に基づいた特徴点抽出を行い、予め求められた複数のビジュアル・ワードに基づいてSIFT特徴ベクトルをベクトル量子化し、画像毎にヒストグラムを生成するものである。この様に生成されたヒストグラムの次元数は、通常、数百から数千次元のスパース(sparse)なベクトルになる。そして、これらのベクトルは、コンピュータ上の多次元ベクトルの分類問題として高速に処理される事により、一連の画像認識処理が行われる(非特許文献6)。
 これらコンピュータによる画像認識技術の進展に伴い、カメラ付きネットワーク端末で撮影した画像を、ネットワーク経由でサーバ側に構築された画像認識システム側に問い合わせ、当該サーバ側に蓄積された膨大な画像データベースを基に、当該画像認識システム側がそれらの画像と、予め学習済みの物体毎の特徴を記述した画像特徴データベース群とを比較照合する事で、アップロードされた画像に含まれる主要な物体を画像認識し、その認識結果を前記ネットワーク端末側に速やかに提示するサービスが既に始まっている。画像認識技術の中でも特定の人間の顔の検出技術は、個々人を特定する手法の一つとして急速に応用開発が進んでいる。多数の顔画像の中から特定の人物の顔を精度良く抽出する為には、膨大な顔画像の事前学習が必要となる。その為に準備しなくてはならない知識データベースの量も極めて大きくなる事から、或る程度大規模な画像認識システムの導入が必要になる。一方、電子カメラにおけるオートフォーカスに用いられる様な一般的な「平均顔」の検出、或いは限られた人物の顔の特定であれば、電子カメラ等の小型の筐体内に十分収まる規模のシステムで今や容易に実現が可能である。また、近年供用が始まったインターネットを利用した地図提供サービスの中で、地図上の要所々々における路上写真(Street View)を居ながらにして俯瞰する事が出来る様になった。この様なアプリケーションでは、プライバシー保護の観点から偶然写り込んだ自動車のナンバープレートや歩行者の顔、或いは道路越しに垣間見えてしまう個人宅の様子等を、一定以上判別出来ない程度にフィルタ処理して再表示する必要性も出て来ている(非特許文献7)。
 近年、現実空間を拡張して、コンピュータによる情報空間としてのサイバー空間とを相互に融合しようとする拡張現実感(Augmented Reality:略称AR)というコンセプトが提案され、既に一部のサービスが始まっている。一例として、GPSや無線基地局等から取得可能な位置情報を利用した三次元位置測位システム、カメラ、及び表示装置等を一体として備えたネットワーク携帯端末を用い、上記三次元位置測位システムから割り出した自身の位置情報を基に、カメラで撮影した現実世界の映像と、サーバ上にデジタル情報として蓄積されている注釈(アノテーション:Annotation)とを重ね合わせ、サイバー空間に浮かぶエアタグ(Airtag)として現実世界の映像に貼り付ける事が可能になっている(非特許文献8)。
 1990年代後半になると、通信ネットワーク・インフラの整備拡張に伴い、インターネット上に構築されたユーザ相互の社会的関係を促進する目的で、ソーシャルネットワークに係るサイトが数多く開設され、数々のソーシャル・ネットワーキング・サービス(SNS)が生まれた。SNSにおいては、ユーザ検索機能、メッセージ送受信機能、掲示板等のコミュニティ機能によって、ユーザ間のコミュニケーションが有機的に促進される。例えばSNSのユーザは、趣味・嗜好を同じくするユーザが集う掲示板に積極的に参加して、文書や画像、音声等のパーソナル情報を交換し、また自分の友人を他の知人に紹介する事等により、人と人との相互の繋がりをさらに深め、ネットワーク上でコミュニケーションを有機的かつより広範に広げていく事が出来る。
 SNSにおけるサービスの一形態として、ネットワーク上にアップロードされた動画を複数のユーザが選択共有し、当該動画シーン上の任意の位置にユーザが自由に当該動画内容に関連するコメントをアップロードする事を可能にし、それらコメント群を当該動画面上にスクロール表示する事で、複数のユーザ間で当該動画を媒介とした共有コミュニケーションを図る事が可能なコメント付き動画配信システムがある(特許文献2)。当該システムは、コメント情報をコメント配信サーバから受信し当該共有動画の再生を開始すると共に、当該コメント情報から再生する動画の、特定の動画再生時間に対応するコメントをコメント配信サーバから読み出し、読み出したコメント群に対応付けられた動画再生時間に、当該動画と共にそれらコメント群を表示可能にする。併せて、それらコメント情報をリストとしても個別に表示可能にし、表示されたコメント情報から特定のコメントデータが選択されると、選択されたコメントデータのコメント付与時間に対応する動画再生時間から当該動画を再生し、読み出したコメントデータを表示部に再表示させる。また、ユーザによるコメントの入力操作を受け付けて、コメントが入力された時点の動画再生時間をコメント付与時間として、コメント内容と共に前記コメント配信サーバに送信する。
 SNSの中でも、ネットワーク上で交換可能な情報パケットサイズを大幅に限定する事で、コミュニケーションのリアルタイム性をより重視しようという動きもある。これらマイクロブログとも呼ばれるユーザの短いつぶやきや、それらに関連するURL等のアドレス情報を埋め込んだ140文字以内の文字データを、当該ユーザがインターネット上にリアルタイム且つ広範に発信する事で、当該ユーザのその時々の体験を当該ユーザの文字によるつぶやきのみならず、画像や音声データを加えた一体的な情報として広範なユーザ間で共有可能にし、さらにユーザがそれらつぶやきの中から特定の発信者や特定の話題を選択してフォローする機能も提供する事で、地球規模でのリアルタイム・コミュニケーションを喚起するサービスが既に始まっている(非特許文献9)。
 ネットワークを介した情報サービスとは異なるものの、特定の対象に対峙した時に当該対象に関する詳細な音声説明を受取る事が出来るサービスとして、博物館や美術館の「音声ガイド」システムがある。これらは、対象となる絵画等の近傍に設置された音声信号送出部から送出される赤外線変調された音声信号を、それら対象物に近接したユーザの端末装置に組込まれた赤外線受信部で復調し、当該ユーザのイヤフォンに当該絵画等に係る詳細な説明を音声として提供するもので、この方式以外にも極めて指向性の高い音声トランスミッターを用いて、ユーザの耳元に直接当該音声情報を送り込める様な音声ガイドシステムも実用化されている。
 コンピュータ・システムに対する音声による情報入力やコマンド入力方法として、ユーザの発話音声を音声言語として認識し、テキストデータや各種のコンピュータコマンドに変換して入力処理する技術がある。当該入力処理には高速の音声認識処理が必要となるが、これらを可能にする音声認識技術群として、音響処理技術、音響モデル作成・適応化技術、適合・尤度演算技術、言語モデル技術、対話処理技術等があり、これらの要素技術をコンピュータ上で組み合わせる事で、近年では十分実用に耐える高速の音声認識システムが構築可能となっている。近年では、大規模語彙連続音声認識エンジンの開発によって、ユーザにより発話される音声言語認識処理を、ネットワーク端末上でほぼ実時間で処理する事も可能となっている。
 音声認識技術の研究の歴史は、1952年に米国のベル研究所でのゼロ交差回数を用いた数字認識の研究に始まり、1970年代に入ると発声時間の長さの変動を、動的計画法を用いて非線形に正規化する手法(Dynamic Time Warping)が日本及びロシアの研究者によって提案され、米国においても統計確率的手法であるHMM(Hidden Markov Model:隠れマルコフモデル)を用いた音声認識の基礎的な研究が進んだ。現在では、利用者の音声の特徴を適応的に学習させる事より、明瞭な発声で読み上げられた文章をほぼ完全に口述筆記する事が可能なレベルにまで到達している。この様な高度の音声認識技術を応用した従来技術として、会議による発言音声を入力とする話し言葉から、文語としての議事録を自動作成する技術も開発されている(特許文献3)。
 すわなち、特許文献3に開示された技術は、音声を入力して文書情報を作成し出力する音声文書変換装置であり、文書情報出力を受信して画面に表示する表示装置を備え、この音声文書変換装置が、入力する音声を認識する音声認識部と、入力音声を漢字仮名混じりの文語に変換する変換テーブルと、前記音声認識部から認識した音声を受信して整列させ前記変換テーブルを検索して文語に変換し所定の書式で文書に編集する文書形成部と、この編集済み文書を記憶保存する文書メモリと、この保存された文書情報を送信すると共に他の情報・信号を前記表示装置との間で授受する送受信部とを有し、かつ前記表示装置が前記音声文書変換装置の送受信部との間で情報・信号を送受信する送受信部と、受信した文書情報を表示情報として記憶する表示情報メモリと、この記憶する表示情報を画面表示する表示盤とを有する事を特徴としている。
 また、コンピュータ上の文字情報からなる文章を、指定された言語で流暢に読み上げる音声合成システムは、近年最も進化の進んでいる領域の一つである。音声合成システムは、スピーチ・シンセサイザー(Speech Synthesizer)とも呼ばれ、テキストを音声に変換するテキスト読み上げシステムや、発音記号を音声に変換するシステム等を含む。歴史的には、1960年代末以降、コンピュータによる音声合成システムの開発が進んだものの、初期のスピーチ・シンセサイザーによる発声はいかにもコンピュータによる音声だと感じさせる人間味のない無機質なものが多かった。以降研究が進むにつれ、後述する様に、場面、状況、前後の文脈関係により声の抑揚や調子を自在に変化させる事が出来る様になり、人間の肉声と比べてほとんど遜色がない高品質の音声合成が可能になっている。特に、サーバ側に構築された音声合成システムは、膨大な辞書を活用可能なばかりではなく、その発声アルゴリズム自体も人間に近い複雑な発音が可能な様に多数のデジタルフィルタ類を組み込む事も可能になり、ネットワーク端末機器の急速な普及に伴い、近年その応用可能な範囲が一段と拡大している。
 音声合成技術には、大きく分けてフォルマント合成と連結的合成とがある。フォルマント合成では、人間の音声を使用する事なく周波数や音色等のパラメータをコンピュータ上で調整して人工的な合成波形を生成する。これらは一般的に人工的な音声として聞こえる場合が多い。一方で連結的合成では、基本的に人間の音声を収録して、その音素断片等を滑らかに連結して肉声に近い音声を合成する方法である。具体的には、一定時間収録された音声を「音」「音節」「形態素」「単語」「成句」「文節」等に分割してインデックス化し、検索可能な音声ライブラリ群を作成する。こうした音声ライブラリは、テキスト読み上げシステム等により音声を合成する際に、適宜最適な音素や音節等が抽出され、適切なアクセントと共に最終的に人間の発話に近い流暢な一連の音声に変換される。
 係る従来技術に加え、声調機能を備えたテキスト読み上げシステム等の開発により、バリエーションに富んだ音声を合成する技術も続々実用化されている。例えば、高度な音声編成システムによって、アクセント調整や音の高低・長さの調整を行う事によって、「うれしさを伴った声」「悲しみを伴った声」「怒りを伴った声」「冷たさを伴った声」等の感情の抑揚を調整する事が出来る他、音声編成システムが備えるデータベースに登録された特定の人のクセを反映した音声を、これらシステム上で自在に合成する事も出来る様になっている。
 また、上述した音声合成についての先行技術に、合成音声区間と部分的に一致する肉声区間を検出して、その肉声区間の韻律(抑揚・リズム)情報を合成音声に付与し、肉声と合成音声を自然に結合させる技術も提案されている(特許文献4)。
 即ち、特許文献4に開示された技術は、録音音声格納手段、入力テキスト解析手段、録音音声選択手段、接続境界算出手段、規則合成手段、接続合成手段に加えて、合成音声区間のうちで録音済みの肉声と部分的に一致する区間を決定する肉声韻律区間決定手段と、その一致部分の肉声韻律を抽出する肉声韻律抽出手段と、抽出された肉声韻律を使って合成音声区間全体の韻律情報を生成する、ハイブリッド韻律生成手段を備える事を特徴としている。
特開2009-265754号公報 特開2009-077443号公報 特開1993-012246号公報 特開2009-020264号公報
柳井啓司, "一般物体認識の現状と今後", 情報処理学会論文誌, Vol.48, No.SIG16(CVIM19), pp.1-24, 2007 Pinar Duygulu, Kobus Barnard, Nando de Freitas, David Forsyth, "Object Recognition as Machine Translation: Learning a lexicon for a fixed image vocabulary," European Conference on Computer Vision (ECCV), pp.97-112, 2002. R. Fergus, P. Perona, and A. Zisserman, "Object Class Recognition by Unsupervised Scale-invariant Learning," IEEE Conf. on Computer Vision and Pattern Recognition, pp.264-271, 2003. David G.Lowe, "Object Recognition from Local Scale-Invariant Features," Proc. IEEE International Conference on Computer Vision, pp.1150-1157, 1999. J. Sivic and A. Zisserman, "Video google: A text retrieval approach to object matching in videos", Proc. ICCV2003, Vol. 2, pp.1470-1477, 2003. G. Csurka, C. Bray, C. Dance, and L. Fan, "Visual categorization with bags of keypoints," Proc. ECCV Workshop on Statistical Learning in Computer Vision, pp.1-22, 2004. Ming Zhao, Jay Yagnik, Hartwig Adam, David Bau; Google Inc. "Large scale learning and recognition of faces in web videos"  FG '08: 8th IEEE International Conference on Automatic Face & Gesture Recognition, 2008. http://jp.techcrunch.com/archives/20091221sekai-camera/ Akshay Java, Xiaodan Song, Tim Finin, and Belle Tseng, "Why We Twitter: Understanding Microblogging Usage and Communities" Joint 9th WEBKDD and 1st SNA-KDD Workshop ’07.
 しかしながら、従来の検索エンジンにおいては、検索対象に係るいくつかのキーワードを考え文字で入力する必要があった。それらの検索結果は、複数、時に夥しい数の候補群に係る文書タイトルと共に概略記述文章として提示される事から、目的とする検索結果に辿り着く為には、各候補群が示す情報の格納先をさらに個々に開いて読み進んでいく必要があった。近年は画像を直接入力クエリとする検索も可能になり、その検索出力として関連度の高い画像そのものを一覧的に閲覧可能な画像検索サービスも提供され始めている。しかし、ユーザが関心を持った対象や事象に対し、その好奇心をさらに喚起する様な関連情報を、快適且つ的確にユーザに提供出来る迄には至っていない。また従来の検索プロセスでは、PCやネットワーク端末等に向かって一時的ではあるにせよ集中的な入力操作を行う必要がある事から、ユーザがハンズフリーで何か別の事をしながら日常の生活の中でふと誰かに語りかけ、身近な誰かが答えてくれる様な、普段我々が何気なく行っている自然なコミュニケーションが、従来のITシステム上ではまだ実現出来ていない。
 一例として、ユーザがふと調べたいと思った対象や事象に遭遇した場合、その名称等が判る場合には文字入力によるネットワーク検索を行うか、カメラ付き携帯電話やスマートフォン等を手に当該対象に近付き、当該ネットワーク端末に具備されているカメラで撮影した後、当該撮影画像を基に画像検索をかけるケースが多い。それでも思う様な検索結果が得られない場合は、ネットワーク上の他のユーザへ当該対象を問い合わせる事も可能ではある。しかし、これら一連のプロセスはユーザにとって少々煩雑であるだけではなく、対象に直接携帯電話等をかざす等の行為が必要な事から時に対象から身構えられる、場合によっては失礼だと感じさせる、さらには携帯電話をかざす行為自体に対し周りから不審な目で見られる、といった嫌いがあった。また対象が動物や人物等の場合、対象と自分との間にカメラ付き携帯端末等が入る事により一種の視覚的な壁の様なものが出来てしまう点と、検索結果を先ずは当該携帯端末で確認しようとする事から、一時的にせよ当該対象や周囲の人々とのコミュニケーションが中断しがちであった。また、これら一連の検索プロセスには相応の時間がかかる事から、ユーザが外出中にふと目にした物体や人、動物、或いはシーン等に関心を持ったとしても、その場で上記一連の操作が完結出来ない場合も多く、一旦撮影した写真を自宅等に持ち帰って改めてPC等で検索し直す必要もあった。
 近年、実用化が始まった拡張現実と呼ばれるサービスにおいて、我々が存在する現実の空間と、コンピュータネットワーク網の中に構成されるサイバー空間とを紐付ける手法の一つとして、GPS等から得られる測位情報に加え、カメラが向いている方位情報を併せて利用する手法がある。しかしこれら位置情報のみの利用では、対象物体自体の移動や、そもそも対象が観測時点で存在していない等、刻々と変化する現実の世界の状況に際し対応が困難なケースが多い。基本的に位置情報と固定的に紐付いている様々な建造物や都市のランドマーク等とは異なり、車などの移動・可搬可能な物体や、動き回る人や動物、或いは「夕焼け」等の概念的なシーンに対しては、当該システム内に画像認識機能を有していない場合には、本質的な意味での相互の対応付けが困難となる。
 SNSにおけるサービスの一形態として、近年ユーザの間で人気のあるコメント付き動画共有サービスにおいては、共有視聴される動画が録画済みの動画である場合には、現実の世界で進行中の事象に対してリアルタイムの共有体験が得られないという問題がある。これに対し、ライブストリーム映像配信に対応したコメント付与サービスが既に始まっている。対象となるストリーム映像としては、記者会見、発表会、国会中継、イベント、スポーツ等に加えて、一般ユーザの投稿によるライブ映像配信がある。これらの動画共有サービスにおいては、ネットワークを介してリアルタイムで進行中の事象に係る「場」の共有が可能となる。しかし、延々と続くライブストリーム映像配信をフォローするには時間及び忍耐が必要である。そこからユーザ固有の或いは参加しているユーザ群に共通の関心の在り所等を効果的・効率的に抽出し、それらをインタレストグラフとして広範に体系付ける素材群として見ると、その収集可能な対象及び情報量には一定の限界があった。これは利用者数が急増しているネットワーク共有動画視聴サービスでも同じで、ユーザが様々な動画ファイルを連続視聴する為に消費する時間、及び配信サーバやネットワーク回線に係るコストに対し、ユーザが能動的に何か有用な情報をサーバ側に提供出来るチャンスはそれ程多くない。
 これに対し、140文字以内という一定の制限は課されるものの、そのネットワーク上を流れるリアルタイムのトピックスの多彩さと参加者の急増も手伝って、これらマイクロブログと呼ばれるリアルタイム・メッセージ交換サービスから抽出可能なユーザ固有の、或いは特定のユーザ間で共通の、或いは広範なユーザ間において共通の、リアルタイムに収集可能なインタレストグラフの有用性に注目が集まっている。しかしながら、従来のマイクロブログにおいては、ユーザがその時点で自らが関心を持った対象や状況に係るつぶやきが中心で、当該ユーザの近傍或いは視野内に存在する他のユーザの関心の対象に対しては、有効な気付きを十分与える事が出来ているとは言えない。これらマイクロブログにおけるつぶやきの内容は極めて多岐に亘る為、特定のユーザ、特定の話題、或いは特定の場所等を指定して、テーマやトピックスを絞り込む方向の機能は提供されているものの、逆にその関心の対象をさらに拡げて行く方向として、個々のユーザ特有の潜在的な関心の反映や、当該ユーザの身近に存在する他のユーザによる顕在的な関心の在り処の通知等、さらに広範なSNSを誘発する可能性については、まだ十分生かし切れているとは言えない。
 上記課題を解決するために、本発明に係るネットワーク・コミュニケーションシステムは、一形態として、インターネットに接続可能なネットワーク端末に対し、有線或いは無線で接続可能な多機能入出力デバイスであって、少なくとも一以上のマイクロフォン、一以上のイヤフォン、一以上の画像撮像素子(カメラ)を一体として有する、ユーザの頭部に装着可能なヘッドセットシステムから得られる当該ユーザの主観的な視野、及び視点を反映した画像、及び音声信号を、前記ネットワーク端末経由でインターネット上の前記画像認識システムを備えた知識情報処理サーバシステム側にアップロード可能にし、当該画像に内包されている当該ユーザが着目した特定物体、一般物体、人、写真、或いはシーンに対し、音声認識システムとの協調動作により、当該ユーザ自身の音声による当該着目対象の指定、選択、及び抽出操作を、前記サーバシステム上で可能にした上で、当該ユーザによる上記一連の画像認識プロセス及び画像認識結果を、音声合成システムとの協調動作により、前記サーバシステム側がインターネットを介し、当該ユーザのネットワーク端末経由で、当該画像認識結果及びその認識プロセスを当該ユーザのヘッドセットシステムに組込まれたイヤフォンに対し音声情報として、及び/又は、当該ユーザのネットワーク端末に音声及び画像情報として通知する事を可能にし、当該画像認識可能になった対象に対し、当該ユーザが自らの声で語りかけたメッセージやつぶやきを、前記音声認識システムとの協調動作により、前記サーバシステム側がその内容を分析・分類・蓄積し、それらメッセージやつぶやきをネットワーク経由で、同様の対象を目にした自らを含む広範なユーザ間で共有可能にする事で、多数のユーザの視覚的な好奇心に端を発する広範なネットワーク・コミュニケーションを誘発させると共に、それら広範なユーザ間のコミュニケーションを、前記サーバシステム側で統計的に観察・蓄積・解析する事で、当該ユーザ特有の、或いは特定のユーザ群に特有の、或いはユーザ全体に共通の動的な関心や好奇心の在り所とその推移を、上記広範な「ユーザ」群、抽出可能な「キーワード」群、及び様々な着目「対象」に係るノード群との間を繋ぐ動的なインタレストグラフとして獲得可能にする事を特徴とする。
 また、前記ネットワーク・コミュニケーションシステムにおいて、ユーザが関心を持った着目対象がどの様な特徴を有しているか、及び/又は、どの様な位置関係にあるか、及び/又は、どの様な運動状態にあるかを、前記画像認識システムを備えた知識情報処理サーバシステム側にユーザが明示的に指し示す手段として、当該ユーザの音声による対象の選択指定(ポインティング)操作を可能にし、これら一連の選択指定の過程で当該ユーザが発声する当該対象に係る様々な特徴群を基に、前記音声認識システムとの協調動作により前記サーバシステム側が当該対象を正確に抽出・認識し、その画像認識結果に係る前記サーバシステム側から当該ユーザに向けての再確認内容として、当該ユーザが前記サーバシステム側に対し明示的に音声で指し示した特徴群以外に、当該ユーザの主観的視野を反映したカメラ映像を基に、前記サーバシステム側が当該対象に共起する新たな物体や事象群を抽出し、当該対象をさらに正確に言い表す事が可能な共起事象として加え、それらを一連の文章に構成し、前記音声合成システムとの協調動作により、当該ユーザに対し音声により再確認を求める事を可能にする事を特徴とする。
 本発明は、ユーザの頭部に装着可能なヘッドセットシステムに組み込まれたカメラから得られるユーザの主観的な視野を反映した画像信号を、当該ユーザのネットワーク端末経由でネットワークを介し前記画像認識システムを備えた知識情報処理サーバシステム側に適宜アップロードする事で、当該ユーザが関心を持って着目した特定物体、一般物体、人、写真、或いはシーン等の1以上の対象(以降「対象」と呼称)が、前記カメラ映像中のいずれに当るのかを、前記サーバシステムと当該ユーザ間の音声による双方向のコミュニケーションにより抽出可能にする事で、従来の画像認識システムが不得意として来たユーザの「主観」を反映した対象の抽出及び認識処理を可能にし、画像認識率そのものを向上させる効果を与えると同時に、そこにユーザの音声による対象指定(ポインティング)操作と、それに対するサーバ側からの音声による再確認という双方向のプロセスを組み入れる事で、当該画像認識システムに対し継続的な機械学習が可能となる。
 また、ユーザによる前記音声指示を前記サーバシステム側で適宜解析する事で、当該対象に係る有用なキーワード群の抽出、及び当該ユーザによる当該対象に対する関心の抽出を可能にし、そこから広範なユーザ、様々なキーワード、及び様々な対象を構成ノード群とする、動的なインタレストグラフが獲得可能になる。
 その上で、当該インタレストグラフの対象となるノード群をネットワーク上でさらに広範なユーザ、様々な対象、及び様々なキーワードに対し拡大取得する事により、当該インタレストグラフの対象領域のさらなる拡大に加え、その収集頻度をさらに高める事が出来る。これにより、コンピュータ・システムによる継続的な学習プロセスに、人類の「知」をより効果的に組み入れて行く事が可能となる。
 また本発明は、前記画像認識システムを備えた知識情報処理システムにより認識可能になったユーザの着目対象に対し、当該ユーザが残した音声によるメッセージやつぶやきをネットワーク経由で前記サーバシステム内にアップロードし分類・蓄積しておく事で、異なる時空間において同様或いは類似の対象に近付いた、或いは着目した他のユーザ、或いはユーザ群に対し、前記サーバシステム側がネットワークを介し、当該ユーザのネットワーク端末経由で、前記メッセージやつぶやきを、当該ユーザとの音声コミュニケーションにより、インタラクティブに送り込む事を可能にする。これにより、多数のユーザに及ぶ様々な視覚的好奇心に端を発する広範なユーザコミュニケーションを、ネットワーク上で継続的に喚起する事が可能になる。
 また、ユーザが様々な対象に対して残した前記メッセージやつぶやきに係る内容の解析及び分類を前記サーバシステム側でリアルタイムに実行する事で、当該サーバシステム内に保持されている前記インタレストグラフの記述を基に、当該メッセージやつぶやきに含まれる主たる話題を抽出し、当該抽出された話題を中心ノードとするさらに関連性の高い他の話題群を抽出し、それらを抽出された話題に関心の高い他のユーザ及びユーザ群と、ネットワークを介して相互に共有可能にする事で、広範なユーザが目にする様々な対象や事象に端を発したネットワーク・コミュニケーションを継続的に誘発する事が可能となる。
 また本発明においては、当該ユーザ側から発した前記メッセージやつぶやきのみならず、当該サーバシステム自身側から発する様々な関心、好奇心、或いは疑問を当該ユーザ、或いはユーザ群に対し提起する事が出来る。例えば前記インタレストグラフ内に記載の対象ノード間の関連性から想定可能な範囲を超えて、特定のユーザが特定の対象に対して一定以上の関心を示す場合や、或いは逆に一定以下の関心しか示さない場合や、当該サーバシステム側だけでは認識が困難な対象や事象が存在した場合、或いはそれらに遭遇した場合等に、当該サーバシステム側から関連する質問やコメントを、当該ユーザ、或いは特定のユーザ群、或いは広範なユーザ群に対し積極的に提起する事を可能にする。これにより、前記サーバシステム側が様々な事象を通じて人類の「知」を継続的に吸収し、学習の上で自らの知識データベース内に体系立てて取り込んで行くプロセスが構成可能となる。
 近年では超高速光ファイバー網によるネットワークのさらなる高速化と相俟って、巨大なデータセンタの敷設が進み、超並列演算可能なスーパーコンピュータの開発も一段と加速している事から、コンピュータ・システム自身の自動学習プロセスにおいて、そこに人類の「知」が効果的、有機的、かつ継続的に加わって行く事で、ネットワークを介してこれらの高性能コンピュータ・システム群による様々な事象の自動認識、及び機械学習が急速に発展して行く可能性がある。その為には、人類の「知」をいかにコンピュータ側が効果的に取得し、ネットワークを介して広範に共有可能な「知」の体系として再利用可能な状態に整理して行けるかが重要となる。言い換えると、いかにコンピュータの「好奇心」を刺激し、人とのコミュニケーションの中で継続的にコンピュータ・システムが進化して行ける効果的な方法を見つけられるかが重要となる。本発明においては、これらサーバ側に構築されたコンピュータ・システム自身による学習を、広範な対象に対する人々の視覚的関心と直接結び付ける具体的な方法を与える。
本発明の一実施形態におけるネットワーク・コミュニケーションシステムの構成に関しての説明図である。 本発明の一実施形態におけるヘッドセットシステム及びネットワーク端末の構成に関しての説明図である。 本発明の一実施形態における音声による対象画像抽出処理に関しての説明図である。 本発明の一実施形態における音声による対象画像抽出処理に関しての説明図である。 本発明の一実施形態における音声によるポインティングに関しての説明図である。 本発明の一実施形態における学習によるグラフ構造の成長に関しての説明図である。 本発明の一実施形態における複数対象候補の選択優先度処理に関しての説明図である。 本発明の一実施形態における知識情報処理サーバシステムの構成に関しての説明図である。 本発明の一実施形態における画像認識システムの構成に関しての説明図である。 本発明の一実施形態における一般物体認識部の構成及び処理フローに関しての説明図である。 本発明の一実施形態における一般物体認識システムの構成及び処理フローに関しての説明図である。 本発明の一実施形態におけるシーン認識システムの構成及び処理フローに関しての説明図である。 本発明の一実施形態における特定物体認識システムの構成及び処理フローに関しての説明図である。 本発明の一実施形態における生体認証手順に関する説明図である。 本発明の一実施形態におけるインタレストグラフ部の構成及び処理フローに関する説明図である。 本発明の一実施形態におけるグラフデータベースの基本要素及び構成に関する説明図である。 本発明の一実施形態における状況認識部の構成及び一グラフ構造例に関する説明図である。 本発明の一実施形態におけるメッセージ保管部の構成及び処理フローに関する説明図である。 本発明の一実施形態における再生処理部の構成及び処理フローに関する説明図である。 本発明の一実施形態におけるACL(アクセス制御リスト)に関する説明図である。 本発明の一実施形態におけるユースケース・シナリオに関する説明図である。 本発明の一実施形態における共通の対象への視覚的な好奇心に誘起されるネットワーク・コミュニケーションに関する説明図である。 本発明の一実施形態におけるインタレストグラフに関するグラフ構造の説明図である。 本発明の一実施形態における画像認識プロセスからのグラフ抽出手順に関する説明図である。 本発明の一実施形態におけるインタレストグラフの獲得に関する説明図である。 本発明の一実施形態における獲得されたインタレストグラフのスナップショットの一部に関する説明図である。 本発明の一実施形態における時空間及び対象を指定可能なメッセージやつぶやきの記録と再生手順に関する説明図である。 本発明の一実施形態における時間/時間帯の指定手順に関する説明図である。 本発明の一実施形態における場所/地域の指定手順に関する説明図である。 本発明の一実施形態におけるユーザが指定した時空間でのメッセージやつぶやきの再生手順に関しての説明図である。 本発明の一実施形態におけるユーザの手指による対象指示手順に関する説明図である。 本発明の一実施形態における視野の固定による対象指示の手順に関する説明図である。 本発明の一実施形態における写真の検出手法に関する説明図である。 本発明の一実施形態における対象との対話手順に関する説明図である。 本発明の一実施形態における会話エンジンの構成と処理フローに関する説明図である。 本発明の一実施形態における複数のヘッドセットからの共有ネットワーク端末の利用に関する説明図である。 本発明の一実施形態における音声によるWiki利用に関する処理手順の説明図である。 本発明の一実施形態における位置情報を利用した誤差補正に関する説明図である。 本発明の一実施形態における視点マーカーのキャリブレーションに関する説明図である。 本発明の一実施形態におけるサーバとのネットワーク接続が一時的に切断されている状況におけるネットワーク端末単体での処理に関する説明図である。 本発明の一実施形態における同一の時空間内に撮影された画像から抽出された特定物体、及び一般物体の事例である。 本発明の一実施形態におけるアップロードされた画像に含まれる特定の時空間情報の抽出及び特定の時間軸の選択指定表示に関する説明図である。 本発明の一実施形態における特定の時空間への視点移動時に特定の対象に係る会話を促す仕組みに関する説明図である。
 以下、本発明の一実施形態を図1から図31を用いながら説明する。
 図1を用いて、本発明の一実施形態におけるネットワーク・コミュニケーションシステム100の構成に関し説明する。前記ネットワーク・コミュニケーションシステムは、ヘッドセットシステム200、ネットワーク端末220、知識情報処理サーバシステム300、生体認証システム310、音声認識システム320、音声合成システム330から構成される。前記ヘッドセットシステムは1以上存在し、1以上の前記ヘッドセットシステムが1個の前記ネットワーク端末にネットワーク251で接続される。前記ネットワーク端末は1以上存在し、インターネット250に接続される。前記知識情報処理サーバシステムは、生体認証システム310、音声認識システム320、及び音声合成システム330と、各々ネットワーク252、253、及び254で接続される。前記生体情報処理システムは、インターネット250と接続されていても良い。本実施例におけるネットワークは専用回線であっても良いし、インターネットを含む公衆回線であっても良いし、公衆回線上にVPN技術を用いて仮想的な専用回線を構築したものであっても良い。以下、特に断らない限りネットワークを前記の通り定義する。
 図2(A)に、本発明の一実施形態におけるヘッドセットシステム200の構成例を示す。前記ヘッドセットシステムは、図2(B)に示す様な、ユーザが装着する事で当該ネットワーク・コミュニケーションシステム100を利用可能なインターフェース装置である。図1において、ヘッドセットシステム200aから200cは、接続251aから251cでネットワーク端末220aに対し接続され、ヘッドセットシステム200dから200eは、接続251dから251eでネットワーク端末220bに対し接続され、ヘッドセットシステム200fは、接続251fでネットワーク端末220cに接続されている。つまり、ヘッドセット200aから200fは、ネットワーク端末220aから220cを介して、インターネット経由で知識情報処理サーバシステム300に繋がっている様子を表わしている。以下、ヘッドセットシステム200と記載した場合にはヘッドセットシステム200aから200fのいずれか一台を指す。ヘッドセットシステム200aから200fは、全て同一機種である必要はない。同等の機能、或いは実施可能な最低限の機能を備えた同様の装置であれば良い。
 ヘッドセットシステム200は以下の要素群で構成されるが、これらに限らず、そのいくつかを選択して搭載しても良い。マイクロフォン201は1以上存在し、当該ヘッドセットシステムを装着したユーザの音声や、当該ユーザの周辺の音を収集する。イヤフォン202は1以上存在し、モノラル或いはステレオで、他のユーザのメッセージやつぶやき、サーバシステムからの音声による応答等を含む様々な音声情報を、当該ユーザに通知する。カメラ(画像撮像素子)203は1以上存在し、当該ユーザの主観的な視野を反映した映像以外に、ユーザの背後や側面、或いは上部等の死角となっているエリアからの映像も含んでも良い。また、静止画であるか動画であるかを問わない。生体認証センサ204は1個以上存在し、一実施例としてユーザの有用な生体識別情報の一つである静脈情報(鼓膜や外耳部から)を取得し、前記生体認証システム310と連携して、当該ユーザ、当該ヘッドセットシステム、及び前記知識情報処理サーバシステム300間を、認証し紐付ける。生体情報センサ205は1以上存在し、ユーザの体温、心拍、血圧、脳波、呼吸、眼球移動、発声、体の動き等の検出可能な各種生体情報(バイタルサイン)を取得する。深度センサ206は、前記ヘッドセットシステムを装着したユーザに近付く、人間を含む或る程度以上の大きさの生体の移動を検知する。画像出力装置207は、前記知識情報処理サーバシステム300からの各種通知情報を表示する。位置情報センサ208は、前記ヘッドセットシステムを装着したユーザの位置(緯経度、高度、向き)を検知する。一例として、当該位置情報センサに6軸モーションセンサ等を装備する事で、移動方向、向き、回転等を前記に追加して検出する様に構成しても良い。環境センサ209は、前記ヘッドセットシステム周辺の明るさ、色温度、騒音、音圧レベル、温湿度等を検知する。視線検出センサ210は、一実施例として前記ヘッドセットシステムの一部からユーザの瞳、又は網膜に向けて安全な光線を照射し、その反射光を計測する事で、ユーザの視線方向を直接検知する。無線通信装置211は、ネットワーク端末220との通信、及び前記知識情報処理サーバシステム300との通信を行う。電源部212は、前記ヘッドセットシステム全体に電力を供給する為の電池等を指すが、有線で前記ネットワーク端末に接続可能な場合は、外部からの電力供給によっても良い。
 図2(C)に、本発明の一実施形態におけるネットワーク端末220の構成例を示す。図1において、ネットワーク端末220aから220fは広くユーザが利用するクライアント端末装置であり、PC、携帯情報端末(PDA)、タブレット、インターネット接続可能な携帯電話、スマートフォン等が含まれ、これらがインターネットに接続されている様子を表している。以下、ネットワーク端末220と記載した場合には、インターネットに接続されたネットワーク端末220aから220fのいずれか一台を指す。ネットワーク端末220aから220fは同一機種である必要はない。同等の機能、或いは実施可能な最低限の機能を備えた端末装置であれば良い。
 ネットワーク端末220は以下の要素群で構成されるが、これらに限らずそのいくつかを選択して搭載しても良い。操作部221は、表示部222と共にネットワーク端末220のユーザインターフェース部である。ネットワーク通信部223は、インターネットとの通信、及び1以上のヘッドセットシステムとの通信を担当する。前記ネットワーク通信部は、IMT-2000、IEEE802.11、Bluetooth、IEEE802.3、或いは独自の有線/無線規格、及びルータを経由したその混合形態であっても良い。認識エンジン224は、知識情報処理サーバシステム300の主要な構成要素である画像認識システム301が有する画像認識処理機能から、限定された対象に関する画像認識処理に特化した前記ネットワーク端末に最適化した画像認識プログラムを前記知識情報処理サーバシステム側からダウンロードし実行する。これにより、前記ネットワーク端末側にも一定の範囲内で画像検出・認識機能の一部を持たせる事で、前記サーバ側の画像認識システム側に対する処理負担の軽減、及びネットワーク回線の負荷の軽減を図る事が出来ると共に、その後のサーバ側での認識プロセスに際し、後述の図3Aにおけるステップ30-20から30-37に対応する予備的な前処理を実行する事が可能となる。同期管理部225は、ネットワークの不具合等により回線の一時的な切断が発生し、再び回線が復帰した際にサーバ側との同期処理を行う。CPU226は中央処理装置であり、記憶部227は主メモリ装置であり、又フラッシュメモリ等を含む一次、及び二次記憶装置である。電源部228は、当該ネットワーク端末全体に電力を供給する為の電池等の電源である。これらネットワーク端末は、ネットワーク網に対し緩衝的な役割を果たす。例えば、ユーザにとって重要ではない情報をネットワーク側にアップロードしても、それは知識処理サーバシステム300にとっては当該ユーザとの紐付けという意味ではノイズであり、ネットワーク回線に対しても不要なオーバーヘッドとなる。従って、可能な範囲で或る程度のスクリーニング処理をネットワーク端末側で行う事で、ユーザに対する有効なネットワークバンド幅の確保や、ローカリティが高い処理に関し応答速度の向上を図る事が可能になる。
 図3Aを用いて、本発明の一実施例としてユーザが関心を持った対象に着目する際のユーザの音声による対象画像抽出処理30-01のフローを説明する。前記で定義した様に本実施例では特定物体、一般物体、人、写真、或いはシーンを「対象」と総称する事にする。前記対象画像抽出処理は、ステップ30-02のユーザによる音声入力トリガで始まる。前記音声入力トリガには、特定の言葉や一連の自然言語を用いても良いし、音圧レベルの変化を検出する事によりユーザの発声を検出しても良いし、またネットワーク端末220上のGUI操作によっても良い。前記ユーザの音声入力トリガによりユーザのヘッドセットシステムに具備されているカメラの撮影が開始され、そこから取得可能になる動画像、連続した静止画、或いは静止画を、前記知識情報処理サーバシステム300に対しアップロードを開始し(30-03)、その後ユーザからの音声コマンド入力待ち状態(30-04)に入る。
 一連の対象画像抽出、及び画像認識処理フローは、音声認識処理、画像特徴抽出処理、着目対象抽出処理、そして画像認識処理の順番で実行される。具体的には、音声入力コマンド待ち(30-04)からユーザの発話を認識し、当該音声認識処理によりユーザの発声した一連の言葉から単語列を抽出し、当該単語列に基づいて画像の特徴抽出処理を行い、抽出可能になった画像特徴群を基に画像認識処理を実行し、対象が複数に亘る場合や、対象自体からの特徴抽出が困難である場合等に、ユーザに対しさらなる画像特徴群の入力を求める事で、ユーザが着目した対象をサーバ側がより確実に認識するプロセスを構成する。上記ユーザの発話による「再確認」のプロセスを加える事で、画像認識システムの全ての処理プロセスをコンピュータ・システム側のみで対処しなくてはならないという従来の発想を転換して、従来画像認識システムが不得意として来た対象画像の正確な抽出、或いは従来の音声認識システムが不得意として来た同音異義語への対応問題等への効果的な対処が可能になる。実際の導入に当たっては、これらの一連の画像認識プロセスを、いかにユーザにとり煩わしい作業と思わせずに楽しいコミュニケーションと思わせられるかが重要となる。前記一連の画像特徴抽出処理では、図3Aに示す事例よりもさらに多様な画像特徴群に対応する画像特徴抽出処理部群を多数並列に配置して一気に並列処理する事が可能で、それにより画像認識精度の一層の向上と併せて処理の大幅な高速化を図る事が可能となる。
 ユーザの音声による対象のポインティング方法としては、当該ステップ30-06から30-15で例示した様な、各画像特徴群に対しユーザがそれらを各々単独に選択しながらポインティングして行く事例より、複数の画像特徴群を含んだ一連の言葉として一括してポインティングする事例の方が多いものと想定される。この場合は、複数の画像特徴群による対象の抽出処理が同時並列に行われ、そこから当該対象を表現する複数の画像特徴要素群が得られる可能性が高い。そこからより多くの特徴が抽出可能になれば、当該着目対象のポインティングの確度は一段と高まる。それら抽出可能になった画像特徴群を手掛かりに、前記画像認識システムによる画像認識処理30-16が開始される。画像認識は、一般物体認識システム106、特定物体認識システム110、及びシーン認識システム108により実行される。図3Aでは、これらを連続したフローで表現しているが、当該画像認識処理は各々並列、或いは各一般物体認識、特定物体認識、及びシーン認識処理の中でさらに並列化する事が可能で、当該画像認識処理の認識速度に係る処理時間を大幅に短縮する事が出来る。上記の結果として、当該画像認識された対象に係る様々な認識結果を、音声で当該対象に係る画像認識結果として、ユーザに通知する事が可能になる。
 この場合であっても、上記画像認識結果に加えて当該ユーザが指し示した特徴要素群のみを引用してユーザに再確認を求めたとしても、果たしてそれで本当にユーザが着目した対象をシステム側が正しく抽出したのか疑問が残る場合もある。例えば、ユーザの視野を反映したカメラ画像の中には、類似の物体が複数存在している可能性もある。本特許では、当該不確実性に対応する為、前記画像認識システムを備えた知識情報処理サーバシステム側が、当該対象の近傍状況を、当該カメラ映像を基に精査する事で当該対象と「共起」している新たな物体や事象を抽出(30-38)し、当該ユーザが明示的に指し示していないそれら新たな特徴要素群を上記再確認の要素に加え(30-39)、当該ユーザに対し音声による再確認(30-40)を求める事で、ユーザの着目対象と上記サーバシステム側が抽出した対象が同一である事を再確認する事を可能に構成することが出来る。
 上記一連の処理は、基本的に同一の対象に関する処理であり、ユーザはその行動において常に他の対象に興味を移行し得るので、図3Aにおける前記ステップ群を包含するさらに大きな外側の処理ループも存在する。なお、前記画像認識処理ループは、前記ヘッドセットシステムをユーザが装着した時点で開始しても良いし、ステップ30-02同様の音声トリガによっても開始しても良いし、前記ネットワーク端末を操作する事によって開始しても良いが、必ずしもそれらには限らない。前記処理ループの停止は、前記処理ループの開始における手段と同様に、前記ヘッドセットをユーザが外した時としても良いし、音声トリガによっても良いし、前記ネットワーク端末を操作する事によって停止しても良いが、必ずしもそれらには限らない。さらに、ユーザの着目の結果認識された対象は、当該時空間情報を付して後述のグラフデータベース365に記録する事で、後日の問い合わせに回答出来る様に構成しても良い。前記図3Aに記載の対象画像抽出処理は本発明における重要なプロセスであり、以下その各ステップを説明する。
 最初に、ユーザによる音声入力トリガ(30-02)が発生し、カメラ画像のアップロード(30-03)開始後、音声認識処理30-05によりユーザの対象検出コマンドから単語列が抽出され、前記単語列が条件群30-07から30-15のいずれかの特徴に適合した場合には、係る画像特徴抽出処理に引き渡される。前記単語列が「対象の名称」である場合(30-06)、例えば、ユーザが当該対象に係る固有名詞を発話した場合、当該アノテーションはユーザの一定の認識判断を反映したものとして、係る特定物体認識の実行(110)処理を行う。その照合結果と、当該アノテーションに齟齬がある場合、或いは疑問がある場合は、当該ユーザによる誤認識の可能性もあるとして、当該ユーザに喚起を促す。或いはユーザが、当該対象に係る一般名詞を発話した場合、当該一般名詞に係る一般物体認識の実行(106)処理を行い、その画像特徴から対象を抽出する。或いはユーザが当該対象に係るシーンを発話した場合、当該シーンに係るシーン認識の実行(108)処理を行い、その画像特徴から対象領域を抽出する。またそれらの特徴を一つだけ指し示すのではなくて、複数の特徴を含む情景として指定しても良い。例えば、道路(一般物体)の左側(位置)を走る(状態)黄色い(色)タクシー(一般物体)、ナンバーは「1234(特定物体)」という様な指定の方法である。これらの対象指定を一連の言葉としても良いし、各々個別に指定を行っても良い。対象が複数個発見される場合には、前記画像認識システムによる再確認プロセスを経て、さらに新たな画像特徴を追加して対象を絞り込んで行く事が出来る。当該画像抽出結果は、一例としてユーザに対し音声による質問、例えば「それは~ですか?」を発行して再確認処理される(30-40)。当該再確認内容に対し、着目対象の抽出がユーザの意図通りである場合は、ユーザはその旨を示す言葉或いは単語を発話して、ステップ30-50「カメラ画像アップロード終了」を実行し、当該対象画像抽出処理を終了する(30-51)。一方、ユーザの意図とは違う場合には、再びステップ30-04「音声コマンド入力待ち」に戻り、さらなる画像特徴群を入力する。また、何度入力しても対象の特定に至らない場合や、そもそも対象自体が視野外に移動してしまった場合等には、処理を中断(QUIT)して当該対象画像抽出処理を終了する。
 例えば音声認識処理30-05の結果が図3Aで示す条件30-07に適合した場合、即ちユーザが対象の「色」に関する特徴を発話した場合には、色抽出処理30-20が行われる。当該色抽出処理には、RGB3原色において色毎に範囲を設定して抽出する手法を用いても良いし、それらをYUV色空間上で抽出しても良い。またこれら特定の色空間表現には限定されない。当該色抽出処理後に対象を分離抽出し(30-29)、セグメンテーション(切り出し領域)情報を得る。次に当該セグメンテーション情報を手掛かりに対象の画像認識処理(30-16)を行う。その後は当該画像認識処理結果を利用して共起物体や共起事象を抽出(30-38)し、抽出可能になった全特徴群に関する記述を生成(30-39)し、当該記述をもってユーザに再確認を求める(30-40)。その結果がYESであれば、カメラ画像のアップロードを終了(30-50)し、音声による対象画像の抽出処理を終了(30-51)する。
 例えば音声認識処理30-05の結果が図3Aで示す条件30-08に適合した場合、即ちユーザが対象の「形状」に関する特徴を発話した場合には、形状特徴抽出30-21が行われる。当該形状特徴抽出処理では、対象に係るエッジ追跡を行いながら輪郭や主要な形状特徴を抽出後、形状のテンプレート・適合処理を行うが、それ以外の手法を用いても良い。当該形状抽出処理後に対象を分離し(30-30)、セグメンテーション情報を得る。次に当該セグメンテーション情報を手掛かりに対象の画像認識処理(30-16)を行う。その後は当該画像認識処理結果を利用して共起物体や共起事象を抽出(30-38)し、抽出可能になった全特徴群に関する記述を生成(30-39)し、当該記述をもってユーザに再確認を求める(30-40)。その結果がYESであれば、カメラ画像のアップロードを終了(30-50)し、音声による対象画像の抽出処理を終了(30-51)する。
 例えば音声認識処理30-05の結果が図3Aで示す条件30-09に適合した場合、即ちユーザが対象の「大きさ」に関する特徴を発話した場合には、物体サイズ検出処理30-22が行われる。その一例として、当該物体サイズ検出処理ではサイズ以外の他の特徴抽出処理等により切り分けされた当該対象物体に対し、周囲にある他の物体との相対的なサイズ比較がユーザとのインタラクティブな音声コミュニケーションにより実行される。例えば「左隣の~よりも大きな~」という様な指示である。その理由としては、対象が単独で存在する場合、その大きさの比較になる様な具体的な指標がないと、単に画角から見た大きさのみでそのサイズを一意に判断出来ない事によるが、それ以外の手法を用いても良い。当該サイズ検出後に対象を分離し(30-31)、セグメンテーション情報を得る。次に当該セグメンテーション情報を手掛かりに対象の画像認識処理(30-16)を行う。その後は当該画像認識処理結果を利用して共起物体や共起事象を抽出(30-38)し、抽出可能になった全特徴群に関する記述を生成(30-39)し、当該記述をもってユーザに再確認を求める(30-40)。その結果がYESであれば、カメラ画像のアップロードを終了(30-50)し、音声による対象画像の抽出処理を終了(30-51)する。
 例えば音声認識処理30-05の結果が図3Aで示す条件30-10に適合した場合、即ちユーザが対象の「明るさ」に関する特徴を発話した場合には、輝度検出処理30-23が行われる。当該輝度検出処理では、RGB3原色から、或いはYUV色空間から特定領域の輝度を求めるが、それら以外の手法を用いても良い。当該対象の輝度検出処理では、対象の周囲と比較した相対輝度の抽出が、ユーザとのインタラクティブな音声コミュニケーションにより実行される。例えば「周りより明るく輝いている~」という様な指示である。その理由としては、対象が単独で存在する場合、その明るさの比較になる様な具体的な指標がないと、単に画素が有する輝度値のみでユーザが感じた輝度を一意に判断出来ない理由によるが、それ以外の手法を用いても良い。当該輝度検出後に対象を分離し(30-32)、セグメンテーション情報を得る。次に当該セグメンテーション情報を手掛かりに対象の画像認識処理(30-16)を行う。その後は当該画像認識処理結果を利用して共起物体や共起事象を抽出(30-38)し、抽出可能になった全特徴群に関する記述を生成(30-39)し、当該記述をもってユーザに再確認を求める(30-40)。その結果がYESであれば、カメラ画像のアップロードを終了(30-50)し、音声による対象画像の抽出処理を終了(30-51)する。
 例えば音声認識処理30-05の結果が図3Aで示す条件30-11に適合した場合、即ちユーザが「対象との距離」に関する特徴を発話した場合には、奥行き検出処理30-24が行われる。当該奥行き検出処理では、ユーザのヘッドセットシステム200に具備された深度センサ206を用いて奥行きを直接測定しても良いし、2台以上のカメラ映像から得られる視差情報から計算により算出しても良い。また、これら以外の手法を用いても良い。当該距離検出後に対象を分離し(30-33)、セグメンテーション情報を得る。次に当該セグメンテーション情報を手掛かりに対象の画像認識処理(30-16)を行う。その後は当該画像認識処理結果を利用して共起物体や共起事象を抽出(30-38)し、抽出可能になった全特徴群に関する記述を生成(30-39)し、当該記述をもってユーザに再確認を求める(30-40)。その結果がYESであれば、カメラ画像のアップロードを終了(30-50)し、音声による対象画像の抽出処理を終了(30-51)する。
 例えば音声認識処理30-05の結果が図3Aで示す条件30-12に適合した場合、即ちユーザが「対象の存在する位置/領域」に関して発話した場合には、対象の領域検出30-25が行われる。当該領域検出処理では、一例としてユーザの主たる視野を反映したカメラ画像全体を予め等間隔のメッシュ状に領域分割し、ユーザからのインタラクティブな指示として「右上の~」という様な領域指定から対象を絞り込んでも良いし、「机の上の~」という様な、対象が存在する場所の指定で行っても良い。また、他の位置/領域に係る指定であっても良い。当該対象の存在する位置/領域検出後に対象を分離し(30-34)、セグメンテーション情報を得る。次に当該セグメンテーション情報を手掛かりに対象の画像認識処理(30-16)を行う。その後は当該画像認識処理結果を利用して他の共起物体や共起事象を抽出(30-38)し、抽出可能になった当該共起特徴群を含む記述を生成(30-39)し、当該記述をもってユーザに再確認を求める(30-40)。その結果がYESであれば、カメラ画像のアップロードを終了(30-50)し、音声による対象画像の抽出処理を終了(30-51)する。
 例えば音声認識処理30-05の結果が図3Aで示す条件30-13に適合した場合、即ちユーザが「対象と他物体との位置関係」に関して発話した場合には、当該対象に係る共起関係検出30-26が行われる。当該共起関係検出処理では、図3Aに記載の各処理(106、108、110、30-20から30-28)により抽出された対応特徴に係るセグメンテーション情報を用いて、それらのセグメンテーション情報に対応する各特徴との共起関係を精査する事で、対象の抽出を行う。一例として「~と一緒に写っている~」という様な指示であるが、これ以外の手法を用いても良い。これにより、当該対象と他物体との位置関係を基に対象を分離し(30-35)、当該対象に係るセグメンテーション情報を得る。次に当該セグメンテーション情報を手掛かりに対象の画像認識処理(30-16)を行う。その後は当該認識結果を利用して他の共起物体や共起事象を抽出(30-38)し、抽出可能になった当該共起特徴群を含む記述を生成(30-39)し、当該記述をもってユーザに再確認を求める(30-40)。その結果がYESであれば、カメラ画像のアップロードを終了(30-50)し、音声による対象画像の抽出処理を終了(30-51)する。
 例えば音声認識処理30-05の結果が図3Aで示す条件30-14に適合した場合、即ちユーザが「対象の動き」に関して発話した場合には、動き検出処理30-27が行われる。当該動き検出処理では、時間軸上に連続的に展開された複数枚の画像を参照し、各画像を複数のメッシュ領域に分割し、当該領域を相互に比較する事によって、カメラ自体の移動による全体画像の平行移動以外に、相対的に個別移動している領域を見つけ出し、その領域の差分抽出(30-36)処理を行い、周囲に比べて相対的に移動している領域に係るセグメンテーション情報を得る。また、これら以外の手法を用いても良い。次に当該セグメンテーション情報を手掛かりに、対象の画像認識処理(30-16)を行う。その後は当該画像認識処理結果を利用して他の共起物体や共起事象を抽出(30-38)し、抽出可能になった当該共起特徴群を含む記述を生成(30-39)し、当該記述をもってユーザに再確認を求める(30-40)。その結果がYESであれば、カメラ画像のアップロードを終了(30-50)し、音声による対象画像の抽出処理を終了(30-51)する。
 例えば音声認識処理30-05の結果が図3Aで示す条件30-15に適合した場合、即ちユーザが「対象の様子」に関して発話した場合には、状態検出処理30-28が行われる。当該状態検出処理では、物体の状態、例えば、運動状態(静止、移動、振動、浮遊、上昇、下降、飛翔、回転、泳動、接近、離遠等)、動作状態(走っている、跳んでいる、しゃがんでいる、座っている、寝ている、横たわっている、眠っている、食べている、飲んでいる、観察可能な喜怒哀楽等を含む)を、当該状態に係る特徴を記述した知識データベース(未図示)を参照しながら、連続する複数の画像群から推定・抽出(30-37)し、セグメンテーション情報を得る。次に当該セグメンテーション情報を手掛かりに、対象の画像認識処理(30-16)を行う。その後は当該画像認識処理結果を利用して、他の共起物体や共起事象を抽出(30-38)し、抽出可能になった当該共起特徴群を含む記述を生成(30-39)し、当該記述をもってユーザに再確認を求める(30-40)。その結果がYESであれば、カメラ画像のアップロードを終了(30-50)し、音声による対象画像の抽出処理を終了(30-51)する。
 ユーザは前記ステップに係る音声による図3Aで示す再確認(30-40)のステップにおいて、前記対象画像抽出処理をユーザの発話により中止する事が出来る。音声認識処理30-05において、前記中止コマンドが認識された場合には、ステップ30-50に移行しカメラ画像アップロードを終了し、音声による対象画像抽出処理を終了する(30-51)。前記記載の各々の対象の検出、抽出、或いは認識処理において、処理時間が一定以上長引く場合には、ユーザに対して興味を引き続ける目的で処理の経過を示す状況や、関連する情報を音声で伝える事が出来る。例えば、「今着目している~の認識処理を、引き続きサーバに問合わせ中です。現在~人の方が同様の対象に注目しています。もう少しお待ち下さい」「~までの処理が終わりました。途中経過は~です」の様な経過メッセージを当該ユーザに対し、音声で返す事が出来る。
 ここで、図3Bを用いて、図3Aをデータの流れから説明する。入力は画像35-01と発話35-02である。認識・抽出処理制御35-03では、発話35-02の入力による図3Aにおけるステップ30-06から30-15を1以上実行し、画像35-01に対して図3Aにおけるステップ35-16を実行する際には、一般物体認識処理システム110による一般部隊認識処理、特定物体認識システム110による特定物体認識処理、及びシーン認識システム108によるシーン認識処理のいずれか1以上を実行する。画像認識システム106、108、110の各々の機能ブロックは、実行ユニット毎にさらなる並列化が可能であり、画像認識処理ディスパッチ35-04により1以上の処理に振り分けられて並列に実行される。また、発話35-02の入力に対し、図3Aにおけるステップ30-07から30-15を実行する場合には、特徴抽出処理30-20から30-28、及び分離抽出処理30-29から30-37を実行する。上記特徴抽出処理及び分離抽出処理は各々1以上存在し、特徴抽出ディスパッチ35-05により1以上の処理に分けられて並列に実行される。前記認識・抽出処理制御35-03では、ユーザの発話に処理順序に影響を与える単語が含まれている場合(例えば、「~の上」という場合には「~」を画像認識する必要があり、その次に「上」を処理する)には、順序制御を行う。
 入力画像35-01に関して、認識・抽出処理制御35-03は、後述のグラフデータベース365にアクセスして、代表ノード35-06を抽出(当該データベースに当該ノードが存在しなければ新しい代表ノードを生成)する。前記一連の処理より、画像35-01が発話35-02に従って処理され、前記同時実行される各認識・抽出処理群に係る結果のグラフ構造35-07がグラフデータベース365に蓄積される。この様にして、入力画像35-01に対する認識・抽出処理制御35-03による一連のデータの流れは、発話35-02が当該入力画像に関して有効にある限り続く。
 次に図4Aを用いて、本発明の一実施例におけるユーザの音声による対象のポインティング操作を説明する。これは、図3Aに記載の手順に対する応用例である。図4A(A)の場所は、ニューヨーク州マンハッタン島タイムズ・スクエア界隈である。この場所にいるユーザ、或いはこの写真を見たユーザが仮に発話41「A yellow taxi on the road on the left side」をつぶやいたとする。ここから音声認識システム320は、当該発話41から複数の文字列或いは単語列を抽出する。当該発話から抽出可能な単語としては「一台」の「黄色」の「タクシー」が「左側」の「道路上」に見える、の5個である。ここから、前記図3Aで示した対象画像抽出フローにおける「対象の名称」「対象の色情報」「対象の位置」「対象の存在する領域」及び着目している対象が複数ではなく、単一の対象である事が判る。これらの手掛かりから、当該画像特徴群を有する対象の検出・抽出処理が開始され、それが点線円(50)のタクシーである可能性を前記画像認識システム側がユーザに音声により返答する事が可能となった場合、前述した様にその再確認内容として、上記ユーザが明示的に示した特徴要素群のみで再確認するだけでは、今一歩確実性に欠ける場合がある。これらの不確実性に対処する為に、ユーザがまだ指し示していない当該対象に係る他の共起特徴要素群を検出し、それらを再確認内容に加える必要がある。例えば「それは手前の横断歩道に差し掛かっているタクシーで、前に人が見えますね?」という様に、前記画像認識システムを備えた知識情報処理サーバシステム側が検出した当該対象に係る新たな共起事象を加えユーザに再確認を求める事が出来れば、よりユーザの意に沿った対象の検出・抽出・絞り込み処理が可能となる。本事例では、点線円(50)を含む領域の拡大画像図4A(B)から、「横断歩道」(55)「人」(56)が検出可能となっている様子を示している。
 同様に、大きな看板があるビルを見上げているユーザが、発話45「I’m standing on the Times Square in NY now」とつぶやけば、カメラ画像を用いた適合処理により、そこが「ニューヨーク」州「タイムズ・スクウェア」で、ユーザが有名なランドマークとなっている建物を着目していると推測可能になる。
 同様に、発話42「A red bus on the road in front」という表現から、「1台(対象の数)」の「赤(対象の色特徴)」い「バス(対象の名称)」が「正面(対象の存在する位置)」の「道路(一般物体)」「上(対象の位置関係)」が抽出可能になり、ユーザが点線円51内のバスを着目していると推定可能になる。
 同様に、発話44「The sky is fair in NY today」という表現から、「今日」の「NY」の天気は「晴れ」が抽出可能になり、ユーザが点線円(52)の領域「空」を見上げていると推定可能になる。
 少し複雑なつぶやき43「A big ad-board of “the Phantom of the Opera”, top on the building on the right side」からは、「右端」に見える「ビル」の「屋上」にある、点線円(53)で示した「オペラ座の怪人」の「広告ボード」をユーザが着目していると推定可能になる。
 これら検出可能な単語列は、各々「固有の名称」「一般名詞」「シーン」「色」「位置」「領域」「場所」等を示しており、それらに対応した画像検出・画像抽出処理が実行される。その結果が当該時空間情報、及び画像情報と共に、前記知識情報処理サーバシステム300上に引き渡される。なお、図4Aに記載のイメージは本発明の一実施例を説明したもので、それに限定されない。
 ここで、図4Bを用いて、本発明の一実施例における図3Aに記載の手順を実行する過程の学習機能に関して、図4Aのシーンを例に説明する。図4B(A)は図4Aに記載のユーザの主たる視野を反映した画像に関して獲得されたグラフ構造(後述)の一部のスナップショットである。まず画像認識プロセスとグラフ構造との関係を説明する。
 ノード(60)は図4Aを代表するノードであり、図4Aの画像データを記録しているノード(61)とリンクしている。以下、ノードとノードのリンクを用いて情報を表現する。ノード(60)はまた、場所を表わすノード(62)と、時間を表わすノード(63)に対してもリンクしている事で、撮影場所と時間の情報を保持している。さらにノード(60)は、ノード(64)とノード(65)とリンクしている。ノード(64)は、図4A中の点線円(50)の対象を代表するノードであり、前記発話41により、特徴量T1(65)、特徴量T2(66)、色属性(67)、切り抜き画像(68)、及び画像内の位置座標(69)の各情報を保持している。前記特徴量は、図3Aの手順の過程における後述の一般物体認識システム106の処理結果として得られる。ノード(65)は、図4Aの点線円(51)の対象を代表するノードであり、前記ノード(64)と同様の情報を保持している。なお、ノード(60)即ち図4Aは、ユーザ1の主観視画像としてノード(77)とリンクしている。
 次に、ユーザ2を表すノード(80)の主観視を代表するノード(81)の保持する情報を、図4B(B)に示す。図では簡略化のため、図4B(A)に記載のノードのうちいくつかは省略している。ノード(82)は、ユーザ2の主観視における図4Aの点線円(51)に相当する対象の代表ノードである。同様に、特徴量C1(84)とC2(85)を情報として保持している。
 前記ノード(65)にリンクする特徴量であるB1(70)及びB2(71)と、前記ノード(82)にリンクする特徴量であるC1(84)及びC2(85)は、一般物体認識システム106において比較され、同一対象であると判断された場合(即ち同じカテゴリに属した場合)、或いは統計的に新たな重心となり得る場合には、代表特徴量D(91)が算出され学習に付される。本実施例では、当該学習結果をVisual Word辞書110-10に記録する。さらに、対象を代表するノード(90)、及びそのサブノード群(91から93と75から76)をリンクした部分グラフが生成され、ノード(60)は、ノード(65)とのリンクをノード(90)とのリンクに置き換える。同様にノード81は、ノード82とのリンクをノード90とのリンクに置き換える。
 次に、他のユーザが異なる時空間において、図4Aで点線円(50)に相当する対象に着目した場合には、前記同様のグラフ構造を構築するが、当該対象に対して一般物体認識システム106は、前記学習により当該対象の特徴量がノード(90)に記録された特徴量と同じクラスにも属すると判断出来るので、ノード(90)とリンクする様にグラフ構造を構築する事が出来る。
 図3Aに記載の、ステップ30-20から30-28に対応する特徴抽出処理において抽出された特徴群は、ユーザの発話と、セグメンテーション情報と、当該特徴とをノードに持つグラフ構造として表現出来る。例えば、図4Aの点線円(50)のセグメンテーション領域の場合で、特徴抽出処理がステップ30-20の場合には、色に関する特徴ノードを保持するグラフ構造となる。当該グラフ構造は、既に対象に関する代表ノードが存在する時には、その部分グラフと比較される。図4Bの例では、ノード(67)の色特徴“yellow”と近いと判断出来るので、当該グラフ構造は代表ノード(64)の部分グラフになる。この様なグラフ構造の統合を記録しておいても良い。それにより、当該例では、ユーザの発話と色特徴との関係を記録する事が出来るので、“yellow”に対応する色特徴の確からしさを高める事になる。
 上記記載の手順により、後述の画像認識に係るデータベース群(107、109、111、110-10)と、後述のグラフデータベース365は成長(新しいデータを獲得)する。上記記載では一般物体の場合を説明したが、特定物体、人、写真、或いはシーンであっても、同様に当該データベース群に対象に関する情報が蓄積される。
 次に図4Cを用いて、本発明の一実施形態におけるグラフデータベース365から複数の対象候補ノードが抽出された場合に、ユーザがどれに着目しているかを算出する手段に関して説明する。当該手順は、例えば、図3Aにおける手順のステップ30-38及びステップ30-39において抽出可能になった複数の対象候補から、ユーザの着目対象を選び出す際に利用出来る。
 ステップ(S10)は、前記ステップ30-38の結果の共起物体・事象に対応する代表ノードをグラフデータベース365から抽出する(S11)。当該ステップは、図3Aに記載のステップ30-16、及びステップ30-20から30-28において、前記グラフデータベースをアクセスする事で、例えば色特徴抽出30-20では図4Aに関係する色ノードから、対象ノード(64)と(65)を、図4Aノード60と、2つの色ノード(67)と(72)のリンクから抽出する事が出来る。
 前記ステップ(S11)では、1以上の代表ノードが抽出され得る。その全ての代表ノードに対して、次のステップを繰り返す(S12)。ステップ(S13)では、一つの代表ノードを変数iに格納する。そして、当該変数iの代表ノードを参照しているノード数を、変数n_ref[i]に格納する(S14)。例えば、図4B(C)ではノード(90)を参照しているノードからのリンクは点線円(94)のリンクであり、「3」となる。次にn_all[i]にノードiの部分グラフの全ノード数を代入(S15)する。図4B(C)のノード(90)では「5」を代入する。次に、n_ref[i]が規定値以上か?が判断される。YESの場合にはn_fea[i]に1を代入(S17)し、NOの場合には0を代入(S18)する。ステップ(S19)ではn_fea[i]に、前記ノードiの部分グラフ中で図3Aに記載の手順で、ユーザの発話した特徴に対応するノードの数をn_all[i]で除した数値を加算する。例えば、図4B(C)の例で、ノード(90)に関して、ユーザが“red”のみを発話した場合には1/5を加算し、ユーザは“red”と“on”と“road”を含む発話をした場合には3/5を加算する。その結果、{n_all[i],n_fea[i]}の二項組を、ノードiに対する選択優先度とする。
 上記の構成により、前記画像認識プロセスによる学習結果を反映したグラフ構造を算出基準とする事になり、当該学習結果を選択優先度に反映する事が出来る。例えば、図3Aの記載の、ステップ30-20から30-28を含む特徴とユーザの発話が一致する場合には、代表ノードに当該特徴に関するノードが追加されるので、前記ステップにより算出された選択優先度が変化する。なお、選択優先度の算出は当該手法には限らない。例えばリンクの重みを考慮しても良い。また、図4B(C)ではノード(74)とノード(75)を他のノードを同じ重みとしてノード数をカウントしたが、当該ノード(74)とノード(75)は強関係にあるとして、1つのノードとしてカウントしても良い。この様にノード間の関係を考慮しても良い。
 ステップ30-39の抽出可能になった全特徴群の記述の生成では、前記選択優先度の第1項の値が大きな順に並べたノード群の中で、第2項が値「1」以上のノードを選び、後述の会話エンジン430を利用して、音声による再確認をユーザに対して行う事が出来る。当該第2項は、ステップ(S16)にて規定値との関係から算出している。即ち、前記代表ノードの非参照数から算出している。例えばステップ(S16)の規定値を「2」にした場合には、2以上の複数のユーザがリンクしている(即ち一度はユーザの着目対象になっている)代表ノードを選び出す。即ちユーザ対して再確認をする候補に加える事を意味している。以上記載の手順により、ステップ30-38の共起物体・事象の抽出による当該対象候補群の中から、よりユーザの意にかなった対象を選び出す事が可能になる。
 なお、前記選択優先度に係る二項組の値は、前記組み合わせの利用手段以外を用いても良い。例えば、前記二項組で表現された選択優先度を2次元ベクトルとして正規化して比較しても良い。また、例えば、代表ノードに係る部分グラフにある特徴量ノード、図4B(C)の例ではノード(91)の対応クラス内での代表特徴量(例えば、Visual Word辞書110-10における特徴量)との距離を考慮して、前記選択優先度を算出しても良い。
 さらに、前記再確認において、ユーザが規定時間無言の場合には、ユーザの意にかなった対象を認識した可能性と見做して、カメラ画像のアップロードを終了(30-50)しても良い。
 図5を用いて、本発明の一実施形態に係る知識情報処理サーバシステム300における機能ブロックを説明する。本発明では画像認識システム301、生体認証部302、インタレストグラフ部303、音声処理部304、状況認識部305、メッセージ保管部306、再生処理部307、ユーザ管理部308から構成しているが、これらに限定されず、そのいくつかを選択して構成しても良い。
 上記音声処理部304部は、ユーザが装着したヘットセットシステム200が拾うユーザの発声を、音声認識システム320を利用して発話単語列に変換する。また、後述の再生処理部306からの出力を、音声合成システム330を利用して当該ユーザに前記ヘッドセットシステムを通して音声として通知する。
 次に図6Aから図6Eを用いて、本発明の一実施形態における画像認識システム301の機能ブロックを説明する。前記画像認識システムでは、ヘッドセットシステム200からの画像に対して、一般物体認識、特定物体認識、シーン認識等の画像認識処理を行う。
 最初に図6Aを用いて、本発明の一実施形態における画像認識システム301の構成例を説明する。画像認識システム301は、一般物体認識システム106、シーン認識システム108、特定物体認識システム110、画像カテゴリデータベース107、シーン構成要素データベース109、及びマザーデータベース(以下MDBと略す)111で構成される。一般物体認識システム106は、一般物体認識部106-01、カテゴリ検出部106-02、カテゴリ学習部106-03、及び新規カテゴリ登録部106-04とで構成され、シーン認識システム108は、領域抽出部108-01、特徴抽出部108-02、重み学習部108-03、及びシーン認識部108-04とで構成され、特定物体認識システム110は、特定物体認識部110-01、MDB検索部110-02、MDB学習部110-03、及び新規MDB登録部110-04とで構成され、画像カテゴリデータベース107は、カテゴリ分類データベース107-01、及び不特定カテゴリデータ107-02で構成され、シーン構成要素データベース109は、シーン要素データベース109-01、及びメタデータ辞書109-02とで構成され、MDB111は、詳細設計データ111-01、付帯情報データ111-02、特徴量データ111-03、及び不特定物体データ111-04とで構成される。画像認識システム301の機能ブロックは必ずしもこれらに限定されるものではないが、これら代表的な機能について簡単に説明する。
 一般物体認識システム106は、画像中に含まれる物体を一般的な名称、或いはカテゴリで認識する。ここでいうカテゴリは階層的であり、同じ一般物体として認識されているものでも、さらに細分化されたカテゴリ(同じ椅子でも4本足の「椅子」もあれば、全く足の無い「座椅子」の様なものまで含まれる)や、さらに大域的なカテゴリ(椅子も机もタンスも含めて、これらは全て「家具」のカテゴリとして大分類される)としても分類及び認識が可能である。カテゴリ認識は、この分類を意味する「Classification」、即ち既知のクラスに物体を分類するという命題であり、カテゴリはまたクラスとも呼ばれる。
 一般物体認識プロセスにおいて、入力画像中の物体と参照物体画像との比較照合を行った結果、それらが同一形状であるか類似形状である場合、あるいは極めて類似した特徴を併せ持ち、他のカテゴリが有する主要な特徴において明らかに類似度が低いと認められる場合に、認識された物体に対し対応する既知のカテゴリ(クラス)を意味する一般名称を付与する。それらの各カテゴリを特徴付ける必須要素を詳細に記述したデータベースがカテゴリ分類データベース107-01であり、それらのいずれにも分類する事が出来ない物体は、不特定カテゴリデータ107-02として一時的に分類し、将来の新たなカテゴリ登録、あるいは既存カテゴリの定義範囲の拡大に備える。
 一般物体認識部106-01では、入力された画像中の物体の特徴点から局所特徴量を抽出し、それらの局所特徴量が予め学習によって得られた所定の特徴量の記述と似ているか似ていないかを相互に比較して、前記物体が既知の一般物体であるかどうかを判別するプロセスを実行する。
 カテゴリ検出部106-02では、一般物体認識可能となった物体がどのカテゴリ(クラス)に属するかを、カテゴリ分類データベース107-01との照合において特定あるいは推定し、その結果、特定カテゴリにおいてデータベースに追加あるいは修正を加える様な追加の特徴量が見出された場合には、カテゴリ学習部106-03において再学習した上で、カテゴリ分類データベース107-01の前記一般物体に関する記述をアップデートする。また一旦、不特定カテゴリデータ107-02とされた物体とその特徴量が別に検出された他の不特定物体の特徴量と極めて類似であると判定された場合には、それらは新たに発見された同一の未知のカテゴリ物体である可能性が高いとして、新規カテゴリ登録部106-04において、カテゴリ分類データベース107-01にそれらの特徴量が新規登録され、当該物体に対し新たな一般名称が付与される。
 シーン認識システム108では、入力画像全体あるいは一部を支配している特徴的な画像構成要素を、性質の異なる複数の特徴抽出システムを用いて検出し、それらをシーン構成要素データベース109に記載されているシーン要素データベース109-01と多次元空間上で相互に参照する事で、各々の入力要素群が当該特定シーン内に検出されるパターンを統計処理により求め、画像全体あるいは一部を支配している領域が当該特定のシーンであるかどうかを認識する。併せて、入力画像に付帯しているメタデータ群と、シーン構成要素データベース109に予め登録済みのメタデータ辞書109-02に記載されている画像構成要素とを照合し、シーン検出の精度を一段と向上させる事が可能となる。領域抽出部108-01では、画像全体を必要に応じて複数の領域に分割して、領域毎にシーン判別を可能にする。例えば、都市空間内のビルの壁面や屋上に設置した監視カメラからは、交差点や数多くの店舗のエントランス等の複数のシーンを見渡す事が出来る。特徴抽出部108-02は、指定した画像領域内における検出された複数の特徴点の局所特徴量、色情報や物体の形状等、利用可能な様々な画像特徴量から得られる認識結果を後段の重み学習部108-03に入力し、各々の要素が特定のシーンにおいて共起する確率を求め、シーン認識部108-04に入力して最終的な入力画像に対するシーン判別を行う。
 特定物体認識システム110は、入力された画像から検出された物体の特徴を、予めMDB111内に収納されている特定物体群の特徴と逐次照合し、最終的に物体を同定処理(Identification)する。地球上に存在する特定物体の総数は膨大で、それら全ての特定物体との照合を行う事はおよそ現実的ではない。従って、後述する様に、特定物体認識システムの前段において、予め一定の範囲内に物体のカテゴリや探索範囲を絞り込んでおく必要がある。特定物体認識部110-01では、検出された画像特徴点における局所特徴量と、学習によって得られたMDB111内の特徴パラメータ群とを相互に比較し、前記物体がどの特定物体に当て嵌まるかの判別を統計処理により判別する。MDB111には、その時点で入手可能な当該特定物体に関する詳細なデータが保持されている。一例として、それら物体が工業製品であるならば、詳細設計データ111-01として設計図やCADデータ等から抽出された物体の構造、形状、寸法、配置図、可動部、可動範囲、重量、剛性、仕上げ等、物体を再構成し製造する為に必要な基本情報等がMDB111内に保持される。付帯情報データ111-02には、物体の名称、製造者、部品番号、日時、素材、組成、加工情報等、物体に関する様々な情報が保持される。特徴量データ111-03には、設計情報に基づいて生成される個々の物体の特徴点や特徴量に係る情報が保持される。不特定物体データ111-04は、その時点ではどの特定物体にも属していない不明な物体等のデータとして、将来の解析に備えMDB111内に暫定的に収納される。MDB検索部110-02は、当該特定物体に対応する詳細データを検索する機能を提供し、MDB学習部110-03は、適応的かつ動的な学習プロセスを通して、MDB111内の当該物体に係る記載内容に対し追加・修正を行う。また一旦、不特定物体として不特定物体データ111-04とされた物体も、その後に類似の特徴を有する物体が頻繁に検出された場合、新規MDB登録部110-04により、新たな特定物体として新規登録処理される。
 図6Bに、本発明の一実施形態における一般物体認識部106-01のシステム構成、及び機能ブロックの実施例を示す。一般物体認識部106-01の機能ブロックは必ずしもこれらに限定されるものではないが、代表的な特徴抽出手法としてBag-of-Features(以下、BoFと略す)を適用した場合の一般物体認識手法について、以下に簡単に説明する。一般物体認識部106-01は、学習部106-10、比較部106-11、ベクトル量子化ヒストグラム部(学習)110-11、ベクトル量子化ヒストグラム部(比較)110-14、及びベクトル量子化ヒストグラム識別部110-15で構成され、学習部110-16は、局所特徴量抽出部(学習)110-07、ベクトル量子化部(学習)110-08、Visual Word作成部110-09、及びVisual Word辞書(CodeBook)110-10とで構成される。
 BoFは、画像中に現れる画像特徴点を抽出し、その相対位置関係を用いずに物体全体を複数の局所特徴量(Visual Word)の集合体として表現し、それらを学習によって得られたVisual Word辞書(CodeBook)110-10と比較照合して、それら局所特徴量の構成がどの物体に最も近いかを判別する。
 図6Bを用いて、本発明の一実施形態における一般物体認識部106-01における処理を説明する。学習部106-10を構成する局所特徴量抽出部(学習)110-07により得られた多次元の特徴ベクトルは、後段のベクトル量子化部(学習)110-08によって一定次元数の特徴ベクトル群にクラスタ分割され、Visual Word作成部110-09で各々の重心ベクトルを元に、特徴ベクトル毎にVisual Wordが生成される。クラスタリングの手法として、k-means法やmean-shift法が知られている。生成されたVisual Wordは、Visual Word辞書(CodeBook)110-10に収納され、それを基に入力画像から抽出された局所特徴量を相互に照合し、ベクトル量子化部(比較)110-13においてVisual Word毎にベクトル量子化を行う。その後、ベクトル量子化ヒストグラム部(比較)110-14において、全てのVisual Wordに対するヒストグラムを生成する。
 当該ヒストグラムの各ビンの総数(次元数)は通常数千から数万と多く、入力画像によっては特徴の一致が全くないヒストグラムのビンも数多く存在する一方、特徴の一致が顕著なビンもあり、それらを一括してヒストグラムの全ビンの値の総和が1になる様な正規化処理を行う。得られたベクトル量子化ヒストグラムは、後段のベクトル量子化ヒストグラム識別部110-15へと入力され、一例として代表的な識別器であるSupport Vector Machine(以下SVMと呼称)において、物体の属するクラス、即ち当該対象が如何なる一般物体であるかを認識処理する。ここでの認識結果は、前記Visual Word辞書に対する学習プロセスとしても利用可能である。また、他の手法(メタデータや集合知の利用)から得られた情報も、同様に前記Visual Word辞書に対する学習フィードバックとして利用が可能で、同一クラスの特徴を最も適切に記述し、且つ他のクラスとの分離度を良好に保つ様に、適応的な学習を継続する事が重要となる。
 図6Cに、本発明の一実施形態における前記一般物体認識部106-01を含む一般物体認識システム106全体の概略構成ブロック図を示す。一般物体(クラス)は様々なカテゴリに属していて、それらは多重的な階層構造を成している。一例を挙げると、人間は「哺乳類」という上位カテゴリに属し、哺乳類は「動物」というさらに上位のカテゴリに属している。人間はまた、髪の色や目の色、大人か子供か?といった別のカテゴリでも認識が可能である。これらの認識判断を行うには、カテゴリ分類データベース107-01の存在が欠かせない。これは人類の「知」の集積庫であり、将来の学習や発見によって、そこにさらに新たな「知」が加わり継続的な進化が図られるものでもある。一般物体認識部106-01で同定されたクラス(およそ人類がこれまでに識別している全ての名詞の総数に及ぶ)は、様々な多次元的且つ階層的な構造体として、当該カテゴリ分類データベース107-01内に記述されている。継続的な学習において認識された一般物体は、カテゴリ分類データベース107-01と照合され、カテゴリ検出部106-02で所属カテゴリが認識される。その後、カテゴリ学習部106-03に当該認識結果が引き渡され、カテゴリ分類データベース107-01内の記述との整合性がチェックされる。一般物体認識された物体は、時に複数の認識結果を内包する場合が多い。例えば「昆虫」であると認識した場合に、目の構造や手足の数、触角の有無、全体の骨格構造や羽の大きさ、胴体の色彩や表面のテクスチャ等でも新たな認識・分類が可能で、前記カテゴリ分類データベース107-01内の詳細記述を基に照合される。カテゴリ学習部106-03では、これらの照合結果を基に、カテゴリ分類データベース107-01への追加・修正が必要に応じて適応的に行われる。その結果、既存カテゴリのいずれにも分類出来ない場合、「新種の昆虫」である可能性も高いとして、新規カテゴリ登録部106-04がこれらの新規物体情報をカテゴリ分類データベース107-01内に登録する。一方、その時点で不明な物体は、不特定カテゴリデータ107-02として、将来の解析や照合に備え一時的にカテゴリ分類データベース107-01内に収納される。
 図6Dに、本発明の一実施形態における入力画像に含まれるシーンを認識判別する、シーン認識システム108の本発明における代表的な実施例をブロック図で示す。学習画像及び入力画像からは、一般に複数の物体が認識可能となるケースが多い。例えば、「空」「太陽」「地面」等を表す領域と同時に、「木」や「草」そして「動物」等の物体が同時に認識可能となる場合、それらが「動物園」なのか「アフリカの草原」なのかは、全体の景色やそれ以外に発見される物体との共起関係等から類推する事になる。例えば、檻や案内板等が同時に発見され多くの見物客で賑わっていれば、そこが「動物園」である可能性が高まるが、全体のスケールが大きく、遠くに「キリマンジャロ」の様な雄大な景色を臨み、様々な動物が混在して草原上にいる様な場合には、そこが「アフリカの草原」である可能性が一気に高まる。この様な場合、さらに認識可能な物体や状況、共起事象等を知識データベースであるシーン構成要素データベース109に照合し、より総合的な判断を下す必要も出てくる。例えば、全画面の9割が「アフリカの草原」を指し示していると推定されても、後述の図22に記載の事例における手順と共に、それらが矩形の枠で切り取られ全体が平面状であれば、ポスターや写真である確率が極めて高くなる。
 シーン認識システム108は、領域抽出部108-01、特徴抽出部108-02、強識別器(重み学習部)108-03、シーン認識部108-04、及びシーン構成要素データベース109から構成され、特徴抽出部108-02は、局所特徴量抽出部108-05、色情報抽出部108-06、物体形状抽出部108-07、コンテキスト抽出部108-08、及び弱識別器108-09から108-12とで構成され、シーン認識部108-04は、シーン分類部108-13、シーン学習部108-14、及び新規シーン登録部108-15で構成され、シーン構成要素データベース109は、シーン要素データベース109-01、及びメタデータ辞書109-02で構成される。
 領域抽出部108-01は、背景や他の物体の影響を受けずに目的とする物体の特徴を効果的に抽出する為に、対象画像に係る領域抽出を行う。領域抽出手法の例として、グラフベースの領域分割法(Efficient Graph-Based Image Segmentation)等が知られている。抽出された物体画像は、局所特徴量抽出部108-05、色情報抽出部108-06、物体形状抽出部108-07、及びコンテキスト抽出部108-08に各々入力され、それらの各抽出部から得られた特徴量が弱識別器108-09から108-12において識別処理され、多次元の特徴量群として統合的にモデリングされる。それらモデリング化された特徴量群を、重み付け学習機能を有する強識別器108-03に入力し、最終的な物体画像に対する認識判定結果を得る。前記の弱識別器の例としてSVM、強識別器の例としてはAdaBoost等が代表的である。
 一般に入力画像には複数の物体や、それらの上位概念である複数のカテゴリが含まれている場合が多く、人間はそこから一目で特定のシーンや状況(コンテキスト)を思い浮かべる事が出来る。一方、単独の物体や単一のカテゴリのみを提示された場合、それだけで入力画像がどういうシーンを表わしているのかを判断するのは困難である。通常は、それらの物体が存在している周囲の状況や相互の位置関係、また各々の物体やカテゴリの共起関係(同時に出現する確率)が、当該シーンの判別に対して重要な意味を持ってくる。前項で画像認識可能となった物体群やカテゴリ群は、シーン要素データベース109-01内に記述されているシーン毎の構成要素群の出現確率を基に照合処理され、後段のシーン認識部108-04において、係る入力画像がいかなるシーンを表現しているのかを統計的手法を用いて決定する。
 これとは別の判断材料として、画像に付帯しているメタデータも有用な情報源となり得る。しかし、時には人間が付したメタデータ自体が、思い込みや明らかな誤り、或いは比喩として画像を間接的に捉えている場合等もあり、必ずしも当該画像中に存在する物体やカテゴリを正しく表わしているとは限らない場合がある。この様な場合にも、前記画像認識システムを備えた知識情報処理サーバシステムから抽出可能な当該対象に係る共起事象等を参考に総合的に判断し、最終的な物体やカテゴリの認識処理が行われる事が望ましい。また、一つの画像からは複数のシーンが得られる場合も多い。例えば、「夏の海」であると同時に「海水浴場」であったりもする。その場合は、複数のシーン名が当該画像に付される。さらに画像に付すべきシーン名として、例えば「夏の海」或いは「海水浴場」のいずれがより適当であるかは、当該画像のみからでは判断が難しく、前後の状況や全体との関係、各々の要素群の共起関係等を参考に、それらの要素間の関連性を記述した知識データベース(未図示)を基に最終的に判断が必要な場合もある。
 図6Eに、本発明の一実施形態における特定物体認識システム110のシステム全体の構成例、及び機能ブロックを示す。特定物体認識システム110は、一般物体認識システム106、シーン認識システム108、MDB111、特定物体認識部110-01、MDB検索部110-02、MDB学習部110-03、及び新規MDB登録部110-04とで構成され、特定物体認識部110-01は、二次元写像部110-05、個別画像切り出し部110-06、局所特徴量抽出部(学習)110-07、ベクトル量子化部(学習)110-08、Visual Word作成部110-09、Visual Word辞書(CodeBook)110-10、ベクトル量子化ヒストグラム部(学習)110-11、局所特徴量抽出部(比較)110-12、ベクトル量子化部(比較)110-13、ベクトル量子化ヒストグラム部(比較)110-14、ベクトル量子化ヒストグラム識別部110-15、形状特徴量抽出部110-16、形状比較部110-17、色情報抽出部110-18、及び色彩比較部110-19とで構成される。
 一般物体認識システム106により、対象物体の属するクラス(カテゴリ)が認識可能になった時点で、物体がさらに特定物体としても認識可能か?という絞り込みのプロセスに移る事が出来る。クラスが或る程度特定されないと、無数の特定物体群からの検索を余儀なくされ、時間的にもコスト的にも実用的とは言えない。これらの絞り込みプロセスには、一般物体認識システム106によるクラスの絞り込み以外にも、シーン認識システム108の認識結果から当該対象の絞り込みを行う事も有用となる。また特定物体認識システム110から得られる特徴量を用いて、さらなる絞り込みが可能になるだけではなく、物体の一部にユニークな識別情報(商品名とか、特定の商標やロゴ等)が認識可能な場合、或いは有用なメタデータ等が予め付されているケースでは、さらなるピンポイントの絞り込みも可能となる。
 それら絞り込まれたいくつかの可能性の中から、複数の物体候補群に係る詳細データや設計データをMDB検索部110-02がMDB111内から順次引き出し、それらを基に入力画像との適合プロセスが実行される。物体が工業製品でない場合や、詳細な設計データ自体が存在していない場合においても、写真等があれば各々検出可能な画像特徴及び画像特徴量を詳細に突き合わせる事で、或る程度の特定物体認識が可能となる。しかし、入力画像と比較画像の見え方が全く同じというケースは稀で、例え同じであっても各々を違う物体として認識してしまう事例もある。反面、物体が工業製品であり、CAD等の詳細なデータベースが利用可能な場合には、一例として二次元写像部110―05が入力画像の見え方に応じMDB111内の三次元データを二次元画像に可視化(レンダリング)する事により、精度の高い特徴量の適合処理を行う事が可能になる。この場合、二次元写像部110―05における二次元画像へのレンダリング処理を全視点方向からくまなく写像して実行する事は、計算時間と計算コストの不要な増大を招く事から、入力画像の見え方に応じた絞り込み処理が必要となる。一方、MDB111を用いた高精度のデータから得られる各種特徴量は、学習プロセスにおいて予め求めておく事が可能である。
 特定物体認識部110-01では、物体の局所特徴量を局所特徴量抽出部110-07で検出し、ベクトル量子化部(学習)110-08で各々の局所特徴量を複数の類似特徴群に分離した後、Visual Word作成部110-09で多次元の特徴量セットに変換し、それらをVisual Word辞書110-10に登録する。これらは多数の学習画像に対し、十分な認識精度が得られるまで継続して行われる。学習画像が例えば写真等である場合は、画像の解像度不足やノイズの影響、オクルージョンの影響、対象以外の物体から受ける影響等が避けられないが、MDB111を基にしている場合は、ノイズのない高精度のデータを基に理想的な状態で対象画像の特徴抽出を行う事が可能な事から、従来の手法に比べて大幅に抽出・分離精度を高めた認識システムを構成する事が可能となる。入力画像は、個別画像切り出し部110-06で目的とする特定物体に係る領域が切り出された後に、局所特徴量抽出部(比較)110-12において局所特徴点及び特徴量が算出され、予め学習により用意されたVisual Word辞書110-10を用い個々の特徴量毎にベクトル量子化部(比較)110-13にてベクトル量子化された後に、ベクトル量子化ヒストグラム部(比較)110-14にて多次元の特徴量に展開され、ベクトル量子化ヒストグラム識別部110-15にて、物体が当該学習済み物体と同一か、似ているか、それとも否かが識別判断される。識別器の例として、SVM(Support Vector Machine)が広く知られているが、他にも識別判断の重み付けを学習の上で可能にするAdaBoost等も有効な識別器として広く活用されている。これらの識別結果は、MDB学習部110-03を通じてMDB自体への追加修正、或いは新たな項目の追加というフィードバックループにも利用可能となる。対象が依然として未確認となる場合には、新規MDB登録部110-04に保留され、次なる解析再開に備える。
 また、局所特徴量のみならず、検出精度をさらに向上させる目的で、物体の形状特徴を利用する事も有用となる。入力画像から切り出された物体は、形状特徴量抽出部110-16を経由して形状比較部110-17に入力され、物体の各部の形状的な特徴を用いた識別が行われる。その識別結果はMDB検索部110-02にフィードバックされ、それによりMDB111に対する絞り込み処理が可能となる。形状特徴量抽出手段の例として、HoG(Histograms of Oriented Gradients)等が知られている。形状特徴は、またMDB111を用いた二次元写像を得る為の多視点方向からのレンダリング処理を大幅に減らす目的でも有用となる。
 また、物体の色彩的な特徴やテクスチャ(表面処理)も、画像認識精度を上げる目的で有用である。切り出された入力画像は、色情報抽出部110-18に入力され、色彩比較部110-19で物体の色情報、あるいは当該テクスチャ等の抽出が行われ、その結果をMDB検索部110-02にフィードバックする事で、MDB111においてさらなる絞り込み処理を行う事が可能となる。これら、一連のプロセスを通じて、特定物体認識処理をより効果的に行う事が可能となる。
 次に、図7を用いて、本発明の一実施形態における生体認証部302の処理手順340を説明する。ユーザが前記ヘッドセットシステム200を装着する事で(341)、以下の生体認証処理が始まる。ユーザと前記知識情報処理サーバシステムとの間の通信において、個々のユーザに対応する生体認証情報や、個々のユーザのプロファイル等の個人情報をやり取りする場合には、通信途中でのデータの抜き取りや改竄等の不正な行為からの強力な保護が必須になる。そこで、まず上記生体認証システムとの間で、強力な暗号化通信路を確立する(342)。ここではSSL(Secure Sockets Layer)や、TLS(Transport Layer Security)等の技術(例えば、http://www.openssl.org/)を用いる事が可能になるが、他の同様の暗号化手法を導入しても良い。次に、前記ヘッドセットシステムに具備された生体認証センサ204から、生体認証情報345を取得する。生体認証情報には、前記ヘッドセットシステムを装着するユーザの外耳部や鼓膜における静脈パターン情報等を用いる事が出来るが、これらを選択して組み合わせても良いし、これらには限らない。前記生体認証情報はテンプレートとして、前記生体認証システムに送付される。図7のステップ355は、前記生体認証システム側での処理を説明している。ステップ356にて、当該テンプレートを知識情報処理サーバシステム300にユーザ登録する。ステップ357にて、当該テンプレートから署名+暗号化関数f(x,y)を生成し、ステップ358にて前記関数を当該ヘッドセットシステムに返す。ここで、f(x,y)における“x”は署名暗号化されるデータであり、“y”は署名暗号化の際に用いる生体認証情報である。判断345では、前記関数を入手出来たかどうかを確認し、YESの場合には当該ヘッドセットシステムと前記知識情報処理サーバシステム間の通信に前記関数を利用する(346)。判断345がNOの場合には、規定回数、前記判断345がNOであるかを判断(349)し、YESの場合には認証エラーをユーザに通知する(350)。当該判断349がNOの場合には、ステップ344から処理を繰り返す。その後、ステップ(347)で規定時間待ってから、ループ(343)を繰り返す。ユーザが当該ヘッドセットシステムを取り外した場合、或いは前記認証エラーの場合には、前記生体認証システムとの間の暗号化通信路を切断する(348)。
 図8Aに、本発明の一実施形態におけるインタレストグラフ部303の構成例を示す。本実施例においては、グラフデータベース365へのアクセスを、グラフデータベース365、及びユーザデータベース366への直接アクセスとして記述しているが、具体的な実装においては、システムを利用中のユーザに係るインタレストグラフ適用処理の高速化を図る目的で、グラフ記憶部360はグラフデータベース365内に収納されているグラフ構造データの中から必要な部分のみ、及びユーザデータベース366内に記載の当該ユーザに係る必要な部分情報を自らの高速メモリ上に選択的に読み出し、内部にキャッシュする事が可能である。
 グラフ演算部361は、前記グラフ記憶部360から部分グラフの抽出、又は前記ユーザに係るインタレストグラフの演算を行う。関連性演算部362は、ノード間の関連性に関して、n(>1)次繋がりのノードの抽出、フィルタリング処理、及びノード間のリンクの生成・破壊等を行う。統計情報処理部363は、前記グラフデータベース内のノードとリンクデータを統計情報として処理し、新規の関連性を発見する。例えば、或る部分グラフが別の部分グラフと情報距離が近く、同じ様な部分グラフが同一クラスタ内に分類出来る時は、新しい部分グラフは前記クラスタに含まれる確率が高いと判断可能になる。
 ユーザデータベース366は、当該ユーザに関する情報を保持しているデータベースであり、前記生体認証部302にて利用される。本発明では、前記ユーザデータベース内部の当該ユーザに対応したノードを中心としたグラフ構造を、当該ユーザのインタレストグラフとして扱う。
 図8Bを用いて、本発明の一実施形態におけるグラフデータベース(365)に関して説明する。図8B(A)に、前記グラフデータベース(365)に対する基本アクセス手法を示す。value(371)は、key(370)からlocate演算(372)により得られる。前記key(370)は、value(373)をハッシュ(hash)関数で計算して導出する。例えば、ハッシュ関数にSHA-1アルゴリズムを用いた場合には、key(370)は160ビット長になる。Locate演算(372)には、分散ハッシュテーブル(Distributed Hash Table)法を利用出来る。図8B(B)に示す様に、本発明では、前記keyとvalueの関係を(key, {value})で表現し、前記グラフデータベースへの格納単位とする。
 例えば、図8B(C)の様に、2つのノードがリンクされている場合、ノードn1(375)は、(n1, {ノードn1})で、ノードn2(376)は、(n2, {ノードn2})で表現する。n1やn2は、各々ノードn1(375)、ノードn2(376)のkeyであり、ノード実体n1(375)、ノード実体n2(376)を各々hash演算し、各々のkeyを得る。また、リンクl1(377)は、ノードと同様に(l1, {n1, n2})で表現し、{n1, n2}をhash演算する事で、そのkey(l1)377を得る。
 図8B(D)は、前記グラフデータベースの構成要素の一例である。ノード管理部380)は前記ノードを、リンク管理部381は前記リンクを管理し、各々をノード・リンク格納部385に記録する。データ管理部382は、ノードに関連したデータをデータ格納部386に記録すべく管理する。
 図9を用いて、本発明の一実施例における状況認識部305の構成例を説明する。図9(A)における履歴管理部410は、ユーザ毎にネットワーク・コミュニケーションシステム100内での利用履歴を管理する。例えば、対象に対する着目を足跡(フットプリント)として残す事を可能にする。或いは、同じメッセージやつぶやきを繰り返して再生しない様に、前回どこまで再生したか?を記録する。或いは、メッセージやつぶやきの再生を途中で中止した時には、以降の継続再生の為に当該再生を中止した箇所を記録する。例えば、図9(B)では、その一実施例として、グラフデータベース365に記録されたグラフ構造の一部を示す。ユーザ(417)ノード、対象(415)ノード、及びメッセージやつぶやき(416)ノードは、各々リンクで繋がっている。ノード(416)に再生位置を記録したノード(418)をリンクする事で、ユーザ(417)の着目した対象(415)に関するメッセージやつぶやきの再生を、ノード(418)として記録した再生位置から再開する。なお、本実施例における前記利用履歴はこれらの手法には限定されず、同様の効果が期待出来る他の手法を用いても良い。
 メッセージ選択部411はユーザ毎に管理され、ユーザが着目した対象に複数のメッセージやつぶやきが記録されていた場合に、適切なメッセージやつぶやきを選択する。例えば、記録された時刻順で再生しても良い。当該ユーザに係るインタレストグラフから、当該ユーザの関心の高い話題を選択的に選び出し再生しても良い。また、当該ユーザを明示的に指定したメッセージやつぶやきを優先的に再生しても良い。なお、本実施例におけるメッセージやつぶやきの選択手順は、これらに限定されない。
 カレント・インタレスト412は、インタレストグラフ部303中の当該ユーザに係る現在の関心を表すノード群として、ユーザ毎に管理され収納されている。前記メッセージ選択部では、前記カレント・インタレストにおける当該ユーザの現在の関心に対応したノード群から上記グラフ構造を探索する事で、当該ユーザが当該時点において関心度の高いノード群を選び出し、後述の会話エンジン430の入力要素とし、それらを一連の文章に変換し再生する。
 当該ユーザの関心の対象や度合いは、例えば後述の図17におけるグラフ構造から求める。図17において、ユーザ(1001)ノードは,ノード(1005)とノード(1002)へのリンクを有している。即ち、このリンクから,「ワイン」と「車」に関心があるとする。前記ユーザが「ワイン」と「車」のどちらに関心が高いかは、ノード「ワイン」から繋がるグラフ構造と、ノード「車」から繋がるグラフ構造とを比較し、ノード数が多い方をより関心が高いとしても良いし、ノードに関連した着目履歴から、着目回数の多い方により関心が高いとしても良いし、前記ユーザが自らの関心の強さを指定しても良いし、これらには限定されない。
 図10を用いて、本発明の一実施形態におけるメッセージ保管部306に関して説明する。ユーザが発話したメッセージやつぶやき391、及び/又は、ヘッドセットシステム200で撮影した画像421は、当該メッセージ保管部によりメッセージデータベース420に記録される。メッセージノード生成部422は、インタレストグラフ部303から前記メッセージやつぶやきの対象となる情報を取得し、メッセージノードを生成する。メッセージ管理部423は、当該メッセージノードに前記メッセージやつぶやきを関連付けて、前記メッセージやつぶやきを前記グラフデータベース365に記録する。なお、前記ヘッドセットシステムで撮影した画像421を、同様に前記グラフデータベース365に記録しても良い。なお、前記メッセージやつぶやきの記録には、ネットワークを経由してネットワーク上の同様のサービスを利用しても良い。
 図11を用いて、本発明の一実施形態における再生処理部307に関して説明する。ユーザのメッセージやつぶやき391を含むユーザの発話は、音声認識システム320で認識処理され、単数の或いは複数の単語列に変換される。前記単語列は、状況認識部304において「ユーザが現在何かの対象に着目している?」「時空間情報を指示している?」「或いは何かの対象に向かい話しかけている?」という状況識別子を付与され、再生処理部306の構成要素である会話エンジン430に送付される。なお、前記状況認識部304の出力としての識別子は、前記の各々の状況には限定されないし、当該識別子を用いない手法で構成しても良い。
 前記再生処理部307は、前記会話エンジン430、着目処理部431、コマンド処理部432、ユーザメッセージ再生部433から構成されるが、これらを選択して構成しても良いし、新たな機能を追加して構成しても良く、当該構成には限定されない。前記着目処理部は、前記状況認識部から対象を着目中であるとの識別子が付された場合に実行され、図3Aに記載の一連の処理を担う。前記ユーザメッセージ再生部は、対象に残されたメッセージやつぶやき、及び/又は、関連付けられた画像の再生を行う。
 図12を用いて、本発明の一実施形態に係るユーザ管理部308に関し説明する。前記ユーザ管理部は、許可されたユーザのACL(アクセス制御リスト)をグラフ構造で管理する。例えば、図12(A)は、一人のユーザ(451)ノードが、許可(450)ノードとリンクを有している状態を示す。これにより、当該ユーザに対し、当該許可ノードとリンクしたノードに対する許可が与えられる。当該ノードがメッセージやつぶやきであれば、それらを再生する事が出来る。
 図12(B)は、特定のユーザ群に許可を与えている例である。許可(452)ノードは、ユーザグループ(453)ノードにリンクする、ユーザ1(454)ノード、ユーザ2(455)ノード、及びユーザ3(456)ノードに対し、一括して許可を与えている様子を示している。また、図12(C)は、全員(458)ノードに対し、一括して許可(457)ノードが与えられている例である。
 さらに、図12(D)は、特定のユーザ(460)ノードに対し、特定の時間或いは時間帯(461)ノード、特定の場所/地域(462)ノードに限り許可(459)ノードを与えている様子を示している。
 なお、本実施例におけるACLは、図12以外の構成をとっても良い。例えば、不許可ノードを導入して、許可を与えないユーザを明示する様に構成しても良い。また、前記許可ノードをさらに詳細化して、再生許可ノードと記録許可ノードを導入する事で、メッセージやつぶやきを再生する場合と記録する場合で、許可の形態を変える様に構成しても良い。
 図13Aを用いて、本発明の一実施形態に係るネットワーク・コミュニケーションシステム100を利用するユーザを中心とした、ユースケース・シナリオの一事例を説明する。
 本発明では、ユーザが装着しているヘッドセットシステム200に具備されたカメラの撮影可能範囲を視野503と呼び、ユーザが主に見ている方向を当該ユーザの主観的な視野:主観視502と呼ぶ。ユーザは、ネットワーク端末220を装着しており、ユーザの発話(506又は507)を前記ヘッドセットシステムに組み込まれたマイクロフォン201で拾い、ユーザの主観視を反映した前記ヘッドセットシステムに組み込まれたカメラ203が撮影する映像と共に、前記知識情報処理サーバシステム300側にアップロードされている。前記知識情報処理サーバシステム側からは、前記ヘッドセットシステムに組み込まれたイヤフォン202、或いはネットワーク端末220に対し、音声情報、及び映像/文字情報等を返す事が可能になっている。
 図13Aにおいて、ユーザ500は物体群505を見ているとし、ユーザ501はシーン504を見ているとする。例えば、ユーザ500に関して、図3Aに記載の手順に従って当該ユーザのカメラの視野503には、物体群505が撮影され、その画像が前記知識情報処理サーバシステム300側にアップロードされる。前記画像認識システム301は、そこから認識可能な特定物体、及び/又は一般物体を抽出する。この時点で当該画像認識システムとしては、ユーザ500がどの対象に着目しているかまでは判らないので、ユーザ500は音声によって、例えば「右上」とか「ワイン」といった様な当該ユーザの音声による着目対象のポインティング操作を行い、前記画像認識システムに当該ユーザが現在物体508に着目している事を通知する。この際、前記知識情報処理サーバシステム側は「アイスペールに入っているワインですね?」という様な当該ユーザが明示的に示していない共起事象を加えた再確認の問い合わせを、当該ユーザ500のヘッドセットシステム200に対し音声で通知する事を可能とする。その再確認通知内容がユーザの意とは違っていた場合には、一例として「違う」と発話して、ユーザの追加的な対象選択指示を前記サーバシステム側に音声で発行し、改めて着目対象の再検出を求めるプロセスを可能にしても良い。或いは、当該ユーザは、前記ネットワーク端末上のGUIにて着目中の対象を直接指定、又は修正しても良い。
 一例として、ユーザ501はシーン504を見ているが、ユーザの主観的視野503を反映したカメラ画像を、前記画像認識エンジンを備えた知識情報処理サーバシステム側にアップロードする事で、前記サーバシステム側に組み込まれた前記画像認識システムは、対象シーン504はおそらく「山の風景」であろうと推測する。ユーザ501は、前記シーンに対して自らのメッセージやつぶやき、例えば「懐かしい里山だ」を音声で発話する事で、当該ユーザのヘッドセットシステム200経由で、当該メッセージやつぶやきが前記サーバシステム側に当該カメラ映像と共に記録される。その後、他のユーザが異なる時空間内において同様、或いは類似のシーンに遭遇した場合に、当該ユーザに対して、前記ユーザ501のつぶやき「懐かしい里山だ」を前記サーバシステム側からネットワークを介して、当該ユーザに対し音声情報で送り込む事が可能となる。この事例の様に、実際目にした景色自体やその場所等は異なっても、誰でも思い浮かべる共通の印象的なシーン、例えば「夕焼け」等に対して、共有体験に係るユーザコミュニケーションを喚起する事が可能になる。
 また、ユーザの音声による指示、或いはネットワーク端末220上での直接操作により、上記ユーザが予め設定した条件に従い、上記ユーザ500やユーザ501が特定の対象に対して残したメッセージやつぶやきを、特定のユーザのみ、或いは特定のユーザグループのみ、或いはユーザ全員に対し、選択的に残す事を可能にする。
 また、ユーザの音声による指示、或いはネットワーク端末220上での直接操作により、当該ユーザが予め設定した条件に従い、当該ユーザ500やユーザ501が特定の対象に対して残したメッセージやつぶやきを、特定の時間、或いは時間帯、及び/又は、特定の場所、特定の地域、及び/又は、特定のユーザ、特定のユーザグループ、或いはユーザ全員に対し、選択的に残す事を可能にする。
 図13Bを用いて、前記ユースケース・シナリオから導出される、共通の対象への視覚的な好奇心により誘起されるネットワーク・コミュニケーションの事例を説明する。当該視覚的な好奇心により誘起されるネットワーク・コミュニケーションとして、異なる時空間内において、複数のユーザが各々に異なる状況で「桜」を眺めている様子で説明する。偶然桜の花(560)を目にしたユーザ1(550)が、「綺麗な桜だ」とつぶやき、別の時空間でユーザ2(551)が、「桜が満開だ」(561)とつぶやいている。一方で、離れた場所で水面を流れる花びらを見たユーザ4(553)が、「桜の花びらかな?」とつぶやくシーンである。この時、ユーザ3(552)が川面に桜の花びらが舞い落ちる様子を見て(562)、「花筏(はないかだ)だ」とつぶやいたとすると、このつぶやきは、同じ「花筏」を眺めている前記ユーザ4に、前記ユーザ3のつぶやきとして届ける事が可能になる。そして、偶然別の場所で桜の花を眺めているユーザ5(554)に対し、同じ時期に別の場所で「桜」を鑑賞している前記ユーザ1からユーザ4のつぶやきとして送り込む事が可能となり、その結果前記ユーザ5は「そうか、今週はちょうど桜の見頃を迎えているのだな」と、眼前の桜を前に各所の春の到来を感じる事が可能になる。この事例で示す様に、同様の対象やシーンに対し、それらを偶然目にする可能性のある異なる時空間内に存在する複数のユーザ間で、共通する視覚的な関心に端を発した、広範な共有ネットワーク・コミュニケーションを誘起する事が可能となる。
 図14で、リンク構造を用いて、本発明の一実施形態におけるユーザ、対象、キーワード、時間、時間帯、場所、地域、メッセージやつぶやき、及び/又は着目した対象が含まれる映像、及び特定のユーザ、特定のユーザ群、或いはユーザ全体をノードとした各要素間の許可の関係を説明する。本実施例では、これらの関係を全てグラフ構造で表現し、グラフデータベース365に記録する。全の関係をノード群とそれら相互のリンクからなるグラフ構造で表現する事で、例えば、リレーショナル・データベース(表構造)等を採用した場合に、事前に全てのノードの存在やノード間の関係や関連性を組み込んでおかなければならない、という実現不可能な要件から本質的に逃れる事が出来る。これらのノード群の中には、時間の経過と共に刻々と変化、及び成長する構造である性質を持っているノード群もある為、事前に全ても構造を予想し、設計しておく事は凡そ困難である。
 図14に示す基本形では、対象601は、ユーザ(600)ノード、キーワード(602)ノード、対象画像特徴(603)ノード、時間/時間帯(604)ノード、場所/地域(605)ノード、メッセージやつぶやき607の各々のノードとリンクしている。対象601には、ACL(606)がリンクしている。メッセージやつぶやき(607)ノードには、ACL(608)ノード、時間/時間帯(609)ノード、場所/地域(610)ノードがリンクしている。即ち、図14は、ユーザの着目した対象と、その時間/時間帯、場所/地域、図3Aに記載の手順30-01の過程で抽出された、及び/又は統計情報処理部363にて抽出された、及び/又は後述の会話エンジン430で抽出された、関連するキーワード及び着目対象に残されたユーザのメッセージやつぶやきが、ACLにて許可されている様子を表しているデータ構造である。なお、図14に記載のグラフ構造は、ノードを追加、或いは削除する事で、前記記載の時間/時間帯、場所/地域、ACLには限定されない情報を記録する事が出来る様に構成しても良い。
 図15を用いて、本発明の一実施例における一般物体認識システム106、特定物体認識システム110、及びシーン認識システム108に係るグラフ構造の抽出プロセスを説明する。まず一般物体認識システム106において当該対象が属するカテゴリを検出(901)する。次に、グラフデータベース365からカテゴリノードを検索し(902)、当該カテゴリがグラフデータベース365上に存在しているかの確認を行う(903)。存在していなければ新規カテゴリノードが追加されグラフデータベースに記録される(904)。次に特定物体認識システム110にて特定物体の検出を行い(905)、前記グラフデータベース上に既に存在しているかの確認を行う(907)。存在していなければ新規当該特定物体ノードを追加し(908)、それらをグラフデータベース上に記録する(909)。もう一方のパスにおいては、シーン認識システム108においてシーンの検出(910)を行い、グラフデータベース365からシーンノードを検索して(911)、当該シーンがグラフデータベースに存在しているかの確認を行う(912)。存在していなければ当該シーンに係るノードを生成し、前記グラフデータベースに追加する(913)。これら一連の処理が終了した時点で、当該カテゴリノード、特定物体ノード、或いはシーンノードに、上記処理を行ったタイムスタンプ情報をグラフデータベース上に追加記録し(914)、当該処理を終了する。
 前記図15に記載のグラフデータベース365への登録の為の新規ノード群生成は、図3Aに記載のユーザによる再確認処理の際に行っても良い。前記再確認処理では、前記音声認識システムにより抽出された単語列と、前記画像認識システムを備えた知識情報処理サーバシステム側で抽出された各種特徴とを対応付ける事が可能である。一例として、図4Aに記載のタクシー50に関し、前記サーバシステム側が、対象51に対する画像認識結果として「それは赤いバスですか?」とユーザに音声による確認を求めてきた場合、ユーザが「いいえ、黄色いタクシーです」と答えたとすると、前記サーバシステム側が再追加的な画像特徴抽出処理を行う事で最終的にタクシー50を認識し、当該ユーザに対して「左側の黄色いタクシーを検出しました」と音声による再確認を発行し、それに対し当該ユーザは「そうです」と答えたとする。その結果、前記タクシー50に係る検出された全ての特徴群を当該ビュー(シーン)に係る関連ノード群として、当該ユーザが確認した単語「タクシー」「黄色」に係るノード群と共に、前記グラフデータベース365内に登録可能になる。
 また、前記図15に記載のカテゴリノード、特定物体ノード、或いはシーンノードにリンクされた上記タイムスタンプと、当該ユーザとの関係付けを行う事が出来る。この場合、当該ユーザの上記着目履歴を、上記獲得したインタレストグラフの部分グラフとして構成する事が出来る。これにより、当該対象に着目した特定の時空間における当該ユーザの着目対象、及びそれらに関連付けられた他のノード群に係る状況を、当該ユーザの音声或いはネットワーク端末220上のGUI経由で、前記画像認識システムを備えた知識情報処理サーバシステム300側に問い合わせる事が可能になる。その結果として、前記サーバシステム側から、上記獲得したインタレストグラフの部分グラフにより導く事が可能な特定の時空間における当該着目対象に係る様々な状態を、当該ユーザに音声、或いは文字、写真、図形情報等で通知する事が可能となる。
 さらに、前記着目履歴は、画像認識システム301との協調動作により認識可能になった、特定物体、一般物体、人、写真、或いはシーンの名称に加え、当該操作を行った時空間情報、ユーザ情報、及び対象となる画像情報と共に、グラフデータベース365内にグラフ構造として蓄積される。従って前記着目履歴を、前記グラフ構造を直接参照・解析する事が可能な様に構成する事も可能となる。
 図16を用いて、本発明の一実施例における画像認識システムを備えた知識情報処理サーバシステム300において実行されるインタレストグラフの獲得に関して説明する。グラフ構造(1000)は、或る時点でのユーザ(1001)ノードのインタレストグラフである。当該ユーザは特定物体としての車種A(1003)ノードと車種B(1004)ノードに興味があり、それらはカテゴリ「車」(1002)ノードに属している。当該ユーザは、また、3つの対象(特定物体1006から1008)ノードに興味があり、それらはワイン(1005)ノードに属している。次に、ユーザが対象車種X(1011)ノードに着目したとする。前記対象車種X(1011)ノードには、画像(1012)ノードと、他のユーザのメッセージやつぶやき(1013)ノードがリンクしているとする。前記サーバシステムは、前記対象車種X(1011)ノードを含むグラフ構造(1010)を車(1002)ノードに繋ぐリンク(1040)を生成する。一方、前記統計情報処理部363により、例えば共起確率を計算する事で、ワイン(1005)ノードに図中の3本のワイン(1006から1008)ノードがリンクされている時には、囲み1020にある2本のワイン(1021から1022)ノードも同様にリンクされている可能性が高まる。これにより前記サーバシステムは、当該ユーザに囲み(1020)を提案する事が出来る。その結果、当該ユーザが当該囲み(1020)に興味を示した場合には、それら囲み1020にある2本のワイン(1021から1022)ノードをワイン(1005)ノードに直接繋ぐリンク(1041)を生成する事により、当該ユーザ(1001)に係るインタレストグラフを継続的に成長させる事が可能になる。
 前記図16に記載のインタレストグラフの成長がさらに進んだ状態における、ユーザ(1001)ノードを中心とするグラフ構造のスナップショット例を図17に示す。図は次の状態を表現している。ユーザ(1001)ノードは、車(1002)ノードとワイン(1005)ノード以外に、特定のシーン(1030)ノードに関心がある。車(1002)ノードでは、特に特定物体として車種A(1003)、車種B(1004)、及び車種X(1011)の各ノードに関心があり、ワイン(1005)ノードでは5種のワイン(1006、1007、1008、1021、及び1022)ノードに関心がある。特定のシーン(1030)ノードは、画像(1031)ノードで代表されるシーンであり、特定の時間(1033)ノードにおいて、特定の場所(1034)ノードで撮影され、ACL(1032)ノードにリストされたユーザに対してのみ再生が許されている。車種X(1011)ノードは画像(1012)ノードで表現されており、そこに様々なユーザのメッセージやつぶやき(1013)ノードが残されていて、ACL(1036)ノードにリストされたユーザ群に対してのみ、それらの再生が許可されている。車種Aには、エンジンの仕様と色がノードとして記載されている。以下、5種のワイン(1006、1007、1008、1021、及び1022)ノードに関しても同様の属性が記載されている。なお、これらのノードの一部は、他のユーザ2(1036)から直接リンクされても良い。
 図18Aを用いて、本発明の一実施形態におけるユーザのメッセージやつぶやきを音声として記録する手段、或いは再生する手段を説明する。まず、ユーザは図3Aに記載の手順で対象を特定(1101)して変数Oにバインドする。次に当該メッセージやつぶやきを記録した時間、或いは再生を可能にする時間/時間帯(1102)を指定して変数Tにバインドし、当該メッセージやつぶやきを記録した場所、或いは再生を可能にする場所/地域(1103)を指定して変数Pにバインドする。次に、それらメッセージやつぶやきを受取る事が可能な受領者を指定(ACL)して変数Aにバインドする。そして、記録するか再生するかを選択(1105)し、記録処理の場合には当該メッセージやつぶやきの記録手順を実行する(1106)。その後、前記4つの変数(O、T、P、A)から必要なノード群を生成し、グラフデータベース365に記録する(1107)。前記選択(1105)が再生処理の場合には、前記4つの変数(O、T、P、A)から該当するノード群をグラフデータベース365から抽出(1108)し、前記ノードに残されたメッセージやつぶやきを再生する(1109)手順を実行して、一連の処理を終了する。
 図18Bに、図18Aにおける再生時のステップ1102を詳細化して説明する。ユーザは音声によって時間/時間帯を指定するか、或いはネットワーク端末220上のGUIによって直接時間/時間帯を指定するかを選択する(1111)。発話による場合には、ユーザは時間/時間帯を発話(1112)し、前記音声認識システム320で認識処理(1113)される。その結果が時間/時間帯であるか確認(1114)し、その結果が正しい場合は、指定時間/時間帯データを変数Tに格納する(1116)。違っている場合は、時間/時間帯を発話(1112)に戻る。処理を中断(QUIT)する場合は発話により終了する。一方、前記ネットワーク端末のGUIにより時間/時間帯を指定する場合(1115)には、入力された時間/時間帯を直接前記変数Tに格納(1116)して、一連の終了処理をする。
 図18Cに、図18Aにおける再生時のステップ1103を詳細化して説明する。ステップ1121で、ユーザは音声によって場所/地域を指定するか、ネットワーク端末220上のGUIによって直接場所/地域を指定するかを選択する。発話による場合には、ユーザは場所/地域を発話(1122)し、前記音声認識システム320で音声認識処理(1123)される。その結果が発話された場所/地域であるか確認(1124)し、その結果が正しい場合は、緯度・経度データに変換(1127)してから変数Pに格納する(1128)。違っている場合は、場所/地域を発話(1122)するに戻る。処理を中断(QUIT)する場合は発話により終了する。一方、前記ネットワーク端末のGUIにて地図を表示(1125)し、当該ネットワーク端末の画面上で直接場所/地域を指定する場合(1126)し、当該緯度・経度データを変数Pに格納して、一連の処理を終了する(1128)。
 図19を用いて、本発明の一実施例として、特定の対象に残された複数のメッセージやつぶやきの中から、受領対象者がそれらメッセージやつぶやきが残された時間或いは時間帯、及び/又は、残された場所或いは地域、及び/又は、残したユーザ名を指定可能にする事で、絞り込み再生する手順を説明する。説明の為の前提条件として、上記受領対象となるユーザは、図3Aに記載した手順に従って当該対象に着目し、予め対応する対象となる各ノード群が選択されているとする(1140)。
 まず、当該対象に関して再生したい時間/時間帯、及び場所/地域を、図18B、及び図18Cに記載の手順で指定する(1201)。次に、誰の残したメッセージやつぶやきを再生するかを指定する(1202)。次にACLを確認し(1203)、当該指定条件に合致したメッセージやつぶやきに対応するノード、及び/又は、当該映像に対応したノードからデータを取り出す(1204)。この段階では、複数のノードが取り出される可能性があるので、その場合には、当該全ノードに関して次の処理を繰り返し適用する(1205)。
 次に当該メッセージやつぶやきを残したユーザに係る情報を、受領対象であるユーザに通知するか否かを選択する(1206)。通知する場合は、前記ノードに関連した当該メッセージやつぶやきを残したユーザ情報をグラフデータベース365から入手し、図11に記載の再生処理部306を利用して上記受領対象ユーザが装着しているヘッドセットシステム200、或いは/又は、上記受領対象ユーザに紐付けられているネットワーク端末220に音声、及び/又は、文字で通知する(1208)。通知内容が音声の場合には、ヘッドセットシステムに組み込まれたイヤフォンから再生され、文字、写真、及び/又は図形の場合には、前記ネットワーク端末上にそれら音声以外の情報が当該メッセージやつぶやきに同期して表示される(1209)。上記ユーザ情報を通知しない場合には、当該音声ノードから上記メッセージやつぶやき、及び/又は、当該映像ノードから対応する画像データを取り出し、前記再生処理部306を利用して、上記受領対象ユーザが装着しているヘッドセットシステム200、及び/又は、上記受領対象ユーザに紐付けられているネットワーク端末220に、当該メッセージやつぶやきを残したユーザ情報を含まない音声、及び/又は、画像情報として送出し(1207)、それらの一連の処理を、前記取り出された全ノードに関して繰り返し終了する。
 前記実施例では、ループ(1205)で取り出された全ノードに関して繰り返し処理しているが、他の手段を用いても良い。例えば、状況認識部305を利用して受領対象ユーザに適切なメッセージやつぶやきを選び出し、上記メッセージやつぶやきのみ、及び/又は、付帯している映像情報と共に再生しても良い。前記、時間/時間帯と場所/地域の指定(1201)に係る説明では、過去に記録されたメッセージやつぶやき、及びそれらの基になる画像情報に関して時空間を過去に遡って受領する目的で、特定の時間/時間帯、及び場所/地域を指定する事例を示したが、逆に未来の時間/時間帯及び場所/地域を指定しても良い。その場合には、当該指定された未来の時空間に、当該メッセージやつぶやき、及びそれらの基となる映像情報を“タイムカプセル”に乗せて届ける事が可能になる。
 また、当該メッセージやつぶやきの再生に同期して、当該着目対象に関する詳細情報を前記ネットワーク端末上に表示しても良い。さらに、受領対象ユーザの主観的視野外となっている対象に向け、前記画像認識システムを備えた知識情報処理サーバシステム側が音声情報により、当該受領対象ユーザに対し、当該メッセージやつぶやきが残された対象に向け頭を動かす、或いは当該対象の存在する方向に向かって移動する等の指示を与え、その結果、受領対象ユーザが当該対象をその主観的視野内に捉えた時に、当該対象に残されたメッセージやつぶやきを再生する様に構成しても良い。また、類似の効果が得られる別の手段を用いても良い。
 上記、メッセージやつぶやきの再生においては、前記状況認識部の一構成要素である履歴管理部410によって、その時々の再生位置が該当するノード内に記録されるので、受領対象ユーザが同一対象に再び着目した場合、以前と同一のメッセージやつぶやきを再び繰り返す事なく、前回の続きから、或いはそれ以降に更新されたメッセージやつぶやきを加え、受領する事を可能とする。
 次に、図20を用いて、ユーザが眼前のとある対象に着目している事を、前記画像認識システムを活用して前記知識情報処理サーバシステム側に明示的に指し示す一つの方法として、当該ユーザの音声による指示によらず、当該着目対象に向けユーザが直接手指でポインティングする、或いは当該対象に手指で直接触れる事により、当該ユーザのヘッドセットシステムに組み込まれたカメラ映像から得られる画像情報を基に、前記画像認識システム側がリアルタイムに画像解析して当該着目対象を特定する実施例について説明する。
 図20(A)は、ユーザの主観視(1300)事例である。ここでは、ワイン(1301)、アイスペール(1304)、及びそれ以外の2つの物体(1302、1303)が検出されている。ここでユーザは左側のワイン(1301)に着目している事を前記サーバシステム側に明示的に通知する為に、当該ユーザの手指(1310)でワインを直接指し示している状態を表している。ユーザはまた着目対象であるワイン(1301)に直接触れる事も出来る。また、指で指し示す代わりに、身近にある棒状の道具を使って指し示し、或いはレーザーポインター等の光線を対象に直接照射しても良い。
 図20(B)に、手指(1310)による対象のポインティング手順を説明する。前提条件として、図20(A)の画面はユーザの主観的な視野を反映したカメラからの映像であるとする。まず、画面中から、手指(1310)を含むユーザの手(1311)を検出する。当該カメラ映像を前記画像認識システムにより画像解析し、そこから検出された手指(1310)及び手(1311)の形状特徴から主要なオリエンテーション(1312)を求め、手指(1310)が指し示す方向を抽出する。上記オリエンテーション(1312)の検出は、ネットワーク端末220側に組み込まれた画像認識エンジン224によりローカルに実行しても良い。
 前記オリエンテーションが検出されれば(1322)、そのベクトル線上にユーザが指し示す対象が存在する可能性が高い。次に、図20(A)の画像から、前記画像認識システム301との協調動作により当該ベクトル線上に存在する物体を検出し(1323)、当該対象物体の画像認識処理を実行する(1324)。当該画像検出及び認識処理は、ユーザのネットワーク端末220側の一構成要素である認識エンジン224上で行う事も可能で、ネットワーク側の負荷を大幅に軽減する事が出来る。また、ユーザによる素早いポインティング操作に対しても、レイテンシ(時間遅れ)の少ない高速なトラッキング処理が可能になる。最終的な画像認識結果は、ネットワークを介して前記画像認識システムを備えた知識情報処理サーバシステム300側に問い合わせする事で確定され、ユーザに当該認識対象の名称等が通知される(1325)。当該ポインティング対象の画像認識結果がユーザの意にかなえば当該ポインティング処理を終了し(1325)、結果がユーザの意と異なる場合は、追加の指示要求を発行(1327)してステップ(1322)に戻り、引き続きポインティング操作を続ける。同様に、当該ユーザが着目対象のポインティングを明示的に確認しなかった場合に、当該検出結果がユーザの意図通りではなかったと推定して上記の処理を繰り返す、或いは無言の同意と見做して当該検出処理を終了するかを予め設定しておく、或いは前後の流れから、或いは個々のユーザの癖を学習する事により、適応的に当該判断内容を振り分ける事が出来る様に構成しておく事が可能である。これらのユーザによる確認にはユーザの音声による指示を用いるが、それに代わる同様の効果をもたらす手段を用いても良い。
 また、当該ユーザにおける前記一連のポインティング操作の過程で、前記画像認識システムを備えた知識情報処理サーバシステム300と当該ユーザの間で、インタラクティブなコミュニケーションを行う事が可能である。例えば図20(A)の画像において、前記オリエンテーション1312が指し示す方向が前記1302上に向かった時に、「対象は1302ですか?」と前記知サーバシステムが当該ユーザに対し確認する事で、当該ユーザが「そう。けれども、これは一体何かな?」と改めて質問し直す事も可能となる。
 次に、本発明の一実施例において、前記ヘッドセットシステム200に具備された位置情報センサ208を用い、当該ヘッドセットシステムの移動状態を都度検出する事で、当該ヘッドセットシステムを装着したユーザが、或る対象へ着目し始めた可能性を検出する手順を説明する。
 図21は、当該ヘッドセットシステム200の動作に関しての状態遷移を表している。動作開始(1400)状態は、当該ヘッドセットシステムが一定の静止状態から動き出す状態である。当該ヘッドセットシステムの動きには、当該ヘッドセットシステム自体の並行移動(上下、左右、前後)に加えて、当該ヘッドセットシステム自体の位置はそのままで、ユーザの首振り動作によりその向きを変える(左右を見る、上下を見る)動きを含む。停止(1403)は、当該ヘッドセットシステムが静止している状態である。短時間静止(1404)状態は、一時的に当該ヘッドセットシステムが静止している状態である。長時間静止(1405)状態は、当該ヘッドセットシステムがしばらくの間静止している状態である。当該ヘッドセットシステムが一定の動作状態から静止した場合、停止(1403)状態に遷移(1410)する。停止(1403)状態が一定時間以上続いた場合、短時間静止(1404)状態に遷移(1411)する。短時間制状態(1404)がその後一定時間以上継続し、さらに長時間静止している場合には、長時間静止状態(1405)に遷移(1413)する。短時間静止状態(1404)、或いは長時間静止状態(1405)から当該ヘッドセットシステムが再び動き出すと、再び動作開始(1400)状態に遷移(1412、或いは1414)する。
 これにより、例えば短時間静止(1404)状態に前記ヘッドセットがある時には、ユーザが何か眼前の対象を着目し始めている可能性があると判断して、前記画像認識システムを備えた知識情報処理サーバシステム300側に対し着目開始を予告すると同時に、前記ヘッドセットシステムに組込まれたカメラを自動的に撮影開始状態に投入し、引き続く一連の処理に備えるきっかけとする事が出来る。また、前記ヘッドセットシステムを装着したユーザの言外の反応、例えば首を傾げる(疑問)、首を左右に振る(否定)、首を上下に振る(同意)等の動作を、当該ヘッドセットシステムに具備された位置情報センサ208から検出可能なデータから検出する事も可能になる。これらのユーザが多用する首振りのジェスチャーは、地域の風習やユーザ毎の癖によって異なる可能性がある。従って、前記サーバシステム側で、それらユーザ個々の、或いは地域特有のジェスチャーを学習の上で取得して、当該属性を保持し反映する必要がある。
 図22に、本発明の一実施例における写真抽出の事例を示す。写真画像は、視点位置に従いアフィン変換された矩形領域に囲われている閉領域と想定し、当該領域内から検出される物体のサイズがその領域外にある物体のサイズと大幅に異なるスケールで存在している場合、或いは特定の領域に含まれる本来立体であるべき一般物体、或いは特定物体から抽出される各特徴点が、ユーザの視点移動に伴う相対位置変移を起こさず、当該特定の閉領域内で平行移動する場合、或いは画像の奥行き情報を直接検出可能なカメラから獲得可能な対象との距離情報、或いは複数のカメラ画像による両眼視差から獲得可能な物体の奥行き情報等が取得可能な場合において、本来立体であるべき物体やシーンに係る特徴点が同一平面上に存在する場合に、当該閉領域が平面的な印刷物や写真である可能性が高いと推定する事が可能となる。似た様な状況として、窓外の景色も同様の条件を満たし得るが、それが窓であるか平面画像であるかは周囲の状況から或る程度推定可能になる場合もある。また、それらが写真である可能性が高いと推定された場合、それらの写真自体を一つの特定物体と見なして、前記画像認識システムを備えた知識情報処理サーバシステム300側に問い合わせる事で、類似写真の検索が可能になる。その結果、同様或いは類似の写真画像が発見されれば、以降異なる時空間内において同様或いは類似の写真画像を眺めている、或いは眺めた、或いは眺める可能性のある、他のユーザ群を繋ぐことが可能になる。
 図23A及び図23Bを用いて、本発明の一実施形態における着目対象との会話に関して説明する。前提としてユーザの着目画像をカメラが捉えているとする(1600)。ユーザの主観的視野を反映したカメラ画像から、ネットワーク上の画像認識システム301との協調動作により、図3Aに記載の着目対象の抽出プロセスにより、当該対象となる画像を認識する(1602)。次に、グラフデータベース365から着目対象に関するグラフ構造を抽出し、当該着目対象に残されたメッセージやつぶやきに係るノード群を抽出する(1603)。次に、それらメッセージやつぶやきの受領対象者を指定したACLを確認し(1604)、その結果として上記対象ノード群に関連付けられたメッセージやつぶやきを、当該ユーザのヘッドセットシステム200、或いはネットワーク端末220に、音声、画像、図形、イラスト、或いは文字情報で通知する(1605)事が出来る。
 本発明では、上記メッセージやつぶやきに対して、当該ユーザが発話(1606)によってさらに着目対象に向かい会話的に話しかける仕組みを提供する。前記発話内容は、前記音声認識システム320との協調動作により認識され(1607)、発話文字列に変換される。当該文字列は会話エンジン430に送られ、当該ユーザに係るインタレストグラフを基に、前記知識情報処理サーバシステム300側の前記会話エンジン430によって、時々の最適な話題が選択され(1608)、前記音声合成システム330経由で当該ユーザのヘッドセットシステム201に、音声情報として届ける事が可能になる。これにより当該ユーザは、継続的な音声コミュニケーションを前記サーバシステムとの間で続ける事が可能になる。
 前記会話内容が、ユーザによる当該着目対象そのものに係る質問等の場合は、前記知識情報処理サーバシステム300が、当該質問に対する応答を前記MDB111内に記載の詳細情報、或いは当該着目対象に係る関連ノード群から引き出し、当該ユーザに音声情報により通知する。
 逆に、前記サーバシステム側から当該ユーザに対し、当該ユーザのインタレストグラフ基にその時々の話題に係る関連ノード群を辿って継続的な話題を抽出し、タイムリーに提供する事が出来る。その場合には、同じ話題が不必要に繰り返し提供されない様に、当該会話の流れの中で以前触れた事のある話題に係るノード群それぞれに対し、上記会話の履歴情報を記録しておく事で回避が可能になる。また、当該ユーザにとり関心がない話題に不必要に向かう事により、当該ユーザの好奇心が殺がれない様にする事も大事となる事から、当該ユーザに係るインタレストグラフを基に、抽出される話題を選択する事が出来る。上記継続的な会話は、当該ユーザによる発話が続く限り、ステップ1606に戻り繰り返され、当該ユーザの発話がなくなるまで続き(1609)、その後終了する。
 上記における広範なユーザと前記知識情報処理サーバシステム300間の双方向の会話は、前記インタレストグラフ部303自体の学習パスとしても重要な役割を果たす事が出来る。特に、ユーザが特定の対象、或いは話題に対して頻繁に会話を促す場合には、当該ユーザが当該対象、或いは話題に対し極めて強い関心があるとして、それら関心に係るノードと当該ユーザに係るノードの直接或いは間接のリンクに対し、重み付けを加える事が可能となる。逆に、ユーザが特定の対象、或いは話題に対して継続的な会話を拒む場合には、当該ユーザが当該対象、或いは話題に対し興味を失った可能性があるとして、それら対象や話題に係るノードと当該ユーザに係るノードの直接或いは間接のリンクに対し、重み付けを減じる事も可能となる。
 前記実施例では、ユーザが着目対象をその視野内に捉えてからのステップを、順を追って説明したが、他の実施形態をとっても良い。例えば、図3Aに記載の手順において、途中のステップから当該ユーザと前記知識情報処理サーバシステム300間の双方向の会話を始める様に本実施形態を構成しても良い。
 図23Bに、本発明の一実施形態における会話エンジン430の一構成例を示す。前記会話エンジンへの入力は、対象ノードを中心とするグラフ構造1640と、音声認識システム320からの発話文字列1641である。前者は関連ノード抽出1651により前記対象に関連する情報を取り出し、キーワード抽出1650に送る。ここでは、前記発話文字列と前記情報を基に、オントロジー辞書1652を参照して複数のキーワード群を抽出する。次に、話題抽出1653にて前記複数のキーワード群から1つを選択する。ここでは、同じ会話を繰り返さない為の話題の履歴管理を行う。また、上記キーワード抽出に当たっては、新しい、他のユーザにより参照頻度の高い、或いは当該ユーザの関心の高いキーワード群を優先して抽出するように構成する事も出来る。適切な話題が抽出された後は、反応文生成1654にて会話パターン辞書1655を参照しながら、自然な口語体に変換された反応文が作成1642され、後段の音声合成システム330に引き渡される。
 本実施例における前記会話パターン辞書1655は、前記キーワード群から想起される文章のルールを記述している。例えば、「Hello!」とのユーザ発話に対しては「I’m fine thank you. And you?」と返答するとか、「I」とのユーザ発話に際しては「you」と返答するか、「I like it.」とのユーザ発話に対しては「Would you like to talk about it?」と返答するといった代表的な会話のルールを記述している。返答のルールには変数を含めて良い。その場合、当該変数はユーザの発話から充当される。
 前記構成により、前記知識情報処理サーバシステム300側が、当該サーバシステム内に収納された前記インタレストグラフ部303内に記載の内容から、当該ユーザの関心に沿ったキーワード群を選び出し、前記インタレストグラフを基に適切な反応文を生成する事で当該ユーザにとって引き続き会話を続ける強い動機になると同時に、対象と会話しているような感覚を抱くように構成する事も可能になる。
 また、グラフデータベース365には、自らを含む特定のユーザ、或いは特定のユーザ群、或いはユーザ全体に対応するノード群が記録され、それらは、特定物体、一般物体、人、写真、或いはシーンに関するノード群、及びそれらに対して残されたメッセージやつぶやきを記録したノード群が相互にリンクされ、グラフ構造を構成している。統計情報処理部363により、前記メッセージやつぶやきに関連するキーワード群を抽出し、状況認識部305により選択的に当該ユーザのヘッドセットシステム200、或いはネットワーク端末220に、関連する音声や画像、図形、イラスト、或いは文字情報で通知する様に本実施例を構成しても良い。
 図24を用いて、本発明の一実施例として2以上のヘッドシステム200が一台のネットワーク端末220に接続された際の、前記ヘッドセットシステム間の協調動作に関して説明する。図24では、4人のユーザが各々ヘッドセットシステム200を装着しており、各々のユーザが見ている方向が図示されている。この際に、共有する前記ネットワーク端末上に位置のキャリブレーションを行うマーカー等を表示し(1701から1704)、それを各ユーザのヘッドセットシステムに組込まれたカメラで常時モニタリングする事で、各々のユーザの相互の位置関係、及びその動きを把握する事が出来る。或いは、時間軸変調された画像パターンを当該共有ネットワーク端末の表示デバイス上に表示して、それらを各ユーザのヘッドセットシステムに具備されたカメラ映像で捉えた後に復調して、同様の位置関係を求めても良い。これらにより、各々のカメラの視野と視線のキャリブレーション、及び各ユーザのヘッドセットシステムと当該共有ネットワーク端末とのキャリブレーション、及びトラッキング処理を自動的に行う事で、前記ネットワーク端末は各々のユーザの位置を常に知る事が出来る。それにより、当該共有ネットワーク端末上のGUI操作に関して、どのユーザからの入力操作であるかを当該ネットワーク端末側が認識する事が可能になる。それにより、当該共有ネットワーク端末の共有表示デバイス上で、各々のユーザの位置を考慮した、各ユーザに向けたアライメントを有するサブ画面群の表示が可能になる。
 図25を用いて、本発明の一実施例として、前記画像認識システムを備えた知識情報処理サーバシステム300では認識出来なかった不明な着目対象に対し、当該ユーザが当該対象に係る質問をネットワーク上に残す事を可能にし、他のユーザがネットワーク経由でそれらの不明な対象に対する新たな情報や回答を寄せる事で、当該不明となった着目対象を、前記サーバシステム側が、それらユーザ間のやりとりの中から必要な情報を選択抽出し学習する手順を説明する。
 前記手順1800は、ユーザによる音声入力トリガ1801から始まる。前記音声入力トリガは、ユーザによる特定の単語の発話、マイクが拾う音圧レベルの急変、或いは前記ネットワーク端末部220のGUIによっても良い。また、それらの方法に制限されない。それによりカメラ画像のアップロードが開始され(1802)、音声コマンド待ち(1803)となる。次に、ユーザが着目対象抽出の為のコマンド群を音声により発話する事で、それらが音声認識処理され(1804)、例えば図3Aに記載の手段を使って音声による着目対象のポインティング処理が正しく完了したかが判断される(1805)。上記ポインティング処理が困難で認識対象をうまく指定出来ない場合には(1806)、新たな特徴追加による再試行が可能か判断される(1807)。再試行が可能な場合にはユーザからの音声コマンド入力待ち(1803)に戻り、再試行する。一方、特徴の追加が困難な場合には、ネットワーク上のWikiへの問い合わせを開始する(1808)。
 前記問い合わせ処理では、当該問い合わせ対象に係るカメラ画像、及びユーザの音声による質問やコメントをセットにして、ネットワーク上に発行する(1809)。それに対しWikiから新たな情報提供や回答があれば回収し(1810)、その内容を当該ユーザ、或いは多数のユーザ群、及び/又は、前記知識情報処理サーバシステム300側が検証する(1811)。当該検証処理では、寄せられた回答の正当性を判断する。検証に合格すれば、対象を新規登録する(1812)。当該新規登録に当たっては、前記質問、コメント、情報、回答に対応する各ノード群を生成し、当該対象に係るノード群として関連付け、グラフデータベース365に記録する。前記検証に不合格の場合には、保留処理1822を行う。当該保留処理では、ステップ1808或いはステップ1818におけるWikiへの問い合わせ処理が未完了である旨を記録し、前記検証に合格する回答が収集されるまでステップ1810のWikiからの情報・回答収集処理をバックグラウンドで続行する。
 前項ステップ1805にて、対象の音声によるポインティング処理が可能だった場合、当該対象の画像認識プロセスに移行する(1813)。当該画像認識処理は、本実施例では特定物体認識システム110にて特定物体認識を行い、認識出来なかった場合には一般物体認識システム106にて一般物体認識を行い、さらに認識出来なかった場合にはシーン認識システム108にてシーン認識を行う様を図示しているが、これらの各画像認識処理自体は、本事例のように必ずしも直列的に実行せず、各々を個別に並列、或いは各々の認識ユニットの中をさらに並列化して実行しても良い。或いは、その各々を最適化した上で組み合わせても良い。
 前記画像認識処理が成功し、対象が認識可能となった場合、ユーザに対する音声による再確認のメッセージが発行され(1820)、それをユーザが正しく確認出来た場合には、カメラ画像のアップロードを終了(1821)して前記一連の対象画像認識処理を終了する(1823)。一方、ユーザが正しく確認出来なかった場合には、当該対象は未確認のままであるとして(1817)、ネットワーク上のWikiへの問い合わせが開始される(1818)。Wikiへの問い合わせに際しては、当該問い合わせ対象画像も一緒に発行する(1819)必要がある。ステップ1810では、Wikiから寄せられた新たな情報や回答群に対し、その内容及び正当性を検証する(1811)。検証に合格すれば、対象を登録する(1812)。当該登録に当たっては、前記質問・コメント及び情報・回答に対応するノード群を生成し、当該対象に係るノード群に関連付けてグラフデータベース365に記録する。
 図26を用い、前記ヘッドセットシステム200に具備された位置情報センサ208を利用する一実施例を説明する。前記位置情報センサには、GPS(Global Positioning System:全地球測位システム)を利用しても良いが、それには限定されない。前記位置情報センサで検出された位置情報及び絶対時間を、前記ヘッドセットシステムに具備されたカメラ203が撮影した画像に付加し、前記画像認識システムを備えた知識情報処理サーバシステム300側にアップロードする事で、グラフデータベース365が記録している情報を較正する事が出来る。図26(A)は、当該アップロード前の、前記グラフデータベースの画像504(図13A)に関係するグラフ構造の一実施例である。「太陽」が「真上」であるので、時間帯は昼頃であると推定可能になる。図26(B)は、前記画像アップロード後の、グラフ構造の一例である。「絶対時間」ノードの追加により、当該画像に対応した時刻が正確に確定可能になる。また、上記位置情報センサ208により検出された位置情報自体に内在する誤差を、カメラの撮像画像から前記サーバシステムによる認識結果により較正する事が可能になる。
 さらに、前記画像504が、前記グラフデータベース365内に存在しなかった場合、前記図25における一実施例と同様の手順を用いて、前記画像504に関係する情報をグラフ構造として前記グラフデータベース365に記録する。その際に、前記位置情報と絶対時間を利用して、近傍にいる他のユーザ群に対して、前記画像504に関する質問を発行する事で、ユーザ間の新たなネットワーク・コミュニケーションを誘発する事が可能になり、そこから得られる有用な情報群を、前記画像504に係るグラフ構造に追加する様に前記サーバシステムを構成する事が可能になる。
 さらに、前記画像認識システムを備えた知識情報処理サーバシステム300においてアップロードされた画像中の物体が不審物体として判断された場合には、当該不審物体を画像解析して入手可能になった情報を前記グラフデータベース365に、かかる不審物体に係る情報群として記録する事が出来る。当該不審物体の存在或いは発見を、事前に設定可能な特定のユーザ、或いは機関に速やかに自動通知しても良い。前記不審物体か否かの判断には、予め登録済みの不審物体、或いは平常状態における物体との照合を前記グラフデータベース365との協調動作により行う事が出来る。その他、不審な状況、或いは不審なシーンが検出された場合にも、係る不審な状況、或いはシーンが検出可能になる様に本システムを構成しても良い。
 また、ユーザが予め指定可能な発見対象とした特定物体、一般物体、人、写真、或いはシーンを、ユーザのヘッドセットシステム200に装着したカメラが偶然捉えた場合、当該ヘッドセットシステムに有線或いは無線で接続されるユーザのネットワーク端末220上に、前記画像認識システムを備えた知識情報処理サーバシステム300側からネットワーク経由で予めダウンロードされ常駐可能となっている特定画像検出フィルタ群が、当該特定物体、一般物体、人、写真、或いはシーンの初期的な抽出及び対象の暫定的な認識を行い、その結果としてさらに詳細な画像認識処理が必要となった場合には、ネットワーク経由で前記サーバシステム側にそれらを詳細に問い合わせる事で、探し物や忘れ物等、或いは発見したい対象をユーザが前記サーバシステム側に登録しておく事で、効果的に見つけ出す事が可能になる。
 なお、当該発見対象の指定には、ユーザのネットワーク端末220上でのGUIを用いても良い。或いは、前記画像認識システムを備えた知識情報処理サーバシステム300側が、特定の発見対象画像に係るデータ、及び必要な検出フィルタ群を前記ユーザのネットワーク端末上にプッシュして、当該サーバシステム側が指定した発見対象を、広範なユーザ間で共同して探索する事が可能になる様に構成しても良い。
 前記特定画像検出フィルタ群を、前記画像認識システムを備えた知識情報処理サーバシステム300側から抽出する一実施事例として、前記サーバシステム内の前記グラフデータベース365内から前記指定された発見対象に係るノード群を部分グラフとして取り出し、当該指定された発見対象に係る画像特徴群を、それら部分グラフを基に抽出する事で、当該対象を検出する為に最適化された前記特定画像検出フィルタ群を獲得する事が可能になる様に構成しても良い。
 また、本発明に係る一実施例として、ユーザが装着しているヘッドセットシステム200とネットワーク端末220を一体として構成しても良い。また、前記ヘッドセットシステムにネットワークに直接接続可能な無線通信システム、及びユーザの視野の一部を覆う形で半透明の表示ディスプレイを組み込み、前記ヘッドセットシステム自体に前記ネットワーク端末の一部、或いは全体の機能を組み込んで一体として構成しても良い。これらの構成により前記ネットワーク端末を利用しなくとも、前記画像認識システムを備えた知識情報処理サーバシステム300側と直接通信する事が可能になる。その際には、前記ネットワーク端末に組込まれたいくつかの構成要素は、一部統合・修正する必要がある。例えば、電源部227は当該ヘッドセットの電源部213と統合可能になる。また、表示部222も画像出力装置207に統合する事が可能になる。当該ヘッドセットシステムにおける無線通信装置211は、前記ネットワーク端末間の通信を担っていたが、それらもネットワーク通信部223に統合可能になる。その他の画像特徴検出部224、CPU225、及び記憶部226は、当該ヘッドセットに組み込む事が可能になる。
 図28に、サーバとのネットワーク接続が一時的に切断されている状況下における、ネットワーク端末220単体での処理の一実施例を示す。ネットワーク接続の一時的な中断は、トンネル内やコンクリートで覆われた建物内への移動、航空機での移動中等で頻繁に発生する可能性がある。また、様々な理由で電波状況が悪化する場合や、無線基地局毎に設定されているセル最大接続数を超えてしまった場合等に、ネットワーク接続速度が大幅に低下する傾向がある。この様な状況下でも、前記画像認識を行う対象の種類と数を必要最小限度に絞り込み、音声コミュニケーション機能を特定の会話内容に限定する事で、予めネットワーク接続が確立している時に、前記ネットワーク端末側の一時記憶メモリ容量内、或いはフラッシュメモリ等の二次記憶メモリ容量内にユーザが指定可能な限定された数の特定物体、一般物体、人、写真、或いはシーンの検出、判別、及び認識に必要な学習済みの特徴データ群、及び当該限定された数の対象群の検出・認識する為に最適な画像検出・認識プログラムのサブセットを、上記各特徴データ群と共に一体として前記サーバシステム側から前記ネットワーク端末側に予めダウンロードしておく事で、ネットワーク接続が一時的に中断した場合でも一定の基本動作が可能になる様に構成する事が出来る。
 上記の機能を実現する為の一実施例を以下に示す。図28(A)及び(F)にユーザが装着するヘッドセットシステム200、及びユーザのネットワーク端末220の主要機能ブロック構成を示す。一般的なネットワーク端末は、内蔵するCPU226により様々なアプリケーションがネットワーク・ダウンロード可能なソフトウェアの形で常駐可能となっている。それらの実行可能なプログラム規模や参照可能な情報量或いはデータ量自体は、サーバ上における構成に比べて大幅な制約は課されるものの、前記画像認識システムを備えた知識情報処理サーバシステム300側に構築される各種プログラムやデータの実行サブセットを一時的にユーザの前記ネットワーク端末に常駐させる事で、前記の様に最小限度の実行環境の構築が可能となる。
 図28(D)に、サーバ側に構築された画像認識システム301の主要機能ユニット構成を示す。この中で、特定物体認識システム110、一般物体認識システム106、シーン認識システム108においては、本来その要求される画像認識対象として、過去も含め現在に至るまで存在する、或いは存在していた全ての固有名詞/一般名詞を付す事が可能な、物体、人、写真、或いはシーン全体に及ぶ。これら無限とも言える種類及び対象に本来は備えなくてはならない事と、今後の継続的な物体や事象の発見や認識対象アイテムの増加に伴う追加学習も必要となり、その全体の実行環境自体は極めて限られた情報処理能力やメモリ容量しか持ち合わせないネットワーク端末の手に到底及ぶものではなく、それらの包括的な機能はネットワークを介しサーバ側の強力なコンピュータ・リソース、及び巨大なデータベースシステム上に置かれる事になる。その上で、その時々で都度必要な機能部分について、非力なクライアント機器でも実行可能な画像認識機能のサブセットや、予め学習済みの知識データ等の必要な部分を、ネットワーク経由で当該ネットワーク端末上に選択的にダウンロードする事で、ネットワーク接続の切断に或る程度備える事が出来る。これには、不測のネットワーク切断に備えると言う目的以外に、サーバ・リソースへのアクセス集中による負荷軽減や、ネットワーク回線の不要なトラフィックを抑制するという実用的な側面もある。
 これらを実現する一実施形態として、図28(D)に示す特定物体認識システム110、一般物体認識システム106、シーン認識システム108から選択した画像認識プログラムの必要なプログラム群を、ネットワークを介し図28(A)に示すネットワーク端末220上で実行可能な画像認識プログラム229として、認識エンジン224上にサーバ側からダウンロードの上で常駐させ、併せて各認識対象に即し必要な学習済みの特徴データ群を画像カテゴリデータベース107、シーン構成要素データベース109、及びMDB111から抽出し、同様にユーザのネットワーク端末220上の記憶部227上に選択的に常駐させる。これら対象となる認識対象候補群と、他のユーザによる当該対象候補群に対するメッセージやつぶやきを関連付ける為に、サーバ側の前記画像認識システムを備えた知識情報処理サーバシステム300側から、必要な当該対象との関連性を前記グラフデータベース365から抽出すると共に、前記メッセージデータベース420から必要な会話候補群を抽出し、ネットワークを介し予めユーザのネットワーク端末220上のメッセージ管理プログラム232上にダウンロードしておく。これらユーザのメッセージやつぶやきの候補群は、限られた容量のメモリを効果的に使用する目的で、圧縮して当該ネットワーク端末220上の記憶部227内に格納する事が出来る。
 一方、前記画像認識システムを備えた知識情報処理サーバシステム300側との双方向の音声による会話機能については、ネットワーク端末220上の音声認識プログラム230、及び音声合成プログラム231により一定の制限下で実行可能になる。その為には前記一実施例において、前記サーバシステム側とのネットワーク接続が確立しているタイミングで、前記サーバシステムを構成する会話エンジン430内の音声認識システム320、音声合成システム330、及びそれらに対応する知識データベースである音声認識辞書データベース321、会話パターン辞書1655から、必要最小限の実行プログラム群、及びデータセットをユーザのネットワーク端末220上の記憶部227内に予めダウンロードしておく必要がある。
 上記において、ユーザのネットワーク端末220の処理能力、或いは記憶部227の記憶容量に十分な余裕がない場合には、予め会話の候補群をネットワーク上の音声合成システム330で音声化した後に、圧縮音声データとしてユーザのネットワーク端末220上の記憶部227上にダウンロードしておいても良い。これにより、ネットワーク接続に一時的に障害が生じても、主要な音声コミュニケーション機能は限定的ではあるが保持する事が可能になる。
 次に、ネットワークへの再接続時のプロセスについて説明する。ユーザが着目した様々な対象に係るカメラ画像、及び当該対象に対してユーザが残したメッセージやつぶやき等が、関連する様々な情報と共にユーザのネットワーク端末220上の記憶部227内に一時的に保持されているとする。そこで再びネットワーク接続が復帰した時点で、ネットワーク上の生体認証システム310内の生体認証処理サーバシステム311、及び個々のユーザ毎の詳細な生体認証情報を保持している生体認証情報データベース312に対し、当該ユーザのヘッドセットシステム200に紐付けられたユーザのネットワーク端末220から得られる生体認証データを問い合わせる。その結果、紐付けされた当該ユーザのネットワーク端末220と、サーバ側の前記画像認識システムを備えた知識情報処理サーバシステム300内にそれまで蓄積されている情報及びデータとの同期処理を行う事で、関連するデータベース群を最新の状態に更新すると共に、ネットワークのオフライン時に先に進んだ会話ポインタ等の更新も併せて行う事で、オフラインからオンライン、或いはオンラインからオフラインの状態への移行がシームレスに可能になる。
 また本発明により、PCやカメラ付きスマートフォン等に代表されるネットワーク端末、或いは前記ヘッドセットシステムから、インターネット経由で前記画像認識システムを備えた知識情報処理サーバシステム300側に様々な画像(カメラ画像、写真、動画等)をアップロードする事により、前記サーバシステム側が当該画像、或いは当該画像に内包されている、特定物体、一般物体、人、或いはシーン中から、認識可能になった様々な画像構成要素群に対応するノード群、及び/又は当該画像に付帯するメタデータ、及び/又は当該画像に係るユーザのメッセージやつぶやき、及び/又は当該画像に係るユーザ間のコミュニケーションから抽出可能なキーワード群を、ノード群として抽出する事が可能となる。
 これら抽出された各ノードを中心とする部分グラフから、前記グラフデータベース365に記載の関連ノード群を参照する事で、ユーザが指定可能な特定の対象やシーン、或いは特定の場所や地域に係る画像の選択・抽出を可能にし、それらを基に同様或いは類似の対象やシーンを集めたアルバムの作成、或いは一定の場所や地域に係る画像群の抽出処理を行う事が出来る。その上で、前記サーバシステム側が当該抽出された画像群に係る画像特徴群、或いはメタデータ群を基に、それらが特定の物体を撮影したものである場合には複数の視点方向からの映像、或いは異なる環境下で撮影した映像として集約、或いはそれらが特定の場所や地域に係る画像群であるなら、連続的、及び/又は離散的なパノラマ画像に繋ぎ合わせる事で、様々な視点の移動が可能とする。
 前記場所や地域を特定可能なパノラマ画像の構成要素群となっている、インターネット経由でアップロードされるそれぞれの画像に付帯しているメタデータ、或いは前記画像認識システムを備えた知識情報処理サーバシステム300により認識可能になった当該画像中の特定物体に関し、当該物体が存在していた時点或いは期間をインターネット上の各種知識データベース、或いはインターネットを介して広範なユーザに問い合わせる事で推定或いは獲得し、それら時間軸情報を基に当該画像群を時間軸に沿って振り分け、それら振り分けられた画像群を基に、ユーザが指定可能な任意の時点或いは期間における前記パノラマ画像を再構成する事が可能となる。これにより、ユーザは任意の場所や地域を含む、任意の「時空間」を指定して、当該「時空間」上に存在していた現実世界の映像を、前記パノラマ画像として視点移動可能な状態で楽しむ事が出来る様になる。
 その上で、特定の対象、或いは特定の場所や地域毎に編成された前記画像群を基に、当該対象に関心が高い、或いは特定の場所や地域に関わりの深いユーザ群を、前記グラフデータベース365を基に抽出し、それら多数のユーザ群による当該対象、或いは特定の場所や地域毎に編成されたネットワーク・コミュニケーションを誘発し、そこから特定の対象、或いは特定の場所や地域に係る様々なコメント、メッセージやつぶやきの共有、或いは参加ユーザによる新規情報の提供、或いは特定の不明・不足・欠落情報の探索要求等を可能にするネットワーク・コミュニケーションシステムが構築可能になる。
 図29を用いて、本発明に係る一実施例における前記サーバシステム上にアップロードされた画像群の中から、特定の「時空間」を指定する事によって抽出した3枚の写真、写真(A)、写真(B)、写真(C)を事例として示す。ここでは、1900年前半における東京日本橋界隈の様子を示す。
 写真(A)では、手前の「日本橋」に加えて、画面左側中央のランドマーク的な建物として知られている「野村証券」本社ビルが特定物体認識可能になり、また画面左側奥には「倉庫」らしき建物、橋の上には「路面電車」2両が一般物体認識可能になっている様子を示す。
 写真(B)では、別の方向から俯瞰した「日本橋」であり、画面右側に同じく「野村証券」本社ビル、画面左手には「帝国製麻ビル」、また「日本橋」の橋上の装飾的な「外灯」が新たに特定物体認識可能になっている様子を示す。
 写真(C)では、画面左側に、同じ「帝国製麻ビル」と思われる建物がある事から、「野村証券」本社ビル屋上と思われる場所から「日本橋」方面を撮影したシーンである事が判り、画面上部に文字で『日本橋上ヨリ三越呉服店及ビ神田方面盛観』と読み取れる事からも、「日本橋」「三越呉服店」「神田」の3つのキーワード群が抽出可能となり、そこから画面奥の白い大きな建物は「三越呉服店」の可能性が高いと推定可能になっている様子を示す。
 また、「日本橋」橋梁上に「路面電車」の形状がはっきり写っている事で前記画像認識システムによる精査が可能となり、この「路面電車」が写真(D)と同じ「1000型」車両であると特定物体認識可能になっている様子を示す。
 上記一連の画像認識処理は、前記画像認識システム301内に備わった特定物体認識システム110、一般物体認識106、シーン認識システム108との協調動作により実行される。
 図30を用いて、アップロードされた画像群の中から、ユーザが任意の時空間情報を指定する事によって当該時空間内に撮影された画像群のみを抽出し、それらを基に当該時空間を連続的、或いは離散的なパノラマ画像に再構築して、ユーザが自由に当該空間内で視点の移動を行う、或いは自由に当該空間内で時間の移動が可能な、時空間移動表示システムについて、概略的な実施事例を用いて説明する。
 最初に、インターネットを介し前記画像認識システムを備えた知識情報処理サーバシステム300側に、ユーザのネットワーク端末220経由で画像のアップロード(2200)が開始される。アップロードされた画像は前記画像認識システム301にて画像認識処理が開始される(2201)。当該画像ファイルに予めメタデータが付与されている場合は、メタデータ抽出処理(2204)が実行される。また、当該画像中に文字情報が発見された場合には、OCR(Optical Character Recognition)等を用いて、文字情報抽出処理(2203)が行われ、そこからメタデータ抽出処理(2204)を経て、有用なメタデータ群を得る。
 一方、アップロードされた一枚の画像の中から、ユーザのネットワーク端末220上のGUI,或いは図3Aに記載の前記音声による着目対象のポインティング処理により、当該画像中の個々の物体に係る画像の切り抜き(2202)処理を行い、当該対象に対して一般物体認識システム106、及びシーン認識システム108にて画像認識したクラス情報に従いMDB検索部110-02で物体の絞り込み処理を行い、当該画像に関する詳細情報を記述したMDB111を参照して、特定物体認識システム110により当該物体との比較照合処理を行い、最終的に同定された特定物体に関し、前記メタデータ群を参照して、当該画像に時間軸情報が存在するか?否かを判別(2205)する。
 当該画像に時間軸情報が存在する場合、画像中の物体群が存在した時間情報をMDB111内の記述から抽出し、参照の上で物体が当該時間内に存在するか否かを判別(2206)する。前記存在が確認された場合は、当該物体以外に画像認識可能になった他の物体について、同様に当該時間内に存在し得ない物体がないかどうか(2207)前記同様にMDB111内の記述から判別し、当該全ての整合性が確認された時点で、当該画像に関する撮影時間の推定(2208)処理が行われる。それ以外の場合は、時間情報が不明(2209)として、当該ノード情報が更新される。
 次に、当該画像に場所に係る情報が存在する場合(2210)、画像中の物体群が存在した場所に係る情報をMDB111内の記述から抽出し、参照の上で物体が当該場所において存在するか否かを判別(2210)する。前記存在が確認された場合は、当該物体以外に画像認識可能になった他の物体について、同様に当該場所において存在し得ない物体がないかどうか(2211)前記同様にMDB111内の記述から判別し、当該全ての整合性が確認された時点で、当該画像に関する撮影された場所の推定(2212)処理が行われる。それ以外の場合は、場所情報が不明(2213)として、当該ノード情報が更新される。
 前記一連の処理に加えて、前記獲得可能になった当該画像自体から抽出可能な、或いは当該画像自体に付帯するメタデータ群と、前記推定可能になった時空間情報とを再度照合し、その整合性が確認された時点で、当該画像全体に係る時空間情報の獲得(2214)が完了し、当該時空間情報を当該画像に係るノードにリンク(2215)する。また上記整合性に齟齬のある場合には、メタデータ自体の誤り、画像認識システムの認識誤り、或いはMDB111内に記載の内容に誤りや不備があるとして、以降の再検証処理に備える。
 これらの時空間情報の付与が行われた画像群に対し、ユーザは任意の時空間を指定して当該条件に合致した画像群を抽出する事が可能になる(2216)。まず、多数の画像群の中から任意の場所(2217)、任意の時間(2218)に撮影された画像群を、当該指定した時空間に係るノードを辿って抽出する(2219)。これら抽出された複数の画像群を基に、画像中の共通の特定特徴点を探索する事で、検出された特定特徴点同士を連続的に繋いでパノラマ画像を再構成(2220)する事が可能になる。この場合、パノラマ画像中に欠落或いは欠損画像がある場合は、MDB111記載の地図、図面、或いは設計図等の利用可能な情報から広範に推定処理する事で、離散的なパノラマ画像として再構成が可能になる。
 前記一連の時空間情報獲得の為の学習プロセスを、アップロードされる多数の写真(動画を含む)画像に対して、前記画像認識システムを備えた知識情報処理サーバシステム300が継続的に行う事により、時空間情報を有する連続的なパノラマ画像が取得可能になる。これにより、ユーザは任意の時間/空間を指定して、任意の視点移動、或いは同一空間における任意の時間に係る画像体験(2221)を楽しむ事が可能になる。
 図31を用いて、本発明に係る一実施例における、ユーザが前記画像認識システムを備えた知識情報処理サーバシステムに対してアップロードした画像に対して、当該ユーザのネットワーク端末上のGUI操作、或いは前記音声処理によるポインティング操作による当該ユーザが着目した特定物体、一般物体、人、或いはシーンに係る選択抽出処理により、前記サーバシステムが認識した結果を、当該入力画像と共に当該ユーザを含むあらかじめ指定可能な広範なユーザ間で共有可能にすることによるネットワーク・コミュニケーションシステムの構成を説明する。
 当該時空間を指定したユーザの視点の移動により発見可能になった特定物体、一般物体、人、或いはシーンに対しても、これまで述べて来た様な特定の着目対象に係る一連のメッセージやつぶやきの記録、及び再生体験が可能になる。
 当該ユーザによるアップロードされた画像2101は、前記サーバシステムにおいて選択・抽出処理2103が行われる。この際に、ユーザは図3Aに記載の手順での選択・抽出処理を実行しても良いし、図30に示した選択・抽出コマンドを、GUI2104を操作することによって選択・抽出処理を実行しても良い。当該選択・抽出処理により切り出された画像は、画像認識システム301において認識処理される。その結果は、インタレストグラフ部303おいて分析・分類・蓄積され、キーワード群や時空間情報と共にグラフデータベース365に記録される。当該ユーザは、画像のアップロードに際して、メッセージやつぶやき2106、或いは文字情報2105による書き込みを行っても良い。これら当該ユーザの発したメッセージやつぶやき、或いは文字情報もインタレストグラフ部にて分析・分類・蓄積される。当該ユーザ、或いは当該ユーザを含むユーザ群、或いはユーザ全体は、前記対象に係るキーワード群、及び/又は時空間情報(2106)を基に、インタレストグラフ部から記録された画像を選択する事が可能であり、当該画像に係る広範なネットワーク・コミュニケーションを誘発させることが出来る。さらに、前記広範なユーザ間のコミュニケーションを、前記サーバシステム側で観察・蓄積し、インタレストグラフ部303の1構成要素である統計情報処理部363において分析することで、当該ユーザ特有の、或いは特定のユーザ群に特有の、或いはユーザ全体に共通の動的な関心や好奇心の在り所とその推移を、上記広範なユーザ群、抽出可能なキーワード群、及び様々な着目対象に係るノード間を繋ぐ動的なインタレストグラフとして獲得する事が可能となる。
[周辺技術]
 本発明に係るシステムは、既存の様々な技術と組み合わせる事によって、さらに利便性の高いシステムとして構成する事が可能となる。以下に、例示する。
 本発明に係る一実施例として、ユーザの発話をヘッドセットシステム200に組み込まれたマイクロフォンが拾い、前記音声認識システム320により発話中に含まれる単語列及び構文を抽出した後、ネットワーク上の自動翻訳システムを活用する事で異なる言語に翻訳し、当該翻訳された単語列を前記音声合成システム330により音声変換した上で、他のユーザに当該ユーザのメッセージやつぶやきとして伝える事が可能になる。或いは、前記画像認識システムを備えた知識情報処理サーバシステム300側からの音声情報を、当該ユーザが指定可能な言語で受け取る事が出来る様に構成する事が出来る。
 本発明に係る一実施例として、ユーザのヘッドセットシステムに組込まれたカメラがその視野内に捉えた映像の中から、規定の認識マーカーと共に特定の画像変調パターンを抽出した場合、当該信号源の存在をユーザに喚起し、当該信号源が表示装置或いはその近傍にある場合、当該変調された画像パターンを前記認識エンジン224との協調動作により復調する事によって、そこから得られるURL等のアドレス情報をインターネット経由で参照し、当該表示装置上に表示されている画像に係る音声情報を当該ユーザのヘッドセットシステム経由で送り込む事を可能にする。これにより、ユーザが偶然目にした様々な表示装置から、当該表示画像に係る音声情報を当該ユーザに効果的に送り込む事が可能になる。これにより、電子広告媒体としてのデジタル・サイネージの有効性を一段と高める事が出来る。反面、ユーザが目にする事が出来る全てのデジタル・サイネージから音声情報が一斉に送り届けられると、場合によってはそれらを不要なノイズと感じてしまう可能性もある事から、それぞれのユーザに係る前記インタレストグラフを基に、ユーザ毎に異なる嗜好を反映した広告等のみを選択して、個々のユーザ毎に異なる音声情報として送り届ける事が出来る様に構成しても良い。
 本発明に係る一実施例として、様々な生体情報(バイタルサイン)をセンシング可能な複数の生体センサ群をユーザのヘッドセットシステムに組み込む事で、当該ユーザが関心を持って着目した対象と、当該生体情報との相関を、前記画像認識システムを備えた知識情報処理サーバシステム300側で統計処理した上で当該ユーザに係る特殊なインタレストグラフとして登録しておく事によって、当該ユーザが当該特定の対象或いは事象に遭遇した場合、或いは遭遇の可能性が高まった場合に、当該ユーザの生体情報値が急変する事態に備える事が出来る様に、前記サーバシステム側を構成する事が可能である。取得可能になる生体情報としては、ユーザの体温、心拍、血圧、発汗、皮膚表面の状態、筋電位、脳波、眼球運動、発声、頭の動き、体の動き等が含まれる。
 この為の学習パスとして、カメラが捉えたユーザの主観視内に特定の特定物体、一般物体、人、写真、或いはシーンが現れた時に、測定可能な前記生体情報値が一定以上変化する場合、当該ユーザに関わる特異的な反応として係る事態を、前記画像認識システムを備えた知識情報処理サーバシステム300側に通知する事で、当該サーバシステム側は関連する生体情報の蓄積・分析を開始すると同時に、当該カメラ映像の解析を開始し、そこから抽出可能な画像構成要素群を係る事態に関連する可能性のある原因要素群として前記グラフデータベース365、及びユーザデータベース366内に登録する事を可能にする。
 以降、様々な事例で前記学習を繰り返す事で、前記各種生体情報値の変化に係る要因の分析・推定を統計処理から求める事が可能になる。
 上記の一連の学習プロセスから、個々のユーザ毎に異なる当該生体情報値の異常な変化の要因となっていると予測可能な特定物体、一般物体、人、写真、或いはシーンに、当該ユーザが再び遭遇する、或いは遭遇する可能性が高いと予測可能な場合、前記サーバシステム側から当該ユーザに対し、ネットワークを介して音声、及び/又は、文字、画像、バイブレーション等で、係る可能性を速やかに通知する様に当該サーバシステムを構成する事が可能となる。
 さらに、観測可能な前記生体情報値が急変し、ユーザの容体に一定以上の危機の可能性があると推定可能な場合、速やかに当該ユーザに係る事態の確認を求め、当該ユーザから一定の反応が得られない場合、当該ユーザに一定以上の緊急事態が発生した可能性が高いと判断し、予め設定可能な緊急連絡網、或いは特定の機関等に通知する事が可能な様に、前記画像認識システムを備えた知識情報処理サーバシステム300側を構成する事が出来る。
 本発明に係る生体認証システムにおいて、ユーザが頭部に装着可能な前記ヘッドセットシステムから、ユーザ固有の声紋、静脈パターン、或いは網膜パターン等を取得して生体認証が可能な場合、ユーザと前記画像認識システムを備えた知識情報処理サーバシステム300側とを一意にバインドする様に本システムを構成する事が出来る。当該生体認証デバイスはユーザの前記ヘッドセットシステムに組み込み可能な事から、当該ヘッドセットシステムの着脱に合わせて自動的にログイン、ログアウト可能にする様に構成する事も可能になる。これら生体情報を活用した紐付けを常時上記サーバシステム側で監視する事により、異なるユーザによる不正なログイン、不正な利用が排除可能になる。当該ユーザ認証が正常に行われた場合、以下の情報群が当該ユーザにバインドされる。
(1)ユーザが設定可能なユーザプロファイル
(2)ユーザの音声
(3)カメラ画像
(4)時空間情報
(5)生体情報
(6)その他のセンサ情報
 本発明に係る一実施例として、複数のユーザ間で共有される画像に関し、プライバシー保護の観点から、ユーザが予め指定可能なルールに従い、当該ユーザ毎の顔部分、及び/又は、当該ユーザを特定可能な画像の特定部分を、前記画像認識システムを備えた知識情報処理サーバシステム300側に組込まれた画像認識システム301により抽出及び検出し、それらの特定画像領域に対し、判別不能なレベルにまで自動的にフィルタ処理を施す様に構成する事が出来る。これにより、プライバシー保護を含む一定の閲覧制限を設ける事が可能となる。
 本発明に係る一実施例として、ユーザが頭部に装着可能なヘッドセットシステムに複数のカメラを設置する事が出来る。この場合、一実施例として複数のカメラに撮像視差を設ける事が出来る。或いは、性質の異なる複数の撮像素子を使って、対象物体までの深度(距離)を直接測定可能な三次元カメラを組み込む様に構成する事も出来る。
 その上で、前記画像認識システムを備えた知識情報処理サーバシステム300側からの音声による指示により、当該サーバシステムにより指定された特定のユーザに対し、当該サーバシステムが指定した特定の対象、或いは周囲の様子等を、当該サーバシステムが当該ユーザに対して様々な視点から撮影する様に依頼する事で、前記サーバシステム側が当該対象の立体的な把握、或いは周囲の状況等の立体的な把握が容易になると共に、当該画像認識結果により前、記サーバシステム内のMDB111を含む関連データベース群の更新が可能となる様に、当該サーバシステムを構成する事が出来る。
 本発明に係る一実施例として、ユーザが頭部に装着可能なヘッドセットシステムに、指向性を有する深度センサを組み込む事が出来る。これにより、当該ヘッドセットシステムを装着したユーザに近付く人間を含む生体や物体の動きを検知し、前記ユーザに音声で係る事態を通知する事が可能となる。同時に、当該ユーザのヘッドセットシステムに組み込まれたカメラ及び画像認識エンジンを自動的に起動し、不測の物体の急接近に即時に対応可能な様にリアルタイム処理が要求される部分をユーザのネットワーク端末側で、高度の情報処理を必要とする部分に関して前記画像認識システムを備えた知識情報処理サーバシステム300側で分担して実行可能にする様にシステムを構成する事で、ユーザに近付く特定の物体、特定の人間、特定の動物等を高速に識別/解析し、その結果を音声情報、或いはバイブレーション等により当該ユーザに速やかに喚起する事が可能となる。
 本発明に係る一実施例として、ユーザが頭部に装着可能なヘッドセットシステムに、当該ユーザを中心とした周囲、或いはその上部や下部も含めた全方位を撮影する事が可能な撮像システムを組み込む事が出来る。或いは、ユーザの主観的視野外となる後方や側面からの視野を撮影する事が可能な複数のカメラを、当該ユーザのヘッドセットシステムに追加する事が可能となる。この様な構成を採る事により、当該ユーザの主観視野外にあるものの、当該ユーザが特に関心や注意を払わなければならない対象が近傍に存在する場合に、当該ユーザに対して速やかに音声、或いはそれに代わる手段を用いて係る状況の喚起を促す事が可能になるように、当該画像認識システムを備えた知識情報処理サーバシステム300を構成する事が出来る。
 本発明に係る一実施例として、ユーザが頭部に装着可能なヘッドセットシステムに、以下の様な環境値を測定可能な環境センサ群を任意に組み込む事が可能である。
(1)周囲の明るさ(光度)
(2)照明や外光の色温度
(3)周囲の環境騒音
(4)周囲の音圧レベル
これにより周囲の環境雑音の低減、最適なカメラ露光状態への対応が可能になり、前記画像認識システムの認識精度、及び前記音声認識システムの認識精度を向上させる事が可能になる。
 本発明に係る一実施例として、ユーザが頭部に装着可能なヘッドセットシステムに、当該ユーザの視野の一部を覆う形で半透明のディスプレイ装置を組み込む事が出来る。或いは、当該ヘッドヘッドシステムをヘッドマウントディスプレイ(HMD)、或いはスカウター(Scouter)として表示ディスプレイと一体的に構成する事も出来る。この様な表示システムを可能とする装置には、ユーザの網膜に直接画像情報を走査投影するレチナール・センシングと呼ばれる画像投影システム、或いは眼前に配置した半透明の反射板に画像を投影するデバイス等が知られている。上記の様な表示システムを採用する事により、ユーザのネットワーク端末の表示画面に表示される画像の一部、或いは全部を、当該表示デバイス上に映し出す事が可能になり、前記ネットワーク端末をユーザの眼前に取り出す事なく、インターネット経由で直接前記画像認識システムを備えた知識情報処理サーバシステム300側とのコミュニケーションが可能となる。
 本発明の一実施形態としてユーザが頭部に装着可能な前記HMD、前記スカウター、或いはそれらに併設する形態で視線検出センサを具備しても良い。当該視線検出センサには光センサアレイを用いても良く、そこから照射される光線の反射光を計測する事で、当該ユーザの瞳の位置を検出し、当該ユーザの視線位置を高速に抽出する事が出来る。例えば、図27において、点線枠2001はユーザの装着する前記スカウター2002の視野画像であるとする。この時、当該ユーザの視線方向にある対象に対して、視点マーカー2003を重ねて表示しても良い。その場合、前記視点マーカーの位置が当該対象と同位置に表示される様に、ユーザの音声による指示でキャリブレーション可能にする事が出来る。
100 ネットワーク・コミュニケションシステム
106 一般物体認識システム
107 画像カテゴリデータベース
108 シーン認識システム
109 シーン構成要素データベース
110 特定物体認識システム
111 マザーデータベース
200 ヘッドセットシステム
220 ネットワーク端末
300 知識情報処理サーバシステム
301 画像認識システム
303 インタレストグラフ部
304 状況認識部
306 再生処理部
310 生体認証システム
320 音声認識システム
330 音声合成システム
365 グラフデータベース
430 会話エンジン

Claims (31)

  1.  インターネットに接続可能なネットワーク端末に対し、有線或いは無線で接続可能な多機能入出力デバイスであって、少なくとも一以上のマイクロフォン、一以上のイヤフォン、一以上の画像撮像素子(カメラ)を一体として有する、ユーザの頭部に装着可能なヘッドセットシステムから得られる当該ユーザの主観的な視野、及び視点を反映した画像、及び音声信号を、前記ネットワーク端末経由でインターネット上の画像認識システムを備えた知識情報処理サーバシステムにアップロード可能にし、当該画像に内包されている当該ユーザが着目した特定物体、一般物体、人、写真、或いはシーンに対し、音声認識システムとの協調動作により、当該ユーザ自身の音声による当該着目対象の指定、選択、及び抽出操作を、インターネット経由で前記画像認識システムとの協調動作により可能にした上で、当該ユーザによる上記一連の画像認識プロセス及び画像認識結果を、音声合成システムとの協調動作により、前記画像認識システムを備えた知識情報処理サーバシステムが、インターネットを介し、当該ユーザのネットワーク端末経由で、当該画像認識結果及びその認識プロセスを当該ユーザのヘッドセットシステムに組込まれたイヤフォンに対し音声情報として、及び/又は、当該ユーザのネットワーク端末に音声及び画像情報として通知する事を可能にし、当該画像認識可能になった対象に対し、当該ユーザが自らの声で語りかけたメッセージやつぶやきを、前記音声認識システムとの協調動作により前記知識情報処理サーバシステムがその内容を分析・分類・蓄積し、それらメッセージやつぶやきをインターネット経由で、同様の対象を目にした自らを含む広範なユーザ間で共有可能にする事で、多数のユーザの視覚的な好奇心に端を発する広範なネットワーク・コミュニケーションを誘発させると共に、それら広範なユーザ間のコミュニケーションを、前記知識情報処理サーバシステム側で統計的に観察・蓄積・解析する事で、当該ユーザ特有の、或いは特定のユーザ群に特有の、或いはユーザ全体に共通の動的な関心や好奇心の在り所とその推移を、上記広範な「ユーザ」群、抽出可能な「キーワード」群、及び様々な着目「対象」に係るノード間を繋ぐ動的なインタレストグラフとして獲得可能にする、画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  2.  インターネットに接続可能なネットワーク端末を介して、ユーザが前記画像認識システムを備えた知識情報処理サーバシシテムに向けアップロードした写真、或いは動画に対し、当該画像全体、或いは当該画像に内包されている当該ユーザが着目した特定物体、一般物体、人、或いはシーンに係る選択抽出処理を、前記ネットワーク端末上のGUI操作、及び/又は、前記請求項1に記載の音声入力操作により可能にし、当該画像全体、或いは当該抽出された対象に対し、前記画像認識システムを備えた知識情報処理サーバシステムが画像認識した結果を、当該入力画像と共に当該ユーザを含む予め指定可能な広範なユーザ間で共有可能にする事で、当該画像認識可能になった対象に対し、当該ユーザによる文字情報による書き込み、及び/又は、当該ユーザが自らの声で語りかけたメッセージやつぶやきを、前記音声認識システムとの協調動作により前記画像認識システムを備えた知識情報処理サーバシステムがその内容を分析・分類・蓄積し、そこから抽出可能な当該対象に係るキーワード群、及び/又は、時空間情報を基に、ユーザによる指定可能な特定の対象の選択、指定可能な任意の時空間の選択、或いはそれらの組み合わせを可能にする事で、当該抽出された対象、或いは特定の時空間における前記入力画像群に係る広範なネットワーク・コミュニケーションを誘発させると共に、それら広範なユーザ間のコミュニケーションを、前記画像認識システムを備えた知識情報処理サーバシステム側で統計的に観察・蓄積・解析する事で、当該ユーザ特有の、或いは特定のユーザ群に特有の、或いはユーザ全体に共通の動的な関心や好奇心の在り所とその推移を、上記広範な「ユーザ」群、抽出可能な「キーワード」群、及び様々な着目「対象」に係るノード間を繋ぐ動的なインタレストグラフとして獲得可能にする、画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  3.  前請求項2においてアップロードされた写真、或いは動画の中から、前記画像認識システムを備えた知識情報処理サーバシステムにより抽出可能になった当該画像に係るキーワード群、及び/又は、時空間情報を基に、前記画像認識システムを備えた知識情報処理サーバシステムが同一の時空間内に撮影されたと推定可能な画像群を選択抽出し、それら複数の画像群に含まれる検出可能な画像構成要素群の中から特徴的な画像構成要素群を抽出し、それらを基に前記複数の画像群を構成要素とする広視野画像として繋ぎ合わせる、或いは複数の類似画像を集めた当該時空間に係るアルバムに生成する事を可能にする事で、ユーザが設定可能な任意の時空間内における視覚的な体験に端を発した、当時空間内の様々な対象に係るユーザの文字による書き込みや、音声によるメッセージやつぶやきを、同様の時空間を選択した複数のユーザ間で共有可能にする事で、多数のユーザの広範なネットワーク・コミュニケーションを誘発させる事が可能な、請求項2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  4.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザが着目している、或いは着目した特定物体、一般物体、人、写真、或いはシーンに対し、当該ユーザが残したメッセージやつぶやきを、当該ユーザが指定する特定の時間或いは時間帯、及び/又は、当該ユーザが指定する特定の場所や地域において、当該ユーザが指定する自らを含む特定のユーザ、或いは特定のユーザ群、或いはユーザ全体、或いは前記知識情報処理サーバシステムが抽出する特定のユーザ、或いは特定のユーザ群、或いはユーザ全体を対象に、音声情報として残す事が可能な、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  5.  前記ネットワーク・コミュニケーションシステムにおいて、自らを含む特定のユーザ、或いは特定のユーザ群、或いはユーザ全体が、その着目対象である特定物体、一般物体、人、写真、或いはシーンに対して残した前記メッセージやつぶやきに対し、それらの受領対象となるユーザを、当該メッセージやつぶやきを残したユーザ自身により指定可能に構成する事で、当該対象に偶然遭遇した上記メッセージやつぶやきの受領対象である、特定のユーザ、或いはユーザ群、或いはユーザ全体に対し、当該メッセージやつぶやきを残したユーザ自身により指定可能な時空間内に限定して、インターネット経由で、当該メッセージやつぶやきを、当該受領対象ユーザが装着するヘッドセットシステムに対し音声情報で、及び/又は、当該ヘッドセットシステムに有線或いは無線で接続されているユーザのネットワーク端末に対し音声情報及び画像情報として受取る事が可能な、請求項4に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  6.  前記ネットワーク・コミュニケーションシステムにおいて、自らを含む特定のユーザ、或いは特定のユーザ群、或いはユーザ全体が、その着目対象である特定物体、一般物体、人、写真、或いはシーンに対して残した前記メッセージやつぶやきに対し、当該メッセージやつぶやきを残したユーザが指定した時空間内に限らず、前記メッセージやつぶやきの受領対象となる上記ユーザによる任意の時空間選択指定を可能にした上で、インターネット経由で、当該メッセージやつぶやきを、当該受領対象ユーザが装着するヘッドセットシステムに対し音声情報で、及び/又は、当該ヘッドセットシステムに有線或いは無線で接続されているユーザのネットワーク端末に対し音声情報及び画像情報として受取る事が可能な、請求項4に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  7.  前記ネットワーク・コミュニケーションシステムにおいて、前記メッセージやつぶやきの受領対象となったユーザが、再び異なる時空間内において同一の対象に遭遇した場合に、同様のメッセージやつぶやきを再び繰り返す事無く、以前に当該ユーザが受取ったメッセージやつぶやきの続きから、或いはそれ以降に加わった新たなメッセージやつぶやきを加えて受取る事が可能な、請求項4に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  8.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザが装着するヘッドセットシステム、及び/又は、当該ヘッドセットシステムに有線或いは無線で接続されているユーザのネットワーク端末に対し送り込まれた前記メッセージやつぶやきに対し、ユーザの着目対象である特定物体、一般物体、人、写真、或いはシーンに向かい音声で話しかける事で、前記画像認識システムを備えた知識情報処理サーバシステムが、その音声内容を前記音声認識システムとの協調動作により認識し、その応答候補として、当該対象に係るさらに詳細な情報、或いは特定のユーザやユーザ群が指定可能な言語で発した一連のメッセージやつぶやき、特定のトピックス、当該対象に係る広告・告知等を、当該ユーザに係るインタレストグラフを基に様々な話題を選択抽出し、当該ユーザが装着するヘッドセットシステム、及び/又は、当該ヘッドセットシステムに有線或いは無線で接続されているユーザのネットワーク端末に対し、ネットワーク上の自動翻訳システム、及び前記音声合成システムとの協調動作により、当該ユーザが指定した言語でインタラクティブに応答する事を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  9.  前記ネットワーク・コミュニケーションシステムにおいて、自らを含む特定のユーザ、或いは特定のユーザ群、或いはユーザ全体が、その着目対象である特定物体、一般物体、人、写真、或いはシーンに対して残した前記メッセージやつぶやきの中から、特定の主題や話題を前記音声認識システム、および前記画像認識システムを備えた知識情報処理サーバシステムとの協調動作により抽出し、その結果を、上記関連要素群それぞれをノードとするインタレストグラフとして学習の上で生成・蓄積した上で、ユーザが視覚的な関心を持った対象に係る様々なユーザ間のメッセージやつぶやきに含まれる特定の、特異的な、或いは共通したコメントをノード群として抽出し、前記インタレストグラフを基にそれら抽出された各ノード群を中心とする部分グラフを生成し、それら部分グラフの中から、当該ユーザ固有のインタレストグラフを基にさらに選択抽出した話題を、前記音声合成システムとの協調動作により、当該ユーザが装着するヘッドセットシステム、及び/又は、当該ヘッドセットシステムに有線或いは無線で接続されているユーザのネットワーク端末に対し音声、及び/又は、画像、図形、イラスト、或いは文字情報で送り込む事を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  10.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザが着目した特定物体、一般物体、人、写真、或いはシーンを、ネットワーク経由で前記画像認識システムを備えた知識情報処理サーバシステムに問い合わせた結果「不明」となった場合、当該対象に対し当該ユーザが音声で残したメッセージやつぶやき、或いは質問等に対し、他のユーザが音声、或いは文字情報により当該対象の推定もしくは詳細な説明をネットワーク経由で当該ユーザ、或いは関心のある他のユーザ群に通知し共有する事を可能にする事で、ユーザの視覚的好奇心から発した広範なユーザ間のコミュニケーションを喚起すると共に、前記知識情報処理サーバシステム側が、それら広範なユーザ間のコミュニケーションから、当該対象に係る新たな情報をノード及び他の関連するノード間のリンクとして抽出し、当該情報が正しい場合は、前記知識情報データベース内の構成要素である前記インタレストグラフに対して新規登録、追加、或いは更新処理可能な、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  11.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザが予め指定した発見対象である特定物体、一般物体、人、写真、或いはシーンを、当該ユーザのヘッドセットシステムに装着したカメラが偶然捉えた場合、当該ヘッドセットシステムに有線或いは無線で接続されているユーザのネットワーク端末に向け、前記画像認識システムを備えた知識情報処理サーバシステム側からダウンロード可能な特定画像検出フィルタが、当該対象に係る初期的な画像特徴抽出・画像推定処理を行い、その結果としてさらに詳細な画像認識処理が必要となった場合に、ネットワーク経由で前記画像認識システムを備えた知識情報処理サーバシステムに問い合わせる事で、当該対象を最終的に認識・確認し、その結果をネットワーク経由で、前記ヘッドセットシステムを装着した当該ユーザのイヤフォンに音声情報で、及び/又は、ユーザのネットワーク端末には、画像・文字を含む詳細な情報として通知する事を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  12.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザが指定可能な特定物体、一般物体、人、写真、或いはシーン等の捜索対象に対し、過去に当該対象に遭遇した、或いは偶然目にした時空間履歴を、ネットワークを経由して前記画像認識システムを備えた前記知識情報処理サーバシステムに問い合わせる事により、最後に当該対象を目にした時空間情報を含む詳細情報を、前記画像認識システムを備えた知識情報処理サーバシステムからネットワーク経由で当該ユーザのヘッドセットシステム、及び/又は、当該ユーザのネットワーク端末に対し、音声、文字、写真、或いは図形情報で通知する事で、当該対象に関する前記画像認識システムを備えた知識情報処理サーバシステム側の視覚的な記憶による捜索を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  13.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザが関心を持った着目対象がどの様な特徴を有しているか、及び/又は、どの様な位置関係にあるか、及び/又は、どの様な運動状態にあるかを、前記画像認識システムを備えた知識情報処理サーバシステム側に明示的に指し示す手段として、当該ユーザの音声による対象の指定(ポインティング)操作を可能にし、当該ユーザとの音声によるインタラクティブなコミュニケーションにより、前記画像認識システムを備えた知識情報処理サーバシステム側が、当該ユーザが音声で指し示した当該対象を言い表す上記特徴群を基に、前記画像認識システムとの協調動作により、当該着目対象を抽出・認識し、当該認識結果に対する再確認を、当該ユーザが前記画像認識システムを備えた知識情報処理サーバシステムに対し音声で指し示した上記特徴以外に、ユーザのヘッドセットシステムが捉えたユーザの主観的視野を反映したカメラ映像を基に、前記画像認識システムを備えた知識情報処理サーバシステムが当該対象に共起する新たな物体や事象を抽出し、それら当該対象をさらに正確に言い表す事が可能な共起事象として当該ユーザが音声で示した上記特徴群に加えた一連の記述として生成し、それらの記述を一連の文章として再構成した後に、前記音声合成システムとの協調動作により、当該ユーザに対し音声で「再確認」を求める事を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  14.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザが関心を持った着目対象を、インターネット経由で前記画像認識システムを備えた知識情報処理サーバシステム側に選択指定する手段として、ユーザ自らの指先による操作で、当該対象となる特定物体、一般物体、人、写真、或いはシーンが存在する方向を指し示す、或いは当該対象に指先で直接触れる事により、前記ユーザのヘッドセットシステムに組み込まれたカメラが、当該ユーザによる前記選択操作を逐次観察し、それらの選択操作映像をインターネット経由で前記知識情報処理サーバシステムに組込まれた画像認識システム、或いは前記ユーザのネットワーク端末に組込まれた画像認識エンジンに逐次入力する事で、ユーザが指し示した対象を推定し、その結果を、前記画像認識システムを備えた知識情報処理サーバシステム側が当該ユーザとの音声によるインタラクティブなコミュニケーションの結果、当該ユーザに対して音声による再確認を求める事で最終的に当該対象を決定可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  15.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザの頭部に装着可能な前記ヘッドセットシステムに一体となって組込まれた、ユーザの眼前に配置されたトランスミッター部から放射される光を、ユーザの瞳、及び/又は、網膜に向けて照射し、その反射光を前記トランスミッター部と一体となったレシーバ部で計測する事で、ユーザの眼球の動きを直接検出可能にすると共に、当該ユーザの視線の先にある着目対象を当該ユーザが注視した時に、前記検出された視点位置に関してユーザが意識している当該着目対象位置と重なる様に、前記音声認識システムとの協調動作により、前記画像認識システムを備えた知識情報処理サーバシステム側が、当該ユーザとのインタラクティブな音声によるコミュニケーションの結果、視点位置のキャリブレーションを行う事で、当該ユーザの着目対象へのポインティング指示を正確に行う事が可能な、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  16.  上記ポインティング操作において、ユーザの音声による指示、指による指示、或いは視線方向による指示により選択可能になった対象に対し、前記ネットワーク上に構築された画像認識システムを備えた知識情報処理サーバシステムとの協調動作により、対象となる特定物体、一般物体、人、写真、或いはシーンの名称、遭遇した時空間情報、ユーザ情報、及び対象画像情報を、前記サーバ側で、当該ユーザの着目対象、及び着目対象係る付帯情報として蓄積・解析・参照可能な、請求項13から請求項15のいずれか一項に記載の画像認識システムを備えた、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  17.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザが眼前の対象に関心を持った可能性がある事を、インターネット経由で前記知識情報処理サーバシステム側に喚起する手段として、当該ユーザが装着する前記ヘッドセットシステムに組込まれたカメラ、加速度センサ、及び/又は、方位センサからの値を前記ネットワーク端末側で逐次観測し、当該ヘッドセットシステムを装着しているユーザの頭部が動いている状態から予め既定される静止状態に入ったと判断された時、当該ユーザが何か特定の対象を注視しようとしている可能性があると判断し前記画像認識システム、及び前記音声認識システムに対する接続準備を自動的に行う事を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  18.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザの頭部に装着可能な前記ヘッドセットシステムに、地球上における位置情報、及び当該ユーザの頭部が向いている方位情報を検出するセンサ群を組込み、それら検出された位置情報及び方位情報を、当該絶対時間と共に前記画像認識システムを備えた知識情報処理サーバシステムに通知する事で、前記ヘッドセットシステムに組込まれたカメラからの映像と、実際の地球上の位置情報、及び時間軸情報との整合性を基に、当該対象の存在適合性を検証し、それらが存在する位置及び方位精度を較正可能にすると共に、前記画像認識システムを備えた知識情報処理サーバシステム側のデータベース内に存在しない建造物や看板、不審な物体等を発見した場合、速やかに関連する情報をインターネット経由で収集し、その結果、当該データベースへの記載内容の更新が妥当であると判断される場合は、速やかに更新処理を行い、引き続き不明な場合には、当該検出されたロケーションの近傍にいる他のユーザ群に対し、検証の為に当該対象に係る新たな画像群の送信を促す事で、追加的な情報を収集すると共に、広範なユーザ間のさらなるネットワーク・コミュニケーションを誘発可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  19.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザの頭部に装着可能な前記ヘッドセットシステムに、ユーザ認証の為の生体認証(バイオメトリクス)センサを一体として組み込み、当該ヘッドセットシステムを装着したユーザ固有の生体識別情報を、前記ネットワーク端末経由でインターネット上の生体認証システムに問い合わせる事で、当該ユーザと当該ヘッドセットシステムとの紐付けを可能とし、その上で当該ヘッドセットシステムの着脱を、当該ヘッドセットシステム及び前記サーバ側で常時監視する事により、当該ヘッドセットシステムの装着不具合、或いは他のユーザによる不正な装着、さらには不正利用を防止する事を可能とする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  20.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザの体温、心拍、血圧、脳波、呼吸、眼球の移動、発声、体の動き等の生体情報(バイタルサイン)を前記ヘッドセットシステムに組込まれたセンサ群で逐次計測・収集・解析し、当該ヘッドセットシステムを装着したユーザの主観的な視野を反映したカメラ映像内に、特定の物体、特定の一般物体、特定の人、特定の写真、或いは特定のシーンを捉えた時点で、それら観測可能なバイタルサインの値が急変した場合、ネットワークを経由してサーバ側の画像認識システムを備えた知識情報処理サーバシステムが、当該ユーザに関わる特異的な反応として当該時点でのデータの詳細な収集・蓄積・解析、及び初期的な原因の推定を行う事を可能にすると共に、以降、類似の状況にユーザが遭遇する可能性が高まった場合、或いは当該ユーザが係る対象に実際遭遇した場合、前記画像認識システムを備えた知識情報処理サーバシステム側から当該ユーザに対し、ネットワークを介して音声、及び/又は文字、バイブレーション等による情報で速やかに通知する事を可能にすると共に、観測可能なバイタルサイン値の所定以上の急変に対し、ユーザの容体に一定以上の危機の可能性が疑われる場合は、当該ユーザに対し緊急状態確認通知を発行すると同時に、その結果、当該ユーザから一定の反応がない場合に自動的に当該状況を所定の宛先に通知可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  21.  前記ネットワーク・コミュニケーションシステムにおいて、複数のユーザ間で共有可能な画像情報に関し、プライバシー保護の観点から、人物を特定可能な顔を含む身体の特徴的な部分、及び/又は、反社会的、反人道的、反人間的と判断される特定物体、一般物体、写真、或いはシーンに関し、前記サーバ側に構築された画像認識システムを備えた知識情報処理システムが、自動的かつ速やかに当該対象に対し、自動的に判別不能なレベルにまでフィルタ処理する、或いは当該画像全体の閲覧制限を行う事が可能な、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  22.  前記ネットワーク・コミュニケーションシステムにおいて、自らを含む特定のユーザ、或いは特定のユーザ群、或いは不特定のユーザが、当該特定物体、一般物体、人、写真、或いはシーンに対して残したメッセージやつぶやきに対して、当該メッセージやつぶやきを残したユーザを識別する情報を、前記ヘッドセットシステムに組み込まれたマイクロフォン経由によるユーザの音声による操作、或いはユーザのネットワーク端末上の操作により、当該メッセージやつぶやきを残したユーザが設定可能な対象範囲の中で、前記画像認識システムを備えた知識情報処理サーバシステム側からインターネット経由で、当該対象ユーザのヘッドセットシステム、及び/又は、当該対象ユーザのネットワーク端末に対し、音声、文字、写真、或いは図形で通知する事を可能とする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  23.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザとの生体認証の結果、前記知識情報処理サーバシステムと紐付けされたユーザ固有のヘッドセットシステムを装着した複数のユーザ間で、単一の或いは複数のネットワーク端末群を共有可能にする協調動作に関し、各々のユーザと共有ネットワーク端末との間のローカルな紐付けを、当該共有ネットワーク端末上に表示された認識マーカー、及び/又はその近傍に置かれた特定の画像情報を基に、ユーザ毎のヘッドセットシステムに組み込まれたカメラがそれらの形状と位置情報を逐次読み取る事により、各ユーザのヘッドセットシステムの撮像視野のキャリブレーション、及び共有ネットワーク端末との間の相互の紐付けを個々のネットワーク端末側で可能とし、その上で当該ネットワーク端末が各々のユーザの位置関係を検出し、複数のユーザによる共有ネットワーク端末に対する入力操作を、夫々のユーザ固有の入力操作として認識可能とすると共に、当該共有ネットワーク端末に組み込まれた表示デバイス上において、各々のユーザの位置関係に即した個別情報表示を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  24.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザのヘッドセットシステムに組み込まれたカメラから撮影中の映像を基に、ユーザのネットワーク端末側に前記サーバ側から設定可能な状態で組み込まれた特定画像パターン検出フィルタが、ユーザの主観的な視野内にある特定の画像パターン、或いは特定の時間変調された画像パターンを送出している表示ディスプレイを検出し、その場所と方向を当該ユーザのヘッドセットシステム経由で、当該ユーザのヘッドセットシステムに組込まれたイヤフォンに音声情報で通知すると共に、当該ユーザの視野内に入った当該表示ディスプレイ上に表示されている当該画像情報に関連する音声情報を、同じくインターネット経由で自動的に送り込む事を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  25.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザが頭部に装着可能なヘッドセットシステムに、2台以上の撮像視差を有するカメラ、及び/又は対象物体までの深度(距離)を測定可能な三次元カメラを組込む事で、空間の把握、及び物体の立体形状の把握を容易にし、その上で前記画像認識システムを備えた知識情報処理サーバシステム側からユーザのヘッドセットシステムに組込まれたイヤフォンに向けて、当該ユーザに様々な角度から当該対象や周囲の状況を撮影させる指示を音声情報で対話的に送る事で、当該対象の立体的な把握を効果的に行う事が可能になると同時に、前記画像認識システムを備えた知識情報処理サーバシステム内のデータベースとの照合をより正確に行う事が可能な、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  26.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザのヘッドセットシステムに組み込まれたユーザの主観的視野を反映したカメラからの映像を基に、前記知識情報処理サーバシステム側に構築された画像認識システムが、異なる視点位置から撮影された複数の画像フレーム中に含まれる同一物体に含まれる画像特徴点毎の相互画像フレーム間対応関係をフレーム毎に検出・評価する事により、視点の違いによるそれら検出された相互の画像特徴点の相互位置関係をカメラの撮像画像面に対する透視変換から対応付け、特定の領域に含まれる本来立体であるべき物体が、当該透視変換に伴うべき視点移動変移を起こさず、当該閉領域内で各特徴点が平行移動する場合は、当該閉領域に存在する対象は平面内に収まっていると見做し、当該領域を平面的な印刷物や写真である可能性が高いと推定する、或いは画像の奥行き情報を直接検出可能な前記撮像システムからの画像である場合、同一平面上に本来立体であるべき物体やシーンの特徴点が存在する場合は、同様に当該閉領域が平面的な印刷物や写真である可能性が高いと推定する、或いは特定の領域に存在する物体のスケールが周囲の物体と大幅に異なる場合に、当該特定の領域が建物の窓ではないと明らかに判断可能な場合、それらを平面的な広義の写真として画像認識する事を可能とする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  27.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザが頭部に装着可能なヘッドセットシステムに、全周囲、或いはユーザの後方を撮影する事が可能なカメラシステムを組込む事で、当該ヘッドセットシステムが接続されたユーザのネットワーク端末、及びインターネット経由で前記画像認識システムを備えた知識情報処理サーバシステムに、それらユーザの視野外となる撮像画像をアップロードする事で、認識可能になった様々な対象画像の中で、当該ユーザが特に関心或いは注意を払わなければならない予め登録可能な物体、人物、或いはシーンが発見された場合、速やかに音声、又は/及び、バイブレーション機能、或いはそれに代わる手段により、ユーザにかかる事態を通知する事を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  28.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザが頭部に装着可能なヘッドセットシステムに物体との相対距離を直接測定する深度センサを組込む事で、ユーザに所定の距離、及び/又は速度で近付く人間を含む生体、或いは物体の移動を検知し、ユーザに音声で係る状況を速やかに通知すると共に、前記ヘッドセットシステムに組込まれたカメラを自動的に起動し、インターネット経由で前記画像認識システムを備えた知識情報処理サーバシステムに問い合わせ可能にする事で、ユーザに近付く対象を、前記サーバ側で解析し、その結果を音声、又は/及びバイブレーション機能、或いはそれに代わる手段によりユーザに速やかに通知する事が可能な、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  29.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザが頭部に装着可能な前記ヘッドセットシステムに、周囲の明るさ、照明や外光の色温度、環境騒音、周囲の音圧レベルを検出するセンサ等の環境センサを組込む事で、当該ユーザのヘッドセットシステムに組み込まれたカメラからの映像、及びマイクロフォンからの音声入力信号を自動調整し、当該環境下で最適な画像・音声品位を確保可能にする事で、前記知識情報処理サーバシステムに組み込まれた画像認識システムの認識精度を、さらに向上させる事が可能な、請求項1に及び2記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  30.  前記ネットワーク・コミュニケーションシステムにおいて、ユーザが頭部に装着可能な前記ヘッドセットシステムに、インターネットに直接接続可能な無線通信システム、及びユーザの視野の一部を覆う形で半透明の表示ディスプレイデバイスを組み込み、前記ユーザのネットワーク端末自体が有する主要な機能を、前記ヘッドセットシステムと共に一体的に組み込む事で、前記ネットワーク端末の助けを借りずに、前記画像認識システムを備えた知識情報処理サーバシステムと直接接続可能な、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
  31.  前記ネットワーク・コミュニケーションシステムにおいて、ネットワークに一定以上の障害がある場合、或いはネットワーク接続に一定の制限がある場合に、前記ネットワーク側に構築された画像認識システム、音声認識システム、音声合成システム、生体認証システム、或いは知識情報処理サーバシステムが一時的であるにせよ使用不可能になる事態に対応する為、或いはネットワーク及びサーバ側の負荷を低減する目的で、及び/又は、一連の画像・音声認識プロセスの応答性を高める目的で、サーバ側の助けを借りずに、ユーザが選択可能な限定された個数及び/又は種類の特定物体、一般物体、人、写真、或いはシーンに対し、それらをユーザのネットワーク端末上で単独で検出・認識可能にする、上記限定された対象の画像認識処理に対応する学習済みの参照データベース、及び当該限定された対象の検出・認識に必要な画像認識プログラムの最適化実行プログラムを、予め前記サーバ及びネットワーク端末との間のネットワーク接続が確立している状況下で、前記サーバ側から前記ネットワーク端末側に選択的にダウンロード可能にする事で、請求項1に記載の画像認識プロセス、及び請求項4に記載のユーザが着目した対象に対するユーザのメッセージやつぶやきの書き込み、併せてネットワーク接続が切断される時点までに当該対象に対し残された請求項5に記載の他のユーザのメッセージやつぶやきの受領、同様にネットワーク接続が切断される時点までに前記ネットワーク端末内に保持可能な記憶容量の範囲内で当該対象に対し残された請求項6に記載の任意の時空間を指定可能なメッセージやつぶやきの受領、請求項11に記載の予めユーザが指定可能な特定の対象の発見、請求項13から請求項15に記載のユーザが着目した対象に対するポインティング操作、請求項16に記載のユーザが着目した対象に対するポインティング履歴、請求項17に記載の頭部静止状態の検出処理、請求項18に記載の現在位置検出処理、請求項19に記載の生体認証処理において、予め前記ネットワーク端末内にサーバ側から送り込まれた認証キーと前記ヘッドセットを装着したユーザ間の認証とローカルな紐付け、請求項20に記載の前記ヘッドセットを装着したユーザから取得可能な各種生体情報との連動機能、請求項22に記載の前記ネットワーク端末内に保持されているメッセージやつぶやきを発したユーザ情報の通知、請求項23に記載のネットワーク端末の共有機能、請求項24に記載の前記ネットワーク端末内に保持されている範囲内での特定の表示ディスプレイからの音声情報の受領、請求項26に記載の予め前記ネットワーク端末内に登録されている限定された枚数の写真の検出、請求項27及び請求項28に記載のユーザの主観的視野外にある予め登録済みの事象や対象の存在の通知、及び請求項29に記載の各種環センサ群からの入力への対応のいずれか一つ以上の機能を含み、前記ネットワーク端末上で当該ユーザと必要最小限の音声コミュニケーションを可能にする音声認識システム、及び音声合成システムの実行サブセットを、予め前記サーバ及びネットワーク端末とのネットワーク接続が確立している状況下で、前記サーバ側から前記ネットワーク端末側にダウンロードしておく事で、サーバとのネットワークが確立している時と比べ一定の制限はあるものの、前記サーバと前記ネットワーク端末間の接続がオフラインである事態においても、当該ユーザが設定した範囲内での画像認識機能、及び簡単な音声によるコミュニケーション機能を確保し、以降のネットワーク接続が再開可能になった時点で、ネットワーク上の生体認証システムによる当該ユーザ認証の再確認を受け、前記画像認識システムを備えた知識情報処理サーバシステム側と前記ネットワーク端末との同期を確立する事を可能にする、画像認識システムを備えたネットワーク端末、及び画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。
PCT/JP2012/076303 2011-10-14 2012-10-11 画像認識システムを備えた知識情報処理サーバシステム WO2013054839A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/351,484 US20140289323A1 (en) 2011-10-14 2012-10-11 Knowledge-information-processing server system having image recognition system
EP12840365.6A EP2767907A4 (en) 2011-10-14 2012-10-11 SERVER SYSTEM FOR PROCESSING KNOWLEDGE INFORMATION WITH PICTURE IDENTIFICATION SYSTEM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011226792A JP5866728B2 (ja) 2011-10-14 2011-10-14 画像認識システムを備えた知識情報処理サーバシステム
JP2011-226792 2011-10-14

Publications (1)

Publication Number Publication Date
WO2013054839A1 true WO2013054839A1 (ja) 2013-04-18

Family

ID=48081892

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/076303 WO2013054839A1 (ja) 2011-10-14 2012-10-11 画像認識システムを備えた知識情報処理サーバシステム

Country Status (4)

Country Link
US (1) US20140289323A1 (ja)
EP (1) EP2767907A4 (ja)
JP (1) JP5866728B2 (ja)
WO (1) WO2013054839A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015118496A (ja) * 2013-12-18 2015-06-25 株式会社日本総合研究所 カタログ出力装置、カタログ出力方法、およびプログラム
WO2015130383A3 (en) * 2013-12-31 2015-12-10 Microsoft Technology Licensing, Llc Biometric identification system
JP2016211955A (ja) * 2015-05-08 2016-12-15 古河電気工業株式会社 橋梁点検支援装置、橋梁点検支援方法、橋梁点検支援システム、およびプログラム
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US10663938B2 (en) 2017-09-15 2020-05-26 Kohler Co. Power operation of intelligent devices
WO2020188626A1 (ja) * 2019-03-15 2020-09-24 和夫 金子 視覚支援装置
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US11921794B2 (en) 2017-09-15 2024-03-05 Kohler Co. Feedback for water consuming appliance

Families Citing this family (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066862B (zh) 2007-09-24 2022-11-25 苹果公司 电子设备中的嵌入式验证系统
US8600120B2 (en) 2008-01-03 2013-12-03 Apple Inc. Personal computing device control using face detection and recognition
GB2503163B (en) 2011-03-22 2019-05-29 Nant Holdings Ip Llc Reasoning Engines
US9002322B2 (en) 2011-09-29 2015-04-07 Apple Inc. Authentication with secondary approver
CA2864933C (en) * 2012-02-22 2016-11-01 Master Lock Company Safety lockout systems and methods
US20130232412A1 (en) * 2012-03-02 2013-09-05 Nokia Corporation Method and apparatus for providing media event suggestions
US9589000B2 (en) 2012-08-30 2017-03-07 Atheer, Inc. Method and apparatus for content association and history tracking in virtual and augmented reality
US9424472B2 (en) * 2012-11-26 2016-08-23 Ebay Inc. Augmented reality information system
US9620107B2 (en) * 2012-12-31 2017-04-11 General Electric Company Voice inspection guidance
US9479470B2 (en) * 2013-01-25 2016-10-25 Ayo Talk Inc. Method and system of providing an instant messaging service
US9898749B2 (en) * 2013-01-30 2018-02-20 Wal-Mart Stores, Inc. Method and system for determining consumer positions in retailers using location markers
US9547917B2 (en) * 2013-03-14 2017-01-17 Paypay, Inc. Using augmented reality to determine information
US10541997B2 (en) * 2016-12-30 2020-01-21 Google Llc Authentication of packetized audio signals
US10318583B2 (en) * 2013-03-15 2019-06-11 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for recommending relationships within a graph database
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US20140379336A1 (en) * 2013-06-20 2014-12-25 Atul Bhatnagar Ear-based wearable networking device, system, and method
US10275657B2 (en) * 2013-06-28 2019-04-30 Nec Corporation Video surveillance system, video processing apparatus, video processing method, and video processing program
US10533850B2 (en) 2013-07-12 2020-01-14 Magic Leap, Inc. Method and system for inserting recognized object data into a virtual world
JP5784077B2 (ja) * 2013-07-12 2015-09-24 ヤフー株式会社 情報処理装置及び方法
GB2517212B (en) 2013-08-16 2018-04-25 Toshiba Res Europe Limited A Computer Generated Emulation of a subject
JP5787949B2 (ja) * 2013-08-28 2015-09-30 ヤフー株式会社 情報処理装置、特定方法および特定プログラム
US9898642B2 (en) 2013-09-09 2018-02-20 Apple Inc. Device, method, and graphical user interface for manipulating user interfaces based on fingerprint sensor inputs
WO2015041641A1 (en) * 2013-09-18 2015-03-26 Intel Corporation Automated image cropping and sharing
KR102120864B1 (ko) * 2013-11-06 2020-06-10 삼성전자주식회사 영상 처리 방법 및 장치
US20150162000A1 (en) * 2013-12-10 2015-06-11 Harman International Industries, Incorporated Context aware, proactive digital assistant
US10986223B1 (en) * 2013-12-23 2021-04-20 Massachusetts Mutual Life Insurance Systems and methods for presenting content based on user behavior
US10362112B2 (en) 2014-03-06 2019-07-23 Verizon Patent And Licensing Inc. Application environment for lighting sensory networks
US10885095B2 (en) * 2014-03-17 2021-01-05 Verizon Media Inc. Personalized criteria-based media organization
JP2015207181A (ja) * 2014-04-22 2015-11-19 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US10482461B2 (en) 2014-05-29 2019-11-19 Apple Inc. User interface for payments
US10325205B2 (en) * 2014-06-09 2019-06-18 Cognitive Scale, Inc. Cognitive information processing system environment
US9396698B2 (en) * 2014-06-30 2016-07-19 Microsoft Technology Licensing, Llc Compound application presentation across multiple devices
JP6418820B2 (ja) * 2014-07-07 2018-11-07 キヤノン株式会社 情報処理装置、表示制御方法、及びコンピュータプログラム
JP2016024282A (ja) * 2014-07-17 2016-02-08 Kddi株式会社 語学教材生成システム、語学教材生成装置、携帯端末、語学教材生成プログラム、および語学教材生成方法
JP5887446B1 (ja) * 2014-07-29 2016-03-16 ヤマハ株式会社 情報管理システム、情報管理方法およびプログラム
JP5871088B1 (ja) * 2014-07-29 2016-03-01 ヤマハ株式会社 端末装置、情報提供システム、情報提供方法およびプログラム
KR102024867B1 (ko) * 2014-09-16 2019-09-24 삼성전자주식회사 예제 피라미드에 기초하여 입력 영상의 특징을 추출하는 방법 및 얼굴 인식 장치
US10088921B2 (en) 2014-10-10 2018-10-02 Muzik Inc. Devices for sharing user interactions
US20160124521A1 (en) * 2014-10-31 2016-05-05 Freescale Semiconductor, Inc. Remote customization of sensor system performance
US20160162464A1 (en) * 2014-12-09 2016-06-09 Idibon, Inc. Techniques for combining human and machine learning in natural language processing
US20180032829A1 (en) * 2014-12-12 2018-02-01 Snu R&Db Foundation System for collecting event data, method for collecting event data, service server for collecting event data, and camera
KR102290419B1 (ko) * 2015-01-13 2021-08-18 삼성전자주식회사 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치
EP3051810B1 (en) * 2015-01-30 2021-06-30 Nokia Technologies Oy Surveillance
US9886633B2 (en) * 2015-02-23 2018-02-06 Vivint, Inc. Techniques for identifying and indexing distinguishing features in a video feed
CN106033418B (zh) * 2015-03-10 2020-01-31 阿里巴巴集团控股有限公司 语音添加、播放方法及装置、图片分类、检索方法及装置
JP6578693B2 (ja) * 2015-03-24 2019-09-25 日本電気株式会社 情報抽出装置、情報抽出方法、及び、表示制御システム
US10078651B2 (en) 2015-04-27 2018-09-18 Rovi Guides, Inc. Systems and methods for updating a knowledge graph through user input
US10534810B1 (en) * 2015-05-21 2020-01-14 Google Llc Computerized systems and methods for enriching a knowledge base for search queries
JP6241449B2 (ja) * 2015-05-21 2017-12-06 横河電機株式会社 データ管理システム及びデータ管理方法
JP6609994B2 (ja) 2015-05-22 2019-11-27 富士通株式会社 表示制御方法、情報処理装置及び表示制御プログラム
KR102404790B1 (ko) 2015-06-11 2022-06-02 삼성전자주식회사 카메라의 초점을 변경하는 방법 및 장치
EP3324305A4 (en) 2015-07-13 2018-12-05 Teijin Limited Information processing apparatus, information processing method, and computer program
US20170061218A1 (en) * 2015-08-25 2017-03-02 Hon Hai Precision Industry Co., Ltd. Road light monitoring device and monitoring system and monitoring method using same
US10306267B2 (en) * 2015-08-31 2019-05-28 International Business Machines Corporation System, method, and recording medium for compressing aerial videos
WO2017047688A1 (ja) * 2015-09-17 2017-03-23 株式会社日立国際電気 落下物検知追跡システム
US10618521B2 (en) * 2015-09-21 2020-04-14 Ford Global Technologies, Llc Wearable in-vehicle eye gaze detection
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
CN105898137A (zh) * 2015-12-15 2016-08-24 乐视移动智能信息技术(北京)有限公司 图像采集、信息推送方法、装置及手机
JP2017136142A (ja) * 2016-02-02 2017-08-10 セイコーエプソン株式会社 情報端末、動作評価システム、動作評価方法、動作評価プログラム、及び記録媒体
US10044710B2 (en) 2016-02-22 2018-08-07 Bpip Limited Liability Company Device and method for validating a user using an intelligent voice print
US10306311B1 (en) 2016-03-24 2019-05-28 Massachusetts Mutual Life Insurance Company Intelligent and context aware reading systems
US10826933B1 (en) 2016-03-31 2020-11-03 Fireeye, Inc. Technique for verifying exploit/malware at malware detection appliance through correlation with endpoints
US10893059B1 (en) 2016-03-31 2021-01-12 Fireeye, Inc. Verification and enhancement using detection systems located at the network periphery and endpoint devices
JP6668907B2 (ja) * 2016-04-13 2020-03-18 沖電気工業株式会社 環境音声配信システム、環境音声処理方法及び環境音声処理プログラム
JP2017228080A (ja) 2016-06-22 2017-12-28 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP6885402B2 (ja) 2016-06-22 2021-06-16 ソニーグループ株式会社 情報処理装置、情報処理方法、及び、プログラム
US9973522B2 (en) 2016-07-08 2018-05-15 Accenture Global Solutions Limited Identifying network security risks
JP6966443B2 (ja) 2016-07-19 2021-11-17 富士フイルム株式会社 画像表示システム、並びにヘッドマウントディスプレイの制御装置とその作動方法および作動プログラム
JP6721832B2 (ja) * 2016-08-24 2020-07-15 富士通株式会社 データ変換プログラム、データ変換装置及びデータ変換方法
AU2017330208B2 (en) * 2016-09-23 2019-12-12 Apple Inc. Image data for enhanced user interactions
US10452688B2 (en) 2016-11-08 2019-10-22 Ebay Inc. Crowd assisted query system
US20180182375A1 (en) * 2016-12-22 2018-06-28 Essential Products, Inc. Method, system, and apparatus for voice and video digital travel companion
KR20180075224A (ko) * 2016-12-26 2018-07-04 삼성전자주식회사 객체의 인식 결과를 제공하는 방법 및 전자 장치
US10198413B2 (en) * 2016-12-30 2019-02-05 Dropbox, Inc. Image annotations in collaborative content items
JP6427807B2 (ja) * 2017-03-29 2018-11-28 本田技研工業株式会社 物体認証装置および物体認証方法
CN107391983B (zh) 2017-03-31 2020-10-16 创新先进技术有限公司 一种基于物联网的信息处理方法及装置
CN110546644B (zh) * 2017-04-10 2022-10-21 富士通株式会社 识别装置、识别方法以及记录介质
US20180314408A1 (en) * 2017-04-28 2018-11-01 General Electric Company Systems and methods for managing views of computer-aided design models
US10521948B2 (en) 2017-05-16 2019-12-31 Apple Inc. Emoji recording and sending
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
CN110020101B (zh) * 2017-08-25 2023-09-12 淘宝(中国)软件有限公司 实时搜索场景的还原方法、装置和系统
CN107393541B (zh) * 2017-08-29 2021-05-07 百度在线网络技术(北京)有限公司 信息验证方法和装置
JP2019047234A (ja) * 2017-08-31 2019-03-22 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、情報処理方法、およびプログラム
KR102143148B1 (ko) 2017-09-09 2020-08-10 애플 인크. 생체측정 인증의 구현
US10955283B2 (en) * 2017-12-18 2021-03-23 Pepper Life Inc. Weight-based kitchen assistant
US10599640B2 (en) * 2017-12-19 2020-03-24 At&T Intellectual Property I, L.P. Predictive search with context filtering
EP3732676A4 (en) 2017-12-29 2021-09-22 DMAI, Inc. SYSTEM AND METHOD FOR INTELLIGENT INITIATION OF A HUMAN-MACHINE DIALOGUE BASED ON MULTIMODAL SENSORY INPUTS
WO2019133698A1 (en) * 2017-12-29 2019-07-04 DMAI, Inc. System and method for personalizing dialogue based on user's appearances
WO2019133689A1 (en) 2017-12-29 2019-07-04 DMAI, Inc. System and method for selective animatronic peripheral response for human machine dialogue
US10664512B1 (en) * 2018-02-13 2020-05-26 Snap Inc. Query matching to media collections in a messaging system
WO2019160613A1 (en) 2018-02-15 2019-08-22 DMAI, Inc. System and method for dynamic program configuration
US10339622B1 (en) 2018-03-02 2019-07-02 Capital One Services, Llc Systems and methods for enhancing machine vision object recognition through accumulated classifications
US20210145340A1 (en) * 2018-04-25 2021-05-20 Sony Corporation Information processing system, information processing method, and recording medium
US10699140B2 (en) 2018-05-04 2020-06-30 Qualcomm Incorporated System and method for capture and distribution of information collected from signs
DK180078B1 (en) 2018-05-07 2020-03-31 Apple Inc. USER INTERFACE FOR AVATAR CREATION
CN108764462A (zh) * 2018-05-29 2018-11-06 成都视观天下科技有限公司 一种基于知识蒸馏的卷积神经网络优化方法
US11170085B2 (en) 2018-06-03 2021-11-09 Apple Inc. Implementation of biometric authentication
JP6989450B2 (ja) * 2018-06-21 2022-01-05 株式会社東芝 画像解析装置、画像解析方法及びプログラム
JP7021036B2 (ja) * 2018-09-18 2022-02-16 株式会社東芝 電子機器及び通知方法
US10860096B2 (en) 2018-09-28 2020-12-08 Apple Inc. Device control using gaze information
US11100349B2 (en) 2018-09-28 2021-08-24 Apple Inc. Audio assisted enrollment
US10346541B1 (en) * 2018-10-05 2019-07-09 Capital One Services, Llc Typifying emotional indicators for digital messaging
KR20200089957A (ko) * 2019-01-18 2020-07-28 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11458040B2 (en) 2019-01-23 2022-10-04 Meta Platforms Technologies, Llc Corneal topography mapping with dense illumination
CN110246001B (zh) * 2019-04-24 2023-04-07 维沃移动通信有限公司 一种图像显示方法及终端设备
EP3962666A2 (en) 2019-05-03 2022-03-09 Verily Life Sciences LLC Insect singulation and classification
EP3963476A1 (en) * 2019-05-03 2022-03-09 Verily Life Sciences LLC Predictive classification of insects
CA3147361A1 (en) * 2019-08-09 2021-02-18 Clearview Ai, Inc. Methods for providing information about a person based on facial recognition
KR102086600B1 (ko) * 2019-09-02 2020-03-09 브이에이스 주식회사 상품 구매 정보 제공 장치 및 방법
KR20210065698A (ko) * 2019-11-27 2021-06-04 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20210066291A (ko) * 2019-11-28 2021-06-07 주식회사 피제이팩토리 멀티 뎁스 이미지 생성 방법 및 이를 위한 프로그램을 기록한 기록매체
US11772271B2 (en) * 2020-01-10 2023-10-03 Mujin, Inc. Method and computing system for object recognition or object registration based on image classification
CN111402928B (zh) * 2020-03-04 2022-06-14 华南理工大学 基于注意力的语音情绪状态评估方法、装置、介质及设备
JP7454965B2 (ja) 2020-03-11 2024-03-25 本田技研工業株式会社 情報処理装置、情報処理システムおよび情報処理方法
US11537701B2 (en) * 2020-04-01 2022-12-27 Toyota Motor North America, Inc. Transport related n-factor authentication
CN113837172A (zh) * 2020-06-08 2021-12-24 同方威视科技江苏有限公司 货物图像局部区域处理方法、装置、设备及存储介质
JP6932821B1 (ja) * 2020-07-03 2021-09-08 株式会社ベガコーポレーション 情報処理システム、方法及びプログラム
KR20220018760A (ko) * 2020-08-07 2022-02-15 삼성전자주식회사 단말에 3d 캐릭터 이미지를 제공하는 엣지 데이터 네트워크 및 그 동작 방법
US11488371B2 (en) * 2020-12-17 2022-11-01 Concat Systems, Inc. Machine learning artificial intelligence system for producing 360 virtual representation of an object
US11546669B2 (en) 2021-03-10 2023-01-03 Sony Interactive Entertainment LLC Systems and methods for stream viewing with experts
US11553255B2 (en) 2021-03-10 2023-01-10 Sony Interactive Entertainment LLC Systems and methods for real time fact checking during stream viewing
CN115242569B (zh) * 2021-04-23 2023-12-05 海信集团控股股份有限公司 智能家居中的人机交互方法和服务器
US11985246B2 (en) * 2021-06-16 2024-05-14 Meta Platforms, Inc. Systems and methods for protecting identity metrics
CN113891046B (zh) * 2021-09-29 2023-05-02 重庆电子工程职业学院 一种无线视频监控系统及方法
CN113989245B (zh) * 2021-10-28 2023-01-24 杭州中科睿鉴科技有限公司 多视角多尺度图像篡改检测方法
CN115993365B (zh) * 2023-03-23 2023-06-13 山东省科学院激光研究所 一种基于深度学习的皮带缺陷检测方法及系统
CN117389745B (zh) * 2023-12-08 2024-05-03 荣耀终端有限公司 一种数据处理方法、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0512246A (ja) 1991-07-04 1993-01-22 Nec Corp 音声文書作成装置
JP2008278088A (ja) * 2007-04-27 2008-11-13 Hitachi Ltd 動画コンテンツに関するコメント管理装置
JP2009020264A (ja) 2007-07-11 2009-01-29 Hitachi Ltd 音声合成装置及び音声合成方法並びにプログラム
JP2009077443A (ja) 2006-12-11 2009-04-09 Dowango:Kk コメント配信システム、端末装置、コメント配信方法、及びプログラム
JP2009265754A (ja) 2008-04-22 2009-11-12 Ntt Docomo Inc 情報提供装置、情報提供方法及び情報提供プログラム
WO2011004608A1 (ja) * 2009-07-09 2011-01-13 頓智ドット株式会社 視界情報に仮想情報を付加して表示できるシステム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6317039B1 (en) * 1998-10-19 2001-11-13 John A. Thomason Wireless video audio data remote system
US20040034784A1 (en) * 2002-08-15 2004-02-19 Fedronic Dominique Louis Joseph System and method to facilitate separate cardholder and system access to resources controlled by a smart card
JP2005196481A (ja) * 2004-01-07 2005-07-21 Fuji Xerox Co Ltd 画像形成装置、画像形成方法、およびプログラム
JP2005223499A (ja) * 2004-02-04 2005-08-18 Hitachi Ltd 情報処理装置
US7725484B2 (en) * 2005-11-18 2010-05-25 University Of Kentucky Research Foundation (Ukrf) Scalable object recognition using hierarchical quantization with a vocabulary tree
US20080147730A1 (en) * 2006-12-18 2008-06-19 Motorola, Inc. Method and system for providing location-specific image information
JP4673862B2 (ja) * 2007-03-02 2011-04-20 株式会社ドワンゴ コメント配信システム、コメント配信サーバ、端末装置、コメント配信方法、及びプログラム
US20100211576A1 (en) * 2009-02-18 2010-08-19 Johnson J R Method And System For Similarity Matching
JP2011137638A (ja) * 2009-12-25 2011-07-14 Toshiba Corp ナビゲーションシステム、観光スポット検出装置、ナビゲーション装置、観光スポット検出方法、ナビゲーション方法、観光スポット検出プログラム及びナビゲーションプログラム
JP5828456B2 (ja) * 2009-12-28 2015-12-09 サイバーアイ・エンタテインメント株式会社 コメント付与及び配信システム、及び端末装置
US20130021448A1 (en) * 2011-02-24 2013-01-24 Multiple Interocular 3-D, L.L.C. Stereoscopic three-dimensional camera rigs

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0512246A (ja) 1991-07-04 1993-01-22 Nec Corp 音声文書作成装置
JP2009077443A (ja) 2006-12-11 2009-04-09 Dowango:Kk コメント配信システム、端末装置、コメント配信方法、及びプログラム
JP2008278088A (ja) * 2007-04-27 2008-11-13 Hitachi Ltd 動画コンテンツに関するコメント管理装置
JP2009020264A (ja) 2007-07-11 2009-01-29 Hitachi Ltd 音声合成装置及び音声合成方法並びにプログラム
JP2009265754A (ja) 2008-04-22 2009-11-12 Ntt Docomo Inc 情報提供装置、情報提供方法及び情報提供プログラム
WO2011004608A1 (ja) * 2009-07-09 2011-01-13 頓智ドット株式会社 視界情報に仮想情報を付加して表示できるシステム

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
AKSHAY JAVA; XIAODAN SONG; TIM FININ; BELLE TSENG: "Why We Twitter: Understanding Microblogging Usage and Communities", JOINT 9TH WEBKDD AND 1ST SNA-KDD WORKSHOP '07, 2007
DAVID G. LOWE: "Object Recognition from Local Scale-Invariant Features", PROC. IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION, 1999, pages 1150 - 1157
G. CSURKA; C. BRAY; C. DANCE; L. FAN: "Visual categorization with bags of keypoints", PROC. ECCV WORKSHOP ON STATISTICAL LEARNING IN COMPUTER VISION, 2004, pages 1 - 22
J. SIVIC; A. ZISSERMAN: "Video google: A text retrieval approach to object matching in videos", PROC. ICCV2003, vol. 2, 2003, pages 1470 - 1477, XP055277077, DOI: doi:10.1109/ICCV.2003.1238663
KEIJI YANAI ET AL.: "The Current State and Future Directions on Generic Object Recognition", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 48, 15 November 2007 (2007-11-15), pages 1 - 24, XP055148832 *
KEIJI YANAI: "The Current State and Future Directions on Generic Object Recognition", INFORMATION PROCESSING SOCIETY JOURNAL, vol. 48, no. SIG 16, 2007, pages 1 - 24, XP055148832
MING ZHAO; JAY YAGNIK; HARTWIG ADAM; DAVID BAU: "FG '08:8th IEEE International Conference on Automatic Face & Gesture Recognition", 2008, GOOGLE INC., article "Large scale learning and recognition of faces in web videos"
PINAR DUYGULU; KOBUS BARNARD; NANDO DE FREITAS; DAVID FORSYTH: "Object Recognition as Machine Translation: Learning a lexicon for a fixed image vocabulary", EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV, 2002, pages 97 - 112
R. FERGUS; P. PERONA; A. ZISSERMAN: "Object Class Recognition by Unsupervised Scale-invariant Learning", IEEE CONF. ON COMPUTER VISION AND PATTERN RECOGNITION, 2003, pages 264 - 271, XP010644682, DOI: doi:10.1109/CVPR.2003.1211479
See also references of EP2767907A4

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015118496A (ja) * 2013-12-18 2015-06-25 株式会社日本総合研究所 カタログ出力装置、カタログ出力方法、およびプログラム
WO2015130383A3 (en) * 2013-12-31 2015-12-10 Microsoft Technology Licensing, Llc Biometric identification system
JP2016211955A (ja) * 2015-05-08 2016-12-15 古河電気工業株式会社 橋梁点検支援装置、橋梁点検支援方法、橋梁点検支援システム、およびプログラム
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US10663938B2 (en) 2017-09-15 2020-05-26 Kohler Co. Power operation of intelligent devices
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US11314214B2 (en) 2017-09-15 2022-04-26 Kohler Co. Geographic analysis of water conditions
US11314215B2 (en) 2017-09-15 2022-04-26 Kohler Co. Apparatus controlling bathroom appliance lighting based on user identity
US11892811B2 (en) 2017-09-15 2024-02-06 Kohler Co. Geographic analysis of water conditions
US11921794B2 (en) 2017-09-15 2024-03-05 Kohler Co. Feedback for water consuming appliance
US11949533B2 (en) 2017-09-15 2024-04-02 Kohler Co. Sink device
WO2020188626A1 (ja) * 2019-03-15 2020-09-24 和夫 金子 視覚支援装置

Also Published As

Publication number Publication date
EP2767907A4 (en) 2015-07-01
EP2767907A1 (en) 2014-08-20
JP5866728B2 (ja) 2016-02-17
JP2013088906A (ja) 2013-05-13
US20140289323A1 (en) 2014-09-25

Similar Documents

Publication Publication Date Title
JP5866728B2 (ja) 画像認識システムを備えた知識情報処理サーバシステム
US11637797B2 (en) Automated image processing and content curation
KR101832693B1 (ko) 직관적 컴퓨팅 방법들 및 시스템들
US7787697B2 (en) Identification of an object in media and of related media objects
KR101992424B1 (ko) 증강현실용 인공지능 캐릭터의 제작 장치 및 이를 이용한 서비스 시스템
US9594807B2 (en) Emotion-related query processing
CN113196803A (zh) 助听器系统和方法
KR20200026798A (ko) 이미지를 분석하기 위한 웨어러블기기 및 방법
JP2017531261A (ja) 画像に表されたオブジェクトの認識及び照合のための方法及び装置
WO2007043679A1 (ja) 情報処理装置およびプログラム
TW201117114A (en) System, apparatus and method for message simulation
CN108351884A (zh) 用于用户相关活动的语义位置层
JP2010224715A (ja) 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体
US20220246135A1 (en) Information processing system, information processing method, and recording medium
JP2015104078A (ja) 撮像装置、撮像システム、サーバ、撮像方法、及び撮像プログラム
TW202301080A (zh) 輔助系統的多裝置調解
US20210398539A1 (en) Systems and methods for processing audio and video
US20220076680A1 (en) Systems and methods for processing audio and video
CN110111795A (zh) 一种语音处理方法及终端设备
Berger et al. Mobile AR Solution for Deaf People: Correlation Between Face Detection and Speech Recognition
KR20230163045A (ko) 메타버스 환경에서 수집된 멀티미디어의 리소스 변환 매칭을 이용한 영상 콘텐츠 제작 서비스 제공 방법 및 기록매체
KR20230163046A (ko) 메타버스 환경에서 수집된 멀티미디어의 리소스 변환 매칭을 이용한 영상 콘텐츠 제작 서비스 제공 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12840365

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14351484

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2012840365

Country of ref document: EP