WO2021084810A1 - 情報処理装置及び情報処理方法、並びに人工知能モデル製造方法 - Google Patents

情報処理装置及び情報処理方法、並びに人工知能モデル製造方法 Download PDF

Info

Publication number
WO2021084810A1
WO2021084810A1 PCT/JP2020/027336 JP2020027336W WO2021084810A1 WO 2021084810 A1 WO2021084810 A1 WO 2021084810A1 JP 2020027336 W JP2020027336 W JP 2020027336W WO 2021084810 A1 WO2021084810 A1 WO 2021084810A1
Authority
WO
WIPO (PCT)
Prior art keywords
emotion
service
artificial intelligence
emotion recognition
data
Prior art date
Application number
PCT/JP2020/027336
Other languages
English (en)
French (fr)
Inventor
千里 沼岡
藤田 雅博
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/755,126 priority Critical patent/US20220366723A1/en
Priority to EP20883323.6A priority patent/EP4053792A4/en
Publication of WO2021084810A1 publication Critical patent/WO2021084810A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns

Definitions

  • this disclosure relates to an information processing device and an information processing method for recognizing human emotions, and an artificial intelligence model manufacturing method.
  • Recognizing human emotions is extremely important for realizing dialogue with humans and for providing appropriate services to humans.
  • data related to human expressions such as facial expressions, voices, and gestures, and data related to context
  • human emotions can be understood more accurately.
  • Patent Document 1 a technique for recognizing a speaker's emotion from contextual information included in a dialogue using artificial intelligence using a neural network has been proposed (see Patent Document 1).
  • the pattern of the face image is analyzed from the face image in the image taken by the image sensor, and the pattern of the face image corresponds to which emotion.
  • Human emotions can be estimated using artificial intelligence that has pre-learned the correlation between facial image patterns and human emotions.
  • the pattern of the face image can be composed of a combination of face parts such as eyebrows, eyes, nose, mouth, cheeks, and chin, but can also be composed of an image of the entire face image without being divided into face parts.
  • Artificial intelligence represented by a neural network can be applied to emotion learning. For example, define multiple labels for emotions such as “anger”, “disgust”, “fear”, “happiness”, “sadness”, and “surprise”. Then, the pattern of the face image is used as the input of the neural network, the output of the neural network is associated with the emotion labels such as “anger”, “disgust”, “fear”, and so on, and the face image input to the neural network is input. Neural networks are trained or trained by comparing each of the patterns with the output label that appears appropriate.
  • An object of the technology according to the present disclosure is to provide an information processing device and an information processing method for recognizing human emotions using artificial intelligence, and a method for manufacturing an artificial intelligence model.
  • the first aspect of the technology according to the present disclosure is A pre-processing unit that determines whether or not to provide services based on emotion recognition based on predetermined criteria, An emotion estimation processing unit that recognizes the user's emotions using the artificial intelligence function, A service providing processing unit that provides a service based on the result of emotion recognition by the emotion estimation processing unit, and Equipped with
  • the preprocessing unit determines that the provision of the service is permitted, the emotion estimation processing unit performs emotion recognition, or the service provision processing unit is an information processing device that provides the service.
  • the artificial intelligence function is learned to recognize human emotions from facial expressions obtained by analyzing a user's facial image.
  • the preprocessing unit performs a process of requesting the user's consent to use the result of emotion recognition for the service when it is determined that the user's consent is required based on the above criteria. Further, the preprocessing unit determines that the emotion recognition result cannot be used for the service, but permits the emotion recognition result to be used for the service, with the exception of the consent of the user. ..
  • the preprocessing unit includes the emotion estimation processing unit when the reference includes the data. Whether or not the service can be provided is determined based on whether or not the service is provided. Further, the emotion estimation processing unit performs inference using a plurality of artificial intelligence models, and outputs a set of inference results by each artificial intelligence model as a result of emotion recognition.
  • the information processing device further includes an emotion learning unit that learns the artificial intelligence function so as to recognize human emotions. Then, the preprocessing unit determines whether or not the artificial intelligence function can be learned based on the criteria. When the preprocessing unit determines that learning is permitted, the emotion learning unit is trained to input learning data into the artificial intelligence function so that emotion recognition can be performed.
  • the second aspect of the technology according to the present disclosure is Pre-processing steps to determine whether or not to provide services based on emotion recognition based on predetermined criteria, When it is determined in the preprocessing step that the provision of the service is permitted, the emotion estimation processing step that recognizes the user's emotion by using the artificial intelligence function and the emotion estimation processing step.
  • the third aspect of the technology according to the present disclosure is When it is judged whether or not to provide a service based on emotion recognition based on a predetermined standard in an artificial intelligence device that provides a service using the result of emotion recognition using an artificial intelligence function, and it is judged that the provision of the service is permitted.
  • an artificial intelligence model capable of performing emotion recognition is manufactured. This is an artificial intelligence model manufacturing method.
  • FIG. 1 is a diagram showing a hardware configuration example of the information processing device 100.
  • FIG. 2 is a diagram showing a functional configuration example of the artificial intelligence system 200.
  • FIG. 3 is a diagram showing a functional configuration when the computer device 210 performs emotion learning.
  • FIG. 4 is a diagram showing an implementation example of the emotion learning processing logic 304.
  • FIG. 5 is a diagram showing a functional configuration when the computer device 210 performs emotion recognition.
  • FIG. 6 is a flowchart showing a procedure for preprocessing the learning data or the recognition data.
  • FIG. 7 is a flowchart showing a processing procedure for performing emotion learning of artificial intelligence or emotion inference by artificial intelligence.
  • FIG. 8 is a flowchart showing a processing procedure for providing a service based on the emotion inference result.
  • FIG. 1 is a diagram showing a hardware configuration example of the information processing device 100.
  • FIG. 2 is a diagram showing a functional configuration example of the artificial intelligence system 200.
  • FIG. 3 is a
  • FIG. 9 is a diagram showing a functional configuration when the computer device 210 performs emotion recognition.
  • FIG. 10 is a flowchart showing a processing procedure for performing emotion inference by artificial intelligence.
  • FIG. 11 is a flowchart showing a processing procedure for providing a service based on the inferred emotion.
  • FIG. 12 is a diagram showing the data structure of the guideline.
  • FIG. 13 is a flowchart showing the procedure of preprocessing according to the guideline.
  • FIG. 14 is a diagram showing a configuration example of a user interface screen of the emotion recognition utilization service.
  • Emotion recognition technology is a useful technology applied to various industrial fields.
  • the emotion recognition technology has the following problems.
  • the accuracy required for emotion recognition varies depending on the application field. That is, there are some fields that do not require high-precision emotion recognition, and there are also fields that require as high-precision emotion recognition as possible.
  • FIG. 1 schematically shows a hardware configuration example of an information processing apparatus 100 to which the technique according to the present disclosure can be applied by using an artificial intelligence function.
  • the illustrated information processing device 100 can be realized in the form of appropriately externally connecting peripheral devices to a general personal computer as needed.
  • the information processing device 100 can be configured by using a multifunctional information terminal such as a smartphone or a tablet, or can be configured on a robot device.
  • the information processing device 100 can be configured to realize a part of functions such as artificial intelligence in the cloud infrastructure.
  • the information processing device 100 includes a CPU (Central Processing Unit) 101 that comprehensively controls the overall operation, and a storage device 102 that the CPU 101 can use as a local memory.
  • a CPU Central Processing Unit
  • storage device 102 that the CPU 101 can use as a local memory.
  • the CPU 101 is equipped with a neural network (NN) accelerator.
  • NN neural network
  • another type of processor such as GPGPU (General Purpose Graphic Processing Unit) may be used together with the CPU 101 (or instead of the CPU 101).
  • the storage device 102 includes a main memory and a cache memory configured by using a DRAM (Dynamic Random Access Memory). Further, the storage device 102 may include a large-capacity external storage device such as a hard disk drive (HDD) or a solid state drive (SSD) by a virtual storage function provided by an operating system (OS) or the like.
  • DRAM Dynamic Random Access Memory
  • OS operating system
  • various sensors and actuators are interconnected to the CPU 101 and the storage device 102 via the bus 103.
  • the sensor data acquired by each sensor is taken into the storage device 102 via the bus 103, and is appropriately processed by a computer program executed by the CPU 101. Further, each actuator is driven based on a command from the CPU 101 (or an execution result of a computer program).
  • the information processing device 100 includes a camera 104 and a microphone 105 as sensors.
  • the camera 104 is configured by using an image sensor such as a CMOS (Complementary Metal Oxide Semiconductor) or a CCD (Charge Coupled Device), for example.
  • the camera 104 may be a stereoscopic camera or a multi-lens camera using two or more image sensors.
  • the microphone 105 may be a microphone array using two or more sound collecting elements.
  • the information processing device 100 includes a display 106 and a speaker 107 as actuators.
  • the display 106 is composed of a liquid crystal display (LCD), an organic EL (Electro-Luminescence) display, and the like.
  • the display 106 may be a touch panel type display in which a touch panel is superimposed on the screen. However, the touch panel can be classified as a sensor instead of an actuator.
  • the speaker 107 may be a speaker array (multi-channel speaker or ultra-multi-channel speaker) in which speakers in which a plurality of speakers are combined are combined.
  • the speaker array may include an "acoustic surface" that vibrates the screen of the display 106 with one or more vibrators that generate vibrations to produce audio output.
  • the information processing device 100 further includes other sensor group 108 and actuator group 109.
  • the sensor group 108 may include general input devices such as a keyboard and a mouse. Further, the sensor group 108 may include various biological sensors that sense the biological information of the user who uses the artificial intelligence function, and various environmental sensors that sense the environment in which the artificial intelligence function is used.
  • the application software equipped with the artificial intelligence function When the application software equipped with the artificial intelligence function operates on the CPU 101, it indirectly accesses the functions of the OS via a group of application programming interfaces (APIs) provided in the software for verification and manufacturing of the artificial intelligence function. Then, the application software equipped with the artificial intelligence function is verified by the software for manufacturing the artificial intelligence function verification, and is manufactured through training of the artificial intelligence function, that is, learning of new data by the artificial intelligence function.
  • APIs application programming interfaces
  • the information processing device 100 operates the GUI on the storage device 102.
  • the user can control the operation and input / output of the artificial intelligence function verification manufacturing software by using GUI operation using a touch panel, keyboard, and mouse, or voice input.
  • input / output operations using the camera 104, the microphone 105, the speaker 106, or other sensor group 108 and the actuator group 109 are performed as necessary. Will be done.
  • the information processing device 100 further includes a communication unit 110.
  • the communication unit 110 has a wired communication function such as Ethernet (registered trademark) or a wireless communication function such as Wi-Fi (registered trademark), and further has a cloud infrastructure on an external network via a router (not shown) or the like. It is interconnected to 120.
  • the cloud infrastructure 120 is composed of a server device, storage, and the like.
  • the information processing apparatus 100 is equipped with an API for exchanging data with the cloud infrastructure 120 and requesting a part or all of processing related to the artificial intelligence function.
  • the artificial intelligence function verification manufacturing software operates to manufacture the artificial intelligence function to be installed in the application software.
  • Artificial intelligence function verification manufacturing software performs verification of input data and learning data for artificial intelligence functions, verification of output data of artificial intelligence functions, etc. in the process of manufacturing artificial intelligence functions. Details of this point Will be described later.
  • the application software equipped with the artificial intelligence function manufactured by the artificial intelligence function verification manufacturing software is the application software equipped with the artificial intelligence function.
  • the application software equipped with the artificial intelligence function may operate on the same information processing device 100 used for its manufacture, or may be loaded and used in another device.
  • a device that operates artificial intelligence function verification manufacturing software and performs verification and training of artificial intelligence functions is also referred to as "a device that verifies artificial intelligence functions" in this specification.
  • a device that operates an artificial intelligence function that is the target of verification or training (or has been verified or trained) by a device that verifies the artificial intelligence function is referred to as "a device having an artificial intelligence function”.
  • Computers, smartphones, tablets, robot devices, etc. that execute application software with artificial intelligence functions fall under the category of devices equipped with artificial intelligence functions.
  • Artificial intelligence generally uses a learning model represented by a neural network that imitates a human brain neural circuit.
  • a neural network is a network formed by connecting artificial neurons (hereinafter, also simply referred to as "neurons") via synapses.
  • Artificial intelligence builds a learning model that estimates the optimal solution (output) for a problem (input) while changing the connection weighting coefficient between neurons by repeating learning or training using learning data. It has a mechanism.
  • a device and a method for controlling a service using the artificial intelligence function will be described using an example in which the artificial intelligence function is applied to human emotion learning and emotion inference.
  • the devices and methods for providing services using the artificial intelligence function can be similarly applied to the artificial intelligence function applied in addition to emotion learning and emotion reasoning.
  • FIG. 2 schematically shows a functional configuration example of an artificial intelligence system 200 that uses software provided with a service control mechanism for emotion learning and emotion inference as the artificial intelligence function according to the present disclosure.
  • the illustrated artificial intelligence system 200 includes a computer device 210 having an emotion recognition and emotion inference service mechanism, one or more client computer devices 220, one or more server computer devices 230, and one or more databases 240. It is configured by interconnecting.
  • the client computer device 220, the server computer device 230, and the database 240 may be interconnected with the computer device 210 via the communication medium 250, or may be directly connected to the computer device 210, respectively.
  • the computer device 210 corresponds to, for example, the information processing device 100 shown in FIG.
  • the database 240 is arranged on the external storage.
  • the communication media 250 is composed of a cloud, proximity communication, the Internet, and the like.
  • the computer device 210 includes a storage device (memory) 211 having a virtual storage function, a processing device (CPU or the like) 212, a user interface 213, and an input / output source 214.
  • the storage device 211 includes an emotion learning and emotion inference service control mechanism.
  • the emotion learning and emotion inference service control mechanism may be arranged not on the computer device 210 but on the server computer device 230 on the cloud. Further, all the logic provided by the emotion learning and emotion inference service mechanism may be arranged on the computer device 210, or part or all of the logic may be arranged on the server computer device 230 or the client computer device 220 on the cloud. Good. For example, the logic related to learning may be distributed and arranged in a plurality of server computer devices 230 on the cloud, and these may perform distributed learning.
  • the "logic” is a computer program, data generated or used by the computer program, or a hardware circuit (including a memory circuit) that realizes a part or all of the logic.
  • a computer program of such logic is stored on the storage device 211. Then, the processing device 212 executes the computer program stored in the storage device 211.
  • the logic provided in the emotion learning and emotion inference service control mechanism shall include the following.
  • the artificial intelligence logic includes the following logic.
  • the input / output source 214 includes an input component and an output component.
  • Input components include sensors, cameras, microphones, and so on.
  • Output components include display devices, speakers, and other actuators.
  • FIG. 3 shows a functional configuration when a computer device 210 to which the technique according to the present disclosure applies emotion learning, together with a schematic flow of processing.
  • the computer device 210 includes a position sensor (including GPS (Global Positioning System)) 311, an image sensor 312, and a sound as a group of sensors for learning emotions and recognizing emotions by an artificial intelligence function. It can be equipped with a sensor (including a microphone) 313, an odor sensor 314, a taste sensor 315, a tactile sensor 316, or other sensors.
  • a position sensor including GPS (Global Positioning System)
  • an image sensor 312 and a sound as a group of sensors for learning emotions and recognizing emotions by an artificial intelligence function.
  • a sensor including a microphone
  • an odor sensor 314 an odor sensor
  • taste sensor 315 a taste sensor 315
  • tactile sensor 316 or other sensors.
  • Each of the sensors 311 to 316 Corresponds to the sensor group 108 provided in the information processing apparatus 100.
  • the computer device 210 When learning the artificial intelligence function that recognizes emotions from the facial expressions of a human face, the computer device 210 is equipped with at least an image sensor 312, and artificial intelligence is input by inputting image data acquired by the image sensor 312 into the artificial intelligence. Intellectual function needs to be trained.
  • the output data format from the sensor differs depending on the type of sensor.
  • the learning data preprocessing logic 301 converts the data format of the output data from each sensor 311 to 316 ... into a data format that can be input to the artificial intelligence that performs the emotion learning process. Perform processing.
  • the learning data of the artificial intelligence function may be acquired not only from the above sensors 311 to 316 ... equipped in the computer device 210, but also may be received from the outside (cloud infrastructure 120) via the communication module 302. However, the learning data read from the local database 303 in the computer device 210 may be used.
  • the communication module 302 corresponds to, for example, the communication unit 110 in FIG.
  • the learning data pre-processing logic 301 inputs the learning data subjected to the pre-input conversion processing to each of the emotion learning processing logic 304 and the context recognition processing logic 305.
  • the emotion learning processing logic 304 has an artificial intelligence function.
  • the input to the emotion learning processing logic 304 is the output from the context recognition processing logic 305 and the data preprocessing for learning so that the relationship between the recognized context and the RAW data from each sensor 311 to 316 ... Is learned. It is desirable that the outputs of Logic 301 be input synchronously.
  • a guideline may be provided in which the data provided to the emotion learning processing logic 304 is satisfactory. Then, the learning data preprocessing logic 301 uses the judgment standard data 307 based on the guideline to check whether the learning data input to the emotion learning processing logic 304 is appropriate from the viewpoint of ethics and the like. You may do so.
  • the criterion data 307 based on the guideline is stored on the local storage in the computer device 210 or on the cloud storage (the same applies hereinafter).
  • the emotion learning processing logic 304 includes, for example, a convolutional neural network (CNN), a deep neural network (DNN), a recurrent neural network (RNN), a reinforcement learning neural network, an autoencoder, and a spiking neural network. It is composed of artificial intelligence using learning models such as networks (SNN) and support vector machines (SVM).
  • the artificial intelligence used in the emotion learning processing logic 304 according to the present embodiment is a technique for backpropagation or the like based on the result calculated by a loss function or the like so as to estimate the optimum solution (output) for the problem (input). It shall be equipped with a mechanism for learning through.
  • the emotion learning processing logic 304 learns artificial intelligence for emotion recognition through training (for example, deep learning) by inputting new learning data into artificial intelligence, and is for new emotion recognition different from that before training. Manufacture a learning model.
  • Artificial intelligence is composed of a neural network
  • learning progresses so as to estimate the optimum output for the input while changing the connection weight coefficient between neurons by repeating learning using training data.
  • a structured learning model for emotion recognition consisting of connection weight coefficients between neurons will be manufactured. Then, the manufactured emotion recognition learning model is stored in the database 306.
  • Database 306 may be local storage within computer device 210 or storage on cloud infrastructure 120 (see FIG. 1).
  • the emotion learning processing logic 304 uses the judgment criterion data 307 based on the above-mentioned guideline to check whether the manufactured (or deep learning) learning model for emotion recognition is appropriate from the viewpoint of ethics and the like. Then, it may be stored in the database 306.
  • the emotion learning processing logic 304 is used for each neural network NN 1. , NN 2 , ..., NN i shall be manufactured and stored in the database 306.
  • FIG. 4 shows an example in which the emotion learning processing logic 304 is implemented by supervised data using a DNN including a CNN.
  • the CNN constituting the multi-layered convolutional layer 402 outputs the features of the RGB image from the output node when the data of the RGB component 401 output from the image sensor 312 is input.
  • the fully connected layer 403 of the neural network inputs the following data.
  • the context recognition processing logic 305 receives the following input and inputs the context information to the input layer of the fully connected layer 403 of the neural network.
  • the other sensors are ToF (Time-of-Flight) sensor (depth information sensor), DVS (Dynamic Vision Sensor), infrared sensor, sound sensor (microphone), odor sensor, taste sensor, tactile sensor, temperature. It can be any combination of sensors such as sensors, altitude sensors, GPS, or rotation sensors and torque sensors linked to the wheel drive system.
  • the DVS is composed of SNN. Further, the input from the other sensors may be directly input to the fully connected layer 403 without passing through the context recognition processing logic 305.
  • the output layer of the fully connected layer 403 is a node for emotional output.
  • a node can be an emotional label (for example, six outputs: anger, disgust, fear, happiness, sadness, and surprise).
  • the emotion label is data given as expressing the facial expression of the facial image included in the input image from the image sensor 312.
  • the loss function 404 is a function defined with an emotion output and an emotion label as arguments.
  • the loss function 404 can be defined based on the difference between the emotion output and the emotion label from all the nodes of the fully connected layer 403. Then, using a technique such as backpropagation, the loss function 404 is minimized by modifying the connection weighting coefficient between each neuron from the output layer to the input layer of the fully connected layer 403. Perform neural network learning or training.
  • the binding weight coefficient may be learned only for the fully connected layer 403, or the binding weight coefficient may be learned for all of the fully connected layer 403 and the convolution layer 402. In this embodiment, the learning or training of the neural network is performed by deep learning.
  • FIG. 5 shows a functional configuration when the computer device 210 to which the technique according to the present disclosure applies emotion recognition, together with a schematic flow of processing. However, the same components as those shown in FIG. 3 are given the same reference numbers.
  • the computer device 210 when performing emotion recognition from the facial expression of a human using the learned artificial intelligence function, the computer device 210 artificially inputs the image data acquired by the image sensor into the trained artificial intelligence. Make the intelligent function recognize human emotions.
  • the output data format from the sensor differs depending on the type of sensor (same as above).
  • the recognition data preprocessing logic 501 performs pre-input conversion processing that converts the data format of the output data from each sensor into a data format that can be input to artificial intelligence that performs emotion recognition processing.
  • the recognition data preprocessing logic 501 inputs the recognition data subjected to the pre-input conversion processing to each of the emotion inference processing logic 502 and the context recognition processing logic 305.
  • the recognition data of the artificial intelligence function may be acquired not only from the above-mentioned sensor provided in the computer device 210 but also received from the outside via the communication module 302, or may be received from the outside through the communication module 302, or may be received from the outside, or the local database 303 in the computer device 210.
  • the learning data read from may be used.
  • the emotion inference processing logic 502 has an artificial intelligence function.
  • the input to the emotion inference processing logic 502 is the output from the context recognition processing logic 305 and the data preprocessing for recognition so that the relationship between the recognized context and the RAW data from each sensor 311 to 316 ... Is learned. It is desirable that the outputs of Logic 501 be input synchronously.
  • a guideline may be provided in which the data provided to the emotion inference processing logic 502 is satisfactory. Then, the recognition data preprocessing logic 501 uses the judgment standard data 307 based on the guideline to check whether the recognition data input to the emotion inference processing logic 502 is appropriate from the viewpoint of ethics and the like. You may do so.
  • the emotion inference processing logic 502 is composed of artificial intelligence such as CNN, DNN, RNN, reinforcement learning neural network, autoencoder, SNN, and SVM.
  • the artificial intelligence function of the emotion inference processing logic 502 applies the learned emotion recognition model read from the database 306, and infers human emotions from the recognition data input via the recognition data preprocessing logic 501. To do.
  • Database 306 may be local storage within computer device 210 or storage on cloud infrastructure 120 (see FIG. 1). Then, the emotion inference processing logic 502 outputs the human emotion inferred from the recognition data to the emotion recognition utilization service providing processing logic 503.
  • the emotion recognition utilization service provision processing logic 503 provides a service suitable for the emotion to the human and recommends a product or the like based on the human emotion estimated by the emotion inference processing logic 502. Using the judgment criteria data 307 based on the above guidelines, it is checked whether the recommendation of services and products using emotion recognition is appropriate from the viewpoint of ethics, etc., and then the provision of services and products, etc. Recommendations may be made.
  • the learning data preprocessing logic 301 in FIG. 3 and the recognition data preprocessing logic 501 in FIG. 5 are used as learning data or recognition data to be input to artificial intelligence for training or emotion recognition.
  • the procedure of preprocessing to be performed is shown in the form of a flowchart.
  • step S601 preprocessing according to the guideline is performed (step S601). This pretreatment is not always performed every time, and may be performed only for the first time. That is, from the second time onward, this process may be started from step S603. Details of the guidelines will be given later. Then, may the learning data preprocessing logic 301 or the recognition data preprocessing logic 501 perform artificial intelligence emotion learning or artificial intelligence emotion recognition using the judgment criterion data 307 based on the guideline? It is determined whether or not (step S602).
  • step S602 If it is determined by the judgment criterion data 307 based on the guideline that the emotion learning of the artificial intelligence cannot be performed or the emotion recognition by the artificial intelligence cannot be performed (No in step S602), all the subsequent processing steps are skipped. , End the learning data preprocessing or the recognition data preprocessing.
  • Preprocessing logic 301 or recognition data acquires learning data or recognition data from various sensors included in the computer device 210, the local database 303 in the computer device 210, or the cloud infrastructure 120 ( Step S603).
  • the learning data pre-processing logic 301 uses the acquired learning data, or the recognition data pre-processing logic 501 uses the data format of the output data from each sensor as an artificial intelligence that performs emotion learning processing or an artificial intelligence that performs emotion recognition processing. Performs pre-input conversion processing to convert to a data format that can be input to intelligence (step S604).
  • the learning data preprocessing logic 301 or the recognition data preprocessing logic 501 inputs the format-converted data into the artificial intelligence that performs the emotion learning process or the artificial intelligence that performs the emotion recognition process (step S605), and the present invention. End the process.
  • the data format of the image data acquired from the image sensor 312 may be the RGB format or the YUV format.
  • the image data (or various other sensor data) acquired from the local database 303 or the cloud infrastructure 120 may be in a different format.
  • the learning data preprocessing logic 301 and the recognition data preprocessing logic 501 perform preprocessing for converting sensor data consisting of various data formats into a default format assumed by artificial intelligence, and then input the data to artificial intelligence. It has become like.
  • FIG. 7 shows the procedure of the emotion learning process of the artificial intelligence used in the emotion learning processing logic 304 in FIG. 3 and the emotion recognition process by the artificial intelligence used in the emotion inference processing logic 502 in FIG. 5 in the form of a flowchart. Shown.
  • the emotion learning processing logic 304 or the emotion inference processing logic 502 inputs the data preprocessed by the learning data preprocessing logic 301 or the recognition data preprocessing logic 501 into the artificial intelligence represented by the neural network (step S701). ).
  • inference processing as described with reference to FIG. 4, data input directly from the sensor and data input from the context recognition processing logic 305 are also performed.
  • the emotion learning processing logic 304 learns the artificial intelligence for emotion recognition through training (for example, deep learning) by inputting data into the artificial intelligence in the preceding step S701, and new emotions different from those before the training.
  • a learning model for recognition is manufactured (that is, the learning model is trained) (step S702).
  • learning artificial intelligence neural networks are trained using techniques such as backpropagation.
  • the manufactured emotion recognition learning model is stored in the database 306.
  • the emotion inference processing logic 502 performs an emotion inference process for inferring human emotions from input data by using artificial intelligence to which a learned emotion recognition model read from the database 306 is applied (step S702). .. Then, the inferred human emotion is output to the emotion recognition utilization service provision processing logic 503, and as a result, the service is provided and the product is recommended.
  • FIG. 8 shows a processing procedure for providing a service based on the inferred emotion, which is executed in the emotion recognition utilization service providing processing logic 503, in the form of a flowchart.
  • the emotion recognition utilization service provision processing logic 503 performs preprocessing according to the guideline (step S801). This pretreatment is not always performed every time, and may be performed only for the first time. Further, in the preprocessing shown in FIG. 6 by the recognition data preprocessing logic 501 and the emotion recognition processing shown in FIG. 7 by the emotion inference processing logic 502, the fact or the fact that the preprocessing according to the guideline already performed is performed. By storing the result, if it is possible to substitute the one for which the process of step S801 has already been performed, the process of step S801 is omitted and directly from the artificial intelligence of the emotion inference processing logic 502. You may proceed to the process of reading the output inference data.
  • the emotion recognition utilization service providing processing logic 503 skips all the subsequent processing steps and is based on the emotion recognition. End the service provision process.
  • the emotion recognition utilization service providing processing logic 503 is the recognition data by the emotion inference processing logic 502.
  • the data inferred from is input (step S803).
  • the emotion recognition utilization service provision processing logic 503 determines whether or not the service provision processing may be continued based on the data inferred by the emotion inference processing logic 502, that is, the emotion data (step S804).
  • the emotion recognition utilization service provision processing logic 503 ends the service provision process based on the emotion recognition. For example, when the emotion of "anger” is recognized by the emotion inference processing logic 502, there is a possibility that the result of the emotion recognition processing performed so far causes some unpleasant situation for the user. In such a case, the emotion recognition utilization service provision processing logic 503 determines that the service provision processing cannot be continued, and terminates the service provision processing based on the emotion recognition.
  • step S804 when the emotion recognition utilization service providing processing logic 503 determines that the service providing processing can be continued (Yes in step S804), the emotion recognition utilization service providing processing logic 503 provides the user with the service based on the emotion estimated by the emotion inference processing logic 502. Then (step S805), this process ends.
  • the emotion inference processing logic 502 recognizes the emotion of "surprise”
  • the emotion recognition utilization service providing processing logic 503 performs an action or action such as "inquiring whether there is any problem" to the user. , It can be done by using an actuator or the like.
  • the emotion recognition service can be made as effective as possible for humans by providing the user with a service that matches the estimated emotions and recommending products. If it is unpleasant or inconvenient, the emotion recognition service can be stopped immediately. Therefore, a more friendly emotion recognition utilization service can be provided through the computer device 210.
  • FIG. 9 shows a functional configuration in which a computer device 210 to which the technology according to the present disclosure has a plurality of artificial intelligence functions for understanding emotions and recognizes emotions, together with a schematic flow of processing. Is shown. However, the same components as those shown in FIGS. 3 and 5 are given the same reference numbers.
  • the computer device 210 causes the artificial intelligence function to recognize human emotions by inputting the image data acquired by the image sensor into the trained artificial intelligence. Since the output data format from the sensor differs depending on the type of sensor, the recognition data preprocessing logic 501 converts the data format of the output data from each sensor into a data format that can be input to artificial intelligence that performs emotion recognition processing. Perform pre-conversion processing. The recognition data preprocessing logic 501 inputs the recognition data subjected to the pre-input conversion processing to each of the emotion inference processing logic 901 and the context recognition processing logic 305.
  • the recognition data of the artificial intelligence function may be acquired not only from the above-mentioned sensor provided in the computer device 210 but also received from the outside via the communication module 302, or may be received from the outside through the communication module 302, or may be received from the outside, or the local database 303 in the computer device 210.
  • the learning data read from may be used.
  • the emotion inference processing logic 901 has a plurality of artificial intelligence functions.
  • each artificial intelligence function consists of a model of a neural network (NN)
  • the emotion inference processing logic 901 includes i neural networks NN 1 , NN 2 , ..., NN i .
  • Each neural network NN 1 , NN 2 , ..., NN i is composed of artificial intelligence such as CNN, DNN, RNN, reinforcement learning neural network, autoencoder, SNN, SVM and the like.
  • Each neural network NN 1 in emotion inference processing logic 502, NN 2, ..., NN i is learned read from the database 306 the emotion recognition model M 1, M 2, ..., M it is applied respectively,
  • the human emotion is inferred from the recognition data input via the recognition data preprocessing logic 501.
  • Database 306 may be local storage within computer device 210 or storage on cloud infrastructure 120 (see FIG. 1).
  • the emotion inference processing logic 901 outputs the human emotion inferred from the recognition data to the emotion recognition utilization service providing processing logic 902.
  • each neural network NN 1 , NN 2 , ..., NN i is a trained emotion recognition model M 1 , M 2 , ... Trained in different situations using different training data or different loss functions.
  • M i is a neural network to recognize the human emotions as well, it is assumed that outputs different recognition results by various combinations of recognition data entered during use. Therefore, the emotion inference processing logic 901 can improve the recognition accuracy of human emotions by comprehensively combining the inference results from the plurality of neural networks NN 1 , NN 2 , ..., NN i.
  • the emotion recognition utilization service provision processing logic 902 provides a service suitable for the emotion to the human and recommends a product or the like based on the human emotion estimated by the emotion inference processing logic 901. Using the judgment criteria data 307 based on the above guidelines, it is checked whether the recommendation of services and products using emotion recognition is appropriate from the viewpoint of ethics, etc., and then the provision of services and products, etc. Recommendations may be made. If the emotion recognition accuracy by the emotion inference processing logic 901 is improved, the emotion recognition utilization service provision processing logic 902 can provide the emotion recognition utilization service with high user satisfaction.
  • FIG. 10 shows the procedure of emotion recognition processing by the emotion inference processing logic 901 having a plurality of artificial intelligence functions in FIG. 9 in the form of a flowchart.
  • the emotion inference processing logic 901 inputs the data preprocessed by the recognition data preprocessing logic 501 to each neural network NN 1 , NN 2 , ..., NN i (step S1001). Further, as described with reference to FIG. 4, data input directly from the sensor and data input from the context recognition processing logic 305 are also performed.
  • Each neural network NN 1, NN 2, ..., NN i is learned read from the database 306 the emotion recognition model M 1, M 2, ..., M it is applied respectively, recognition data preprocessing logic 501 Infer human emotions from the recognition data input via. Then, the emotion inference processing logic 901 can individually recognize a set of inference results from a plurality of neural networks NN 1 , NN 2 , ..., NN i (for example, with an ID of each neural network). , Output as an inference data set (step S1002). Then, the inferred human emotion is output to the emotion recognition utilization service provision processing logic 902, and the service is provided and the product is recommended.
  • FIG. 11 shows a processing procedure for providing a service based on the inferred emotion, which is executed in the emotion recognition utilization service providing processing logic 902, in the form of a flowchart.
  • the emotion recognition utilization service provision processing logic 902 performs preprocessing according to the guideline (step S1101). This pretreatment is not always performed every time, and may be performed only for the first time. Further, in the preprocessing shown in FIG. 6 by the recognition data preprocessing logic 501 and the emotion recognition processing shown in FIG. 7 by the emotion inference processing logic 901, the fact or the fact that the preprocessing according to the guideline already performed is performed. If the result can be stored in place of the one that has already performed the process of step S1101, the process of step S1101 is omitted and the emotion inference processing logic 901 is directly used from the artificial intelligence. You may proceed to the process of reading the output inference data set.
  • the emotion recognition utilization service providing processing logic 902 skips all the subsequent processing steps and is based on the emotion recognition. End the service provision process.
  • the emotion recognition utilization service providing processing logic 902 may be a plurality of emotion inference processing logic 901. Neural networks NN 1 , NN 2 , ..., NN i input the inference data set inferred from the recognition data (step S1103).
  • the emotion recognition utilization service provision processing logic 902 compares and examines the inference data of each neural network NN 1 , NN 2 , ..., NN i (step S1104).
  • the emotion recognition utilization service provision processing logic 902 statistically processes a plurality of inference data and adopts the most probable inference data as the recognition result of the user's emotion.
  • the cognitive utilization service provision processing logic 902 stores emotional inference data in chronological order, and in a pre-defined transition network between emotions, the most probable inference data of the user's emotions is stored. Adopt as a recognition result. For example, the user's emotions estimated immediately before are “anger”, the inference data output from one neural network suggests “happiness”, and the inference data output from another neural network is "sadness".
  • the transition with transition probability is defined as "anger”-> (transition probability P1)-> “happiness”, “anger”-> (transition probability P2)-> “sadness”, and P1 ⁇ P2. Therefore, "sadness” can be regarded as the most probable inference data.
  • another artificial intelligence may make a judgment by using a model of artificial intelligence that has been learned in advance.
  • a quantum computer that realizes parallel processing by utilizing quantum mechanics may be used for the process of estimating the subsequent emotion from the user's emotion estimated immediately before.
  • the emotion recognition utilization service provision processing logic 902 determines whether or not the service provision processing may be continued based on the emotions recognized from the inference data set (step S1105). For example, when the emotion of "anger" is recognized, the result of the emotion recognition processing performed so far may have caused some unpleasant situation for the user. In such a case, the emotion recognition utilization service provision processing logic 902 determines that the service provision processing cannot be continued, and terminates the service provision processing based on the emotion recognition.
  • the emotion recognition utilization service provision processing logic 902 determines that the service provision processing can be continued (Yes in step S1105), the emotion recognition utilization service provision processing logic 902 provides the user with a service based on the emotion estimated from the inference data set. (Step S1106), this process is terminated. For example, when the emotion of "surprise" is recognized, the emotion recognition utilization service provision processing logic 902 uses an actuator or the like to perform an action or action such as "inquiring whether there is any problem" to the user. Can be done.
  • the emotion recognition service can be made as effective as possible for humans by providing the user with a service that matches the estimated emotions and recommending products. If it is unpleasant or inconvenient, the emotion recognition service can be stopped immediately. Therefore, a more friendly emotion recognition utilization service can be provided through the computer device 210.
  • FIG. 12 illustrates the data structure of the guideline.
  • the illustrated guidelines can be applied to preprocessing of learning data and recognition data, emotion learning processing, and emotion recognition decision service provision processing. It is assumed that the judgment criterion data 307 based on the above-mentioned guideline has a data structure as shown in FIG. 12 and is managed on the local storage in the computer device 210 or on the cloud storage. Further, the emotion recognition utilization service provision processing logic 503 or 902 determines the appropriateness of utilizing emotion recognition in the service with reference to the guideline as shown in FIG.
  • the basic guideline that defines the principle is arranged in the root, and it is shown that a hierarchical class structure can be taken according to the application.
  • a hierarchical class structure can be taken according to the application.
  • at least the following four parameters are common in relation to this embodiment.
  • the first "emotion recognition utilization service” is a parameter that defines whether or not emotion recognition can be used for the service.
  • the "emotion recognition utilization service” parameter may be a fixed constant or a variable that can be arbitrarily changed (hereinafter, the same applies to other parameters).
  • the second "exception” is a parameter provided to specify an exception when the "emotion recognition utilization service” parameter is "NO".
  • the parameter of "emotion recognition utilization service” is "NO”
  • the emotion recognition utilization service is not allowed according to the guideline, but the exception condition that emotion recognition can be utilized for the service by this "exception” parameter is set.
  • “user's consent” is specified as an exception condition, even if the parameter of "emotion recognition utilization service” is "NO", the user is asked for consent, and if consent is obtained, the service feels emotional. It means allowing the use of cognition.
  • Other exceptions include those that require "specific illness diagnosis” and those that require “transfer fraud prevention measures monitoring”.
  • the "exception” parameter can be arbitrarily defined as needed.
  • the third "user's consent” is a parameter that specifies whether or not the user's consent is required when performing control contrary to the specification of the "emotion recognition utilization service” parameter.
  • the "user consent” parameter is "YES”, it indicates that the user's consent is required, and when it is "NO”, it indicates that the user's consent is not required.
  • the fourth "use of multiple models” comprehensively outputs the output of multiple artificial intelligences (for example, neural network models) that can perform independent learning and inference when emotion recognition can be used for services. It is a parameter indicating whether or not it is necessary to judge and recognize emotions. Please refer to FIGS. 9 to 11 for the configuration and operation of the system for comprehensively judging the output of a plurality of artificial intelligences.
  • multiple artificial intelligences for example, neural network models
  • emotion recognition utilization service "NO”. Therefore, the emotion recognition utilization service provision processing logic 503 or 902 instructs the control to prohibit the utilization of emotion recognition in the service in principle.
  • "exception” "user consent” is specified. Therefore, the emotion recognition utilization service provision processing logic 503 or 902 permits the emotion recognition to be utilized in the service when the process of obtaining the consent of the user is performed through the user interface 213 or the like.
  • the computer device 210 performs a process of obtaining the consent of the user by making an inquiry using characters or images on the voice guidance from the speaker 107 or the display 106.
  • the subclass of the "basic guideline” can be defined according to the application field of the emotion recognition utilization service.
  • “financial product” Define the data structure of "Guidelines for Services”, and further define the data structure of "Guidelines for Immigration Systems” as a subclass of "Guidelines for Surveillance Systems” and "Guidelines for Pet Robots” as a subclass of "Guidelines for Games”. There is. The data structure of each subclass will be described below.
  • a person recognizes emotions such as "fear” from his facial expression when performing a transfer operation the person in charge predicts that the person will hesitate to transfer by using the emotion recognition utilization service.
  • an agent or other sound artificially generated at the same time as an external sound can be placed at an arbitrary position in the three-dimensional space around the user's head.
  • Technology for sound image localization has been developed. It is possible to provide an emotion recognition utilization service to a user who plays a game using such headphones in accordance with the above-mentioned game guidelines.
  • the accuracy of emotion recognition may be lower than when using multiple models, but when the character agent performs sound image localization that wanders around the user's head, it is recognized in order to attract the user's attention. It is also conceivable that the character behaves inappropriately for the emotions of the user. Even in such a case, it is considered that the need to accurately recognize the user's emotion is relatively low.
  • the class hierarchy of the guideline shown in FIG. 12 is an example, and is not a fixed hierarchical structure suggesting a specific design. For example, it is assumed that a subclass (not shown) is further included under the root class, or a part or all of the subclass shown is not included, and two or more subclasses are defined below the subclass. In addition, the parameters of the guidelines for each class can be changed as desired.
  • FIG. 13 shows the procedure of preprocessing according to the guideline in the form of a flowchart.
  • the illustrated processing procedure is executed by the learning data preprocessing logic 301, the recognition data preprocessing logic 501, and the like in step S601 in FIG. 6, step S801 in FIG. 8, and step S1101 in FIG.
  • the category of the product or service of the computer device 210 for which the emotion recognition utilization service is to be provided, the artificial intelligence function information as the product or service, and the like are read (step S1301).
  • the corresponding guideline information is read from the storage (step S1302).
  • the guideline information is hierarchically structured as shown in FIG. 12, but of course, it may be managed by other structures. Further, the guideline information is managed on the local storage in the computer device 210 or on the cloud storage, and the preprocessing logic 301 or 501 reads the guideline information from the storage.
  • the parameter of the "emotion recognition utilization service” is "YES” with reference to each parameter specified in the class corresponding to the product or service category read in step S1301. It is checked whether or not (step S1303).
  • step S1303 If the parameter of the "emotion recognition utilization service” is “YES” (Yes in step S1303), then it is checked whether the "user consent” parameter is "YES” (step S1304).
  • step S1304 When the "user consent” parameter is "YES”, that is, when the user consent is required when performing control contrary to the specification of the "emotion recognition utilization service” parameter (Yes in step S1304), through the user interface 213 or the like. A process for obtaining the consent of the user is performed (step S1309).
  • step S1303 If the parameter of the "emotion recognition utilization service” is "NO” (No in step S1303), it is checked whether "user consent” is specified in the parameter of "exception” (step S1308). .. Then, when “user consent” is specified in the "exception” parameter (step S1308Yes), the process of obtaining the user consent through the user interface 213 or the like is performed (step S1309).
  • step S1308 when the parameter of the "emotion recognition utilization service” is "NO” and "user consent” is not specified in the parameter of "exception” (No in step S1308), and the user regarding the use of the emotion recognition utilization service. If the consent of is not obtained (No in step S1310), the emotion inference (learning, service) cannot be performed (or the emotion recognition result cannot be used to provide the service in the corresponding category). Then (step S1311), this process ends.
  • step S1305 when the "user's consent” parameter is "NO”, that is, when the user's consent is not required when performing control contrary to the specification of the "emotion recognition utilization service” parameter (No in step S1304), and the emotion recognition utilization service. If the user's consent is obtained regarding the use of (Yes in step S1310), then whether the parameter of "use of multiple models" is "YES", that is, whether or not it is specified to use multiple artificial intelligences. Is checked (step S1305).
  • step S1305 When the parameter of "use of multiple models" is "YES" (Yes in step S1305), the artificial intelligence function of the computer device 210 read in step S1301 is referred to to check whether or not multiple models are supported. (Step S1306). Here, if a plurality of models are not supported (No in step S1306), there is a concern that the required emotion recognition accuracy cannot be obtained, so the state is set so that emotion inference (learning, service) cannot be performed. Then (step S1311), this process ends.
  • step S1306 Yes a state in which emotion inference (learning, service) can be performed (or a state in which the result of emotion recognition can be used to provide a service in the corresponding category) is set (step S1307), and this process ends.
  • FIG. 14 shows a configuration example of a user interface (UI) screen of the emotion recognition utilization service.
  • UI user interface
  • the human face image 1401 to be recognized is displayed on the left half of the screen, and the emotion recognition result 1402 is shown on the right half of the screen.
  • the face image 1401 displays the positions of the face parts (eyebrows, eyes, nose, mouth, cheeks, chin) identified by image recognition in an overlapping manner.
  • the emotion recognition result 1402 has six emotion labels of "anger”, “disgust”, “fear”, “happiness”, “sadness”, and “surprise” recognized by the emotion inference processing logic 901 from the facial expression of the face image 1401. Each level of is displayed on the radar chart.
  • the preprocessing according to the guideline proceeds.
  • the user answers that he / she does not agree by voice such as "No.” Or indicates that he / she does not agree by using the touch panel, keyboard, mouse, etc. the emotional reasoning (learning, service) cannot be performed. Then, the preprocessing according to the guideline is completed.
  • the computer device 210 or the artificial intelligence system 200 that implements the emotion recognition utilization service uses the emotion inference processing logic 901 to input the input image from the image sensor 316 or the like and the information of the facial parts used for the facial expression recognition.
  • the data may be stored only in a few frames in the front and back sections where the emotional change is particularly large.
  • the blockchain technique may be used as the storage method. Specifically, by adding hash data to the data, storing it on the network, and searching using the hash data, it is possible to take out appropriate data in response to an inquiry of the reason and display it on the UI screen 1400. ..
  • the facial expression of a human face may change suddenly.
  • SNN spiking neural network
  • E. Effect of Emotion Recognition Utilization Service information that recognizes human emotions at the required level based on predetermined guidelines and appropriately controls the level of emotion recognition through interaction with humans.
  • a processing device can be provided.
  • the present specification has mainly described the embodiment applied to the system that recognizes human emotions based on the result of analyzing the facial expression from the facial image
  • the scope of application of the technique according to the present disclosure is limited to this. It's not a thing.
  • the technology according to the present disclosure also applies to a system that recognizes emotions from voices spoken by humans, a system that recognizes emotions based on biological information such as brain waves and pulses, and a system that recognizes emotions from a combination of a plurality of sensor information. Can be applied.
  • the technologies according to the present disclosure are used in various fields such as image recognition in cameras, image synthesis in televisions, voice recognition in headphones, natural language understanding and document synthesis in document processing systems, action recognition and action generation in agents and robots, and the like. It can be applied to control a device having an artificial intelligence function for emotion recognition and to manufacture a computer program used in the device.
  • the technology disclosed in this specification can also have the following configuration.
  • a pre-processing unit that determines whether or not to provide services based on emotion recognition based on predetermined criteria, and An emotion estimation processing unit that recognizes the user's emotions using the artificial intelligence function, A service providing processing unit that provides a service based on the result of emotion recognition by the emotion estimation processing unit, and Equipped with When the pre-processing unit determines that the provision of the service is permitted, the emotion estimation processing unit performs emotion recognition, or the service providing processing unit provides the service.
  • Information processing device determines whether or not to provide services based on emotion recognition based on predetermined criteria, and An emotion estimation processing unit that recognizes the user's emotions using the artificial intelligence function
  • a service providing processing unit that provides a service based on the result of emotion recognition by the emotion estimation processing unit, and Equipped with
  • the artificial intelligence function recognizes human emotions from sensor information.
  • the information processing device according to (1) above.
  • the artificial intelligence function recognizes human emotions from facial expressions obtained by analyzing a user's facial image.
  • the information processing device according to (1) above.
  • the preprocessing unit performs a process of requesting the user's consent to use the result of emotion recognition for the service when it is determined that the user's consent is required based on the above criteria.
  • the information processing device according to (1) above.
  • the preprocessing unit determines that the emotion recognition result cannot be used for the service, but permits the emotion recognition result to be used for the service, with the exception of the consent of the user. To do, The information processing device according to (2) above.
  • the criteria include data indicating that multiple artificial intelligence models are needed.
  • the pre-processing unit determines whether or not the service can be provided based on whether or not the emotion estimation processing unit has a plurality of artificial intelligence models.
  • the information processing device according to any one of (1) to (3) above.
  • the emotion estimation processing unit performs inference using a plurality of artificial intelligence models, and outputs a set of inference results by each artificial intelligence model as a result of emotion recognition.
  • the information processing device according to (4) above.
  • the standard consists of data structured according to the field to which the service is applied.
  • the information processing device according to any one of (1) to (5) above.
  • the data for each application field includes common parameters.
  • the information processing device according to (6) above.
  • the common parameters are the pros and cons of using the result of emotion recognition for providing the service, the exception condition for using the result of emotion recognition for providing the service, and the use of the result of emotion recognition for providing the service. Includes at least one of the user's consent to, and the need for multiple artificial intelligence models, The information processing device according to (7) above.
  • the preprocessing unit performs a process of presenting an image to be emotion-recognized, a facial expression analysis result for the image, and an emotion recognition result for the image.
  • the information processing device according to any one of (1) to (8) above.
  • the preprocessing unit displays each recognition result of a plurality of emotion levels on a radar chart.
  • the information processing device according to (9) above.
  • the preprocessing unit determines whether or not the artificial intelligence function can be learned based on the criteria. When the preprocessing unit determines that learning is permitted, the emotion learning unit is trained to input learning data into the artificial intelligence function so that emotion recognition can be performed.
  • the information processing device according to any one of (1) to (9) above.
  • the emotion learning unit learns the artificial intelligence function so as to recognize human emotions from a face image.
  • the information processing device according to (10) above.
  • the emotion learning unit trains the artificial intelligence function composed of a neural network by deep learning.
  • the information processing device according to (10) above.
  • a pre-processing step for determining whether or not to provide a service based on emotion recognition based on a predetermined standard, and When it is determined in the preprocessing step that the provision of the service is permitted, the emotion estimation processing step that recognizes the user's emotion by using the artificial intelligence function and the emotion estimation processing step.
  • a service provision processing step that provides a service based on the result of emotion recognition in the emotion estimation processing step, and Information processing method having.
  • an artificial intelligence device that provides a service using the result of emotion recognition using an artificial intelligence function determines whether or not to provide a service based on emotion recognition based on a predetermined standard and permits the provision of the service.
  • an artificial intelligence model capable of performing emotion recognition is manufactured by inputting learning data into the artificial intelligence function and training so that emotion learning can be performed. Artificial intelligence model manufacturing method.
  • 100 Information processing device, 101 ... CPU, 102 ... Storage device 103 ... Bus, 104 ... Camera, 105 ... Microphone 106 ... Display, 107 ... Speaker, 108 ... Sensor group 109 ... Actuator group, 110 ... Communication unit 120 ... Cloud infrastructure Structure 200 ... Artificial intelligence system, 210 ... Computer device 211 ... Storage device, 212 ... Processing device 213 ... User interface, 214 ... I / O source 220 ... Cloud computer device, 230 ... Server computer device 240 ... Database, 250 ... Communication media 301 ... Learning data preprocessing logic, 302... Communication module 303... Local database, 304... Emotion learning processing logic 305... Context recognition processing logic, 306... Database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Human Computer Interaction (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Child & Adolescent Psychology (AREA)

Abstract

人工知能を利用して人間の感情認識を行う情報処理装置を提供する。 情報処理装置は、所定の基準に基づいて感情認識に基づくサービスの提供の可否を判断する前処理部と、人工知能機能を利用してユーザの感情認識を行う感情推定処理部と、前記感情推定処理部による感情認識の結果に基づくサービスを提供するサービス提供処理部を具備し、前記前処理部がサービスの提供を許可すると判断したときに、前記感情推定処理部は感情認識を行い、又は前記サービス提供処理部はサービスを提供する。

Description

情報処理装置及び情報処理方法、並びに人工知能モデル製造方法
 本明細書で開示(以下、「本開示」とする)する技術は、人間の感情認識を行う情報処理装置及び情報処理方法、並びに人工知能モデル製造方法に関する。
 人間の感情を認識することは、人間との対話を実現し、さらには人間に対して適切なサービスを提供する上で極めて重要である。表情や声、ジェスチャーなどの人間の表現に関するデータや、文脈に関するデータを利用することによって、人間の感情をより正確に理解することができる。例えば、ニューラルネットワークを利用した人工知能(Artificial Intelligence)を用いて、対話に含まれる文脈情報から話者の感情を認識する技術について提案がなされている(特許文献1を参照のこと)。
 顔の表情を用いて人間の感情を理解しようとする場合、イメージセンサーにより撮影した画像内の顔画像から顔画像のパターン(いわゆる表情)を解析し、その顔画像のパターンがどの感情に対応するかを推定する方法が知られている。顔画像のパターンと人間の感情との相関関係を事前学習した人工知能を用いて、人間の感情を推定することができる。なお、顔画像のパターンは、眉毛、目、鼻、口、頬、顎といった顔パーツの組み合わせで構成することもできるが、顔パーツに分けず顔画像全体のイメージで構成することもできる。
 感情学習には、ニューラルネットワークで表される人工知能を適用することができる。例えば、「怒り」、「嫌悪」、「恐れ」、「幸福」、「悲しみ」、「驚き」といった感情に関する複数のラベルを定義する。そして、顔画像のパターンをニューラルネットワークの入力とし、ニューラルネットワークの出力を「怒り」、「嫌悪」、「恐れ」、…といった感情のラベルと対応付けておき、ニューラルネットワークに入力された顔画像のパターンの各々について適切と思われる出力のラベルとを比較することで、ニューラルネットワークの学習又は訓練が行われる。
 事前に感情学習したニューラルネットワークを用いて感情認識を行うことにより、人間の好みなどを理解し、人間に対して適切なサービスや商品などの推薦を実現することができる。また、ニューラルネットワークの感情学習を適切に行うことにより、人間の感情表現がうまくできていない症状を検出して、医療サービスとして適切な治療へと導くことができる。
特開2019-20684号公報
 本開示に係る技術の目的は、人工知能を利用して人間の感情認識を行う情報処理装置及び情報処理方法、並びに人工知能モデル製造方法を提供することにある。
 本開示に係る技術の第1の側面は、
 所定の基準に基づいて感情認識に基づくサービスの提供の可否を判断する前処理部と、
 人工知能機能を利用してユーザの感情認識を行う感情推定処理部と、
 前記感情推定処理部による感情認識の結果に基づくサービスを提供するサービス提供処理部と、
を具備し、
 前記前処理部がサービスの提供を許可すると判断したときに、前記感情推定処理部は感情認識を行い、又は前記サービス提供処理部はサービスを提供する、情報処理装置である。前記人工知能機能は、ユーザの顔画像を解析して得た表情から人間の感情を認識するように学習されている。
 前記前処理部は、前記の基準に基づいてユーザの同意が必要と判断される場合に、ユーザに感情認識の結果を前記サービスに用いることの同意を求める処理を実施する。また、前記前処理部は、感情認識の結果を前記サービスに用いることができないと判断されるが、ユーザの同意があることを例外条件に、感情認識の結果を前記サービスに用いることを許可する。
 前記基準が複数の人工知能モデルが必要であることを示すデータを含む場合、前記前処理部は、前記基準が前記データを含む場合に、前記感情推定処理部が複数の人工知能モデルを備えているかどうかに基づいてサービスの提供の可否を判定する。また、前記感情推定処理部は、複数の人工知能モデルを用いて推論を行い、各人工知能モデルによる推論結果の集合を感情認識の結果として出力する。
 第1の側面に係る情報処理装置は、人間の感情を認識するように前記人工知能機能の学習を行う感情学習部をさらに備えている。そして、前記前処理部は、前記基準に基づいて前記人工知能機能の学習の可否を判断する。前記感情学習部は、前記前処理部が学習を許可すると判断したときに、前記人工知能機能に学習用データを入力して感情認識を行えるように訓練する。
 また、本開示に係る技術の第2の側面は、
 所定の基準に基づいて感情認識に基づくサービスの提供の可否を判断する前処理ステップと、
 前記前処理ステップでサービスの提供を許可すると判断したときに、人工知能機能を利用してユーザの感情認識を行う感情推定処理ステップと、
 前記感情推定処理ステップにおける感情認識の結果に基づくサービスを提供するサービス提供処理ステップと、
を有する情報処理方法である。
 また、本開示に係る技術の第3の側面は、
 人工知能機能を用いた感情認識の結果を利用したサービスを提供する人工知能装置において、所定の基準に基づいて感情認識に基づくサービスの提供の可否を判断し、サービスの提供を許可すると判断したときに、前記人工知能機能に学習用データを入力して感情学習を行えるように訓練することにより、感情認識を行うことができる人工知能モデルを製造する、
人工知能モデル製造方法である。
 本開示に係る技術によれば、所定のガイドラインに基づいて、必要なレベルで人間の感情認識を行う情報処理装置及び情報処理方法、並びに人工知能モデル製造方法を提供することができる。
 また、本開示に係る技術によれば、人間とのインタラクションを通じて感情認識のレベルを適切に制御する情報処理装置及び情報処理方法、並びに人工知能モデル製造方法を提供することができる。
 なお、本明細書に記載された効果は、あくまでも例示であり、本開示に係る技術によりもたらされる効果はこれに限定されるものではない。また、本開示に係る技術が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
 本開示に係る技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
図1は、情報処理装置100のハードウェア構成例を示した図である。 図2は、人工知能システム200の機能的構成例を示した図である。 図3は、コンピュータデバイス210が感情学習を行う場合の機能的構成を示した図である。 図4は、感情学習処理ロジック304の実装例を示した図である。 図5は、コンピュータデバイス210が感情認識を行う場合の機能的構成を示した図である。 図6は、学習用データ又は認識用データを前処理する手順を示したフローチャートである。 図7は、人工知能の感情学習又は人工知能による感情推論を行う処理手順を示したフローチャートである。 図8は、感情推論結果に基づいてサービスを提供する処理手順を示したフローチャートである。 図9は、コンピュータデバイス210が感情認識を行う場合の機能的構成を示した図である。 図10は、人工知能による感情推論を行う処理手順を示したフローチャートである。 図11は、推論された感情に基づいてサービスを提供する処理手順を示したフローチャートである。 図12は、ガイドラインのデータ構造を示した図である。 図13は、ガイドラインに従った前処理の手順を示したフローチャートである。 図14は、感情認識活用サービスのユーザインターフェース画面の構成例を示した図である。
 以下、図面を参照しながら本開示に係る技術の実施形態について詳細に説明する。
 感情認識技術は、さまざまな産業分野に応用される有用な技術である。ところが、感情認識技術には、以下に示す問題がある。
(1)感情を誤認識することにより、人間に不適切なサービスを提供する、
(2)自分の感情が読み取られることを快く感じない人間が存在する。
 上記(1)の感情誤認識に関しては、ニューラルネットワークで感情学習を行なう際に、感情と表情との関係が、人種や生育した地域などによって異なる可能性があることを考慮しなければならない。学習に用いる教師データに人種的、地域的な隔たりがあった場合(又は、バイアスが掛けられていた場合)、教師データにカバーされていない人種や地域の人間に対して感情を誤認識して、不適切なサービスを提供してしまい、不愉快な体験をさせる結果に繋がるおそれがある。
 また、感情と犯罪の発生とを関連付けて判断するサービスを行う場合、感情誤認識のために、誤って犯罪者を推定する可能性があり、重大な問題となる。
 また、事前に感情学習を行った人工知能を用いて人間の感情を正確に認識できる場合であっても、感情の認識結果を商品の推薦などのサービスに利用する際には、適切に管理又は制御することが望ましい。感情学習の精度に課題があり、結果として感情認識の精度も十分高くない場合には、感情認識をサービスに利用しない工夫も必要である。
 また、たとえ感情認識が有用であり、教師データのバイアスを排除して、高精度の感情認識を実現できたとしても、上記(2)の、自分の感情が読み取られることを快く感じない人間が存在し、感情認識を利用したサービスが望ましくない状況がある。
 その一方で、感情認識技術を適用しないとサービスが成立しない応用分野も存在する。例えば、医療分野において、所定の疾患の診断目的に感情認識を応用する場合である。したがって、感情認識の対象となる人間に対して、サービスの提供に際して感情認識を行うことを事前に通知したり理解を求めたりするような仕組みが必要である。
 また、応用分野毎に感情認識に要求される精度がまちまちである。すなわち、高い精度の感情認識が不要な分野も存在すれば、できる限り高い精度の感情認識を行うことが求められる分野も存在する。
 以下では、本開示に係る技術として、誤認識しないように感情学習を行うとともに、必要とされるレベルの感情認識サービスを提供するように、人間とのインタラクションを通じて制御を行うことができる、人工知能を利用して人間の感情認識を行う情報処理装置について説明する。
A.システム構成
 図1には、人工知能機能を利用して、本開示に係る技術を適用可能な情報処理装置100のハードウェア構成例を概略的に示している。図示の情報処理装置100は、一般的なパーソナルコンピュータに、必要に応じて周辺装置を適宜外部接続するという形態で実現することができる。あるいは、情報処理装置100は、スマートフォンやタブレットなどの多機能情報端末を用いて構成したり、ロボット装置上で構成したりすることもできる。また、情報処理装置100は、人工知能など機能の一部をクラウドインフラストラクチャで実現するように構成することもできる。
 情報処理装置100は、全体の動作を統括的にコントロールするCPU(Central Processing Unit)101と、CPU101がローカルメモリとして利用可能な記憶装置102を備えている。
 本実施形態では、CPU101がニューラルネットワーク(NN)アクセラレータを搭載することを想定している。また、CPU101とともに(あるいは、CPU101の代わりに)、GPGPU(General Purpose Graphic Processing Unit)などの他の種類のプロセッサを用いてもよい。
 記憶装置102は、DRAM(Dynamic Random Access Memory)を用いて構成されるメインメモリやキャッシュメモリを含む。また、記憶装置102は、オペレーティングシステム(OS)などにより提供される仮想記憶機能により、ハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)などの大容量外部記憶装置を含んでいてもよい。
 また、情報処理装置100内では、バス103を介して各種のセンサー及びアクチュエータが、CPU101並びに記憶装置102に相互接続されている。各センサーが取得したセンサーデータは、バス103経由で記憶装置102に取り込まれ、CPU101が実行するコンピュータプログラムによって適宜処理される。また、各アクチュエータは、CPU101からの指令(又は、コンピュータプログラムの実行結果)に基づいて駆動する。
 情報処理装置100は、センサーとして、カメラ104、並びにマイクロホン105を備えている。カメラ104は、例えばCMOS(Complementary Metal Oxyde Semiconductor)やCCD(Charge Coupled Device)などのイメージセンサーを用いて構成される。カメラ104は、2個以上のイメージセンサーを用いた立体視カメラや多眼カメラであってもよい。また、マイクロホン105は、2個以上の収音素子を用いたマイクロホンアレイであってもよい。
 また、情報処理装置100は、アクチュエータとして、ディスプレイ106、並びにスピーカ107を備えている。ディスプレイ106は、液晶ディスプレイ(LCD)や有機EL(Electro-Luminescence)ディスプレイなどで構成される。ディスプレイ106は、画面にタッチパネルが重畳されたタッチパネル式ディスプレイであってもよい。但し、タッチパネルは、アクチュエータではなくセンサーに分類することができる。また、スピーカ107は、複数のスピーカを組み合わせたスピーカを組み合わせたスピーカアレイ(多チャンネルスピーカ又は超多チャンネルスピーカ)であってもよい。スピーカアレイは、振動を生成する1つ以上の加振器(アクチュエータ)によってディスプレイ106の画面を振動させてオーディオ出力を行う「アコースティックサーフェス」を含んでもよい。
 情報処理装置100は、その他のセンサー群108及びアクチュエータ群109をさらに備えている。センサー群108は、キーボードやマウスなどの一般的な入力デバイスを含んでいてもよい。また、センサー群108は、人工知能機能を利用するユーザの生体情報をセンシングする各種の生体センサーや、人工知能機能が利用される環境をセンシングする各種の環境センサーを含んでいてもよい。
 本実施形態では、記憶装置102には、OS、人工知能機能検証製造用ソフトウェア、人工知能機能搭載アプリケーションソフトウェア、及びGUI(Graphical User Interface)を含む、複数のコンピュータプログラムがインストールされていることを想定している。CPU101は、OSが提供する実行環境下で、これらコンピュータプログラムを実行することができる。
 人工知能機能搭載アプリケーションソフトウェアは、CPU101上で動作する際に、人工知能機能検証製造用ソフトウェアに備えられている一群のアプリケーションプログラミングインターフェース(API)を介して、間接的にOSの機能にアクセスする。そして、人工知能機能搭載アプリケーションソフトウェアは、人工知能機能検証製造用ソフトウェアによる検証を受け、人工知能機能の訓練(training)、すなわち人工知能機能による新しいデータの学習を通じて製造されることになる。
 また、情報処理装置100は、記憶装置102上でGUIを動作させている。ユーザは、タッチパネル、キーボード、マウスを用いたGUI操作、又は音声入力を用いて、人工知能機能検証製造用ソフトウェアの動作や入出力を制御することができる。また、情報処理装置100内では、人工知能機能搭載アプリケーションソフトウェアの実行中に、必要に応じてカメラ104やマイクロホン105、スピーカ106、あるいはその他のセンサー群108、アクチュエータ群109を使った入出力動作が行われる。
 また、情報処理装置100は、通信部110をさらに備えている。通信部110は、イーサネット(登録商標)などの有線通信機能、又はWi-Fi(登録商標)などの無線通信機能を備え、さらにルータ(図示しない)などを経由して外部ネットワーク上のクラウドインフラストラクチャ120に相互接続されている。クラウドインフラストラクチャ120は、サーバ装置とストレージなどで構成されている。後述するように、情報処理装置100は、クラウドインフラストラクチャ120との間でデータ交換を行ったり、人工知能機能に関する処理の一部又は全部を依頼したりするAPIを装備している。
 情報処理装置100上では、人工知能機能検証製造用ソフトウェアが動作して、アプリケーションソフトウェアに搭載する人工知能機能の製造を行う。人工知能機能検証製造用ソフトウェアは、人工知能機能の製造の過程において、人工知能機能への入力データや学習用データの検証、人工知能機能の出力データの検証などを実施するが、この点の詳細については後述に譲る。人工知能機能検証製造用ソフトウェアによって製造された人工知能機能を搭載したアプリケーションソフトウェアが、人工知能機能搭載アプリケーションソフトウェアである。人工知能機能搭載アプリケーションソフトウェアは、その製造に使用された同じ情報処理装置100上で動作してもよいし、他の装置にロードして使用されてもよい。
 なお、人工知能機能検証製造用ソフトウェアが動作し、人工知能機能の検証や訓練を行う装置のことを、本明細書では「人工知能機能を検証する装置」とも呼ぶ。また、人工知能機能を検証する装置による検証や訓練の対象となる(又は、検証や訓練が済んだ)人工知能機能が動作する装置のことを、本明細書では「人工知能機能を備えた装置」とも呼ぶ。人工知能機能搭載アプリケーションソフトウェアを実行するコンピュータ、スマートフォン、タブレット、ロボット装置などは、人工知能機能を備えた装置に該当する。
 人工知能は、一般に、人間の脳神経回路を模したニューラルネットワークで表される学習モデルを利用する。ニューラルネットワークは、シナプスを介した人工ニューロン(以下、単に「ニューロン」とも呼ぶ)間の結合により形成したネットワークである。人工知能は、学習用データを用いた学習又は訓練を重ねることによって、ニューロン間の結合重み係数を変化させながら、問題(入力)に対して最適な解決(出力)を推定する学習モデルを構築する仕組みを備えている。
 以下では、人工知能機能を人間の感情学習及び感情推論に適用した例を用いて、人工知能機能を用いたサービスの制御を行う装置及び方法について説明する。但し、人工知能機能を用いたサービスを行う装置及び方法は、感情学習及び感情推論以外に適用した人工知能機能についても、同様に適用できるものと理解されたい。
 図2には、本開示に係る人工知能機能として、感情学習及び感情推論のサービス制御機構を備えたソフトウェアを利用する人工知能システム200の機能的構成例を模式的に示している。
 図示の人工知能システム200は、感情認識及び感情推論サービス機構を備えたコンピュータデバイス210と、1つ以上のクライアントコンピュータ装置220と、1つ以上のサーバコンピュータ装置230と、1つ以上のデータベース240を相互接続して構成される。クライアントコンピュータ装置220、サーバコンピュータ装置230、及びデータベース240は、通信メディア250経由でコンピュータデバイス210と相互接続されていてもよいし、それぞれコンピュータデバイス210に直接接続されていてもよい。コンピュータデバイス210は、例えば図1に示した情報処理装置100に相当する。データベース240は、外部ストレージ上に配置されている。また、通信メディア250は、クラウド、近接通信、インターネットなどで構成される。
 コンピュータデバイス210は、仮想記憶機能を備えた記憶装置(メモリ)211と、処理装置(CPUなど)212と、ユーザインターフェース213と、入出力ソース214を備えている。
 記憶装置211は、感情学習及び感情推論サービス制御機構を備えている。なお、感情学習及び感情推論サービス制御機構を、コンピュータデバイス210上ではなく、クラウド上のサーバコンピュータ装置230上に配置してもよい。また、感情学習及び感情推論サービス機構が備えるロジックは、すべてコンピュータデバイス210上に配置してもよいし、一部又は全部をクラウド上のサーバコンピュータ装置230又はクライアントコンピュータ装置220上に配置してもよい。例えば、学習に関連するロジックは、クラウド上の複数のサーバコンピュータ装置230に分散して配置し、これらが分散学習を行うようにしてもよい。
 ここで、「ロジック」とは、コンピュータプログラム、コンピュータプログラムが生成し又は利用するデータ、又はハードウェア回路(メモリ回路も含む)によってその一部又は全部が実現されるようになされたものである。記憶装置211上には、このようなロジックのうちコンピュータプログラムが格納されている。そして、処理装置212は記憶装置211に格納されたコンピュータプログラムを実行するようになっている。
 本実施形態に係る人工知能システム200において、感情学習及び感情推論サービス制御機構が備えるロジックは、以下を含むものとする。
「データ読み出し処理ロジック(入力データ領域)」
「データ形式変換処理ロジック(変換用データ領域)」
「学習(訓練)用/推論用データ前処理ロジック」
「ガイドラインに従った前処理ロジック」
「文脈認証処理ロジック」
「人工知能ロジック」
 さらに、人工知能ロジックは以下のロジックを含む。
「感情学習(訓練)処理ロジック(学習対象モデルデータ記憶領域を含む)」
「感情推論処理ロジック(学習済みモデルデータ記憶領域を含む)」
 入出力ソース214は、入力コンポーネントと出力コンポーネントからなる。入力コンポーネントは、センサー、カメラ、マイクロホンなどである。また、出力コンポーネントは、ディスプレイデバイスやスピーカ、その他のアクチュエータなどである。
B.人工知能システムを用いた感情認識活用サービスの制御
B-1.学習フェーズ
 図3には、本開示に係る技術を適用したコンピュータデバイス210が、感情学習を行う場合の機能的構成を、処理の概略的な流れと併せて示している。図3に示す例では、コンピュータデバイス210は、人工知能機能による感情の学習と感情の認識のために、センサー群として位置センサー(GPS(Grobal Positioning System)などを含む)311、イメージセンサー312、音センサー(マイクなどを含む)313、匂いセンサー314、味覚センサー315、触覚センサー316、又はその他のセンサーを装備することができる。なお、各センサー311~316…は、情報処理装置100に装備されるセンサー群108に相当する。
 人間の顔の表情から感情認識する人工知能機能の学習を行う場合、コンピュータデバイス210は、少なくともイメージセンサー312を装備し、イメージセンサー312で取得される画像データを人工知能に入力することにより、人工知能機能を訓練する必要がある。
 一般に、センサーからの出力データフォーマットはセンサーの種類によって異なる。図3に示す構成例では、学習用データ前処理ロジック301が、各センサー311~316…からの出力データのデータ形式を、感情学習処理を行う人工知能に入力できるデータ形式に変換する入力前変換処理を行う。
 人工知能機能の学習用データは、コンピュータデバイス210が装備する上記のセンサー311~316…から取得するだけでなく、通信モジュール302を介して外部(クラウドインフラストラクチャ120)から受信するようにしてもよいし、コンピュータデバイス210内のローカルデータベース303から読み出した学習用データを用いてもよい。通信モジュール302は、例えば図1中の通信部110に相当する。
 学習用データ前処理ロジック301は、入力前変換処理を行った学習用データを、感情学習処理ロジック304と、文脈認識処理ロジック305の各々に入力する。感情学習処理ロジック304は、人工知能機能を備えている。なお、感情学習処理ロジック304に対する入力は、認識される文脈と各センサー311~316…からのRAWデータの関連性が学習されるように、文脈認識処理ロジック305からの出力と学習用データ前処理ロジック301の出力が同期して入力されることが望ましい。
 なお、感情学習処理ロジック304に対して提供されるデータが満足すべきガイドラインを設けておいてもよい。そして、学習用データ前処理ロジック301は、そのガイドラインに基づく判断基準データ307を用いて、感情学習処理ロジック304に入力する学習用データが倫理などの観点から適切なものであるかどうかをチェックするようにしてもよい。ガイドラインに基づく判断基準データ307は、コンピュータデバイス210内のローカルストレージ上、又はクラウドのストレージ上に格納されている(以下同様)。
 感情学習処理ロジック304は、例えばコンボリューショナルニューラルネットワーク(CNN)、ディープニューラルネットワーク(DNN)、リカレントニューラルネットワーク(RNN)、強化学習(リインフォースメントラーニング)ニューラルネットワーク、オートエンコーダ、スパイキング(spiking)ニューラルネットワーク(SNN)、サポートベクターマシン(SVM)などの学習モデルを利用した人工知能で構成される。本実施形態に係る感情学習処理ロジック304で使用する人工知能は、問題(入力)に対して最適な解決(出力)を推定するように、損失関数などで計算した結果をバックプロパゲーションなどに技術を通じて学習する仕組みを備えているものとする。
 感情学習処理ロジック304は、人工知能に新たな学習用データを入力することによる訓練(例えば、ディープラーニング)を通じて、感情認識用の人工知能の学習を行い、訓練前とは異なる新たな感情認識用学習モデルを製造する。人工知能がニューラルネットワークで構成される場合、学習用データを用いた学習を重ねることによって、ニューロン間の結合重み係数を変化させながら、入力に対して最適な出力を推定するように学習が進行し、ニューロン間の結合重み係数からなる構造化された感情認識用学習モデルを製造することになる。そして、製造された感情認識用学習モデルは、データベース306に格納される。データベース306は、コンピュータデバイス210内のローカルストレージであってもよいし、あるいは、クラウドインフラストラクチャ120(図1を参照のこと)上のストレージであってもよい。
 感情学習処理ロジック304は、上述したガイドラインに基づく判断基準データ307を用いて、製造(又は、ディープラーニングにより学習)した感情認識用学習モデルが倫理などの観点から適切なものであるかどうかをチェックしてから、データベース306に格納するようにしてもよい。
 なお、感情推論に複数のニューラルネットワークNN1、NN2、…、NNiのモデルを利用する場合には(後述並びに図9を参照のこと)、感情学習処理ロジック304は、各ニューラルネットワークNN1、NN2、…、NNiの製造を行い、且つデータベース306に格納するものとする。
 図4には、感情学習処理ロジック304を、CNNを含むDNNを用いて教師ありデータによって実装する例を示している。図示の例では、多層からなるコンボリューション層402を構成するCNNは、イメージセンサー312から出力されたRGBコンポーネント401のデータを入力すると、RGB画像の特徴を出力ノードから出力する。ニューラルネットワークの全結合層403は、以下のデータを入力する。
-CNNの出力ノードから出力される画像特徴データ
-他のセンサーからの入力データ、又はデータベースやクラウドインフラストラクチャに置かれたデータ
-文脈認識処理ロジックからの出力データ
 文脈認識処理ロジック305は、以下の入力を受け取り、文脈情報をニューラルネットワークの全結合層403の入力層に入力する。
-イメージセンサーが出力するRGBデータ
-その他のセンサーからの入力
 上記のうち、その他のセンサーは、ToF(Time-of-Flight)センサー(深度情報センサー)、DVS(Dynamic Vision Sensor)、赤外線センサー、音センサー(マイクロホン)、匂いセンサー、味覚センサー、触覚センサー、温度センサー、高度センサー、GPS、又は車輪駆動系に連動した回転センサー及びトルクセンサーなど、任意のセンサーの組み合わせとすることができる。なお、DVSは、SNNから構成される。また、その他のセンサーからの入力は、文脈認識処理ロジック305を経由せずに、直接、全結合層403に入力するようにしてもよい。
 全結合層403の出力層は、感情出力のノードである。教師付学習であれば、ノードは、各感情ラベル(一例としては、怒り、嫌悪、恐れ、幸福、悲しみ、驚きの6つの出力)とすることができる。感情ラベルは、イメージセンサー312からの入力画像に含まれる顔画像について、顔の表情を表現するものとして与えられるデータである。
 損失関数404は、感情出力及び感情ラベルを引数として定義される関数である。例えば、全結合層403の全ノードからの感情出力と感情ラベルの差分に基づいて損失関数404を定義することができる。そして、バックプロパゲーションなどの手法を用いて、全結合層403の出力層から入力層の方向に向かって、各ニューロン間の結合重み係数を修正することによって、損失関数404を最小化するようにニューラルネットワークの学習又は訓練を実施する。全結合層403のみ結合重み係数の学習を行うようにしてもよいし、又は、全結合層403及びコンボリューション層402のすべてについて結合重み係数の学習を行うようにしてもよい。本実施形態では、ニューラルネットワークの学習又は訓練は、ディープラーニングによって行われるものとする。
B-2.感情認識活用サービス(1) 
 図5には、本開示に係る技術を適用したコンピュータデバイス210が、感情認識を行う場合の機能的構成を、処理の概略的な流れと併せて示している。但し、図3に示したものと同じコンポーネントについては同一の参照番号を付けている。
 学習済みの人工知能機能を用いて人間の顔の表情から感情認識を行う場合も同様に、コンピュータデバイス210は、イメージセンサーで取得される画像データを学習済みの人工知能に入力することにより、人工知能機能に人間の感情を認識させる。
 センサーからの出力データフォーマットはセンサーの種類によって異なる(同上)。図5に示す構成例では、認識用データ前処理ロジック501が、各センサーからの出力データのデータ形式を、感情認識処理を行う人工知能に入力できるデータ形式に変換する入力前変換処理を行う。認識用データ前処理ロジック501は、入力前変換処理を行った認識用データを、感情推論処理ロジック502と、文脈認識処理ロジック305の各々に入力する。
 人工知能機能の認識用データは、コンピュータデバイス210が装備する上記のセンサーから取得するだけでなく、通信モジュール302を介して外部から受信するようにしてもよいし、コンピュータデバイス210内のローカルデータベース303から読み出した学習用データを用いてもよい。
 感情推論処理ロジック502は、人工知能機能を備えている。なお、感情推論処理ロジック502に対する入力は、認識される文脈と各センサー311~316…からのRAWデータの関連性が学習されるように、文脈認識処理ロジック305からの出力と認識用データ前処理ロジック501の出力が同期して入力されることが望ましい。
 なお、感情推論処理ロジック502に対して提供されるデータが満足すべきガイドラインを設けておいてもよい。そして、認識用データ前処理ロジック501は、そのガイドラインに基づく判断基準データ307を用いて、感情推論処理ロジック502に入力する認識用データが倫理などの観点から適切なものであるかどうかをチェックするようにしてもよい。
 感情推論処理ロジック502は、例えばCNN、DNN、RNN、強化学習ニューラルネットワーク、オートエンコーダ、SNN、SVMなどの人工知能で構成される。感情推論処理ロジック502の人工知能機能は、データベース306から読み出された学習済み感情認識用モデルが適用され、認識用データ前処理ロジック501を介して入力される認識用データから人間の感情を推論する。データベース306は、コンピュータデバイス210内のローカルストレージであってもよいし、あるいは、クラウドインフラストラクチャ120(図1を参照のこと)上のストレージであってもよい。そして、感情推論処理ロジック502は、認識用データから推論した人間の感情を、感情認識活用サービス提供処理ロジック503に出力する。
 感情認識活用サービス提供処理ロジック503は、感情推論処理ロジック502が推定した人間の感情に基づいて、その人間に対して感情に適合したサービスを提供したり商品などの推薦を行ったりする。上述したガイドラインに基づく判断基準データ307を用いて、感情認識を利用したサービスや商品などの推薦が倫理などの観点から適切なものであるかどうかをチェックしてから、サービスの提供や商品などの推薦を実施するようにしてもよい。
 図6には、図3中の学習用データ前処理ロジック301並びに図5中の認識用データ前処理ロジック501が、訓練用又は感情認識用の人工知能に入力する学習用データ又は認識用データに対して実施する前処理の手順をフローチャートの形式で示している。
 まず、学習用データ前処理ロジック301又は認識用データ前処理ロジック501において、ガイドラインに従った前処理を行う(ステップS601)。この前処理は、必ずしも毎回実施するものではなく、初回のみ行うようにしてもよい。すなわち、2回目以降は、本処理をステップS603から開始してもよい。ガイドラインの詳細に関しては、後述に譲る。そして、学習用データ前処理ロジック301又は認識用データ前処理ロジック501は、ガイドラインに基づく判断基準データ307を用いて、人工知能の感情学習を行い、又は人工知能による感情認識を行ってもよいかどうかを判定する(ステップS602)。
 ガイドラインに基づく判断基準データ307により、人工知能の感情学習を行えない、又は人工知能による感情認識を行えないと判定された場合には(ステップS602のNo)、後続の処理ステップをすべてスキップして、学習用データ前処理又は認識用データ前処理を終了する。
 また、ガイドラインに基づく判断基準データ307により、人工知能の感情学習を行ってもよい、又は人工知能による感情認識を行ってもよいと判定された場合には(ステップS602のYes)、学習用データ前処理ロジック301又は認識用データ前処理ロジック501は、コンピュータデバイス210が装備する各種のセンサーやコンピュータデバイス210内のローカルデータベース303、あるいはクラウドインフラストラクチャ120から学習用データ又は認識用データを取得する(ステップS603)。
 学習用データ前処理ロジック301は、取得した学習用データを又は認識用データ前処理ロジック501は、各センサーからの出力データのデータ形式を、感情学習処理を行う人工知能又は感情認識処理を行う人工知能に入力できるデータ形式に変換する入力前変換処理を行う(ステップS604)。
 そして、学習用データ前処理ロジック301又は認識用データ前処理ロジック501は、形式変換したデータを、感情学習処理を行う人工知能又は感情認識処理を行う人工知能に入力して(ステップS605)、本処理を終了する。
 例えば、イメージセンサー312から取得したイメージデータのデータ形式は、RGBフォーマットの場合もあれば、YUVフォーマットの場合もあり得る。また、ローカルデータベース303やクラウドインフラストラクチャ120から取得したイメージデータ(あるいは、その他の各種のセンサーデータ)が異なる形式の場合もあり得る。学習用データ前処理ロジック301や認識用データ前処理ロジック501は、さまざまなデータフォーマットからなるセンサーデータを、人工知能が想定する既定のフォーマットに変換する前処理を施してから、人工知能に入力するようになっている。
 図7には、図3中の感情学習処理ロジック304において用いられる人工知能の感情学習処理、並びに図5中の感情推論処理ロジック502において用いられる人工知能による感情認識処理の手順をフローチャートの形式で示している。
 感情学習処理ロジック304又は感情推論処理ロジック502は、学習用データ前処理ロジック301又は認識用データ前処理ロジック501で前処理されたデータを、ニューラルネットワークで表される人工知能に入力する(ステップS701)。ここで、推論処理の場合には、図4を参照しながら説明したように、センサーからの直接のデータ入力、及び文脈認識処理ロジック305からのデータの入力も行う。
 そして、感情学習処理ロジック304は、先行ステップS701でデータを人工知能に入力することによる訓練(例えば、ディープラーニング)を通じて、感情認識用の人工知能の学習を行い、訓練前とは異なる新たな感情認識用学習モデルを製造する(すなわち学習用モデルを訓練する)(ステップS702)。人工知能の学習の際には、バックプロパゲーションなどの手法を用いてニューラルネットワークの訓練を行う。そして、製造された感情認識用学習モデルは、データベース306に格納される。
 また、感情推論処理ロジック502は、データベース306から読み出された学習済み感情認識用モデルが適用された人工知能を用いて、入力データから人間の感情を推論する感情推論処理を行う(ステップS702)。そして、推論された人間の感情は、感情認識活用サービス提供処理ロジック503に出力されて、結果として、サービスの提供や商品などの推薦が実施される。
 図8には、感情認識活用サービス提供処理ロジック503において実施される、推論された感情に基づいてサービスを提供する処理手順をフローチャートの形式で示している。
 まず、感情認識活用サービス提供処理ロジック503は、ガイドラインに従った前処理を行う(ステップS801)。この前処理は、必ずしも毎回実施するものではなく、初回のみ行うようにしてもよい。さらに、認識用データ前処理ロジック501が図6に示した前処理や、感情推論処理ロジック502が図7に示した感情認識処理において、既に行っているガイドラインに従った前処理を行った事実又は結果を記憶しておくことにより、既にステップS801の処理を実施しているものと代用することができる場合には、ステップS801の処理を省略して、直接、感情推論処理ロジック502の人工知能から出力された推論データを読み出す処理に進むようにしてもよい。
 ガイドラインに基づく判断基準データ307により、感情認識をサービスに活用できない場合には(ステップS802のNo)、感情認識活用サービス提供処理ロジック503は、後続の処理ステップをすべてスキップして、感情認識に基づくサービスの提供処理を終了する。
 また、ガイドラインに基づく判断基準データ307により、感情認識をサービスに活用してもよい場合には(ステップS802のYes)、感情認識活用サービス提供処理ロジック503は、感情推論処理ロジック502が認識用データから推論したデータを入力する(ステップS803)。
 次いで、感情認識活用サービス提供処理ロジック503は、感情推論処理ロジック502が推論したデータ、すなわち感情データに基づいてサービスの提供処理を継続してよいかどうかを判断する(ステップS804)。
 感情認識活用サービス提供処理ロジック503は、サービスの提供処理を継続できないと判断した場合には(ステップS804のNo)、感情認識に基づくサービスの提供処理を終了する。例えば、感情推論処理ロジック502により「怒り」の感情が認識された場合には、それまでに行った感情認識処理による結果がユーザに何らかの不愉快な状況が生じた可能性がある。そのような場合には、感情認識活用サービス提供処理ロジック503は、サービスの提供処理を継続できないと判断して、感情認識に基づくサービスの提供処理を終了する。
 一方、感情認識活用サービス提供処理ロジック503は、サービスの提供処理を継続できると判断した場合には(ステップS804のYes)、感情推論処理ロジック502により推定された感情に基づいたサービスをユーザに提供して(ステップS805)、本処理を終了する。例えば、感情推論処理ロジック502により「驚き」の感情が認識された場合には、感情認識活用サービス提供処理ロジック503は、ユーザに対して「何か問題があったかどうかを問い合わせる」といった行動や動作を、アクチュエータなどを使って行うようにすることができる。
 ユーザに対して推定した感情に適合したサービスを提供したり商品などの推薦を行ったりする処理を実施することで、感情認識サービスが人間に対してできるだけ有効なものにすることができる一方、ユーザに不愉快であったり不都合であったりする場合には、感情認識サービスを即座に中止することができる。したがって、コンピュータデバイス210を通じて、よりフレンドリーな感情認識活用サービスを提供することができる。
B-3.感情認識活用サービス(2)
 図9には、本開示に係る技術を適用したコンピュータデバイス210が、感情理解を行う人工知能機能を複数有し、感情に認識を行う場合の機能的構成を、処理の概略的な流れと併せて示している。但し、図3並びに図5に示したものと同じコンポーネントについては同一の参照番号を付けている。
 コンピュータデバイス210は、イメージセンサーで取得される画像データを学習済みの人工知能に入力することにより、人工知能機能に人間の感情を認識させる。センサーからの出力データフォーマットはセンサーの種類によって異なるので、認識用データ前処理ロジック501が、各センサーからの出力データのデータ形式を、感情認識処理を行う人工知能に入力できるデータ形式に変換する入力前変換処理を行う。認識用データ前処理ロジック501は、入力前変換処理を行った認識用データを、感情推論処理ロジック901と、文脈認識処理ロジック305の各々に入力する。人工知能機能の認識用データは、コンピュータデバイス210が装備する上記のセンサーから取得するだけでなく、通信モジュール302を介して外部から受信するようにしてもよいし、コンピュータデバイス210内のローカルデータベース303から読み出した学習用データを用いてもよい。
 感情推論処理ロジック901は、複数の人工知能機能を備えている。図示の例では、各人工知能機能はニューラルネットワーク(NN)のモデルからなり、感情推論処理ロジック901はi個のニューラルネットワークNN1、NN2、…、NNiを備えているものとする。各ニューラルネットワークNN1、NN2、…、NNiは、例えばCNN、DNN、RNN、強化学習ニューラルネットワーク、オートエンコーダ、SNN、SVMなどの人工知能で構成される。感情推論処理ロジック502内の各ニューラルネットワークNN1、NN2、…、NNiは、データベース306から読み出された学習済み感情認識用モデルM1、M2、…、Miがそれぞれ適用され、認識用データ前処理ロジック501を介して入力される認識用データから人間の感情を推論する。データベース306は、コンピュータデバイス210内のローカルストレージであってもよいし、あるいは、クラウドインフラストラクチャ120(図1を参照のこと)上のストレージであってもよい。そして、感情推論処理ロジック901は、認識用データから推論した人間の感情を、感情認識活用サービス提供処理ロジック902に出力する。
 ここで、各ニューラルネットワークNN1、NN2、…、NNiは、異なる学習用データ又は異なる損失関数などを用いて、異なる状況で訓練された学習済み感情認識用モデルM1、M2、…、Miをそれぞれ用いることにより、同様に人間の感情を認識するニューラルネットワークであるが、利用時に入力されるさまざまな認識用データの組み合わせにより異なる認識結果を出力することが想定される。したがって、感情推論処理ロジック901は、複数のニューラルネットワークNN1、NN2、…、NNiからの推論結果を総合的に組み合わせることによって、人間の感情の認識精度を向上させることができる。
 感情認識活用サービス提供処理ロジック902は、感情推論処理ロジック901が推定した人間の感情に基づいて、その人間に対して感情に適合したサービスを提供したり商品などの推薦を行ったりする。上述したガイドラインに基づく判断基準データ307を用いて、感情認識を利用したサービスや商品などの推薦が倫理などの観点から適切なものであるかどうかをチェックしてから、サービスの提供や商品などの推薦を実施するようにしてもよい。感情推論処理ロジック901による感情の認識精度が向上すれば、その分だけ、感情に認識活用サービス提供処理ロジック902がユーザの満足度の高い感情認識活用サービスを提供することができる。
 図10には、図9中の、複数の人工知能機能を備えた感情推論処理ロジック901による感情認識処理の手順をフローチャートの形式で示している。
 感情推論処理ロジック901は、認識用データ前処理ロジック501で前処理されたデータを、各ニューラルネットワークNN1、NN2、…、NNiに入力する(ステップS1001)。また、図4を参照しながら説明したように、センサーからの直接のデータ入力、及び文脈認識処理ロジック305からのデータの入力も行う。
 各ニューラルネットワークNN1、NN2、…、NNiは、データベース306から読み出された学習済み感情認識用モデルM1、M2、…、Miがそれぞれ適用され、認識用データ前処理ロジック501を介して入力される認識用データから人間の感情を推論する。そして、感情推論処理ロジック901は、複数のニューラルネットワークNN1、NN2、…、NNiからの推論結果の集合を、それぞれ個別に認識できるように(例えば、各ニューラルネットワークのIDを付けて)、推論データ集合として出力する(ステップS1002)。そして、推論された人間の感情は、感情認識活用サービス提供処理ロジック902に出力されて、サービスの提供や商品などの推薦が実施される。
 図11には、感情認識活用サービス提供処理ロジック902において実施される、推論された感情に基づいてサービスを提供する処理手順をフローチャートの形式で示している。
 まず、感情認識活用サービス提供処理ロジック902は、ガイドラインに従った前処理を行う(ステップS1101)。この前処理は、必ずしも毎回実施するものではなく、初回のみ行うようにしてもよい。さらに、認識用データ前処理ロジック501が図6に示した前処理や、感情推論処理ロジック901が図7に示した感情認識処理において、既に行っているガイドラインに従った前処理を行った事実又は結果を記憶しておくことにより、既にステップS1101の処理を実施しているものと代用することができる場合には、ステップS1101の処理を省略して、直接、感情推論処理ロジック901の人工知能から出力された推論データ集合を読み出す処理に進むようにしてもよい。
 ガイドラインに基づく判断基準データ307により、感情認識をサービスに活用できない場合には(ステップS1102のNo)、感情認識活用サービス提供処理ロジック902は、後続の処理ステップをすべてスキップして、感情認識に基づくサービスの提供処理を終了する。
 また、ガイドラインに基づく判断基準データ307により、感情認識をサービスに活用してもよい場合には(ステップS1102のYes)、感情認識活用サービス提供処理ロジック902は、感情推論処理ロジック901内の複数のニューラルネットワークNN1、NN2、…、NNiが認識用データから推論した推論データ集合を入力する(ステップS1103)。
 そして、感情認識活用サービス提供処理ロジック902は、各ニューラルネットワークNN1、NN2、…、NNiの推論データを比較検討処理する(ステップS1104)。
 比較検討処理の一例として、感情認識活用サービス提供処理ロジック902は、複数の推論データを統計的に処理して、最も蓋然性の高い推論データをユーザの感情の認識結果として採用する。別の例として、認識活用サービス提供処理ロジック902は、感情の推論データを時系列的に記憶しておき、事前に定義した感情間の遷移ネットワークにおいて、最も蓋然性の高い推論データをユーザの感情の認識結果として採用する。例えば、直前に推定されたユーザの感情が「怒り」であり、1つのニューラルネットワークから出力された推論データが「幸福」を示唆し、別のニューラルネットワークから出力された推論データが「悲しみであった場合には、遷移確率付きの遷移を「怒り」→(遷移確率P1)→「幸福」、「怒り」→(遷移確率P2)→「悲しみ」と定義し、且つ、P1<P2と定義することで、「悲しみ」を最も蓋然性の高い推論データとすることができる。これらの感情間の遷移関係についても、あらかじめ学習済みの人工知能のモデルを用い、別の人工知能が判断を行うようにしてもよい。また、直前に推定されたユーザの感情からその後の感情を推定する処理に、量子力学を利用して並列処理を実現する量子コンピュータを用いてもよい。
 次いで、感情認識活用サービス提供処理ロジック902は、推論データ集合から認識された感情に基づいてサービスの提供処理を継続してよいかどうかを判断する(ステップS1105)。例えば、「怒り」の感情が認識された場合には、それまでに行った感情認識処理による結果がユーザに何らかの不愉快な状況が生じた可能性がある。そのような場合には、感情認識活用サービス提供処理ロジック902は、サービスの提供処理を継続できないと判断して、感情認識に基づくサービスの提供処理を終了する。
 一方、感情認識活用サービス提供処理ロジック902は、サービスの提供処理を継続できると判断した場合には(ステップS1105のYes)、推論データ集合から推定された感情に基づいたサービスをユーザに提供して(ステップS1106)、本処理を終了する。例えば、「驚き」の感情が認識された場合には、感情認識活用サービス提供処理ロジック902は、ユーザに対して「何か問題があったかどうかを問い合わせる」といった行動や動作を、アクチュエータなどを使って行うようにすることができる。
 ユーザに対して推定した感情に適合したサービスを提供したり商品などの推薦を行ったりする処理を実施することで、感情認識サービスが人間に対してできるだけ有効なものにすることができる一方、ユーザに不愉快であったり不都合であったりする場合には、感情認識サービスを即座に中止することができる。したがって、コンピュータデバイス210を通じて、よりフレンドリーな感情認識活用サービスを提供することができる。
C.ガイドラインによる制御
 図12には、ガイドラインのデータ構造を図解している。図示のガイドラインは、学習用データ並びに認識用データの前処理、感情学習処理、及び感情認識決用サービス提供処理に適用することができる。上述したガイドラインに基づく判断基準データ307は、図12に示すようなデータ構造からなり、コンピュータデバイス210内のローカルストレージ上、又はクラウドのストレージ上で管理されているものとする。また、感情認識活用サービス提供処理ロジック503又は902は、図12に示すようなガイドラインを参照して、感情認識をサービスに活用することの適否を判断する。
 図12では、原則を定義する基本ガイドラインをルート(root)に配置し、応用に応じて階層的なクラス構造をとることができることを示している。各クラスのガイドラインにおいて、特に本実施形態に関係して共通に持つパラメータは、少なくとも以下の4つである。
(1)感情認識活用サービス
(2)例外
(3)ユーザの同意
(4)複数モデルの利用
 1番目の「感情認識活用サービス」は、感情認識をサービスに利用してよいかどうかを規定するパラメータである。「感情認識活用サービス」パラメータは、固定の定数であってもよいし、任意に変更できるような変数であってもよい(以下、他のパラメータについても同様)。
 2番目の「例外」は、「感情認識活用サービス」パラメータが「NO」である場合の例外を規定するために設けられたパラメータである。ガイドライン上は原則として「感情認識活用サービス」のパラメータが「NO」である場合には感情認識活用サービスを認めないが、この「例外」のパラメータによりサービスに感情認識を活用してよい例外条件を指定することができる。例えば、例外条件に「ユーザの同意」を指定した場合、「感情認識活用サービス」のパラメータが「NO」である場合であっても、ユーザに同意を求め、同意が得られれば、サービスに感情認識の活用を認めることを意味する。他の例外条件として、「特定病気診断」かどうかを条件とするもの、「振り込め詐欺防止対策監視用」かどうかを条件とするものなどを挙げることができる。必要に応じて「例外」パラメータを任意に定義することができる。
 3番目の「ユーザの同意」は、「感情認識活用サービス」パラメータの指定に反する制御を行なう際にユーザの同意が必要かどうかを指定するパラメータである。「ユーザの同意」パラメータが「YES」の場合にはユーザの同意が必要であることを示し、「NO」の場合にはユーザの同意が不要であることを示す。
 4番目の「複数モデルの利用」は、感情認識をサービスに活用してよい場合において、それぞれ独立した学習及び推論を行うことができる複数の人工知能(例えばニューラルネットワークのモデル)の出力を総合的に判断して感情を認識することを必要とするかどうかを示すパラメータである。複数の人工知能の出力を総合的に判断するシステムの構成及び動作については、図9~図11を参照されたい。
 図12に示す例では、ルートクラスである「基本ガイドライン」の各パラメータは、「感情認識活用サービス」=「NO」、「例外」=「ユーザの同意」、「複数モデルの利用」=「YES」と指定されている。
 まず、「感情認識活用サービス」=「NO」である。したがって、感情認識活用サービス提供処理ロジック503又は902は、感情認識をサービスに活用することを原則として禁止するような制御を指示する。一方、「例外」=「ユーザの同意」と指定されている。したがって、感情認識活用サービス提供処理ロジック503又は902は、ユーザインターフェース213などを通じてユーザの同意を得る処理が行われた場合には、感情認識をサービスに活用に活用することを許可する。具体的には、コンピュータデバイス210は、スピーカ107からの音声ガイダンスやディスプレイ106上で文字や画像を用いた問い合わせを行い、ユーザの同意を得る処理を行う。
 ガイドライン上は「ユーザの同意」=「YES」、すなわちユーザの同意を得ることを要求しているにもかかわらず、コンピュータデバイス210がユーザに問い合わせを行うためのユーザインターフェースを備えていない場合には、システムエラーとして、ユーザに対して処理ができないことを通知するようにしてもよいし、あるいは単に「例外」が認められないものとして処理を続行するようにしてもよい。このように「例外」というパラメータを設けることより、感情学習及び感情推論のサービス制御機構を備えた人工知能システム200を利用する場合に、ユーザの同意を求めることができる。したがって、人工知能システム200を使うサービス提供者は、事前に通知に基づくユーザの同意(informed consent)を得ることができる。この結果、ユーザに不快感や不信感を与えることなく、ユーザにとって有用と考えられる感情認識活用サービスを提供することができる。
 感情認識活用サービスの適用分野などに応じて、「基本ガイドライン」のサブクラスを定義することができる。図12に示すガイドラインのデータ構造では、「基本ガイドライン」のサブクラスとして、「監視システム用ガイドライン」、「教育システム用ガイドライン」、「医療システム用ガイドライン」、「ゲーム用ガイドライン」、…、「金融商品サービス用ガイドライン」のデータ構造を定義し、さらに「監視システム用ガイドライン」のサブクラスとして「入国審査システム用ガイドライン」、「ゲーム用ガイドライン」のサブクラスとして「ペットロボット用ガイドライン」のデータ構造を定義している。以下、各サブクラスのデータ構造について説明しておく。
 感情システム用ガイドラインでは、「感情認識活用サービス」=「YES」、「ユーザの同意」=「NO」、すなわち監視システムに感情認識活用サービスを利用してよいこと、及び、ユーザの同意を得る必要がないことを規定している。監視システムでは、対象となる人間を画像認識して表情から感情を認識してサービスに活用することを必要とするが、監視というサービスの公共性から、ユーザの同意がなくても感情認識をサービスに利用すべきと考えられるからである。また、監視というサービスの公共性から、誤った判断により人間の感情を認識することがないように、高度な「公平性(fairness)」が求められることから、「複数のモデル利用」=「YES」、すなわち複数の人工知能の出力を総合的に判断して高い精度で人間の感情を認識することが要求される。さらに「監視システム用ガイドライン」のサブクラスである「入国審査システム用ガイドライン」も、応用は異なるが、上位クラスである「監視システム用ガイドライン」とサービスの性質が変わることがない(同じく公共性が要求される)ので、規定上も異なるパラメータの設定は規定されていない。
 教育システム用ガイドラインにおいて特徴的なのは、「感情認識活用サービス」=「NO」、「例外」=「NO」、すなわち、例外を設けずに感情認識活用サービスを禁止していることである。このようにすることで、感情認識機能を持つ人工知能システムが教育現場に導入された場合に、現場の判断により子供の表情から感情を認識することを許可したりしなかったりすることによって問題が生じることを未然に防ぐことができる。
 医療システム用ガイドラインにおいては、「感情認識活用サービス」=「NO」、「例外」=「特定病気診断」、すなわち、感情認識活用サービスを原則禁止とするが、特定病気診断であることを例外条件として、感情認識をサービスに利用することを認めることとしている。例えば「パーソナリティ障害」の診断において医は、感情認識が有用な場合もある。疾患の治療において有用であることが認められる場合には、このようなガイドラインに例外を設けることによる制御は効果を発揮する。
 金融商品サービス用ガイドラインにおいても、同様に「感情認識活用サービス」=「NO」、すなわち、感情認識活用サービスを原則禁止としつつ、「例外」=「振り込め詐欺防止対策監視用」を規定している。銀行などの金融機関においては、顧客が振り込め詐欺に遭わないように防止対策を講じることは有益である。人間が振り込み操作を行なう際に、表情から「恐れ」などの感情を認識した場合には、感情認識活用サービスを利用することにより、その人が振り込みにためらいがあることを予測して、担当者が顧客に声をかける、顧客に注意を喚起する音声を発したりメッセージを表示したりするといった、振込詐欺防止対策を講じることができる。
 ゲーム用ガイドラインにおいては、「感情認識活用サービス」=「YES」、「ユーザの同意」=「YES」、すなわちゲームにおいて感情認識をゲームに利用してもよいこととするが、ユーザの同意を得ることを求めるように規定している。ゲームでは、あらかじめユーザに同意を求めるようにすることが所定の場合には必要となる慣習に従ったガイドラインの内容である。一方、ゲームの娯楽性から、ゲーム中のキャラクターが思いがけない動作をすることもゲームの重要な要素であり、感情認識の精度はそれほど重視されない場合もある。このため、「複数モデルの利用」=「N/A」、すなわち複数の人工知能の出力を総合的に判断する必要はないことを規定している。
 例えば、耳穴開放型のヘッドホンとHRTF(Head Related Transfer Function)の技法とを組み合わせて、外音と同時に人工的に生成したエージェントなどの音声をユーザの頭部周辺の3次元空間の任意の位置に音像定位する技術が開発されている。このようなヘッドホンを用いてゲームをするユーザに対して、上記のようなゲーム用ガイドラインに従って感情認識活用サービスを行うことができる。複数モデルを利用する場合に比べれば感情認識の精度が低くなる可能性もあるが、キャラクターのエージェントがユーザの頭部周辺でさまようような音像定位を実施すると、ユーザの気を引くために、認識したユーザの感情に対して適切でないキャラクターの動作をすることも考えられる。このような場合であっても、ユーザの感情を正確に認識する必要性は比較的に低いと考えられる。
 一方、ゲーム用ガイドラインのサブクラスであるペットロボット用ガイドラインでは、「ペットロボット」はユーザに対する帰属性が強いという観点から、ユーザの感情をより正確に認識する必要性が高いので、「複数のモデル利用」=「YES」、すなわち複数の人工知能の出力を総合的に判断して高い精度で人間の感情を認識することを要求している。
 なお、図12に示すガイドラインのクラス階層は一例であり、特定の設計を示唆する固定の階層構造ではない。例えば、ルートクラスの下に図示しないサブクラスをさらに含むことや、又は図示したサブクラスの一部又は全部を含まないこと、サブクラスのさらに下に2階層以上のサブクラスが定義されることも想定される。また、各クラスのガイドラインのパラメータも任意に変更することができる。
 図13には、ガイドラインに従った前処理の手順をフローチャートの形式で示している。図示の処理手順は、図6中のステップS601、図8中のステップS801、並びに図11中のステップS1101で、学習用データ前処理ロジック301、認識用データ前処理ロジック501などによって実行される。
 まず、感情認識活用サービスを提供しようとするコンピュータデバイス210の製品又はサービスのカテゴリーと、製品又はサービスとしての人工知能機能情報などを読み込む(ステップS1301)。
 次いで、製品又はサービスのカテゴリーを指定することで、対応するガイドライン情報をストレージから読み込む(ステップS1302)。ここでは、ガイドライン情報は、図12に示したように階層的に構造化されていることを想定しているが、もちろんそれ以外の構造で管理されていてもよい。また、ガイドライン情報は、コンピュータデバイス210内のローカルストレージ上、又はクラウドのストレージ上で管理されており、前処理ロジック301又は501はストレージ上からガイドライン情報を読み込む。
 次いで、ステップS1302で読み込んだガイドライン情報のうち、ステップS1301で読み込んだ製品又はサービスのカテゴリーに対応するクラスで規定されている各パラメータを参照して、「感情認識活用サービス」のパラメータが「YES」であるかどうかをチェックする(ステップS1303)。
 「感情認識活用サービス」のパラメータが「YES」である場合には(ステップS1303のYes)、続いて、「ユーザの同意」パラメータが「YES」であるかどうかをチェックする(ステップS1304)。
 「ユーザの同意」パラメータが「YES」、すなわち「感情認識活用サービス」パラメータの指定に反する制御を行なう際にユーザの同意が必要である場合には(ステップS1304のYes)、ユーザインターフェース213などを通じてユーザの同意を得る処理を実施する(ステップS1309)。
 また、「感情認識活用サービス」のパラメータが「NO」である場合には(ステップS1303のNo)、「例外」のパラメータで「ユーザの同意」が指定されているかどうかをチェックする(ステップS1308)。そして、「例外」のパラメータで「ユーザの同意」が指定されている場合には(ステップS1308Yes)、ユーザインターフェース213などを通じてユーザの同意を得る処理を実施する(ステップS1309)。
 ここで、「感情認識活用サービス」のパラメータが「NO」で且つ「例外」のパラメータで「ユーザの同意」が指定されていない場合(ステップS1308のNo)、並びに感情認識活用サービスの利用に関してユーザの同意が得られなかった場合には(ステップS1310のNo)、感情推論(学習、サービス)を行えない状態(又は、感情認識の結果を該当するカテゴリーにおけるサービスの提供に利用できない状態)に設定して(ステップS1311)、本処理を終了する。
 一方、「ユーザの同意」パラメータが「NO」、すなわち「感情認識活用サービス」パラメータの指定に反する制御を行なう際にユーザの同意が不要である場合(ステップS1304のNo)、並びに感情認識活用サービスの利用に関してユーザの同意を得た場合には(ステップS1310のYes)、続いて、「複数モデルの利用」のパラメータが「YES」、すなわち複数の人工知能を利用することが指定されているかどうかをチェックする(ステップS1305)。
 「複数モデルの利用」のパラメータが「YES」の場合には(ステップS1305のYes)、ステップS1301で読み込んだ、コンピュータデバイス210の人工知能機能を参照して、複数モデルをサポートするかどうかをチェックする(ステップS1306)。ここで、複数モデルがサポートされない場合には(ステップS1306のNo)、要求されている感情認識の精度が得られないことが懸念されるので、感情推論(学習、サービス)を行えない状態に設定して(ステップS1311)、本処理を終了する。
 また、「複数モデルの利用」のパラメータが「NO」の場合(ステップS1305のNo)、並びに「複数モデルの利用」のパラメータが「YES」で且つ複数モデルがサポートされている場合には(ステップS1306のYes)、感情推論(学習、サービス)を行える状態(又は、感情認識の結果を該当するカテゴリーにおけるサービスの提供に利用できる状態)に設定して(ステップS1307)、本処理を終了する。
D.感情認識サービスのユーザインターフェース
 図14には、感情認識活用サービスのユーザインターフェース(UI)画面の構成例を示している。図示のUI画面1400は、画面の左半分に認識対象の人間の顔画像1401を表示するとともに、画面の右半分に感情認識結果1402を示している。顔画像1401は、画像認識により特定した各顔パーツ(眉毛、目、鼻、口、頬、顎)の位置をオーバーラップして表示している。また、感情認識結果1402は、感情推論処理ロジック901が顔画像1401の表情から認識した「怒り」、「嫌悪」、「恐れ」、「幸福」、「悲しみ」、「驚き」の6つの感情ラベルの各々レベルをレーダーチャート上に表示している。
 図13に示したガイドラインに従った前処理手順では、「ユーザの同意」パラメータが「YES」の場合、並びに、「感情認識活用サービス」のパラメータが「NO」であるが「例外」のパラメータで「ユーザの同意」が指定されている場合には、ユーザの同意を得る処理が実施される(前述)。したがって、図14に示すUI画面1400の右下には、ユーザの同意を確認するための「Q.感情認識を行います。よろしいですか?」というメッセージ1403を表示する。また、メッセージ1403の表示と併せて、「感情認識を行います。よろしいですか?」という音声メッセージの発話を行うようにしてもよい。
 そして、ユーザが「よいです。」などの音声による同意や、タッチパネル、キーボード、マウスなどの操作を用いて同意する意思が示されると、ガイドラインに従った前処理が先に進む。他方、ユーザが「いいえ。」などの音声による同意しないという回答や、タッチパネル、キーボード、マウスなどの操作を用いて同意しない意思が示されると、感情推論(学習、サービス)を行えない状態に設定して、ガイドラインに従った前処理が終了する。
 また、ユーザは、感情認識活用サービスの利用に同意した場合であっても、感情認識の結論に至った理由を問い合わせたい場合がある。例えば、ユーザは、感情認識活用サービスを実際に受けた後に、サービスの内容に疑問があり、自身の感情がどのように認識されたのかを問い合わせたい場合がある。また、ユーザが感情認識活用サービスの利用に同意しなかった場合において、UI画面1400の右半分に示された感情認識結果1402の理由を問い合わせたい場合もある。そこで、感情認識活用サービスを実施するコンピュータデバイス210(又は、人工知能システム200)は、イメージセンサー316などからの入力画像や、表情認識に用いられた顔パーツの情報を、感情推論処理ロジック901による感情認識結果と併せて記憶するようにしておく。記憶するデータ量を削減するために、特に感情変化の大きかった前後区間の数フレームに限定して記憶するようにしてもよい。なお、記憶の方法にブロックチェーンの技法を用いてもよい。具体的には、データにハッシュデータを付加してネットワーク上に記憶し、ハッシュデータを用いて探索することで、理由の問い合わせに応じて適切なデータを取り出してUI画面1400に表示することができる。
 人間の顔の表情が突然変化する場合がある。これに備えて、スパイキングニューラルネットワーク(SNN)を用いたDVSのデータを組み合わせておくことで、微分的な変化を捉え易くなる。したがって、DVSの出力が大きく変化した時刻において、上記のデータ記録を行うようにしてもよい。
E.感情認識活用サービスの効果
 本開示に係る技術によれば、所定のガイドラインに基づいて、必要なレベルで人間の感情認識を行い、且つ、人間とのインタラクションを通じて感情認識のレベルを適切に制御する情報処理装置を提供することができる。
 以上、特定の実施形態を参照しながら、本開示に係る技術について詳細に説明してきた。しかしながら、本開示に係る技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
 本明細書では、顔画像から表情を解析した結果に基づいて人間の感情認識を行うシステムに適用した実施形態を中心に説明してきたが、本開示に係る技術の適用範囲はこれに限定されるものではない。人間が発話した音声から感情認識を行うシステムや、脳波や脈拍など生体情報に基づいて感情認識を行うシステム、複数のセンサー情報の組み合わせから感情認識を行うシステムにも同様に、本開示に係る技術を適用することができる。
 本開示に係る技術は、カメラにおける画像認識、テレビにおける画像合成、ヘッドホンなどにおける音声認識、文書処理システムにおける自然言語理解や文書合成、エージェントやロボットにおける行動認識や行動生成を始め、さまざまな分野において感情認識を行う人工知能機能を備えた装置の制御や、装置で用いられるコンピュータプログラムの製造に適用することができる。
 要するに、例示という形態により本開示に係る技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示に係る技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。
 なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
(1)所定の基準に基づいて感情認識に基づくサービスの提供の可否を判断する前処理部と、
 人工知能機能を利用してユーザの感情認識を行う感情推定処理部と、
 前記感情推定処理部による感情認識の結果に基づくサービスを提供するサービス提供処理部と、
を具備し、
 前記前処理部がサービスの提供を許可すると判断したときに、前記感情推定処理部は感情認識を行い、又は前記サービス提供処理部はサービスを提供する、
情報処理装置。
(1-1)前記人工知能機能は、センサー情報から人間の感情を認識する、
上記(1)に記載の情報処理装置。
(1-2)前記人工知能機能は、ユーザの顔画像を解析して得た表情から人間の感情を認識する、
上記(1)に記載の情報処理装置。
(2)前記前処理部は、前記の基準に基づいてユーザの同意が必要と判断される場合に、ユーザに感情認識の結果を前記サービスに用いることの同意を求める処理を実施する、
上記(1)に記載の情報処理装置。
(3)前記前処理部は、感情認識の結果を前記サービスに用いることができないと判断されるが、ユーザの同意があることを例外条件に、感情認識の結果を前記サービスに用いることを許可する、
上記(2)に記載の情報処理装置。
(4)前記基準は、複数の人工知能モデルが必要であることを示すデータを含み、
 前記前処理部は、前記基準が前記データを含む場合に、前記感情推定処理部が複数の人工知能モデルを備えているかどうかに基づいてサービスの提供の可否を判定する、
上記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)前記感情推定処理部は、複数の人工知能モデルを用いて推論を行い、各人工知能モデルによる推論結果の集合を感情認識の結果として出力する、
上記(4)に記載の情報処理装置。
(6)前記基準は、サービスを適用する分野に応じて構造化されたデータからなる、
上記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)適用分野毎の前記データは共通のパラメータを含む、
上記(6)に記載の情報処理装置。
(8)前記共通のパラメータは、サービスの提供に感情認識の結果を利用することの是非、サービスの提供に感情認識の結果を利用する例外条件、サービスの提供に感情認識の結果を利用することに対するユーザの同意の要否、複数の人工知能モデルの要否のうち少なくとも1つを含む、
上記(7)に記載の情報処理装置。
(9)前記前処理部は、感情認識の対象となる画像及びその画像に対する表情の解析結果と、前記画像に対する感情認識結果を提示する処理を実施する、
上記(1)乃至(8)のいずれかに記載の情報処理装置。
(9-1)前記前処理部は、複数の感情レベルの各認識結果をレーダーチャートで表示する、
上記(9)に記載の情報処理装置。
(10)人間の感情を認識するように前記人工知能機能の学習を行う感情学習部をさらに備え、
 前記前処理部は、前記基準に基づいて前記人工知能機能の学習の可否を判断し、
 前記感情学習部は、前記前処理部が学習を許可すると判断したときに、前記人工知能機能に学習用データを入力して感情認識を行えるように訓練する、
上記(1)乃至(9)のいずれかに記載の情報処理装置。
(10-1)前記感情学習部は、顔画像から人間の感情を認識するように前記人工知能機能の学習を行う、
上記(10)に記載の情報処理装置。
(11)前記感情学習部は、ニューラルネットワークで構成される前記人工知能機能の訓練をディープラーニングによって行う、
上記(10)に記載の情報処理装置。
(12)所定の基準に基づいて感情認識に基づくサービスの提供の可否を判断する前処理ステップと、
 前記前処理ステップでサービスの提供を許可すると判断したときに、人工知能機能を利用してユーザの感情認識を行う感情推定処理ステップと、
 前記感情推定処理ステップにおける感情認識の結果に基づくサービスを提供するサービス提供処理ステップと、
を有する情報処理方法。
(13)人工知能機能を用いた感情認識の結果を利用したサービスを提供する人工知能装置において、所定の基準に基づいて感情認識に基づくサービスの提供の可否を判断し、サービスの提供を許可すると判断したときに、前記人工知能機能に学習用データを入力して感情学習を行えるように訓練することにより、感情認識を行うことができる人工知能モデルを製造する、
人工知能モデル製造方法。
(13-1)ディープラーニングによって前記人工知能機能を訓練する、
上記(13)に記載の人工知能モデル製造方法。
 100…情報処理装置、101…CPU、102…記憶装置
 103…バス、104…カメラ、105…マイクロホン
 106…ディスプレイ、107…スピーカ、108…センサー群
 109…アクチュエータ群、110…通信部
 120…クラウドインフラストラクチャ
 200…人工知能システム、210…コンピュータデバイス
 211…記憶装置、212…処理装置
 213…ユーザインターフェース、214…入出力ソース
 220…クラウドコンピュータ装置、230…サーバコンピュータ装置
 240…データベース、250…通信メディア
 301…学習用データ前処理ロジック、302…通信モジュール
 303…ローカルデータベース、304…感情学習処理ロジック
 305…文脈認識処理ロジック、306…データベース

Claims (13)

  1.  所定の基準に基づいて感情認識に基づくサービスの提供の可否を判断する前処理部と、
     人工知能機能を利用してユーザの感情認識を行う感情推定処理部と、
     前記感情推定処理部による感情認識の結果に基づくサービスを提供するサービス提供処理部と、
    を具備し、
     前記前処理部がサービスの提供を許可すると判断したときに、前記感情推定処理部は感情認識を行い、又は前記サービス提供処理部はサービスを提供する、
    情報処理装置。
  2.  前記前処理部は、前記の基準に基づいてユーザの同意が必要と判断される場合に、ユーザに感情認識の結果を前記サービスに用いることの同意を求める処理を実施する、
    請求項1に記載の情報処理装置。
  3.  前記前処理部は、感情認識の結果を前記サービスに用いることができないと判断されるが、ユーザの同意があることを例外条件に、感情認識の結果を前記サービスに用いることを許可する、
    請求項2に記載の情報処理装置。
  4.  前記基準は、複数の人工知能モデルが必要であることを示すデータを含み、
     前記前処理部は、前記基準が前記データを含む場合に、前記感情推定処理部が複数の人工知能モデルを備えているかどうかに基づいてサービスの提供の可否を判定する、
    請求項1に記載の情報処理装置。
  5.  前記感情推定処理部は、複数の人工知能モデルを用いて推論を行い、各人工知能モデルによる推論結果の集合を感情認識の結果として出力する、
    請求項4に記載の情報処理装置。
  6.  前記基準は、サービスを適用する分野に応じて構造化されたデータからなる、
    請求項1に記載の情報処理装置。
  7.  適用分野毎の前記データは共通のパラメータを含む、
    請求項6に記載の情報処理装置。
  8.  前記共通のパラメータは、サービスの提供に感情認識の結果を利用することの是非、サービスの提供に感情認識の結果を利用する例外条件、サービスの提供に感情認識の結果を利用することに対するユーザの同意の要否、複数の人工知能モデルの要否のうち少なくとも1つを含む、
    請求項7に記載の情報処理装置。
  9.  前記前処理部は、感情認識の対象となる画像及びその画像に対する表情の解析結果と、前記画像に対する感情認識結果を提示する処理を実施する、
    請求項1に記載の情報処理装置。
  10.  人間の感情を認識するように前記人工知能機能の学習を行う感情学習部をさらに備え、
     前記前処理部は、前記基準に基づいて前記人工知能機能の学習の可否を判断し、
     前記感情学習部は、前記前処理部が学習を許可すると判断したときに、前記人工知能機能に学習用データを入力して感情認識を行えるように訓練する、
    請求項1に記載の情報処理装置。
  11.  前記感情学習部は、ニューラルネットワークで構成される前記人工知能機能の訓練をディープラーニングによって行う、
    請求項10に記載の情報処理装置。
  12.  所定の基準に基づいて感情認識に基づくサービスの提供の可否を判断する前処理ステップと、
     前記前処理ステップでサービスの提供を許可すると判断したときに、人工知能機能を利用してユーザの感情認識を行う感情推定処理ステップと、
     前記感情推定処理ステップにおける感情認識の結果に基づくサービスを提供するサービス提供処理ステップと、
    を有する情報処理方法。
  13.  人工知能機能を用いた感情認識の結果を利用したサービスを提供する人工知能装置において、所定の基準に基づいて感情認識に基づくサービスの提供の可否を判断し、サービスの提供を許可すると判断したときに、前記人工知能機能に学習用データを入力して感情学習を行えるように訓練することにより、感情認識を行うことができる人工知能モデルを製造する、
    人工知能モデル製造方法。
PCT/JP2020/027336 2019-10-30 2020-07-14 情報処理装置及び情報処理方法、並びに人工知能モデル製造方法 WO2021084810A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/755,126 US20220366723A1 (en) 2019-10-30 2020-07-14 Information processing apparatus, information processing method, and artificial intelligence model manufacturing method
EP20883323.6A EP4053792A4 (en) 2019-10-30 2020-07-14 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND ARTIFICIAL INTELLIGENCE MODEL MAKING METHOD

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-197976 2019-10-30
JP2019197976 2019-10-30

Publications (1)

Publication Number Publication Date
WO2021084810A1 true WO2021084810A1 (ja) 2021-05-06

Family

ID=75714623

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/027336 WO2021084810A1 (ja) 2019-10-30 2020-07-14 情報処理装置及び情報処理方法、並びに人工知能モデル製造方法

Country Status (3)

Country Link
US (1) US20220366723A1 (ja)
EP (1) EP4053792A4 (ja)
WO (1) WO2021084810A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4350582A1 (en) 2022-10-06 2024-04-10 Fujitsu Limited Machine learning program, machine learning method, and information processing apparatus

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230214276A1 (en) * 2022-01-04 2023-07-06 International Business Machines Corporation Artificial Intelligence Model Management

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017059044A (ja) * 2015-09-17 2017-03-23 トヨタ自動車株式会社 ライフログ記録システム
JP2017073107A (ja) * 2015-10-08 2017-04-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報提示装置の制御方法、及び、情報提示装置
JP2017167752A (ja) * 2016-03-15 2017-09-21 ヤフー株式会社 決定装置、決定方法及び決定プログラム
JP2017201499A (ja) * 2015-10-08 2017-11-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報提示装置の制御方法、及び、情報提示装置
JP2019020684A (ja) 2017-07-21 2019-02-07 日本電信電話株式会社 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11292477B2 (en) * 2010-06-07 2022-04-05 Affectiva, Inc. Vehicle manipulation using cognitive state engineering
US11465640B2 (en) * 2010-06-07 2022-10-11 Affectiva, Inc. Directed control transfer for autonomous vehicles
US10467488B2 (en) * 2016-11-21 2019-11-05 TeleLingo Method to analyze attention margin and to prevent inattentive and unsafe driving
US10423773B1 (en) * 2019-04-12 2019-09-24 Coupang, Corp. Computerized systems and methods for determining authenticity using micro expressions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017059044A (ja) * 2015-09-17 2017-03-23 トヨタ自動車株式会社 ライフログ記録システム
JP2017073107A (ja) * 2015-10-08 2017-04-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報提示装置の制御方法、及び、情報提示装置
JP2017201499A (ja) * 2015-10-08 2017-11-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報提示装置の制御方法、及び、情報提示装置
JP2017167752A (ja) * 2016-03-15 2017-09-21 ヤフー株式会社 決定装置、決定方法及び決定プログラム
JP2019020684A (ja) 2017-07-21 2019-02-07 日本電信電話株式会社 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4350582A1 (en) 2022-10-06 2024-04-10 Fujitsu Limited Machine learning program, machine learning method, and information processing apparatus

Also Published As

Publication number Publication date
EP4053792A4 (en) 2022-12-14
EP4053792A1 (en) 2022-09-07
US20220366723A1 (en) 2022-11-17

Similar Documents

Publication Publication Date Title
US11937929B2 (en) Systems and methods for using mobile and wearable video capture and feedback plat-forms for therapy of mental disorders
KR102473447B1 (ko) 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
US20200187841A1 (en) System and Method for Measuring Perceptual Experiences
KR102448382B1 (ko) 텍스트와 연관된 이미지를 제공하는 전자 장치 및 그 동작 방법
US20240029436A1 (en) Action classification in video clips using attention-based neural networks
US10382907B2 (en) Device and method for providing notification message about call request
US20180197094A1 (en) Apparatus and method for processing content
WO2021084810A1 (ja) 情報処理装置及び情報処理方法、並びに人工知能モデル製造方法
KR20200050373A (ko) 전자 장치 및 그의 제어 방법
US11544886B2 (en) Generating digital avatar
KR20200036680A (ko) 감정 정보 획득을 위한 전자 장치 및 방법
US11942077B2 (en) Electronic device and operating method thereof
US20210349433A1 (en) System and method for modifying an initial policy of an input/output device
CN114766016A (zh) 用于通过迭代生成增强输出内容的设备、方法和程序
US20230419721A1 (en) Electronic device for improving quality of image and method for improving quality of image by using same
JP2021056499A (ja) 方法、プログラム、及び装置
Villa et al. Design and evaluation of proactive behavior in conversational assistants: approach with the eva companion robot
KR20200021408A (ko) 서버 및 이의 제어 방법
JP2023016740A (ja) データ処理システムにおいて、人工知能ベースビデオ質問応答を実行する方法、コンピュータプログラム及び装置(ビデオ質問応答のためのニューラルシンボリックアクショントランスフォーマ)
US20210086070A1 (en) Voice command interface for video games
WO2023017753A1 (ja) 学習装置、学習方法、およびプログラム
JP7123028B2 (ja) 情報処理システム、情報処理方法、及びプログラム
KR102128812B1 (ko) 로봇의 사회 지능 평가 방법 및 이를 위한 장치
US20240069858A1 (en) Machine learning-based interactive conversation system with topic-specific state machines
WO2024107297A1 (en) Topic, tone, persona, and visually-aware virtual-reality and augmented-reality assistants

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20883323

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020883323

Country of ref document: EP

Effective date: 20220530

NENP Non-entry into the national phase

Ref country code: JP