WO2021205742A1 - 情報処理装置及び情報処理方法、並びにコンピュータプログラム - Google Patents

情報処理装置及び情報処理方法、並びにコンピュータプログラム Download PDF

Info

Publication number
WO2021205742A1
WO2021205742A1 PCT/JP2021/005122 JP2021005122W WO2021205742A1 WO 2021205742 A1 WO2021205742 A1 WO 2021205742A1 JP 2021005122 W JP2021005122 W JP 2021005122W WO 2021205742 A1 WO2021205742 A1 WO 2021205742A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
explanation
unit
reason
information
Prior art date
Application number
PCT/JP2021/005122
Other languages
English (en)
French (fr)
Inventor
典子 戸塚
ミヒャエル ヘンチェル
浩明 小川
康治 浅野
高橋 晃
知香 明賀
匡伸 中村
加奈 西川
智恵 山田
眞大 山本
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US17/907,540 priority Critical patent/US20230147985A1/en
Priority to JP2022514320A priority patent/JPWO2021205742A1/ja
Publication of WO2021205742A1 publication Critical patent/WO2021205742A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the technology disclosed in the present specification (hereinafter referred to as "the present disclosure") relates to an information processing device and an information processing method for performing processing related to automatic operation of a controlled device, and a computer program.
  • DNN deep learning neural network model
  • a deep learning neural network model (hereinafter, also referred to as "DNN") having multiple layers of neural networks is developed by extracting features that developers cannot imagine through training, that is, deep learning, from a large amount of data. It is possible to develop an artificial intelligence function capable of solving a complicated problem that a person cannot imagine an algorithm (see, for example, Patent Document 1). In the future, it is expected that DNN will be applied to the internal processing of various personal devices such as televisions.
  • An object of the present disclosure is to provide an information processing device and an information processing method for performing processing related to automatic operation of a controlled device, and a computer program.
  • the first aspect of the disclosure is A decision unit that determines the processing of the controlled device corresponding to the sensor information, A generator that generates an explanation of the reason for the process, An estimation unit that estimates the user's reaction, Equipped with The generator controls the presentation of the description based on the estimation result for the user's reaction. It is an information processing device.
  • the generation unit selects the particle size of the information presented as the description, the expression method of the description, or the device used for the output of the description, and the setting on the device used for the output of the description.
  • Control character font, character size when using the screen, volume when using voice, voice quality.
  • the generation unit includes a first machine learning model trained to estimate an explanation of the reason for the processing of the controlled target device corresponding to the sensor information, and uses the first machine learning model for the processing. Generate a description. The first machine learning model is relearned based on the explanation presented for the processing performed by the controlled target device in response to the sensor information and the reaction of the user.
  • the determination unit includes a second machine learning model learned to estimate the processing of the controlled target device corresponding to the sensor information, and corresponds to the sensor information by using the second machine learning model.
  • the process of the controlled device is determined.
  • the second machine learning model is relearned based on the processing performed by the controlled target device and the reaction of the user in response to the sensor information.
  • the second aspect of the present disclosure is A decision step that determines the processing of the controlled device corresponding to the sensor information, A generation step that generates an explanation of the reason for the process, and An estimation step that estimates the user's reaction, and Have, In the generation step, the presentation of the description is controlled based on the estimation result for the user's reaction. It is an information processing method.
  • the third aspect of the present disclosure is A decision unit that determines the processing of the controlled device corresponding to the sensor information, A generator that generates an explanation of the reason for the process, An estimation unit that estimates the user's reaction, Make your computer work as The generator is a computer program written in a computer-readable format so as to control the presentation of the description based on the estimation result of the user's reaction.
  • the computer program according to the third aspect of the present disclosure defines a computer program written in a computer-readable format so as to realize a predetermined process on the computer.
  • a collaborative action is exerted on the computer, and the same action as the information processing device according to the first aspect of the present disclosure. The effect can be obtained.
  • FIG. 1 is a diagram showing a configuration example of the television receiving device 100.
  • FIG. 2 is a diagram showing a configuration example of a sensing function unit 300 provided in the television receiving device 100.
  • FIG. 3 is a diagram showing a functional configuration example for explaining the automatic operation of the television receiving device 100 and the optimum operation reason.
  • FIG. 4 is a flowchart showing a processing procedure (first half) for explaining the automatic operation of the television receiving device 100 and the optimum operation reason.
  • FIG. 5 is a flowchart showing a processing procedure (second half) for explaining the automatic operation of the television receiving device 100 and the optimum operation reason.
  • FIG. 6 is a flowchart showing a processing procedure in which the user emotion estimation unit 103 estimates the user's emotion.
  • FIG. 7 is a flowchart showing a processing procedure for optimizing the neural network used by the user emotion estimation unit 103 for each user.
  • FIG. 8 is a diagram showing an example of a television screen displaying that the automatic operation has been performed based on the judgment of the artificial intelligence function.
  • FIG. 9 is a diagram showing a configuration example of a list of operation histories read from the operation history memory 111.
  • FIG. 10 is a diagram showing an operation example of the explanation generation unit 102.
  • FIG. 11 is a diagram showing an operation example of the explanation generation unit 102.
  • FIG. 12 is a diagram showing an operation example of the explanation generation unit 102.
  • FIG. 13 is a flowchart showing an overall processing procedure for the television receiving device 100 to automate the operation and explain the reason for the operation.
  • FIG. 14 is a diagram showing a configuration example of a screen for presenting an explanation of the reason for operation.
  • FIG. 15 is a diagram showing a configuration example of a screen for setting the learning content of re-learning.
  • FIG. 16 is a diagram showing a configuration example of a screen for presenting an explanation of the reason for operation.
  • FIG. 17 is a diagram showing a configuration example of a screen for setting the learning content of re-learning.
  • FIG. 18 is a diagram showing an example of dialogue between the car navigation system and the driver.
  • FIG. 19 is a diagram showing an example of dialogue between the car navigation system and the driver.
  • FIG. 20 is a diagram showing an example of dialogue between the car navigation system and the driver.
  • DNN will be applied to the internal processing of various devices around us, including televisions, and that the devices will operate automatically based on the inference results of DNN.
  • the user cannot understand the reason why the operation is performed even if the device is careful and automatically performed.
  • an inference device has been proposed in which typical DNN internal features are verbalized and visualized and presented to the user (see Patent Document 1).
  • this inference device obtains a "foundation feature” common to the "frequent features” of each class and the "representative features” of the NN input.
  • the feature amount that is the basis of the inference is output.
  • the explanation of the reason why the image clustering NN judged the input image to be a garbage truck is "This image is a garbage truck because it is a tire or the edge of an object, a fine pattern combining squares, and fine jaggedness. This is because the pattern is included. "
  • This inference device explains the feature amount that is the basis of the DNN operation, but is not configured to infer whether the content is easy for the user to understand. Further, when this inference device is mounted on a device to which DNN is applied to internal processing and an attempt is made to present the reason for operation, a plurality of DNNs are combined to operate, and complicated processing may be performed. is expected. Therefore, the explanation of the reason for operation may be long and complicated. In addition, the explanatory text presented using this inference device is simply a verbalization of the internal features of the DNN and stitched together. Therefore, even if the explanation is correct as the reason for the operation of the DNN, it is not sufficiently considered whether or not the content is easy for a general user to understand.
  • a device in which an operation determining unit that automatically determines the operation of a target device is combined with an explanation generating unit that generates an explanatory text explaining the reason for the determined operation to the user To propose.
  • the explanation generator obtains what kind of operation the target device is requested by the user and what kind of reaction the user has made to the explanation of the reason for the operation presented to the user. , Learn how to generate an explanation of the optimal reason for operation and how to present the explanation.
  • the explanation generation unit can also learn how to generate an explanation of the optimum operation reason and how to present the explanation for each user. Therefore, by combining such an explanation generation unit with the operation determination unit that automatically determines the operation of the target device, the reason for the simple and easy-to-understand operation of the device in a form suitable for the user. Can be presented.
  • FIG. 1 shows a configuration example of the television receiving device 100 to which the present disclosure is applied.
  • the television receiving device 100 includes a main control unit 201, a bus 202, a storage unit 203, a communication interface (IF) unit 204, an expansion interface (IF) unit 205, a tuner / demodulation unit 206, and a demultiplexer (DEMUX). ) 207, video decoder 208, audio decoder 209, character super decoder 210, subtitle decoder 211, subtitle processing unit 212, data decoder 213, cache unit 214, application (AP) control unit 215, and so on. It includes a browser unit 216, a sound source unit 217, a video processing unit 218, a display unit 219, an audio processing unit 220, an audio output unit 221 and an operation input unit 222.
  • IF communication interface
  • IF expansion interface
  • DEMUX demultiplexer
  • the main control unit 201 is composed of, for example, a controller, a ROM (Read Only Memory) (provided that it includes a rewritable ROM such as an EEPROM (Electrically Erasable Program ROM)), and a RAM (Random Access Memory).
  • the operation of the entire television receiving device 100 is comprehensively controlled according to the operation program.
  • the controller is composed of a processor chip such as a CPU (Central Processing Unit) or an MPU (Micro Processing Unit).
  • the main control unit 201 may be a processor having a plurality of processor cores such as a GPU (Graphics Processing Unit) or a GPGPU (General Purpose Graphic Processing Unit).
  • the ROM is a non-volatile memory in which basic operating programs such as an operating system (OS) and other operating programs are stored.
  • the operation setting values necessary for the operation of the television receiving device 100 may be stored in the ROM.
  • RAM serves as a work area when the OS and other operating programs are executed.
  • the bus 202 is a data communication path for transmitting / receiving data between the main control unit 201 and each unit in the television receiving device 100.
  • the main control unit 201 various inferences regarding the internal processing of the television receiving device 100 are performed using the trained DNN model.
  • the operation is determined regarding the automatic operation of the television receiving device 100, the explanation is generated for the user regarding the determined operation, the output method of the explanation is determined, and the user's for the output explanation. Includes reaction or emotional estimation.
  • the main control unit 201 may relearn the trained DNN model.
  • Examples of operations related to the automatic operation of the television receiver 100 include image mode (cinema mode and game mode) switching, brightness dynamic range (SDR, HDR, LDR) or gamma correction switching, brightness switching, and resolution switching (up-conversion control).
  • Screen size control (external input) (overscan, underscan, dot-by-dot, etc.), UI (User Interface) display control (position, color, size, etc.), channel switching, volume adjustment, audio output direction control, Subtitle display switching, language switching, accessibility control, input switching, application trajectory control, screen orientation control (for swinging TV, etc.), screen rotation control (for screen rotating display, etc.), screen exposure control (winding) In the case of a type display, etc.).
  • the storage unit 203 is composed of a non-volatile storage device such as a flash ROM, an SSD (Solid State Drive), and an HDD (Hard Disk Drive).
  • the storage unit 203 stores an operation program of the television receiving device 100, an operation setting value, personal information of a user who uses the television receiving device 100, and the like. Further, the storage unit 203 stores an operation program downloaded via the Internet and various data created by the operation program. In addition, the storage unit 203 can also store contents such as moving images, still images, and audio acquired through broadcast waves and the Internet. Further, the storage unit 203 stores the coupling weighting coefficient between the nodes of the trained DNN model (described above).
  • the communication interface unit 204 is connected to the Internet via a router (not shown) or the like, and transmits / receives data to / from each server device or other communication device on the Internet.
  • the data stream of the program transmitted via the communication line shall be acquired.
  • the router may be either a wired connection such as Ethernet (registered trademark) or a wireless connection such as Wi-Fi (registered trademark).
  • the tuner / demodulation unit 206 receives a broadcast wave such as a terrestrial broadcast or a satellite broadcast via an antenna (not shown), and is a channel of a service (broadcast station or the like) desired by the user under the control of the main control unit 201. Synchronize (select) to. Further, the tuner / demodulation unit 206 demodulates the received broadcast signal to acquire a broadcast data stream.
  • the television receiving device 100 may be configured to include a plurality of tuners / demodulation units (that is, multiple tuners) for the purpose of simultaneously displaying a plurality of screens or recording a counterprogram.
  • the demultiplexer 207 processes the video data stream, audio data stream, character super data stream, and subtitle data stream, which are real-time presentation elements, based on the control signal in the input data stream, respectively, into the video decoder 208, the audio decoder 209, and the character super. It is distributed to the decoder 210 and the subtitle decoder 211.
  • the data stream input to the demultiplexer 207 is a broadcast data stream provided by a broadcasting service, or a distribution data stream provided by a distribution service using a network such as IPTV (Internet Protocol TV), OTT (Over-The-Top), or a video sharing site. including.
  • the broadcast data stream is input to the demultiplexer 207 after being selected and received and demodulated by the tuner / demodulation unit 206, and the distribution data stream is input to the demultiplexer 207 after being received by the communication interface unit 204. Further, the demultiplexer 207 reproduces the multimedia application and the file data which is a component thereof, outputs the data to the application control unit 215, or temporarily stores the data in the cache unit 214.
  • the video decoder 208 decodes the video stream input from the demultiplexer 207 and outputs the video information. Further, the audio decoder 209 decodes the audio stream input from the demultiplexer 207 and outputs the audio information.
  • a video stream and an audio stream encoded according to the MPEG2 System standard are multiplexed and transmitted or distributed.
  • the video decoder 208 and the audio decoder 209 will perform decoding processing on the coded video stream and the coded video stream demultiplexed by the demultiplexer 207 according to the standardized decoding method, respectively.
  • the television receiving device 100 may include a plurality of video decoders 208 and audio decoders 209.
  • the character super decoder 210 decodes the character super data stream input from the demultiplexer 207 and outputs the character super information.
  • the subtitle decoder 211 decodes the subtitle data stream input from the demultiplexer 207 and outputs the subtitle information.
  • the subtitle processing unit 212 synthesizes the character super information output from the character super decoder 210 and the subtitle information output from the subtitle decoder 211.
  • the data decoder 213 decodes the data stream that is multiplexed with the video and audio in the MPEG-2 TS stream. For example, the data decoder 213 notifies the main control unit 201 of the result of decoding the general-purpose event message stored in the descriptor area of the PMT (Program Map Table), which is one of the PSI (Program Special Information) tables.
  • PMT Program Map Table
  • the application control unit 215 inputs the control information included in the broadcast data stream from the demultiplexer 207, or acquires the control information from the server device on the Internet via the communication interface unit 204, and interprets the control information.
  • the browser unit 216 presents the multimedia application file acquired from the server device on the Internet via the cache unit 214 or the communication interface unit 204 and the file system data which is a component thereof according to the instruction of the application control unit 215.
  • the multimedia application file referred to here is, for example, an HTML (HyperText Markup Language) document, a BML (Broadcast Markup Language) document, or the like.
  • the browser unit 216 also reproduces the audio information of the application by acting on the sound source unit 217.
  • the video processing unit 218 inputs the video information output from the video decoder 208, the subtitle information output from the subtitle processing unit 212, and the application information output from the browser unit 216, and appropriately selects or superimposes the processing. conduct.
  • the video processing unit 218 includes a video RAM (not shown), and the display drive of the display unit 219 is performed based on the video information input to the video RAM. Further, the video processing unit 218 is based on the control of the main control unit 201, and if necessary, screen information such as an EPG (Electronic Program Guide) screen and graphics generated by an application executed by the main control unit 201. Superimposition processing is also performed.
  • the video processing unit 218 also performs video signal processing such as noise reduction, resolution conversion processing such as super-resolution, dynamic range conversion processing, and gamma processing.
  • the display unit 219 is a display device including, for example, a liquid crystal display or an organic EL (Electro-Luminescence) display, and presents to the user video information selected or superimposed by the video processing unit 218.
  • a display device including, for example, a liquid crystal display or an organic EL (Electro-Luminescence) display, and presents to the user video information selected or superimposed by the video processing unit 218.
  • the audio processing unit 220 inputs the audio information output from the audio decoder 209 and the audio information of the application reproduced by the sound source unit 217, and performs processing such as selection or composition as appropriate. Further, the audio processing unit 220 may perform high-quality sound processing such as band-extending a low-resolution or standard-resolution audio signal to a high-resolution audio signal including a removed or compressed band. Further, the audio processing unit 220 may perform sound image localization processing using a plurality of speakers.
  • the audio output unit 221 includes audio output of program content and data broadcast content channel-selected and received by the tuner / demodulation unit 206, and audio information processed by the audio processing unit 220 (including voice guidance or synthetic voice of a voice agent). It is used for the output of.
  • the audio output unit 221 is composed of an audio generating element such as a speaker.
  • the audio output unit 221 may be a speaker array (multi-channel speaker or ultra-multi-channel speaker) in which a plurality of speakers are combined, and some or all the speakers are externally connected to the television receiver 100. May be good.
  • the operation input unit 222 is an instruction input unit for the user to input an operation instruction to the television receiving device 100.
  • the operation input unit 222 is composed of, for example, an operation key in which a remote controller receiving unit for receiving a command transmitted from a remote controller (not shown) and a button switch are arranged. Further, the operation input unit 222 may include a touch panel superimposed on the screen of the display unit 219. Further, the operation input unit 222 may include an external input device such as a keyboard connected to the expansion interface unit 205.
  • the expansion interface unit 205 is a group of interfaces for expanding the functions of the television receiving device 100, and is composed of, for example, an analog video / audio interface, a USB (Universal Serial Bus) interface, a memory interface, and the like.
  • the expansion interface unit 205 may include a digital interface including a DVI terminal, an HDMI (registered trademark) terminal, a DisplayPort (registered trademark) terminal, and the like.
  • the extended interface unit 205 is also used as an interface for capturing the sensor signals of various sensors included in the sensor group (see the following and FIG. 2).
  • the sensor shall include both a sensor installed inside the main body of the television receiving device 100 and a sensor externally connected to the television receiving device 100.
  • the externally connected sensors also include sensors built into other CE (Consumer Electronics) devices and IoT (Internet of Things) devices that exist in the same space as the television receiver 100.
  • the expansion interface unit 205 may capture the sensor signal after performing signal processing such as noise removal and further digitally converting it, or may capture it as unprocessed RAW data (analog waveform signal).
  • FIG. 2 schematically shows a configuration example of a sensing function unit 300 provided in the television receiving device 100.
  • Each sensor shown in FIG. 2 includes both a sensor installed inside the main body of the television receiving device 100 and a sensor externally connected to the television receiving device 100.
  • the sensor signal from each sensor is taken into the television receiving device 100 via, for example, the expansion interface unit 205.
  • at least a part of the sensors included in the sensing function unit 300 may be provided on the remote controller. At least a part of the sensor signal is input to the trained DNN model used in the main control unit 201.
  • the camera unit 310 is provided with a camera 311 that captures a user viewing the video content displayed on the display unit 219, a camera 312 that captures the video content displayed on the display unit 219, and a television receiving device 100. It may include a camera 313 for photographing the room (or the installation environment) in the room, or may include a camera having a plurality of functions among the functions of the cameras 311 to 313.
  • the camera 311 is installed near the center of the upper end edge of the screen of the display unit 219, for example, and preferably captures a user who is viewing video content.
  • the camera 312 is installed facing the screen of the display unit 219, for example, and captures the video content being viewed by the user.
  • the user may wear goggles equipped with the camera 312.
  • the camera 312 may have a function of recording (recording) the sound of the video content as well.
  • the camera 313 is composed of, for example, an all-sky camera or a wide-angle camera, and photographs a room (or an installation environment) in which the television receiving device 100 is installed.
  • the camera 313 may be, for example, a camera mounted on a camera table (head) that can be rotationally driven around each axis of roll, pitch, and yaw.
  • the user status sensor unit 320 includes one or more sensors that acquire status information related to the user status.
  • state information the user state sensor unit 320 includes, for example, the user's work state (whether or not video content is viewed), the user's action state (moving state such as stationary, walking, running, etc., eyelid opening / closing state, line-of-sight direction, etc.). It is intended to acquire the size of the pupil), the mental state (impression level such as whether the user is absorbed or concentrated in the video content, excitement level, alertness level, emotions and emotions, etc.), and the physiological state.
  • the user status sensor unit 320 includes various sensors such as a sweating sensor, a myoelectric potential sensor, an electrooculogram sensor, a brain wave sensor, an exhalation sensor, a gas sensor, an ion concentration sensor, and an IMU (Internal Measurement Unit) that measures the user's behavior, and the user. It may be provided with an audio sensor (such as a microphone) that picks up the utterance of the user, and a position information detection sensor (such as a proximity sensor) that detects the position of an object such as a user's finger.
  • the microphone does not necessarily have to be integrated with the television receiving device 100, and may be a microphone mounted on a product such as a sound bar that is installed in front of the television.
  • an external microphone-mounted device connected by wire or wirelessly may be used.
  • External microphone-equipped devices include smart speakers equipped with a microphone and capable of audio input, wireless headphones / headsets, tablets, smartphones, or PCs (personal computers), refrigerators, washing machines, air conditioners, vacuum cleaners, or lighting. It may be a so-called smart home appliance such as an appliance, an IoT home appliance device, or a robot.
  • the position information detection sensor may be configured as a touch sensor for detecting a user operation on the display unit 219.
  • the environment sensor unit 330 includes various sensors that measure information related to the environment such as the room where the television receiving device 100 is installed. For example, temperature sensors, humidity sensors, light sensors, illuminance sensors, airflow sensors, odor sensors, electromagnetic wave sensors, geomagnetic sensors, GPS (Global Positioning System) sensors, audio sensors that collect ambient sounds (microphones, etc.) are environmental sensors. It is included in part 330. Further, the environment sensor unit 330 may acquire information such as the size of the room in which the television receiving device 100 is placed, the position of the user, and the brightness of the room.
  • GPS Global Positioning System
  • the device status sensor unit 340 includes one or more sensors that acquire the internal status of the television receiver 100.
  • circuit components such as the video decoder 208 and the audio decoder 209 have a function of externally outputting the state of the input signal and the processing state of the input signal, so as to play a role as a sensor for detecting the state inside the device. You may.
  • the device status sensor unit 340 may detect the operation performed by the user on the television receiving device 100 or other devices, or may save the user's past operation history. The user's operation may include remote control operation for the television receiving device 100 and other devices.
  • the other device referred to here may be a tablet, a smartphone, a PC, or a so-called smart home appliance such as a refrigerator, a washing machine, an air conditioner, a vacuum cleaner, or a lighting fixture, an IoT home appliance, or a robot.
  • the device status sensor unit 340 may acquire information on the performance and specifications of the device.
  • the device status sensor unit 340 may be a memory such as a built-in ROM that records information on the performance and specifications of the device, or a reader that reads information from such a memory.
  • the user profile sensor unit 350 detects profile information about a user who views video content on the television receiving device 100.
  • the user profile sensor unit 350 does not necessarily have to be composed of sensor elements.
  • the user profile such as the age and gender of the user may be estimated based on the face image of the user taken by the camera 311 or the utterance of the user picked up by the audio sensor.
  • a user profile acquired on a multifunctional information terminal carried by a user such as a smartphone and a user profile acquired by a smart speaker or a robot through dialogue with the user are obtained between the television receiving device 100 and a device such as a smartphone. It may be acquired by cooperation.
  • the user profile sensor unit 350 does not need to detect even sensitive information so as to affect the privacy and confidentiality of the user. Further, it is not necessary to detect the profile of the same user each time the video content is viewed, and a memory such as EEPROM for storing the user profile information once acquired may be used.
  • a multifunctional information terminal carried by a user such as a smartphone can be connected to a camera unit 310 or a user status sensor unit 320, an environment sensor unit 330, and a user profile sensor unit 350 by linking the television receiving device 100 and a device such as a smartphone. It may be used as. For example, sensor information acquired by a sensor built into a smartphone, healthcare function (pedometer, etc.), calendar or schedule book / memorandum, mail, browser history, SNS (Network Network Service) posting and browsing history, etc.
  • the data managed by the application may be added to the user's state data and environment data.
  • a sensor built in another CE device or IoT device existing in the same space as the television receiving device 100 may be utilized as the user status sensor unit 320 or the environment sensor unit 330. Further, the sound of the intercom may be detected or the visitor may be detected by communicating with the intercom system. Further, a luminance meter or a spectrum analysis unit that acquires and analyzes the video or audio output from the television receiving device 100 may be provided as a sensor.
  • DNN Automation of internal processing and explanation of reasons for operation
  • DNN is applied to almost all internal processing of the television receiving device 100, and the usage status and surrounding environment of the user sensed by the sensing function described in Section C above are applied.
  • the television receiving device 100 can be automatically operated. Specifically, it is intended to automate the operation of the TV receiver 100 main unit such as channel operation, volume adjustment, image quality adjustment, and subtitle setting by DNN, but automatic recording setting, audio output to an external speaker, etc.
  • the linked operation of the television receiving device 100 and the external device connected to the television receiving device 100 can also be the target of the automatic operation using the DNN.
  • the user By automatically operating the television receiving device 100 based on the DNN inference result, the user does not need to perform a manual operation, which is convenient. However, even if the operation is automatically performed by the television receiving device 100 or the DNN, the user may not understand the reason for the operation.
  • the television receiving device 100 itself explains the reason for the automatic operation in the television receiving device 100 equipped with the DNN. Therefore, the user can inquire what has happened to the television receiver 100. Further, the television receiving device 100 learns what kind of explanation should be given through interaction with the user to make it easier for the user to understand the reason for the automatic operation, and realizes a simple presentation of the reason to the user. be able to.
  • FIG. 3 schematically shows an example of a functional configuration for explaining the automatic operation of the television receiving device 100 and the optimum reason for operation.
  • the television receiving device 100 includes an operation determination unit 101, an explanation generation unit 102, and a user emotion estimation unit 103 in order to realize the function. Further, the television receiving device 100 includes an operation history memory 111 and a user information database 112 as means for storing or accumulating information necessary for realizing the function.
  • the operation determination unit 101, the explanation generation unit 102, and the user emotion estimation unit 103 are software modules executed by, for example, the main control unit 201.
  • At least one of the operation determination unit 101, the explanation generation unit 102, and the user emotion estimation unit 103 is on an information processing device (not shown) externally connected to the television receiving device 100 via the expansion interface unit 205. It may be operating in. Further, the storage area required for the operation history memory 111 and the user information database 112 is secured in, for example, the storage unit 203, but is a storage device externally connected to the television receiving device 100 via the expansion interface unit 205 (not shown). ) May be secured above.
  • the motion determination unit 101, the explanation generation unit 102, and the user emotion estimation unit 103 are each configured by using deep-learned trained DNN models.
  • the operation determination unit 101, the explanation generation unit 102, and the user emotion estimation unit 103 can be combined to form one trained DNN model, but in the present specification, the operation determination unit 101 is described as the operation determination unit 101 for convenience.
  • the generation unit 102 and the user emotion estimation unit 103 will be described as independent functional modules. Deep learning of these DNN models is performed on the cloud, and it is assumed that the trained DNN models are mounted on each product, that is, the television receiving device 100. Of course, it is also possible to perform deep learning of the DNN model on the television receiver 100.
  • the operation determination unit 101 determines the operation of the television receiving device 100 based on the user's state by the sensing function unit 300 (see FIG. 2) and the sensing result of the surrounding environment.
  • the operation determination unit 101 includes sensing information of the user's state (usage status of the television receiving device 100 by the user) and the surrounding environment (current time, room brightness, room temperature, etc.), and the television receiving device 100. It is equipped with a learned DNN that has deeply learned the correlation with the performed motion. Then, the operation determination unit 101 determines the operation of the television receiving device 100 by inferring the learned DNN from the sensing result input from the sensing function unit 300.
  • the main control unit 201 sends a control signal for realizing the operation determined by the operation determination unit 101 to the corresponding function module in the television receiving device 100, and performs an automatic operation. Further, the operation determined by the operation determining unit 101 and automatically executed by the television receiving device 100 is stored in the operation history memory 111.
  • the operation history memory 11 stores the operation automatically executed by the television receiving device 100 together with the execution time.
  • the operation determination unit 101 may save the inference history for determining the operation based on the sensing result in the operation history memory 111 together with the determined operation.
  • the sensing result by the sensing function unit 300 input to the operation determination unit 101 includes the operation history of the user's television receiving device 100 and other devices in addition to the usage status and surrounding environment of the television receiving device 100 by the user. , The operation history of the television receiving device 100 and other devices, the user profile information acquired by the user profile sensor unit 350, and the like may be included.
  • the operation of the television receiving device 100 determined by the operation determining unit 101 based on the sensing result for example, image mode (cinema mode or game mode) switching, luminance dynamic range (SDR, HDR, LDR) or gamma correction switching, Brightness switching, resolution switching (up-conversion control), screen size control (external input) (overscan, underscan, dot-by-dot, etc.), UI display control (position, color, size, etc.), channel switching, volume Adjustment, audio output direction control, subtitle display switching, language switching, accessibility control, input switching, application trajectory control, screen direction control (for swinging TV, etc.), screen rotation control (for screen rotating display, etc.), Screen exposure control (in the case of a retractable display, etc.) can be mentioned.
  • image mode cinema mode or game mode
  • SDR luminance dynamic range
  • HDR high definition range
  • LDR luminance dynamic range
  • Brightness switching up-conversion control
  • screen size control external input
  • UI display control position, color, size
  • the explanation generation unit 102 includes a learned DNN that deeply learns the correlation between the operation performed by the television receiving device 100 and the user's reaction to the explanation of the reason for the operation at that time.
  • the user's reaction may be a binary value of whether or not the user likes the explanation of the presented operation reason (positive / negative), or may be expressed by a more finely classified identification value.
  • the learned DNN may perform deep learning in consideration of the correlation with the user's state and the sensing information of the surrounding environment.
  • the explanation generation unit 102 changes the operation of the television receiving device 100 from the sensing result input from the sensing function unit 300 and the operation of the television receiving device 100 determined by the operation determining unit 101 by the inference of the learned DNN. On the other hand, it generates a description of the reason for the operation that the user may like.
  • the sensing result input from the sensing function unit 300 includes the user profile information sensed by the user profile sensor unit 350, the user's usage history of the device, and the like.
  • the explanation generation unit 102 generates an explanation of the reason for the operation of the television receiving device 100 requested by the user in a format presumed to be most convincing to the user.
  • the explanation generation unit 102 determines which of them should be presented to the user (or the priority to be presented). Further, the explanation generation unit 102 may also determine a format for outputting the generated operation reason or a method for presenting the generated operation reason to the user. For example, it is determined whether the explanation of the reason for operation is output by voice, screen, or both. When explaining the reason for operation by voice, the volume and voice quality may also be determined.
  • the explanation generation unit 102 stores the operation of the television receiving device 100 requested to present the explanation and the explanation of the reason for the operation generated (or presented to the user) at that time in the user information database 112.
  • the user's explanation presentation request to the explanation generation unit 102 may be made by a voice command or a gesture by the user. Further, the user may request the television receiving device 100 to present an explanation via the operation input unit 222 or the remote control operation.
  • the user emotion estimation unit 103 estimates the user's emotion by inputting the user's reaction when the explanation of the operation reason generated by the explanation generation unit 102 is presented.
  • the user emotion estimation unit 103 may input the user's reaction by a voice command or gesture by the user, or may input the user's reaction via the operation input unit 222 or the remote control operation.
  • the user emotion estimation unit 103 may input the user's reaction as sensing information from the user state sensor unit 320, not as an explicit operation of the user such as voice, gesture, or input operation.
  • the user's emotion may be expressed by a binary value of whether or not the user likes the presented operation reason (positive / negative), or may be expressed by a more finely classified identification value.
  • the user emotion estimation unit 103 includes a learned DNN that deeply learns the correlation between the user's voice, gesture, operation input, and the user's reaction. Then, the user emotion estimation unit 103 inputs the user's reaction when the explanation of the operation reason generated by the explanation generation unit 102 is presented, and estimates the user's emotion by the inference of the learned DNN.
  • the user emotion estimation unit 103 associates the user's emotion when the explanation of the operation reason generated by the explanation generation unit 102 with the operation of the television receiving device 100 and the explanation of the operation reason in the user information database. Store at 112.
  • the explanation generation unit 102 can easily generate an explanation of the reason for operation that an individual user who uses the television receiving device 100 seems to like, and it becomes difficult to present an explanation that makes the individual user uncomfortable. To be personalized. For example, when the explanation of the reason for operation is presented by voice, it is relearned so that individual users can output at a volume that does not cause discomfort by using a comfortable voice quality.
  • the trained DNN used by the explanation generation unit 102 to estimate the explanation of the reason for operation for the automatic operation of the television receiving device 100 is defined as the "first machine learning model". Further, the trained DNN in which the operation determination unit 101 estimates the automatic operation of the television receiving device 100 based on the sensing result such as environmental information is referred to as the "second machine learning model”.
  • the learned DNN used by the user emotion estimation unit 103 to estimate the user's emotion (whether positive or negative) from the user's reaction is referred to as a "third machine learning model”.
  • the functional configuration shown in FIG. 3 acquires feedback such as a user's reaction to the explanation of the operation reason generated for the automatic operation performed by the television receiving device 100, and generates an operation reason suitable for the user. It has a system. Therefore, when the automatic operation of the television receiving device 100 by the artificial intelligence technique is performed, it becomes possible to present an easy-to-understand explanation for the user about the reason for the operation.
  • the explanation generation unit 102 when the explanation generation unit 102 generates explanations for a plurality of operation reasons for one automatic operation performed by the television receiving device 100, the explanations are presented one by one in the order that the user seems to like. , Get the user's reaction. Therefore, it is possible to obtain the user's reaction to the presented explanation with a small burden on the user.
  • the trained DNN “first machine learning model” used by the explanation generation unit 102 to estimate the explanation of the operation reason for the automatic operation of the television receiving device 100 is relearned. It can be carried out. Therefore, by continuously using the television receiving device 100, the user learns to explain the reason for operation that is easy for the user to understand when the television receiving device 100 automatically operates.
  • the operation determination unit 101 operates the television receiving device 100 based on the inference of the learned DNN (described above) based on the user's state and the sensing result of the surrounding environment by the sensing function unit 300 (see FIG. 2). Is determined (step S401).
  • the operation determination unit 101 saves the determined operation in the operation history memory 111 (step S402).
  • the operation determination unit 101 may save the inference history that led to the determination of the operation based on the sensing result in the operation history memory 111 together with the determined operation.
  • the main control unit 201 sends a control signal for realizing the operation determined by the operation determination unit 101 to the corresponding function module in the television receiving device 100, and performs an automatic operation (step S403).
  • step S404 it is checked whether or not there is a request from the user to present an explanation for the automatic operation of the television receiving device 100 performed in step S403 (step S404). If there is no request from the user to present the explanation (No in step S404), the process returns to step S401 and the above process is repeatedly executed.
  • the explanation generation unit 102 reads the operation requested to be explained from the operation history memory 111 and inputs the operation from the sensing function unit 300. The sensing result is acquired (step S405). Then, the explanation generation unit 102 generates an explanation that the user seems to like regarding the reason for operation of the television receiving device 100 for which the explanation presentation is requested by the inference of the learned DNN (described above) (step S406).
  • the explanation generation unit 102 may generate a plurality of explanations of the reason for operation in response to one explanation presentation request.
  • an explanation of the reason for operation generated by the explanation generation unit 102 is presented to the user using, for example, an output means (speaker, screen, etc.) included in the television receiving device 100 (step S407).
  • the explanation generation unit 102 determines whether the generated explanation is displayed on the screen as characters, presented as voice from the speaker, or presented using both the screen and voice, according to the user's preference and the surroundings of the television receiving device 100. The selection may be based on the environment.
  • the explanation generation unit 102 stores the operation of the television receiving device 100 requested to present the explanation and the explanation of the reason for the operation generated (or presented to the user) at that time in the user information database 112.
  • the user emotion estimation unit 103 inputs the user's reaction when the explanation of the operation reason generated by the explanation generation unit 102 is presented (step S408), and estimates the user's emotion (step S409).
  • the user's emotion is expressed by two values, whether or not the user likes the presented reason for operation (positive / negative). Then, it is checked whether or not the user's emotion estimated by the user emotion estimation unit 103 is positive (step S410).
  • the user emotion estimation unit 103 uses the user's "explanation of the reason for operation generated by the explanation generation unit 102".
  • the feeling of "positive” is stored in the user information database 112 in association with the operation of the television receiving device 100 and the explanation of the reason for the operation (step S413).
  • step S410 if the user's emotion for the presented explanation of the operation reason is not positive (No in step S410), the user emotion estimation unit 103 requests another explanation of the operation reason generated by the explanation generation unit 102. Further check whether or not (step S411).
  • the user emotion estimation unit 103 is not "positive” of the user when the explanation of the reason for operation generated by the explanation generation unit 102 is presented.
  • the feeling (or "negative") is stored in the user information database 112 in association with the operation of the television receiving device 100 and the explanation of the reason for the operation (step S413).
  • step S412 When the user requests another explanation of the reason for operation (Yes in step S411), it is checked whether or not the explanation generation unit 102 has generated another explanation for the reason for operation (step S412). Then, when the explanation generation unit 102 generates still another explanation of the reason for operation (Yes in step S412), the process returns to step S407, presents another explanation to the user, and repeats the above process. do.
  • the explanation generation unit 102 does not generate another explanation of the operation reason (No in step S412)
  • the user emotion estimation unit 103 presents the explanation of the operation reason generated by the explanation generation unit 102.
  • the feeling of not being "positive” (or being “negative") is stored in the user information database 112 in association with the operation of the television receiving device 100 and the explanation of the reason for the operation (step S413).
  • the explanation generation unit 102 relearns the learned DNN that generates the explanation of the reason for operation by using the information accumulated in the user information database 112 (step S414).
  • the explanation generation unit 102 reads the operation requested to be presented from the operation history memory 111, acquires the sensing result input from the sensing function unit 300, and infers the learned DNN (described above). Generates the explanation that "the current time is 22:00", “there is only one user", and "the user is not watching TV” as to the reason why the TV receiver 100 performs the automatic operation of lowering the volume. do. Then, the explanation generation unit 102 further infers which of the plurality of generated explanations the user prefers based on the learned DNN (described above).
  • the reason for this operation is that the explanation generation unit 102 automatically adjusts the volume this time because the volume tends to be lowered after 22:00 from the plurality of generated explanations. It is presumed that the user is most convinced as the explanation of.
  • the explanation generation unit 102 may generate a plurality of explanation candidates for the automatic operation of the television receiving device 100, rearrange the candidates for each explanation in an order that is easy for the user to understand, and present them to the user. .. Further, the explanation generation unit 102 determines whether the generated explanation is displayed on the screen as characters, presented as voice from the speaker, or presented using both the screen and voice, depending on the user's preference and the television receiving device 100. The selection may be made based on the surrounding environment of.
  • the user emotion estimation unit 103 estimates the user's emotion by inputting the user's reaction when the explanation of the operation reason generated by the explanation generation unit 102 is presented.
  • the user emotion estimation unit 103 estimates whether or not the user likes the presented operation reason (positive / negative).
  • the user emotion estimation unit 103 shows the estimation result of the user's emotion at a ratio such as positive ⁇ % and negative ⁇ %, and if either the positive or negative ratio exceeds the threshold value (for example, 85%), It is configured to presume that the user has a positive (or negative) feeling for the explanation of the reason for operation. However, the details of the processing procedure in which the user emotion estimation unit 103 estimates the user's emotion will be described later (see FIG. 6).
  • the user emotion estimation unit 103 presents the explanation of the reason for operation generated by the explanation generation unit 102.
  • the user's feeling of "positive" at that time is stored in the user information database 112 in association with the operation of the television receiving device 100 and the explanation of the reason for the operation.
  • the user's emotions for the presented explanation of the reason for operation are negative, or if the user's emotions cannot be estimated (when neither the positive nor the negative ratio exceeds the threshold value), the user has other reasons for the operation.
  • the explanation generation unit 102 When the explanation of the above is requested and the explanation generation unit 102 generates another explanation, the other explanation is presented to the user again, and the user emotion estimation unit 103 expresses the user's feelings for the explanation. presume.
  • the explanation of the operation reason generated by the explanation generation unit 102 The user's feeling of not being "positive” (or "negative") at the time of presenting is stored in the user information database 112 in association with the operation of the television receiving device 100 and the explanation of the reason for the operation.
  • the explanation generation unit 102 relearns the learned DNN that generates an explanation of the reason for operation by using the information accumulated in the user information database 112. In order to avoid using inaccurate information for re-learning, if the user's feelings when presenting the explanation are ambiguous (neither positive nor negative ratio exceeds the threshold value), the user It may not be stored in the information database 112.
  • the explanation generation unit 102 determines whether the user is likely to like the explanation, in other words, whether the user responds positively or negatively. Estimate. Therefore, in the re-learning, the explanation generation unit 102 generates an explanation that is easy for the user to understand by correcting the probability by using the information of the user information database 112 obtained by the user emotion estimation unit 103, and generates the user. The accuracy of the estimation can be improved so as not to generate an unpleasant explanation.
  • the re-learning a specific example of the process of correcting the probability of the reaction to the explanation generated by the explanation generation unit 102 by using the information of the user information database 112 obtained by the user emotion estimation unit 103 will be given below.
  • the increase or decrease of the probability in the explanation generation unit 102 of the explanation may be adjusted according to the negative ratio. For example, if the percentage of positives is 100%, the probability that a positive reaction will be obtained in the explanation generation unit 102 is significantly increased.
  • the re-learning of the explanation generation unit 102 as described above may be performed every time an estimation result is obtained from the user emotion estimation unit 103, or information is accumulated in the user information database 112 and re-learning is performed periodically. It may be done (for example, re-learning is performed when the information for the past 30 days is accumulated).
  • FIG. 6 shows a processing procedure in which the user emotion estimation unit 103 estimates the user's emotion, which is executed in step S409 in the flowchart shown in FIG. 5, in the form of a flowchart.
  • the user's voice picked up by the microphone is used as the user's reaction, and the user's emotion is whether or not the user likes the presented operation reason (positive /). It shall be expressed by two values (negative).
  • the user emotion estimation unit 103 appropriately uses a trained neural network model such as a para-language analysis neural network, a speech recognition neural network, a natural language processing neural network, a speaker recognition neural network, and a comprehensive positive / negative judgment neural network. It shall be used.
  • the user emotion estimation unit 103 When the user emotion estimation unit 103 inputs voice information from the microphone (step S601), the user emotion estimation unit 103 divides the input voice into frames, for example, every several tens of milliseconds, and extracts acoustic features from each frame (step S602). ..
  • the user emotion estimation unit 103 extracts the volume, pitch, etc. from the extracted acoustic features (step S603). Further, the user emotion estimation unit 103 estimates text information from the acoustic features of the microphone input voice by using the voice recognition neural network (step S607). Further, the user emotion estimation unit 103 estimates the speaker information of the voice input from the microphone by using the speaker recognition neural network (step S609).
  • the user emotion estimation unit 103 extracts peripheral language information such as speech speed, intonation, rhythm, pose, and voice quality, that is, para-language information from the acoustic features and the text information estimated by the speech recognition neural network (step S604). ). Then, the user emotion estimation unit 103 determines the acoustic positive / negative of the microphone input voice by using the para-language analysis neural network (step S605).
  • peripheral language information such as speech speed, intonation, rhythm, pose, and voice quality
  • the user emotion estimation unit 103 uses a natural language processing neural network to determine whether the language is positive or negative (step S608).
  • the user emotion estimation unit 103 uses the comprehensive positive / negative determination neural network to determine whether the user's emotions are positive or negative based on the acoustic positive / negative determination, the linguistic positive / negative determination, and the speaker information. It is comprehensively determined which of the above (step S606).
  • Para-language information, text information, and speaker information are extracted from the feature quantities extracted by dividing the voice information input from the microphone into frames of, for example, several tens of milliseconds.
  • the correlation between the acoustic features and the user's voice registered in advance can be estimated using the trained speaker information neural network.
  • the text information of the microphone input voice can be estimated by using a learned voice recognition neural network for the correlation between the text and the acoustic feature amount.
  • the volume and pitch can be calculated from the acoustic features, and the speaking speed can be calculated by using the text information and the acoustic features.
  • the obtained para-language information and text information are analyzed using a para-language analysis neural network and a natural language processing neural network, respectively, and to what extent the para-language information and the text information contain positive and negative elements, respectively. Can be estimated.
  • the comprehensive positive / negative judgment neural network is based on the acoustic positive / negative information, the linguistic positive / negative information, and the speaker information, and each element of positive or negative to the microphone input voice. Determine the percentage that contains.
  • the user emotion estimation unit 103 includes a plurality of neural networks such as a para-language analysis neural network, a speech recognition neural network, a natural language processing neural network, a speaker recognition neural network, and a comprehensive positive / negative judgment neural network. Utilize the network to estimate the user's emotions from voice information. For example, these neural networks are optimized for each user who uses the television receiver 100.
  • the user emotion estimation processing procedure shown in FIG. 6 basically estimates the user's emotion using only voice information.
  • information other than voice such as recognizing facial expressions from the user's facial image taken with the camera, displaying a questionnaire on the TV screen and asking the user to answer using remote control buttons, etc.
  • the user's emotion may be estimated comprehensively by combining the method of estimating the user's emotion or the voice information with the user's facial image or the answer result of the questionnaire.
  • FIG. 7 shows a processing procedure for optimizing these neural networks used by the user emotion estimation unit 103 for each user in the form of a flowchart.
  • step S701 Let the neural network model learn the data tendency of general voice with large-scale data (step S701). This process is supposed to be performed on the cloud, for example.
  • the neural network model that has been pre-learned with large-scale data is mounted on the user emotion estimation unit 103 in the television receiver 100 of each individual user. As the user uses the television receiving device 100, usage logs are collected (step S702). Then, the neural network model mounted on the user emotion estimation unit 103 is relearned using the user usage log collected by the television receiving device 100 (step S703).
  • the user's emotions are actually estimated using the re-learned neural network model (step S704).
  • the data tendency of large-scale data and general voice is, for example, "there is a specific tendency in voice when angry (volume increases, speech speed increases, etc.)". It is assumed that pre-learning (pre-learning before product shipment) is performed so that emotions can be estimated from voices using voice feature data and correct label information of emotions. After that, in order to relearn to match the voice characteristics of the individual user who purchased the product, the voice characteristics and emotions are obtained from the usage log of the TV receiver 100 sensed by the device status sensor unit 340 and the usage status of other devices. Get the data of the pair.
  • the concentration of the user's television viewing can be estimated based on the line-of-sight information sensed by the user state sensor unit 320.
  • the user When the user is concentrating on watching TV, he / she refrains from outputting the explanation of the reason for operation by voice, and presents the explanation of the reason for operation in the pop-up display in the corner of the screen.
  • the user requests detailed display, a detailed explanation of the reason for operation is displayed on the screen. Further, based on the user profile sensed by the user profile sensor unit 350, it is possible to estimate whether or not the TV program being viewed suits the user's taste.
  • the CM period is detected and an explanation of the reason for operation is presented on the screen at the timing during the CM period.
  • the CM period cannot be detected within a certain period of time after the request for explanation of the reason for operation is requested, it cooperates with the TV receiving device 100 such as a smartphone owned by the user or a smartphone or robot that interacts with the user. It is also possible to present an explanation of the reason for operation using the device of.
  • the explanations generated by the explanation generation unit 102 are analyzed by natural language processing technology, and the user's personal information (hobbies / preferences, tastes, preferences, etc.) is included in the explanations. Check if it contains sensitive information (such as lifestyle). If the explanation of the reason for operation includes the user's personal information or sensitive information, avoid outputting to the microphone output that can be listened to by other users or the TV screen that other users are watching, and the user can use it.
  • An explanation of the reason for operation may be presented using another device linked with the television receiving device 100, such as a smartphone possessed by the user, a smartphone interacting with the user, or a robot.
  • the user emotion estimation unit 103 estimates the user's emotion for the presented explanation of the reason for operation mainly based on the voice information spoken by the user. In this section, a specific example of inputting a user's voice for estimating the user's feelings for the explanation of the reason for operation will be described.
  • the output sound of the TV enters, but the echo canceling technology is used. It can be used to extract only the user's voice and estimate the user's emotions with high accuracy. If a plurality of microphones are mounted on the television receiver 100, the noise gain can be reduced by beamforming to emphasize the user's voice. Further, after presenting the explanation of the reason for operation, the user may be urged to speak by voice guidance or screen display, and the output volume of the television may be lowered only during that time to facilitate extraction of the user's voice.
  • the microphone of a device linked to the TV receiving device 100 such as a microphone mounted on the remote controller, a smartphone, a smart speaker, and a robot can be used to collect the user's sound. It determines which microphone to use according to the noise level of the surrounding environment, and instructs the user to speak to the appropriate microphone. For example, when the surroundings are noisy, a smartphone microphone close to the user's mouth may be specified to encourage the user to speak.
  • the user's explanation for the presented explanation may be lowered. For example, if the user is particularly focused on watching the program, the presentation of any notification information may be annoying, but the result of the user's emotion estimation obtained at that time is obtained when watching TV normally. It is possible that the result is significantly different from the result of emotion estimation. In such a case, a notification regarding the reaction acquisition may be left on another terminal such as a smartphone, and it is not necessary to acquire the user's reaction.
  • the user emotion estimation unit 103 combines the information of the output destination of the latest explanation presentation and the voice recognition result to estimate whether the user's voice is an impression of the content of the explanation or the method of presenting the explanation.
  • the explanation generation unit 102 devises the explanation presentation method most recently, the user's voice may be a reaction to the explanation presentation method. You may ask the user what the user has responded to. Further, when it is not possible to identify which of the user's voices is the impression, it may be determined not to use the current data for the re-learning of the explanation generation unit 102. On the other hand, if the explanation generation unit 102 has not changed the method of presenting the explanation most recently (or for a while), the user emotion estimation unit 103 determines that the user's voice is a reaction to the content of the explanation. The user's emotions may be estimated.
  • the user emotion estimation unit 103 inputs the method of acquiring the user's reaction by voice. You may change to the selection format on the screen from. For example, as a result of voice speaker extraction and emotion estimation, the ratio of positive and negative does not exceed the threshold value (or is always judged to be only neutral) in a specific user. If the correct answer label cannot be given for a certain period of time or for a certain percentage of time (for example, if the correct answer label cannot be given for 80% or more of the same state for one month or the number of times the user requested the presentation of explanation), Change the method of acquiring the user's reaction from voice input to on-screen selection format. For example, present three options, "I understand”, “I don't understand the meaning of the explanation", and "I want to see other explanations", and ask the user to select by remote control operation or the like.
  • I-1 Linking the operation reason inquiry with the operation history
  • the user inquires about the reason for the automatic operation of the television receiving device 100.
  • the user may make an inquiry by operating the operation input unit 222 or the remote controller (the "operation reason inquiry" button may be installed), or the user may use the voice agent function of the television receiving device 100 to make a voice. You can also ask at (such as asking "Why did you do that now?").
  • the television receiving device 100 may be clearly shown to the user by a screen or voice guidance that it is an automatic operation based on an artificial intelligence function using a neural network model.
  • FIG. 8 shows an example in which a specific mark 801 indicating that the volume is adjusted by the judgment of the artificial intelligence function is displayed on the television screen.
  • the user may be notified that the automatic operation by the artificial intelligence function has been performed by emitting light in a specific pattern or color using an LED (Light Emitting Diode) instead of the screen.
  • LED Light Emitting Diode
  • it may be presented to the user by means such as the mark 801 or the light emission expression that the presentation of the reason for operation is based on the artificial intelligence function.
  • the description generation unit 102 reads the latest operation from the operation history memory 111. If it is not possible to specify for which automatic operation the user is requesting an explanation of the reason for the operation, the user may be asked to clearly indicate the target operation for which the explanation is requested.
  • the operation history information stored in the operation history memory 111 may be displayed on the television screen, and the user may be asked to select an operation for which an explanation is requested to be presented.
  • the operation history memory 111 stores the operation executed by the television receiving device 100 by the automatic operation based on the artificial intelligence function and the execution time. For example, as shown in FIG. 9, a list of operation histories read from the operation history memory 111 is displayed on the television screen. Then, the user can select an operation requesting the presentation of the explanation by using the cursor button or the like on the remote controller. In this way, it is possible to identify the operation for which the user is requesting an explanation of the reason for the operation.
  • the explanation generation unit 102 is likely to be preferred by the user (or the operation of the television receiving device 100 determined by the operation determination unit 101 when the user requests the presentation of the explanation. Generate a description of the reason (easy to convince the user).
  • the explanation generation unit 102 generates one or more explanations for one operation and presents the explanation to the user.
  • the DNN for inferring the explanation is relearned by using the user's reaction estimated by the user emotion estimation unit 103 as the correct answer label.
  • the explanation generation unit 102 will generate explanations that are easy for each user to understand.
  • FIG. 10 shows an operation example of the explanation generation unit 102 in a state where the user has just started using the television receiving device 100.
  • the operation history memory 111 stores the inference history that led to the determination of the operation based on the sensing result together with the determined operation.
  • the operation history memory 111 tells the operation history memory 111 that the operation "decreased the volume of the television" determined by the operation determination unit 101.
  • One or more reasons for inferring the behavior in the example shown in FIG. 10, "the time has passed 22:00", “one user is in front of the TV”, “the user's line of sight is not facing the TV”, Four reasons for "the program recommended to the user is not broadcast" are saved.
  • the explanation generation unit 102 collects information that is the reason for this operation.
  • the explanation generation unit 102 states that "the time has passed 22:00”, “one user is in front of the TV”, “the user's line of sight is not facing the TV”, and “to the user”. We collect four reasons: "Recommended programs are not broadcast.”
  • the explanation generation unit 102 determines either the order in which the ratio of the contribution to the operation determination in the operation determination unit 101 is highest, the order in which the operation history memory 111 is written, or a plurality of operation reasons at random. Select to generate a description and present the description to the user using an output section such as a screen or speaker. In the example shown in FIG. 10, the explanation generation unit 102 states that "the time has passed 22:00", "one user is in front of the TV", “the user's line of sight is not facing the TV", and "to the user".
  • the explanation generation unit 102 may generate a predetermined number of explanations, or may change the number of explanations to be generated according to the number of operation reasons.
  • the explanations generated by the explanation generation unit 102 are presented to the user one by one. Then, the user emotion estimation unit 103 estimates the reaction of the user when the explanation is presented. If the user shows a positive reaction, the presentation of the explanation of the reason for operation ends. Further, when the user shows a negative reaction when the explanation is presented or the accuracy of the emotion estimation result is low, another explanation of the operation reason generated by the explanation generation unit 102 is presented.
  • the explanation presented to the user and the user's reaction to the explanation are sequentially stored in the user information database 112 for re-learning in association with the operation of the television receiving device 100 and the explanation of the reason for the operation.
  • the explanation of the reason for the operation for the automatic operation of "turning down the volume of the TV” is "because the time is past 22:00", “because there was only one person in front of the TV", and "TV".
  • FIG. 11 shows an operation example of the explanation generation unit 102 during learning.
  • Operation 1 The explanation and reaction of the reason for the operation when the TV is turned on: 1. 1. The user was staring at the TV screen for a certain period of time ⁇ Positive reaction, explanation presentation finished
  • Operation 2 Recording started automatically Explanation and reaction of the reason for operation: 1. 1. Since it was recorded frequently in the past ⁇ Negative reaction, request the following explanation 2. Since multiple users were not able to pay attention to the TV during the dialogue ⁇ Positive reaction, explanation presentation ended
  • Action 3 Turn down the volume of the TV Explanation and reaction of the reason for operation: 1. 1. Since the time is past 22:00 ⁇ Negative reaction, request the following explanation 2. Since there was only one person in front of the TV ⁇ Negative reaction, requesting the following explanation 3. I wasn't paying attention to TV, so ⁇ Positive reaction, end of explanation presentation
  • the user is convinced of what kind of explanation by using the user's emotion estimation result (particularly, the estimation result with high accuracy in which positive or negative exceeds a predetermined ratio) by the user emotion estimation unit 103 as the correct answer label.
  • FIG. 12 shows an operation example of the explanation generation unit 102 in a state where learning has progressed.
  • the generation unit 102 reads from the operation history memory 111 information about the operation reason for the operation that the subtitles are automatically displayed. It is assumed that three reasons for operation are read out: "the frequency of turning on subtitles in this program is high”, “the noise level around the TV is high”, and "the user who frequently uses subtitles is in front of the TV”.
  • the explanation generation unit 102 explains one or more explanation candidates for the reason for the operation based on the inference process of the operation and the tendency of the explanation preferred by the user.
  • this user is easy to understand if he / she presents an explanation based on the sensing result of the environment around the TV
  • the first candidate for the explanation is based on the collected operation reasons.
  • As a second candidate "because the noise level around the TV is high”
  • As a second candidate "because users who often use subtitles are watching”
  • a third candidate "because the frequency of turning on subtitles is high in this program” Will be generated.
  • the first candidate of the explanation "Because the noise level around the TV is high” is selected, and the TV screen is used to "Display the subtitles because the noise around the TV was large.” The explanation is displayed.
  • the explanations generated by the explanation generation unit 102 are presented to the user one by one in the order of candidates. Then, the user emotion estimation unit 103 estimates the reaction of the user when the explanation is presented. If the user shows a positive reaction, the presentation of the explanation of the reason for operation ends. Further, when the user shows a negative reaction when the explanation is presented or the accuracy of the emotion estimation result is low, the explanation of the next candidate generated by the explanation generation unit 102 is presented. Further, the explanation presented to the user and the user's reaction to the explanation are sequentially stored in the user information database 112 for re-learning in association with the operation of the television receiving device 100 and the explanation of the reason for the operation.
  • the explanation generation unit 102 rearranges the candidates for the explanation sentences described in plurality based on the learning result, and presents them in order according to the reaction of the user. Further, the explanation generation unit 102 may change the expression method of the explanation text such as the wording used for the explanation according to the user's preference even if the contents of the explanation are the same. For example, the explanation generation unit 102 may paraphrase the words used for the explanation into simple ones or change the particle size of the explanation coarsely or finely for each user.
  • the explanation generation unit 102 is described for each user, such as "it is easy to understand if the explanation is based on the sensing result of the environment around the television” and "it is easy to understand if the explanation is based on the user's habit". It was to learn trends. Further, the explanation generation unit 102 learns a method of presenting an explanation preferred by the user, such as presentation by voice, presentation by characters on the screen, and presentation by using a figure on the screen, and even if the contents of the same explanation are the same for each user. The method of presenting the explanation may be changed.
  • the explanation generation unit 102 not only has a positive or negative reaction of the past user estimated by the emotion estimation unit 103, but also a user profile sensor in order to learn the tendency of the explanation wording and the explanation presentation method that the user prefers.
  • the user profile information (including the usage history of the user's device and the posting or browsing history of the SNS) sensed by the unit 350 may be used as the learning data.
  • the television receiving device 100 automatically operates in the process of the user using the television receiving device 100, and the reason for the operation is explained according to the user's request.
  • the reason for the operation is explained according to the user's request.
  • the television receiving device 100 has learned to adapt the explanation presentation of the operation reason when the automatic operation is performed to the user's preference by the functional configuration shown in FIG. I have explained. Further, it is also possible to perform learning of the operation determination unit 101 so that the television receiving device 100 performs an automatic operation suitable for the user's preference.
  • FIG. 13 shows an overall processing procedure for the television receiving device 100 to automate the operation and explain the reason for the operation in the form of a flowchart.
  • the main difference from the processing procedures shown in FIGS. 4 and 5 is that learning is performed for each of the automatic operation by the operation determination unit 101 and the explanation presentation of the operation reason by the explanation generation unit 102.
  • the operation determination unit 101 operates the television receiving device 100 based on the inference of the learned DNN (described above) based on the user's state and the sensing result of the surrounding environment by the sensing function unit 300 (see FIG. 2). Is determined (step S1301).
  • the operation determination unit 101 saves the determined operation in the operation history memory 111 (step S1302).
  • the operation determination unit 101 may save the inference history that led to the determination of the operation based on the sensing result in the operation history memory 111 together with the determined operation.
  • the main control unit 201 sends a control signal for realizing the operation determined by the operation determination unit 101 to the corresponding function module in the television receiving device 100, and performs an automatic operation (step S1303).
  • the user emotion estimation unit 103 acquires the user's reaction when the operation determined by the operation determination unit 101 is executed by the television receiving device 100 (step S1304), and attempts to estimate the user's emotion (step S1305). ).
  • the user's emotion is expressed by a binary value of whether or not the user likes the operation performed by the television receiving device 100 (positive / negative).
  • step S1305 If the user's emotion cannot be estimated (No in step S1305), the learning of the operation determination unit 101 and the explanation generation unit 102 is abandoned, and the process returns to step S1301 to return to step S1301 of the television receiving device 100 based on the sensing result. The operation determination is repeated.
  • the user emotion estimation unit 103 checks whether the estimated user's emotion is negative (step S1306).
  • the user's emotion is not negative (or positive) (No in step S1306), the user is not dissatisfied with the operation of the television receiving device 100 determined by the operation determining unit 101, and relearns the operation determining unit 101. It is not necessary to provide an explanation of the reason for the operation of the television receiving device 100. Therefore, in this case, the process returns to step S1301 and the operation determination of the television receiving device 100 based on the sensing result is repeated.
  • the explanation generation unit 102 generates an explanation that the user seems to like about the operation reason of the television receiving device 100 for which the explanation presentation is requested by the inference of the learned DNN (described above), and explains the generated operation reason. For example, it is presented to the user by using an output means (speaker, screen, etc.) included in the television receiving device 100 (step S1307).
  • the user emotion estimation unit 103 acquires the user's reaction when the explanation generated by the explanation generation unit 102 is presented (step S1308), and attempts to estimate the user's emotion (step S1309).
  • step S1309 If the user's emotion cannot be estimated (No in step S1309), the learning of the explanation generation unit 102 is abandoned, the process returns to step S1301, and the operation determination of the television receiving device 100 based on the sensing result is repeated. ..
  • the user emotion estimation unit 103 checks whether the estimated user's emotion is negative (step S1310).
  • the user's emotion is not negative (or positive) (No in step S1310), the user describes the operation of the television receiving device 100 determined by the operation determining unit 101 and the explanation of the operation reason generated by the generating unit 102. There is no dissatisfaction with the above, and there is no need to relearn the operation determination unit 101 and the explanation generation unit 102. Therefore, in this case, the process returns to step S1301 and the operation determination of the television receiving device 100 based on the sensing result is repeated.
  • the user emotion estimation unit 103 corresponds to the user's "negative" feeling when presenting the explanation of the operation reason generated by the explanation generation unit 102 with the operation of the television receiving device 100 and the explanation of the operation reason. It is attached and saved in the user information database 112 (step S1311). Then, using the information accumulated in the user information database 112, the operation determination unit 101 relearns the learned DNN that determines the operation, and the explanation generation unit 102 has learned to generate an explanation of the reason for the operation. Relearning the DNN is performed (step S1312).
  • the television receiving device 100 automatically executes the operation determined by the operation determining unit 101. Only when the user's reaction to this operation is negative, it is determined that the user needs to be presented with an explanation, and the explanation generation unit 102 generates an explanation of the reason for the operation and presents the explanation to the user.
  • the television receiver 100 when the television receiver 100 automatically increased the volume in response to ambient noise, the user performed an operation to decrease the volume with the remote controller. Further, when the television receiving device 100 changes the screen brightness according to the environment, the user performs an operation to restore the screen brightness. In this way, when the user performs a negative operation with respect to the automatic operation of the television receiving device 100, it can be determined that it is necessary to explain the reason for the operation to the user.
  • the operation determination unit 101 is relearned so that the automatic operation preferred by the user is performed.
  • the explanation generation unit 102 is relearned so that the explanation of the reason for operation that is easy for the user to understand can be presented. Further, only one of the operation determination unit 101 and the explanation generation unit 102 may be relearned. It may be decided whether to perform re-learning for the operation determination unit 101 or the explanation generation unit 102 based on the reaction of the user to the presented explanation.
  • the operation determination unit 101 learns that the brightness is not adjusted in this external light condition. Also, in response to the user saying "Stop”, the user is asked “Do you want to stop processing?", And if the user responds "Yes", the screen brightness is adjusted according to the environment. Since it can be confirmed that the user is negative to the automatic operation of changing, the operation determination unit 101 learns that the process of changing the screen brightness according to the environment is not performed thereafter.
  • the operation determination unit 101 learns to raise the volume further according to the ambient noise.
  • J-2. Re-learning using user operation In the processing procedure shown in FIG. 13, when the user's reaction to the automatic operation of the television receiving device 100 is negative, an explanation of the reason for the operation is presented to the user, and further, in the presented explanation. On the other hand, when the user's reaction is negative, the learned DNN used by the motion determination unit 101 and the explanation generation unit 102 is relearned. The user may set the learning content at the time of re-learning by operating the remote controller or the like.
  • FIG. 14 shows a configuration example of a screen that presents an explanation of the reason for operation.
  • the user responded negatively to the automatic display of subtitles, as shown by reference number 1401 in FIG. 14, the subtitles were displayed in the lower right corner of the screen because the noise level around the TV was high.
  • the explanation of the reason for the operation is presented.
  • the explanation is presented in the corner of the screen so as not to interfere with the viewing of the TV program by the user, but of course, the explanation may be displayed in a large size in the center of the screen.
  • the user selects the displayed explanation by remote control operation and presses a button such as the enter button (OK button) to transition to the setting screen related to the learning content. This may be done, or the transition to the setting screen related to the learning content may be made by indicating by voice input that the user desires the setting.
  • a button such as the enter button (OK button)
  • the screen transitions to the screen for setting the learning content for re-learning about the automatic operation as shown in FIG.
  • a button "Stop processing based on this reason” is displayed in the middle of the screen to indicate the user's intention to stop the automatic operation based on this reason for operation.
  • another reason for performing the same processing at the bottom of the screen is "Perform the same processing in the following cases: Frequently used subtitle users are watching / frequency of turning on subtitles. Is a high-priced program ”may also be presented. Then, when the user selects the button 1502 by operating the remote controller or the touch panel, the television receiving device 100 is relearned so as not to perform the same processing for the same reason thereafter. Further, based on an operation such as selection or determination for the presentation of the displayed reference number 1503, the transition to the setting screen for each reason presented in the reference number 1503 is performed, and the setting operation for the reason of the reference number 1501 described above is performed. The user may be able to perform the same operation as in.
  • FIG. 16 shows another configuration example of the screen for presenting the explanation of the reason for operation.
  • the subtitles are displayed in the center of the screen because "the noise around the TV was large.
  • An explanation of the reason for the operation is presented.
  • "[Provide another reason]” is displayed at the bottom of the screen, which is the reason for operation.
  • a button is displayed requesting another explanation.
  • the second explanation “viewed by a user who frequently uses subtitles” is selected and highlighted. Further, immediately below the explanation selected by the user, a button 1704 designated as an explanation of the reason for operation for the automatic subtitle display and a button 1705 designated to increase the importance of this explanation are displayed. Then, when the user presses either the button 1704 or 1705 by operating the remote controller or the touch panel, the process indicated by the button is set as the learning content for re-learning the explanation of the reason for operation. Similarly, by selecting another description such as reference number 1701 or 1703, the user may be able to perform an operation similar to the setting operation for the reason of reference number 1702 described above.
  • the explanation generation unit 102 estimates the user's emotions from the user's reaction when the explanation of the reason for operation is presented using the television receiving device 100, a smartphone, a smart speaker, a robot, or the like, and is used for each user. Or, for each reason for operation, learn which device is most suitable for presenting the explanation.
  • the explanation generation unit 102 may learn an appropriate number of characters and the particle size of the explanation when presenting the explanation using a device having a small screen size such as a smartphone.
  • the optimum withdrawal amount of the display should be learned according to the content of the explanation to be presented (for example, the number of characters in the explanation and the image used for the explanation).
  • the content of the explanation may be learned according to the amount of pulling out of the display.
  • learning is performed so that the amount of drawing out of the display is large so that more information can be displayed.
  • the device status sensor unit 340 acquires the current display withdrawal amount to learn the contents of the explanation, determine the content of the explanation to be displayed, and determine an appropriate display withdrawal amount. May be done.
  • the present disclosure is a technique relating to a device for explaining the reason for automatic operation in a device equipped with a DNN in an easy-to-understand manner for a user. That is, the device to which the present disclosure applies learns a description and a method of presenting a description that is easy for the user to accept (or that the user shows a positive reaction) in response to the user's request when the automatic operation is performed. ..
  • TV receivers have been mentioned as specific examples of devices to which this disclosure applies, but various home appliances such as air conditioners, refrigerators, washing machines, audio devices, lighting devices, smart speakers, car navigation systems, and automatic driving It can also be applied to mobile devices such as cars and unmanned aircraft (drones, etc.).
  • FIG. 18 shows an example of a dialogue regarding navigation performed between a car navigation system mounted on a vehicle and the driver of the vehicle.
  • FIG. 19 shows another example of a navigation-related dialogue between the car navigation system mounted on the vehicle and the driver of the vehicle.
  • the car navigation system should learn that the driver does not like long explanations because the driver interrupted the explanation, and also provide short and concise explanations for explanations of other reasons for operation. learn. For example, the long explanation that "the route via B station has less undulations than other routes and the fuel efficiency is about 1km / L is better" is changed to a concise explanation such as "select the Y route because the fuel efficiency is good”. Learn like. If the particle size of the explanation is coarsened as a result of learning, the number of characters in the explanation will be shortened. Therefore, the explanation may be presented on the head-up display or instrument panel instead of the voice.
  • FIG. 20 shows yet another example of a navigation-related dialogue between the car navigation system mounted on the vehicle and the driver of the vehicle.
  • the car navigation system may have another explanation in (Dialogue 6) for the route setting. Give a reason.
  • the present disclosure may be carried out by a character displayed on a robot or a display including a humanoid, an animal type, a spherical shape, and a cylindrical shape.
  • the presentation of the explanation to the user may be expressed by the gesture of the humanoid robot or the humanoid character displayed on the display, or the animal robot or the animal character displayed on the display, or a robot of other shapes. And may be expressed by the movement of the character.
  • the present specification has mainly described embodiments in which the present disclosure is applied to a television receiving device, the gist of the present disclosure is not limited to this.
  • the present disclosure can be similarly applied to various devices that perform automatic operation by applying DNN to internal processing.
  • the present disclosure can be applied to various home appliances such as air conditioners, refrigerators, washing machines, audio equipment, lighting equipment, and smart speakers.
  • the present disclosure can also be applied to autonomously operating mobile devices such as car navigation systems, self-driving cars and unmanned aerial vehicles (drones, etc.).
  • a decision unit that determines the processing of the controlled device corresponding to the sensor information, and A generator that generates an explanation of the reason for the process,
  • An estimation unit that estimates the user's reaction, Equipped with The generator controls the presentation of the description based on the estimation result for the user's reaction.
  • Information processing device
  • the generation unit controls the content of the description or the presentation method of the description based on the estimation result.
  • the information processing device according to (1) above.
  • the generation unit selects the particle size of the information presented as the description, the expression method of the description, or the device used for the output of the description, and the device used for the output of the description. Control the above settings (character font when using the screen, character size, volume when using voice, voice quality), The information processing device according to (2) above.
  • the generation unit includes a first machine learning model learned to estimate the explanation of the reason for processing of the controlled target device corresponding to the sensor information, and uses the first machine learning model. Generate a description for the process, The information processing device according to any one of (1) to (3) above.
  • the first machine learning model is relearned based on the explanation generated for the processing performed by the controlled target device and the user's reaction in response to the sensor information.
  • the information processing device according to (4) above.
  • the first machine learning model does not explain the same contents to the processing of the controlled target device based on the user's reaction to the explanation generated for the processing performed by the controlled target device. Learn not to use the presentation method of or similar explanations, The information processing device according to (5) above.
  • the first machine learning model is relearned based on at least one of environmental information, device information, a user profile, or a user's device usage history.
  • the information processing device according to any one of (5) and (6) above.
  • the generation unit controls the presentation of the description based on the request from the user.
  • the information processing device according to any one of (1) to (7) above.
  • the generation unit controls the presentation of the description based on the user's negative reaction to the controlled device performing the process determined by the determination unit.
  • the information processing device according to any one of (1) to (8) above.
  • the determination unit includes a second machine learning model learned to estimate the processing of the controlled target device corresponding to the sensor information, and corresponds to the sensor information by using the second machine learning model. Determines the processing of the controlled device.
  • the information processing device according to any one of (1) to (9) above.
  • the second machine learning model is relearned based on the processing performed by the controlled target device and the reaction of the user in response to the sensor information.
  • the information processing device according to (10) above.
  • the second machine learning model learns not to determine the process executed by the controlled device based on the user's negative reaction to the process executed by the controlled device based on the sensor information. do, The information processing device according to (11) above.
  • the estimation unit includes a third machine learning model learned to estimate the user's emotion from the user's reaction, and the process performed by the controlled target device using the third machine learning model. Alternatively, the user's feelings toward the explanation presented for the process are estimated.
  • the information processing device according to any one of (1) to (12) above.
  • a control unit that controls a notification process relating to at least one of the process determined by the determination unit and the presentation of the description controlled by the generation unit is provided.
  • the information processing device according to any one of (1) to (13) above.
  • the control unit controls a process determined by the determination unit or a process of notifying that the presentation of the explanation controlled by the generation unit uses the machine learning model.
  • the information processing device according to (14) above.
  • the generation unit presents two or more of the explanations of the plurality of reasons for one process of the controlled device in order or at the same time.
  • the information processing device according to any one of (1) to (15) above.
  • a user interface output unit for outputting a user interface for acquiring a reaction to the description presented by the generation unit is further provided.
  • the information processing device according to any one of (1) to (16) above.
  • a display unit for displaying the above description is provided.
  • the information processing device according to any one of (1) to (17) above.
  • Information processing method
  • a decision unit that determines the processing of the controlled device corresponding to the sensor information, A generator that generates an explanation of the reason for the process, An estimation unit that estimates the user's reaction, Make your computer work as The generator is a computer program written in a computer-readable format so as to control the presentation of the description based on the estimation result of the user's reaction.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

制御対象装置を自動操作した理由の説明を提示する処理を行う情報処理装置を提供する。 情報処理装置は、センサー情報に対応する制御対象装置の処理を決定する決定部と、前記処理に対する理由の説明を生成する生成部と、ユーザの反応に対する推定を行う推定部を具備する。前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する。前記生成部は、前記推定結果に基づいて、前記説明の内容又は前記説明の提示方法を制御する。

Description

情報処理装置及び情報処理方法、並びにコンピュータプログラム
 本明細書で開示する技術(以下、「本開示」とする)は、制御対象装置の自動操作に関する処理を行う情報処理装置及び情報処理方法、並びにコンピュータプログラムに関する。
 最近、学習済みニューラルネットワークモデルを利用した人工知能技術が広範に普及しつつある。特に、複数のニューラルネットワークの層を備えたディープラーニングのニューラルネットワークモデル(以下、「DNN」とも呼ぶ)は、訓練すなわちディープラーニングを通じて開発者には想像できない特徴を多くのデータから抽出して、開発者がアルゴリズムを想定し得ないような複雑な問題解決を行うことのできる人工知能機能を開発することができる(例えば、特許文献1を参照のこと)。今後、テレビを始めとする身の回りのさまざまな機器の内部処理にDNNが適用されることが予想される。
特開2019-82883号公報
 本開示の目的は、制御対象装置の自動操作に関する処理を行う情報処理装置及び情報処理方法、並びにコンピュータプログラムを提供することにある。
 本開示の第1の側面は、
 センサー情報に対応する制御対象装置の処理を決定する決定部と、
 前記処理に対する理由の説明を生成する生成部と、
 ユーザの反応に対する推定を行う推定部と、
を具備し、
 前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
情報処理装置である。
 前記生成部は、前記推定結果に基づいて、前記説明として提示する情報の粒度、説明文の表現方法、又は前記説明の出力に使用するデバイスの選択、前記説明の出力に使用するデバイス上の設定(画面を使用する場合の文字フォント、文字サイズ、音声を使用する場合の音量、声質)を制御する。
 前記生成部は、センサー情報に対応する前記制御対象装置の処理の理由の説明を推定するように学習された第1の機械学習モデルを備え、前記第1の機械学習モデルを用いて前記処理に対する説明を生成する。センサー情報に対応して前記制御対象装置が行った処理に対して提示した説明とユーザの反応に基づいて、前記第1の機械学習モデルの再学習が行われる。
 また、前記決定部は、センサー情報に対応する前記制御対象装置の処理を推定するように学習された第2の機械学習モデルを備え、前記第2の機械学習モデルを用いてセンサー情報に対応する前記制御対象装置の処理を決定する。センサー情報に対応して前記制御対象装置が行った処理とユーザの反応に基づいて、前記第2の機械学習モデルの再学習が行われる。
 また、本開示の第2の側面は、
センサー情報に対応する制御対象装置の処理を決定する決定ステップと、
 前記処理に対する理由の説明を生成する生成ステップと、
 ユーザの反応に対する推定を行う推定ステップと、
を有し、
 前記生成ステップでは、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
情報処理方法である。
 また、本開示の第3の側面は、
 センサー情報に対応する制御対象装置の処理を決定する決定部、
 前記処理に対する理由の説明を生成する生成部、
 ユーザの反応に対する推定を行う推定部、
としてコンピュータを機能させ、
 前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御するように、コンピュータ可読形式で記述されたコンピュータプログラムである。
 本開示の第3の側面に係るコンピュータプログラムは、コンピュータ上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータプログラムを定義したものである。換言すれば、本開示の第3の側面に係るコンピュータプログラムをコンピュータにインストールすることによって、コンピュータ上では協働的作用が発揮され、本開示の第1の側面に係る情報処理装置と同様の作用効果を得ることができる。
 本開示によれば、制御対象装置を自動操作した理由の説明を提示する処理を行う情報処理装置及び情報処理方法、並びにコンピュータプログラムを提供することができる。
 なお、本明細書に記載された効果は、あくまでも例示であり、本開示によりもたらされる効果はこれに限定されるものではない。また、本開示が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
 本開示のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
図1は、テレビ受信装置100の構成例を示した図である。 図2は、テレビ受信装置100に装備されるセンシング機能部300の構成例を示した図である。 図3は、テレビ受信装置100の自動操作と最適な動作理由の説明を行うための機能的構成例を示した図である。 図4は、テレビ受信装置100の自動操作と最適な動作理由の説明を行う処理手順(前半)を示したフローチャートである。 図5は、テレビ受信装置100の自動操作と最適な動作理由の説明を行う処理手順(後半)を示したフローチャートである。 図6は、ユーザ感情推定部103がユーザの感情を推定する処理手順を示したフローチャートである。 図7は、ユーザ感情推定部103で使用するニューラルネットワークをユーザ毎に最適化する処理手順を示したフローチャートである。 図8は、人工知能機能の判断により自動操作を行ったことを表示したテレビ画面の例を示した図である。 図9は、動作履歴メモリ111から読み出した動作履歴のリストの構成例を示した図である。 図10は、説明生成部102の動作例を示した図である。 図11は、説明生成部102の動作例を示した図である。 図12は、説明生成部102の動作例を示した図である。 図13は、テレビ受信装置100が操作の自動化及び動作理由の説明を行うための全体的な処理手順を示したフローチャートである。 図14は、動作理由の説明を提示する画面の構成例を示した図である。 図15は、再学習の学習内容を設定する画面の構成例を示した図である。 図16は、動作理由の説明を提示する画面の構成例を示した図である。 図17は、再学習の学習内容を設定する画面の構成例を示した図である。 図18は、カーナビゲーションシステムと運転手との対話例を示した図である。 図19は、カーナビゲーションシステムと運転手との対話例を示した図である。 図20は、カーナビゲーションシステムと運転手との対話例を示した図である。
 以下、図面を参照しながら本開示について、以下の順に従って説明する。
A.概要
B.装置構成
C.センシング機能
D.内部処理の自動化と動作理由の説明
E.機能的構成
F.処理動作
G.動作理由の説明の実現例
H.感情推定のためのユーザの音声入力の実現例
I.動作理由の説明提示のための動作
J.動作決定を含めた学習
K.他の機器を使った説明提示
L.他の機器への応用例
A.概要
 近い将来、テレビを始めとする身の回りのさまざまな機器の内部処理にDNNが適用され、DNNの推論結果に基づいて機器が自動で動作することが予想される。ところが、機器が気を利かせて自動で行った動作でも、ユーザから見るとその動作を行った理由が理解できないことが懸念される。
 例えば、DNNの内部的な特徴量のうち、代表的なものを言語化及び可視化してユーザに提示する推論装置が提案されている(特許文献1を参照のこと)。この推論装置は、クラスタリング問題をニューラルネットワーク(以下、「NN」とも呼ぶ)で解く場合に、各クラスの「頻出特徴量」とNN入力の「代表特徴量」に共通する「根拠特徴量」を求めて、根拠特徴量と概念を対応させることにより、推論の根拠となる特徴量を出力する。例えば画像クラスタリングNNが入力画像をゴミ収集車であると判断した理由の説明は「この画像は、ゴミ収集車である。なぜならば、タイヤ又は物の端っこ、四角形を組み合わせた細かい柄、細かいギザギザな模様、が含まれているからである。」となる。
 この推論装置は、DNN動作の根拠となった特徴量を説明するものであるが、その内容がユーザにとって理解し易いかどうかを推論するようには構成されていない。また、この推論装置を内部処理にDNNを適用した装置に搭載して動作理由の提示を行わせようとした場合、複数のDNNを組み合わせて動作することになり、複雑な処理が行われることが予測される。したがって、動作理由の説明文が長く煩雑になる可能性がある。また、この推論装置を使って提示される説明文は、DNNの内部的な特徴量を言語化してつなぎ合わせただけである。このため、DNNの動作理由としては正しい説明であっても、それが一般的なユーザにとって理解し易い内容であるかどうかは十分に考慮されていない。
 DNNが搭載された機器における自動動作の理由を機器自身が説明するという観点では、説明文が一般的なユーザ(又は、個別のユーザ)にとって理解し易いものである必要がある。そこで、本開示では、対象とする機器の動作を自動的に決定する動作決定部に、その動作決定部が決定した動作の理由をユーザに説明する説明文を生成する説明生成部を組み合わせた装置を提案する。説明生成部は、対象とする機器のどのような動作に対してユーザが説明を求めたかや、ユーザに提示した動作理由の説明に対してユーザがどのような反応を示したかを取得することで、最適な動作理由の説明文の生成方法や説明の提示方法を学習していく。説明生成部は、ユーザ毎に最適な動作理由の説明文の生成方法や説明の提示方法を学習することもできる。したがって、対象とする機器の動作を自動的に決定する動作決定部に、このような説明生成部を組み合わせることで、ユーザに適合する形で、簡潔且つユーザにとって理解し易い機器の自動動作の理由を提示することが可能となる。
B.装置構成
 この項では、本開示が適用されるテレビ受信装置について説明する。図1には、本開示が適用されるテレビ受信装置100の構成例を示している。テレビ受信装置100は、主制御部201と、バス202と、ストレージ部203と、通信インターフェース(IF)部204と、拡張インターフェース(IF)部205と、チューナー/復調部206と、デマルチプレクサ(DEMUX)207と、映像デコーダ208と、オーディオデコーダ209と、文字スーパーデコーダ210と、字幕デコーダ211と、字幕処理部212と、データデコーダ213と、キャッシュ部214と、アプリケーション(AP)制御部215と、ブラウザ部216と、音源部217と、映像処理部218と、表示部219と、オーディオ処理部220と、オーディオ出力部221と、操作入力部222を備えている。
 主制御部201は、例えばコントローラとROM(Read Only Memory)(但し、EEPROM(Electrically Erasable Programmable ROM)のような書き換え可能なROMを含むものとする)、及びRAM(Random Access Memory)で構成され、所定の動作プログラムに従ってテレビ受信装置100全体の動作を統括的に制御する。コントローラは、CPU(Central Processing Unit)、又はMPU(Micro Processing Unit)などのプロセッサチップで構成される。あるいは、主制御部201は、GPU(Graphics Processing Unit)若しくはGPGPU(General Purpose Graphic Processing Unit)といった複数のプロセッサコアを持つプロセッサであってもよい。ROMは、オペレーティングシステム(OS)などの基本動作プログラムやその他の動作プログラムが格納された不揮発性メモリである。ROM内には、テレビ受信装置100の動作に必要な動作設定値が記憶されてもよい。RAMはOSやその他の動作プログラム実行時のワークエリアとなる。バス202は、主制御部201とテレビ受信装置100内の各部との間でデータ送受信を行うためのデータ通信路である。
 本開示では、主制御部201において、学習済みのDNNモデルを使用して、テレビ受信装置100の内部処理に関するさまざまな推論が行われる。学習済みのDNNモデルを使用した内部処理として、テレビ受信装置100の自動操作に関する動作決定や、決定した操作に関するユーザへの説明文の生成並びに説明文の出力方法の決定、出力した説明に対するユーザの反応又は感情の推定などが含まれる。但し、DNNモデルを使用した内部処理の詳細については、後述に譲る。また、主制御部201において、学習済みのDNNモデルの再学習を行うようにすることもできる。テレビ受信装置100の自動操作に関する動作として、例えば、画像モード(シネマモードやゲームモード)切り替え、輝度ダイナミックレンジ(SDRやHDR、LDR)又はガンマ補正切り替え、輝度切り替え、解像度切り替え(アップコンバート制御)、(外部入力の)画面サイズ制御(オーバースキャン、アンダースキャン、ドットバイドットなど)、UI(User Interface)の表示制御(位置、色、大きさなど)、チャンネル切り替え、音量調整、音声出力方向制御、字幕表示切り替え、言語切り替え、アクセシビリティ制御、入力切り替え、アプリケーションの軌道制御、画面方向制御(首振りテレビなどの場合)、画面回転制御(画面回転式ディスプレイなどの場合)、画面の露出制御(巻取り式ディスプレイなどの場合)を挙げることができる。
 ストレージ部203は、フラッシュROMやSSD(Solid State Drive)、HDD(Hard Disc Drive)などの不揮発性の記憶デバイスで構成される。ストレージ部203は、テレビ受信装置100の動作プログラムや動作設定値、テレビ受信装置100を使用するユーザの個人情報などを記憶する。また、ストレージ部203は、インターネットを介してダウンロードした動作プログラムやその動作プログラムで作成した各種データなどを記憶する。また、ストレージ部203は、放送波やインターネットを通じて取得した動画、静止画、オーディオなどのコンテンツも記憶可能である。また、ストレージ部203は、学習済みのDNNモデル(上述)のノード間の結合重み係数を記憶する。
 通信インターフェース部204は、ルータ(図示しない)などを介してインターネットと接続され、インターネット上の各サーバ装置やその他の通信機器とデータの送受信を行う。また、通信回線を介して伝送される番組のデータストリームの取得も行うものとする。ルータは、イーサネット(登録商標)などの有線接続、あるいはWi-Fi(登録商標)などの無線接続のいずれであってもよい。
 チューナー/復調部206は、アンテナ(図示しない)を介して地上波放送又は衛星放送などの放送波を受信し、主制御部201の制御に基づいてユーザの所望するサービス(放送局など)のチャンネルに同調(選局)する。また、チューナー/復調部206は、受信した放送信号を復調して放送データストリームを取得する。なお、複数画面同時表示や裏番組録画などを目的として、テレビ受信装置100が複数のチューナー/復調部を搭載する構成(すなわち多重チューナ)であってもよい。
 デマルチプレクサ207は、入力したデータストリーム中の制御信号に基づいてリアルタイム提示要素である映像データストリーム、オーディオデータストリーム、文字スーパーデータストリーム、字幕データストリームを、それぞれ映像デコーダ208、オーディオデコーダ209、文字スーパーデコーダ210、字幕デコーダ211に分配する。デマルチプレクサ207に入力されるデータストリームは、放送サービスによる放送データストリームや、IPTV(Internet Protocol TV)やOTT(Over-The-Top)、動画共有サイトなどのネットワークを利用した配信サービスによる配信データストリームを含む。放送データストリームは、チューナー/復調部206で選局受信及び復調された後にデマルチプレクサ207に入力され、配信データストリームは、通信インターフェース部204で受信された後にデマルチプレクサ207に入力される。また、デマルチプレクサ207は、マルチメディアアプリケーションやその構成要素であるファイル系データを再生し、アプリケーション制御部215に出力し、又はキャッシュ部214で一時的に蓄積する。
 映像デコーダ208は、デマルチプレクサ207から入力した映像ストリームを復号して映像情報を出力する。また、オーディオデコーダ209は、デマルチプレクサ207から入力したオーディオストリームを復号してオーディオ情報を出力する。デジタル放送では、例えばMPEG2 System規格に則ってそれぞれ符号化された映像ストリーム並びにオーディオストリームが多重化して伝送又は配信されている。映像デコーダ208並びにオーディオデコーダ209は、デマルチプレクサ207でデマルチプレクスされた符号化映像ストリーム、符号化映像ストリームを、それぞれ規格化されたデコード方式に従ってデコード処理を実施することになる。なお、複数種類の映像データストリーム及びオーディオデータストリームを同時に復号処理するために、テレビ受信装置100は複数の映像デコーダ208及びオーディオデコーダ209を備えてもよい。
 文字スーパーデコーダ210は、デマルチプレクサ207から入力した文字スーパーデータストリームを復号して文字スーパー情報を出力する。字幕デコーダ211は、デマルチプレクサ207から入力した字幕データストリームを復号して字幕情報を出力する。字幕処理部212は、文字スーパーデコーダ210から出力された文字スーパー情報と、字幕デコーダ211から出力された字幕情報とを合成処理する。
 データデコーダ213は、MPEG-2 TSストリームに映像及びオーディオとともに多重化されるデータストリームをデコードする。例えば、データデコーダ213は、PSI(Program Specific Information)テーブルの1つであるPMT(Program Map Table)の記述子領域に格納された汎用イベントメッセージをデコードした結果を、主制御部201に通知する。
 アプリケーション制御部215は、放送データストリームに含まれる制御情報をデマルチプレクサ207から入力し、又は、通信インターフェース部204を介してインターネット上のサーバ装置から取得して、これら制御情報を解釈する。
 ブラウザ部216は、キャッシュ部214若しくは通信インターフェース部204を介してインターネット上のサーバ装置から取得したマルチメディアアプリケーションファイルやその構成要素であるファイル系データを、アプリケーション制御部215の指示に従って提示する。ここで言うマルチメディアアプリケーションファイルは、例えばHTML(Hyper Text Markup Language)文書やBML(Broadcast Markup Language)文書などである。また、ブラウザ部216は、音源部217に働きかけることにより、アプリケーションのオーディオ情報の再生も行うものとする。
 映像処理部218は、映像デコーダ208から出力された映像情報と、字幕処理部212から出力された字幕情報と、ブラウザ部216から出力されたアプリケーション情報を入力し、適宜選択し又は重畳する処理を行う。映像処理部218はビデオRAM(図示を省略)を備え、このビデオRAMに入力された映像情報に基づいて表示部219の表示駆動が実施される。また、映像処理部218は、主制御部201の制御に基づいて、必要に応じて、EPG(Electronic Program Guide)画面や、主制御部201が実行するアプリケーションによって生成されたグラフィックスなどの画面情報の重畳処理も行う。また、映像処理部218は、ノイズ低減、超解像などの解像度変換処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理も行う。
 表示部219は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイなどからなる表示デバイスであり、映像処理部218で選択又は重畳処理を施された映像情報をユーザに提示する。
 オーディオ処理部220は、オーディオデコーダ209から出力されたオーディオ情報と、音源部217で再生されたアプリケーションのオーディオ情報を入力して、適宜選択又は合成などの処理を行う。また、オーディオ処理部220は、低解像度又は標準解像度のオーディオ信号を、除去又は圧縮された帯域を含む高解像度オーディオ信号に帯域拡張したりする高音質化処理を実施するようにしてもよい。また、オーディオ処理部220は、複数のスピーカーを利用した音像定位処理を行うようにしてもよい。
 オーディオ出力部221は、チューナー/復調部206で選局受信した番組コンテンツやデータ放送コンテンツのオーディオ出力や、オーディオ処理部220で処理されたオーディオ情報(音声ガイダンス又は音声エージェントの合成音声などを含む)の出力に用いられる。オーディオ出力部221は、スピーカーなどの音響発生素子で構成される。例えば、オーディオ出力部221は、複数のスピーカーを組み合わせたスピーカーアレイ(多チャンネルスピーカー若しくは超多チャンネルスピーカー)であってもよく、一部又は全部のスピーカーがテレビ受信装置100に外付け接続されていてもよい。
 操作入力部222は、ユーザがテレビ受信装置100に対する操作指示の入力を行う指示入力部である。操作入力部222は、例えば、リモコン(図示しない)から送信されるコマンドを受信するリモコン受信部とボタンスイッチを並べた操作キーで構成される。また、操作入力部222は、表示部219の画面に重畳されたタッチパネルを含んでもよい。また、操作入力部222は、拡張インターフェース部205に接続されたキーボードなどの外付け入力デバイスを含んでもよい。
 拡張インターフェース部205は、テレビ受信装置100の機能を拡張するためのインターフェース群であり、例えば、アナログ映像/オーディオインターフェースや、USB(Universal SerialBus)インターフェース、メモリインタフェースなどで構成される。拡張インターフェース部205は、DVI端子やHDMI(登録商標)端子やDisplay Port(登録商標)端子などからなるデジタルインターフェースを含んでいてもよい。
 拡張インターフェース部205は、センサー群(後述並びに図2を参照のこと)に含まれる各種のセンサーのセンサー信号を取り込むためのインターフェースとしても利用される。センサーは、テレビ受信装置100の本体内部に装備されるセンサー、並びにテレビ受信装置100に外付け接続されるセンサーの双方を含むものとする。外付け接続されるセンサーには、テレビ受信装置100と同じ空間に存在する他のCE(Consumer Electronics)機器やIoT(Internet of Things)デバイスに内蔵されるセンサーも含まれる。拡張インターフェース部205は、センサー信号をノイズ除去などの信号処理を施しさらにデジタル変換した後に取り込んでもよいし、未処理のRAWデータ(アナログ波形信号)として取り込んでもよい。
C.センシング機能
 図2には、テレビ受信装置100に装備されるセンシング機能部300の構成例を模式的に示している。図2に示す各センサーは、テレビ受信装置100の本体内部に装備されるセンサー、並びにテレビ受信装置100に外付け接続されるセンサーの双方を含むものとする。各センサーからのセンサー信号は、例えば拡張インターフェース部205を介してテレビ受信装置100内に取り込まれる。また、センシング機能部300に含まれるセンサーのうち少なくとも一部がリモコンに設けられていてもよい。センサー信号の少なくとも一部は、主制御部201において使用される学習済みのDNNモデルへの入力となる。
 カメラ部310は、表示部219に表示された映像コンテンツを視聴中のユーザを撮影するカメラ311と、表示部219に表示された映像コンテンツを撮影するカメラ312と、テレビ受信装置100が設置されている室内(あるいは、設置環境)を撮影するカメラ313を含んでいてもよいし、カメラ311乃至313が持つ機能のうち複数の機能を有するカメラを含んでいてもよい。
 カメラ311は、例えば表示部219の画面の上端縁中央付近に設置され映像コンテンツを視聴中のユーザを好適に撮影する。カメラ312は、例えば表示部219の画面に対向して設置され、ユーザが視聴中の映像コンテンツを撮影する。あるいは、ユーザが、カメラ312を搭載したゴーグルを装着するようにしてもよい。また、カメラ312は、映像コンテンツの音声も併せて記録(録音)する機能を備えていてもよい。また、カメラ313は、例えば全天周カメラや広角カメラで構成され、テレビ受信装置100が設置されている室内(あるいは、設置環境)を撮影する。あるいは、カメラ313は、例えばロール、ピッチ、ヨーの各軸回りに回転駆動可能なカメラテーブル(雲台)に乗せたカメラであってもよい。
 ユーザ状態センサー部320は、ユーザの状態に関する状態情報を取得する1以上のセンサーからなる。ユーザ状態センサー部320は、状態情報として、例えば、ユーザの作業状態(映像コンテンツの視聴の有無)や、ユーザの行動状態(静止、歩行、走行などの移動状態、瞼の開閉状態、視線方向、瞳孔の大小)、精神状態(ユーザが映像コンテンツに没頭あるいは集中しているかなどの感動度、興奮度、覚醒度、感情や情動など)、さらには生理状態を取得することを意図している。ユーザ状態センサー部320は、発汗センサー、筋電位センサー、眼電位センサー、脳波センサー、呼気センサー、ガスセンサー、イオン濃度センサー、ユーザの挙動を計測するIMU(Inertial Measurement Unit)などの各種のセンサー、ユーザの発話を収音するオーディオセンサー(マイクなど)、ユーザの指などの物体の位置を検出する位置情報検出センサー(近接センサーなど)を備えていてもよい。なお、マイクは、テレビ受信装置100と一体化されている必要は必ずしもなく、サウンドバーなどテレビの前に据え置く製品に搭載されたマイクでもよい。また、有線又は無線によって接続される外付けのマイク搭載機器を利用してもよい。外付けのマイク搭載機器としては、マイクを搭載しオーディオ入力可能なスマートスピーカー、無線ヘッドホン/ヘッドセット、タブレット、スマートフォン、あるいはPC(personal Computer)、又は冷蔵庫、洗濯機、エアコン、掃除機、あるいは照明器具などのいわゆるスマート家電、IoT家電装置、又はロボットであってもよい。位置情報検出センサーは、表示部219に対するユーザ操作を検出するためのタッチセンサーとして構成されてもよい。
 環境センサー部330は、テレビ受信装置100が設置されている室内など環境に関する情報を計測する各種センサーからなる。例えば、温度センサー、湿度センサー、光センサー、照度センサー、気流センサー、匂いセンサー、電磁波センサー、地磁気センサー、GPS(Global Positioning System)センサー、周囲音を収音するオーディオセンサー(マイクなど)などが環境センサー部330に含まれる。また、環境センサー部330は、テレビ受信装置100が置かれている部屋の大きさやユーザの位置、部屋の明るさなどの情報を取得するようにしてもよい。
 機器状態センサー部340は、テレビ受信生装置100の内部の状態を取得する1以上のセンサーからなる。あるいは、映像デコーダ208やオーディオデコーダ209などの回路コンポーネントが、入力信号の状態や入力信号の処理状況などを外部出力する機能を備えて、機器内部の状態を検出するセンサーとしての役割を果たすようにしてもよい。また、機器状態センサー部340は、テレビ受信装置100やその他の機器に対してユーザが行った操作を検出したり、ユーザの過去の操作履歴を保存したりするようにしてもよい。ユーザの操作には、テレビ受信装置100やその他の機器に対するリモコン操作を含んでもよい。ここで言うその他の機器は、タブレット、スマートフォン、PC、又は、冷蔵庫、洗濯機、エアコン、掃除機、あるいは照明器具などのいわゆるスマート家電、IoT家電装置、又はロボットであってもよい。また、機器状態センサー部340は、機器の性能や仕様に関する情報を取得するようにしてもよい。機器状態センサー部340は、機器の性能や仕様に関する情報を記録した内蔵ROMのようなメモリ、あるいはこのようなメモリから情報を読み取るリーダであってもよい。
 ユーザプロファイルセンサー部350は、テレビ受信装置100で映像コンテンツを視聴するユーザに関するプロファイル情報を検出する。ユーザプロファイルセンサー部350は、必ずしもセンサー素子で構成されていなくてもよい。例えばカメラ311で撮影したユーザの顔画像やオーディオセンサーで収音したユーザの発話などに基づいて、ユーザの年齢や性別などのユーザプロファイルを推定するようにしてもよい。また、スマートフォンなどのユーザが携帯する多機能情報端末上で取得されるユーザプロファイルや、スマートスピーカーやロボットがユーザとの対話を通じて取得するユーザプロファイルを、テレビ受信装置100とスマートフォンなどの機器の間の連携により取得するようにしてもよい。但し、ユーザプロファイルセンサー部350は、ユーザのプライバシーや機密に関わるように機微情報まで検出する必要はない。また、同じユーザのプロファイルを、映像コンテンツの視聴の度に検出する必要はなく、一度取得したユーザプロファイル情報を保存しておくEEPROMのようなメモリであってもよい。
 また、スマートフォンなどのユーザが携帯する多機能情報端末を、テレビ受信装置100とスマートフォンなどの機器の間の連携により、カメラ部310あるいはユーザ状態センサー部320、環境センサー部330、ユーザプロファイルセンサー部350として活用してもよい。例えば、スマートフォンに内蔵されたセンサーで取得されるセンサー情報や、ヘルスケア機能(歩数計など)、カレンダー又はスケジュール帳・備忘録、メール、ブラウザ履歴、SNS(Social Network Service)の投稿及び閲覧の履歴といったアプリケーションで管理するデータを、ユーザの状態データや環境データに加えるようにしてもよい。また、テレビ受信装置100と同じ空間に存在する他のCE機器やIoTデバイスに内蔵されるセンサーを、ユーザ状態センサー部320あるいは環境センサー部330として活用してもよい。また、インターホンの音を検知するか又はインターホンシステムとの通信で来客を検知するようにしてもよい。また、テレビ受信装置100から出力される映像やオーディオを取得して、解析する輝度計やスペクトル解析部がセンサーとして設けられていてもよい。
D.内部処理の自動化と動作理由の説明
 本実施形態では、テレビ受信装置100の内部処理のほとんどすべてにDNNが適用され、上記C項で説明したセンシング機能によりセンシングされたユーザの使用状況や周囲環境に基づいて、テレビ受信装置100の自動操作が可能であることを想定している。具体的には、チャンネル操作、音量調整、画質調整、字幕設定といったテレビ受信装置100本体の操作をDNNにより自動化することを意図しているが、自動録画設定や外付けスピーカーへのオーディオ出力など、テレビ受信装置100とこれに接続する外部機器との連係動作もDNNを用いた自動操作の対象とすることができる。
 DNNの推論結果に基づいてテレビ受信装置100の自動操作を行うことで、ユーザは手動操作を行う必要がなくなり便利である。しかしながら、テレビ受信装置100又はDNNが気を利かせて自動で行った動作でも、ユーザから見るとその動作を行った理由が理解できない場合がある。
 例えば、現在時刻が22時過ぎで、テレビ受信装置100の前にユーザが1名いるが、ユーザがテレビを観ていない場合には、そのユーザの嗜好に合った番組が放送されていないと推論して、音量を下げるなどの自動操作を行う。ユーザは、このような自動操作が行われる理由が分からず、気味悪く感じることもある。
 本開示では、DNNが搭載されたテレビ受信装置100における自動操作の理由を、テレビ受信装置100自身が説明する。したがって、ユーザは、テレビ受信装置100に何が起こったかを問い合わせることができる。また、テレビ受信装置100は、ユーザとのインタラクションを通じてどのような説明を行えばユーザに自動操作の理由を理解してもらい易くなるかを学習しており、ユーザに対する簡潔な理由の提示を実現することができる。
E.機能的構成
 図3には、テレビ受信装置100の自動操作と最適な動作理由の説明を行うための機能的構成例を模式的に示している。テレビ受信装置100は、当該機能を実現するために、動作決定部101と、説明生成部102と、ユーザ感情推定部103を備えている。また、テレビ受信装置100は、当該機能を実現する上で必要な情報を記憶又は蓄積する手段として、動作履歴メモリ111と、ユーザ情報データベース112を備えている。動作決定部101と、説明生成部102と、ユーザ感情推定部103は、例えば主制御部201が実行するソフトウェアモジュールである。但し、動作決定部101と、説明生成部102と、ユーザ感情推定部103のうち少なくとも1つは、拡張インターフェース部205を介してテレビ受信装置100に外部接続される情報処理装置(図示しない)上で動作していてもよい。また、動作履歴メモリ111とユーザ情報データベース112に必要な記憶領域は、例えばストレージ部203内に確保されるが、拡張インターフェース部205を介してテレビ受信装置100に外部接続される記憶装置(図示しない)上に確保されていてもよい。
 動作決定部101と、説明生成部102と、ユーザ感情推定部103は、それぞれ深層学習した学習済みのDNNモデルを用いて構成される。もちろん、動作決定部101と、説明生成部102と、ユーザ感情推定部103を併せて1つの学習済みDNNモデルとして構成することもできるが、本明細書では、便宜上、動作決定部101と、説明生成部102と、ユーザ感情推定部103をそれぞれ独立した機能モジュールとして説明する。これらのDNNモデルの深層学習は、クラウド上で行われ、学習済みのDNNモデルが各製品すなわちテレビ受信装置100に搭載されることを想定している。もちろん、テレビ受信装置100でDNNモデルの深層学習を行うことも可能である。
 動作決定部101は、センシング機能部300(図2を参照のこと)によるユーザの状態や周辺環境のセンシング結果に基づいて、テレビ受信装置100の動作を決定する。本実施形態では、動作決定部101は、ユーザの状態(ユーザによるテレビ受信装置100の使用状況)や周囲環境(現在時刻や部屋の明るさ、室温など)のセンシング情報と、テレビ受信装置100が行った動作との相関関係を深層学習した学習済みDNNを備えている。そして、動作決定部101は、センシング機能部300から入力されたセンシング結果から、学習済みのDNNの推論によって、テレビ受信装置100の動作を決定する。主制御部201は、動作決定部101が決定した動作を実現するための制御信号を、テレビ受信装置100内の該当する機能モジュールに送り、自動操作を実施する。また、動作決定部101が決定してテレビ受信装置100で自動実行した動作を動作履歴メモリ111に保存する。動作履歴メモリ11は、テレビ受信装置100が自動で実行した動作を、実行した時刻とともに保存する。なお、動作決定部101は、センシング結果に基づいて動作を決定するに至った推論履歴を、決定した動作と併せて動作履歴メモリ111に保存するようにしてもよい。
 なお、動作決定部101に入力される、センシング機能部300によるセンシング結果には、ユーザによるテレビ受信装置100の使用状況や周囲環境の他に、ユーザのテレビ受信装置100やその他の機器に対する操作履歴、テレビ受信装置100やその他の機器の動作履歴、ユーザプロファイルセンサー部350が取得するユーザプロファイル情報などを含んでいてもよい。
 また、動作決定部101がセンシング結果に基づいて決定するテレビ受信装置100の動作として、例えば、画像モード(シネマモードやゲームモード)切り替え、輝度ダイナミックレンジ(SDRやHDR、LDR)又はガンマ補正切り替え、輝度切り替え、解像度切り替え(アップコンバート制御)、(外部入力の)画面サイズ制御(オーバースキャン、アンダースキャン、ドットバイドットなど)、UIの表示制御(位置、色、大きさなど)、チャンネル切り替え、音量調整、音声出力方向制御、字幕表示切り替え、言語切り替え、アクセシビリティ制御、入力切り替え、アプリケーションの軌道制御、画面方向制御(首振りテレビなどの場合)、画面回転制御(画面回転式ディスプレイなどの場合)、画面の露出制御(巻取り式ディスプレイなどの場合)を挙げることができる。但し、動作決定部101はこれらすべての動作を決定する必要はなく、音量調整や字幕表示など上記のうち一部の動作を決定すれば十分な場合もある。
 説明生成部102は、ユーザからの説明提示の要求があった場合に、動作決定部101が決定したテレビ受信装置100の動作に対してユーザが好みそうな(又は、ユーザが納得し易い)理由の説明を生成する。本実施形態では、説明生成部102は、テレビ受信装置100が行った動作と、そのときの動作理由の説明に対するユーザの反応との相関関係を深層学習した学習済みDNNを備えている。ユーザの反応は、提示した動作理由の説明に対してユーザが好んだか否か(ポジティブ/ネガティブ)という2値でもよいし、より細かく分類した識別値で表現されていてもよい。また、この学習済みDNNは、さらにユーザの状態や周囲環境のセンシング情報との相関関係を考慮して深層学習を行っていてもよい。そして、説明生成部102は、センシング機能部300から入力されたセンシング結果と、動作決定部101が決定したテレビ受信装置100の動作から、学習済みのDNNの推論によって、テレビ受信装置100の動作に対してユーザが好みそうな動作理由の説明を生成する。センシング機能部300から入力されたセンシング結果には、ユーザプロファイルセンサー部350でセンシングされるユーザのプロファイル情報や、ユーザによる機器の使用履歴なども含まれる。
 説明生成部102は、ユーザから説明を要求されたテレビ受信装置100の動作に対する理由の説明を、ユーザが最も納得すると推定される形式で生成する。説明生成部102は、複数の動作理由の説明が推定される場合には、そのうちのいずれをユーザに提示すべきか(又は、提示する優先順位)を決定する。また、説明生成部102は、生成した動作理由を出力する形式、又は、ユーザに提示する方法も決定するようにしてもよい。例えば、動作理由の説明を音声又は画面のいずれか又は両方で出力するかを決定する。動作理由の説明を音声で行う場合には、音量や声質も決定するようにしてもよい。
 そして、説明生成部102は、説明提示を要求されたテレビ受信装置100の動作と、そのときに生成した(又は、ユーザに提示した)動作理由の説明を、ユーザ情報データベース112に保存する。
 なお、説明生成部102に対するユーザの説明提示要求は、ユーザによる音声コマンドやジェスチャによって行うようにしてもよい。また、ユーザは、操作入力部222やリモコン操作を介してテレビ受信装置100に対して説明提示要求を行うようにしてもよい。
 ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの反応を入力して、ユーザの感情を推定する。ユーザ感情推定部103は、ユーザの反応を、ユーザによる音声コマンドやジェスチャによって入力するようにしてもよいし、操作入力部222やリモコン操作を介して入力するようにしてもよい。あるいは、ユーザ感情推定部103は、音声やジェスチャ、入力操作といったユーザの明示的な動作としてではなく、ユーザ状態センサー部320からのセンシング情報としてユーザの反応を入力するようにしてもよい。ユーザの感情は、提示した動作理由に対してユーザが好んだか否か(ポジティブ/ネガティブ)という2値でもよいし、より細かく分類した識別値で表現されていてもよい。本実施形態では、ユーザ感情推定部103は、ユーザの音声やジェスチャ、操作入力などとユーザの反応との相関関係を深層学習した学習済みDNNを備えている。そして、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの反応を入力して、学習済みのDNNの推論によって、ユーザの感情を推定する。
 また、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの感情を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース112に保存する。
 ユーザ情報データベース112には、テレビ受信装置100を自動操作したときの、「動作理由の提示の仕方」と、これに対してユーザが抱いた「ユーザの感情」のペアの情報が蓄積されていく。ユーザ情報データベース112に蓄積された情報は、説明生成部102で使用する学習済みDNNの再学習に使用される。再学習によって、説明生成部102は、テレビ受信装置100を使用する個別のユーザが好みそうな動作理由の説明を生成し易くなり、個別のユーザに不快感を与えるような説明を提示し難くなるようにパーソナライズされる。例えば、動作理由の説明を音声で提示する場合には、個別のユーザが心地よい声質を使って、不快感を与えない音量で出力できるように再学習される。
 なお、説明生成部102が使用する、テレビ受信装置100の自動操作に対する動作理由の説明を推定する学習済みDNNを「第1の機械学習モデル」とする。また、動作決定部101が環境情報などのセンシング結果に基づいてテレビ受信装置100の自動操作を推定する学習済みDNNを「第2の機械学習モデル」とする。ユーザ感情推定部103が使用する、ユーザの反応からユーザの感情(ポジティブ又はネガティブのいずれであるか)を推定する学習済みDNNを「第3の機械学習モデル」とする。
 図3に示した機能的構成は、テレビ受信装置100が行った自動操作について生成した動作理由の説明に対してユーザの反応などのフィードバックを取得して、ユーザに合った動作理由を生成するという系を備えている。したがって、人工知能技術によるテレビ受信装置100の自動操作を実施したときに、その動作理由についてユーザにとって分かり易い説明を提示できるようになる。
 また、テレビ受信装置100が行った1つの自動操作に対して、説明生成部102が複数の動作理由の説明を生成した場合には、ユーザが好みそうな順で1つずつ説明を提示して、ユーザの反応を取得する。したがって、ユーザの少ない負担で、提示した説明に対するユーザの反応を取得することができる。
 また、図3に示した機能的構成では、説明生成部102が使用する、テレビ受信装置100の自動操作に対する動作理由の説明を推定する学習済みDNN「第1の機械学習モデル」の再学習を行うことができる。したがって、ユーザがテレビ受信装置100を継続的に使用することによって、テレビ受信装置100が自動操作を行ったときに、ユーザにとって理解し易い動作理由の説明を行えるように学習されていく。
F.処理動作
F-1.全体的な処理手順
 続いて、テレビ受信装置100が、図3に示したような機能的構成を用いて、操作の自動化及び動作理由の説明を行うための全体的な処理動作について説明する。図4及び図5には、テレビ受信装置100が操作の自動化及び動作理由の説明を行うための全体的な処理手順をフローチャートの形式で示している。
 まず、動作決定部101は、センシング機能部300(図2を参照のこと)によるユーザの状態や周辺環境のセンシング結果に基づいて、学習済みDNN(前述)の推論によって、テレビ受信装置100の動作を決定する(ステップS401)。
 そして、動作決定部101は、決定した動作を動作履歴メモリ111に保存する(ステップS402)。動作決定部101は、センシング結果に基づいて動作を決定するに至った推論履歴を、決定した動作と併せて動作履歴メモリ111に保存するようにしてもよい。
 主制御部201は、動作決定部101が決定した動作を実現するための制御信号を、テレビ受信装置100内の該当する機能モジュールに送り、自動操作を実施する(ステップS403)。
 次いで、ステップS403で実施したテレビ受信装置100の自動操作に対して、ユーザから説明提示の要求があったかどうかをチェックする(ステップS404)。ユーザから説明提示の要求がなければ(ステップS404のNo)、ステップS401に戻って、上記の処理を繰り返し実行する。
 一方、ユーザから説明提示の要求があった場合には(ステップS404のYes)、説明生成部102は、動作履歴メモリ111から説明提示を要求された動作を読み出すとともに、センシング機能部300から入力されるセンシング結果を取得する(ステップS405)。そして、説明生成部102は、学習済みDNN(前述)の推論によって、説明提示が要求されたテレビ受信装置100の動作理由に関してユーザが好みそうな説明を生成する(ステップS406)。説明生成部102は、1回の説明提示要求に対して、複数の動作理由の説明を生成する場合もある。
 次いで、説明生成部102が生成した動作理由の説明を、例えばテレビ受信装置100が備える出力手段(スピーカーや画面など)を用いてユーザに提示する(ステップS407)。説明生成部102は、生成した説明を、文字として画面に表示するのか、スピーカーから音声として提示するのか、画面と音声の両方を使って提示するのかを、ユーザの好みやテレビ受信装置100の周囲環境に基づいて選択するようにしてもよい。
 そして、説明生成部102は、説明提示を要求されたテレビ受信装置100の動作と、そのときに生成した(又は、ユーザに提示した)動作理由の説明を、ユーザ情報データベース112に保存する。
 次いで、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの反応を入力して(ステップS408)、ユーザの感情を推定する(ステップS409)。ここでは、説明の簡素化のため、ユーザの感情は、提示した動作理由に対してユーザが好んだか否か(ポジティブ/ネガティブ)という2値で表現されるものとする。そして、ユーザ感情推定部103が推定したユーザの感情がポジティブなものかどうかをチェックする(ステップS410)。
 提示した動作理由の説明に対するユーザの感情がポジティブなものであれば(ステップS410のYes)、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの「ポジティブ」という感情を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース112に保存する(ステップS413)。
 また、提示した動作理由の説明に対するユーザの感情がポジティブなものでなければ(ステップS410のNo)、ユーザ感情推定部103は、説明生成部102が生成した動作理由の他の説明をユーザが要求しているかどうかをさらにチェックする(ステップS411)。
 ユーザが動作理由の他の説明を要求しない場合には(ステップS411のNo)、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの「ポジティブ」でない(又は、「ネガティブ」である)という感情を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース112に保存する(ステップS413)。
 また、ユーザが動作理由の他の説明を要求する場合には(ステップS411のYes)、説明生成部102が動作理由のさらに他の説明を生成しているかどうかをチェックする(ステップS412)。そして、説明生成部102が動作理由のさらに他の説明を生成している場合には(ステップS412のYes)、ステップS407に戻って、ユーザに他の説明を提示して、上記処理を繰り返し実行する。説明生成部102が動作理由の他の説明を生成していない場合には(ステップS412のNo)、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの「ポジティブ」でない(又は、「ネガティブ」である)という感情を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース112に保存する(ステップS413)。
 そして、説明生成部102は、ユーザ情報データベース112に蓄積された情報を使用して、動作理由の説明を生成する学習済みDNNの再学習を実施する(ステップS414)。
 テレビ受信装置100の自動操作に対する動作理由の説明を提示する処理動作について、さらに詳細に説明する。
 例えば、テレビ受信装置100において音量を下げるという自動操作が行われたことに対して、ユーザから説明を要求されたとする。このような場合、説明生成部102は、動作履歴メモリ111から説明提示を要求された動作を読み出すとともに、センシング機能部300から入力されるセンシング結果を取得して、学習済みDNN(前述)の推論によって、テレビ受信装置100が音量を下げる自動操作を行った理由に関して、「現在時刻が22時である」且つ「ユーザが1名しかいない」且つ「ユーザがテレビを観ていない」という説明を生成する。そして、説明生成部102は、これら生成した複数の説明のうちいずれをユーザが好むかを、学習済みDNN(前述)によってさらに推論する。例えば、説明提示を求めたユーザは「ユーザの習慣に基づいた説明をすると納得し易い」というように学習されているとする。この場合、説明生成部102は、生成した複数の説明の中から、「普段から22時を過ぎると音量を下げる傾向があるため、今回は自動で音量調整した」という説明が、今回の動作理由の説明として最もユーザに納得してもらえるものと推定する。
 なお、説明生成部102は、テレビ受信装置100の自動操作について複数の説明の候補を生成して、ユーザが納得し易い順番に各説明の候補を並べ替えてユーザに提示するようにしてもよい。また、説明生成部102は、生成した説明を、文字として画面に表示するのか、スピーカーから音声として提示するのか、画面と音声の両方を使って提示するのかを、ユーザの好みやテレビ受信装置100の周囲環境に基づいて選択するようにしてもよい。
 ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの反応を入力して、ユーザの感情を推定する。図4及び図5に示したフローチャートでは、ユーザ感情推定部103は、提示した動作理由に対してユーザが好んだか否か(ポジティブ/ネガティブ)を推定する。ユーザ感情推定部103は、例えばポジティブ○%、ネガティブ○%というような割合でユーザの感情の推定結果を示し、ポジティブ又はネガティブのいずれかの割合が閾値(例えば85%)を超えていれば、動作理由の説明に対してユーザがポジティブ(又はネガティブ)な感情を抱いたと推定するように構成される。但し、ユーザ感情推定部103がユーザの感情を推定する処理手順の詳細については、後述(図6を参照のこと)に譲る。
 図4及び図5に示したフローチャートでは、提示した動作理由の説明に対するユーザの感情がポジティブなものであれば、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの「ポジティブ」という感情を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース112に保存する。一方、提示した動作理由の説明に対するユーザの感情がネガティブな場合や、ユーザの感情を推定できない場合(ポジティブ及びネガティブのいずれの割合も閾値を超えていない場合)には、ユーザが動作理由の他の説明を要求し、且つ、説明生成部102がさらに他の説明を生成している場合には、ユーザに他の説明を再度提示して、ユーザ感情推定部103はその説明に対するユーザの感情を推定する。他方、ユーザが他の説明を要求しない場合や、ユーザは他の説明を要求するが説明生成部102が他の説明を生成していない場合には、説明生成部102が生成した動作理由の説明を提示したときのユーザの「ポジティブ」でない(又は、「ネガティブ」である)という感情を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース112に保存する。
 説明生成部102は、ユーザ情報データベース112に蓄積された情報を使用して、動作理由の説明を生成する学習済みDNNの再学習を実施する。なお、確度の低い情報を再学習に使用することを避けるために、説明を提示したときのユーザの感情が曖昧な(ポジティブ及びネガティブのいずれの割合も閾値を超えていない)場合には、ユーザ情報データベース112に保存しないようにしてもよい。
 説明生成部102は、テレビ受信装置100の動作理由の説明を生成する際、その説明をユーザが好みそうであるかどうか、言い換えれば、ユーザがポジティブ又はネガティブのいずれの反応を示すかを、確率的に推定する。したがって、再学習では、説明生成部102は、ユーザ感情推定部103によって得られたユーザ情報データベース112の情報を使ってその確率を修正することによって、ユーザが納得し易い説明を生成し、ユーザを不快にさせる説明を生成しないように推定の精度を向上することができる。再学習において、ユーザ感情推定部103によって得られたユーザ情報データベース112の情報を使って、説明生成部102で生成する説明に対する反応の確率を修正する処理の具体例を以下に挙げておく。
(1)説明生成部102でポジティブな反応が得られると推定され、且つユーザ感情推定部103でもポジティブな反応が得られた動作理由の説明は、ユーザに提示することが必須となるので、説明生成部102においてポジティブな反応が得られると推定される確率が向上する。
(2)説明生成部102ではポジティブな反応が得られる確率が低いと推定されるが、ユーザ感情推定部103ではポジティブな反応が得られた動作理由の説明は、ユーザに提示することは有効であり、説明生成部102においてポジティブな反応が得られると推定される確率が向上する。
(3)説明生成部102ではポジティブな反応が得られる確率が低いと推定され、且つ、ユーザ感情推定部103ではネガティブな反応が得られた動作理由の説明は、ユーザに提示することは有効でないので、説明生成部102においてポジティブな反応が得られると推定される確率が低下する。
(4)説明生成部102ではポジティブな反応が得られるかどうかが不明であるが、ユーザ感情推定部103ではポジティブな反応が得られた動作理由の説明は、ユーザに提示することは有効であり、説明生成部102においてポジティブな反応が得られると推定される確率が向上する。
(5)説明生成部102ではポジティブな反応が得られるかどうかが不明であり、且つ、ユーザ感情推定部103ではネガティブな反応が得られた動作理由の説明は、ユーザに提示することは有効でないので、説明生成部102においてポジティブな反応が得られると推定される確率が低下する。
 また、説明生成部102で生成した動作理由の説明に対する、ユーザ感情推定部103におけるユーザの感情の推定が曖昧な場合(ポジティブ及びネガティブのいずれの割合も閾値を超えていない場合)には、ポジティブ又はネガティブの割合に応じて、その説明の説明生成部102における確率の上げ幅又は下げ幅を調整するようにしてもよい。例えばポジティブの割合が100%であれば、説明生成部102においてポジティブな反応が得られると推定される確率を大幅に上げるようにする。
 上記のような説明生成部102の再学習は、ユーザ感情推定部103から推定結果が得られる度に行うようにしてもよいし、ユーザ情報データベース112に情報を蓄積して定期的に再学習を行うようにしてもよい(例えば、過去30日分の情報が蓄積したら再学習を行うようにする)。
F-2.ユーザの感情の推定処理
 図6には、図5に示したフローチャート中のステップS409で実行される、ユーザ感情推定部103がユーザの感情を推定する処理手順をフローチャートの形式で示している。ここでは、説明の簡素化のため、ユーザの反応としてマイクで収音したユーザの音声を使用し、また、ユーザの感情は、提示した動作理由に対してユーザが好んだか否か(ポジティブ/ネガティブ)という2値で表現されるものとする。また、ユーザ感情推定部103は、パラ言語解析ニューラルネットワークや、音声認識ニューラルネットワーク、自然言語処理ニューラルネットワーク、話者認識ニューラルネットワーク、総合ポジティブ・ネガティブ判定ニューラルネットワークなど、学習済みのニューラルネットワークモデルを適宜利用するものとする。
 ユーザ感情推定部103は、マイクから音声情報を入力すると(ステップS601)、入力した音声を、例えば数十ミリ秒毎のフレームに分割して、各フレームから音響特徴量を抽出する(ステップS602)。
 ユーザ感情推定部103は、抽出した音響特徴量から、音量やピッチなどを抽出する(ステップS603)。また、ユーザ感情推定部103は、音声認識ニューラルネットワークを用いて、マイク入力音声の音響特徴量からテキスト情報を推定する(ステップS607)。また、ユーザ感情推定部103は、話者認識ニューラルネットワークを用いて、マイクから入力した音声の話者情報を推定する(ステップS609)。
 次いで、ユーザ感情推定部103は、音響特徴量と、音声認識ニューラルネットワークにより推定されたテキスト情報から、発話速度、イントネーション、リズム、ポーズ、声質といった周辺言語、すなわちパラ言語情報を抽出する(ステップS604)。そして、ユーザ感情推定部103は、パラ言語解析ニューラルネットワークを用いて、マイク入力音声の音響上のポジティブ・ネガティブを判定する(ステップS605)。
 また、ユーザ感情推定部103は、自然言語処理ニューラルネットワークを用いて、言語上のポジティブ・ネガティブを判定する(ステップS608)。
 そして、ユーザ感情推定部103は、総合ポジティブ・ネガティブ判定ニューラルネットワークを用いて、音響上のポジティブ・ネガティブ判定と、言語上のポジティブ・ネガティブ判定と、話者情報から、ユーザの感情がポジティブ又はネガティブのいずれであるかを総合的に判定する(ステップS606)。
 音声情報を利用してユーザの感情を推定する処理動作について、さらに詳細に説明する。
 マイクから入力された音声情報を、例えば数十ミリ秒単位のフレームに分割して抽出された特徴量から、パラ言語情報、テキスト情報、話者情報を抽出する。話者情報は、音響特徴量と事前に登録されたユーザの音声との相関関係を学習済みの話者情報ニューラルネットワークを用いて推定することができる。また、マイク入力音声のテキスト情報は、テキストと音響特徴量との相関関係を学習済みの音声認識ニューラルネットワークを用いて推定することができる。また、パラ言語情報として、例えば音量やピッチは音響特徴量から計算することができ、且つ、テキスト情報と音響特徴量を使うことで話速を計算することができる。そして、得られたパラ言語情報及びテキスト情報をそれぞれパラ言語解析ニューラルネットワーク及び自然言語処理ニューラルネットワークを用いて解析して、パラ言語情報及びテキスト情報にそれぞれポジティブ及びネガティブな要素がどの程度含まれているかを推定することができる。
 そして、最終的に、総合ポジティブ・ネガティブ判定ニューラルネットワークが、音響上のポジティブ・ネガティブ情報と、言語上のポジティブ・ネガティブ情報と、話者情報に基づいて、マイク入力音声にポジティブ又はネガティブの各要素が含まれる割合を決定する。
 図6に示す処理手順では、音声認識結果に加えてパラ言語情報も使用することによって、例えば「いいんじゃない?」という同じ文言について、話者の言い方によって得られる印象の違いを検出することが可能である。また、図6に示す処理手順では、話者情報も使用することによって、ユーザ毎の音声の特性の個人差を考慮して、ポジティブ・ネガティブの推定を行うことができる。
 図6に示す処理手順では、ユーザ感情推定部103は、パラ言語解析ニューラルネットワーク、音声認識ニューラルネットワーク、自然言語処理ニューラルネットワーク、話者認識ニューラルネットワーク、総合ポジティブ・ネガティブ判定ニューラルネットワークなど、複数のニューラルネットワークを活用して、音声情報からユーザの感情を推定する。例えばこれらのニューラルネットワークは、テレビ受信装置100を利用するユーザ毎に最適化される。
 なお、図6に示すユーザ感情推定処理手順は、基本的に、音声情報のみを利用してユーザの感情を推定する。もちろん、カメラで撮影したユーザの顔画像から表情認識したり、テレビの画面にアンケートを表示してユーザにリモコンボタンなどを使って回答してもらったりするなど、音声以外の情報を利用して、ユーザの感情を推定する方法や、音声情報とユーザの顔画像やアンケートの回答結果を組み合わせて、ユーザの感情を総合的に推定するようにしてもよい。
 図7には、ユーザ感情推定部103で使用するこれらのニューラルネットワークを、ユーザ毎に最適化する処理手順をフローチャートの形式で示している。
 まず、大規模データで一般的な音声でのデータ傾向をニューラルネットワークモデルに学習させる(ステップS701)。この処理は、例えばクラウド上で行うことを想定している。
 大規模データで事前学習が済んだニューラルネットワークモデルは、個別のユーザのテレビ受信装置100内のユーザ感情推定部103に搭載される。ユーザがテレビ受信装置100を使用していくうちに、使用ログが収集される(ステップS702)。そして、テレビ受信装置100において収集されたユーザの使用ログを用いて、ユーザ感情推定部103に搭載されたニューラルネットワークモデルの再学習が行われる(ステップS703)。
 その後、再学習されたニューラルネットワークモデルを使用して、実際にユーザの感情推定が行われる(ステップS704)。ユーザがテレビ受信装置100を長く使用すればするほど、使用を通じて収集される使用ログに基づいてニューラルネットワークモデルの再学習が繰り返し行われる。その結果として、ニューラルネットワークモデルを個別のユーザの特性に合わせて最適化することができる。
 パラ言語解析ニューラルネットワークの場合、大規模データで一般的な音声でのデータ傾向として、例えば「怒ったときの音声に特定の傾向がある(音量が上がる、話速が速くなるなど)」といった、音声特徴のデータと感情という正解ラベル情報を使って音声から感情を推定できるようにあらかじめ学習(製品出荷前の事前学習)されているとする。その後、製品を購入した個別のユーザの音声特徴に適合させる再学習のために、機器状態センサー部340によってセンシングされるテレビ受信装置100の使用ログや他の機器の使用状況から、音声特徴と感情のペアのデータを取得する。例えば、「使いづらい」など、言語上ネガティブな意味合いの可能性が高いユーザの音声がマイクから入力されたときに、その音声の特徴をネガティブ情報とのペアで取得して蓄積する。また、「これいいね!」など、言語上ポジティブな意味合いの高いユーザの音声がマイクから入力されたときに、その音声の特徴をポジティブ情報とのペアで取得して蓄積する。このように収集されたデータをパラ言語解析ニューラルネットワークの入力として再学習することで、個別のユーザの音声特徴に適合させることができる。
G.動作理由の説明の実現例
 この項では、説明生成部102で生成した動作理由の説明をユーザに提示する具体例について説明する。
(1)ユーザのテレビの視聴体験を損なわずに動作理由の説明を提示する場合
 例えばユーザ状態センサー部320がセンシングした視線情報に基づいて、ユーザのテレビ視聴の集中度を推定することができる。ユーザがテレビ視聴に集中している場合には、動作理由の説明を音声で出力することを控え、画面隅のポップアップ表示で動作理由の説明を提示する。ユーザが詳細表示を要求した場合には、画面上に動作理由の詳細な説明を表示する。
 また、ユーザプロファイルセンサー部350がセンシングしたユーザプロファイルに基づいて、視聴中のテレビ番組がユーザの嗜好に合っているかどうかを推定することができる。ユーザがテレビ視聴に集中し、且つユーザの嗜好に合った番組を視聴している場合には、CM期間を検知して、CM期間中のタイミングで画面に動作理由の説明を提示する。また、動作理由の説明提示が要求されてから一定時間内にCM期間を検知できなかった場合には、ユーザが所持するスマートフォンやユーザと対話するスマートフォン又はロボットなど、テレビ受信装置100と連携する他の機器を使って動作理由の説明を提示するようにしてもよい。
(2)テレビ画面を見ていないユーザに動作理由の説明を提示する場合
 ユーザがテレビの前を動き回っていたり、ユーザがスマートフォンや音楽プレーヤーなど他の機器に集中したりしているときには、ユーザはテレビ番組に集中していないと推定することができる。ユーザがテレビの前を動き回ってテレビ番組に集中していない場合には、テレビコンテンツの音量を下げて、音声で動作理由の説明を行う。
 また、ユーザがスマートフォンや音楽プレーヤーなど他の機器を操作してテレビ番組に集中していない場合には、他の機器を使って動作理由の説明を提示するようにしてもよい。他の機器を使ってテレビ画面に着目するようにユーザに通知した上で、テレビ受信装置100の画面を使って動作理由の説明を提示するようにしてもよい。
(3)複数人のユーザが同席中に動作理由の説明を提示する場合
 説明生成部102で生成した説明文を自然言語処理技術によって解析して、説明文にユーザの個人情報(趣味・嗜好、生活習慣など)や機微情報が含まれているかどうかをチェックする。動作理由の説明にユーザの個人情報や機微情報が含まれている場合には、他のユーザも聴くことができるマイク出力や他のユーザも見ているテレビ画面に出力するのを避け、ユーザが所持するスマートフォンやユーザと対話するスマートフォン又はロボットなど、テレビ受信装置100と連携する他の機器を使って動作理由の説明を提示するようにしてもよい。
H.感情推定のためのユーザの音声入力の実現例
 ユーザ感情推定部103は、提示した動作理由の説明に対するユーザの感情を、主にユーザが発話した音声情報に基づいて推定する。この項では、動作理由の説明に対するユーザの感情を推定するためのユーザの音声を入力する具体例について説明する。
(1)テレビの視聴中にユーザの明瞭な音声を取得する場合
 テレビ受信装置100に備えられたマイクを使ってユーザの音声を取得する場合、テレビの出力音が入り込むが、エコーキャンセリング技術を使ってユーザの音声だけを抽出して、ユーザの感情を高精度で推定することができる。
 テレビ受信装置100に複数のマイクを搭載すれば、ビームフォーミングによって雑音のゲインを低減して、ユーザの音声を強調することができる。
 また、動作理由の説明を提示したら、音声ガイダンスや画面表示によってユーザに発話を促し、その間だけテレビの出力音量を下げて、ユーザの音声を抽出し易くするようにしてもよい。
 テレビ受信装置100本体のマイクの他に、リモコンに搭載したマイク、スマートフォン、スマートスピーカー、ロボットなどテレビ受信装置100と連携する機器のマイクを利用して、ユーザの音声を収音することができる。周囲環境のノイズレベルに応じて、いずれのマイクを使用するかを判断して、適切なマイクへの発話をユーザに指示する。例えば周囲がうるさい場合には、ユーザの口元に近いスマートフォンのマイクを指定して、ユーザに発話を促すようにすればよい。
(2)ユーザの音声をうまく習得できない場合
 音声合成技術を利用して、申し訳なさそうな音声を生成して、ユーザに再度発話を促すようにする。音声の取得に失敗した原因がテレビの出力音以外にある場合には、ユーザに環境の改善(ゆっくり話してほしいなど)をお願いするようにしてもよい。
(3)テレビの視聴体験を損なわないようにユーザの音声を取得する場合
 ユーザがテレビ視聴に集中し、且つユーザの嗜好に合った番組を視聴している場合には、提示した説明に対するユーザの反応を取得する優先度を下げるようにしてもよい。例えばユーザが番組視聴に特に集中している場合、いかなる通知情報の提示も邪魔に感じる可能性があるが、その際に得られたユーザの感情推定の結果は普段のテレビ視聴の際に得られる感情推定の結果と大きく異なることが考えられる。そのような場合には、スマートフォンなど他の端末に反応取得に関する通知を残しておいてもよいし、ユーザの反応を取得することを必須としなくてもよい。
(4)説明の内容に対する感想のみを抽出する場合
 動作理由の説明に関する感想を音声入力で自由に受け付けた場合、説明の内容に対する感想、又は説明の提示方法に対する感想のいずれであるかを識別する必要がある。説明の内容に対する感想のみを抽出できれば、説明生成部102が説明の生成に成功したかどうかを評価し、説明生成部102の再学習に使用することができる。そこで、ユーザ感情推定部103は、直近の説明提示の出力先の情報と、音声認識結果を組み合わせて、ユーザの音声が説明の内容又は説明の提示方法のいずれに対する感想であるかを推定する。例えば、直近で説明生成部102が説明提示の方法を工夫した場合には、ユーザの音声は、説明提示方法に対する反応である可能性がある。ユーザが何に対して反応したのかを、ユーザに問い合わせるようにしてもよい。また、ユーザの音声がいずれに対する感想であるかを識別できない場合には、今回のデータを説明生成部102の再学習に使用しないように判断してもよい。一方、説明生成部102が直近で(又はしばらくの間)説明提示の方法を変更していない場合には、ユーザの音声は説明の内容に対する反応であると判断して、ユーザ感情推定部103はユーザの感情を推定するようにしてもよい。
(5)音声のみでユーザの感情を推定することが困難な場合
 音声のみでユーザの感情を推定することが困難な場合には、ユーザ感情推定部103がユーザの反応を取得する方法を音声入力から画面上での選択形式に変更するようにしてもよい。例えば、音声による話者性の抽出と感情推定の結果、特定のユーザにおいてポジティブとネガティブの割合がどちらも閾値を超えない(又は、常にニュートラルとしか判定されない)ことにより、提示した説明に対して正解ラベルを付与できない状態が一定期間又は一定の割合続いた場合には(例えば、1か月間同じ状態や、ユーザが説明提示を要求した回数に対して8割以上正解ラベルを付与できない場合)、ユーザの反応を取得する方法を音声入力から画面上での選択形式に変更する。例えば、「納得した」、「説明の意味がよく分からない」、「他の説明を見たい」の3つの選択肢を提示して、ユーザにリモコン操作などによって選択してもらうようにする。
I.動作理由の説明提示のための動作
 この項では、図3に示した機能的構成に基づいて、テレビ受信装置100の自動操作の理由を説明するための、説明生成部102を中心とした具体的な動作について説明する。
I-1.動作理由の問い合わせと動作履歴との紐付け
 ユーザがテレビ受信装置100の自動操作の理由を問い合わせるさまざまな方法が挙げられる。例えば、ユーザが操作入力部222又はリモコンの操作により問い合わせるようにしてもよいし(「動作理由問合せ」ボタンを設置してもよい)、テレビ受信装置100の音声エージェント機能を利用してユーザが音声で問い合わせるようにしてもよい(「今どうしてそんなことしたの?」と尋ねるなど)。
 なお、テレビ受信装置100がニューラルネットワークモデルを利用した人工知能機能に基づく自動操作であることを、画面や音声ガイダンスによってユーザに明示するようにしてもよい。図8には、人工知能機能の判断により音量調整を行ったことを示す特定のマーク801を、テレビ画面に表示した例を示している。なお、画面ではなく、LED(Light Emitting Diode)を使って特定のパターンや色で発光することによって、人工知能機能による自動操作が行われたことをユーザに通知するようにしてもよい。同様に、動作理由の提示が人工知能機能に基づくものであることを、マーク801や発光表現などの手段によってユーザに提示してもよい。
 ユーザが動作理由の説明を要求した場合、テレビ受信装置100が行ったどの自動操作に対して動作理由の説明を求めているのかを特定する必要がある。図3に示した機能的構成では、説明生成部102は、動作履歴メモリ111から直近の動作を読み出す。ユーザがどの自動操作に対して動作理由の説明を求めているのかを特定できない場合には、説明の提示を求めている対象となる動作をユーザに明示してもらうようにしてもよい。
 例えば、動作履歴メモリ111が保存している動作履歴の情報をテレビ画面に表示して、ユーザにその中から説明の提示を要求する動作を選択してもらうようにしてもよい。動作履歴メモリ111は、テレビ受信装置100が人工知能機能に基づく自動操作で実行した動作と実行した時刻を保存している。例えば、図9に示すように、動作履歴メモリ111から読み出した動作履歴のリストをテレビ画面に表示する。そして、ユーザはリモコンのカーソルボタンなどを使って説明の提示を要求する動作を選択することができる。このようにして、ユーザが動作理由の説明を求めている動作を特定することができる。
I-2.説明生成部の推論と学習
 説明生成部102は、ユーザからの説明提示の要求があった場合に、動作決定部101が決定したテレビ受信装置100の動作に対してユーザが好みそうな(又は、ユーザが納得し易い)理由の説明を生成する。説明生成部102は、動作理由の説明提示がユーザから求められると、1つの動作に対して説明を1つ以上生成してユーザに提示する。そして、ユーザ感情推定部103で推定したユーザの反応を正解ラベルとして、説明を推論するDNNの再学習を行う。このような動作理由の説明生成とDNNの再学習というサイクルを繰り返すことによって、説明生成部102は各ユーザにとって分かり易い説明を生成するようになっていく。
 図10には、ユーザがテレビ受信装置100を使い始めて間もない状態での説明生成部102の動作例を示している。ここでは、説明の簡素化のため、動作歴メモリ111には決定した動作と併せてセンシング結果に基づいて動作を決定するに至った推論履歴が保存されているものとする。
 例えば動作決定部101がテレビの音量を自動で下げるという動作を決定したとき、動作履歴メモリ111には、動作決定部101が決定した動作「テレビの音量を下げた」と、動作決定部101が動作を推論した1以上の理由(図10に示す例では、「時刻が22時を過ぎた」、「テレビの前に居るユーザは1名」、「ユーザの視線はテレビを向いていない」、「ユーザにおすすめの番組は放送されていない」の4つの理由)が保存される。
 ここで、ユーザから「テレビの音量を下げた」動作の理由の説明が求められた場合、説明生成部102は、この動作に対する理由となる情報を収集する。図10に示す例では、説明生成部102は、「時刻が22時を過ぎた」、「テレビの前に居るユーザは1名」、「ユーザの視線はテレビを向いていない」、「ユーザにおすすめの番組は放送されていない」の4つの理由を収集する。
 ユーザがテレビ受信装置100を使い始めて間もないこの時点では、説明生成部102は、どのような動作理由の説明がユーザの好みに合っているかを推定するための学習が十分でない。このため、説明生成部102は、動作決定部101における動作の決定に最も寄与した割合の高い順や、動作履歴メモリ111に書き込まれている順番、あるいはランダムに、複数の動作理由のいずれかを選択して、説明を生成して、画面やスピーカーなどの出力部を使ってユーザに説明を提示する。図10に示す例では、説明生成部102は、「時刻が22時を過ぎた」、「テレビの前に居るユーザは1名」、「ユーザの視線はテレビを向いていない」、「ユーザにおすすめの番組は放送されていない」という各動作理由から、それぞれ「時刻が22時を過ぎなので」、「テレビの前に1人しかいなかったので」、「テレビに注目していなかったので」、「おすすめの番組が放送されていないので」という説明文をそれぞれ生成し、このうち「時刻が22時過ぎなので」という動作理由を選択すると、テレビ画面を使って「時刻が22時過ぎなので音量を下げました」という説明文が表示される。
 説明生成部102は、あらかじめ決められた数の説明を生成するようにしてもよいし、動作理由の数に応じて生成する説明の数を変化させるようにしてもよい。
 説明生成部102が生成した説明を、1つずつ順番にユーザに提示していく。そして、ユーザ感情推定部103は、説明を提示したときのユーザの反応を推定する。ユーザがポジティブな反応を示せば、動作理由の説明の提示は終了する。また、説明を提示したときのユーザがネガティブな反応を示し、又は感情推定結果の確度が低い場合には、説明生成部102が生成した動作理由の他の説明を提示する。
 また、ユーザに提示した説明とそれに対するユーザの反応を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、再学習のためにユーザ情報データベース112に逐次保存する。図10に示す例では、「テレビの音量を下げた」という自動操作に対する動作理由の説明として「時刻が22時を過ぎなので」、「テレビの前に1人しかいなかったので」、「テレビに注目していなかったので」が順にユーザに提示されたが、「時刻が22時を過ぎなので」と「テレビの前に1人しかいなかったので」という1番目及び2番目の説明に対するユーザの反応はともにネガティブであり、「テレビに注目していなかったので」という3番目の説明に対するユーザの反応はポジティブであったことが、ユーザ情報データベース112に保存される。
 図11には、説明生成部102の学習時の動作例を示している。
 動作決定部101が決定した動作をテレビ受信装置100で自動実行し、ユーザがその動作理由の説明を要求するというサイクルが複数回繰り返されると、テレビ受信装置100の動作理由に対する説明とそれに対するユーザの反応がユーザ情報データベース112に蓄積されていく。図11に示す例では、以下の3種類の自動動作に対する動作理由の説明及びユーザの反応に関する情報が、ユーザ情報データベース112に蓄積されている。
動作1:テレビの電源を入れた
動作理由の説明と反応:
1.ユーザがテレビの画面を一定期間見つめていた
→ポジティブな反応、説明提示終了
動作2:自動で録画を開始した 
動作理由の説明と反応:
1.過去に頻繁に録画されていたので
→ネガティブな反応、次の説明を要求
2.複数ユーザが対話中でテレビに注目できていなかったので
→ポジティブな反応、説明提示終了
動作3:テレビの音量を下げた 
動作理由の説明と反応:
1.時刻が22時過ぎなので
→ネガティブな反応、次の説明を要求
2.テレビ前に1人しかいなかったので
→ネガティブな反応、次の説明を要求
3.テレビに注目していなかったので
→ポジティブな反応、説明提示終了
 説明生成部102では、ユーザ感情推定部103によるユーザの感情推定結果(特に、ポジティブ又はネガティブが所定の割合を超えて、確度が高い推定結果)を正解ラベルとして、どのような説明をユーザが納得するのかの規則性を学習していく。例えば、学習の結果、「このユーザは、テレビ周辺の環境のセンシング結果を理由とする説明を提示すると納得し易い」という傾向が見いだされる。
 図12には、学習が進んだ状態での説明生成部102の動作例を示している。
 テレビ受信装置100において自動で字幕が表示される動作理由について、ユーザから説明が要求されたとする。説明生成部102は、動作履歴メモリ111から、字幕を自動で表示したという動作に対する動作理由に関する情報を読み出す。動作理由として、「この番組では字幕をオンにする頻度が高い」、「テレビ周辺の雑音レベルが高い」、「字幕をよく使うユーザがテレビの前に居る」の3つが読み出されたとする。
 そして、説明生成部102は、動作の推論過程とユーザが好む説明の傾向に基づいて、1以上の動作理由の説明候補を説明する。ここでは、学習の結果として「このユーザは、テレビ周辺の環境のセンシング結果を理由とする説明を提示すると納得し易い」という傾向が見いだされており、収集した動作理由から、説明の第1候補として「テレビ周辺の雑音レベルが高いので」、第2候補として「字幕をよく使うユーザが見ているので」、第3候補として「この番組では字幕オンにする頻度が高いので」という説明文が生成される。図12に示す例では、説明の第1候補の「テレビ周辺の雑音レベルが高いので」が選択され、テレビ画面を使って「テレビ周辺でなっているノイズが大きかったので字幕を表示しました」という説明文が表示されている。
 説明生成部102が生成した説明を、候補の順に1つずつユーザに提示していく。そして、ユーザ感情推定部103は、説明を提示したときのユーザの反応を推定する。ユーザがポジティブな反応を示せば、動作理由の説明の提示は終了する。また、説明を提示したときにユーザがネガティブな反応を示し、又は感情推定結果の確度が低い場合には、説明生成部102が生成した次の候補の説明を提示する。また、ユーザに提示した説明とそれに対するユーザの反応を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、再学習のためにユーザ情報データベース112に逐次保存する。
 これまでの説明では、説明生成部102は、複数説明した説明文の候補を、学習結果に基づいて並べ替えて、ユーザの反応に応じて順に提示していくというものであった。さらに説明生成部102は、同じ説明の内容であっても、説明に用いる文言など説明文の表現方法をユーザの好みに応じて変更するようにしてもよい。例えば、説明生成部102は、ユーザ毎に、説明に用いる言葉を平易なものに言い換えたり、説明の粒度を粗く又は細かく変化させたりするようにしてもよい。
 また、これまでの説明では、説明生成部102は、「テレビ周辺の環境のセンシング結果に基づいて説明すると納得し易い」、「ユーザの習慣に基づいて説明すると納得し易い」など、ユーザ毎の傾向を学習するものであった。さらに説明生成部102は、音声による提示、画面上で文字による提示、画面上で図を使って提示などユーザが好む説明の提示方法を学習して、同じ説明の内容であってもユーザ毎に説明の提示方法を変更するようにしてもよい。
 また、説明生成部102は、ユーザが好む説明の文言や説明の提示方法の傾向を学習するために、感情推定部103が推定した過去のユーザのポジティブ又はネガティブの反応だけではなく、ユーザプロファイルセンサー部350がセンシングするユーザのプロファイル情報(ユーザの機器の使用履歴や、SNSの投稿又は閲覧履歴を含む)を学習データに用いてもよい。
 このように図3に示した機能的構成によれば、ユーザがテレビ受信装置100を使用していく過程で、テレビ受信装置100が自動操作を実施し、ユーザの要求に応じて動作理由の説明を提示する度に、ユーザの反応を取得して学習を繰り返すことで、ユーザが納得し易い動作理由、説明文の表現方法、説明の提示方法を使ってユーザに動作理由を説明することが可能となる。
J.動作決定を含めた学習
 これまでは、テレビ受信装置100が、図3に示した機能的構成により、自動操作を行ったときの動作理由の説明提示をユーザ好みに適合させるように学習する点について説明してきた。さらに、テレビ受信装置100がユーザの好みに適合した自動操作を行うように、動作決定部101の学習を併せて行うことも可能である。
J-1.全体フロー
 図13には、テレビ受信装置100が操作の自動化及び動作理由の説明を行うための全体的な処理手順をフローチャートの形式で示している。図4及び図5に示した処理手順との主な相違点は、動作決定部101による自動操作と、説明生成部102による動作理由の説明提示の各々について学習を行う点である。
 まず、動作決定部101は、センシング機能部300(図2を参照のこと)によるユーザの状態や周辺環境のセンシング結果に基づいて、学習済みDNN(前述)の推論によって、テレビ受信装置100の動作を決定する(ステップS1301)。
 そして、動作決定部101は、決定した動作を動作履歴メモリ111に保存する(ステップS1302)。動作決定部101は、センシング結果に基づいて動作を決定するに至った推論履歴を、決定した動作と併せて動作履歴メモリ111に保存するようにしてもよい。
 主制御部201は、動作決定部101が決定した動作を実現するための制御信号を、テレビ受信装置100内の該当する機能モジュールに送り、自動操作を実施する(ステップS1303)。
 次いで、ユーザ感情推定部103は、動作決定部101が決定した動作がテレビ受信装置100で実施されたときのユーザの反応を取得して(ステップS1304)、ユーザの感情の推定を試みる(ステップS1305)。ここでは、説明の簡素化のため、ユーザの感情は、テレビ受信装置100が実施した動作に対してユーザが好んだか否か(ポジティブ/ネガティブ)という2値で表現されるものとする。
 ユーザの感情を推定することができない場合には(ステップS1305のNo)、動作決定部101並びに説明生成部102の学習の実施を諦めて、ステップS1301に戻り、センシング結果に基づくテレビ受信装置100の動作決定を繰り返し行う。
 ユーザの感情を推定することができた場合には(ステップS1305のYes)、ユーザ感情推定部103が推定したユーザの感情がネガティブかどうかをチェックする(ステップS1306)。ユーザの感情がネガティブでない場合(又は、ポジティブな場合)には(ステップS1306のNo)、ユーザは動作決定部101が決定したテレビ受信装置100の動作に不満はなく、動作決定部101を再学習したり、テレビ受信装置100の動作理由の説明を提示したりする必要はない。したがって、この場合には、ステップS1301に戻り、センシング結果に基づくテレビ受信装置100の動作決定を繰り返し行う。
 一方、テレビ受信装置100が実施した動作に対するユーザの感情がネガティブな場合(又は、ポジティブでない場合)には(ステップS1306のYes)、ステップS1303で実施したテレビ受信装置100の自動操作に対して、ユーザに動作理由の説明を提示する必要があると考えられる。そこで、説明生成部102は、学習済みDNN(前述)の推論によって、説明提示が要求されたテレビ受信装置100の動作理由に関してユーザが好みそうな説明を生成して、生成した動作理由の説明を、例えばテレビ受信装置100が備える出力手段(スピーカーや画面など)を用いてユーザに提示する(ステップS1307)。
 次いで、ユーザ感情推定部103は、説明生成部102が生成した説明を提示したときのユーザの反応を取得して(ステップS1308)、ユーザの感情の推定を試みる(ステップS1309)。
 ユーザの感情を推定することができない場合には(ステップS1309のNo)、説明生成部102の学習の実施を諦めて、ステップS1301に戻り、センシング結果に基づくテレビ受信装置100の動作決定を繰り返し行う。
 ユーザの感情を推定することができた場合には(ステップS1309のYes)、ユーザ感情推定部103が推定したユーザの感情がネガティブかどうかをチェックする(ステップS1310)。ユーザの感情がネガティブでない場合(又は、ポジティブな場合)には(ステップS1310のNo)、ユーザは動作決定部101が決定したテレビ受信装置100の動作と説明生成部102が生成した動作理由の説明に不満はなく、動作決定部101や説明生成部102を再学習する必要はない。したがって、この場合には、ステップS1301に戻り、センシング結果に基づくテレビ受信装置100の動作決定を繰り返し行う。
 一方、提示した説明に対するユーザの感情がネガティブな場合(又は、ポジティブでない場合)には(ステップS1310のYes)、動作決定部101や説明生成部102を再学習する必要がある。そこで、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの「ネガティブ」であるという感情を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース112に保存する(ステップS1311)。そして、ユーザ情報データベース112に蓄積された情報を使用して、動作決定部101は動作を決定する学習済みDNNの再学習を実施するとともに、説明生成部102は動作理由の説明を生成する学習済みDNNの再学習を実施する(ステップS1312)。
 動作決定部101及び説明生成部102の再学習を行う処理手順について、さらに詳細に説明する。
 テレビ受信装置100は、動作決定部101が決定した動作を自動実行する。この動作に対するユーザの反応がネガティブであった場合のみ、ユーザに説明の提示が必要であると判断して、説明生成部102は動作理由の説明の生成処理を行い、ユーザに説明を提示する。
 例えば、テレビ受信装置100が周囲の雑音に応じて音量を自動で上げたときに、ユーザがリモコンで音量を下げる操作を行った。また、テレビ受信装置100が環境に合わせて画面輝度を変更したときに、ユーザが画面輝度を元に戻す操作を行った。このように、テレビ受信装置100の自動操作に対してユーザが否定的な操作を行った場合には、ユーザには動作理由を説明する必要があると判断することができる。
 なお、ユーザの反応がポジティブな場合にもユーザに動作理由の説明を提示することも可能である。但し、ユーザが好む自動操作が行われているときに敢えて説明を提示すると、ユーザのテレビ番組の視聴を妨げる恐れがある。
 また、テレビ受信装置100の自動操作に対する動作理由について、説明を提示したときにユーザの反応がネガティブであった場合には、ユーザが好む自動操作が行われるように動作決定部101を再学習し、又はユーザが納得し易い動作理由の説明を提示できるように説明生成部102の再学習を行う。また、動作決定部101又は説明生成部102のいずれか一方のみが再学習されるようにしてもよい。動作決定部101又は説明生成部102のいずれについて再学習を行うべきかを、提示した説明に対するユーザの反応に基づいて判断するようにしてもよい。
 例えば、テレビ受信装置100が環境に合わせて画面輝度を変更し、「外光に合わせて輝度を変更しました」という説明を画面又は音声で提示したときに、ユーザが「やめて」と言った場合、動作決定部101は、この外光状況では輝度を調整しない、と学習する。また、ユーザが「やめて」と言ったことに対して、「処理を停止しますか?」とユーザに問い合わせ、ユーザから「はい」という返事があった場合には、環境に合わせて画面輝度を変更するという自動操作に対してユーザがネガティブであることが確認できるので、動作決定部101は、環境に合わせて画面輝度を変更する処理はこれ以降行わないことを学習する。
 また、テレビ受信装置100が周囲ノイズに応じて音量を自動で上げたときに、ユーザがもっと音量を上げるリモコン操作を行ったことも、自動操作に対するユーザのネガティブな反応である。このような場合、動作決定部101は、周囲ノイズに応じて音量をもっと上げるように学習する。
J-2.ユーザ操作を利用した再学習
 図13に示した処理手順では、テレビ受信装置100の自動操作に対するユーザの反応がネガティブである場合にその動作理由の説明がユーザに提示され、さらに提示された説明に対してユーザの反応がネガティブである場合に、動作決定部101及び説明生成部102でそれぞれ使用する学習済みDNNの再学習が行われる。ユーザがリモコン操作などによって再学習時の学習内容を設定するようにしてもよい。
 例えば、センサー部350のセンシング結果に基づいて「テレビ周辺の雑音レベルが高い」という事象が検出されたことにより、テレビ受信装置100において字幕をオンにする自動操作が実施されたとする。図14には、動作理由の説明を提示する画面の構成例を示している。字幕の自動表示に対してユーザがネガティブな反応を示した場合には、図14中の参照番号1401で示すように、画面の右下隅に「テレビ周辺の雑音レベルが高いため字幕を表示しました」という動作理由の説明が提示される。なお、画面の隅に説明を提示するのは、ユーザのテレビ番組の視聴を妨げないようにするためであるが、もちろん画面の中央に説明を大きく表示するようにしてもよい。その際、画面上に説明が提示されている間は、ユーザが表示された説明をリモコン操作で選択して、決定ボタン(OKボタン)などのボタンを押すことで学習内容に関する設定画面へ遷移するようにされてもよいし、ユーザが設定を望む旨を音声入力で示すことによって、学習内容に関する設定画面へ遷移するようにされてもよい。
 このとき、ユーザがリモコン操作などによって再学習時の学習内容を設定することを通知すると、図15に示すように、自動操作について再学習するための学習内容を設定するための画面に遷移する。図15に示す例では、参照番号1501で示すように、画面の上段に動作理由の説明「以下の理由により字幕を表示しました: テレビ周辺の雑音レベルが高い」が表示され、参照番号1502で示すように、画面の中段にこの動作理由に基づく自動操作の停止をユーザが意思表示するボタン「この理由に基づく処理を停止する」が表示される。また、参照番号1503で示すように、画面の下段に、同様の処理を行う他の理由「以下の場合に同様の処理を行います: 字幕をよく使うユーザが見ている/字幕オンにする頻度が高い番組である」を併せて提示するようにしてもよい。そして、ユーザがリモコンやタッチパネルの操作によりボタン1502を選択すると、テレビ受信装置100は、これ以降同様の理由で同じ処理を行わないように、再学習が実施される。また、表示された参照番号1503の提示に対する選択や決定などの操作に基づいて、参照番号1503に提示された各理由に関する設定画面に遷移して、上記で説明した参照番号1501の理由に対する設定操作と同様の操作をユーザが行えるようにしてもよい。
 また、図16には、動作理由の説明を提示する画面の他の構成例を示している。字幕の自動表示に対してユーザがネガティブな反応を示した場合には、図16中の参照番号1601で示すように、画面の中央に「テレビ周辺で鳴っているノイズが大きかったので字幕を表示しました」という動作理由の説明が提示される。また、ユーザが画面の中央に表示された説明では納得しないときのために、参照番号1602で示すように、画面の下段には「[他の理由を提示]」と表示された、動作理由の他の説明を要求するボタンが表示される。
 このとき、ユーザがリモコンやタッチパネルの操作によりボタン1602を選択すると、図17に示すように、動作理由の説明について再学習するための学習内容を設定するための画面に遷移する。図17に示す例では、参照番号1701~1703で示すように、画面の上段には、字幕の自動表示に関する他の3種類の動作理由の説明「テレビ周辺の雑音レベルが高い」、「字幕をよく使うユーザが見ている」、「この番組では字幕オンにする頻度が高い」が表示される。ユーザは、例えばリモコンのカーソルボタンの操作を使ってこれら3種類の動作理由の説明のいずれか1つを選択することができる。図17では、2番目の説明「字幕をよく使うユーザが見ている」が選択されて、ハイライト表示されている。また、ユーザが選択中の説明の直下には、字幕自動表示に対する動作理由の説明として指定するボタン1704、並びに、この説明の重要度を上げることを指定するボタン1705が表示される。そして、ユーザがリモコンやタッチパネルの操作によりボタン1704又は1705のいずれかを押すと、そのボタンが示す処理が動作理由の説明について再学習するための学習内容として設定される。同様に、参照番号1701や1703などの他の説明を選択することで、上記で説明した参照番号1702の理由に対する設定操作と同様の操作をユーザが行えるようにしてもよい。
K.他の機器を使った説明提示
 これまでは、テレビ受信装置100で行われた自動操作に対する動作理由の説明を、テレビ受信装置100の画面やスピーカーを用いてユーザに提示する実施形態を中心に説明してきた。変形例として、ユーザが所持するスマートフォンやユーザと対話するスマートフォン又はロボットなど、テレビ受信装置100と連携する他の機器を使って動作理由の説明を提示することもできる。
 例えば、説明生成部102は、テレビ受信装置100やスマートフォン、スマートスピーカー、ロボットなどを使って動作理由の説明を提示したときのユーザの反応からユーザの感情を推定した結果に基づいて、ユーザ毎に、あるいは動作理由毎に、説明の提示に使用する最適な機器がどれであるかを学習する。
 また、説明生成部102は、スマートフォンなど画面サイズが小さい機器を使って説明を提示する際に、適切な文字数や説明の粒度を学習するようにしてもよい。また、例えば有機ELディスプレイなどを使った巻取り式ディスプレイの場合、提示する説明の内容(例えば、説明文の文字数や説明に使用する画像など)に応じてディスプレイの最適な引き出し量を学習するようにしてもよいし、ディスプレイの引き出し量に応じて説明の内容を学習するようにしてもよい。情報量が多い説明を好むユーザに説明を提示する場合には、より多くの情報を表示できるようにディスプレイの引き出し量が大きくなるように学習することになる。例えば、機器状態センサー部340によって現在のディスプレイの引き出し量を取得して、説明の内容の学習や表示する説明の内容の決定を行ったり、適切なディスプレイの引き出し量の決定を行ったりするようにされてもよい。
L.他の機器への応用例
 本開示は、DNNが搭載された機器における自動動作の理由を、ユーザにとって理解し易く説明する機器に関する技術である。すなわち、本開示を適用する機器は、自動操作を行った際に、ユーザの要求に応じて、ユーザが受け入れ易い(又は、ユーザがポジティブな反応を示す)説明文や説明の提示方法を学習する。上記では、本開示を適用する機器の具体例としてテレビ受信装置を挙げたが、エアコン、冷蔵庫、洗濯機、オーディオ機器、照明機器、スマートスピーカーなどのさまざまな家電機器や、カーナビゲーションシステム、自動運転車や無人航空機(ドローンなど)といった移動体装置にも適用することができる。
 以下では、本開示をカーナビゲーションシステムの音声ガイダンスに適用した実施例について説明する。
 図18には、車両に搭載されたカーナビゲーションシステムとその車両の運転手の間で行われた、ナビゲーションに関する対話例を示している。
 運転手が(対話1)でA動物園までのルート設定を指示すると、カーナビゲーションシステムは(対話2)でB駅経由のルートを設定したことを通知する。そして、運転手が(対話3)で「B駅経由?なんで?」と言ったことを、カーナビゲーションシステムは、自動ルート設定した理由の説明を要求されたと解釈して、(対話4)及び(対話6)で「C市役所周辺の渋滞により、B駅経由の方が他のルートよりおよそ3分早く目的地まで到着します」とルート設定についての1つ目の理由を説明する。これに対し、運転手が(対話5)で「うん」と相槌を打つと、カーナビゲーションシステムは、さらに「また、B駅経由の方が他のルートよりも起伏が少なく、およそ1km/L燃費がいいです」と連続してルート設定についての2つ目の理由を説明する。運転手が(対話7)で2つ目の理由の説明に対して「もういいよ」と言うと、カーナビゲーションシステムはこれを運転手が説明の提示に対してポジティブに反応したと推定して、(対話8)で「案内を開始します」と告げて、理由の説明を終了する。また、カーナビゲーションシステムは、以後の同様のやり取りでの説明の提示に関して、例えば以下の(1)又は(2)を学習する。
(1)運転手が到着時間の説明に関してポジティブに反応したと推定して、以後の類似の対話では到着時間情報を理由の説明として提示するように学習する。
(2)運転手は複数の説明の提示を好まず、又は手短な説明を好むと推定して、以後の類似のやり取りでは理由の説明を1つだけ提示するように学習する。
 図19には、車両に搭載されたカーナビゲーションシステムとその車両の運転手の間で行われた、ナビゲーションに関する他の対話例を示している。
 運転手が(対話1)でA動物園までのルート設定を指示すると、カーナビゲーションシステムは(対話2)でB駅経由のルートを設定したことを通知する。そして、運転手が(対話3)で「B駅経由?なんで?」と言ったことを、カーナビゲーションシステムは、自動ルート設定した理由の説明を要求されたと解釈して、(対話4)で「C市役所周辺の渋滞により…」とルート設定した理由を説明する。運転手が説明の途中に割り込んで、(対話5)で「早く着くんだね。OK」と言うと、カーナビゲーションシステムは提示した説明に対して運転手がポジティブに反応したと推定して、(対話6)で「案内を開始します」と告げて、理由の説明を終了する。また、カーナビゲーションシステムは、以後の同様のやり取りでの説明の提示に関して、例えば以下の(1)又は(2)を学習する。
(1)以後の類似の対話では、X周辺渋滞のために、Yルートを選択したこと
(2)(Z分)早く着くため、Yルートを選択したことを理由の説明として提示するように学習する。カーナビゲーションシステムが提示した説明に対する運転手からの反応があるまでのカーナビゲーションシステムの発話内容に基づいて、「X周辺渋滞のため」という説明を学習し、また、「早く着くんだね」と発話した運転手の反応に基づいて、「(Z分)早く着くため」という説明を学習する。
 また、カーナビゲーションシステムは、運転手が説明の途中に割り込んできたことから、運転手は長い説明を好まないことを学習し、その他の動作理由の説明に関しても短く簡潔な説明を提示するように学習する。例えば、「B駅経由の方が他のルートよりも起伏が少なく、およそ1km/L燃費がいいです」という長い説明を、「燃費がよいのでYルートを選択」のように簡潔な説明にするように学習する。なお、学習の結果として説明の粒度を粗くした場合には、説明の文字数が短くなるので、音声ではなく、ヘッドアップディスプレイやインパネに説明を提示するようにしてもよい。
 図20には、車両に搭載されたカーナビゲーションシステムとその車両の運転手の間で行われた、ナビゲーションに関するさらに他の対話例を示している。
 運転手が(対話1)でA動物園までのルート設定を指示すると、カーナビゲーションシステムは(対話2)でB駅経由のルートを設定したことを通知する。そして、運転手が(対話3)で「B駅経由では遠いんじゃない?」と言ったことを、カーナビゲーションシステムは、自動ルート設定に対してネガティブに反応したと解釈して、(対話4)で「C市役所周辺の渋滞により、B駅経由の方が他のルートよりおよそ3分早く目的地まで到着します」とルート設定の理由を説明する。運転手が(対話5)でこのルート設定の理由の説明に対して「そのルートは道が狭いから嫌だな」と言うと、カーナビゲーションシステムはこれを運転手がルート設定の理由の説明に対してネガティブに反応したと推定して、(対話6)で「D消防署経由のルートにしますか?」と他のルート設定を提案する。そして、運転手が(対話7)で「お願い」といったことから、カーナビゲーションシステムは提案したルートに運転手がポジティブに反応したと推定して、(対話8)で「案内を開始します」と告げて、そのルートに設定する。また、カーナビゲーションシステムは、以後の同様のやり取りでのルート設定に関して、例えば以下の(1)又は(2)を学習する。
(1)B駅周辺を通るルートを避ける(又は、B駅周辺を通るルートの優先度を下げる)
(2)狭い道を通るルートを避ける(又は、狭い道を通るルートの優先度を下げる)
 なお、例えば(対話5)でユーザが説明の内容に対してネガティブに反応したと解釈された場合には、カーナビゲーションシステムは、他の説明があれば、(対話6)でルート設定に対する他の理由を提示する。
 また、一実施例として、本開示が人型や動物型、球形、円柱形のものを含むロボットやディスプレイに表示されたキャラクターによって実施されてもよい。例えば、ユーザに対する説明の提示が、人型ロボットやディスプレイに表示された人型キャラクターの身振りで表現されてもよいし、動物型ロボットやディスプレイに表示された動物型キャラクター、又はその他の形状のロボットやキャラクターの動作によって表現されてもよい。
 以上、特定の実施形態を参照しながら、本開示について詳細に説明してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
 本明細書では、本開示をテレビ受信装置に適用した実施形態を中心に説明してきたが、本開示の要旨はこれに限定されるものではない。本開示は、内部処理にDNNを適用して自動動作を行うさまざまな機器に、同様に適用することができる。例えば、エアコン、冷蔵庫、洗濯機、オーディオ機器、照明機器、スマートスピーカーなど、さまざまな家電機器に本開示を適用することができる。また、本開示は、カーナビゲーションシステム、自動運転車や無人航空機(ドローンなど)といった自律動作する移動体装置にも適用することができる。
 要するに、例示という形態により本開示について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示の要旨を判断するためには、特許請求の範囲を参酌すべきである。
 なお、本開示は、以下のような構成をとることも可能である。
(1)センサー情報に対応する制御対象装置の処理を決定する決定部と、
 前記処理に対する理由の説明を生成する生成部と、
 ユーザの反応に対する推定を行う推定部と、
を具備し、
 前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
情報処理装置。
(2)前記生成部は、前記推定結果に基づいて、前記説明の内容又は前記説明の提示方法を制御する、
上記(1)に記載の情報処理装置。
(3)前記生成部は、前記推定結果に基づいて、前記説明として提示する情報の粒度、説明文の表現方法、又は前記説明の出力に使用するデバイスの選択、前記説明の出力に使用するデバイス上の設定(画面を使用する場合の文字フォント、文字サイズ、音声を使用する場合の音量、声質)を制御する、
上記(2)に記載の情報処理装置。
(4)前記生成部は、センサー情報に対応する前記制御対象装置の処理の理由の説明を推定するように学習された第1の機械学習モデルを備え、前記第1の機械学習モデルを用いて前記処理に対する説明を生成する、
上記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)センサー情報に対応して前記制御対象装置が行った処理に対して生成した説明とユーザの反応に基づいて前記第1の機械学習モデルを再学習する、
上記(4)に記載の情報処理装置。
(6)前記第1の機械学習モデルは、前記制御対象装置が行った処理に対して生成した説明に対するユーザの反応に基づいて、前記制御対象装置の処理に対して同様の内容を説明しないように又は同様の説明の提示方法を使用しないように学習する、
上記(5)に記載の情報処理装置。
(7)環境情報、機器情報、ユーザプロファイル、又はユーザの機器使用履歴のうち少なくとも1つに基づいて前記第1の機械学習モデルを再学習する、
上記(5)又は(6)のいずれかに記載の情報処理装置。
(8)前記生成部は、ユーザからの要求に基づいて前記説明の提示を制御する、
上記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)前記生成部は、前記決定部が決定した処理を前記制御対象装置が実行したことに対するユーザの否定的な反応に基づいて、前記説明の提示を制御する、
上記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)前記決定部は、センサー情報に対応する前記制御対象装置の処理を推定するように学習された第2の機械学習モデルを備え、前記第2の機械学習モデルを用いてセンサー情報に対応する前記制御対象装置の処理を決定する、
上記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)センサー情報に対応して前記制御対象装置が行った処理とユーザの反応に基づいて前記第2の機械学習モデルを再学習する、
上記(10)に記載の情報処理装置。
(12)前記第2の機械学習モデルは、センサー情報に基づいて前記制御対象装置が実行した処理に対するユーザの否定的な反応に基づいて、前記制御対象装置が実行した処理を決定しないように学習する、
上記(11)に記載の情報処理装置。
(13)前記推定部は、ユーザの反応からユーザの感情を推定するように学習された第3の機械学習モデルを備え、前記第3の機械学習モデルを用いて前記制御対象装置が行った処理又は前記処理に対して提示された説明に対するユーザの感情を推定する、
上記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)前記決定部が決定した処理、又は前記生成部が制御する説明の提示の少なくともどちらか一方に関する通知処理を制御する制御部を備える、
上記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)前記制御部は、前記決定部が決定した処理、又は前記生成部が制御する説明の提示が、機械学習モデルを用いていることを通知する処理を制御する、
上記(14)に記載の情報処理装置。
(16)前記生成部は、前記制御対象装置の1つの処理に対する複数の理由の説明のうち2以上を順番に又は同時に提示する、
上記(1)乃至(15)のいずれかに記載の情報処理装置。
(17)前記生成部が提示した説明に対する反応を取得するためのユーザインターフェースを出力するユーザインターフェース出力部をさらに備える、
上記(1)乃至(16)のいずれかに記載の情報処理装置。
(18)前記説明を表示するための表示部を備える、
上記(1)乃至(17)のいずれかに記載の情報処理装置。
(19)センサー情報に対応する制御対象装置の処理を決定する決定ステップと、
 前記処理に対する理由の説明を生成する生成ステップと、
 ユーザの反応に対する推定を行う推定ステップと、
を有し、
 前記生成ステップでは、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
情報処理方法。
(20)センサー情報に対応する制御対象装置の処理を決定する決定部、
 前記処理に対する理由の説明を生成する生成部、
 ユーザの反応に対する推定を行う推定部、
としてコンピュータを機能させ、
 前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御するように、コンピュータ可読形式で記述されたコンピュータプログラム。
 100…テレビ受信装置、101…動作決定部、102…説明生成部
 103…ユーザ感情推定部、111…動作履歴メモリ
 112…ユーザ情報データベース
 201…制御部、202…バス、203…ストレージ部
 204…通信インターフェース(IF)部
 205…拡張インターフェース(IF)部
 206…チューナー/復調部、207…デマルチプレクサ
 208…映像デコーダ、209…音声デコーダ
 210…文字スーパーデコーダ、211…字幕デコーダ
 212…字幕処理部、213…データデコーダ、214…キャッシュ部
 215…アプリケーション(AP)制御部、216…ブラウザ部
 217…音源部、218…映像処理部、219…表示部
 220…音声処理部、221…音声出力部、222…操作入力部
 300…センシング機能部、310…カメラ部
 311~313…カメラ、320…ユーザ状態センサー部
 330…環境センサー部、340…機器状態センサー部
 350…ユーザプロファイルセンサー部

Claims (20)

  1.  センサー情報に対応する制御対象装置の処理を決定する決定部と、
     前記処理に対する理由の説明を生成する生成部と、
     ユーザの反応に対する推定を行う推定部と、
    を具備し、
     前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
    情報処理装置。
  2.  前記生成部は、前記推定結果に基づいて、前記説明の内容又は前記説明の提示方法を制御する、
    請求項1に記載の情報処理装置。
  3.  前記生成部は、前記推定結果に基づいて、前記説明として提示する情報の粒度、説明文の表現方法、又は前記説明の出力に使用するデバイスの選択、前記説明の出力に使用するデバイス上の設定(画面を使用する場合の文字フォント、文字サイズ、音声を使用する場合の音量、声質)を制御する、
    請求項2に記載の情報処理装置。
  4.  前記生成部は、センサー情報に対応する前記制御対象装置の処理の理由の説明を推定するように学習された第1の機械学習モデルを備え、前記第1の機械学習モデルを用いて前記処理に対する説明を生成する、
    請求項1に記載の情報処理装置。
  5.  センサー情報に対応して前記制御対象装置が行った処理に対して生成した説明とユーザの反応に基づいて前記第1の機械学習モデルを再学習する、
    請求項4に記載の情報処理装置。
  6.  前記第1の機械学習モデルは、前記制御対象装置が行った処理に対して生成した説明に対するユーザの反応に基づいて、前記制御対象装置の処理に対して同様の内容を説明しないように又は同様の説明の提示方法を使用しないように学習する、
    請求項5に記載の情報処理装置。
  7.  環境情報、機器情報、ユーザプロファイル、又はユーザの機器使用履歴のうち少なくとも1つに基づいて前記第1の機械学習モデルを再学習する、
    請求項5に記載の情報処理装置。
  8.  前記生成部は、ユーザからの要求に基づいて前記説明の提示を制御する、
    請求項1に記載の情報処理装置。
  9.  前記生成部は、前記決定部が決定した処理を前記制御対象装置が実行したことに対するユーザの否定的な反応に基づいて、前記説明の提示を制御する、
    請求項1に記載の情報処理装置。
  10.  前記決定部は、センサー情報に対応する前記制御対象装置の処理を推定するように学習された第2の機械学習モデルを備え、前記第2の機械学習モデルを用いてセンサー情報に対応する前記制御対象装置の処理を決定する、
    請求項1に記載の情報処理装置。
  11.  センサー情報に対応して前記制御対象装置が行った処理とユーザの反応に基づいて前記第2の機械学習モデルを再学習する、
    請求項10に記載の情報処理装置。
  12.  前記第2の機械学習モデルは、センサー情報に基づいて前記制御対象装置が実行した処理に対するユーザの否定的な反応に基づいて、前記制御対象装置が実行した処理を決定しないように学習する、
    請求項11に記載の情報処理装置。
  13.  前記推定部は、ユーザの反応からユーザの感情を推定するように学習された第3の機械学習モデルを備え、前記第3の機械学習モデルを用いて前記制御対象装置が行った処理又は前記処理に対して提示された説明に対するユーザの感情を推定する、
    請求項1に記載の情報処理装置。
  14.  前記決定部が決定した処理、又は前記生成部が制御する説明の提示の少なくともどちらか一方に関する通知処理を制御する制御部を備える、
    請求項1に記載の情報処理装置。
  15.  前記制御部は、前記決定部が決定した処理、又は前記生成部が制御する説明の提示が、機械学習モデルを用いていることを通知する処理を制御する、
    請求項14に記載の情報処理装置。
  16.  前記生成部は、前記制御対象装置の1つの処理に対する複数の理由の説明のうち2以上を順番に又は同時に提示する、
    請求項1に記載の情報処理装置。
  17.  前記生成部が提示した説明に対する反応を取得するためのユーザインターフェースを出力するユーザインターフェース出力部をさらに備える、
    請求項1に記載の情報処理装置。
  18.  前記説明を表示するための表示部を備える、
    請求項1に記載の情報処理装置。
  19.  センサー情報に対応する制御対象装置の処理を決定する決定ステップと、
     前記処理に対する理由の説明を生成する生成ステップと、
     ユーザの反応に対する推定を行う推定ステップと、
    を有し、
     前記生成ステップでは、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
    情報処理方法。
  20.  センサー情報に対応する制御対象装置の処理を決定する決定部、
     前記処理に対する理由の説明を生成する生成部、
     ユーザの反応に対する推定を行う推定部、
    としてコンピュータを機能させ、
     前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御するように、コンピュータ可読形式で記述されたコンピュータプログラム。
PCT/JP2021/005122 2020-04-08 2021-02-10 情報処理装置及び情報処理方法、並びにコンピュータプログラム WO2021205742A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/907,540 US20230147985A1 (en) 2020-04-08 2021-02-10 Information processing apparatus, information processing method, and computer program
JP2022514320A JPWO2021205742A1 (ja) 2020-04-08 2021-02-10

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-070086 2020-04-08
JP2020070086 2020-04-08

Publications (1)

Publication Number Publication Date
WO2021205742A1 true WO2021205742A1 (ja) 2021-10-14

Family

ID=78023942

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/005122 WO2021205742A1 (ja) 2020-04-08 2021-02-10 情報処理装置及び情報処理方法、並びにコンピュータプログラム

Country Status (3)

Country Link
US (1) US20230147985A1 (ja)
JP (1) JPWO2021205742A1 (ja)
WO (1) WO2021205742A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7297355B1 (ja) * 2023-02-28 2023-06-26 Hubbit株式会社 パーソナライゼーション方法、コンピュータプログラム及びパーソナライゼーションシステム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6992725B2 (ja) * 2018-10-22 2022-01-13 日本電信電話株式会社 パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム
JP7392259B2 (ja) * 2018-12-04 2023-12-06 日本電気株式会社 学習支援装置、学習支援方法およびプログラム
US20220129794A1 (en) * 2020-10-27 2022-04-28 Accenture Global Solutions Limited Generation of counterfactual explanations using artificial intelligence and machine learning techniques
US20230055991A1 (en) * 2021-08-09 2023-02-23 Samsung Electronics Co., Ltd. System and method for interactive dialogue

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001166803A (ja) * 1999-12-06 2001-06-22 Nippon Telegr & Teleph Corp <Ntt> ロボット行動ルール生成装置、ロボット制御装置、及びロボット教示装置、並びにセンサ付きロボット
JP2007011674A (ja) * 2005-06-30 2007-01-18 National Institute Of Information & Communication Technology 対話ロボットを用いた理由説明サービス処理方法およびその装置,およびそのプログラム
JP2016192020A (ja) * 2015-03-31 2016-11-10 株式会社デンソーアイティーラボラトリ 音声対話装置、音声対話方法及びプログラム
US20180117769A1 (en) * 2016-10-31 2018-05-03 International Business Machines Corporation System, method and computer program product for controlling a mission-oriented robot based on a user's emotional state

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001166803A (ja) * 1999-12-06 2001-06-22 Nippon Telegr & Teleph Corp <Ntt> ロボット行動ルール生成装置、ロボット制御装置、及びロボット教示装置、並びにセンサ付きロボット
JP2007011674A (ja) * 2005-06-30 2007-01-18 National Institute Of Information & Communication Technology 対話ロボットを用いた理由説明サービス処理方法およびその装置,およびそのプログラム
JP2016192020A (ja) * 2015-03-31 2016-11-10 株式会社デンソーアイティーラボラトリ 音声対話装置、音声対話方法及びプログラム
US20180117769A1 (en) * 2016-10-31 2018-05-03 International Business Machines Corporation System, method and computer program product for controlling a mission-oriented robot based on a user's emotional state

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7297355B1 (ja) * 2023-02-28 2023-06-26 Hubbit株式会社 パーソナライゼーション方法、コンピュータプログラム及びパーソナライゼーションシステム

Also Published As

Publication number Publication date
US20230147985A1 (en) 2023-05-11
JPWO2021205742A1 (ja) 2021-10-14

Similar Documents

Publication Publication Date Title
WO2021205742A1 (ja) 情報処理装置及び情報処理方法、並びにコンピュータプログラム
US20220286728A1 (en) Information processing apparatus and information processing method, display equipped with artificial intelligence function, and rendition system equipped with artificial intelligence function
US11206450B2 (en) System, apparatus and method for providing services based on preferences
US11024312B2 (en) Apparatus, system, and method for generating voice recognition guide by transmitting voice signal data to a voice recognition server which contains voice recognition guide information to send back to the voice recognition apparatus
CN109637518A (zh) 虚拟主播实现方法及装置
US9948764B2 (en) Artificial intelligence audio apparatus and operation method thereof
US20140111689A1 (en) Display device, method of controlling the display device, and information processor to control the display device
KR20200092465A (ko) 추천 컨텐츠 리스트 제공 방법 및 그에 따른 전자 장치
US20130300934A1 (en) Display apparatus, server, and controlling method thereof
US10276151B2 (en) Electronic apparatus and method for controlling the electronic apparatus
JP2022511310A (ja) ディスプレイ装置及びその制御方法
EP3971887A1 (en) Apparatus and method for recognizing a plurality of wake-up words
US11450316B2 (en) Agent device, agent presenting method, and storage medium
KR102667037B1 (ko) 디스플레이 장치 및 그의 구동 방법
JP2005250322A (ja) 表示装置
CN110226202B (zh) 用于发送和接收音频数据的方法和设备
JPWO2017175442A1 (ja) 情報処理装置、および情報処理方法
JP2013015741A (ja) 画像出力装置、画像出力方法、およびプログラム
CN111464869A (zh) 一种运动位置检测方法、屏幕亮度调节方法及智能设备
JP7043818B2 (ja) 情報処理方法及び情報処理装置
WO2021009989A1 (ja) 人工知能情報処理装置及び人工知能情報処理方法、並びに人工知能機能搭載表示装置
US20230031160A1 (en) Information processing apparatus, information processing method, and computer program
KR102414783B1 (ko) 전자 장치 및 이의 제어방법
WO2021124680A1 (ja) 情報処理装置及び情報処理方法
KR20210155505A (ko) 이동 가능한 전자장치 및 그 제어방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21784920

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022514320

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21784920

Country of ref document: EP

Kind code of ref document: A1