WO2021079640A1 - 情報処理装置及び情報処理方法、並びに人工知能システム - Google Patents

情報処理装置及び情報処理方法、並びに人工知能システム Download PDF

Info

Publication number
WO2021079640A1
WO2021079640A1 PCT/JP2020/034290 JP2020034290W WO2021079640A1 WO 2021079640 A1 WO2021079640 A1 WO 2021079640A1 JP 2020034290 W JP2020034290 W JP 2020034290W WO 2021079640 A1 WO2021079640 A1 WO 2021079640A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
information
neural network
creator
content
Prior art date
Application number
PCT/JP2020/034290
Other languages
English (en)
French (fr)
Inventor
健 平松
由幸 小林
安達 浩
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/754,920 priority Critical patent/US20240147001A1/en
Priority to EP20878495.9A priority patent/EP4050909A4/en
Publication of WO2021079640A1 publication Critical patent/WO2021079640A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2407Monitoring of transmitted content, e.g. distribution time, number of downloads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42201Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] biosensors, e.g. heat sensor for presence detection, EEG sensors or any limb activity sensors worn by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4854End-user interface for client configuration for modifying image parameters, e.g. image brightness, contrast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R7/00Diaphragms for electromechanical transducers; Cones
    • H04R7/02Diaphragms for electromechanical transducers; Cones characterised by the construction
    • H04R7/04Plane diaphragms
    • H04R7/045Plane diaphragms using the distributed mode principle, i.e. whereby the acoustic radiation is emanated from uniformly distributed free bending wave vibration induced in a stiff panel and not from pistonic motion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42202Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] environmental sensors, e.g. for detecting temperature, luminosity, pressure, earthquakes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2440/00Bending wave transducers covered by H04R, not provided for in its groups
    • H04R2440/01Acoustic transducers using travelling bending waves to generate or detect sound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops

Definitions

  • this disclosure relates to an information processing device and an information processing method using artificial intelligence, and an artificial intelligence system.
  • Content created by content creators on the authoring system is distributed by various means such as broadcasting, streaming, and recording media. Then, on the playback device, after performing signal processing such as high image quality and high sound quality on the received video stream or audio stream, the received video stream or audio stream is output from a display or a speaker for viewing by the user.
  • signal processing such as high image quality and high sound quality
  • the received video stream or audio stream is output from a display or a speaker for viewing by the user.
  • the reference white information selected by the creator is synced from the source device using an MPEG (Moving Picture Experts Group) transmission container.
  • MPEG Motion Picture Experts Group
  • An object of the technology according to the present disclosure is to provide an information processing device and an information processing method for processing video or audio output from a television using artificial intelligence, and an artificial intelligence system.
  • the first aspect of the technology according to the present disclosure is The acquisition department that acquires the playback content, A detector that acquires information about the viewing status, A control unit that estimates the playback content to be output based on the information about the user who views the playback content and the information about the creator who created the playback content. An output unit that outputs the estimated playback content and It is an information processing device provided with.
  • the information about the user includes information about the state of the user, the profile of the user, the installation environment of the information processing device, the hardware information of the information processing device, the signal processing performed in the information processing device, and the like. And includes the information detected by the detection unit.
  • the information about the creator is information about the state of the creator, the profile of the creator, the production environment of the content, the device hardware information used for producing the content, the signal processing performed at the time of uploading the content, and the like. Yes, and includes information corresponding to the information about the user.
  • the control unit estimates signal processing for the reproduced content.
  • the signal processing for the reproduced content referred to here is a process of associating the video or audio of the reproduced content recognized by the user with the video or audio of the reproduced content recognized by the creator.
  • the reproduced content includes a video signal, and the signal processing includes at least one of resolution conversion, dynamic range conversion, noise reduction, and gamma processing. Further, the reproduced content includes an audio signal, and the signal processing includes at least one of band expansion and sound image localization.
  • the second aspect of the technology according to the present disclosure is The acquisition step to acquire the playback content and A detection step to get information about the viewing status, A control step for estimating the playback content to be output based on the information about the user who views the playback content and the information about the creator who created the playback content.
  • the estimated playback content is output as an output step. It is an information processing method having.
  • the third aspect of the technology according to the present disclosure is A first neural network that learns the correlation between the playback content, information about the user who views the playback content, and information about the creator who creates the playback content.
  • a second neural network that learns the correlation between the playback content, information about the user, and the user's perception of the playback content.
  • a third neural network that learns the correlation between the playback content, information about the creator, and the creator's perception of the playback content. It is an artificial intelligence system equipped with.
  • system here means a logical assembly of a plurality of devices (or functional modules that realize a specific function), and each device or functional module is in a single housing. It does not matter whether or not it is.
  • video or audio output from a television using artificial intelligence so that the gap between the user's perception of the viewed content and the creator's perception of the produced content is reduced. It is possible to provide an information processing device and an information processing method for processing the above, and an artificial intelligence system.
  • FIG. 1 is a diagram showing a configuration example of a system for viewing video contents.
  • FIG. 2 is a diagram showing a configuration example of the television receiving device 100.
  • FIG. 3 is a diagram showing an example of applying the panel speaker technology to a display.
  • FIG. 4 is a diagram showing a configuration example of the sensor unit 109.
  • FIG. 5 is a diagram showing a flow from content production to viewing.
  • FIG. 6 is a diagram showing a configuration example of the artificial intelligence system 600.
  • FIG. 7 is a diagram showing an installation example of the effect device.
  • FIG. 8 is a diagram showing a configuration example of the television receiving device 100 that utilizes the effect effect.
  • FIG. 9 is a diagram showing a configuration example of the artificial intelligence system 900.
  • FIG. 10 is a diagram showing a configuration example of the artificial intelligence system 1000.
  • FIG. 11 is a diagram showing a flow until the content is viewed by each user.
  • FIG. 12 is a diagram showing a configuration example of the artificial
  • FIG. 1 schematically shows a configuration example of a system for viewing video content.
  • the TV receiving device 100 is installed, for example, in a living room where a family gathers in a home, a user's private room, or the like.
  • the term "user” refers to a viewer who views (including when he / she plans to watch) the video content displayed on the television receiving device 100, unless otherwise specified. To do.
  • the television receiving device 100 is equipped with a speaker that outputs sound similar to that of a display that displays video content.
  • the television receiving device 100 has, for example, a built-in tuner for selecting and receiving a broadcast signal, or an externally connected set-top box having a tuner function, so that a broadcast service provided by a television station can be used.
  • the broadcast signal may be either terrestrial or satellite.
  • the television receiving device 100 can also use a broadcast-type video distribution service using a network such as IPTV or OTT (Over The Top). Therefore, the television receiving device 100 is equipped with a network interface card and uses communication based on existing communication standards such as Ethernet (registered trademark) and Wi-Fi (registered trademark) via a router or an access point. It is interconnected to an external network such as the Internet. In terms of its functionality, the television receiver 100 acquires or reproduces various types of content such as video and audio, which are acquired by streaming or downloading via broadcast waves or the Internet and presented to the user. It is also a content acquisition device, a content playback device, or a display device equipped with a display having the above function.
  • a network interface card uses communication based on existing communication standards such as Ethernet (registered trademark) and Wi-Fi (registered trademark) via a router or an access point. It is interconnected to an external network such as the Internet.
  • the television receiver 100 acquires or reproduces various types of content such as video and audio, which are acquired by streaming
  • a stream distribution server that distributes a video stream is installed on the Internet, and a broadcast-type video distribution service is provided to the television receiving device 100.
  • innumerable servers that provide various services are installed on the Internet.
  • An example of a server is a stream distribution server that provides a broadcast-type video stream distribution service using a network such as IPTV or OTT.
  • the stream distribution service can be used by activating the browser function and issuing, for example, an HTTP (Hyper Text Transfer Protocol) request to the stream distribution server.
  • HTTP Hyper Text Transfer Protocol
  • Artificial intelligence is a function that artificially realizes functions that the human brain exerts, such as learning, reasoning, data creation, and planning, by software or hardware.
  • Artificial intelligence generally utilizes a learning model represented by a neural network that imitates a human brain neural circuit.
  • a neural network is a network formed by connecting artificial neurons (hereinafter, also simply referred to as "neurons") via synapses.
  • Artificial intelligence has a mechanism to build a learning model that estimates the optimum solution (output) for a problem (input) while changing the connection weighting coefficient between neurons by repeating learning using learning data. ing.
  • the trained neural network is represented as a learning model with the optimum coupling weighting factor between neurons. Further, it is assumed that the artificial intelligence server is equipped with a neural network that performs deep learning (DL). When deep learning is performed, the number of learning data and the number of synapses are large. Therefore, it seems appropriate to perform deep learning using huge computer resources such as the cloud.
  • the "artificial intelligence server” referred to in the present specification is not limited to a single server device, and may be in the form of a cloud that provides a cloud computing service, for example.
  • FIG. 2 shows a configuration example of the TV receiver 100.
  • the illustrated television receiving device 100 includes an acquisition unit that acquires information from the outside.
  • the acquisition unit referred to here is equipped with a tuner that selects and receives broadcast signals, an HDMI (registered trademark) (High-Definition Multimedia Interface) interface that inputs playback signals from a media playback device, and a network interface (NIC) that connects to a network. doing.
  • HDMI registered trademark
  • NIC network interface
  • the acquisition unit has a function of acquiring the content provided to the television receiving device 100.
  • content is provided to the television receiver 100, it is distributed from a broadcast signal such as terrestrial broadcasting or satellite broadcasting, a reproduction signal reproduced from a recording medium such as a hard disk drive (HDD) or Blu-ray, a streaming server on the cloud, or the like. It is supposed to be streaming content.
  • a broadcast-type video distribution service using a network IPTV, OTT, and the like can be mentioned.
  • these contents are supplied to the content reproduction system 100 as a multiplexed bit stream in which the bit stream of each media data such as video, audio, and auxiliary data (subtitles, text, graphics, program information, etc.) is multiplexed. ..
  • the multiplexed bitstream assumes that the data of each medium such as video and audio is multiplexed according to the MPEG2 System standard, for example. Further, in the present embodiment, it is assumed that the acquisition unit acquires the learning result (such as the connection weighting coefficient between neurons in the neural network) by deep learning on the cloud from the outside.
  • the learning result such as the connection weighting coefficient between neurons in the neural network
  • the television receiving device 100 includes a non-multiplexer (demultiplexer) 101, a video decoding unit 102, an audio decoding unit 103, an auxiliary (Auxiliary) data decoding unit 104, a video signal processing unit 105, and an audio signal processing unit. It includes 106, an image display unit 107, and an audio output unit 108.
  • the television receiving device 100 is a terminal device such as a set-top box, processes the received multiplexed bit stream, and displays the processed video on the television receiving device including the image display unit 107 and the audio output unit 108. And may be configured to output an audio signal.
  • the non-multiplexing unit 101 demultiplexes the multiplexed bit stream received from the outside as a broadcast signal, a reproduction signal, or streaming data into a video bit stream, an audio bit stream, and an auxiliary bit stream, and the non-multiplexing unit 101 in the subsequent stage video decoding unit. It is distributed to each of 102, the audio decoding unit 103, and the auxiliary data decoding unit 104.
  • the video decoding unit 102 decodes, for example, an MPEG-encoded video bit stream and outputs a baseband video signal.
  • the video signal output from the video decoding unit 102 may be a low-resolution or standard-resolution video, or a low dynamic range (LDR) or standard dynamic range (SDR) video.
  • LDR low dynamic range
  • SDR standard dynamic range
  • the audio decoding unit 103 decodes an audio bit stream encoded by a coding method such as MP3 (MPEG Audio Layer3) or HE-AAC (High Efficiency MPEG4 Advanced Audio Coding) to obtain a baseband audio signal. Output. It is assumed that the audio signal output from the audio decoding unit 103 is a low-resolution or standard-resolution audio signal in which a part of the band such as the treble range is removed or compressed.
  • MP3 MPEG Audio Layer3
  • HE-AAC High Efficiency MPEG4 Advanced Audio Coding
  • the auxiliary data decoding unit 104 decodes the encoded auxiliary bit stream and outputs subtitles, text, graphics, program information, and the like.
  • the television receiving device 100 includes a signal processing unit 150 that performs signal processing of reproduced content and the like.
  • the signal processing unit 150 includes a video signal processing unit 105 and an audio signal processing unit 106.
  • the video signal processing unit 105 performs video signal processing on the video signal output from the video decoding unit 102 and the subtitles, text, graphics, program information, etc. output from the auxiliary data decoding unit 104.
  • the video signal processing referred to here may include high image quality processing such as noise reduction, resolution conversion processing such as super-resolution, dynamic range conversion processing, and gamma processing.
  • the video signal processing unit 105 is a low resolution or standard resolution video.
  • Super-resolution processing that generates a high-resolution video signal from the signal and high-quality processing such as high dynamic range are performed.
  • the video signal processing unit 105 may perform video signal processing after synthesizing the video signal of the main part output from the video decoding unit 102 and auxiliary data such as subtitles output from the auxiliary data decoding unit 104.
  • the video signal of the main part and the auxiliary data may be individually processed to improve the image quality, and then the compositing process may be performed.
  • the video signal processing unit 105 performs video signal processing such as super-resolution processing and high dynamic range within the range of the screen resolution or the luminance dynamic range allowed by the image display unit 107 to which the video signal is output. Shall be carried out.
  • the video signal processing unit 105 performs video signal processing such as noise reduction, super-resolution processing, dynamic range conversion processing, and gamma processing by artificial intelligence using a learning model represented by a neural network. It is assumed that. It is expected that optimal video signal processing will be realized by pre-learning the learning model by deep learning.
  • the audio signal processing unit 106 performs audio signal processing on the audio signal output from the audio decoding unit 103.
  • the audio signal output from the audio decoding unit 103 is a low-resolution or standard-resolution audio signal in which a part of a band such as a high frequency range is removed or compressed.
  • the audio signal processing unit 106 may perform high-quality sound processing such as band-extending a low-resolution or standard-resolution audio signal to a high-resolution audio signal including a removed or compressed band.
  • the audio signal processing unit 106 may perform sound image localization processing using a plurality of speakers in addition to improving the sound quality such as band expansion.
  • the audio signal processing unit 106 performs processing of audio signals such as band expansion and sound image localization by artificial intelligence using a learning model represented by a neural network. It is expected that optimum audio signal processing will be realized by pre-learning the learning model by deep learning.
  • the signal processing unit 150 having a single neural network that performs both video signal processing and audio signal processing may be configured.
  • the image display unit 107 presents to the user (such as a viewer of the content) a screen displaying a video that has undergone video signal processing such as high image quality by the video signal processing unit 105.
  • the image display unit 107 is, for example, a liquid crystal display, an organic EL (Electro-Luminence) display, or a self-luminous display using a fine LED (Light Emitting Diode) element for pixels (see, for example, Patent Document 4). It is a display device consisting of.
  • the image display unit 107 may be a display device to which the partial drive technology for dividing the screen into a plurality of areas and controlling the brightness for each area is applied.
  • the backlight corresponding to the region with a high signal level is lit brightly, while the backlight corresponding to the region with a low signal level is lit darkly to improve the luminance contrast. be able to.
  • the push-up technology that distributes the power suppressed in the dark area to the region with high signal level and emits light intensively is further utilized (the output power of the entire backlight is constant).
  • a high dynamic range can be realized by increasing the brightness when the white display is partially performed (see, for example, Patent Document 5).
  • the audio output unit 108 outputs audio that has undergone audio signal processing such as high sound quality by the audio signal processing unit 106.
  • the audio output unit 108 is composed of an audio generating element such as a speaker.
  • the audio output unit 108 may be a speaker array (multi-channel speaker or ultra-multi-channel speaker) in which a plurality of speakers are combined, or even if some or all of the speakers are externally connected to the television receiver. Good.
  • the audio output unit 108 includes a plurality of speakers
  • sound image localization can be performed by reproducing an audio signal using a plurality of output channels.
  • the external speaker may be installed in front of the TV such as a sound bar, or may be wirelessly connected to the TV such as a wireless speaker. Further, it may be a speaker connected to other audio products via an amplifier or the like.
  • the external speaker may be a smart speaker equipped with a speaker and capable of inputting audio, a wireless headphone / headset, a tablet, a smartphone, or a PC (Personal Computer), or a refrigerator, a washing machine, an air conditioner, a vacuum cleaner, or a lighting appliance. It may be a so-called smart home appliance such as, or an IoT (Internet of Things) home appliance device.
  • a flat panel type speaker (see, for example, Patent Document 6) can be used for the audio output unit 108.
  • a speaker array in which different types of speakers are combined can also be used as the audio output unit 108.
  • the speaker array may include one that outputs audio by vibrating the image display unit 107 by one or more vibrators (actuators) that generate vibration.
  • the exciter (actuator) may be in a form that is retrofitted to the image display unit 107.
  • FIG. 3 shows an example of applying the panel speaker technology to the display.
  • the display 300 is supported by a stand 302 on the back.
  • a speaker unit 301 is attached to the back surface of the display 300.
  • the exciter 301-1 is arranged at the left end of the speaker unit 301, and the exciter 301-2 is arranged at the right end, forming a speaker array.
  • the exciters 301-1 and 301-2 can vibrate the display 300 based on the left and right audio signals to output sound.
  • the stand 202 may include a subwoofer that outputs low-pitched sound.
  • the display 300 corresponds to an image display unit 107 using an organic EL element.
  • the configuration of the television receiving device 100 will be continuously described with reference to FIG. 2 again.
  • the sensor unit 109 includes both a sensor installed inside the main body of the television receiving device 100 and a sensor externally connected to the television receiving device 100.
  • the externally connected sensors also include sensors built into other CE (Consumer Electronics) devices and IoT devices that exist in the same space as the television receiver 100.
  • CE Consumer Electronics
  • IoT IoT devices that exist in the same space as the television receiver 100.
  • the sensor information obtained from the sensor unit 109 becomes the input information of the neural network used by the video signal processing unit 105 and the audio signal processing unit 106.
  • the details of the neural network will be described later.
  • FIG. 4 schematically shows a configuration example of a sensor unit 109 mounted on the television receiving device 100.
  • the sensor unit 109 includes a camera unit 410, a user status sensor unit 420, an environment sensor unit 430, a device status sensor unit 440, and a user profile sensor unit 450.
  • the sensor unit 109 is used to acquire various information regarding the viewing status of the user.
  • the camera unit 410 includes a camera 411 that shoots a user who is viewing the video content displayed on the image display unit 107, a camera 412 that shoots the video content displayed on the image display unit 107, and a television receiving device 100. Includes a camera 413 that captures the interior (or installation environment) of the room.
  • the camera 411 is installed near the center of the upper end edge of the screen of the image display unit 107, for example, and preferably captures a user who is viewing video content.
  • the camera 412 is installed facing the screen of the display unit 219, for example, and captures the video content being viewed by the user. Alternatively, the user may wear goggles equipped with the camera 412. Further, it is assumed that the camera 412 has a function of recording (recording) the sound of the video content as well.
  • the camera 413 is composed of, for example, an all-sky camera or a wide-angle camera, and photographs a room (or an installation environment) in which the television receiving device 100 is installed.
  • the camera 413 may be, for example, a camera mounted on a camera table (head) that can be rotationally driven around each axis of roll, pitch, and yaw.
  • the camera 410 is unnecessary when sufficient environmental data can be acquired by the environmental sensor 430 or when the environmental data itself is unnecessary.
  • the user status sensor unit 420 includes one or more sensors that acquire status information related to the user status.
  • state information the user state sensor unit 420 includes, for example, the user's work state (whether or not video content is viewed), the user's action state (moving state such as stationary, walking, running, etc., eyelid opening / closing state, line-of-sight direction, etc. It is intended to acquire the size of the pupil), the mental state (impression level such as whether the user is absorbed or concentrated in the video content, excitement level, alertness level, emotions and emotions, etc.), and the physiological state.
  • the user status sensor unit 420 includes various sensors such as a sweating sensor, a myoelectric potential sensor, an electrooculogram sensor, a brain wave sensor, an exhalation sensor, a gas sensor, an ion concentration sensor, and an IMU (Internal Measurement Unit) that measures the user's behavior, and the user. It may be provided with an audio sensor (such as a microphone) that picks up the utterance of.
  • the microphone does not necessarily have to be integrated with the television receiving device 100, and may be a microphone mounted on a product such as a sound bar that is installed in front of the television. Further, an external microphone-mounted device connected by wire or wirelessly may be used.
  • External microphone-equipped devices include so-called smart speakers equipped with a microphone and capable of audio input, wireless headphones / headsets, tablets, smartphones, or PCs, or refrigerators, washing machines, air conditioners, vacuum cleaners, or lighting equipment. It may be a smart home appliance or an IoT home appliance.
  • the environment sensor unit 430 includes various sensors that measure information about the environment such as the room where the TV receiver 100 is installed. For example, temperature sensors, humidity sensors, light sensors, illuminance sensors, airflow sensors, odor sensors, electromagnetic wave sensors, geomagnetic sensors, GPS (Global Positioning System) sensors, audio sensors that collect ambient sounds (microphones, etc.) are environmental sensors. It is included in part 430. Further, the environment sensor unit 430 may acquire information such as the size of the room in which the television receiving device 100 is placed, the position of the user, and the brightness of the room.
  • the device status sensor unit 440 includes one or more sensors that acquire the status inside the television receiving device 100.
  • circuit components such as the video decoder 208 and the audio decoder 209 have a function of externally outputting the state of the input signal and the processing state of the input signal, so as to play a role as a sensor for detecting the state inside the device. You may.
  • the device status sensor unit 440 may detect the operation performed by the user on the television receiving device 100 or other device, or may save the user's past operation history. Further, the device status sensor unit 440 may acquire information on the performance and specifications of the device.
  • the device status sensor unit 440 may be a memory such as a built-in ROM (Read Only Memory) that records information on the performance and specifications of the device, or a reader that reads information from such a memory.
  • the user profile sensor unit 450 detects profile information about a user who views video content on the television receiving device 100.
  • the user profile sensor unit 450 does not necessarily have to be composed of sensor elements.
  • the user profile such as the age and gender of the user may be detected based on the face image of the user taken by the camera 411 or the utterance of the user picked up by the audio sensor.
  • the user profile acquired on the multifunctional information terminal carried by the user such as a smartphone may be acquired by the cooperation between the television receiving device 100 and the smartphone.
  • the user profile sensor unit 450 does not need to detect even sensitive information so as to affect the privacy and confidentiality of the user. Further, it is not necessary to detect the profile of the same user each time the video content is viewed, and a memory such as EEPROM (Electrically Erasable and Program ROM) that stores the user profile information once acquired may be used.
  • EEPROM Electrical Erasable and Program ROM
  • a multifunctional information terminal carried by a user such as a smartphone may be utilized as a user status sensor unit 420, an environment sensor unit 430, or a user profile sensor unit 450 by linking the television receiving device 100 and the smartphone.
  • the data managed by the application may be added to the user's state data and environment data.
  • a sensor built in another CE device or IoT device existing in the same space as the television receiving device 100 may be utilized as the user status sensor unit 420 or the environment sensor unit 430.
  • the sound of the intercom may be detected or the visitor may be detected by communicating with the intercom system.
  • a luminance meter or a spectrum analysis unit that acquires and analyzes video or audio output from the television receiving device 100 may be provided as a sensor.
  • FIG. 5 illustrates the flow from the content production side producing the content to the user viewing the content on the television receiving device 100 in the system as shown in FIG. Is shown.
  • the right side is the content production side
  • the left side is the content viewing side.
  • Creator 501 excels in video and audio editing and production technology. Creator 501 creates content using a professional monitor 503 with high resolution and high dynamic range and a high-performance authoring system 504 under a well-equipped production environment 502 with sound insulation and appropriate interior lighting. Perform editing.
  • the content produced or edited by the creator 501 is subjected to the coding process 505 by a predetermined coding method such as MPEG, and then via a transmission medium such as broadcasting or the Internet, or a recording medium such as Blu-ray. Delivered to the content viewer.
  • a predetermined coding method such as MPEG
  • a transmission medium such as broadcasting or the Internet
  • a recording medium such as Blu-ray
  • the television receiving device 100 and other content reproducing devices receive the encoded data via the transmission medium or the recording medium.
  • the television receiving device 100 is installed, for example, in the living room 512 of the user's home.
  • the received coded data is subjected to decoding processing 515 according to a predetermined coding method such as MPEG, separated into a video stream and an audio stream, and further subjected to signal processing. , Video screen display and audio output.
  • the user 511 watches the video and audio of the television receiving device 100.
  • the signal processing for the video signal in the television receiver 100 includes at least one of noise reduction, super-resolution processing, dynamic range conversion processing, and gamma processing that match the performance of the image display unit 107. .. Further, the signal processing for the audio signal in the television receiving device 100 includes at least one of band expansion processing and sound image localization processing suitable for the performance of the audio output unit 108. Further, signal processing for each of the video signal and the audio signal is performed by the video signal processing unit 105 and the audio signal processing unit 106, respectively.
  • the following are possible causes of a gap between the recognition of the creator 501 for the produced content and the recognition of the user 511 for the viewed content.
  • Creator 501 creates and edits content using a professional monitor 503 with high resolution and high dynamic range and a high-performance authoring system 504.
  • the user 511 views the content with the commercially available television receiving device 100. Due to hardware inconsistencies such as performance differences and characteristic differences between the professional monitor 503 and the television receiver 100, even if the same video signal and audio signal are input, the output video and audio will differ.
  • the display device is a liquid crystal
  • the image is different due to the difference in the viewing angle characteristic, the response characteristic, and the temperature characteristic.
  • the display device is an LED, the image is different due to the difference in the response characteristic and the temperature characteristic for each color.
  • the performance information and characteristic information related to the video system may be, for example, information determined based on the screen size, maximum brightness, resolution, display emission format, and backlight type.
  • the performance information and characteristic information related to the audio system may be, for example, information determined based on the maximum output of the speaker, the number of supported channels, the material of the speaker, and the audio output method. This type of performance information and characteristic information can be obtained from the specification information of individual products. Further, the performance difference and the characteristic difference between the commercial monitor 503 and the television receiving device 100 may be the result of analyzing the video signal and the audio signal output from each using a luminance meter and a spectrum analysis device.
  • Environmental causes (environmental inconsistency (2)) Creator 501 creates and edits content under a well-equipped production environment 502 with sound insulation and appropriate interior lighting.
  • the user 511 views the content on the television receiving device 100 installed in the living room 512 or the like of the user's house.
  • the intensity, irradiation angle, and color of indoor lighting and natural light are different between the production environment 502 and the living room 512.
  • the intensity, reflection angle, and color of the reflected light on the screen are different between the commercial monitor 503 installed in the production environment 502 and the television receiving device 100.
  • Such an environmental discrepancy creates a gap between the creator 501's perception of the produced content and the user 511's perception of the viewed content.
  • the production was made due to the discrepancy between the number of viewers existing in each viewing environment of the production environment 502 and the living room 512, and the position and orientation of each viewer (in other words, the distance to the screen and the angle of the line of sight with respect to the screen).
  • the recognition of the creator 501 for the content and the recognition of the user 511 for the viewed content.
  • the emotional level is raised by empathizing with the same scene with the family member.
  • the emotional level does not change from scene to scene.
  • the user 511 when the user 511 is viewing the content together with a plurality of people such as a family member, the user 511 is not necessarily viewing the image from the front of the screen of the television receiving device 100, and the user 511 is viewing the image from an oblique direction. It is also expected to be viewed.
  • the change in the emotional level is suppressed as compared with the case where the user views the image from the front.
  • the gaze level of the content is significantly reduced, so that the change in the emotional level for each scene is suppressed.
  • the recognition of the creator 501 for the produced content is the number of viewers. It is not affected by viewing, although it is in a position and posture. Therefore, inconsistencies in the viewing environment such as the number of viewers, the position and orientation, and viewing while viewing cause a gap between the recognition of the creator 501 for the produced content and the recognition of the user 511 for the viewed content.
  • Physiological causes (physiological inconsistency) Differences in physiological characteristics such as visual acuity, dynamic visual acuity, contrast sensitivity, and flicker sensitivity between creator 501 and user 511 also cause between the recognition of creator 501 for the produced content and the recognition of user 511 for the viewed content. It causes a gap.
  • differences in health and mental state between creator 501 and user 511 also cause a gap between the perception of creator 501 for the created content and the perception of user 511 for the viewed content.
  • Creator 501 basically creates or edits content as a profile in good health with a certain degree of tension or concentration.
  • the user 511 is expected to view the content at home in various health and mental states. Therefore, a disagreement between the creator 501 and the user 511 is likely to occur in the health state and the mental state, and a recognition gap for the same content may occur based on the disagreement.
  • At least one of the video signal processing unit 105 and the audio signal processing unit 106 after decoding the received stream may perform signal processing so as to shorten the recognition distance.
  • the information of the reference white selected by the creator is transmitted from the source device to the sink device using the MPEG transmission container, and the sink device side is dynamic so as to reflect the creator's intention based on the reference white.
  • An image display system that performs range conversion has been proposed (see Patent Document 3).
  • the causes of the recognition distance are diverse, such as signal mismatch, environmental mismatch, and physiological mismatch, it is difficult to sufficiently shorten the recognition distance only by signal processing such as dynamic range conversion based on the brightness level of the reference white. Be pondered.
  • the video signal processing unit 105 the video signal processing for shortening the recognition distance between the creator and the user is performed by using an image creation neural network having a pre-learned learning model such as deep learning. carry out.
  • a signal mismatch is when the playback signal of video, audio, etc. is expressed by a vector consisting of a plurality of components, and the playback signal when the content is created on the creator side and the content when the TV receiver 100 outputs the content.
  • the vector distance of the reproduced signal (also referred to as "signal distance") is not 0.
  • the correlation between the original video signal (or the video signal after decoding) and each discrepancy factor between the content creator and the user and the video signal processing for allowing the user to have the same recognition as the creator. Pre-learn the image creation neural network by deep learning or the like. Then, the video signal processing unit 105 uses this image creation neural network to perform video signal processing such as noise reduction, super-resolution processing, dynamic range conversion processing, and gamma processing. As a result, an image that the user can have the same recognition as the creator can be displayed on the image display unit 107.
  • audio signal processing for shortening the recognition distance between the creator and the user is performed by using a sound-making neural network having a pre-learned learning model such as deep learning. carry out.
  • a sound-making neural network having a pre-learned learning model such as deep learning.
  • the correlation between the original audio signal (or the audio signal after decoding) and each discrepancy factor between the content creator and the user and the audio signal processing for allowing the user to have the same recognition as the creator. Pre-learn the sound-making neural network by deep learning or the like.
  • the audio signal processing unit 106 uses this sound-making neural network to perform band expansion, sound image localization, and other audio signal processing.
  • the audio output unit 108 can output the sound that the user can have the same recognition as the creator.
  • a neural network that creates images and sounds in the signal processing unit 150 at the same time in order to eliminate signal mismatches, environmental mismatches, and physiological mismatches and minimize the recognition distance between the user and the creator. It can also be configured to learn video signal processing and audio signal processing.
  • the learning (pre-learning) of the image creation and sound creation neural network can be performed on the television receiving device 100, but it is more preferable to perform the learning (pre-learning) on the cloud using a huge amount of teacher data as described later.
  • the neural network will be able to automatically estimate the solution rule for the problem while changing the connection weighting coefficient between neurons by repeating learning.
  • the trained neural network is represented as a learning model with the optimum coupling weighting factor between neurons.
  • FIG. 6 schematically shows a configuration example of an artificial intelligence system 600 for learning and operating a neural network for shortening the recognition distance between a creator and a user.
  • the illustrated artificial intelligence system 600 is assumed to be configured using a cloud.
  • the artificial intelligence system 600 using the cloud includes a local environment 610 and a cloud 620.
  • the local environment 610 corresponds to the operating environment (home) in which the television receiving device 100 is installed, or the television receiving device 100 installed in the home. Although only one local environment 610 is drawn in FIG. 6 for simplification, it is assumed that a huge number of local environments are actually connected to one cloud 620. Further, in the present embodiment, the operating environment such as in a home where the television receiving device 100 operates is mainly illustrated as the local environment 610, but the local environment 610 provides a display for displaying contents such as a smartphone, a tablet, and a personal computer. It may be an environment in which any equipped device operates (including public facilities such as stations, bus stops, airports, shopping centers, and labor facilities such as factories and workplaces).
  • an image creation neural network having a pre-learned learning model such as deep learning is used to perform images such as noise reduction, super-resolution processing, dynamic range conversion processing, and gamma processing.
  • An audio signal processing unit 105 that performs processing of audio signals such as band expansion and sound image localization by using a video signal processing unit 105 that performs signal processing and a sound creation neural network that has a pre-learned learning model such as deep learning. It is installed.
  • the video signal processing unit 105 using the image creation neural network and the audio signal processing unit 106 using the sound creation neural network are put together to perform one signal processing used in the signal processing unit 150. It will be generically referred to as neural network 611.
  • the cloud 620 is equipped with an artificial intelligence server (described above) (consisting of one or more server devices) that provides artificial intelligence.
  • the artificial intelligence server includes a signal processing neural network 621, a user sensitivity neural network 622 that learns the user's sensitivity, a creator sensitivity neural network 623 that learns the creator's sensitivity, an expert teacher database 624, and a feedback database 625. Has been done.
  • the expert teacher database 624 accumulates a huge amount of sample data regarding video signals, audio signals, user-side information, and creator-side information.
  • the user-side information referred to here includes the user's state and profile, physiological information, information on the environment in which the television receiving device 100 used by the user is installed, characteristic information such as hardware of the television receiving device 100 used by the user, and information on characteristics such as hardware of the television receiving device 100 used by the user.
  • the television receiving device 100 includes signal information related to signal processing such as decoding applied to the received signals of video and audio.
  • the user profile may include past environmental information such as the user's SNS posting and browsing history (images uploaded to the SNS and images viewed).
  • the creator-side information is the creator-side information corresponding to the above-mentioned user-side information, and includes the creator's status and profile, characteristic information such as hardware related to the professional monitor and authoring system used by the creator, and the creator. It shall include signal information related to signal processing such as coding applied when uploading the produced video signal and audio signal to a transmission medium or a recording medium. It is assumed that the creator side information can be acquired by equipping the content production environment with a sensor function equivalent to that of the sensor unit 109.
  • the signal processing neural network 621 has the same configuration as the signal processing neural network 611 arranged in the local environment 610, includes an image-making neural network and a sound-making neural network, or combines an image-making neural network and a sound-making neural network. It is one neural network.
  • the signal processing neural network 621 is arranged in the cloud 620 for the purpose of learning (including continuous learning).
  • the signal processing neural network 611 of the local environment 610 is configured based on the learning result by the signal processing neural network 621, and the signal processing unit 150 (or the video signal processing unit 105) in the television receiving device 100 for the purpose of operation. And each of the audio signal processing units 106).
  • the signal processing neural network 621 on the cloud 620 side uses the expert teacher database 624 installed in the cloud 620 to obtain the original video signal (or the video signal after decoding), the original audio signal (or the audio signal after decoding). ), The correlation between the user side information and the creator side information and the video signal processing and the audio signal processing for enabling the user to have the same recognition as the creator for the content is learned.
  • the user-side information may include past environmental information such as the user's SNS posting and browsing history (images uploaded to the SNS and images viewed). Then, the signal processing neural network 621 inputs the video signal, the audio signal, the user side information, and the creator side information, and enables the user to have the same recognition as the creator for the content.
  • the audio signal processing is estimated, and the video signal and the audio signal to which the estimated video signal processing and the audio signal processing are applied to the input video signal and the audio signal are output.
  • the user-sensitive neural network 622 and the creator-sensitive neural network 623 are neural networks used for evaluating the learning status of the signal processing neural network 621.
  • the user sensitivity neural network 622 is a neural network that learns the user's sensitivity, and learns the correlation between the video signal, the audio signal, the user side information, and the user's perception of the video and audio output.
  • the user-sensitive neural network 622 outputs from the signal processing neural network 621 (a video signal and an audio signal that have been signal-processed so that the user and the creator have the same recognition of the content. ) And the user side information is input, and the user's recognition of the input video signal and audio signal is estimated and output.
  • the creator sensitivity neural network 623 is a neural network that learns the sensitivity of the creator, and learns the correlation between the video signal, the audio signal, the creator side information, and the creator's recognition of the video and audio output.
  • the creator-sensitive neural network 623 takes the original video signal and the original audio signal (input to the signal processing neural network 621) and the creator side information as inputs, and inputs the video signal and the input video signal. Estimates and outputs the creator's recognition of the audio signal.
  • a loss function based on the difference between the user recognition estimated by the user sensitivity neural network 622 and the creator recognition estimated by the creator sensitivity neural network 623 is defined. Then, the signal processing neural network 621 is trained by backpropagation (backpropagation method) so that the loss function is minimized.
  • the signal processing neural network 611 receives the video signal and audio signal being received or reproduced by the television receiving device 100, the user side information, and the creator side information as inputs, and signals processing on the cloud 620 side. Based on the learning result of the neural network 621, the video signal processing and the audio signal processing so that the user can have the same recognition as the creator are estimated, and the estimation is performed for the input video signal and the audio signal, respectively. The video signal and audio signal that have undergone video signal processing and audio signal processing are output. It is difficult for the television receiving device 100 to acquire the creator side information in real time. Therefore, the default set creator side information or general creator side information may be set as a fixed input value to the signal processing neural network 611.
  • the creator side information may be acquired as metadata associated with the content reproduced by the television receiving device 100.
  • the creator side information may be distributed together with the content by a broadcast signal or a video signal of online distribution, or may be recorded and distributed together with the content on a recording medium. Further, at the time of broadcasting or online distribution, the content and the creator side information may be distributed in a common stream or may be distributed in different streams.
  • the video signal and the audio signal output from the signal processing neural network 611 are displayed and output by the image display unit 107 and the audio output unit 108, respectively.
  • the input to the signal processing neural network 611 is also simply referred to as an “input value”
  • the output from the signal processing neural network 611 is also simply referred to as an “output value”.
  • a user of the local environment 610 evaluates the output value of the signal processing neural network 611 and evaluates the television via, for example, a remote controller of the television receiving device 100, a voice agent, a linked smartphone, or the like.
  • the recognition of the video and audio output from the receiving device 100 is fed back.
  • Feedback may be generated based on an operation in which the user sets setting information such as, for example, image quality setting.
  • the input value, the output value, and the feedback from the user (user FB) in the local environment 610 are transferred to the cloud 620 and stored in the expert teacher database 624 and the feedback database 625, respectively.
  • the cloud 620 learning of the user-sensitive neural network 622 and creator-sensitive neural network 623 for evaluation as the first step and learning of the signal processing neural network 621 as the second step are alternately performed.
  • the signal processing neural network 621 is fixed (learning is stopped), and learning of the user-sensitive neural network 622 and the creator-sensitive neural network 623 is performed.
  • the second step the user-sensitive neural network 622 and the creator-sensitive neural network 623 are fixed (learning is stopped), and the signal processing neural network 621 is trained.
  • the user sensitivity neural network 622 is a neural network that learns the user's sensitivity.
  • the user-sensitive neural network 622 inputs the video signal and audio signal output from the signal processing neural network 621 and the same user-side information as the input to the signal processing neural network 621, and performs signal processing. Estimates and outputs the user's perception of the generated video signal and audio signal. Then, a loss based on the difference between the user's recognition estimated by the user-sensitive neural network 622 for the video signal and audio signal output from the signal processing neural network 621 and the recognition of the actual user read from the feedback database 625. A function is defined and the user-sensitive neural network 622 is trained by backpropagation (backpropagation method) so that the loss function is minimized.
  • the user-sensitive neural network 622 estimates the video signal and the audio signal that have been signal-processed so that the recognition is matched between the user and the creator by the signal-processing neural network 621.
  • the user's perception is learned so that it approaches the perception of the actual user.
  • the creator sensitivity neural network 623 is a neural network that learns the sensitivity of the creator.
  • the creator-sensitive neural network 623 inputs the same original video signal, the original audio signal, and the creator side information as the input to the signal processing neural network 621 to recognize the creator for the original video signal and the original audio signal. Estimate and output.
  • a loss function is defined based on the difference between the recognition of the creator estimated by the creator-sensitive neural network 623 for the original video signal and the original audio signal and the recognition of the actual creator read from the feedback database 625, and the loss is lost.
  • the creator-sensitive neural network 623 is trained by backpropagation (backpropagation method) so that the function is minimized.
  • the recognition of the creator estimated by the creator-sensitive neural network 623 with respect to the original video signal and the original audio signal becomes the recognition that the actual creator has. You will be learned to get closer.
  • both the user-sensitive neural network 622 and the creator-sensitive neural network 623 are fixed, and this time, learning of the signal processing neural network 621 is performed.
  • the feedback data is taken out from the feedback database 625 (described above)
  • the input value included in the feedback data is input to the signal processing neural network 621.
  • the signal processing neural network 621 estimates video signal processing and audio signal processing so that the user can have the same recognition as the creator for the input value, and corresponds to the input video signal and audio signal, respectively.
  • the video signal and audio signal that have undergone the estimated video signal processing and audio signal processing are output.
  • the user sensitivity neural network 622 inputs the video signal and the audio signal output from the signal processing neural network 621 and the user side information, and estimates and outputs the user's recognition of the input video signal and the audio signal. .. Further, the creator sensitivity neural network 623 estimates the recognition of the creator by inputting the input values (the same original video signal and original audio signal as the input to the signal processing neural network 621) read from the feedback database 625. Output.
  • a loss function based on the difference between the user recognition estimated by the user sensitivity neural network 622 and the creator recognition estimated by the creator sensitivity neural network 623 is defined. Then, the signal processing neural network 621 is trained by backpropagation (backpropagation method) so that the loss function is minimized.
  • the expert teacher database 624 may be used for the teacher data. Further, learning may be performed using two or more teacher data such as the feedback database 625 and the expert teacher database 624. In this case, the loss function calculated for each teacher data may be weighted and added to learn the signal processing neural network 621 so as to be the minimum.
  • the signal processing neural network 621 By alternately performing the learning of the user-sensitive neural network 622 and the creator-sensitive neural network 623 as the first step as described above and the learning of the signal processing neural network 621 as the second step, the signal processing neural network 621 The probability that the output video signal and audio signal will bring the recognition between the user and the creator closer will improve. Then, a learning model consisting of a set of optimum connection weight coefficients between neurons in the signal processing neural network 621 whose accuracy has been improved by learning is downloaded to the television receiving device 100 of the local environment 610, and the neurons of the signal processing neural network 611 are downloaded. By setting the coupling weighting coefficient, the user (or the television receiving device 100 used by the user) can also use the signal processing neural network 611 with further advanced learning. As a result, there is an increasing chance that the user's recognition of the video and audio output by the television receiving device 100 matches the recognition of the creator at the time of content production.
  • the method of providing the learning model with improved accuracy by learning on the cloud 620 side to the local environment 610 is arbitrary.
  • the bitstream of the learning model of the signal processing neural network 621 may be compressed and downloaded from the cloud 620 to the television receiver 100 in the local environment 610. If the size of the bitstream is large even after compression, the training model may be divided into a plurality of times to download the compressed bitstream.
  • the learning model is a set of connection weight coefficients between neurons in a neural network, and when the neural network is divided and downloaded, it may be divided for each layer of the neural network or for each region within the layer.
  • the signal match 551, the environmental and physiological match 552, between the user and the creator, And signal matching 553 can be achieved to reduce the recognition distance between the user and the creator.
  • the input of the signal processing neural network (NN) 611 and the output of the user-sensitive neural network 622 and the creator-sensitive neural network 623 are summarized in Table 1 below. The same applies to the signal processing neural network 621.
  • the sensor information by the sensor unit 109 provided in the television receiving device 100 can be used, but of course, even if the information from another device is used. Good.
  • Physiological information such as user's visual acuity / dynamic visual acuity, contrast sensitivity, and flicker sensitivity, and user's hobbies and tastes change over time. Therefore, it is desirable to relearn the signal processing neural network 621 for the inputs related to these at a predetermined frequency over a long period of time.
  • the playback device such as the television receiver 100 used by the user deteriorates over time, and the playback environment at the edge and the connection status with the fog or the cloud gradually change. Therefore, it is desirable to relearn the signal processing neural network 621 for the input related to the playback device and the playback environment in the medium term.
  • the communication environment of the television receiving device 100 can be classified into several patterns according to the type of communication media used (or the band of the media).
  • the viewing environment includes ambient lighting / natural light (intensity / angle / color), reflection on the screen (intensity / angle / color), whether or not glasses are worn (optical characteristics of the lens if worn), and the use of a smartphone. It is possible to classify these combinations into several patterns, including situations (whether or not they are viewed). Therefore, a predetermined number of combination patterns may be defined in advance for the communication environment and the viewing environment, and a learning model for each pattern may be generated in the middle.
  • the communication environment and viewing environment may fluctuate on the user side in a short period of time, but each time it changes, a learning model that matches the combination pattern of the communication environment and viewing environment at that time, or a similar communication environment and viewing environment A learning model that fits the combination pattern of may be used adaptively.
  • a signal distance is generated between the content produced by the creator and the content viewed by the user due to at least one of signal mismatch, environmental mismatch, and physiological mismatch.
  • the details of the signal mismatch, the environmental mismatch, and the physiological mismatch are as described above with reference to FIG.
  • the signal distance control described in this section aims to minimize the signal distance caused by at least one of signal mismatch, environmental mismatch, and physiological mismatch.
  • FIG. 10 schematically shows a configuration example of an artificial intelligence system 1000 for learning and operating a neural network for shortening a signal distance between a creator and a user.
  • the illustrated artificial intelligence system 1000 is assumed to be configured using a cloud.
  • the artificial intelligence system 1000 using the cloud includes a local environment 1010 and a cloud 1020.
  • the local environment 1010 corresponds to the operating environment (home) in which the television receiving device 100 is installed, or the television receiving device 100 installed in the home. Although only one local environment 1010 is drawn in FIG. 10 for simplification, it is assumed that a huge number of local environments are actually connected to one cloud 1020. Further, in the present embodiment, the operating environment such as in a home where the television receiving device 100 operates is mainly illustrated as the local environment 1010, but the local environment 1010 provides a display for displaying contents such as a smartphone, a tablet, and a personal computer. It may be an environment in which any equipped device operates (including public facilities such as stations, bus stops, airports, shopping centers, and labor facilities such as factories and workplaces).
  • an image creation neural network having a pre-learned learning model such as deep learning is used to perform images such as noise reduction, super-resolution processing, dynamic range conversion processing, and gamma processing.
  • An audio signal processing unit 105 that performs processing of audio signals such as band expansion and sound image localization by using a video signal processing unit 105 that performs signal processing and a sound creation neural network that has a pre-learned learning model such as deep learning. It is installed.
  • the video signal processing unit 105 using the image creation neural network and the audio signal processing unit 106 using the sound creation neural network are put together to perform one signal processing used in the signal processing unit 150. It will be generically referred to as neural network 1011.
  • the cloud 1020 is equipped with an artificial intelligence server (described above) (consisting of one or more server devices) that provides artificial intelligence.
  • the artificial intelligence server is provided with a signal processing neural network 1021, a comparison unit 1022 that compares the output of the signal processing neural network 1021 with teacher data, an expert teacher database 1024, and a feedback database 1025.
  • the expert teacher database 1024 stores a huge amount of sample data related to video signals, audio signals, user side information, and creator side information.
  • the user-side information referred to here includes the user's state, profile, physiological information, information on the environment in which the television receiving device 100 used by the user is installed, characteristic information such as hardware of the television receiving device 100 used by the user, and , It is assumed that the television receiving device 100 includes signal information related to signal processing such as decoding applied to the received signals of video and audio.
  • the user profile may include past environmental information such as the user's SNS posting and browsing history (images uploaded to the SNS and images viewed). It is assumed that almost all the user-side information can be acquired by the sensor unit 109 provided in the television receiving device 100.
  • the creator-side information is the creator-side information corresponding to the above-mentioned user-side information, and includes the creator's status and profile, characteristic information such as hardware related to the professional monitor and authoring system used by the creator, and the creator. It shall include signal information related to signal processing such as coding applied when uploading the produced video signal and audio signal to a transmission medium or a recording medium. It is assumed that the creator side information can be acquired by equipping the content production environment with a sensor function equivalent to that of the sensor unit 109.
  • the signal processing neural network 1021 has the same configuration as the signal processing neural network 1011 arranged in the local environment 1010, includes an image-making neural network and a sound-making neural network, or combines an image-making neural network and a sound-making neural network. It is one neural network.
  • the signal processing neural network 1021 is arranged in the cloud 1020 for the purpose of learning (including continuous learning).
  • the signal processing neural network 1011 in the local environment 1010 is configured based on the learning result by the signal processing neural network 1021, and the signal processing unit 150 (or the video signal processing unit 105) in the television receiving device 100 for the purpose of operation. And each of the audio signal processing units 106).
  • the signal processing neural network 1021 on the cloud 1020 side uses the expert teacher database 1024 installed in the cloud 1020 to obtain the original video signal (or the video signal after decoding), the original audio signal (or the audio signal after decoding). ), Between the user side information and the creator side information, and the signal of the content received and reproduced by the television receiving device 100 is made into a signal close to the original content created by the creator, that is, video signal processing for minimizing the signal distance. Learn the correlation between and audio signal processing.
  • the user-side information may include past environmental information such as the user's SNS posting and browsing history (images uploaded to the SNS and images viewed).
  • the signal processing neural network 1021 inputs the video signal and the audio signal, the user side information, and the creator side information, and estimates the video signal processing and the audio signal processing that minimizes the signal distance between the user and the creator.
  • the video signal and the audio signal to which the estimated video signal processing and the audio signal processing are applied to the input video signal and the audio signal are output.
  • the signal processing neural network 1011 inputs the video signal and audio signal being received or reproduced by the television receiving device 100, the user side information, and the creator side information, and signals processing on the cloud 1020 side. Based on the learning result of the neural network 1021, the video signal processing and the audio signal processing that minimize the signal distance between the user and the creator are estimated, and the estimation is performed for the input video signal and the audio signal, respectively. The video signal and audio signal that have undergone video signal processing and audio signal processing are output. It is difficult for the television receiving device 100 to acquire the creator side information in real time. Therefore, the default set creator side information or general creator side information may be set as a fixed input value to the signal processing neural network 1011.
  • the creator side information may be acquired as metadata associated with the content reproduced by the television receiving device 100.
  • the creator side information may be distributed together with the content by a broadcast signal or a video signal of online distribution, or may be recorded and distributed together with the content on a recording medium. Further, at the time of broadcasting or online distribution, the content and the creator side information may be distributed in a common stream or may be distributed in different streams.
  • the video signal and the audio signal output from the signal processing neural network 1011 are displayed and output by the image display unit 107 and the audio output unit 108, respectively.
  • the input to the signal processing neural network 1011 is also simply referred to as an “input value”
  • the output from the signal processing neural network 1011 is also simply referred to as an “output value”.
  • a user of the local environment 1010 evaluates the output value of the signal processing neural network 1011 and evaluates the television via, for example, a remote controller of the television receiving device 100, a voice agent, a linked smartphone, or the like.
  • the recognition of the video and audio output from the receiving device 100 is fed back.
  • Feedback may be generated based on an operation in which the user sets setting information such as, for example, image quality setting.
  • Input values, output values, and feedback from users (user FB) in the local environment 1010 are transferred to the cloud 1020 and stored in the expert teacher database 1024 and the feedback database 1025, respectively.
  • the comparison unit 1022 compares the video signal and the audio signal output from the signal processing neural network 1021 with the teacher data, that is, the same original video signal and the original audio signal input to the signal processing neural network 1021.
  • a loss function based on the difference between the video signal and audio signal output from the signal processing neural network 1021 and the original video signal and the original audio signal is defined.
  • a loss function may be defined that further considers user feedback. Then, the comparison unit 1022 learns the signal processing neural network 1021 by backpropagation (error back propagation method) so that the loss function is minimized.
  • noise reduction, super-resolution processing, dynamic range conversion processing, high image quality processing such as gamma processing, and high sound quality processing such as band expansion are performed on the content to be reproduced. It is possible to add it.
  • the signal processing neural network 1021 is pre-learned on the cloud 1020 side for the signal processing of video and audio so that the data of the content received by the television receiving device 100 becomes a signal close to the original content created by the creator. Can be made to.
  • signal processing is performed in the television receiving device 100 so as to minimize the signal distance between the content on the user side and the content on the creator side.
  • the sensor unit 109 is used to acquire the environmental information in which the television receiving device 100 is located, and the signal processing neural network 1011 is based on the information, and the audio or video of the content delivered from the television receiving device 100 to the user is recorded.
  • Video and audio signal processing may be performed so that the difference between the signal and the audio or video signal of the content that reaches the creator from the playback device on the creator side is small.
  • information such as the size of the room in which the television receiver 100 is placed, the position of the user, and the brightness of the room is acquired, and based on the corresponding information acquired by the creator, the content is as intended by the creator.
  • Signal processing can be performed so that the audio and video of the above can be viewed.
  • processing may be performed so that the difference between the viewing content on the user side and the viewing content on the creator side becomes small.
  • information such as the height of the user, the presence or absence of glasses, the viewing time zone, and the movement of the user's line of sight is acquired, and signal processing is performed so that the user can view the content intended by the creator. Can be done.
  • the comparison unit 1022 compares the output of the signal processing neural network 1022 with the signal of the content acquired on the creator side, so that the signal between the user and the creator can be dealt with in response to the signal mismatch, the environmental mismatch, and the physiological mismatch. Learn video signal processing and audio signal processing to minimize distance. Then, based on the learning result generated by the signal processing neural network 1022, the television receiving device 100 performs signal processing on the signal processing neural network 1011. Such processing is used in a situation where it is difficult to control the recognition distance, for example, when a plurality of users are using the television receiving device 100. However, when the recognition distance can be controlled, the signal processing neural network 1021 may be trained by further using the user-sensitive neural network and the creator-sensitive neural network as described in the above section E.
  • the perception of the user will change by stimulating the user. For example, in a scene where a creator wants to feel a sense of fear when creating content, by giving an effect of sending cold air or spraying water droplets, the user's sense of fear is aroused and the recognition distance between the user and the creator is further shortened. Contribute to.
  • the production equipment examples include air conditioners, electric fans, heaters, lighting equipment (ceiling lighting, stand lights, table lamps, etc.), atomizers, fragrances, smokers, and the like.
  • autonomous devices such as wearable devices, handy devices, IoT devices, ultrasonic array speakers, and drones can be used as production devices.
  • the wearable device referred to here includes a device such as a bracelet type or a neck-hanging type.
  • the production device may be a device using home appliances already installed in the room where the TV receiver 100 is installed, or a dedicated device for stimulating the user. Further, the effect device may be in the form of an external device externally connected to the television receiving device 100 or a built-in device installed in the housing of the television receiving device 100.
  • the production device equipped as an external device is connected to the television receiving device 100 via, for example, a home network.
  • FIG. 7 shows an installation example of a production device in a room where the television receiving device 100 is located.
  • the user is sitting in a chair facing the screen of the television receiver 100.
  • the air conditioner 701, the fans 702 and 703 installed in the TV receiver 100, the electric fan (not shown), and the heater (not shown) are used as production devices that use the wind. Etc. are arranged.
  • the fans 702 and 703 are arranged in the housing of the television receiving device 100 so as to blow air from the upper end edge and the lower end edge of the large screen of the television receiving device 100, respectively.
  • the air conditioner 701, the fans 702 and 703, and the heater (not shown) can also operate as a directing device using temperature. It is assumed that the perception of the user changes by adjusting the wind speed, air volume, wind pressure, wind direction, fluctuation, air temperature, and the like of the fans 702 and 703.
  • lighting devices such as a ceiling light 704, a stand light 705, and a table lamp (not shown) arranged in a room in which the television receiving device 100 is installed can be used as a directing device using light. .. It is assumed that the perception of the user will change by adjusting the amount of light of the lighting equipment, the amount of light for each wavelength, the direction of light rays, and the like.
  • the sprayer 706 that ejects mist and splash arranged in the room where the television receiving device 100 is installed can be used as a production device that uses water. It is assumed that the perception of the user changes by adjusting the spray amount, the ejection direction, the particle size, the temperature, and the like of the sprayer 706.
  • an fragrance device (diffuser) 707 that efficiently disperses the scent into the space by gas diffusion or the like is arranged as a production device that uses the scent. ing. It is assumed that the perception of the user changes by adjusting the type, concentration, duration, etc. of the scent emitted by the air freshener 707.
  • a smoke generator (not shown) that emits smoke in the air is arranged as a production device that uses smoke.
  • a typical smoker instantly ejects liquefied carbon dioxide into the air to generate white smoke. It is assumed that the perception of the user will change by adjusting the amount of smoke generated by the smoke generator, the concentration of smoke, the ejection time, the color of smoke, and the like.
  • a massage chair may be used as this type of production device.
  • the chair 708 since the chair 708 is in close contact with the seated user, it is possible to give the user electrical stimulation to the extent that there is no health hazard, or to stimulate the user's skin sensation (haptics) or tactile sensation. It is also possible to obtain a directing effect.
  • the installation example of the production equipment shown in FIG. 7 is only an example.
  • autonomous devices such as wearable devices, handy devices, IoT devices, ultrasonic array speakers, and drones can be used as production devices.
  • the wearable device referred to here includes a device such as a bracelet type or a neck-hanging type.
  • FIG. 8 shows a configuration example of the television receiving device 100 that utilizes the effect.
  • the components common to the television receiving device 100 shown in FIG. 2 are given the same reference numbers, and the common components are described below in order to avoid duplicate explanations. To do.
  • the television receiving device 100 shown in FIG. 8 further includes an effect device 110 and an effect control unit 111 that controls the drive of the effect device 110.
  • the production device 110 includes at least one of various production devices that utilize wind, temperature, light, water (mist, splash), scent, smoke, physical exercise, and the like.
  • the effect device 110 is driven based on a control signal output from the effect control unit 111 for each scene of the content (or in synchronization with video or audio). For example, when the effect device 110 is an effect device that uses wind, the wind speed, air volume, wind pressure, wind direction, fluctuation, and air temperature are adjusted based on the control signal output from the effect control unit 111.
  • the effect control unit 111 is a component in the signal processing unit 150, similarly to the video signal processing unit 105 and the audio signal processing unit 106.
  • the effect control unit 111 inputs the video signal and the audio signal, and the sensor information output from the sensor unit 109, so that the effect type effect suitable for each scene of the image and audio can be obtained.
  • the video signal and the audio signal after decoding are configured to be input to the effect control device 111, but the video signal and the audio signal before decoding are input to the effect control device 111. It may be configured as.
  • the effect control unit 111 performs drive control of the effect device 110 by using an effect control neural network having a pre-learned learning model such as deep learning. Specifically, the original video signal (or the video signal after decoding), each discrepancy factor between the content creator and the user, and the effect (or effect) for allowing the user to have the same recognition as the creator. , The correlation with the effect control device 110) is pre-learned by the effect control neural network. Then, the effect control unit 111 drives the effect device 110 by using the effect control neural network to stimulate the five senses of the user. As a result, it is possible to realize an effect that allows the user to have the same recognition as the creator.
  • an effect control neural network having a pre-learned learning model such as deep learning.
  • a neural network that combines image creation, sound creation, and production control in the signal processing unit 150, signal mismatch, environmental mismatch, and physiological mismatch are eliminated to minimize the recognition distance between the user and the creator. It can also be configured to learn video signal processing, audio signal processing, and effect control for conversion.
  • the learning (pre-learning) of the effect control neural network can be performed on the television receiving device 100, but it is more preferable to perform the learning (pre-learning) on the cloud using a huge amount of teacher data as described later.
  • FIG. 9 schematically shows a configuration example of an artificial intelligence system 900 for learning and operating a neural network for shortening the recognition distance between the creator and the user by further utilizing the effect.
  • the illustrated artificial intelligence system 900 is assumed to be configured using the cloud.
  • the artificial intelligence system 900 using the cloud includes a local environment 910 and a cloud 920.
  • the local environment 910 corresponds to the operating environment (home) in which the television receiving device 100 is installed, or the television receiving device 100 installed in the home. Although only one local environment 910 is drawn in FIG. 6 for simplification, it is assumed that a huge number of local environments are actually connected to one cloud 920. Further, in the present embodiment, the operating environment such as in a home where the television receiving device 100 operates is mainly illustrated as the local environment 910, but the local environment 910 provides a display for displaying contents such as a smartphone, a tablet, and a personal computer. It may be an environment in which any equipped device operates (including public facilities such as stations, bus stops, airports, shopping centers, and labor facilities such as factories and workplaces).
  • an image such as noise reduction, super-resolution processing, dynamic range conversion processing, and gamma processing is performed by using an image creation neural network having a pre-learned learning model such as deep learning.
  • An audio signal processing unit 105 that performs signal processing and an audio signal processing unit 106 that processes audio signals such as band expansion and sound image localization by using a sound creation neural network having a pre-learned learning model such as deep learning.
  • an effect control unit 111 that outputs a control signal to the effect device 110 to realize an effect effect by using an effect control neural network having a pre-learned learning model such as deep learning is mounted.
  • the video signal processing unit 105 using the image creation neural network, the audio signal processing unit 106 using the sound creation neural network, and the effect control unit 111 using the effect control neural network are put together. It will be collectively referred to as one signal processing neural network 911 used in the signal processing unit 150.
  • the cloud 920 is equipped with an artificial intelligence server (described above) (consisting of one or more server devices) that provides artificial intelligence.
  • the artificial intelligence server includes a signal processing neural network 921, a user sensitivity neural network 922 that learns the user's sensitivity, a creator sensitivity neural network 923 that learns the creator's sensitivity, an expert teacher database 924, and a feedback database 925. Has been done.
  • the expert teacher database 924 stores a huge amount of sample data regarding video signals, audio signals, user-side information, and creator-side information.
  • the user side information and the creator side information are as described above. It is assumed that the user-side information can be acquired by the sensor unit 109 provided in the television receiving device 100.
  • the user profile may include past environmental information such as the user's SNS posting and browsing history (images uploaded to the SNS and images viewed). Further, it is assumed that the creator side information can be acquired by equipping the content production environment with a sensor function equivalent to that of the sensor unit 109.
  • the signal processing neural network 921 has the same configuration as the signal processing neural network 911 arranged in the local environment 910, and includes an image making neural network, a sound making neural network, and an effect control neural network, or an image making neural network and a sound. It is one neural network that combines the making neural network and the production control neural network.
  • the signal processing neural network 921 is arranged in the cloud 920 for the purpose of learning (including continuous learning).
  • the signal processing neural network 911 of the local environment 910 is configured based on the learning result by the signal processing neural network 921, and the signal processing unit 150 (or the video signal processing unit 105) in the television receiving device 100 for the purpose of operation. And each of the audio signal processing unit 106 and the effect control unit 111).
  • the signal processing neural network 921 on the cloud 920 side uses the expert teacher database 924 installed in the cloud 920 to obtain the original video signal (or the video signal after decoding), the original audio signal (or the audio signal after decoding). ), Between the user side information and the creator side information, and video signal processing and audio signal processing for enabling the user to have the same recognition as the creator for the content, and the effect (or to the effect device 110). Learn the correlation with the control signal).
  • the user-side information may include past environmental information such as the user's SNS posting and browsing history (images uploaded to the SNS and images viewed).
  • the signal processing neural network 921 inputs the video signal and the audio signal, the user side information, and the creator side information, and enables the user to have the same recognition as the creator for the content.
  • the audio signal processing and the effect (or the control signal to the effect device 110) are estimated, and the input video signal and the audio signal are subjected to the estimated video signal processing and the audio signal processing, respectively. And the audio signal and the control signal to the effect device 110 are output.
  • the user-sensitive neural network 922 and the creator-sensitive neural network 923 are neural networks used for evaluating the learning status of the signal processing neural network 921.
  • the user sensitivity neural network 922 is a neural network that learns the user's sensitivity, and is intended for a video signal, an audio signal, an effect (or a control signal to the effect device 110), user information, and video and audio output. Learn the correlation with user perception.
  • the user-sensitive neural network 922 is an output from the signal processing neural network 921 (a video signal and an audio signal that have been signal-processed so that the user and the creator have the same recognition of the content.
  • the effect (control signal to the effect device 110) estimated to match the recognition of the content between the user and the creator, and the user side information are input, and the input video signal and audio signal and the effect are produced. Estimates and outputs the user's perception of the effect.
  • the creator sensitivity neural network 923 is a neural network that learns the sensitivity of the creator, and learns the correlation between the video signal, the audio signal, the creator side information, and the creator's recognition of the video and audio output.
  • the creator-sensitive neural network 923 receives the original video signal and the original audio signal (input to the signal processing neural network 921), the creator side information as inputs, and the input video signal and Estimates and outputs the creator's recognition of the audio signal.
  • a loss function based on the difference between the user recognition estimated by the user sensitivity neural network 922 and the creator recognition estimated by the creator sensitivity neural network 923 is defined. Then, the signal processing neural network 921 is trained by backpropagation (backpropagation method) so that the loss function is minimized.
  • the signal processing neural network 911 inputs the video signal and audio signal being received or reproduced by the television receiving device 100, the user side information, and the creator side information, and signals processing on the cloud 920 side. Based on the learning result of the neural network 921, the video signal processing and audio signal processing and the effect are estimated so that the user can have the same recognition as the creator, and the input video signal and audio signal are respectively. The video signal and audio signal subjected to the estimated video signal processing and audio signal processing, and the control signal to the effect device 110 are output. It is difficult for the television receiving device 100 to acquire the creator side information in real time. Therefore, the default set creator side information or general creator side information may be set as a fixed input value to the signal processing neural network 911.
  • the creator side information may be acquired as metadata associated with the content reproduced by the television receiving device 100.
  • the creator side information may be distributed together with the content by a broadcast signal or a video signal of online distribution, or may be recorded and distributed together with the content on a recording medium. Further, at the time of broadcasting or online distribution, the content and the creator side information may be distributed in a common stream or may be distributed in different streams.
  • the video signal and the audio signal output from the signal processing neural network 911 are displayed and output by the image display unit 107 and the audio output unit 108, respectively.
  • the input to the signal processing neural network 911 is also simply referred to as an “input value”
  • the output from the signal processing neural network 911 is also simply referred to as an “output value”.
  • a user of the local environment 910 evaluates the output value of the signal processing neural network 911 and evaluates the television via, for example, a remote controller of the television receiving device 100, a voice agent, a linked smartphone, or the like.
  • the recognition of the video and audio output from the receiving device 100 is fed back.
  • Feedback may be generated based on an operation in which the user sets setting information such as, for example, image quality setting.
  • the input value, the output value, and the feedback from the user (user FB) in the local environment 910 are transferred to the cloud 920 and stored in the expert teacher database 924 and the feedback database 925, respectively.
  • the cloud 920 learning of the user-sensitive neural network 922 and creator-sensitive neural network 923 for evaluation as the first step and learning of the signal processing neural network 921 as the second step are alternately performed.
  • the signal processing neural network 921 is fixed (learning is stopped), and learning of the user-sensitive neural network 922 and the creator-sensitive neural network 923 is performed.
  • the second step the user-sensitive neural network 922 and the creator-sensitive neural network 923 are fixed (learning is stopped), and the signal processing neural network 921 is learned.
  • the user sensitivity neural network 922 is a neural network that learns the user's sensitivity.
  • the user-sensitive neural network 922 includes a video signal and an audio signal output from the signal processing neural network 921, an effect (control signal to the effect device 110), and an input to the signal processing neural network 921.
  • the same user-side information is input, and the user's recognition of the signal-processed video signal and audio signal, and the effect (control signal to the effect device 110) is estimated and output.
  • a loss function based on the difference from the perception of the actual user is defined, and the user-sensitive neural network 922 is trained so that the loss function is minimized.
  • the user-sensitive neural network 922 includes a video signal and an audio signal that have been signal-processed by the signal processing neural network 921 so that the recognition matches between the user and the creator, and an effect (control signal to the effect device 110). ),
  • the user's recognition estimated by the user-sensitive neural network 922 is learned so as to approach the recognition of the actual user.
  • the Creator Sensitivity Neural Network 923 is a neural network that learns the sensibilities of creators.
  • the creator-sensitive neural network 923 inputs the same original video signal, the original audio signal, and the creator side information as the input to the signal processing neural network 921, and recognizes the creator for the original video signal and the original audio signal. Estimate and output.
  • a loss function is defined based on the difference between the recognition of the creator estimated by the creator sensitivity neural network 923 for the original video signal and the original audio signal and the recognition of the actual creator read from the feedback database 925, and the loss is lost.
  • the creator sensitivity neural network 923 is trained so that the function is minimized.
  • the creator-sensitive neural network 923 has the recognition of the creator estimated by the creator-sensitive neural network 923 with respect to the original video signal and the original audio signal (that is, the content created by the creator itself) that the actual creator has. You will be learned to get closer.
  • both the user-sensitive neural network 922 and the creator-sensitive neural network 923 are fixed, and this time, the signal processing neural network 921 is learned.
  • the feedback data is taken out from the feedback database 925 (described above)
  • the input value included in the feedback data is input to the signal processing neural network 921.
  • the signal processing neural network 921 estimates the video signal processing and audio signal processing so that the user can have the same recognition as the creator for the input value, and the effect of the effect, and converts the input video signal and audio signal into the input value.
  • the video signal and audio signal subjected to the estimated video signal processing and audio signal processing, and the control signal to the effect device 110 are output.
  • the user-sensitive neural network 922 inputs the video signal and audio signal output from the signal processing neural network 921 and the user-side information, and the input video signal and audio signal, and the effect (to the effect device 110). Estimates and outputs the user's perception of the control signal). Further, the creator sensitivity neural network 923 estimates the recognition of the creator by inputting the input values (the same original video signal and original audio signal as the input to the signal processing neural network 921) read from the feedback database 925. Output.
  • a loss function based on the difference between the user recognition estimated by the user sensitivity neural network 922 and the creator recognition estimated by the creator sensitivity neural network 923 is defined. Then, the signal processing neural network 921 is trained by backpropagation (backpropagation method) so that the loss function is minimized.
  • the expert teacher database 924 may be used for the teacher data. Further, learning may be performed using two or more teacher data such as the feedback database 925 and the expert teacher database 924. In this case, the loss function calculated for each teacher data may be weighted and added to learn the signal processing neural network 921 so as to be the minimum.
  • the signal processing neural network 921 becomes The probability that the output video signal and audio signal will bring the recognition between the user and the creator closer will improve. Then, a learning model consisting of a set of optimum coupling weight coefficients between neurons in the signal processing neural network 921 whose accuracy is improved by learning is downloaded to the television receiving device 100 of the local environment 910, and the neurons of the signal processing neural network 911 are downloaded.
  • the coupling weighting coefficient By setting the coupling weighting coefficient, the user (or the television receiving device 100 used by the user) can also use the signal processing neural network 911 with further advanced learning. As a result, there is an increasing chance that the user's recognition of the video and audio output by the television receiving device 100 matches the recognition of the creator at the time of content production.
  • the method of providing the learning model with improved accuracy by learning on the cloud 920 side to the local environment 910 is arbitrary.
  • the bitstream of the learning model of the signal processing neural network 921 may be compressed and downloaded from the cloud 920 to the television receiver 100 in the local environment 910. If the size of the bitstream is large even after compression, the training model may be divided into a plurality of times to download the compressed bitstream.
  • the learning model is a set of connection weight coefficients between neurons in a neural network, and when the neural network is divided and downloaded, it may be divided for each layer of the neural network or for each region within the layer.
  • Section E Signal distance control between arbitrary users using artificial intelligence
  • Section E a method of shortening the recognition distance between a user and a creator by video signal processing and audio signal processing using artificial intelligence has been described.
  • This section describes signal distance control between arbitrary users using artificial intelligence.
  • FIG. 11 schematically shows a flow until the content produced on the content production side is viewed by each user (user A and user B in the example shown in FIG. 11) in the system as shown in FIG. It is shown in.
  • the left side is the user A side
  • the right side is the user B side.
  • Content produced or edited by the creator on the content production side is, for example, after being encoded by a predetermined coding method such as MPEG (not shown in FIG. 11), transmission media such as broadcasting or the Internet, Blu-ray, etc. It is delivered to each user via the recording media of.
  • a predetermined coding method such as MPEG (not shown in FIG. 11)
  • transmission media such as broadcasting or the Internet, Blu-ray, etc. It is delivered to each user via the recording media of.
  • the television receiving device 100 and other content playback devices receive the encoded data via the transmission medium or the recording medium.
  • the television receiving device 100 is installed in, for example, the living room 1101 of the user A's house.
  • the received coded data is subjected to decoding processing 1102 according to a predetermined coding method such as MPEG, separated into a video stream and an audio stream, and further subjected to signal processing. , Video screen display and audio output. Then, the user A watches the video and audio of the television receiving device 100.
  • the television receiving device 100'and other content reproducing devices receive the encoded data via the transmission medium or the recording medium.
  • the television receiving device 100' is installed in, for example, the living room 1101' at the user B's house.
  • the received coded data is subjected to decoding processing 1102' according to a predetermined coding method such as MPEG to be separated into a video stream and an audio stream, and further signal processing is performed. After that, the screen display of the video and the audio output are performed. Then, the user B watches the video and audio of the television receiving device 100'.
  • a gap that is, a signal distance occurs between the signal of the content reproduced by the television receiving device 100 on the user A side and the signal of the content reproduced by the television receiving device 100'on the user B side.
  • the following are possible causes of the signal distance.
  • Noise is generated when the RAW signal handled by the content production side is transmitted to each user, and the signal is processed by color sampling, gradation conversion, etc. in the process of decoding performed by each of the television receiving device 100 and the television receiving device 100'. Mismatch occurs. Further, in the process of signal processing such as high image quality and high sound quality performed by each of the television receiving device 100 and the television receiving device 100', the signals of the contents to be reproduced are inconsistent.
  • the television receiving device 100 and the television receiving device 100' have hardware inconsistencies such as performance differences and characteristic differences when the manufacturer, model, and the like are different. Therefore, even if the same video signal and audio signal are input, the signals of the contents reproduced by each of the television receiving device 100 and the television receiving device 100'will be inconsistent.
  • the display device is a liquid crystal display
  • the difference in viewing angle characteristics, response characteristics, and temperature characteristics causes a difference in the image.
  • the display device is an LED
  • the image is different due to the difference in the response characteristic and the temperature characteristic for each color.
  • the performance information and characteristic information of each TV receiver can be obtained from the specification information of each product. Further, the performance difference and the characteristic difference of each television receiving device may be the result of analyzing the video signal and the audio signal output from each by using a luminance meter or a spectrum analysis device.
  • the user A grounds the television receiving device 100 in the living room 1101 or the like at home to view the reproduced content.
  • the user B installs the television receiving device 100'in the living room 1101'or the like at home and watches the reproduced content.
  • the living room 1101 and the living room 1101' are different in sound insulation, indoor lighting, intensity of natural light, irradiation angle, and color. Further, the intensity, the reflection angle, and the color of the reflected light on the screen are different between the television receiving device 100 and the television receiving device 100'. Due to such an environmental mismatch, the signal mismatch of the content reproduced by each of the television receiving device 100 and the television receiving device 100'occurs.
  • Physiological causes Due to differences in physiological characteristics such as visual acuity, dynamic visual acuity, contrast sensitivity, and flicker sensitivity between user A and user B, even if user A and user B view the same playback content, the signals recognized in the brain do not match. Occurs. Similarly, due to differences in health and mental states between user A and user B, when the same reproduced content is viewed, the signals recognized in each other's brains do not match.
  • the purpose of this section is to minimize the signal distance caused by at least one of signal mismatch, environmental mismatch, and physiological mismatch.
  • FIG. 12 schematically shows a configuration example of an artificial intelligence system 1200 for learning and operating a neural network for shortening a signal distance between users.
  • the illustrated artificial intelligence system 1200 is assumed to be configured using the cloud.
  • the artificial intelligence system 1200 using the cloud includes a local environment 1210 and a cloud 1220.
  • the local environment 1210 corresponds to the operating environment (home) in which the television receiving device 100 is installed, or the television receiving device 100 installed in the home. Although only one local environment 1210 is drawn in FIG. 12 for simplification, it is assumed that a huge number of local environments are actually connected to one cloud 1220. Further, in the present embodiment, the operating environment such as in a home where the television receiving device 100 operates is mainly illustrated as the local environment 1210, but the local environment 1210 provides a display for displaying contents such as a smartphone, a tablet, and a personal computer. It may be an environment in which any equipped device operates (including public facilities such as stations, bus stops, airports, shopping centers, and labor facilities such as factories and workplaces).
  • an image creation neural network having a pre-learned learning model such as deep learning is used to perform images such as noise reduction, super-resolution processing, dynamic range conversion processing, and gamma processing.
  • An audio signal processing unit 105 that performs processing of audio signals such as band expansion and sound image localization by using a video signal processing unit 105 that performs signal processing and a sound creation neural network that has a pre-learned learning model such as deep learning. It is installed.
  • the video signal processing unit 105 using the image creation neural network and the audio signal processing unit 106 using the sound creation neural network are put together to perform one signal processing used in the signal processing unit 150. It will be generically referred to as neural network 1211.
  • the cloud 1220 is equipped with an artificial intelligence server (described above) (consisting of one or more server devices) that provides artificial intelligence.
  • the artificial intelligence server is provided with a signal processing neural network 1221, a comparison unit 1222 that compares the output of the signal processing neural network 1221 with the teacher data, an expert teacher database 1224, and a feedback database 1225.
  • the expert teacher database 1224 stores a huge amount of sample data related to video signals, audio signals, and user-side information.
  • the user-side information referred to here includes the user's state and profile, physiological information, information on the environment in which the television receiving device 100 used by the user is installed, characteristic information such as hardware of the television receiving device 100 used by the user, and information on characteristics such as hardware of the television receiving device 100 used by the user.
  • the television receiving device 100 includes signal information related to signal processing such as decoding applied to the received signals of video and audio.
  • the user profile may include past environmental information such as the user's SNS posting and browsing history (images uploaded to the SNS and images viewed). It is assumed that almost all the user-side information can be acquired by the sensor unit 109 provided in the television receiving device 100.
  • the signal processing neural network 1221 has the same configuration as the signal processing neural network 1211 arranged in the local environment 1210, includes an image-making neural network and a sound-making neural network, or combines an image-making neural network and a sound-making neural network. It is one neural network.
  • the signal processing neural network 1221 is arranged in the cloud 1220 for the purpose of learning (including continuous learning).
  • the signal processing neural network 1211 of the local environment 1210 is configured based on the learning result by the signal processing neural network 1221, and the signal processing unit 150 (or the video signal processing unit 105) in the television receiving device 100 for the purpose of operation. And each of the audio signal processing units 106).
  • the signal processing neural network 1221 on the cloud 1220 side uses the expert teacher database 1224 installed in the cloud 1220 to obtain the original video signal (or the video signal after decoding) and the original audio signal (or the audio signal after decoding). ), And a plurality of user-side information (referred to as "user A-side information" and “user B-side information” in FIG. 12), and a television receiver of each user (user A and user B in the example shown in FIG. 12). Learn the correlation between video signal processing and audio signal processing to minimize the signal distance between the contents reproduced at 100.
  • the user-side information may include past environmental information such as the user's SNS posting and browsing history (images uploaded to the SNS and images viewed). Further, in the example shown in FIG.
  • the video signal and the audio signal reproduced by the television receiving device 100 on the user B side are used as the teacher data, but other signals may be used.
  • the video signal and audio signal of the original content sent from the content production side, or the standard video signal and audio signal to be viewed at home are defined as teacher data for learning of the signal processing neural network 1221. You may.
  • the signal processing neural network 1221 takes the video signal and the audio signal and a plurality of user-side information as inputs, estimates the video signal processing and the audio signal processing that minimize the signal distance between the users, and inputs the input video.
  • the video signal and audio signal to which the estimated video signal processing and audio signal processing have been applied to the signal and audio signal are output.
  • the comparison unit 1222 compares the output of the signal processing neural network 1221 with the signal of the reference content (for example, the original content) to deal with signal mismatch, environmental mismatch, and physiological mismatch between users. Learn video signal processing and audio signal processing to minimize signal distance.
  • the comparison unit 1222 uses the video signal and audio signal output from the signal processing neural network 1221 (in the example shown in FIG. 12, the video signal and audio signal estimated for user A) as teacher data (FIG. 12).
  • the video signal and the audio signal reproduced by the television receiving device 100 on the user B side are compared.
  • a loss function based on the difference between the video signal and audio signal output from the signal processing neural network 1221 and the original video signal and the original audio signal is defined.
  • a loss function may be defined that further considers user feedback.
  • the comparison unit 1222 learns the signal processing neural network 1221 by backpropagation (error back propagation method) so that the loss function is minimized.
  • the television receiving device 100 performs signal processing of the video signal and the audio signal by the signal processing neural network 1211 based on the learning result generated by the signal processing neural network 1222 on the cloud 1220 side.
  • the signal processing neural network 1211 has a video signal and an audio signal being received or reproduced by the television receiving device 100, and a plurality of user-side information (in FIG. 12, the user himself / herself). "User A side information" as information and "user B side information” as information of other users) are input, and based on the learning result of the signal processing neural network 1221 on the cloud 1220 side, between users.
  • Video signal processing and audio signal processing that minimizes the signal distance are estimated, and the video signal and audio that have undergone the estimated video signal processing and audio signal processing for the input video signal and audio signal, respectively.
  • the signal is output. It is difficult for the television receiving device 100 to acquire other user-side information (“user B-side information” in FIG. 12) in real time. Therefore, the default user-side information or general user-side information may be set as a fixed input value to the signal processing neural network 1211.
  • other user-side information may be acquired as metadata associated with the content reproduced by the television receiving device 100. Specifically, other user-side information may be distributed together with the content by a broadcast signal or a video signal of online distribution, or may be recorded and distributed together with the content on a recording medium.
  • the content and other user-side information may be distributed in a common stream or may be distributed in different streams.
  • the video signal and the audio signal output from the signal processing neural network 1211 are displayed and output by the image display unit 107 and the audio output unit, respectively.
  • the input to the signal processing neural network 1211 is also simply referred to as an “input value”
  • the output from the signal processing neural network 1211 is also simply referred to as an “output value”.
  • a user of the local environment 1210 evaluates the output value of the signal processing neural network 1211 and evaluates the television via, for example, a remote controller of the television receiver 100, a voice agent, a linked smartphone, or the like.
  • the recognition of the video and audio output from the receiving device 100 is fed back.
  • Feedback may be generated based on an operation in which the user sets setting information such as, for example, image quality setting.
  • Input values, output values, and feedback from users (user FB) in the local environment 1210 are transferred to the cloud 1220 and stored in the expert teacher database 1224 and the feedback database 1225, respectively.
  • a content playback device such as the television receiver 100
  • noise reduction, super-resolution processing, dynamic range conversion processing, high image quality processing such as gamma processing, and high sound quality processing such as band expansion are performed on the content to be reproduced. It is possible to add it.
  • the cloud 1220 side signals the video and audio signal processing so that the data of the content received by the television receiving device 100 becomes a signal close to the content reproduced by the television receiving device 100'of another user.
  • the processing neural network 1221 can be pre-trained. Then, by setting the learning result in the signal processing neural network 1211 of the local environment 1210, signal processing is performed in the television receiving device 100 so as to minimize the signal distance of the content between users.
  • the sensor unit 109 is used to acquire the environmental information in which the television receiving device 100 is placed, and the signal processing neural network 1211 is based on the information, and the audio or video of the content delivered from the television receiving device 100 to the user is recorded.
  • the video and audio signal processing may be performed so that the difference between the signal and the audio or video signal of the content that reaches another user from the television receiving device 100'is small. For example, information such as the size of the room in which the television receiving device 100 is placed, the position of the user, and the brightness of the room is acquired, and each user is similarly based on the corresponding information acquired by another user.
  • Signal processing can be performed so that the audio and video of the content can be viewed.
  • processing may be performed so that the difference in viewing content between users becomes small based on information on the physical characteristics and viewing state of each user.
  • information on the physical characteristics and viewing state of each user for example, it is possible to acquire information such as the height of each user, the presence / absence of glasses, the viewing time zone, and the movement of the user's line of sight, and perform signal processing so that each user can view the same content. it can.
  • the signal matching 1111, the environmental and physiological matching 1112, and the signal are used among the users.
  • the target match 113 (see FIG. 11) can be achieved to shorten the signal distance between arbitrary users.
  • the present specification has mainly described embodiments in which the technology according to the present disclosure is applied to a television receiver, the gist of the technology according to the present disclosure is not limited to this.
  • a content acquisition device or playback equipped with a display that has the function of acquiring or playing various types of content that is acquired by streaming or downloading via broadcast waves or the Internet and presented to the user, such as video and audio.
  • the technique according to the present disclosure can be applied to the device or the display device.
  • the technology disclosed in this specification can also have the following configuration.
  • An acquisition unit that acquires playback content, A detector that acquires information about the viewing status, A control unit that estimates the playback content to be output based on the information about the user who views the playback content and the information about the creator who created the playback content.
  • An output unit that outputs the estimated playback content and Information processing device equipped with.
  • the information about the user is at least one of the state of the user, the profile of the user, the installation environment of the information processing device, the hardware information of the information processing device, and the signal processing performed in the information processing device. Contains information about one, The information processing device according to (1) above.
  • the information about the user includes the information detected by the detection unit.
  • the information processing device according to any one of (1) and (2) above.
  • the information about the creator is at least one of the state of the creator, the profile of the creator, the production environment of the content, the device hardware information used for producing the content, and the signal processing performed at the time of uploading the content. Contains information about one, The information processing device according to any one of (1) to (3) above.
  • the information about the creator includes information corresponding to the information about the user.
  • the information processing device according to any one of (1) to (4) above.
  • the control unit estimates the signal processing for the reproduced content as a control for estimating the reproduced content to be output.
  • the information processing device according to any one of (1) to (5) above.
  • the signal processing for the reproduced content is a process of associating the video or audio of the reproduced content recognized by the user with the video or audio of the reproduced content recognized by the creator.
  • the information processing device according to (6) above.
  • the reproduced content includes a video signal and includes a video signal.
  • the signal processing includes at least one of resolution conversion, dynamic range conversion, noise reduction, and gamma processing.
  • the information processing device according to any one of (6) and (7) above.
  • the reproduced content includes an audio signal and includes an audio signal.
  • the signal processing includes at least one of band expansion and sound image localization.
  • the control unit acquires feedback on the reproduced content output based on the signal processing, and further performs the signal processing based on the feedback.
  • the information processing device according to any one of (6) to (9) above.
  • the acquisition unit further acquires the reference information of the signal processing generated based on the information about the user and the information about the creator.
  • the control unit estimates the signal processing based on the reference information.
  • the control unit estimates the signal processing based on the reference information by processing by artificial intelligence.
  • the information processing device according to (11) above.
  • the process by the artificial intelligence is a process of performing the estimation based on the information detected by the detection unit and the reference information.
  • the control unit controls an external device so as to output an effect corresponding to the reproduced content.
  • the information processing device according to (1) to (13) above.
  • the external device is a directing device that outputs a directing effect.
  • the control unit controls the effect device based on the information about the user and the information about the creator detected by the detection unit.
  • the information processing device according to (14) above.
  • the production device includes a production device that utilizes at least one of wind, temperature, water, light, scent, smoke, and physical exercise.
  • the information processing device according to (15) above.
  • the acquisition unit further acquires the reference information of the control process of the effect device generated based on the information about the user and the information about the creator.
  • the control unit estimates a process of controlling the external device based on the reference information by a process by artificial intelligence.
  • the information processing device according to any one of (14) to (16) above.
  • a first neural network that learns the correlation between the reproduced content, information about the user who views the reproduced content, and information about the creator who creates the reproduced content.
  • a second neural network that learns the correlation between the playback content, information about the user, and the user's perception of the playback content.
  • a third neural network that learns the correlation between the playback content, information about the creator, and the creator's perception of the playback content.
  • the learning of the first neural network is stopped, and the definition is based on the difference between the user's recognition of the reproduced content estimated by the second neural network and the recognition of the actual user.
  • the neural network of the second neural network is trained so that the loss function to be performed is minimized, and based on the difference between the creator's recognition of the reproduced content estimated by the third neural network and the recognition of the actual creator.
  • the third neural network is trained so that the defined loss function is minimized.
  • the learning of the second neural network and the third neural network is stopped, and the first neural network produces the reproduced content, information about the user who views the reproduced content, and the reproduced content.
  • the loss function defined based on the difference between the user's perception of the playback content estimated based on the information about the creator and the creator's perception of the playback content estimated by the third neural network is minimized. Learning the neural network of 1 above, The artificial intelligence system according to (19) above.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Social Psychology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Neurosurgery (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

人工知能を利用してテレビから出力する映像又はオーディオを処理する情報処理装置を提供する。 情報処理装置は、再生コンテンツを取得する取得部と、視聴状況に関する情報を取得する検出部と、前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御部と、前記推定した再生コンテンツを出力する出力部を具備する。前記制御部は、コンテンツに対するユーザとクリエータ間の認識のギャップを縮めるための信号処理を推定する。

Description

情報処理装置及び情報処理方法、並びに人工知能システム
 本明細書で開示(以下、「本開示」とする)する技術は、人工知能を利用する情報処理装置及び情報処理方法、並びに人工知能システムに関する。
 テレビが広範に普及して久しい。最近では、テレビの大画面化が進むとともに、超解像技術や高ダイナミックレンジ化といった高画質化や(例えば、特許文献1を参照のこと)、帯域拡張などの高音質化(例えば、特許文献2を参照のこと)といった、再生コンテンツの高品質化も進められている。
 コンテンツのクリエータがオーサリングシステム上で制作したコンテンツは、放送やストリーミング、記録メディアなどさまざまな手段によって配給される。そして、再生装置上では、受信した映像ストリームやオーディオストリームに対して高画質化や高音質化といった信号処理を施した後に、ディスプレイやスピーカーから出力し、ユーザが視聴する。ここで、視聴コンテンツに対するユーザの認識と、制作したコンテンツに対するクリエータの認識との間にギャップが生じて、クリエータが意図した通りにユーザがコンテンツを視聴できないことが懸念される。
 ユーザとクリエータ間の主観的認識の相違を解消する1つの方法として、例えばクリエータが選定した基準白(diffuse white)の情報をMPEG(Moving Picture Experts Group)の伝送コンテナを利用してソース機器からシンク機器へ伝送し、シンク機器側では基準白に基づいてクリエータの意図を反映するようにダイナミックレンジ変換を行なう画像表示システムについて提案がなされている(特許文献3を参照のこと)。
特開2019-23798号公報 特開2017-203999号公報 WO2016/038950 特開2015-92529号公報 特許第4915143号公報 特開2007-143010号公報
 本開示に係る技術の目的は、人工知能を利用してテレビから出力する映像又はオーディオを処理する情報処理装置及び情報処理方法、並びに人工知能システムを提供することにある。
 本開示に係る技術の第1の側面は、
 再生コンテンツを取得する取得部と、
 視聴状況に関する情報を取得する検出部と、
 前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御部と、
 前記推定した再生コンテンツを出力する出力部と、
を具備する情報処理装置である。
 ここで、前記ユーザに関する情報は、前記ユーザの状態、前記ユーザのプロファイル、前記情報処理装置の設置環境、前記情報処理装置のハードウェア情報、前記情報処理装置内で実施される信号処理などに関する情報であり、前記検出部によって検出された情報を含む。
 また、前記クリエータに関する情報は、前記クリエータの状態、前記クリエータのプロファイル、前記コンテンツの制作環境、前記コンテンツの制作に使用した機器ハードウェア情報、前記コンテンツのアップロード時に実施される信号処理などに関する情報であり、前記ユーザに関する情報に対応する情報を含む。
 前記制御部は、前記再生コンテンツに対する信号処理を推定する。ここで言う前記再生コンテンツに対する信号処理は、前記ユーザが認識する前記再生コンテンツの映像又は音声と、前記クリエータが認識する前記再生コンテンツの映像又は音声を対応付ける処理である。
 前記再生コンテンツは映像信号を含み、前記信号処理は、解像度変換、ダイナミックレンジ変換、ノイズ低減、ガンマ処理のうち少なくとも1つを含む。また、前記再生コンテンツは、オーディオ信号を含み、前記信号処理は、帯域拡張、音像定位のうち少なくとも1つを含む。
 また、本開示に係る技術の第2の側面は、
 再生コンテンツを取得する取得ステップと、
 視聴状況に関する情報を取得する検出ステップと、
 前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御ステップと、
 前記推定した再生コンテンツを出力ステップと、
を有する情報処理方法である。
 また、本開示に係る技術の第3の側面は、
 再生コンテンツと、再生コンテンツを視聴するユーザに関する情報と、再生コンテンツを制作するクリエータに関する情報との相関関係を学習する第1のニューラルネットワークと、
 再生コンテンツと、ユーザに関する情報と、再生コンテンツに対するユーザの認識との相関関係を学習する第2のニューラルネットワークと、
 再生コンテンツと、クリエータに関する情報と、再生コンテンツに対するクリエータの認識との相関関係を学習する第3のニューラルネットワークと、
を具備する人工知能システムである。
 但し、ここで言う「システム」とは、複数の装置(又は特定の機能を実現する機能モジュール)が論理的に集合した物のことを言い、各装置や機能モジュールが単一の筐体内にあるか否かは特に問わない。
 本開示に係る技術によれば、人工知能を利用して、視聴したコンテンツに対するユーザの認識と、制作したコンテンツに対するクリエータの認識との間のギャップが小さくなるように、テレビから出力する映像又はオーディオを処理する情報処理装置及び情報処理方法、並びに人工知能システムを提供することができる。
 なお、本明細書に記載された効果は、あくまでも例示であり、本開示に係る技術によりもたらされる効果はこれに限定されるものではない。また、本開示に係る技術が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
 本開示に係る技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
図1は、映像コンテンツを視聴するシステムの構成例を示した図である。 図2は、テレビ受信装置100の構成例を示した図である。 図3は、ディスプレイへのパネルスピーカー技術の適用例を示した図である。 図4は、センサー部109の構成例を示した図である。 図5は、コンテンツの制作から視聴までの流れを示した図である。 図6は、人工知能システム600の構成例を示した図である。 図7は、演出機器の設置例を示した図である。 図8は、演出効果を利用するテレビ受信装置100の構成例を示した図である。 図9は、人工知能システム900の構成例を示した図である。 図10は、人工知能システム1000の構成例を示した図である。 図11は、コンテンツが各ユーザにより視聴されるまでの流れを示した図である。 図12は、人工知能システム1200の構成例を示した図である。
 以下、図面を参照しながら本開示に係る技術の実施形態について詳細に説明する。
A.システム構成
 図1には、映像コンテンツを視聴するシステムの構成例を模式的に示している。
 テレビ受信装置100は、例えば家庭内で一家が団らんするリビングや、ユーザの個室などに設置される。なお、本実施形態において、単に「ユーザ」という場合、特に言及しない限り、テレビ受信装置100に表示された映像コンテンツを視聴する(視聴する予定がある場合も含む)視聴者のことを指すものとする。
 テレビ受信装置100は、映像コンテンツを表示するディスプレイ並びの音響を出力するスピーカーを装備している。テレビ受信装置100は、例えば放送信号を選局受信するチューナーを内蔵し、又はチューナー機能を備えたセットトップボックスが外付け接続されており、テレビ局が提供する放送サービスを利用することができる。放送信号は、地上波及び衛星波のいずれを問わない。
 また、テレビ受信装置100は、例えばIPTVやOTT(Over The Top)といったネットワークを利用した放送型の動画配信サービスも利用することができる。このため、テレビ受信装置100は、ネットワークインターフェースカードを装備し、イーサネット(登録商標)やWi-Fi(登録商標)などの既存の通信規格に基づく通信を利用して、ルータ経由やアクセスポイント経由でインターネットなどの外部ネットワークに相互接続されている。テレビ受信装置100は、その機能的な側面において、映像やオーディオなどさまざまな再生コンテンツを、放送波又はインターネットを介したストリーミングあるいはダウンロードにより取得してユーザに提示するさまざまなタイプのコンテンツの取得あるいは再生の機能を持つディスプレイを搭載したコンテンツ取得装置あるいはコンテンツ再生装置又はディスプレイ装置でもある。
 インターネット上には、映像ストリームを配信するストリーム配信サーバが設置されており、テレビ受信装置100に対して放送型の動画配信サービスを提供する。
 また、インターネット上には、さまざまなサービスを提供する無数のサーバが設置されている。サーバの一例は、例えばIPTVやOTTといったネットワークを利用した放送型の動画ストリームの配信サービスを提供するストリーム配信サーバである。テレビ受信装置100側では、ブラウザ機能を起動し、ストリーム配信サーバに対して例えばHTTP(Hyper Text Transfer Protocol)リクエストを発行して、ストリーム配信サービスを利用することができる。
 また、本実施形態では、クライアントに対してインターネット上で(あるいは、クラウド上で)人工知能の機能を提供する人工知能サーバも存在することを想定している。人工知能は、例えば、学習、推論、データ創出、計画立案といった人間の脳が発揮する機能を、ソフトウェア又はハードウェアによって人工的に実現する機能のことである。人工知能は、一般に、人間の脳神経回路を模したニューラルネットワークで表される学習モデルを利用する。ニューラルネットワークは、シナプスを介した人工ニューロン(以下、単に「ニューロン」とも呼ぶ)間の結合により形成したネットワークである。人工知能は、学習データを用いた学習を重ねることによって、ニューロン間の結合重み係数を変化させながら、問題(入力)に対して最適な解決(出力)を推定する学習モデルを構築する仕組みを備えている。学習済みのニューラルネットワークは、ニューロン間の最適な結合重み係数を持つ学習モデルとして表される。また、人工知能サーバは、深層学習(Deep Learning:DL)を行うニューラルネットワークを搭載していることを想定している。深層学習を行う場合、学習データ数もシナプス数も大規模となる。したがって、クラウドのような巨大な計算機資源を使って深層学習を行うことが適切と思料される。なお、本明細書で言う「人工知能サーバ」は、単一のサーバ装置とは限らず、例えばクラウドコンピューティングサービスを提供するクラウドの形態であってもよい。
B.テレビ受信装置の構成
 図2には、テレビ受信装置100の構成例を示している。図示のテレビ受信装置100は、外部から情報を取得する取得部を備えている。ここで言う取得部は、放送信号を選局受信するチューナー、メディア再生装置からの再生信号を入力するHDMI(登録商標)(High-Definition Multimedia Interface)インターフェース、ネットワーク接続するネットワークインターフェース(NIC)を装備している。但し、図2では取得部の構成を省略している。
 取得部は、テレビ受信装置100に提供されるコンテンツを取得する機能を持つ。テレビ受信装置100にコンテンツが提供される形態として、地上放送や衛星放送などの放送信号、ハードディスクドライブ(HDD)やブルーレイなどの記録メディアから再生される再生信号、クラウド上のストリーミングサーバなどから配信されるストリーミングコンテンツなどを想定している。ネットワークを利用した放送型の動画配信サービスとして、IPTVやOTTなどを挙げることができる。そして、これらのコンテンツは、映像、オーディオ、補助データ(字幕、テキスト、グラフィックス、番組情報など)といった各メディアデータのビットストリームを多重化した多重化ビットストリームとして、コンテンツ再生システム100に供給される。多重化ビットストリームは、例えばMPEG2 System規格に則って映像、オーディオなどの各メディアのデータが多重化されていることを想定している。また、本実施形態では、取得部が、クラウド上での深層学習などによる学習結果(ニューラルネットワークにおけるニューロン間の結合重み係数など)を、外部から取得することを想定している。
 テレビ受信装置100は、非多重化部(デマルチプレクサ)101と、映像復号部102と、オーディオ復号部103と、補助(Auxiliary)データ復号部104と、映像信号処理部105と、オーディオ信号処理部106と、画像表示部107と、オーディオ出力部108を備えている。なお、テレビ受信装置100は、セットトップボックスのような端末装置であり、受信した多重化ビットストリームを処理して、画像表示部107及びオーディオ出力部108を備えたテレビ受信装置に処理後の映像及びオーディオ信号を出力するように構成してもよい。
 非多重化部101は、放送信号、再生信号、又はストリーミングデータとして外部から受信した多重化ビットストリームを、映像ビットストリーム、オーディオビットストリーム、及び補助ビットストリームに非多重化して、後段の映像復号部102、オーディオ復号部103、及び補助データ復号部104の各々に分配する。
 映像復号部102は、例えばMPEG符号化された映像ビットストリームを復号処理して、ベースバンドの映像信号を出力する。なお、映像復号部102から出力される映像信号は、低解像度又は標準解像度の映像、あるいは低ダイナミックレンジ(LDR)又は標準ダイナミックレンジ(SDR)の映像であることも考えられる。
 オーディオ復号部103は、例えばMP3(MPEG Audio Layer3)あるいはHE-AAC(High Efficiency MPEG4 Advanced Audio Coding)などの符号化方式により符号化されたオーディオビットストリームを復号処理して、ベースバンドのオーディオ信号を出力する。なお、オーディオ復号部103から出力されるオーディオ信号は、高音域などの一部の帯域が除去又は圧縮された低解像度又は標準解像度のオーディオ信号であることを想定している。
 補助データ復号部104は、符号化された補助ビットストリームを復号処理して、字幕、テキスト、グラフィックス、番組情報などを出力する。
 テレビ受信装置100は、再生コンテンツの信号処理などを行う信号処理部150を備えている。信号処理部150は、映像信号処理部105とオーディオ信号処理部106を含む。
 映像信号処理部105は、映像復号部102から出力された映像信号及び補助データ復号部104から出力された字幕、テキスト、グラフィックス、番組情報などに対して映像信号処理を施す。ここで言う映像信号処理には、ノイズ低減、超解像などの解像度変換処理、ダイナミックレンジ変換処理、及びガンマ処理といった高画質化処理を含んでいてもよい。映像復号部102から出力される映像信号は、低解像度又は標準解像度の映像、あるいは低ダイナミックレンジ又は標準ダイナミックレンジの映像である場合には、映像信号処理部105は、低解像度又は標準解像度の映像信号から高解像度映像信号を生成する超解像処理や、高ダイナミックレンジ化などの高画質化処理を実施する。映像信号処理部105は、映像復号部102から出力された本編の映像信号と補助データ復号部104から出力された字幕などの補助データとを合成した後に映像信号処理を実施してもよいし、本編の映像信号と補助データとをそれぞれ個別の高画質化処理してから合成処理を行うようにしてもよい。いずれにせよ、映像信号処理部105は、映像信号の出力先である画像表示部107が許容する画面解像度又は輝度ダイナミックレンジの範囲内で、超解像処理や高ダイナミックレンジ化などの映像信号処理を実施するものとする。
 本実施形態では、映像信号処理部105は、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理を、ニューラルネットワークで表される学習モデルを利用する人工知能により実施することを想定している。深層学習により学習モデルを事前学習することで、最適な映像信号処理を実現することが期待される。
 オーディオ信号処理部106は、オーディオ復号部103から出力されたオーディオ信号に対してオーディオ信号処理を施す。オーディオ復号部103から出力されるオーディオ信号は、高音域などの一部の帯域が除去又は圧縮された低解像度又は標準解像度のオーディオ信号である。オーディオ信号処理部106は、低解像度又は標準解像度のオーディオ信号を、除去又は圧縮された帯域を含む高解像度オーディオ信号に帯域拡張したりする高音質化処理を実施するようにしてもよい。なお、オーディオ信号処理部106は、帯域拡張のような高音質化の他に、複数のスピーカーを利用した音像定位処理を行うようにしてもよい。
 本実施形態では、オーディオ信号処理部106は、帯域拡張や音像定位といったオーディオ信号の処理を、ニューラルネットワークで表される学習モデルを利用する人工知能により実施することを想定している。深層学習により学習モデルを事前学習することで、最適なオーディオ信号処理を実現することが期待される。なお、映像信号処理とオーディオ信号処理を併せて実施する単一のニューラルネットワークを有する信号処理部150を構成してもよい。
 画像表示部107は、映像信号処理部105で高画質化などの映像信号処理が施された映像を表示した画面をユーザ(コンテンツの視聴者など)に提示する。画像表示部107は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、あるいは画素に微細なLED(Light Emitting Diode)素子を用いた自発光型ディスプレイ(例えば、特許文献4を参照のこと)などからなる表示デバイスである。
 また、画像表示部107は、画面を複数の領域に分割して領域毎に明るさを制御する部分駆動技術を適用した表示デバイスであってもよい。透過型の液晶パネルを用いたディスプレイの場合、信号レベルの高い領域に相当するバックライトは明るく点灯させる一方、信号レベルの低い領域に相当するバックライトは暗く点灯させることで、輝度コントラストを向上させることができる。この種の部分駆動型の表示デバイスにおいては、暗部で抑えた電力を信号レベルの高い領域に配分して集中的に発光させる突き上げ技術をさらに利用して、(バックライト全体の出力電力は一定のまま)部分的に白表示を行った場合の輝度を高くして、高ダイナミックレンジを実現することができる(例えば、特許文献5を参照のこと)。
 オーディオ出力部108は、オーディオ信号処理部106で高音質化などのオーディオ信号処理が施されたオーディオを出力する。オーディオ出力部108は、スピーカーなどの音響発生素子で構成される。例えば、オーディオ出力部108は、複数のスピーカーを組み合わせたスピーカーアレイ(多チャンネルスピーカー若しくは超多チャンネルスピーカー)であってもよく、一部又は全部のスピーカーがテレビ受信装置に外付け接続されていてもよい。
 オーディオ出力部108が複数のスピーカーを備える場合、複数の出力チャンネルを使ってオーディオ信号を再生することによって、音像定位を行うことができる。また、チャンネル数を増やし、スピーカーを多重化することによって、さらに高解像度で音場を制御することが可能である。外付けスピーカーは、サウンドバーなどテレビの前に据え置く形態でもよいし、ワイヤレススピーカーなどテレビに無線接続される形態でもよい。また、その他のオーディオ製品とアンプなどを介して接続されるスピーカーであってもよい。あるいは、外付けスピーカーは、スピーカーを搭載しオーディオ入力可能なスマートスピーカー、無線ヘッドホン/ヘッドセット、タブレット、スマートフォン、あるいはPC(Personal Computer)、又は、冷蔵庫、洗濯機、エアコン、掃除機、あるいは照明器具などのいわゆるスマート家電、又はIoT(Internet of Things)家電装置であってもよい。
 コーン型スピーカーの他、フラットパネル型スピーカー(例えば、特許文献6を参照のこと)をオーディオ出力部108に用いることができる。もちろん、異なるタイプのスピーカーを組み合わせたスピーカーアレイをオーディオ出力部108として用いることもできる。また、スピーカーアレイは、振動を生成する1つ以上の加振器(アクチュエータ)によって画像表示部107を振動させることでオーディオ出力を行うものを含んでもよい。加振器(アクチュエータ)は、画像表示部107に後付けされるような形態であってもよい。
 図3には、ディスプレイへのパネルスピーカー技術の適用例を示している。ディスプレイ300は、背面のスタンド302で支持されている。ディスプレイ300の裏面には、スピーカーユニット301が取り付けられている。スピーカーユニット301の左端には加振器301-1が配置され、また、右端には加振器301-2が配置されており、スピーカーアレイを構成している。各加振器301-1及び301-2が、それぞれ左右のオーディオ信号に基づいてディスプレイ300を振動させて音響出力することができる。スタンド202が、低音域の音響を出力するサブウーファーを内蔵してもよい。なお、ディスプレイ300は、有機EL素子を用いた画像表示部107に相当する。
 再び図2を参照して、テレビ受信装置100の構成について引き続き説明する。
 センサー部109は、テレビ受信装置100の本体内部に装備されるセンサー、並びにテレビ受信装置100に外付け接続されるセンサーの双方を含むものとする。外付け接続されるセンサーには、テレビ受信装置100と同じ空間に存在する他のCE(Consumer Electronics)機器やIoTデバイスに内蔵されるセンサーも含まれる。本実施形態では、センサー部109から得られるセンサー情報が、映像信号処理部105やオーディオ信号処理部106で用いられるニューラルネットワークの入力情報となることを想定している。但し、ニューラルネットワークの詳細については、後述に譲る。
C.センシング機能
 図4には、テレビ受信装置100に装備されるセンサー部109の構成例を模式的に示している。センサー部109は、カメラ部410と、ユーザ状態センサー部420と、環境センサー部430と、機器状態センサー部440と、ユーザプロファイルセンサー部450で構成される。本実施形態では、センサー部109は、ユーザの視聴状況に関するさまざまな情報を取得するために使用される。
 カメラ部410は、画像表示部107に表示された映像コンテンツを視聴中のユーザを撮影するカメラ411と、画像表示部107に表示された映像コンテンツを撮影するカメラ412と、テレビ受信装置100が設置されている室内(あるいは、設置環境)を撮影するカメラ413を含む。
 カメラ411は、例えば画像表示部107の画面の上端縁中央付近に設置され映像コンテンツを視聴中のユーザを好適に撮影する。カメラ412は、例えば表示部219の画面に対向して設置され、ユーザが視聴中の映像コンテンツを撮影する。あるいは、ユーザが、カメラ412を搭載したゴーグルを装着するようにしてもよい。また、カメラ412は、映像コンテンツの音声も併せて記録(録音)する機能を備えているものとする。また、カメラ413は、例えば全天周カメラや広角カメラで構成され、テレビ受信装置100が設置されている室内(あるいは、設置環境)を撮影する。あるいは、カメラ413は、例えばロール、ピッチ、ヨーの各軸回りに回転駆動可能なカメラテーブル(雲台)に乗せたカメラであってもよい。但し、環境センサー430によって十分な環境データを取得可能な場合や環境データそのものが不要な場合には、カメラ410は不要である。
 ユーザ状態センサー部420は、ユーザの状態に関する状態情報を取得する1以上のセンサーからなる。ユーザ状態センサー部420は、状態情報として、例えば、ユーザの作業状態(映像コンテンツの視聴の有無)や、ユーザの行動状態(静止、歩行、走行などの移動状態、瞼の開閉状態、視線方向、瞳孔の大小)、精神状態(ユーザが映像コンテンツに没頭あるいは集中しているかなどの感動度、興奮度、覚醒度、感情や情動など)、さらには生理状態を取得することを意図している。ユーザ状態センサー部420は、発汗センサー、筋電位センサー、眼電位センサー、脳波センサー、呼気センサー、ガスセンサー、イオン濃度センサー、ユーザの挙動を計測するIMU(Inertial Measurement Unit)などの各種のセンサー、ユーザの発話を収音するオーディオセンサー(マイクなど)を備えていてもよい。なお、マイクは、テレビ受信装置100と一体化されている必要は必ずしもなく、サウンドバーなどテレビの前に据え置く製品に搭載されたマイクでもよい。また、有線又は無線によって接続される外付けのマイク搭載機器を利用してもよい。外付けのマイク搭載機器としては、マイクを搭載しオーディオ入力可能なスマートスピーカー、無線ヘッドホン/ヘッドセット、タブレット、スマートフォン、あるいはPC、又は冷蔵庫、洗濯機、エアコン、掃除機、あるいは照明器具などのいわゆるスマート家電、又はIoT家電装置であってもよい。
 環境センサー部430は、当該テレビ受信装置100が設置されている室内など環境に関する情報を計測する各種センサーからなる。例えば、温度センサー、湿度センサー、光センサー、照度センサー、気流センサー、匂いセンサー、電磁波センサー、地磁気センサー、GPS(Global Positioning System)センサー、周囲音を収音するオーディオセンサー(マイクなど)などが環境センサー部430に含まれる。また、環境センサー部430は、テレビ受信装置100が置かれている部屋の大きさやユーザの位置、部屋の明るさなどの情報を取得するようにしてもよい。
 機器状態センサー部440は、当該テレビ受信装置100内部の状態を取得する1以上のセンサーからなる。あるいは、映像デコーダ208やオーディオデコーダ209などの回路コンポーネントが、入力信号の状態や入力信号の処理状況などを外部出力する機能を備えて、機器内部の状態を検出するセンサーとしての役割を果たすようにしてもよい。また、機器状態センサー部440は、当該テレビ受信装置100やその他の機器に対してユーザが行った操作を検出したり、ユーザの過去の操作履歴を保存したりするようにしてもよい。また、機器状態センサー部440は、機器の性能や仕様に関する情報を取得するようにしてもよい。機器状態センサー部440は、機器の性能や仕様に関する情報を記録した内蔵ROM(Read Only Memory)のようなメモリ、あるいはこのようなメモリから情報を読み取るリーダであってもよい。
 ユーザプロファイルセンサー部450は、テレビ受信装置100で映像コンテンツを視聴するユーザに関するプロファイル情報を検出する。ユーザプロファイルセンサー部450は、必ずしもセンサー素子で構成されていなくてもよい。例えばカメラ411で撮影したユーザの顔画像やオーディオセンサーで収音したユーザの発話などに基づいて、ユーザの年齢や性別などのユーザプロファイルを検出するようにしてもよい。また、スマートフォンなどのユーザが携帯する多機能情報端末上で取得されるユーザプロファイルを、テレビ受信装置100とスマートフォン間の連携により取得するようにしてもよい。但し、ユーザプロファイルセンサー部450は、ユーザのプライバシーや機密に関わるように機微情報まで検出する必要はない。また、同じユーザのプロファイルを、映像コンテンツの視聴の度に検出する必要はなく、一度取得したユーザプロファイル情報を保存しておくEEPROM(Electrically Erasable and Programmable ROM)のようなメモリであってもよい。
 また、スマートフォンなどのユーザが携帯する多機能情報端末を、テレビ受信装置100とスマートフォン間の連携により、ユーザ状態センサー部420あるいは環境センサー部430、ユーザプロファイルセンサー部450として活用してもよい。例えば、スマートフォンに内蔵されたセンサーで取得されるセンサー情報や、ヘルスケア機能(歩数計など)、カレンダー又はスケジュール帳・備忘録、メール、ブラウザ履歴、SNS(Social Network Service)の投稿及び閲覧の履歴といったアプリケーションで管理するデータを、ユーザの状態データや環境データに加えるようにしてもよい。また、テレビ受信装置100と同じ空間に存在する他のCE機器やIoTデバイスに内蔵されるセンサーを、ユーザ状態センサー部420あるいは環境センサー部430として活用してもよい。また、インターホンの音を検知するか又はインターホンシステムとの通信で来客を検知するようにしてもよい。また、テレビ受信装置100から出力される映像やオーディオを取得して、解析する輝度計やスペクトル解析部がセンサーとして設けられていてもよい。
D.ユーザとクリエータ間の認識の相違
 図5には、図1に示したようなシステムにおいて、コンテンツ制作側でコンテンツを制作してから、ユーザがテレビ受信装置100でコンテンツを視聴するまでの流れを模式的に示している。図5中、右側をコンテンツ制作側とし、左側をコンテンツ視聴側とする。
 クリエータ501は、映像及びオーディオの編集や制作の技術に秀でている。クリエータ501は、遮音並びに適切な室内照明を有する整った制作環境502の下において、高解像度及び高ダイナミックレンジを有する業務用のモニター503と、高機能のオーサリングシステム504を使って、コンテンツの制作や編集を実施する。
 なお、クリエータ501が制作又は編集した映像信号及びオーディオ信号をオーサリングシステム504の外部に出力する際に、ユーザ511が一般の装備するディスプレイやスピーカーの仕様に適合するように、映像信号に対する高解像度画像から標準解像度画像(又は、低解像度画像)への解像度変換、高ダイナミックレンジから標準ダイナミックレンジ(又は、低ダイナミックレンジ)へのダイナミックレンジ変換、あるいは、オーディオ信号に対する難可聴帯域の成分を除去又は圧縮する帯域縮退といった信号処理が施されることが想定される。
 そして、クリエータ501が制作又は編集したコンテンツは、例えばMPEGなどの所定の符号化方式で符号化処理505が施された後に、放送やインターネットなどの伝送メディア、あるいはブルーレイなどの記録メディアを介して、コンテンツ視聴側に届けられる。
 一方、コンテンツ視聴側では、テレビ受信装置100やその他のコンテンツ再生装置(以下、単に「テレビ受信装置100」とする)が、伝送メディアや記録メディアを介して、符号化データを受信する。テレビ受信装置100は、例えばユーザ宅のリビングルーム512などに設置されている。テレビ受信装置100内では、受信した符号化データに対して、MPEGなどの所定の符号化方式に従った復号処理515が施されて映像ストリームとオーディオストリームに分離され、さらに信号処理を施した後に、映像の画面表示及びオーディオ出力を実施する。そして、ユーザ511は、テレビ受信装置100の映像及びオーディオを視聴する。
 テレビ受信装置100内での映像信号に対する信号処理として、ノイズ低減、並びに、画像表示部107の性能に適合するような超解像処理、ダイナミックレンジ変換処理、及びガンマ処理のうち少なくとも1つを含む。また、テレビ受信装置100内でのオーディオ信号に対する信号処理として、オーディオ出力部108の性能に適合するような帯域拡張処理や、音像定位処理のうち少なくとも1つを含む。また、映像信号及びオーディオ信号の各々に対する信号処理は、映像信号処理部105及びオーディオ信号処理部106でそれぞれ実施される。
 ここで、制作したコンテンツに対するクリエータ501の認識と、視聴したコンテンツに対するユーザ511の認識との間にギャップが生じて、クリエータ501が意図した通りにユーザ511がコンテンツを視聴できないことが懸念される。例えば、クリエータ501がコンテンツの制作又は編集時に意図した色合いとは異なる色を、ユーザ511がテレビ画面上で視認することが懸念される。また、コンテンツを視聴するユーザ511が、クリエータ501が制作又は編集時に意図した通りの喜怒哀楽の感情を抱かない、あるいはユーザ511が、クリエータ501が意図した通りの感情を抱いたとしても、喜怒哀楽のレベルがクリエータ501の意図と一致しないといった、クリエータ501とユーザ511間でコンテンツに対する認識が相違する現象が懸念される。
 制作したコンテンツに対するクリエータ501の認識と、視聴したコンテンツに対するユーザ511の認識との間にギャップが生じる原因として、以下のようなものが考えられる。
(1)信号処理による原因(信号的不一致)
 伝送メディアを介してコンテンツを伝送する前後、又は記録メディアからコンテンツを再生する前後で非可逆的に符号化及び復号処理、圧縮伸長処理が実施されることや、ノイズが発生すること、高画質化や高音質化といった信号処理の過程で、映像やオーディオがクリエータ501の本来の意図から外れるという、信号的不一致によって、制作したコンテンツに対するクリエータ501の認識と、視聴したコンテンツに対するユーザ511の認識との間にギャップが生じる。コンテンツ制作側で扱うRAW信号をコンテンツ視聴側に伝送する際にノイズが発生し、さらには符号化及び復号処理の過程で色サンプリングや階調変換などの非可逆処理により、信号的不一致が発生する。
(2)ハードウェア特性による原因(環境的不一致(1))
 クリエータ501は、高解像度及び高ダイナミックレンジを有する業務用のモニター503と、高機能のオーサリングシステム504を使って、コンテンツの制作や編集を実施する。一方、ユーザ511は、市販のテレビ受信装置100でコンテンツを視聴する。業務用のモニター503とテレビ受信装置100との性能差や特性差といったハードウェア的不一致から、同じ映像信号及びオーディオ信号が入力されても、出力される映像やオーディオに相違が生じる。例えば、表示デバイスが液晶の場合、視野角特性、応答特性、並びに温度特性の相違によって、映像に差異が生じる。また、表示デバイスがLEDの場合、色毎の応答特性や温度特性の相違によって、映像に差異が生じる。
 なお、映像系に関する性能情報や特性情報は、例えば、画面サイズや最大輝度、解像度、ディスプレイの発光形式、バックライトの種類に基づいて決まる情報であってよい。オーディオ系に関する性能情報や特性情報は、例えば、スピーカーの最大出力や対応チャンネル数、スピーカーの材質、音声出力方式に基づいて決まる情報であってよい。この種の性能情報や特性情報は、個々の製品の仕様情報から取得することができる。また、業務用のモニター503とテレビ受信装置100との性能差や特性差は、各々から出力される映像信号やオーディオ信号を輝度計やスペクトル解析装置を用いて解析した結果であってもよい。
(3)環境による原因(環境的不一致(2))
 クリエータ501は、遮音並びに適切な室内照明を有する整った制作環境502の下において、コンテンツの制作や編集を実施する。一方、ユーザ511は、ユーザ宅のリビングルーム512などに設置されているテレビ受信装置100でコンテンツを視聴する。制作環境502とリビングルーム512とでは、室内照明や自然光の強度、照射角度、色が相違する。また、制作環境502に設置された業務用のモニター503とテレビ受信装置100とでは、画面上の反射光の強度、反射角度、色が相違する。このような環境的不一致によって、制作したコンテンツに対するクリエータ501の認識と、視聴したコンテンツに対するユーザ511の認識との間にギャップが生じる。
 また、制作環境502とリビングルーム512という各々の視聴環境に存在する視聴者数や、各視聴者の位置姿勢(言い換えれば、画面までの距離や、画面に対する視線の角度)の不一致によって、制作したコンテンツに対するクリエータ501の認識と、視聴したコンテンツに対するユーザ511の認識との間にギャップが生じる。例えば、ユーザ511が家族など複数人と一緒にコンテンツを視聴している場合、同じシーンを家族で共感することによって感情のレベルは高揚する。また、家族との間でコンテンツ以外の話題で話をしているときには、シーン毎の感情のレベルの変化は生じない。また、ユーザ511が家族など複数人と一緒にコンテンツを視聴している場合、ユーザ511は、必ずしもテレビ受信装置100の画面の正面から映像を視聴しているとは限らず、斜め方向から映像を視聴することも想定される。ユーザ511が斜め方向から映像を視聴する場合、正面から映像を視聴する場合と比較して、感情のレベルの変化が抑制される。また、ユーザ511がスマートフォンを操作するなどコンテンツを「ながら視聴」する場合には、コンテンツの注視度が著しく低下することから、シーン毎の感情のレベルの変化は抑制される
 他方、クリエータ501は、基本的には、業務用のモニター503の画面に対峙して、集中してコンテンツの制作又は編集の作業を行うので、制作したコンテンツに対するクリエータ501の認識は、視聴者数や位置姿勢、ながら視聴の影響を受けない。したがって、視聴者数や位置姿勢、ながら視聴といった視聴環境の不一致が、制作したコンテンツに対するクリエータ501の認識と、視聴したコンテンツに対するユーザ511の認識との間のギャップの原因となる。
(4)生理上の原因(生理的不一致)
 クリエータ501とユーザ511間における、視力、動体視力、コントラスト感度、フリッカー感度といった生理学上の特徴の相違によっても、制作したコンテンツに対するクリエータ501の認識と、視聴したコンテンツに対するユーザ511の認識との間のギャップの原因となる。
 また、クリエータ501とユーザ511間における、健康状態や精神状態の相違も、制作したコンテンツに対するクリエータ501の認識と、視聴したコンテンツに対するユーザ511の認識との間のギャップの原因となる。クリエータ501は、基本的に、プロファイルとして、良好な健康状態において、一定の緊張度若しくは集中度を以ってコンテンツの制作又は編集を行う。一方、ユーザ511は、自宅でさまざまな健康状態及び精神状態でコンテンツを視聴することが想定される。このため、クリエータ501とユーザ511間で健康状態や精神状態の不一致が生じ易く、かかる不一致に基づいて、同じコンテンツに対する認識のギャップが生じ得る。
E.人工知能を利用した認識距離制御(1)
 コンテンツの制作側若しくは供給側にとっては、制作したコンテンツに対するクリエータ501の認識と、視聴したコンテンツに対するユーザ511の認識との間のギャップ、すなわち認識距離を縮めて、クリエータ501が意図した通りにユーザ511がコンテンツを視聴できるようにしたい。また、ユーザ511の多くは、クリエータ501と同じ認識でコンテンツを視聴することを望むはずである。
 テレビ受信装置100内で、受信ストリームの復号後の映像信号処理部105及びオーディオ信号処理部106のうち少なくとも1つにおいて、認識距離を縮めるような信号処理を行う方法が考えられる。
 例えば、クリエータが選定した基準白(diffuse white)の情報をMPEGの伝送コンテナを利用してソース機器からシンク機器へ伝送し、シンク機器側では基準白に基づいてクリエータの意図を反映するようにダイナミックレンジ変換を行なう画像表示システムが提案されている(特許文献3を参照のこと)。しかしながら、認識距離の原因は、信号的不一致、環境的不一致、生理的不一致など多岐にわたるため、基準白の輝度レベルに基づくダイナミックレンジ変換という信号処理だけでは、認識距離を十分に縮めることは困難と思料される。
 多岐にわたるさまざまな原因を考慮して、クリエータとユーザ間の認識距離を縮めるような映像信号処理の最適解を、フレーム単位でリアルタイムに算出するのは難しい。オーディオ信号処理の最適解をリアルタイムで算出することも、同様に困難である。
 そこで、本開示に係る技術では、映像信号処理部105において、クリエータとユーザ間の認識距離を縮めるための映像信号処理を、深層学習などの事前学習した学習モデルを有する画作りニューラルネットワークを用いて実施する。コンテンツ制作側とユーザ間では、信号的不一致、環境的不一致、生理的不一致のうち少なくとも1つが存在し、このような不一致に起因して認識距離が発生する。なお、信号不一致は、映像やオーディオなどの再生信号を複数の成分からなるベクトルで表現した際に、クリエータ側でコンテンツを制作したときの再生信号と、テレビ受信装置100でコンテンツを出力するときの再生信号のベクトル距離(仮に、「信号距離」とも言う)が0でないことを意味する。原映像信号(若しくは、復号後の映像信号)及びコンテンツ制作側とユーザ間の各不一致要因と、ユーザがクリエータと同じ認識を持つことができるようにするための映像信号処理との相関関係を、深層学習などにより画作り用ニューラルネットワークに事前学習させておく。そして、映像信号処理部105は、この画作り用ニューラルネットワークを用いて、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理を実施する。その結果、ユーザがクリエータと同じ認識を持つことができる映像を、画像表示部107に表示することができる。
 また、本開示に係る技術では、オーディオ信号処理部106において、クリエータとユーザ間の認識距離を縮めるためのオーディオ信号処理を、深層学習などの事前学習した学習モデルを有する音作りニューラルネットワークを用いて実施する。コンテンツ制作側とユーザ間では、信号的不一致、環境的不一致、生理的不一致が存在する(前述)。原オーディオ信号(若しくは、復号後のオーディオ信号)及びコンテンツ制作側とユーザ間の各不一致要因と、ユーザがクリエータと同じ認識を持つことができるようにするためのオーディオ信号処理との相関関係を、深層学習などにより音作り用ニューラルネットワークに事前学習させておく。そして、オーディオ信号処理部106は、この音作り用ニューラルネットワークを用いて、帯域拡張や音像定位、その他のオーディオ信号処理を実施する。その結果、ユーザがクリエータと同じ認識を持つことができる音響をオーディオ出力部108からオーディオ出力することができる。なお、信号処理部150内の画作りと音作りを併せて行うニューラルネットワークに対し、信号的不一致、環境的不一致、生理的不一致を解消してユーザとクリエータ間の認識距離を最小化するための映像信号処理及びオーディオ信号処理を学習するように構成することもできる。画作り及び音作りニューラルネットワークの学習(事前学習)は、テレビ受信装置100上で行うこともできるが、後述するようにクラウド上で膨大量の教師データを用いて実施することがより好ましい。
 ニューラルネットワークは、学習を重ねることで、ニューロン間の結合重み係数を変化させながら、問題に対する解決ルールを自動的に推定することができるようになる。学習済みのニューラルネットワークは、ニューロン間の最適な結合重み係数を持つ学習モデルとして表される。ニューラルネットワークからなる人工知能に大量の訓練用データを与えて深層学習を行うことにより、要求される機能を提供できるように訓練させて、訓練済みのモデルにより動作する人工知能を備えた装置を開発することが可能である。また、深層学習などの訓練を通じて、開発者には想像できない特徴を多くのデータから抽出して、開発者がアルゴリズムを想定し得ないような複雑な問題解決を行うことのできる人工知能を有する装置を開発することができる。
 図6には、クリエータとユーザ間の認識距離を縮めるためのニューラルネットワークを学習及び運用するための人工知能システム600の構成例を模式的に示している。図示の人工知能システム600は、クラウドを利用して構成されることを想定している。クラウドを利用した人工知能システム600は、ローカル環境610とクラウド620からなる。
 ローカル環境610は、テレビ受信装置100を設置した動作環境(家庭)、あるいは家庭内に設置されたテレビ受信装置100に相当する。図6には、簡素化のため1つのローカル環境610しか描いていないが、実際には、1つのクラウド620に対して膨大数のローカル環境が接続されることが想定される。また、本実施形態では、ローカル環境610としてテレビ受信装置100が動作する家庭内のような動作環境を主に例示したが、ローカル環境610は、スマートフォンやタブレット、パーソナルコンピュータといったコンテンツを表示するディスプレイを備えた任意の装置が動作する環境(駅、バス停、空港、ショッピングセンターのような公共施設、工場や職場などの労働設備を含む)であってもよい。
 上述したように、テレビ受信装置100内には、深層学習などの事前学習した学習モデルを有する画作りニューラルネットワークを用いて、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理を実施する映像信号処理部105と、深層学習などの事前学習した学習モデルを有する音作りニューラルネットワークを用いて、帯域拡張や音像定位といったオーディオ信号の処理を実施するオーディオ信号処理部106が搭載されている。図6では、簡素化のため、画作りニューラルネットワークを用いた映像信号処理部105と音作りニューラルネットワークを用いたオーディオ信号処理部106をまとめて、信号処理部150内で用いられる1つの信号処理ニューラルネットワーク611と総称することにする。
 一方、クラウド620には、人工知能を提供する人工知能サーバ(前述)(1つ以上のサーバ装置から構成される)が装備されている。人工知能サーバは、信号処理ニューラルネットワーク621と、ユーザの感性を学習するユーザ感性ニューラルネットワーク622と、クリエータの感性を学習するクリエータ感性ニューラルネットワーク623と、エキスパート教師データベース624と、フィードバックデータベース625が配設されている。
 エキスパート教師データベース624は、映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報に関する膨大なサンプルデータを蓄積している。ここで言うユーザ側情報は、ユーザの状態やプロファイル、生理情報、ユーザが使用するテレビ受信装置100が設置された環境に関する情報、ユーザが使用するテレビ受信装置100のハードウェアなどの特性情報、並びに、テレビ受信装置100において映像及びオーディオの受信信号に対して適用する復号などの信号処理に関する信号情報を含むものとする。なお、ユーザのプロファイルには、ユーザのSNSの投稿及び閲覧の履歴(SNSにアップした画像や観た画像)などの過去の環境情報を含んでいてもよい。ユーザ側情報は、テレビ受信装置100に備えられたセンサー部109によってほとんどすべて取得可能であることを想定している。また、クリエータ側情報は、上記のユーザ側情報に対応するクリエータ側の情報であり、クリエータの状態やプロファイル、クリエータが使用する業務用のモニター及びオーサリングシステムに関するハードウェアなどの特性情報、並びにクリエータが制作した映像信号及びオーディオ信号を伝送メディア又は記録メディアにアップロードする際に適用する符号化などの信号処理に関する信号情報を含むものとする。クリエータ側情報は、コンテンツの制作環境にセンサー部109と同等のセンサー機能を装備することによって取得可能であるものとする。
 信号処理ニューラルネットワーク621は、ローカル環境610に配置された信号処理ニューラルネットワーク611と同一構成であり、画作りニューラルネットワークと音作りニューラルネットワークを含み、又は画作りニューラルネットワークと音作りニューラルネットワークをまとめた1つのニューラルネットワークである。信号処理ニューラルネットワーク621は、学習(継続的な学習を含む)を目的としてクラウド620に配置される。これに対し、ローカル環境610の信号処理ニューラルネットワーク611は、信号処理ニューラルネットワーク621による学習結果に基づいて構成され、運用目的でテレビ受信装置100内の信号処理部150(又は、映像信号処理部105とオーディオ信号処理部106の各々)に組み込まれる。
 クラウド620側の信号処理ニューラルネットワーク621は、クラウド620に設置されているエキスパート教師データベース624を用いて、原映像信号(若しくは、復号後の映像信号)、原オーディオ信号(若しくは、復号後のオーディオ信号)、ユーザ側情報及びクリエータ側情報間と、コンテンツに対してユーザがクリエータと同じ認識を持つことができるようにするための映像信号処理及びオーディオ信号処理との相関関係を学習する。なお、ユーザ側情報には、ユーザのSNSの投稿及び閲覧の履歴(SNSにアップした画像や観た画像)などの過去の環境情報を含んでいてもよい。そして、信号処理ニューラルネットワーク621は、映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報を入力とし、ユーザがコンテンツに対してクリエータと同じ認識を持つことができるようにする映像信号処理及びオーディオ信号処理を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号を出力とする。
 ユーザ感性ニューラルネットワーク622とクリエータ感性ニューラルネットワーク623は、信号処理ニューラルネットワーク621の学習状況の評価に用いられるニューラルネットワークである。
 ユーザ感性ニューラルネットワーク622は、ユーザの感性を学習するニューラルネットワークであり、映像信号及びオーディオ信号、ユーザ側情報と、映像及びオーディオ出力に対するユーザの認識との相関関係を学習する。図6に示す人工知能システム600では、ユーザ感性ニューラルネットワーク622は、信号処理ニューラルネットワーク621からの出力(ユーザとクリエータ間でコンテンツに対する認識が一致するように信号処理が施された映像信号及びオーディオ信号)と、ユーザ側情報を入力とし、入力された映像信号及びオーディオ信号に対するユーザの認識を推定して出力する。
 また、クリエータ感性ニューラルネットワーク623は、クリエータの感性を学習するニューラルネットワークであり、映像信号及びオーディオ信号、クリエータ側情報と、映像及びオーディオ出力に対するクリエータの認識との相関関係を学習する。図6に示す人工知能システム600では、クリエータ感性ニューラルネットワーク623は、(信号処理ニューラルネットワーク621に入力される)原映像信号及び原オーディオ信号と、クリエータ側情報を入力とし、入力された映像信号及びオーディオ信号に対するクリエータの認識を推定して出力する。
 例えば、ユーザ感性ニューラルネットワーク622が推定するユーザの認識と、クリエータ感性ニューラルネットワーク623が推定するクリエータの認識との差分に基づく損失関数を定義する。そして、損失関数が最小となるように、バックプロパゲーション(誤差逆伝播法)により信号処理ニューラルネットワーク621の学習を実施する。
 ローカル環境610側では、信号処理ニューラルネットワーク611は、テレビ受信装置100で受信中又は再生中の映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報を入力とし、クラウド620側での信号処理ニューラルネットワーク621の学習結果に基づいて、ユーザがクリエータと同じ認識を持つことができるような映像信号処理及びオーディオ信号処理を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号を出力とする。なお、テレビ受信装置100がクリエータ側情報をリアルタイムで取得することは困難である。そこで、デフォルト設定されたクリエータ側情報や一般的なクリエータ側情報を信号処理ニューラルネットワーク611への固定入力値として設定してもよい。また、クリエータ側情報は、テレビ受信装置100で再生されるコンテンツに付随するメタデータとして取得されてもよい。具体的には、クリエータ側情報が放送信号やオンライン配信の映像信号でコンテンツとともに配信されてもよいし、記録メディアにコンテンツとともに記録されて配布されてもよい。また、放送時やオンライン配信時には、コンテンツとクリエータ側情報が共通のストリームで配信されてもよいし、異なるストリームで配信されてよい。そして、信号処理ニューラルネットワーク611から出力される映像信号及びオーディオ信号は、それぞれ画像表示部107及びオーディオ出力部108で表示及びオーディオ出力される。ここでは、簡素化のため、信号処理ニューラルネットワーク611への入力を単に「入力値」とも呼び、信号処理ニューラルネットワーク611からの出力を単に「出力値」とも呼ぶことにする。
 ローカル環境610のユーザ(例えば、テレビ受信装置100の視聴者)は、信号処理ニューラルネットワーク611の出力値を評価して、例えばテレビ受信装置100のリモコン、音声エージェント、連携するスマートフォンなどを介してテレビ受信装置100から出力される映像及びオーディオに対する認識をフィードバックする。フィードバックは、例えば、画音質設定のような設定情報をユーザが設定する操作に基づいて生成されてもよい。ローカル環境610における入力値、出力値、及びユーザからのフィードバック(ユーザFB)は、クラウド620に転送されて、エキスパート教師データベース624及びフィードバックデータベース625にそれぞれ蓄積される。
 クラウド620内では、第1ステップとしての評価用のユーザ感性ニューラルネットワーク622及びクリエータ感性ニューラルネットワーク623の学習と、第2ステップとしての信号処理ニューラルネットワーク621の学習が交互に実施される。第1ステップでは、信号処理ニューラルネットワーク621を固定して(学習を停止して)、ユーザ感性ニューラルネットワーク622及びクリエータ感性ニューラルネットワーク623の学習を実施する。これに対し、第2ステップでは、ユーザ感性ニューラルネットワーク622及びクリエータ感性ニューラルネットワーク623を固定して(学習を停止して)、信号処理ニューラルネットワーク621の学習を実施する。
 ユーザ感性ニューラルネットワーク622は、ユーザの感性を学習するニューラルネットワークである。第1ステップでは、ユーザ感性ニューラルネットワーク622は、信号処理ニューラルネットワーク621から出力される映像信号及びオーディオ信号と、信号処理ニューラルネットワーク621への入力と同じユーザ側情報を入力して、信号処理が施された映像信号及びオーディオ信号に対するユーザの認識を推定して出力する。そして、信号処理ニューラルネットワーク621から出力される映像信号及びオーディオ信号に対してユーザ感性ニューラルネットワーク622が推定するユーザの認識と、フィードバックデータベース625から読み出される現実のユーザが持つ認識との差分に基づく損失関数を定義して、損失関数が最小となるように、バックプロパゲーション(誤差逆伝播法)によりユーザ感性ニューラルネットワーク622の学習を実施する。この結果、ユーザ感性ニューラルネットワーク622は、信号処理ニューラルネットワーク621によってユーザとクリエータ間で認識が一致するように信号処理が施された映像信号及びオーディオ信号に対して、ユーザ感性ニューラルネットワーク622が推定するユーザの認識が現実のユーザが持つ認識に近づくように、学習されていく。
 クリエータ感性ニューラルネットワーク623は、クリエータの感性を学習するニューラルネットワークである。第1ステップでは、クリエータ感性ニューラルネットワーク623は、信号処理ニューラルネットワーク621への入力と同じ原映像信号及び原オーディオ信号とクリエータ側情報を入力して、原映像信号及び原オーディオ信号に対するクリエータの認識を推定して出力する。そして、原映像信号及び原オーディオ信号に対してクリエータ感性ニューラルネットワーク623が推定するクリエータの認識と、フィードバックデータベース625から読み出される現実のクリエータが持つ認識との差分に基づく損失関数を定義して、損失関数が最小となるように、バックプロパゲーション(誤差逆伝播法)によりクリエータ感性ニューラルネットワーク623の学習を実施する。この結果、クリエータ感性ニューラルネットワーク623は、原映像信号及び原オーディオ信号(すなわち、クリエータ自身が制作したコンテンツ)に対して、クリエータ感性ニューラルネットワーク623が推定するクリエータの認識が現実のクリエータが持つ認識に近づくように、学習されていく。
 続く第2ステップでは、ユーザ感性ニューラルネットワーク622及びクリエータ感性ニューラルネットワーク623をともに固定して、今度は信号処理ニューラルネットワーク621の学習を実施する。フィードバックデータベース625(前述)からフィードバックデータを取り出すと、フィードバックデータに含まれる入力値が信号処理ニューラルネットワーク621に入力される。信号処理ニューラルネットワーク621は、入力値に対し、ユーザがクリエータと同じ認識を持つことができるような映像信号処理及びオーディオ信号処理を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号を出力とする。
 次いで、ユーザ感性ニューラルネットワーク622は、信号処理ニューラルネットワーク621から出力された映像信号及びオーディオ信号と、ユーザ側情報を入力し、入力された映像信号及びオーディオ信号に対するユーザの認識を推定して出力する。また、クリエータ感性ニューラルネットワーク623は、フィードバックデータベース625から読み出された入力値(信号処理ニューラルネットワーク621への入力と同じ原映像信号及び原オーディオ信号)を入力して、クリエータの認識を推定して出力する。
 例えば、ユーザ感性ニューラルネットワーク622が推定するユーザの認識と、クリエータ感性ニューラルネットワーク623が推定するクリエータの認識との差分に基づく損失関数を定義する。そして、損失関数が最小となるように、バックプロパゲーション(誤差逆伝播法)により信号処理ニューラルネットワーク621の学習を実施する。
 また、信号処理ニューラルネットワーク621の学習時において、エキスパート教師データベース624を教師データに用いてもよい。また、フィードバックデータベース625やエキスパート教師データベース624など、2以上の教師データを用いて学習を行うようにしてもよい。この場合、教師データ毎に算出した損失関数を重み付け加算して、最小となるように信号処理ニューラルネットワーク621の学習を行うようにしてもよい。
 上述したような第1ステップとしてのユーザ感性ニューラルネットワーク622及びクリエータ感性ニューラルネットワーク623の学習と、第2ステップとしての信号処理ニューラルネットワーク621の学習が交互に実施することによって、信号処理ニューラルネットワーク621が出力する映像信号及びオーディオ信号がユーザとクリエータ間の認識を近づける確度が向上していく。そして、学習により確度が向上した信号処理ニューラルネットワーク621におけるニューロン間の最適な結合重み係数の集合からなる学習モデルを、ローカル環境610のテレビ受信装置100にダウンロードして、信号処理ニューラルネットワーク611のニューロン間結合重み係数を設定することで、ユーザ(若しくは、ユーザが使用するテレビ受信装置100)もさらに学習が進んだ信号処理ニューラルネットワーク611を利用することができる。その結果、テレビ受信装置100において出力される映像及びオーディオに対するユーザの認識が、コンテンツ制作時のクリエータの認識と一致する機会が増えていく。
 クラウド620側で学習により確度が向上した学習モデルをローカル環境610に提供する方法は任意である。例えば、信号処理ニューラルネットワーク621の学習モデルのビットストリームを圧縮して、クラウド620からローカル環境610のテレビ受信装置100へダウンロードするようにしてもよい。圧縮してもビットストリームのサイズが大きいときには、学習モデルを複数に分割して、複数回に分けて圧縮ビットストリームをダウンロードするようにしてもよい。学習モデルはニューラルネットワークにおけるニューロン間の結合重み係数の集合であり、分割ダウンロードする際には、ニューラルネットワークの層毎、あるいは層内の領域毎に分割するようにしてもよい。
 図6に示す人工知能システム600に基づいて学習された信号処理ニューラルネットワーク611をテレビ受信装置100に搭載して使用することで、ユーザとクリエータ間で信号的一致551、環境及び生理的一致552、及び信号的一致553(図5を参照のこと)を実現して、ユーザとクリエータ間の認識距離を短縮することができる。
 信号処理ニューラルネットワーク(NN)611の入力と、ユーザ感性ニューラルネットワーク622及びクリエータ感性ニューラルネットワーク623の出力を、以下の表1にまとめておく。信号処理ニューラルネットワーク621についても同様である。信号処理ニューラルネットワーク621への入力は、基本的にはテレビ受信装置100に装備されるセンサー部109によるセンサー情報を利用することができるが、もちろん他のデバイスからの情報を利用するようにしてもよい。
Figure JPOXMLDOC01-appb-T000001
 続いて、信号処理ニューラルネットワーク621(又は611)の再学習の頻度について説明しておく。
 ユーザの視力・動体視力、コントラスト感度、フリッカー感度といった生理情報やユーザの趣味嗜好は、時間の経過とともに変化していく。そこで、これらに関する入力に対する信号処理ニューラルネットワーク621の再学習は、長期間にわたり所定の頻度で実施することが望ましい。
 また、ユーザが使用するテレビ受信装置100などの再生機器は、経時的に劣化し、さらにエッジでの再生環境や、フォグ又はクラウドとの接続状況は緩やかに変化する。したがって、再生機器や再生環境に関する入力に対する信号処理ニューラルネットワーク621の再学習は、中期的に実施することが望ましい。
 また、テレビ受信装置100の通信環境は、使用する通信メディアの種別(又は、メディアの帯域)に応じて数パターンに分類することが可能である。視聴環境は、周辺照明・自然光(強度/角度/色)、画面上の反射(強度/角度/色)、眼鏡の着用の有無(着用している場合は、レンズの光学特性)、スマホの使用状況(ながら視聴か否か)を含むが、これらの組み合わせを数パターンに分類することが可能である。そこで、通信環境や視聴環境について組み合わせのパターンをあらかじめ所定数だけ定義し、パターン毎の学習モデルを中間的に生成しておいてもよい。ユーザ側で通信環境や視聴環境は短期間で変動する可能性があるが、変化する度に、そのときの通信環境及び視聴環境の組み合わせパターンに適合する学習モデル、又は近似する通信環境及び視聴環境の組み合わせパターンに適合する学習モデルを適応的に使用するようにしてもよい。
F.人工知能を利用した信号距離制御
 上記E項で説明したような、人工知能を利用した映像信号処理及びオーディオ信号処理によってユーザとクリエータ間の認識距離を縮める方法に加えて、人工知能を利用した映像信号処理及びオーディオ信号処理によってユーザとクリエータ間の信号距離を最小化するような処理を実現することもできる。この項では、人工知能を利用したユーザとクリエータ間の信号距離制御について説明する。
 クリエータによる制作時のコンテンツとユーザが視聴するコンテンツの間では、信号的不一致、環境的不一致、生理的不一致のうち少なくとも1つに起因して、信号距離が発生する。信号的不一致、環境的不一致、生理的不一致の詳細については、図5を参照しながら既に説明した通りである。この項で説明する信号距離制御は、信号的不一致、環境的不一致、生理的不一致のうち少なくとも1つに起因する信号距離を最小化することを目的とする。
 また、複数のユーザがテレビ受信装置100を利用しているような場合、ユーザ間でも認識距離があることから、ユーザとクリエータ間の認識距離制御を行うことは難しい。何故ならば、複数のユーザのうち誰とクリエータ間の認識距離を制御すべきか不明であり、いずれか1人のユーザとクリエータ間の認識距離を制御すると他のユーザとクリエータ間の認識距離が広がる可能性もあるからである。このような場合、上記E項で説明した認識距離制御よりも、この項で説明する信号距離制御の方が好ましいと言うこともできる。
 図10には、クリエータとユーザ間の信号距離を縮めるためのニューラルネットワークを学習及び運用するための人工知能システム1000の構成例を模式的に示している。図示の人工知能システム1000は、クラウドを利用して構成されることを想定している。クラウドを利用した人工知能システム1000は、ローカル環境1010とクラウド1020からなる。
 ローカル環境1010は、テレビ受信装置100を設置した動作環境(家庭)、あるいは家庭内に設置されたテレビ受信装置100に相当する。図10には、簡素化のため1つのローカル環境1010しか描いていないが、実際には、1つのクラウド1020に対して膨大数のローカル環境が接続されることが想定される。また、本実施形態では、ローカル環境1010としてテレビ受信装置100が動作する家庭内のような動作環境を主に例示したが、ローカル環境1010は、スマートフォンやタブレット、パーソナルコンピュータといったコンテンツを表示するディスプレイを備えた任意の装置が動作する環境(駅、バス停、空港、ショッピングセンターのような公共施設、工場や職場などの労働設備を含む)であってもよい。
 上述したように、テレビ受信装置100内には、深層学習などの事前学習した学習モデルを有する画作りニューラルネットワークを用いて、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理を実施する映像信号処理部105と、深層学習などの事前学習した学習モデルを有する音作りニューラルネットワークを用いて、帯域拡張や音像定位といったオーディオ信号の処理を実施するオーディオ信号処理部106が搭載されている。図10では、簡素化のため、画作りニューラルネットワークを用いた映像信号処理部105と音作りニューラルネットワークを用いたオーディオ信号処理部106をまとめて、信号処理部150内で用いられる1つの信号処理ニューラルネットワーク1011と総称することにする。
 一方、クラウド1020には、人工知能を提供する人工知能サーバ(前述)(1つ以上のサーバ装置から構成される)が装備されている。人工知能サーバは、信号処理ニューラルネットワーク1021と、信号処理ニューラルネットワーク1021の出力と教師データを比較する比較部1022と、エキスパート教師データベース1024と、フィードバックデータベース1025が配設されている。
 エキスパート教師データベース1024は、映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報に関する膨大なサンプルデータを蓄積している。ここで言うユーザ側情報は、ユーザの状態やプロファイル、生理情報、ユーザが使用するテレビ受信装置100が設置された環境に関する情報、ユーザが使用するテレビ受信装置100のハードウェアなどの特性情報、並びに、テレビ受信装置100において映像及びオーディオの受信信号に対して適用する復号などの信号処理に関する信号情報を含むものとする。なお、ユーザのプロファイルには、ユーザのSNSの投稿及び閲覧の履歴(SNSにアップした画像や観た画像)などの過去の環境情報を含んでいてもよい。ユーザ側情報は、テレビ受信装置100に備えられたセンサー部109によってほとんどすべて取得可能であることを想定している。また、クリエータ側情報は、上記のユーザ側情報に対応するクリエータ側の情報であり、クリエータの状態やプロファイル、クリエータが使用する業務用のモニター及びオーサリングシステムに関するハードウェアなどの特性情報、並びにクリエータが制作した映像信号及びオーディオ信号を伝送メディア又は記録メディアにアップロードする際に適用する符号化などの信号処理に関する信号情報を含むものとする。クリエータ側情報は、コンテンツの制作環境にセンサー部109と同等のセンサー機能を装備することによって取得可能であるものとする。
 信号処理ニューラルネットワーク1021は、ローカル環境1010に配置された信号処理ニューラルネットワーク1011と同一構成であり、画作りニューラルネットワークと音作りニューラルネットワークを含み、又は画作りニューラルネットワークと音作りニューラルネットワークをまとめた1つのニューラルネットワークである。信号処理ニューラルネットワーク1021は、学習(継続的な学習を含む)を目的としてクラウド1020に配置される。これに対し、ローカル環境1010の信号処理ニューラルネットワーク1011は、信号処理ニューラルネットワーク1021による学習結果に基づいて構成され、運用目的でテレビ受信装置100内の信号処理部150(又は、映像信号処理部105とオーディオ信号処理部106の各々)に組み込まれる。
 クラウド1020側の信号処理ニューラルネットワーク1021は、クラウド1020に設置されているエキスパート教師データベース1024を用いて、原映像信号(若しくは、復号後の映像信号)、原オーディオ信号(若しくは、復号後のオーディオ信号)、ユーザ側情報及びクリエータ側情報間と、テレビ受信装置100が受信し再生するコンテンツの信号をクリエータによって作成された原コンテンツに近い信号にする、すなわち信号距離を最小化するための映像信号処理とオーディオ信号処理との相関関係を学習する。なお、ユーザ側情報には、ユーザのSNSの投稿及び閲覧の履歴(SNSにアップした画像や観た画像)などの過去の環境情報を含んでいてもよい。そして、信号処理ニューラルネットワーク1021は、映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報を入力とし、ユーザとクリエータ間で信号距離を最小化する映像信号処理及びオーディオ信号処理を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号を出力とする。
 ローカル環境1010側では、信号処理ニューラルネットワーク1011は、テレビ受信装置100で受信中又は再生中の映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報を入力とし、クラウド1020側での信号処理ニューラルネットワーク1021の学習結果に基づいて、ユーザとクリエータ間の信号距離を最小化するような映像信号処理及びオーディオ信号処理を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号を出力とする。なお、テレビ受信装置100がクリエータ側情報をリアルタイムで取得することは困難である。そこで、デフォルト設定されたクリエータ側情報や一般的なクリエータ側情報を信号処理ニューラルネットワーク1011への固定入力値として設定してもよい。また、クリエータ側情報は、テレビ受信装置100で再生されるコンテンツに付随するメタデータとして取得されてもよい。具体的には、クリエータ側情報が放送信号やオンライン配信の映像信号でコンテンツとともに配信されてもよいし、記録メディアにコンテンツとともに記録されて配布されてもよい。また、放送時やオンライン配信時には、コンテンツとクリエータ側情報が共通のストリームで配信されてもよいし、異なるストリームで配信されてよい。そして、信号処理ニューラルネットワーク1011から出力される映像信号及びオーディオ信号は、それぞれ画像表示部107及びオーディオ出力部108で表示及びオーディオ出力される。ここでは、簡素化のため、信号処理ニューラルネットワーク1011への入力を単に「入力値」とも呼び、信号処理ニューラルネットワーク1011からの出力を単に「出力値」とも呼ぶことにする。
 ローカル環境1010のユーザ(例えば、テレビ受信装置100の視聴者)は、信号処理ニューラルネットワーク1011の出力値を評価して、例えばテレビ受信装置100のリモコン、音声エージェント、連携するスマートフォンなどを介してテレビ受信装置100から出力される映像及びオーディオに対する認識をフィードバックする。フィードバックは、例えば、画音質設定のような設定情報をユーザが設定する操作に基づいて生成されてもよい。ローカル環境1010における入力値、出力値、及びユーザからのフィードバック(ユーザFB)は、クラウド1020に転送されて、エキスパート教師データベース1024及びフィードバックデータベース1025にそれぞれ蓄積される。
 比較部1022は、信号処理ニューラルネットワーク1021から出力される映像信号及びオーディオ信号を、教師データすなわち信号処理ニューラルネットワーク1021に入力されたものと同じ原映像信号及び原オーディオ信号と比較する。例えば、信号処理ニューラルネットワーク1021から出力される映像信号及びオーディオ信号と原映像信号及び原オーディオ信号との差分に基づく損失関数を定義する。あるいは、ユーザからのフィードバックをさらに考慮した損失関数を定義するようにしてもよい。そして、比較部1022は、損失関数が最小となるように、バックプロパゲーション(誤差逆伝播法)により信号処理ニューラルネットワーク1021の学習を実施する。
 テレビ受信装置100などのコンテンツ再生装置において、再生するコンテンツに対して、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理などの高画質化処理や帯域拡張などの高音質化処理を加えることが考えられる。その際には、テレビ受信装置100が受信したコンテンツのデータがクリエータによって作成された原コンテンツに近い信号になるような映像及びオーディオの信号処理を、クラウド1020側で信号処理ニューラルネットワーク1021に事前学習させることができる。そして、その学習結果をローカル環境1010の信号処理ニューラルネットワーク1011に設定することにより、テレビ受信装置100においてユーザ側のコンテンツとクリエータ側のコンテンツの信号距離を最小化するような信号処理が行われる。
 さらに、センサー部109を用いてテレビ受信装置100が置かれている環境情報を取得し、信号処理ニューラルネットワーク1011がそれらの情報に基づいて、テレビ受信装置100からユーザへ届くコンテンツのオーディオや映像の信号と、クリエータ側の再生機器からクリエータへ届くコンテンツのオーディオや映像の信号の間の差が小さくなるように映像及びオーディオの信号処理を行うようにしてもよい。例えば、テレビ受信装置100が置かれている部屋の大きさやユーザの位置、部屋の明るさなどの情報を取得し、クリエータ側で取得された対応する情報を基に、クリエータが意図したようにコンテンツのオーディオや映像が視聴されるように信号処理を行うことができる。また、ユーザの身体的特徴や視聴状態に関する情報を基に、ユーザ側の視聴コンテンツとクリエータ側の視聴コンテンツの差が小さくなるように処理を行ってもよい。この場合、例えば、ユーザの身長や眼鏡の有無、視聴時間帯やユーザの視線の動きのような情報を取得し、ユーザがクリエータの意図するコンテンツを視聴することができるように信号処理を行うことができる。
 比較部1022は、信号処理ニューラルネットワーク1022の出力とクリエータ側で取得されたコンテンツの信号を比較することで、信号的不一致、環境的不一致、生理的不一致に対応して、ユーザとクリエータ間の信号距離を最小にするための映像信号処理及びオーディオ信号処理を学習する。そして、信号処理ニューラルネットワーク1022によって生成された学習結果を基に、テレビ受信装置100では信号処理ニューラルネットワーク1011で信号処理を行う。このような処理は、例えば、複数のユーザがテレビ受信装置100を利用しているような、認識距離制御を行うことが難しい状況で利用される。但し、認識距離制御が可能な場合には、上記E項で説明したように、ユーザ感性ニューラルネットワーク及びクリエータ感性ニューラルネットワークをさらに用いた信号処理ニューラルネットワーク1021の学習を行うようにしてもよい。
G.人工知能を利用した認識距離制御(2)
 上記E項で説明したような、人工知能を利用した映像信号処理及びオーディオ信号処理によってユーザとクリエータ間の認識距離を縮める方法に加えて、体感型の演出効果を利用して、ユーザとクリエータ間の認識距離をさらに縮める方法が考えられる。
 ユーザに刺激を与えることによって、ユーザが持つ認識が変化することを想定している。例えば、クリエータがコンテンツ制作時に恐怖感を感じさせたいシーンでは、冷気を送ったり水滴を吹き掛けたりする演出効果を与えることで、ユーザの恐怖感をあおり、ユーザとクリエータ間の認識距離をさらに縮めるのに寄与する。
 体感型の演出技術は、「4D」とも呼ばれるが、一部の映画館などでは既に導入され、上映中のシーンと連動して、座席の前後上下左右への移動動作や、風(冷風、温風)、光(照明のオン/オフなど)、水(ミスト、スプラッシュ)、香り、煙、身体運動などを用いて観衆の感覚を刺激する。これに対し、本実施形態では、テレビ受信装置100で再生中のコンテンツを視聴しているユーザの五感に刺激を与える機器(以下では、「演出機器」とも呼ぶ)を利用することを想定している。演出機器として、エアコン、扇風機、ヒーター、照明機器(天井照明、スタンドライト、テーブルランプなど)、噴霧器、芳香器、発煙器などを挙げることができる。また、ウェアラブルデバイスやハンディデバイス、IoTデバイス、超音波アレイスピーカー、ドローンなどの自律型装置を、演出機器に利用することができる。ここで言うウェアラブルデバイスには、腕輪型や首掛け型などのデバイスが含まれる。
 演出機器は、テレビ受信装置100が設置された部屋内に既に設置された家電製品を利用したものでもよいし、ユーザに刺激を与えるための専用の機器でもよい。また、演出機器は、テレビ受信装置100に外付け接続される外部機器、又は、テレビ受信装置100の筐体内に装備される内蔵機器のいずれの形態であってもよい。外部機器として装備される演出機器は、例えばホームネットワーク経由でテレビ受信装置100に接続される。
 図7には、テレビ受信装置100がある室内における演出機器の設置例を示している。図示の例では、ユーザは、テレビ受信装置100の画面に対峙するように、椅子に座っている。
 テレビ受信装置100が設置されている部屋内には、風を利用する演出機器として、エアコン701、テレビ受信装置100内に装備されたファン702及び703、扇風機(図示しない)、ヒーター(図示しない)などが配設されている。図7に示す例で、ファン702及び703は、それぞれテレビ受信装置100の大画面の上端縁及び下端縁からそれぞれ送風するように、テレビ受信装置100の筐体内に配置されている。また、エアコン701や、ファン702及び703、ヒーター(図示しない)は、温度を利用する演出機器としても動作することが可能である。ファン702及び703の風速、風量、風圧、風向、揺らぎ、送風の温度などを調整することによって、ユーザが持つ認識観が変化することを想定している。
 また、テレビ受信装置100が設置されている部屋内に配置されている天井照明704、スタンドライト705、テーブルランプ(図示しない)などの照明機器を、光を利用する演出機器として利用することができる。照明機器の光量、波長毎の光量、光線の方向などを調整することによって、ユーザが持つ認識観が変化することを想定している。
 また、テレビ受信装置100が設置されている部屋内に配置されているミストやスプラッシュを噴出する噴霧器706を、水を利用する演出機器として利用することができる。噴霧器706の噴霧量や噴出方向、粒子径、温度などを調整することによって、ユーザが持つ認識が変化することを想定している。
 また、テレビ受信装置100が設置されている部屋内には、香りを利用する演出機器として、気体拡散などにより香りを効率的に空間に所望の香りを漂わせる芳香器(ディフューザー)707が配置されている。芳香器707が放つ香りの種類、濃度、持続時間などを調整することによって、ユーザが持つ認識が変化することを想定している。
 また、テレビ受信装置100が設置されている部屋内には、煙を利用する演出機器として、空中に煙を噴出する発煙器(図示しない)が配置されている。典型的な発煙器は、液化炭酸ガスを瞬時に空中に噴出して白煙を発生する。発煙器が発生する発煙量や煙の濃度、噴出時間、煙の色などを調整することによって、ユーザが持つ認識が変化することを想定している。
 また、テレビ受信装置100の画面の前に設置され、ユーザが座っている椅子708は、前後上下左右への移動動作や振動動作といった身体運動が可能であり、運動を利用する演出機器として利用に供される。例えば、マッサージチェアを、この種の演出機器として利用するようにしてもよい。また、椅子708は、着座したユーザと密着していることから、健康被害がない程度の電気刺激をユーザに与えたり、ユーザの皮膚感覚(ハプティックス)若しくは触覚を刺激したりすることを利用して、演出効果を得ることもできる。
 図7に示した演出機器の設置例は一例に過ぎない。図示した以外にも、ウェアラブルデバイスやハンディデバイス、IoTデバイス、超音波アレイスピーカー、ドローンなどの自律型装置を、演出機器に利用することができる。ここで言うウェアラブルデバイスには、腕輪型や首掛け型などのデバイスが含まれる。
 図8には、演出効果を利用するテレビ受信装置100の構成例を示している。但し、図8では、図2に示したテレビ受信装置100と共通する構成要素については同一の参照番号を付けており、これらの共通する構成要素に関しては、以下では重複した説明を回避するものとする。
 図8に示すテレビ受信装置100は、演出機器110と、演出機器110の駆動を制御する演出制御部111をさらに備えている。
 演出機器110は、図7を参照しながら説明した通り、風、温度、光、水(ミスト、スプラッシュ)、香り、煙、身体運動などを利用する各種演出機器のうち少なくとも1つからなる。演出機器110は、コンテンツのシーン毎に(若しくは、映像やオーディオに同期して)演出制御部111から出力される制御信号に基づいて駆動する。例えば、演出機器110が風を利用する演出機器の場合には、演出制御部111から出力される制御信号に基づいて、風速、風量、風圧、風向、揺らぎ、送風の温度などを調整する。
 図8に示す例では、演出制御部111は、映像信号処理部105及びオーディオ信号処理部106と同様に、信号処理部150内のコンポーネントとする。演出制御部111は、映像信号及びオーディオ信号と、センサー部109から出力されるセンサー情報を入力して、映像及びオーディオの各シーンに適合する体感型の演出効果が得られるように、演出機器110の駆動を制御するための制御信号を出力する。図8に示す例では、復号後の映像信号及びオーディオ信号が演出制御装置111に入力されるように構成されているが、復号前の映像信号及びオーディオ信号が演出制御装置111に入力されるように構成してもよい。
 本実施形態では、演出制御部111は、演出機器110の駆動制御を、深層学習などの事前学習した学習モデルを有する演出制御ニューラルネットワークを用いて実施することを想定している。具体的には、原映像信号(若しくは、復号後の映像信号)及びコンテンツ制作側とユーザ間の各不一致要因と、ユーザがクリエータと同じ認識を持つことができるようにするための演出効果(若しくは、演出機器110への制御信号)との相関関係を、演出制御ニューラルネットワークに事前学習させておく。そして、演出制御部111は、この演出制御ニューラルネットワークを用いて、演出機器110の駆動を実施して、ユーザの五感に刺激を与える。その結果、ユーザがクリエータと同じ認識を持つことができるような演出効果を実現することができる。なお、信号処理部150内の画作りと音作りと演出制御とを併せて行うニューラルネットワークに対し、信号的不一致、環境的不一致、生理的不一致を解消してユーザとクリエータ間の認識距離を最小化するための映像信号処理、オーディオ信号処理、及び演出制御を学習するように構成することもできる。演出制御ニューラルネットワークの学習(事前学習)は、テレビ受信装置100上で行うこともできるが、後述するようにクラウド上で膨大量の教師データを用いて実施することがより好ましい。
 図9には、演出効果をさらに利用して、クリエータとユーザ間の認識距離を縮めるためのニューラルネットワークを学習及び運用するための人工知能システム900の構成例を模式的に示している。図示の人工知能システム900は、クラウドを利用して構成されることを想定している。クラウドを利用した人工知能システム900は、ローカル環境910とクラウド920からなる。
 ローカル環境910は、テレビ受信装置100を設置した動作環境(家庭)、あるいは家庭内に設置されたテレビ受信装置100に相当する。図6には、簡素化のため1つのローカル環境910しか描いていないが、実際には、1つのクラウド920に対して膨大数のローカル環境が接続されることが想定される。また、本実施形態では、ローカル環境910としてテレビ受信装置100が動作する家庭内のような動作環境を主に例示したが、ローカル環境910は、スマートフォンやタブレット、パーソナルコンピュータといったコンテンツを表示するディスプレイを備えた任意の装置が動作する環境(駅、バス停、空港、ショッピングセンターのような公共施設、工場や職場などの労働設備を含む)であってもよい。
 図8に示したテレビ受信装置100内には、深層学習などの事前学習した学習モデルを有する画作りニューラルネットワークを用いて、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理を実施する映像信号処理部105と、深層学習などの事前学習した学習モデルを有する音作りニューラルネットワークを用いて、帯域拡張や音像定位といったオーディオ信号の処理を実施するオーディオ信号処理部106に加えて、深層学習などの事前学習した学習モデルを有する演出制御ニューラルネットワークを用いて、演出機器110への制御信号を出力して演出効果を実現する演出制御部111が搭載されている。図9では、簡素化のため、画作りニューラルネットワークを用いた映像信号処理部105と音作りニューラルネットワークを用いたオーディオ信号処理部106と演出制御ニューラルネットワークを用いた演出制御部111をまとめて、信号処理部150内で用いられる1つの信号処理ニューラルネットワーク911と総称することにする。
 一方、クラウド920には、人工知能を提供する人工知能サーバ(前述)(1つ以上のサーバ装置から構成される)が装備されている。人工知能サーバは、信号処理ニューラルネットワーク921と、ユーザの感性を学習するユーザ感性ニューラルネットワーク922と、クリエータの感性を学習するクリエータ感性ニューラルネットワーク923と、エキスパート教師データベース924と、フィードバックデータベース925が配設されている。
 エキスパート教師データベース924は、映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報に関する膨大なサンプルデータを蓄積している。ユーザ側情報とクリエータ側情報は、既に説明した通りである。ユーザ側情報は、テレビ受信装置100に備えられたセンサー部109によって取得可能であることを想定している。なお、ユーザのプロファイルには、ユーザのSNSの投稿及び閲覧の履歴(SNSにアップした画像や観た画像)などの過去の環境情報を含んでいてもよい。また、クリエータ側情報は、コンテンツの制作環境にセンサー部109と同等のセンサー機能を装備することによって取得可能であるものとする。
 信号処理ニューラルネットワーク921は、ローカル環境910に配置された信号処理ニューラルネットワーク911と同一構成であり、画作りニューラルネットワークと音作りニューラルネットワークと演出制御ニューラルネットワークとを含み、又は画作りニューラルネットワークと音作りニューラルネットワークと演出制御ニューラルネットワークをまとめた1つのニューラルネットワークである。信号処理ニューラルネットワーク921は、学習(継続的な学習を含む)を目的としてクラウド920に配置される。これに対し、ローカル環境910の信号処理ニューラルネットワーク911は、信号処理ニューラルネットワーク921による学習結果に基づいて構成され、運用目的でテレビ受信装置100内の信号処理部150(又は、映像信号処理部105とオーディオ信号処理部106と演出制御部111の各々)に組み込まれる。
 クラウド920側の信号処理ニューラルネットワーク921は、クラウド920に設置されているエキスパート教師データベース924を用いて、原映像信号(若しくは、復号後の映像信号)、原オーディオ信号(若しくは、復号後のオーディオ信号)、ユーザ側情報及びクリエータ側情報間と、コンテンツに対してユーザがクリエータと同じ認識を持つことができるようにするための映像信号処理及びオーディオ信号処理、演出効果(若しくは、演出機器110への制御信号)との相関関係を学習する。なお、ユーザ側情報には、ユーザのSNSの投稿及び閲覧の履歴(SNSにアップした画像や観た画像)などの過去の環境情報を含んでいてもよい。そして、信号処理ニューラルネットワーク921は、映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報を入力とし、ユーザがコンテンツに対してクリエータと同じ認識を持つことができるようにする映像信号処理及びオーディオ信号処理、演出効果(若しくは、演出機器110への制御信号)を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号と、演出機器110への制御信号とを出力とする。
 ユーザ感性ニューラルネットワーク922とクリエータ感性ニューラルネットワーク923は、信号処理ニューラルネットワーク921の学習状況の評価に用いられるニューラルネットワークである。
 ユーザ感性ニューラルネットワーク922は、ユーザの感性を学習するニューラルネットワークであり、映像信号及びオーディオ信号と、演出効果(若しくは、演出機器110への制御信号)と、ユーザ側情報と、映像及びオーディオ出力に対するユーザの認識との相関関係を学習する。図9に示す人工知能システム900では、ユーザ感性ニューラルネットワーク922は、信号処理ニューラルネットワーク921からの出力(ユーザとクリエータ間でコンテンツに対する認識が一致するように信号処理が施された映像信号及びオーディオ信号と、ユーザとクリエータ間でコンテンツに対する認識が一致するようになると推定された演出効果(演出機器110への制御信号))と、ユーザ側情報を入力とし、入力された映像信号及びオーディオ信号と演出効果に対するユーザの認識を推定して出力する。
 また、クリエータ感性ニューラルネットワーク923は、クリエータの感性を学習するニューラルネットワークであり、映像信号及びオーディオ信号、クリエータ側情報と、映像及びオーディオ出力に対するクリエータの認識との相関関係を学習する。図9に示す人工知能システム900では、クリエータ感性ニューラルネットワーク923は、(信号処理ニューラルネットワーク921に入力される)原映像信号及び原オーディオ信号と、クリエータ側情報を入力とし、入力された映像信号及びオーディオ信号に対するクリエータの認識を推定して出力する。
 例えば、ユーザ感性ニューラルネットワーク922が推定するユーザの認識と、クリエータ感性ニューラルネットワーク923が推定するクリエータの認識との差分に基づく損失関数を定義する。そして、損失関数が最小となるように、バックプロパゲーション(誤差逆伝播法)により信号処理ニューラルネットワーク921の学習を実施する。
 ローカル環境910側では、信号処理ニューラルネットワーク911は、テレビ受信装置100で受信中又は再生中の映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報を入力とし、クラウド920側での信号処理ニューラルネットワーク921の学習結果に基づいて、ユーザがクリエータと同じ認識を持つことができるような映像信号処理及びオーディオ信号処理と演出効果を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号と、演出機器110への制御信号を出力とする。なお、テレビ受信装置100がクリエータ側情報をリアルタイムで取得することは困難である。そこで、デフォルト設定されたクリエータ側情報や一般的なクリエータ側情報を信号処理ニューラルネットワーク911への固定入力値として設定してもよい。また、クリエータ側情報は、テレビ受信装置100で再生されるコンテンツに付随するメタデータとして取得されてもよい。具体的には、クリエータ側情報が放送信号やオンライン配信の映像信号でコンテンツとともに配信されてもよいし、記録メディアにコンテンツとともに記録されて配布されてもよい。また、放送時やオンライン配信時には、コンテンツとクリエータ側情報が共通のストリームで配信されてもよいし、異なるストリームで配信されてよい。そして、信号処理ニューラルネットワーク911から出力される映像信号及びオーディオ信号は、それぞれ画像表示部107及びオーディオ出力部108で表示及びオーディオ出力される。ここでは、簡素化のため、信号処理ニューラルネットワーク911への入力を単に「入力値」とも呼び、信号処理ニューラルネットワーク911からの出力を単に「出力値」とも呼ぶことにする。
 ローカル環境910のユーザ(例えば、テレビ受信装置100の視聴者)は、信号処理ニューラルネットワーク911の出力値を評価して、例えばテレビ受信装置100のリモコン、音声エージェント、連携するスマートフォンなどを介してテレビ受信装置100から出力される映像及びオーディオに対する認識をフィードバックする。フィードバックは、例えば、画音質設定のような設定情報をユーザが設定する操作に基づいて生成されてもよい。ローカル環境910における入力値、出力値、及びユーザからのフィードバック(ユーザFB)は、クラウド920に転送されて、エキスパート教師データベース924及びフィードバックデータベース925にそれぞれ蓄積される。
 クラウド920内では、第1ステップとしての評価用のユーザ感性ニューラルネットワーク922及びクリエータ感性ニューラルネットワーク923の学習と、第2ステップとしての信号処理ニューラルネットワーク921の学習が交互に実施される。第1ステップでは、信号処理ニューラルネットワーク921を固定して(学習を停止して)、ユーザ感性ニューラルネットワーク922及びクリエータ感性ニューラルネットワーク923の学習を実施する。これに対し、第2ステップでは、ユーザ感性ニューラルネットワーク922及びクリエータ感性ニューラルネットワーク923を固定して(学習を停止して)、信号処理ニューラルネットワーク921の学習を実施する。
 ユーザ感性ニューラルネットワーク922は、ユーザの感性を学習するニューラルネットワークである。第1ステップでは、ユーザ感性ニューラルネットワーク922は、信号処理ニューラルネットワーク921から出力される映像信号及びオーディオ信号、並びに演出効果(演出機器110への制御信号)と、信号処理ニューラルネットワーク921への入力と同じユーザ側情報を入力して、信号処理が施された映像信号及びオーディオ信号、並びに演出効果(演出機器110への制御信号)に対するユーザの認識を推定して出力する。そして、信号処理ニューラルネットワーク921から出力される映像信号及びオーディオ信号、並びに演出効果(演出機器110への制御信号)に対してユーザ感性ニューラルネットワーク922が推定するユーザの認識と、フィードバックデータベース925から読み出される現実のユーザが持つ認識との差分に基づく損失関数を定義して、損失関数が最小となるように、ユーザ感性ニューラルネットワーク922の学習を実施する。この結果、ユーザ感性ニューラルネットワーク922は、信号処理ニューラルネットワーク921によってユーザとクリエータ間で認識が一致するように信号処理が施された映像信号及びオーディオ信号、並びに演出効果(演出機器110への制御信号)に対して、ユーザ感性ニューラルネットワーク922が推定するユーザの認識が現実のユーザが持つ認識に近づくように、学習されていく。
 クリエータ感性ニューラルネットワーク923は、クリエータの感性を学習するニューラルネットワークである。第1ステップでは、クリエータ感性ニューラルネットワーク923は、信号処理ニューラルネットワーク921への入力と同じ原映像信号及び原オーディオ信号とクリエータ側情報を入力して、原映像信号及び原オーディオ信号に対するクリエータの認識を推定して出力する。そして、原映像信号及び原オーディオ信号に対してクリエータ感性ニューラルネットワーク923が推定するクリエータの認識と、フィードバックデータベース925から読み出される現実のクリエータが持つ認識との差分に基づく損失関数を定義して、損失関数が最小となるように、クリエータ感性ニューラルネットワーク923の学習を実施する。この結果、クリエータ感性ニューラルネットワーク923は、原映像信号及び原オーディオ信号(すなわち、クリエータ自身が制作したコンテンツ)に対して、クリエータ感性ニューラルネットワーク923が推定するクリエータの認識が現実のクリエータが持つ認識に近づくように、学習されていく。
 続く第2ステップでは、ユーザ感性ニューラルネットワーク922及びクリエータ感性ニューラルネットワーク923をともに固定して、今度は信号処理ニューラルネットワーク921の学習を実施する。フィードバックデータベース925(前述)からフィードバックデータを取り出すと、フィードバックデータに含まれる入力値が信号処理ニューラルネットワーク921に入力される。信号処理ニューラルネットワーク921は、入力値に対し、ユーザがクリエータと同じ認識を持つことができるような映像信号処理及びオーディオ信号処理、並びに演出効果を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号、並びに演出機器110への制御信号を出力とする。
 次いで、ユーザ感性ニューラルネットワーク922は、信号処理ニューラルネットワーク921から出力された映像信号及びオーディオ信号と、ユーザ側情報を入力し、入力された映像信号及びオーディオ信号、並びに演出効果(演出機器110への制御信号)に対するユーザの認識を推定して出力する。また、クリエータ感性ニューラルネットワーク923は、フィードバックデータベース925から読み出された入力値(信号処理ニューラルネットワーク921への入力と同じ原映像信号及び原オーディオ信号)を入力して、クリエータの認識を推定して出力する。
 例えば、ユーザ感性ニューラルネットワーク922が推定するユーザの認識と、クリエータ感性ニューラルネットワーク923が推定するクリエータの認識との差分に基づく損失関数を定義する。そして、損失関数が最小となるように、バックプロパゲーション(誤差逆伝播法)により信号処理ニューラルネットワーク921の学習を実施する。
 また、信号処理ニューラルネットワーク921の学習時において、エキスパート教師データベース924を教師データに用いてもよい。また、フィードバックデータベース925やエキスパート教師データベース924など、2以上の教師データを用いて学習を行うようにしてもよい。この場合、教師データ毎に算出した損失関数を重み付け加算して、最小となるように信号処理ニューラルネットワーク921の学習を行うようにしてもよい。
 上述したような第1ステップとしてのユーザ感性ニューラルネットワーク922及びクリエータ感性ニューラルネットワーク923の学習と、第2ステップとしての信号処理ニューラルネットワーク921の学習が交互に実施することによって、信号処理ニューラルネットワーク921が出力する映像信号及びオーディオ信号がユーザとクリエータ間の認識を近づける確度が向上していく。そして、学習により確度が向上した信号処理ニューラルネットワーク921におけるニューロン間の最適な結合重み係数の集合からなる学習モデルを、ローカル環境910のテレビ受信装置100にダウンロードして、信号処理ニューラルネットワーク911のニューロン間結合重み係数を設定することで、ユーザ(若しくは、ユーザが使用するテレビ受信装置100)もさらに学習が進んだ信号処理ニューラルネットワーク911を利用することができる。その結果、テレビ受信装置100において出力される映像及びオーディオに対するユーザの認識が、コンテンツ制作時のクリエータの認識と一致する機会が増えていく。
 クラウド920側で学習により確度が向上した学習モデルをローカル環境910に提供する方法は任意である。例えば、信号処理ニューラルネットワーク921の学習モデルのビットストリームを圧縮して、クラウド920からローカル環境910のテレビ受信装置100へダウンロードするようにしてもよい。圧縮してもビットストリームのサイズが大きいときには、学習モデルを複数に分割して、複数回に分けて圧縮ビットストリームをダウンロードするようにしてもよい。学習モデルはニューラルネットワークにおけるニューロン間の結合重み係数の集合であり、分割ダウンロードする際には、ニューラルネットワークの層毎、あるいは層内の領域毎に分割するようにしてもよい。
H.人工知能を利用した任意ユーザ間の信号距離制御
 上記E項では、人工知能を利用した映像信号処理及びオーディオ信号処理によってユーザとクリエータ間の認識距離を縮める方法について説明した。その変形例として、人工知能を利用した映像信号処理及びオーディオ信号処理によって任意ユーザ間の信号距離を最小化するような処理を実現することもできる。この項では、人工知能を利用した任意ユーザ間の信号距離制御について説明する。
 図11には、図1に示したようなシステムにおいて、コンテンツ制作側で制作されたコンテンツが各ユーザ(図11に示す例では、ユーザAとユーザB)により視聴されるまでの流れを模式的に示している。図11中、左側をユーザA側とし、右側をユーザB側とする。
 コンテンツ制作側でクリエータが制作又は編集したコンテンツは、例えばMPEGなどの所定の符号化方式で符号化処理が施された後(図11では図示しない)、放送やインターネットなどの伝送メディア、あるいはブルーレイなどの記録メディアを介して、各ユーザに届けられる。
 ユーザA側では、テレビ受信装置100やその他のコンテンツ再生装置(以下、単に「テレビ受信装置100」とする)が、伝送メディアや記録メディアを介して、符号化データを受信する。テレビ受信装置100は、例えばユーザA宅のリビングルーム1101などに設置されている。テレビ受信装置100内では、受信した符号化データに対して、MPEGなどの所定の符号化方式に従った復号処理1102が施されて映像ストリームとオーディオストリームに分離され、さらに信号処理を施した後に、映像の画面表示及びオーディオ出力を実施する。そして、ユーザAは、テレビ受信装置100の映像及びオーディオを視聴する。
 また、ユーザB側でも、テレビ受信装置100´やその他のコンテンツ再生装置(以下、単に「テレビ受信装置100´」とする)が、伝送メディアや記録メディアを介して、符号化データを受信する。テレビ受信装置100´は、例えばユーザB宅のリビングルーム1101´などに設置されている。テレビ受信装置100´内では、受信した符号化データに対して、MPEGなどの所定の符号化方式に従った復号処理1102´が施されて映像ストリームとオーディオストリームに分離され、さらに信号処理を施した後に、映像の画面表示及びオーディオ出力を実施する。そして、ユーザBは、テレビ受信装置100´の映像及びオーディオを視聴する。
 ユーザA側のテレビ受信装置100で再生されるコンテンツの信号と、ユーザB側のテレビ受信装置100´で再生されるコンテンツの信号との間には、ギャップすなわち信号距離が生じる。信号距離の原因として以下のようなものが考えられる。
(1)信号処理による原因(信号的不一致)
 コンテンツ制作側で扱うRAW信号を各ユーザに伝送する際にノイズが発生し、テレビ受信装置100とテレビ受信装置100´の各々で行う復号処理の過程で色サンプリングや階調変換など処理により、信号的不一致が発生する。さらに、テレビ受信装置100とテレビ受信装置100´の各々で行う高画質化や高音質化といった信号処理の過程で、再生されるコンテンツの信号の不一致が生じる。
(2)ハードウェア特性による原因(環境的不一致(1))
 ユーザAとユーザBはそれぞれ市販のテレビ受信装置100、100´でコンテンツを視聴する。テレビ受信装置100とテレビ受信装置100´は、製造メーカや型式などが相違すると、性能差や特性差といったハードウェア的不一致がある。このため、同じ映像信号及びオーディオ信号が入力されたとしても、テレビ受信装置100とテレビ受信装置100´の各々で再生されるコンテンツの信号の不一致が生じる。例えば、表示デバイスが液晶の場合、視野角特性、応答特性、並びに温度特性の相違によって、映像に際が生じる。また、表示デバイスがLEDの場合、色毎の応答特性や温度特性の相違によって、映像に差異が生じる。
 なお、各テレビ受信装置の性能情報や特性情報は、個々の製品の仕様情報から取得することができる。また、各テレビ受信装置の性能差や特性差は、各々から出力される映像信号やオーディオ信号を輝度計やスペクトル解析装置を用いて解析した結果であってもよい。
(3)環境による原因(環境的不一致(2))
 ユーザAは、自宅のリビングルーム1101などにテレビ受信装置100を接地して、再生コンテンツを視聴する。同様に、ユーザBは、自宅のリビングルーム1101´などにテレビ受信装置100´を設置して、再生コンテンツを視聴する。リビングルーム1101とリビングルーム1101´とでは、遮音性、室内照明や自然光の強度、照射角度、色が相違する。また、テレビ受信装置100とテレビ受信装置100´とでは、画面上の反射光の強度、反射角度、色が相違する。このような環境的不一致によって、テレビ受信装置100とテレビ受信装置100´の各々で再生されるコンテンツの信号の不一致が生じる。
(4)生理上の原因(生理的不一致)
 ユーザAとユーザB間における視力、動体視力、コントラスト感度、フリッカー感度といった生理学上の特徴の相違によって、ユーザAとユーザBが同じ再生コンテンツを視聴したとしても、脳内で認識される信号の不一致が生じる。同様に、ユーザAとユーザB間における健康状態や精神状態の相違によって、同じ再生コンテンツを視聴した際に、互いの脳内で認識される信号の不一致が生じる。
 なお、ユーザAとユーザB間には、信号距離の他にも、信号的不一致、環境的不一致、生理的不一致などに起因する認識距離ももちろん存在し得る。但し、専門家であるとともにコンテンツの制作者自身であるクリエータの認識は絶対的な基準となり得るのに対し、ユーザAとユーザBのいずれの認識が基準になるのか不明であり、任意のユーザの中から基準を設定することは困難である。そこで、この項では、信号的不一致、環境的不一致、生理的不一致のうち少なくとも1つに起因する信号距離を最小化することを目的とする。
 図12には、ユーザ間の信号距離を縮めるためのニューラルネットワークを学習及び運用するための人工知能システム1200の構成例を模式的に示している。図示の人工知能システム1200は、クラウドを利用して構成されることを想定している。クラウドを利用した人工知能システム1200は、ローカル環境1210とクラウド1220からなる。
 ローカル環境1210は、テレビ受信装置100を設置した動作環境(家庭)、あるいは家庭内に設置されたテレビ受信装置100に相当する。図12には、簡素化のため1つのローカル環境1210しか描いていないが、実際には、1つのクラウド1220に対して膨大数のローカル環境が接続されることが想定される。また、本実施形態では、ローカル環境1210としてテレビ受信装置100が動作する家庭内のような動作環境を主に例示したが、ローカル環境1210は、スマートフォンやタブレット、パーソナルコンピュータといったコンテンツを表示するディスプレイを備えた任意の装置が動作する環境(駅、バス停、空港、ショッピングセンターのような公共施設、工場や職場などの労働設備を含む)であってもよい。
 上述したように、テレビ受信装置100内には、深層学習などの事前学習した学習モデルを有する画作りニューラルネットワークを用いて、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理を実施する映像信号処理部105と、深層学習などの事前学習した学習モデルを有する音作りニューラルネットワークを用いて、帯域拡張や音像定位といったオーディオ信号の処理を実施するオーディオ信号処理部106が搭載されている。図12では、簡素化のため、画作りニューラルネットワークを用いた映像信号処理部105と音作りニューラルネットワークを用いたオーディオ信号処理部106をまとめて、信号処理部150内で用いられる1つの信号処理ニューラルネットワーク1211と総称することにする。
 一方、クラウド1220には、人工知能を提供する人工知能サーバ(前述)(1つ以上のサーバ装置から構成される)が装備されている。人工知能サーバは、信号処理ニューラルネットワーク1221と、信号処理ニューラルネットワーク1221の出力と教師データを比較する比較部1222と、エキスパート教師データベース1224と、フィードバックデータベース1225が配設されている。
 エキスパート教師データベース1224は、映像信号及びオーディオ信号と、ユーザ側情報に関する膨大なサンプルデータを蓄積している。ここで言うユーザ側情報は、ユーザの状態やプロファイル、生理情報、ユーザが使用するテレビ受信装置100が設置された環境に関する情報、ユーザが使用するテレビ受信装置100のハードウェアなどの特性情報、並びに、テレビ受信装置100において映像及びオーディオの受信信号に対して適用する復号などの信号処理に関する信号情報を含むものとする。なお、ユーザのプロファイルには、ユーザのSNSの投稿及び閲覧の履歴(SNSにアップした画像や観た画像)などの過去の環境情報を含んでいてもよい。ユーザ側情報は、テレビ受信装置100に備えられたセンサー部109によってほとんどすべて取得可能であることを想定している。
 信号処理ニューラルネットワーク1221は、ローカル環境1210に配置された信号処理ニューラルネットワーク1211と同一構成であり、画作りニューラルネットワークと音作りニューラルネットワークを含み、又は画作りニューラルネットワークと音作りニューラルネットワークをまとめた1つのニューラルネットワークである。信号処理ニューラルネットワーク1221は、学習(継続的な学習を含む)を目的としてクラウド1220に配置される。これに対し、ローカル環境1210の信号処理ニューラルネットワーク1211は、信号処理ニューラルネットワーク1221による学習結果に基づいて構成され、運用目的でテレビ受信装置100内の信号処理部150(又は、映像信号処理部105とオーディオ信号処理部106の各々)に組み込まれる。
 クラウド1220側の信号処理ニューラルネットワーク1221は、クラウド1220に設置されているエキスパート教師データベース1224を用いて、原映像信号(若しくは、復号後の映像信号)、原オーディオ信号(若しくは、復号後のオーディオ信号)、及び複数のユーザ側情報(図12中では「ユーザA側情報」と「ユーザB側情報」とする)と、各ユーザ(図12に示す例ではユーザAとユーザB)のテレビ受信装置100で再生されるコンテンツ間の信号距離を最小化するための映像信号処理とオーディオ信号処理との相関関係を学習する。なお、ユーザ側情報には、ユーザのSNSの投稿及び閲覧の履歴(SNSにアップした画像や観た画像)などの過去の環境情報を含んでいてもよい。また、図12に示す例では、教師データとして、ユーザB側のテレビ受信装置100で再生される映像信号及びオーディオ信号を用いているが、その他の信号であってもよい。例えばコンテンツ制作側から送出される原コンテンツの映像信号及びオーディオ信号、あるいは家庭内で視聴する標準的な映像信号及びオーディオ信号を、信号処理ニューラルネットワーク1221の学習用の教師データとして定義した信号を用いてもよい。そして、信号処理ニューラルネットワーク1221は、映像信号及びオーディオ信号と、複数のユーザ側情報を入力とし、ユーザ間で信号距離を最小化する映像信号処理及びオーディオ信号処理を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号を出力とする。
 比較部1222は、信号処理ニューラルネットワーク1221の出力と基準となるコンテンツ(例えば、原コンテンツ)の信号を比較することで、信号的不一致、環境的不一致、生理的不一致に対応して、ユーザ間の信号距離を最小にするための映像信号処理及びオーディオ信号処理を学習する。
 具体的には、比較部1222は、信号処理ニューラルネットワーク1221から出力される映像信号及びオーディオ信号(図12に示す例では、ユーザA向けに推定した映像信号及びオーディオ信号)を、教師データ(図12に示す例では、ユーザB側のテレビ受信装置100で再生される映像信号及びオーディオ信号)と比較する。例えば、信号処理ニューラルネットワーク1221から出力される映像信号及びオーディオ信号と原映像信号及び原オーディオ信号との差分に基づく損失関数を定義する。あるいは、ユーザからのフィードバックをさらに考慮した損失関数を定義するようにしてもよい。そして、比較部1222は、損失関数が最小となるように、バックプロパゲーション(誤差逆伝播法)により信号処理ニューラルネットワーク1221の学習を実施する。
 ローカル環境1210側では、テレビ受信装置100が、クラウド1220側の信号処理ニューラルネットワーク1222によって生成された学習結果に基づいて、信号処理ニューラルネットワーク1211が映像信号及びオーディオ信号の信号処理を行う。具体的には、ローカル環境1210側では、信号処理ニューラルネットワーク1211は、テレビ受信装置100で受信中又は再生中の映像信号及びオーディオ信号と、複数のユーザ側情報(図12中では、ユーザ本人の情報としての「ユーザA側情報」と他のユーザの情報としての「ユーザB側情報」とする)を入力とし、クラウド1220側での信号処理ニューラルネットワーク1221の学習結果に基づいて、ユーザ間の信号距離を最小化するような映像信号処理及びオーディオ信号処理を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号を出力とする。なお、テレビ受信装置100が他のユーザ側情報(図12中の、「ユーザB側情報」)をリアルタイムで取得することは困難である。そこで、デフォルト設定されたユーザ側情報や一般的なユーザ側情報を信号処理ニューラルネットワーク1211への固定入力値として設定してもよい。また、他のユーザ側情報は、テレビ受信装置100で再生されるコンテンツに付随するメタデータとして取得されてもよい。具体的には、他のユーザ側情報が放送信号やオンライン配信の映像信号でコンテンツとともに配信されてもよいし、記録メディアにコンテンツとともに記録されて配布されてもよい。また、放送時やオンライン配信時には、コンテンツと他のユーザ側情報が共通のストリームで配信されてもよいし、異なるストリームで配信されてよい。そして、信号処理ニューラルネットワーク1211から出力される映像信号及びオーディオ信号は、それぞれ画像表示部107及びオーディオ出力部で表示及びオーディオ出力される。ここでは、簡素化のため、信号処理ニューラルネットワーク1211への入力を単に「入力値」とも呼び、信号処理ニューラルネットワーク1211からの出力を単に「出力値」とも呼ぶことにする。
 ローカル環境1210のユーザ(例えば、テレビ受信装置100の視聴者)は、信号処理ニューラルネットワーク1211の出力値を評価して、例えばテレビ受信装置100のリモコン、音声エージェント、連携するスマートフォンなどを介してテレビ受信装置100から出力される映像及びオーディオに対する認識をフィードバックする。フィードバックは、例えば、画音質設定のような設定情報をユーザが設定する操作に基づいて生成されてもよい。ローカル環境1210における入力値、出力値、及びユーザからのフィードバック(ユーザFB)は、クラウド1220に転送されて、エキスパート教師データベース1224及びフィードバックデータベース1225にそれぞれ蓄積される。
 テレビ受信装置100などのコンテンツ再生装置において、再生するコンテンツに対して、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理などの高画質化処理や帯域拡張などの高音質化処理を加えることが考えられる。その際には、テレビ受信装置100が受信したコンテンツのデータが他のユーザのテレビ受信装置100´で再生されるコンテンツに近い信号になるような映像及びオーディオの信号処理を、クラウド1220側で信号処理ニューラルネットワーク1221に事前学習させることができる。そして、その学習結果をローカル環境1210の信号処理ニューラルネットワーク1211に設定することにより、テレビ受信装置100においてユーザ間のコンテンツの信号距離を最小化するような信号処理が行われる。
 さらに、センサー部109を用いてテレビ受信装置100が置かれている環境情報を取得し、信号処理ニューラルネットワーク1211がそれらの情報に基づいて、テレビ受信装置100からユーザへ届くコンテンツのオーディオや映像の信号と、テレビ受信装置100´から他のユーザへ届くコンテンツのオーディオや映像の信号の間の差が小さくなるように映像及びオーディオの信号処理を行うようにしてもよい。例えば、テレビ受信装置100が置かれている部屋の大きさやユーザの位置、部屋の明るさなどの情報を取得し、他のユーザ側で取得された対応する情報を基に、各ユーザが同じようにコンテンツのオーディオや映像が視聴されるように信号処理を行うことができる。また、各ユーザの身体的特徴や視聴状態に関する情報を基に、ユーザ間で視聴コンテンツの差が小さくなるように処理を行ってもよい。この場合、例えば、ユーザ毎の身長や眼鏡の有無、視聴時間帯やユーザの視線の動きのような情報を取得し、各ユーザが同じコンテンツを視聴することができるように信号処理を行うことができる。
 図12に示す人工知能システム1200に基づいて学習された信号処理ニューラルネットワーク1211をテレビ受信装置100に搭載して使用することで、ユーザ間で信号的一致1111、環境及び生理的一致1112、及び信号的一致113(図11を参照のこと)を実現して、任意のユーザ間の信号距離を短縮することができる。
 以上、特定の実施形態を参照しながら、本開示に係る技術について詳細に説明してきた。しかしながら、本開示に係る技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
 本明細書では、本開示に係る技術をテレビ受信機に適用した実施形態を中心に説明してきたが、本開示に係る技術の要旨はこれに限定されるものではない。映像やオーディオなどさまざまな再生コンテンツを、放送波又はインターネットを介したストリーミングあるいはダウンロードにより取得してユーザに提示するさまざまなタイプのコンテンツの取得あるいは再生の機能を持つディスプレイを搭載したコンテンツ取得装置あるいは再生装置又はディスプレイ装置にも、同様に本開示に係る技術を適用することができる。
 要するに、例示という形態により本開示に係る技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示に係る技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。
 なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
(1)再生コンテンツを取得する取得部と、
 視聴状況に関する情報を取得する検出部と、
 前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御部と、
 前記推定した再生コンテンツを出力する出力部と、
を具備する情報処理装置。
(2)前記ユーザに関する情報は、前記ユーザの状態、前記ユーザのプロファイル、前記情報処理装置の設置環境、前記情報処理装置のハードウェア情報、前記情報処理装置内で実施される信号処理のうち少なくとも1つに関する情報を含む、
上記(1)に記載の情報処理装置。
(3)前記ユーザに関する情報は、前記検出部によって検出された情報を含む、
上記(1)又は(2)のいずれかに記載の情報処理装置。
(4)前記クリエータに関する情報は、前記クリエータの状態、前記クリエータのプロファイル、前記コンテンツの制作環境、前記コンテンツの制作に使用した機器ハードウェア情報、前記コンテンツのアップロード時に実施される信号処理のうち少なくとも1つに関する情報を含む、
上記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)前記クリエータに関する情報は、前記ユーザに関する情報に対応する情報を含む、
上記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)前記制御部は、前記出力する再生コンテンツを推定する制御として、前記再生コンテンツに対する信号処理を推定する、
上記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)前記再生コンテンツに対する信号処理は、前記ユーザが認識する前記再生コンテンツの映像又は音声と、前記クリエータが認識する前記再生コンテンツの映像又は音声を対応付ける処理である、
上記(6)に記載の情報処理装置。
(8)前記再生コンテンツは映像信号を含み、
 前記信号処理は、解像度変換、ダイナミックレンジ変換、ノイズ低減、ガンマ処理のうち少なくとも1つを含む、
上記(6)又は(7)のいずれかに記載の情報処理装置。
(9)前記再生コンテンツは、オーディオ信号を含み、
 前記信号処理は、帯域拡張、音像定位のうち少なくとも1つを含む、
上記(6)乃至(8)のいずれかに記載の情報処理装置。
(10)前記制御部は、前記信号処理を基に出力された前記再生コンテンツに対するフィードバックを取得し、前記フィードバックに基づいてさらに前記信号処理を行う、
上記(6)乃至(9)のいずれかに記載の情報処理装置。
(11)前記取得部は、前記ユーザに関する情報と前記クリエータに関する情報に基づいて生成された信号処理の参照情報をさらに取得し、
 前記制御部は、前記参照情報に基づいて前記信号処理を推定する、
上記(6)に記載の情報処理装置。
(12)前記制御部は、人工知能による処理によって、前記参照情報に基づく前記信号処理の推定を行う、
上記(11)に記載の情報処理装置。
(13)前記人工知能による処理は、前記検出部によって検出された情報と前記参照情報に基づいて前記推定を行う処理である、
上記(12)に記載の情報処理装置。
(14)前記制御部は、前記再生コンテンツに対応する演出効果を出力するように、外部機器を制御する、
上記(1)乃至(13)に記載の情報処理装置。
(15)前記外部機器は、演出効果を出力する演出機器であり、
 前記制御部は、前記検出部によって検出された前記ユーザに関する情報と前記クリエータに関する情報に基づいて、前記演出機器を制御する、
上記(14)に記載の情報処理装置。
(16)前記演出機器は、風、温度、水、光、香り、煙、身体運動のうち少なくとも1つを利用する演出機器を含む、
上記(15)に記載の情報処理装置。
(17)前記取得部は、前記ユーザに関する情報と前記クリエータに関する情報を基に生成された前記演出機器の制御処理の参照情報をさらに取得し、
 前記制御部は、人工知能による処理によって、前記参照情報に基づく前記外部機器を制御する処理を推定する、
上記(14)乃至(16)のいずれかに記載の情報処理装置。
(18)再生コンテンツを取得する取得ステップと、
 視聴状況に関する情報を取得する検出ステップと、
 前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御ステップと、
 前記推定した再生コンテンツを出力ステップと、
を有する情報処理方法。
(19)再生コンテンツと、再生コンテンツを視聴するユーザに関する情報と、再生コンテンツを制作するクリエータに関する情報との相関関係を学習する第1のニューラルネットワークと、
 再生コンテンツと、ユーザに関する情報と、再生コンテンツに対するユーザの認識との相関関係を学習する第2のニューラルネットワークと、
 再生コンテンツと、クリエータに関する情報と、再生コンテンツに対するクリエータの認識との相関関係を学習する第3のニューラルネットワークと、
を具備する人工知能システム。
(20)第1ステップにおいて、前記第1のニューラルネットワークの学習を停止して、前記第2のニューラルネットワークが推定する再生コンテンツに対するユーザの認識と現実のユーザが持つ認識との差分に基づいて定義される損失関数が最小となるように、前記2のニューラルネットワークの学習を行うとともに、前記第3のニューラルネットワークが推定する再生コンテンツに対するクリエータの認識と現実のクリエータが持つ認識との差分に基づいて定義される損失関数が最小となるように、前記第3のニューラルネットワークの学習を行い、
 第2ステップにおいて、前記第2のニューラルネットワーク及び前記第3のニューラルネットワークの学習を停止して、前記第1のニューラルネットワークが再生コンテンツと、再生コンテンツを視聴するユーザに関する情報と、再生コンテンツを制作するクリエータに関する情報に基づいて推定した再生コンテンツに対するユーザの認識と、前記第3のニューラルネットワークが推定する再生コンテンツに対するクリエータの認識との差分に基づいて定義される損失関数が最小となるように、前記1のニューラルネットワークの学習を行う、
上記(19)に記載の人工知能システム。
(21)再生コンテンツを入力する入力部と、
 視聴状況に関する情報を取得する検出部と、
 前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御部と、
 前記推定した再生コンテンツを表示する表示部と、
を具備する人工知能搭載表示装置。
 100…テレビ受信装置、101…非多重化部
 102…映像復号部、103…オーディオ復号部
 104…補助データ復号部、105…映像信号処理部
 106…オーディオ信号処理部、107…画像表示部
 108…オーディオ出力部、109…センサー部
 110…演出機器、111…演出制御部、150…信号処理部
 300…ディスプレイ、301…スピーカーユニット、
 301-1、301-2…加振器、302…スタンド
 410…カメラ部、411~413…カメラ
 420…ユーザ状態センサー部、430…環境センサー部
 440…機器状態センサー部、450…ユーザプロファイルセンサー部
 600…人工知能システム、610…ローカル環境
 611…信号処理ニューラルネットワーク、620…クラウド
 621…信号処理ニューラルネットワーク
 622…ユーザ感性ニューラルネットワーク
 623…クリエータ感性ニューラルネットワーク
 624…エキスパート教師データベース
 625…ユーザフィードバックデータベース
 701…エアコン、702、703…ファン、704…天井照明
 705…スタンドライト、706…噴霧器、707…芳香器
 708…椅子
 900…人工知能システム、910…ローカル環境
 911…信号処理ニューラルネットワーク、920…クラウド
 921…信号処理ニューラルネットワーク
 922…ユーザ感性ニューラルネットワーク
 923…クリエータ感性ニューラルネットワーク
 924…エキスパート教師データベース
 925…ユーザフィードバックデータベース
 1000…人工知能システム、1010…ローカル環境
 1011…信号処理ニューラルネットワーク、1020…クラウド
 1021…信号処理ニューラルネットワーク、1022…比較部
 1024…エキスパート教師データベース
 1025…ユーザフィードバックデータベース
 1200…人工知能システム、1210…ローカル環境
 1211…信号処理ニューラルネットワーク、1220…クラウド
 1221…信号処理ニューラルネットワーク、1222…比較部
 1224…エキスパート教師データベース
 1225…ユーザフィードバックデータベース

Claims (20)

  1.  再生コンテンツを取得する取得部と、
     視聴状況に関する情報を取得する検出部と、
     前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御部と、
     前記推定した再生コンテンツを出力する出力部と、
    を具備する情報処理装置。
  2.  前記ユーザに関する情報は、前記ユーザの状態、前記ユーザのプロファイル、前記情報処理装置の設置環境、前記情報処理装置のハードウェア情報、前記情報処理装置内で実施される信号処理のうち少なくとも1つに関する情報を含む、
    請求項1に記載の情報処理装置。
  3.  前記ユーザに関する情報は、前記検出部によって検出された情報を含む、
    請求項1に記載の情報処理装置。
  4.  前記クリエータに関する情報は、前記クリエータの状態、前記クリエータのプロファイル、前記コンテンツの制作環境、前記コンテンツの制作に使用した機器ハードウェア情報、前記コンテンツのアップロード時に実施される信号処理のうち少なくとも1つに関する情報を含む、
    請求項1に記載の情報処理装置。
  5.  前記クリエータに関する情報は、前記ユーザに関する情報に対応する情報を含む、
    請求項1に記載の情報処理装置。
  6.  前記制御部は、前記出力する再生コンテンツを推定する制御として、前記再生コンテンツに対する信号処理を推定する、
    請求項1に記載の情報処理装置。
  7.  前記再生コンテンツに対する信号処理は、前記ユーザが認識する前記再生コンテンツの映像又は音声と、前記クリエータが認識する前記再生コンテンツの映像又は音声を対応付ける処理である、
    請求項6に記載の情報処理装置。
  8.  前記再生コンテンツは映像信号を含み、
     前記信号処理は、解像度変換、ダイナミックレンジ変換、ノイズ低減、ガンマ処理のうち少なくとも1つを含む、
    請求項6に記載の情報処理装置。
  9.  前記再生コンテンツは、オーディオ信号を含み、
     前記信号処理は、帯域拡張、音像定位のうち少なくとも1つを含む、
    請求項6に記載の情報処理装置。
  10.  前記制御部は、前記信号処理を基に出力された前記再生コンテンツに対するフィードバックを取得し、前記フィードバックに基づいてさらに前記信号処理を行う、
    請求項6に記載の情報処理装置。
  11.  前記取得部は、前記ユーザに関する情報と前記クリエータに関する情報に基づいて生成された学習モデルをさらに取得し、
     前記制御部は、前記学習モデルに基づいて前記信号処理を推定する、
    請求項6に記載の情報処理装置。
  12.  前記学習モデルはニューラルネットワークにおけるニューロン間の結合重み係数の集合からなり、
     前記制御部は、前記学習モデルに含まれる結合重み係数を設定したニューラルネットワークに基づいて前記信号処理の推定を行う、
    請求項11に記載の情報処理装置。
  13.  前記学習モデルは、再生コンテンツと、前記ユーザに関する情報と、前記クリエータに関する情報の組み合わせに対応する再生コンテンツの信号処理との相関関係を学習したニューラルネットワークにおけるニューロン間の結合重み係数の集合からなり、
     前記制御部は、前記学習モデルに含まれる結合重み係数を設定したニューラルネットワークに基づいて、再生コンテンツと、前記ユーザに関する情報と、前記クリエータに関する情報の組み合わせに対応する前記信号処理の推定を行う、
    請求項12に記載の情報処理装置。
  14.  前記制御部は、前記再生コンテンツに対応する演出効果を出力するように、外部機器を制御する、
    請求項1に記載の情報処理装置。
  15.  前記外部機器は、演出効果を出力する演出機器であり、
     前記制御部は、前記検出部によって検出された前記ユーザに関する情報と前記クリエータに関する情報に基づいて、前記演出機器を制御する、
    請求項14に記載の情報処理装置。
  16.  前記演出機器は、風、温度、水、光、香り、煙、身体運動のうち少なくとも1つを利用する演出機器を含む、
    請求項15に記載の情報処理装置。
  17.  前記取得部は、前記ユーザに関する情報と前記クリエータに関する情報を基に生成された前記演出機器の制御処理の学習モデルをさらに取得し、
     前記制御部は、前記学習モデルに基づいて前記演出機器を制御する処理を推定する、
    請求項14に記載の情報処理装置。
  18.  再生コンテンツを取得する取得ステップと、
     視聴状況に関する情報を取得する検出ステップと、
     前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御ステップと、
     前記推定した再生コンテンツを出力ステップと、
    を有する情報処理方法。
  19.  再生コンテンツと、再生コンテンツを視聴するユーザに関する情報と、再生コンテンツを制作するクリエータに関する情報の組み合わせに対応する再生コンテンツの信号処理との相関関係を学習する第1のニューラルネットワークと、
     再生コンテンツと、ユーザに関する情報と、再生コンテンツに対するユーザの認識との相関関係を学習する第2のニューラルネットワークと、
     再生コンテンツと、クリエータに関する情報と、再生コンテンツに対するクリエータの認識との相関関係を学習する第3のニューラルネットワークと、
    を具備する人工知能システム。
  20.  第1ステップにおいて、前記第1のニューラルネットワークの学習を停止して、前記第2のニューラルネットワークが推定する再生コンテンツに対するユーザの認識と現実のユーザの認識との差分に基づいて定義される損失関数が最小となるように、前記2のニューラルネットワークの学習を行うとともに、前記第3のニューラルネットワークが推定する再生コンテンツに対するクリエータの認識と現実のクリエータの認識との差分に基づいて定義される損失関数が最小となるように、前記第3のニューラルネットワークの学習を行い、
     第2ステップにおいて、前記第2のニューラルネットワーク及び前記第3のニューラルネットワークの学習を停止して、前記第1のニューラルネットワークが再生コンテンツと、再生コンテンツを視聴するユーザに関する情報と、再生コンテンツを制作するクリエータに関する情報に基づいて推定した再生コンテンツに対するユーザの認識と、前記第3のニューラルネットワークが推定する再生コンテンツに対するクリエータの認識との差分に基づいて定義される損失関数が最小となるように、前記1のニューラルネットワークの学習を行う、
    請求項19に記載の人工知能システム。
PCT/JP2020/034290 2019-10-23 2020-09-10 情報処理装置及び情報処理方法、並びに人工知能システム WO2021079640A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/754,920 US20240147001A1 (en) 2019-10-23 2020-09-10 Information processing device, information processing method, and artificial intelligence system
EP20878495.9A EP4050909A4 (en) 2019-10-23 2020-09-10 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND ARTIFICIAL INTELLIGENCE SYSTEM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-193032 2019-10-23
JP2019193032 2019-10-23

Publications (1)

Publication Number Publication Date
WO2021079640A1 true WO2021079640A1 (ja) 2021-04-29

Family

ID=75619784

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/034290 WO2021079640A1 (ja) 2019-10-23 2020-09-10 情報処理装置及び情報処理方法、並びに人工知能システム

Country Status (3)

Country Link
US (1) US20240147001A1 (ja)
EP (1) EP4050909A4 (ja)
WO (1) WO2021079640A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114397474A (zh) * 2022-01-17 2022-04-26 吉林大学 基于fcn-mlp的弧形超声传感阵列风参数测量方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4915143B1 (ja) 1969-05-14 1974-04-12
JPH04302272A (ja) * 1991-03-29 1992-10-26 Canon Inc 画像処理方法
JPH08292752A (ja) * 1995-04-20 1996-11-05 Nec Corp 輝度自動調整装置
JP2007143010A (ja) 2005-11-22 2007-06-07 Sony Corp テレビジョン装置
JP2015092529A (ja) 2013-10-01 2015-05-14 ソニー株式会社 発光装置、発光ユニット、表示装置、電子機器、および発光素子
WO2016038950A1 (ja) 2014-09-11 2016-03-17 ソニー株式会社 画像処理装置及び画像処理方法
WO2017002435A1 (ja) * 2015-07-01 2017-01-05 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2017203999A (ja) 2009-10-07 2017-11-16 ソニー株式会社 復号装置および方法、並びにプログラム
JP2019023798A (ja) 2017-07-24 2019-02-14 日本放送協会 超解像装置およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102090058A (zh) * 2008-07-15 2011-06-08 夏普株式会社 数据发送装置、数据接收装置、数据发送方法、数据接收方法及视听环境控制方法
US10298876B2 (en) * 2014-11-07 2019-05-21 Sony Corporation Information processing system, control method, and storage medium
US11568265B2 (en) * 2017-08-23 2023-01-31 Sony Interactive Entertainment Inc. Continual selection of scenarios based on identified tags describing contextual environment of a user for execution by an artificial intelligence model of the user by an autonomous personal companion

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4915143B1 (ja) 1969-05-14 1974-04-12
JPH04302272A (ja) * 1991-03-29 1992-10-26 Canon Inc 画像処理方法
JPH08292752A (ja) * 1995-04-20 1996-11-05 Nec Corp 輝度自動調整装置
JP2007143010A (ja) 2005-11-22 2007-06-07 Sony Corp テレビジョン装置
JP2017203999A (ja) 2009-10-07 2017-11-16 ソニー株式会社 復号装置および方法、並びにプログラム
JP2015092529A (ja) 2013-10-01 2015-05-14 ソニー株式会社 発光装置、発光ユニット、表示装置、電子機器、および発光素子
WO2016038950A1 (ja) 2014-09-11 2016-03-17 ソニー株式会社 画像処理装置及び画像処理方法
WO2017002435A1 (ja) * 2015-07-01 2017-01-05 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019023798A (ja) 2017-07-24 2019-02-14 日本放送協会 超解像装置およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4050909A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114397474A (zh) * 2022-01-17 2022-04-26 吉林大学 基于fcn-mlp的弧形超声传感阵列风参数测量方法
CN114397474B (zh) * 2022-01-17 2022-11-08 吉林大学 基于fcn-mlp的弧形超声传感阵列风参数测量方法

Also Published As

Publication number Publication date
US20240147001A1 (en) 2024-05-02
EP4050909A1 (en) 2022-08-31
EP4050909A4 (en) 2022-12-28

Similar Documents

Publication Publication Date Title
WO2021038980A1 (ja) 情報処理装置及び情報処理方法、人工知能機能搭載表示装置、並びに人工知能機能搭載演出システム
US10593167B2 (en) Crowd-based haptics
US9918144B2 (en) Enchanced experience from standard program content
CN109564706B (zh) 基于智能交互式增强现实的用户交互平台
KR20200130231A (ko) 신경 상태의 검출을 위해 생체 센서 데이터를 사용하여 라이브 엔터테인먼트를 디렉팅
US20070271580A1 (en) Methods, Apparatus and Computer Program Products for Audience-Adaptive Control of Content Presentation Based on Sensed Audience Demographics
KR20170090417A (ko) 정보 처리 장치 및 정보 처리 방법, 그리고 프로그램
CN113016190B (zh) 经由生理监测的创作意图可扩展性
WO2015120413A1 (en) Real-time imaging systems and methods for capturing in-the-moment images of users viewing an event in a home or local environment
US20230147985A1 (en) Information processing apparatus, information processing method, and computer program
WO2018155354A1 (ja) 電子機器の制御方法、電子機器の制御システム、電子機器、及び、プログラム
WO2021079640A1 (ja) 情報処理装置及び情報処理方法、並びに人工知能システム
WO2021131326A1 (ja) 情報処理装置及び情報処理方法、並びにコンピュータプログラム
WO2021124680A1 (ja) 情報処理装置及び情報処理方法
WO2021009989A1 (ja) 人工知能情報処理装置及び人工知能情報処理方法、並びに人工知能機能搭載表示装置
US11675419B2 (en) User-driven adaptation of immersive experiences
US20170026702A1 (en) System and method for providing a television network customized for an end user
JP6523038B2 (ja) 感覚提示装置
WO2021053936A1 (ja) 情報処理装置及び情報処理方法、並びに人工知能機能搭載表示装置
WO2020240976A1 (ja) 人工知能情報処理装置及び人工知能情報処理方法
WO2023120244A1 (ja) 伝送装置、伝送方法、およびプログラム
JP2021052965A (ja) 上映施設
Jalal Quality of Experience Methods and Models for Multi-Sensorial Media
TW201412289A (zh) 腦波控制式情境調節系統及其操作方法
Buckley Introduction: The not TV audience

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20878495

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 17754920

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020878495

Country of ref document: EP

Effective date: 20220523

NENP Non-entry into the national phase

Ref country code: JP