WO2021124680A1 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
WO2021124680A1
WO2021124680A1 PCT/JP2020/040017 JP2020040017W WO2021124680A1 WO 2021124680 A1 WO2021124680 A1 WO 2021124680A1 JP 2020040017 W JP2020040017 W JP 2020040017W WO 2021124680 A1 WO2021124680 A1 WO 2021124680A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
unit
sound
output
user
Prior art date
Application number
PCT/JP2020/040017
Other languages
English (en)
French (fr)
Inventor
吉田 明
良太 荒井
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US17/782,522 priority Critical patent/US20230007232A1/en
Priority to EP20901696.3A priority patent/EP4080907A4/en
Publication of WO2021124680A1 publication Critical patent/WO2021124680A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/302Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays
    • H04N13/31Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays using parallax barriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/323Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/024Positioning of loudspeaker enclosures for spatial sound reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Definitions

  • the technology disclosed in the present specification (hereinafter referred to as "the present disclosure") relates to an information processing device and an information processing method for processing content to be viewed by a user.
  • Patent Document 1 discloses a technique relating to the ability to view a viewpoint image according to the direction of the user's line of sight by detecting the posture of the viewer's head or body and drawing a viewpoint image corresponding to the posture. ..
  • Patent Document 2 the detected position and line of sight of the viewer's eyes are used for display control of a stereoscopic image.
  • the display of the video based on the detection result of the positional relationship between the viewer and the displayed video, a more expanded representation of the video content is realized.
  • An object of the present disclosure is to provide an information processing device and an information processing method that perform processing based on the user's gaze point on the content.
  • the first aspect of the disclosure is An estimation unit that estimates the sound output coordinates that generate a sound image based on the video stream and audio stream, A video output control unit that controls the output of the video stream, An audio output control unit that controls the output of an audio stream so as to generate a sound image at the sound output coordinates, It is an information processing device provided with.
  • the information processing device includes a discriminating unit that discriminates the gazing point of the user who views the video and audio. Then, the estimation unit estimates the sound output coordinates that generate the sound image of the object that the user gazes at, based on the discrimination result of the discrimination unit. The discriminating unit discriminates the gazing point of the user based on the result of detecting the state related to the user.
  • the video output control unit renders a video including at least one of framing and zooming processing of the video based on the result of determining the gaze degree of the user.
  • the video output control unit performs the rendering based on the result of tracking the object that the user gazes at.
  • the information processing apparatus has an acquisition unit that acquires related information of an object that is determined based on the characteristics of the object corresponding to the gazing point, and an association that controls the output of the acquired related information. It is equipped with an information output control unit. Then, the video output control unit controls to output related information together with the video stream.
  • the second aspect of the present disclosure is An estimation step that estimates the sound output coordinates that generate a sound image based on the video stream and audio stream, A video output control step that controls the output of the video stream, An audio output control step that controls the output of an audio stream so as to generate a sound image at the sound output coordinates, It is an information processing method having.
  • an information processing device and an information processing method that control the reproduction of contents based on the user's gaze point by using artificial intelligence.
  • FIG. 1 is a diagram showing a configuration example of a system for viewing video contents.
  • FIG. 2 is a diagram showing a configuration example of the content reproduction device 100.
  • FIG. 3 is a diagram showing an example of a content viewing environment that combines a 3D display and a sound image localization technology.
  • FIG. 4 is a diagram showing a configuration example of the sensor unit 109.
  • FIG. 5 is a diagram showing a functional configuration example of the video signal processing unit 105.
  • FIG. 6 is a diagram showing a functional configuration example of an artificial intelligence server 600 that deep-learns a neural network for gazing point discrimination processing.
  • FIG. 7 is a diagram showing a functional configuration example of an artificial intelligence server 700 that deep-learns a neural network for object feature extraction processing.
  • FIG. 1 is a diagram showing a configuration example of a system for viewing video contents.
  • FIG. 2 is a diagram showing a configuration example of the content reproduction device 100.
  • FIG. 3 is a diagram showing
  • FIG. 8 is a diagram showing a functional configuration example of an artificial intelligence server 800 that deep-learns a neural network for video output control.
  • FIG. 9 is a flowchart showing a procedure of video signal processing performed by the video signal processing unit 105 shown in FIG.
  • FIG. 10 is a diagram showing another functional configuration example of the video signal processing unit 105.
  • FIG. 11 is a diagram showing a functional configuration example of the artificial intelligence server 1100 that deep-learns the neural network for object discrimination processing.
  • FIG. 12 is a diagram showing a functional configuration of an artificial intelligence server 1200 that deep-learns a neural network for related information retrieval and acquisition processing.
  • FIG. 13 is a flowchart showing a procedure of video signal processing performed by the video signal processing unit 105 shown in FIG. FIG.
  • FIG. 14 is a diagram showing a functional configuration example of the signal processing unit 150 that performs the image sound matching process.
  • FIG. 15 is a diagram showing a functional configuration example of an artificial intelligence server 1500 that deep-learns a neural network for sound output coordinate estimation processing.
  • FIG. 16 is a flowchart showing a procedure of image sound matching processing executed by the signal processing unit 150.
  • FIG. 17 is a diagram showing a functional configuration example of the signal processing unit 150 that performs the image sound matching process.
  • FIG. 18 is a diagram showing an example of framing or zooming an image based on the user's gaze point.
  • FIG. 19 is a diagram showing an example of framing or zooming an image based on the user's gaze point.
  • FIG. 19 is a diagram showing an example of framing or zooming an image based on the user's gaze point.
  • FIG. 20 is a diagram showing an example of framing or zooming an image based on the user's gaze point.
  • FIG. 21 is a diagram showing an example of framing or zooming an image based on the user's gaze point.
  • FIG. 22 is a diagram showing an example of framing or zooming an image based on the user's gaze point.
  • FIG. 23 is a diagram showing a functional configuration example of the artificial intelligence server 2300 that creates an image based on the user's gaze point.
  • FIG. 24 is a diagram showing a functional configuration example of the artificial intelligence server 2400 that performs image creation and image sound matching processing based on the user's gaze point.
  • FIG. 25 is a diagram showing a functional configuration example of the artificial intelligence server 2500 that outputs related information of the object that the user gazes at.
  • FIG. 1 schematically shows a configuration example of a system for viewing video content.
  • the content playback device 100 is, for example, a television receiver installed in a living room where a family gathers in a home, a user's private room, or the like.
  • the content playback device 100 is not necessarily limited to a stationary device such as a television receiver, and may be a small or portable device such as a personal computer, a smartphone, a tablet, or a head-mounted display.
  • the term "user” refers to a viewer who views (including when he / she plans to view) the video content displayed on the content playback device 100, unless otherwise specified. To do.
  • the content playback device 100 is equipped with a speaker that outputs sound similar to that of a display that displays video content.
  • the content playback device 100 has, for example, a built-in tuner that selects and receives broadcast signals, or an externally connected set-top box having a tuner function, so that a broadcast service provided by a television station can be used.
  • the broadcast signal may be either terrestrial or satellite.
  • the content playback device 100 can also use a video distribution service using a network such as IPTV, OTT, and a video sharing service. Therefore, the content playback device 100 is equipped with a network interface card and uses communication based on existing communication standards such as Ethernet (registered trademark) and Wi-Fi (registered trademark) via a router or an access point. It is interconnected to an external network such as the Internet. In terms of its functionality, the content playback device 100 acquires or reproduces various types of content such as video and audio by acquiring and presenting various types of content such as video and audio by streaming or downloading via broadcast waves or the Internet. It is also a content acquisition device, a content playback device, or a display device equipped with a display having the above function.
  • a network interface card uses communication based on existing communication standards such as Ethernet (registered trademark) and Wi-Fi (registered trademark) via a router or an access point. It is interconnected to an external network such as the Internet.
  • the content playback device 100 acquires or reproduces various types of
  • a media playback device is connected to the content playback device 100 via an HDMI (registered trademark) (High-Definition Multimedia Interface) interface, and playback is performed from a recording medium such as a hard disk drive (HDD) or Blu-ray.
  • HDMI registered trademark
  • HDD hard disk drive
  • Blu-ray Blu-ray
  • a stream distribution server that distributes a video stream is installed on the Internet, and a broadcast-type video distribution service is provided to the content playback device 100.
  • innumerable servers that provide various services are installed on the Internet.
  • An example of a server is a stream distribution server that provides a video stream distribution service using a network such as IPTV, OTT, or a video sharing service.
  • the stream distribution service can be used by activating the browser function and issuing, for example, an HTTP (Hyper Text Transfer Protocol) request to the stream distribution server.
  • HTTP Hyper Text Transfer Protocol
  • an artificial intelligence server that provides the artificial intelligence function to the client on the Internet (or on the cloud).
  • Artificial intelligence is a function that artificially realizes functions that the human brain exerts, such as learning, reasoning, data creation, and planning, by software or hardware.
  • the function of artificial intelligence can be realized by using a machine learning model represented by a neural network that imitates a human brain neural circuit.
  • the machine learning model is a computational model with variability used in artificial intelligence that changes the model structure through learning (training) that involves the input of learning data.
  • a neural network also refers to a node as an artificial neuron (or simply a "neuron") via a synapse.
  • a neural network has a network structure formed by connections between nodes (neurons), and is generally composed of an input layer, a hidden layer, and an output layer.
  • input data (learning data) into a neural network and learn the degree of coupling between nodes (neurons) (hereinafter, also referred to as "coupling weight coefficient"). It is done through the process of changing the neural network.
  • the optimum solution (output) for the problem (input) can be estimated.
  • the machine learning model is treated as, for example, a set data of connection weighting coefficients between nodes (neurons).
  • the neural network includes a convolutional neural network (Convolutional Neural Network: CNN), a recursive neural network (Recurrent Neural Network: RNN), a hostile generation network (Generator Neural Network), and a variable auto-encoder.
  • CNN convolutional Neural Network
  • RNN recursive neural network
  • GNN hostile generation network
  • Various algorithms, forms, and structures can be provided according to the purpose, such as an organized map (Self-Organizing Feature Map) and a spiking neural network (SNN), and these can be arbitrarily combined.
  • the artificial intelligence server applied to the present disclosure is equipped with a multi-stage neural network capable of performing deep learning (DL).
  • DL deep learning
  • the number of learning data and the number of nodes (neurons) are large. Therefore, it seems appropriate to perform deep learning using huge computer resources such as the cloud.
  • the "artificial intelligence server” referred to in the present specification is not limited to a single server device, for example, provides a cloud computing service to a user via another device, and the result of the service to the other device. It may be in the form of a cloud that outputs and provides an object (deliverable).
  • the "client” (hereinafter, also referred to as a terminal, a sensor device, and an edge (Edge) device) referred to in the present specification refers to at least a machine learning model that has been trained by the artificial intelligence server as a service provided by the artificial intelligence server. As a result, it is downloaded from the artificial intelligence server and processing such as inference and object detection is performed using the downloaded machine learning model, or the sensor data inferred by the artificial intelligence server using the machine learning model is used as the result of the service. It is characterized by receiving and performing processing such as inference and object detection.
  • the client may be provided with a learning function that uses a relatively small-scale neural network so that deep learning can be performed in cooperation with an artificial intelligence server.
  • the above-mentioned brain-type computer technology and other artificial intelligence technologies are not independent and can be used in cooperation with each other.
  • a typical technique in a neuromorphic computer there is SNN (described above).
  • the output data from an image sensor or the like can be used as data to be provided to the input of deep learning in a format differentiated on the time axis based on the input data series. Therefore, in the present specification, unless otherwise specified, a neural network is treated as a kind of artificial intelligence technology using the technology of a brain-type computer.
  • FIG. 2 shows a configuration example of the content playback device 100.
  • the illustrated content reproduction device 100 includes an external interface unit 110 that exchanges data with the outside such as receiving content.
  • the external interface unit 110 referred to here is equipped with a tuner that selects and receives broadcast signals, an HDMI (registered trademark) interface that inputs playback signals from a media playback device, and a network interface (NIC) that connects to a network, and is equipped with broadcasting and cloud. It has functions such as receiving data from media such as, and reading and retrieving data from the cloud.
  • NIC network interface
  • the external interface unit 110 has a function of acquiring the content provided to the content playback device 100.
  • content is provided to the content playback device 100
  • it is distributed from a broadcast signal such as terrestrial broadcast or satellite broadcast, a playback signal reproduced from a recording medium such as a hard disk drive (HDD) or Blu-ray, or a stream distribution server on the cloud. It is supposed to be streamed content.
  • a broadcast-type video distribution service using a network IPTV, OTT, a video sharing service, and the like can be mentioned.
  • these contents are supplied to the content playback device 100 as a multiplexed bit stream in which the bit stream of each media data such as video, audio, and auxiliary data (subtitles, text, graphics, program information, etc.) is multiplexed. ..
  • the multiplexed bitstream assumes that the data of each medium such as video and audio is multiplexed according to the MPEG2 System standard, for example.
  • the video stream provided from the broadcasting station, the stream distribution server, and the recording medium includes both 2D and 3D.
  • the 3D image may be a free viewpoint image.
  • the 2D image may be composed of a plurality of images taken from a plurality of viewpoints.
  • the audio stream provided from the broadcasting station, the stream distribution server, and the recording medium includes object audio (object-based audio) in which individual sounding objects are not mixed.
  • the external interface unit 110 acquires the machine learning model learned by the artificial intelligence server on the cloud by deep learning or the like.
  • the external interface unit 110 acquires a machine learning model for video signal processing and a machine learning model for audio signal processing (described later).
  • the content playback device 100 includes a non-multiplexer (demultiplexer) 101, a video decoding unit 102, an audio decoding unit 103, an auxiliary (Auxiliary) data decoding unit 104, a video signal processing unit 105, and an audio signal processing unit. It includes 106, an image display unit 107, and an audio output unit 108.
  • the content playback device 100 is a terminal device such as a set-top box, processes the received multiplexed bit stream, and displays the processed video on another device including the image display unit 107 and the audio output unit 108. And may be configured to output an audio signal.
  • the non-multiplexing unit 101 demultiplexes the multiplexed bit stream received from the outside as a broadcast signal, a reproduction signal, or streaming data into a video bit stream, an audio bit stream, and an auxiliary bit stream, and the demultiplexing unit 101 in the subsequent stage. It is distributed to each of 102, the audio decoding unit 103, and the auxiliary data decoding unit 104.
  • the video decoding unit 102 decodes, for example, an MPEG-encoded video bit stream and outputs a baseband video signal.
  • the video signal output from the video decoding unit 102 may be a low-resolution or standard-resolution video, or a low dynamic range (LDR) or standard dynamic range (SDR) video.
  • LDR low dynamic range
  • SDR standard dynamic range
  • the audio decoding unit 103 decodes an audio bit stream encoded by a coding method such as MP3 (MPEG Audio Layer3) or HE-AAC (High Efficiency MPEG4 Advanced Audio Coding) to obtain a baseband audio signal. Output. It is assumed that the audio signal output from the audio decoding unit 103 is a low-resolution or standard-resolution audio signal in which a part of the band such as the treble range is removed or compressed.
  • MP3 MPEG Audio Layer3
  • HE-AAC High Efficiency MPEG4 Advanced Audio Coding
  • the auxiliary data decoding unit 104 decodes the encoded auxiliary bit stream and outputs subtitles, text, graphics, program information, and the like.
  • the content reproduction device 100 includes a signal processing unit 150 that performs signal processing of the reproduced content and the like.
  • the signal processing unit 150 includes a video signal processing unit 105 and an audio signal processing unit 106.
  • the video signal processing unit 105 performs video signal processing on the video signal output from the video decoding unit 102 and the subtitles, text, graphics, program information, etc. output from the auxiliary data decoding unit 104.
  • the video signal processing referred to here may include high image quality processing such as noise reduction, resolution conversion processing such as super-resolution, dynamic range conversion processing, and gamma processing.
  • the video signal processing unit 105 is a low resolution or standard resolution video.
  • Super-resolution processing that generates a high-resolution video signal from the signal and high-quality processing such as high dynamic range are performed.
  • the video signal processing unit 105 may perform video signal processing after synthesizing the video signal of the main part output from the video decoding unit 102 and auxiliary data such as subtitles output from the auxiliary data decoding unit 104.
  • the video signal of the main part and the auxiliary data may be individually processed to improve the image quality, and then the composition processing may be performed.
  • the video signal processing unit 105 performs video signal processing such as super-resolution processing and high dynamic range within the range of the screen resolution or the luminance dynamic range allowed by the image display unit 107 to which the video signal is output. Shall be carried out.
  • the video signal processing unit 105 further performs processing such as tracking, framing, and zooming of a specific object on the video based on the user's gaze point and the like.
  • Framing may include processing such as viewpoint switching and line-of-sight change.
  • the video signal processing unit 105 implements the above-mentioned video signal processing by the machine learning model. It is expected that optimal video signal processing will be realized by using a machine learning model in which an artificial intelligence server on the cloud has pre-learned by deep learning.
  • the audio signal processing unit 106 performs audio signal processing on the audio signal output from the audio decoding unit 103.
  • the audio signal output from the audio decoding unit 103 is a low-resolution or standard-resolution audio signal in which a part of the band such as the treble range is removed or compressed.
  • the audio signal processing unit 106 may perform high-quality sound processing such as band-extending a low-resolution or standard-resolution audio signal to a high-resolution audio signal including a removed or compressed band. Further, the audio signal processing unit 106 performs processing for applying effects such as reflection, diffraction, and interference of the output sound. Further, the audio signal processing unit 106 may perform sound image localization processing using a plurality of speakers in addition to improving the sound quality such as band expansion.
  • the sound image localization process determines the direction and loudness of the sound at the position of the sound image to be localized (hereinafter, also referred to as "sound output coordinates"), and the combination of speakers for generating the sound image and the directivity of each speaker. It is also realized by determining the volume. Then, the audio signal processing unit 106 outputs an audio signal from each speaker.
  • the audio signal handled in this embodiment may be "object audio" that supplies individual sounding objects without mixing and renders them on the playback device side.
  • object audio a sounding object represented by a waveform signal with respect to a sounding object (an object that becomes a sound source in a video frame (an object hidden from the video may be included)) and a position relative to a predetermined reference listening position.
  • Object audio data is composed of localization information and meta information.
  • the waveform signal of the sounding object is rendered into an audio signal having a desired number of channels by, for example, VBAP (Vector Based Amplitude Panning) based on the meta information, and reproduced.
  • the audio signal processing unit 106 can specify the position of the sounding object by using the audio signal based on the object audio, and can easily realize more robust stereophonic sound.
  • the audio signal processing unit 106 performs processing of audio signals such as band expansion, effects, and sound image localization by a machine learning model. It is expected that the artificial intelligence server on the cloud will realize optimal audio signal processing by using a machine learning model that has been pre-learned by deep learning.
  • a single machine learning model that performs both video signal processing and audio signal processing may be used in the signal processing unit 150.
  • a machine learning model in the signal processing unit 150 to perform processing such as object tracking, framing (including viewpoint switching and line-of-sight change), and zooming as video signal processing (described above), in the frame.
  • the sound image position may be controlled so as to be linked to the change in the position of the object.
  • the image display unit 107 presents to the user (such as a viewer of the content) a screen displaying a video that has undergone video signal processing such as high image quality by the video signal processing unit 105.
  • the image display unit 107 is a display device including, for example, a liquid crystal display, an organic EL (Electro-Luminescence) display, or a self-luminous display using a fine LED (Light Emitting Diode) element for pixels.
  • the image display unit 107 may be a display device to which the partial drive technology for dividing the screen into a plurality of areas and controlling the brightness for each area is applied.
  • the backlight corresponding to the region with a high signal level is lit brightly, while the backlight corresponding to the region with a low signal level is lit darkly to improve the luminance contrast. be able to.
  • the push-up technology that distributes the power suppressed in the dark area to the region with high signal level and emits light intensively is further utilized (the output power of the entire backlight is constant). It is possible to realize a high dynamic range by increasing the brightness when the white display is partially performed.
  • the image display unit 107 may be a 3D display or a display capable of switching between a 2D image display and a 3D image display.
  • the 3D display is a display equipped with a stereoscopic screen such as a 3D display with the naked eye or glasses, a holographic display that can see different images depending on the line-of-sight direction and improve depth perception, and a light field display.
  • the naked-eye type 3D display include a display using binocular parallax such as a parallax barrier method and a lenticular lens method, and an MLD (multilayer display) that enhances the depth effect by using a plurality of liquid crystal displays.
  • MLD multilayer display
  • the image display unit 107 may be a projector (or a movie theater that projects an image using the projector).
  • a projection mapping technique for projecting an image on a wall surface having an arbitrary shape or a projector stacking technique for superimposing projected images of a plurality of projectors may be applied to the projector. If a projector is used, the image can be enlarged and displayed on a relatively large screen, so that there is an advantage that the same image can be presented to a plurality of people at the same time.
  • the audio output unit 108 outputs audio that has undergone audio signal processing such as high sound quality by the audio signal processing unit 106.
  • the audio output unit 108 is composed of an audio generating element such as a speaker.
  • the audio output unit 108 may be a speaker array (multi-channel speaker or ultra-multi-channel speaker) in which a plurality of speakers are combined.
  • a flat panel type speaker can be used for the audio output unit 108.
  • a speaker array in which different types of speakers are combined can also be used as the audio output unit 108.
  • the speaker array may include one that outputs audio by vibrating the image display unit 107 by one or more vibrators (actuators) that generate vibration.
  • the exciter (actuator) may be in a form that is retrofitted to the image display unit 107.
  • the external speaker may be installed in front of the TV such as a sound bar, or may be wirelessly connected to the TV such as a wireless speaker. Further, it may be a speaker connected to other audio products via an amplifier or the like.
  • the external speaker may be a smart speaker equipped with a speaker and capable of inputting audio, a wired or wireless headphone / headset, a tablet, a smartphone, or a PC (Personal Computer), or a refrigerator, a washing machine, an air conditioner, a vacuum cleaner, or It may be a so-called smart home appliance such as a lighting fixture, or an IoT (Internet of Things) home appliance.
  • the audio output unit 108 includes a plurality of speakers
  • sound image localization can be performed by individually controlling the audio signals output from each of the plurality of output channels.
  • FIG. 3 shows an example of a content viewing environment that combines a 3D display and sound image localization technology.
  • the 3D display 302 is arranged in the room 301, which is the viewing environment for the content.
  • a plurality of directional speakers 311 to 315 are arranged so as to surround the user who views the content.
  • Directive speakers 321 and 322 are also arranged on the left and right sides of the 3D display 302.
  • the speakers 311 to 315 are used for the output of the space sound
  • the speakers 321 and 322 are used for the output of the stage sound.
  • the sound image can be generated at the desired sound output coordinates by changing the combination of the output speakers and adjusting the direction and loudness of the sound emitted from each speaker.
  • FIG. 3 is an example in which the arrangement of the speakers is schematically shown, and the present invention is not limited to this. Further, a non-directional speaker may be arranged instead of the directional speaker.
  • a display with improved depth perception such as a holographic display is assumed.
  • an image in which the object (person) 302 moves in the 3D space 301 is displayed.
  • the user can see different images depending on the direction of the line of sight looking at the 3D space displayed by the 3D display 302. It is also assumed that the user moves in the room 301 while viewing the 3D image in order to change the direction of the line of sight when viewing the 3D space.
  • sound image localization processing is executed in synchronization with the position where the object moved, and the sound image of the sound spoken by the object at each time is at that time.
  • the volume of the sound image of the object is controlled according to the distance between the user moving in the room 301 and the audio object (for example, when the object comes to the front side of the user in the 3D space, the volume of the sound increases. However, the volume of the sound decreases as you move backward to the back of the 3D space).
  • the configuration of the content playback device 100 will be continuously described with reference to FIG. 2 again.
  • the sensor unit 109 includes both a sensor installed inside the main body of the content playback device 100 and a sensor externally connected to the content playback device 100.
  • the externally connected sensor also includes a sensor built in another CE (Consumer Electronics) device or IoT device existing in the same space as the content playback device 100.
  • CE Consumer Electronics
  • IoT IoT device existing in the same space as the content playback device 100.
  • the sensor information obtained from the sensor unit 109 becomes the input information of the neural network used by the video signal processing unit 105 and the audio signal processing unit 106.
  • the details of the neural network will be described later.
  • FIG. 4 schematically shows a configuration example of a sensor unit 109 mounted on the content reproduction device 100.
  • the sensor unit 109 includes a camera unit 410, a user status sensor unit 420, an environment sensor unit 430, a device status sensor unit 440, and a user profile sensor unit 450.
  • the sensor unit 109 is used to acquire various information regarding the viewing status of the user.
  • the camera unit 410 includes a camera 411 that shoots a user who is viewing the video content displayed on the image display unit 107, a camera 412 that shoots the video content displayed on the image display unit 107, and a content playback device 100. Includes a camera 413 that captures the interior (or installation environment) of the room.
  • the camera 411 is installed near the center of the upper end edge of the screen of the image display unit 107, for example, and preferably captures a user who is viewing video content.
  • the camera 412 is installed facing the screen of the image display unit 107, for example, and captures the video content being viewed by the user. Alternatively, the user may wear goggles equipped with the camera 412. Further, it is assumed that the camera 412 has a function of recording (recording) the sound of the video content as well.
  • the camera 413 is composed of, for example, an all-sky camera or a wide-angle camera, and photographs a room (or an installation environment) in which the content reproduction device 100 is installed.
  • the camera 413 may be, for example, a camera mounted on a camera table (head) that can be rotationally driven around each axis of roll, pitch, and yaw.
  • the camera 410 is unnecessary when sufficient environmental data can be acquired by the environmental sensor 430 or when the environmental data itself is unnecessary.
  • the user status sensor unit 420 includes one or more sensors that acquire status information related to the user status.
  • state information the user state sensor unit 420 includes, for example, the user's work state (whether or not video content is viewed), the user's action state (moving state such as stationary, walking, running, etc., eyelid opening / closing state, line-of-sight direction, etc.). It is intended to acquire the size of the pupil), the mental state (impression level such as whether the user is absorbed or concentrated in the video content, excitement level, alertness level, emotions and emotions, etc.), and the physiological state.
  • the user status sensor unit 420 includes various sensors such as a sweating sensor, a myoelectric potential sensor, an electrooculogram sensor, a brain wave sensor, an exhalation sensor, a gas sensor, an ion concentration sensor, and an IMU (Internal Measurement Unit) that measures the user's behavior. It may be provided with an audio sensor (such as a microphone) that picks up the utterance of the user, and a position information detection sensor (such as a proximity sensor) that detects the position of an object such as a user's finger.
  • the microphone does not necessarily have to be integrated with the content playback device 100, and may be a microphone mounted on a product installed in front of a television such as a sound bar.
  • an external microphone-mounted device connected by wire or wirelessly may be used.
  • External microphone-equipped devices include so-called smart speakers equipped with a microphone and capable of audio input, wireless headphones / headsets, tablets, smartphones, or PCs, or refrigerators, washing machines, air conditioners, vacuum cleaners, or lighting equipment. It may be a smart home appliance or an IoT home appliance.
  • the position information detection sensor may be configured as a touch sensor for detecting a user operation on the image display unit 107.
  • the environment sensor unit 430 includes various sensors that measure information about the environment such as the room where the content playback device 100 is installed. For example, temperature sensors, humidity sensors, light sensors, illuminance sensors, airflow sensors, odor sensors, electromagnetic wave sensors, geomagnetic sensors, GPS (Global Positioning System) sensors, audio sensors that collect ambient sounds (microphones, etc.) are environmental sensors. It is included in part 430. Further, the environment sensor unit 430 may acquire information such as the size of the room in which the content reproduction device 100 is placed, the position of the user, and the brightness of the room.
  • GPS Global Positioning System
  • the device status sensor unit 440 includes one or more sensors that acquire the internal status of the content playback device 100.
  • circuit components such as the video decoding unit 102 and the audio decoding unit 103 have a function of externally outputting the state of the input signal and the processing status of the input signal, and play a role as a sensor for detecting the state inside the device. You may do so.
  • the device status sensor unit 440 may detect the operation performed by the user on the content playback device 100 or other device, or may save the user's past operation history. The user's operation may include remote control operation for the content reproduction device 100 and other devices.
  • the other device referred to here may be a tablet, a smartphone, a PC, or a so-called smart home appliance such as a refrigerator, a washing machine, an air conditioner, a vacuum cleaner, or a lighting fixture, or an IoT home appliance.
  • the device status sensor unit 440 may acquire information on the performance and specifications of the device.
  • the device status sensor unit 440 may be a memory such as a built-in ROM (Read Only Memory) that records information on the performance and specifications of the device, or a reader that reads information from such a memory.
  • the user profile sensor unit 450 detects profile information about a user who views video content on the content playback device 100.
  • the user profile sensor unit 450 does not necessarily have to be composed of sensor elements.
  • the user profile such as the age and gender of the user may be estimated based on the face image of the user taken by the camera 411 or the utterance of the user picked up by the audio sensor.
  • the user profile acquired on the multifunctional information terminal carried by the user such as a smartphone may be acquired by the cooperation between the content reproduction device 100 and the smartphone.
  • the user profile sensor unit does not need to detect even sensitive information so as to affect the privacy and confidentiality of the user. Further, it is not necessary to detect the profile of the same user each time the video content is viewed, and a memory such as EEPROM (Electrically Erasable and Program ROM) that stores the user profile information once acquired may be used.
  • EEPROM Electrical Erasable and Program ROM
  • a multifunctional information terminal carried by a user such as a smartphone may be used as a user status sensor unit 420, an environment sensor unit 430, or a user profile sensor unit 450 by linking the content playback device 100 and the smartphone.
  • sensor information acquired by a sensor built into a smartphone healthcare function (pedometer, etc.), calendar or schedule book / memorandum, email, browser history, SNS (Social Network Service) posting and browsing history, etc.
  • the data managed by the application may be added to the user's state data and environment data.
  • a sensor built in another CE device or IoT device existing in the same space as the content playback device 100 may be used as the user status sensor unit 420 or the environment sensor unit 430.
  • the sound of the intercom may be detected or the visitor may be detected by communicating with the intercom system.
  • a luminance meter or a spectrum analysis unit that acquires and analyzes the video or audio output from the content reproduction device 100 may be provided as a sensor.
  • the content reproduction device 100 is configured to control the reproduction of the content based on the user's gaze point.
  • Content playback control is implemented for one or both of image creation and sound creation.
  • the gaze point is a value indicating who is watching which content (for example, a television program) and how.
  • the content playback device 100 extracts an object of high interest to the user from the video based on the gaze point of the user, tracks the object, and further, an object to be watched by the user.
  • Video signal processing such as framing and zooming based on the above is performed on the video signal of the content.
  • processing such as switching to a viewpoint position suitable for observing the object to be watched by the user and changing the line of sight is also performed.
  • the framing and zooming processing makes it possible to provide an image that makes it easy for the user to observe the object that the user is gazing at, and it is possible to obtain the effect that the content is more interesting to the user and the sense of presence is increased.
  • the content reproduction device 100 can execute high image quality processing such as super-resolution processing and high dynamic range as video signal processing, these image quality processing may be performed based on the object to be watched. Good. For example, while rendering the object to be gazed at with high resolution and high dynamic range, the video signal processing should be sharp according to the user's interest, such as suppressing the resolution and brightness dynamic range of other surrounding objects. ..
  • the content playback device 100 may perform a process of acquiring related information related to the object to be watched by the user by automatic search and displaying it as auxiliary data. For example, if the object is a sports player, search for related information such as the player's profile, grades, and related books. Also, if the object is a celebrity who appears in a movie or drama, it searches for related information such as movies, TV programs, and related books that have appeared in the past. If the object is a car, search for related information such as car specifications and dealers.
  • the content reproduction device 100 performs audio signal processing not only for the video signal but also for the audio signal based on the user's gaze point. For example, in video signal processing, when framing or zooming is performed based on an object that the user gazes at, as audio signal processing, a sound image of an audio signal such as audio emitted from the object that the user gazes at is displayed on that object. Sound image localization processing is performed so as to adapt to the position.
  • the volume of the audio signal emitted from an object of high user interest may be increased, and the volume of the audio signal emitted from an object of low user interest may be decreased.
  • the content playback device 100 performs high-quality sound processing such as band expansion as audio signal processing, only the audio signal emitted from the object to be watched by the user is high-quality sound processing, depending on the degree of interest of the user. The processing of the audio signal of each object may be performed.
  • each sounding object is supplied without mixing, and the localization information of the sounding object is supplied as meta information. Therefore, the display of the object when framing or zooming processing is performed on the video. Audio signal processing such as sound image localization and volume adjustment for each object can be easily realized according to the above.
  • FIG. 5 shows an example of a functional configuration of the video signal processing unit 105 that creates an image based on the user's gaze point.
  • the illustrated video signal processing unit 105 includes a gazing point determination unit 501, an object feature extraction unit 502, a video tracking unit 503, and a video output control unit 504.
  • the gaze point determination unit 501 inputs the video stream after decoding from the video decoding unit 102, and also inputs the sensor information from the sensor unit 109, and based on the sensor information, the gaze point that the user is gazing at in the video. To determine.
  • the gaze point determination unit 501 may extract only one gaze point from the video, or may extract a plurality of gaze points at the same time.
  • the gaze point determination unit 501 may determine the gaze point based on the movement of the user's line of sight. For example, the gaze point determination unit 501 may determine the position where the line of sight stays for a certain period of time as the gaze point. Alternatively, the gaze point determination unit 501 may determine the position in the line-of-sight direction when a change in emotion or emotion when the user's excitement level rises is detected as the gaze point.
  • the gaze point determination unit 501 may determine the gaze point by using the position of the user (the position relative to the display screen of the content playback device 100) and the orientation of the face in addition to the line of sight of the user. When there are a plurality of users, the gaze point determination unit 501 may extract the main user and determine the gaze point from the line of sight of the user, or may obtain the average line of sight of the plurality of users. The gazing point may be determined based on the above. Further, the gaze point determination unit 501 may determine the gaze point in consideration of the viewing environment such as the brightness of the room.
  • the gaze point determination unit 501 may determine the gaze point based on an instruction by the user using a finger or a remote controller.
  • the camera unit 410 or the user state sensor 420 may detect the user's finger and determine the position on the screen indicated by the user's finger as the gazing point. Further, the position on the screen indicated by the pointer function of the remote controller may be detected and determined as the gazing point.
  • the gaze point determination unit 501 may determine the gaze point by using the information regarding the features of the object determined by the object feature extraction unit 502. For example, information about the features of the object already extracted by the object feature extraction unit 502 may be stored in a storage unit (not shown), and the gazing point determination unit 501 may discriminate the gazing point using the feature information.
  • the gazing point determination unit 501 has the feature information (for example, the person holding the ball) included in the user utterance acquired by the sensor unit 109 and the feature information of the object extracted by the object feature extraction unit 502. By comparing, it is possible to determine the object to be watched by the user.
  • the gazing point determination unit 501 may determine the gazing point using the meta information.
  • the meta information may be included in the video stream and transmitted, or may be acquired from an external server or recording medium by a route different from that of the video stream.
  • the gaze point determination unit 501 may determine the gaze point of the user (or the position to be watched by the user) based on not only the sensor information but also the context such as the story development of the content. For example, in the case of a video of watching a sport, the player to be noted may be determined from the viewpoint according to the development of the game. In the case of a baseball broadcast video stream, it is presumed that the gaze point should be moved from moment to moment from the pitcher who throws the ball to the batter who hits the ball and then in the direction of the ball. In the case of a live video stream of soccer or rugby, it is presumed that the player who keeps the ball and the player who passed the ball should be watched.
  • the point of gaze is not limited to a person, but may be an object reflected in the image (a signboard (including digital signage) placed in the stadium, a car, furniture or furniture of a studio set, etc.).
  • the gaze point determination unit 501 may perform the gaze point determination process using a machine learning model deeply learned so as to estimate the user's gaze point from the sensor information and the video stream.
  • the object feature extraction unit 502 extracts the features of the object corresponding to the gaze point determined by the gaze point determination unit 501. For example, in the case of a video of watching sports, the characteristics of the player determined by the gaze point are extracted, and in the case of a video of a movie or drama, the characteristics of the performer determined by the gaze point are extracted.
  • the object identified as the gaze point is not limited to a person, but is an object reflected in the image (signboards (including digital signage) placed in the stadium, cars, furniture and furniture of the studio set, etc.). You may.
  • the object feature extraction unit 502 may perform the object feature extraction process using a machine learning model deeply learned so as to estimate the features of the object corresponding to the gaze point from the gaze point and the video stream.
  • the video tracking unit 503 tracks the gazing point object in the video stream based on the features of the gazing point object extracted by the object feature extracting unit 502, and obtains the coordinates of the gazing point object in the video frame. Output.
  • the video tracking unit 503 may output the coordinates of the object for each frame, or may output the coordinates of the object at predetermined frame intervals. When there are a plurality of gazing points, the video tracking unit 503 may track the objects of each gazing point and output the coordinates of each object.
  • the video output control unit 504 controls the output of the video stream based on the coordinates of the object output from the video tracking unit 503. Specifically, the video output control unit 504 performs framing and zooming processing based on the coordinates of the object that the user is gazing at. For example, the video output control unit 504 performs framing processing so that the coordinates of the object that the user gazes at are in the center of the frame, and further zooms in on the object that the user gazes at. Further, when there are a plurality of gaze points, the video output control unit 504 may perform framing and zoom processing so that all the objects (or more objects) that the user gazes at are displayed. ..
  • the video output control unit 504 performs framing and zooming processing including viewpoint conversion and line-of-sight change.
  • the framing and zooming processing (or rendering processing) is basically performed based on the line of sight of a specific user, but different framing and zooming processing may be performed depending on the number of users viewing at the same time, or the room may be used.
  • the framing or zooming process may be switched according to the environment.
  • the video output control unit 504 may perform high image quality processing based on the coordinates of the object that the user is gazing at. Good. For example, the video output control unit 504 renders with a high resolution and a high dynamic range of the object to be watched, while suppressing the resolution and the brightness dynamic range of other surrounding objects. Try to perform signal processing. The area around the coordinates of the object that the user gazes at is converted to a high dynamic range with high resolution, while the resolution and dynamic range are suppressed in the area away from the object that the user gazes at, emphasizing the object that the user gazes at. Or it will be a complimenting image.
  • the video output control unit 504 uses a machine learning model that has been deep-learned to perform optimal framing, zooming, and other video signal processing for the gazing object and objects around the gazing point for the video stream. Framing, zooming, and other video signal processing may be performed.
  • the image display unit 107 is assumed to be various types of display devices such as a liquid crystal display, an organic EL display, a self-luminous display, a 3D display, and a holographic display. Therefore, the video output control unit 504 performs adjustment processing according to the type of display on the video stream that has undergone framing, zooming, and other image quality processing based on the gaze object. Then, the video processed by the video output control unit 504 is output by the image display unit 107.
  • display devices such as a liquid crystal display, an organic EL display, a self-luminous display, a 3D display, and a holographic display. Therefore, the video output control unit 504 performs adjustment processing according to the type of display on the video stream that has undergone framing, zooming, and other image quality processing based on the gaze object. Then, the video processed by the video output control unit 504 is output by the image display unit 107.
  • the video signal processing unit 105 performs framing or zooming processing based on the object to be watched by the user, the position, size, and orientation of each object in the video frame are the original. It changes from the video frame of.
  • the objects displayed in the video there is also a sounding object that emits an audio signal. Therefore, when framing or zooming is performed on the video stream, a sound image is generated so that the audio signal of each sounding object can be heard from the display position (sound output coordinates) in the video frame after the framing or zooming processing. That is, it is preferable to perform the image sound matching process.
  • FIG. 17 shows a functional configuration example of the signal processing unit 150 configured to perform image creation including framing and zooming processing and image sound matching processing based on the user's gaze point.
  • the functional modules having the same names as those shown in FIG. 5 and exhibiting the same functions are given the same reference numbers, and detailed description thereof will be omitted or the minimum necessary description will be given here.
  • the sound output coordinate estimation unit 521 inputs the video stream after framing and zooming processing from the video output control unit 102, and inputs the decoded audio stream from the audio decoding unit 103. Then, the sound output coordinate estimation unit 521 estimates the display position of the sound source as a sound source in the video after the framing or zooming process, and outputs the sound output coordinates.
  • the sounding object is an object or the like that is determined to be the gaze point by the gaze point determination unit 501.
  • the sound output coordinate estimation unit 521 separates the waveform of the audio signal for each object from the original audio stream, and outputs the sound for each separated object. Estimate the coordinates.
  • the sound output coordinate estimation unit 521 does not need to separate the audio signals for each object and is included in the meta information. It is possible to easily calculate the display position, size, and orientation of each object after framing and zooming processing based on the localization information.
  • the sound output coordinate estimation unit 521 estimates the two-dimensional sound output coordinates. Further, when the image output unit 107 is a 3D display having depth information such as a holographic display or a light field display, the sound output coordinate estimation unit 521 estimates the three-dimensional sound output coordinates. Further, when the sound output coordinate estimation unit 521 estimates a plurality of sounding objects, the sound output coordinate estimation unit 521 may also estimate the volume of each sounding object (or the ratio of the volume between the sounding objects).
  • the sound output coordinate estimation unit 521 estimates the 3D depth (pop-out amount), size, and 3D display direction of the sounding object in the 3D image, and the 3D display direction thereof is estimated.
  • the three-dimensional sound output coordinates, the loudness of the output sound, and the direction of the output sound may be estimated so as to correspond to the 3D depth, the magnitude, and the orientation of the 3D display.
  • the sound image of the 3D sounding object that is displayed in 3D from a certain position on the image output unit 107 toward the user who views the content in front of the image output unit 107 is displayed on the image output unit 107. It may be generated so that the user can hear it from the position.
  • the 3D sounding object is displayed at a position closer to the user (when the pop-out amount is large), the sound image may be generated so that the user can hear it at a louder volume.
  • the sound output coordinate estimation unit 521 uses a machine learning model deeply learned to estimate the sound output coordinates of the object that is the sound source in the video from the input video stream and audio stream, and the sound output of each sounding object. Performs coordinate estimation processing. There is also a method of detecting a sound source appearing in the video by video analysis and audio analysis of the input video stream and audio stream, and calculating the display position of the sound source on the screen, but it is difficult to calculate in real time. .. Therefore, as described above, in the present embodiment, the sound output coordinate estimation unit 521 uses a machine learning model.
  • the audio output control unit 522 controls the drive of the audio output unit 108 for generating a sound image of each sounding object in the video according to the sound output coordinates estimated by the sound output coordinate estimation unit 521. Specifically, for example, when the audio output unit 108 is composed of a plurality of speakers, the audio output control unit 522 sets the direction of the sound at the sound output position for each sounding object whose sound output coordinates are estimated. The loudness of the sound is determined, the combination of speakers for generating the sound image is determined, and the volume and direction to be output from each speaker are set.
  • the audio output control unit 522 is based on the user's gaze level, such as performing high-quality sound processing such as band expansion or applying a special effect to the audio signal emitted from the sounding object that the user gazes at.
  • the weighted audio signal processing may be performed.
  • FIG. 18 shows an image taken by a camera installed on the back screen.
  • the gazing point determination unit 501 determines that the user wants to gaze from the third base side or the lateral direction of the pitcher
  • the video output control unit 504 determines that the pitcher is viewed from the third base side as shown in FIG. Framing and zooming are performed so that the image looks like.
  • the video output control unit 504 looks at the pitcher from the home base side as shown in FIG. Framing and zooming are performed so that the image becomes a good image.
  • FIG. 21 shows a video in which a long pass is issued from the penalty area of one's own team toward the enemy's team.
  • the video output control unit 504 determines that the ball and the player chasing the ball, as shown in FIG. Perform framing and zooming to focus.
  • the zooming and framing processing may not be performed instantaneously, and the target framing image and the target zooming image may be performed step by step.
  • the zooming or framing process is performed at high speed, the user may get drunk with the image or the user may not be able to properly follow the target object. Therefore, such a problem can be alleviated by performing display control so as to approach the target viewpoint image at a predetermined speed, or performing display control so as to approach the target viewpoint image step by step.
  • display control by performing the image sound matching process, the sound image and volume are also generated to change at a predetermined speed or to change stepwise, so that the sound is three-dimensional. Output control can be realized.
  • the machine learning model used for the gazing point discriminating process in the gazing point discriminating unit 501 is represented by, for example, a neural network.
  • the learning of the machine learning model represented by the neural network is performed through the process of changing the neural network by inputting the learning data into the neural network and learning the connection weight coefficient between the nodes (neurons).
  • the learning of the neural network may be performed in the content reproduction device 100, or deep learning may be performed using a huge amount of learning data on the cloud.
  • FIG. 6 schematically shows a functional configuration example of the artificial intelligence server 600 that deep-learns the neural network used in the gazing point determination unit 501.
  • the artificial intelligence server 600 is built on the cloud, but may be built by edge computing such as edge or mobile edge.
  • the learning data database 601 stores a huge amount of learning data uploaded from a large number of content playback devices 100 (for example, TV receivers in each home).
  • the learning data includes the sensor information input to the neural network as the gaze point determination unit 501 in the content reproduction device 100, the video stream, and the gaze point determination unit 501 (output from the gaze point determination unit 501). It shall include the viewpoint and the evaluation value for the discrimination result.
  • the evaluation value may be, for example, a simple evaluation (whether OK or NG) of the user with respect to the discriminated gazing point (or the video output based on the discriminant result).
  • the neural network 602 for determining the gazing point inputs the combination of the sensor information and the video stream read from the learning data database 601 as learning data, and outputs the result of determining the gazing point of the user at that time.
  • the evaluation unit 603 evaluates the learning result of the neural network 602. Specifically, the evaluation unit 603 determines the gaze point discrimination result output from the neural network 602 and the gaze point discrimination result combined with the input to the neural network 602 read from the training data database 601. (Teacher data) and user's evaluation are input to define a loss function based on the difference between the output from the neural network 602 and the teacher data.
  • the loss function may be calculated by increasing the weight of the difference from the teacher data having a high evaluation result of the user and decreasing the weight of the difference from the teacher data having a low evaluation result of the user. ..
  • the evaluation unit 603 learns the neural network 602 by backpropagation (error back propagation method) so that the loss function is minimized.
  • FIG. 7 schematically shows a functional configuration example of the artificial intelligence server 700 that deep-learns the neural network used in the object feature extraction unit 502.
  • the artificial intelligence server 700 is built on the cloud, but may be built by edge computing such as edge or mobile edge.
  • the learning data database 701 a huge amount of learning data uploaded from a large number of content playback devices 100 (for example, TV receivers in each home) is accumulated.
  • the learning data includes information on the gazing point determined by the gazing point determining unit 501 in the content playback device 100, a video stream, and features of the object (output from the object feature extracting unit 502) determined at that time.
  • the evaluation value for the extraction result shall be included.
  • the evaluation value may be, for example, a simple evaluation (whether OK or NG) of the user with respect to the characteristics of the extracted object (or the video output based on the extraction result).
  • the neural network 702 for object feature extraction inputs the combination of the gazing point information read from the training data database 701 and the video stream as learning data, and extracts the object corresponding to the gazing point.
  • the evaluation unit 703 evaluates the learning result of the neural network 702. Specifically, the evaluation unit 703 combines the characteristics of the object output from the neural network 702 and the characteristics of the object read from the training data database 701 with the input to the neural network 702 (teacher data). And enter the user's rating to define a loss function based on the difference between the output from the neural network 702 and the teacher data.
  • the loss function may be defined by increasing the weight of the difference from the teacher data having a high evaluation result of the user and decreasing the weight of the difference from the teacher data having a low evaluation result of the user. ..
  • the evaluation unit 703 learns the neural network 702 by backpropagation (error back propagation method) so that the loss function is minimized.
  • the machine learning model used for video output processing by the video output control unit 504 is also represented by a neural network.
  • FIG. 8 schematically shows a functional configuration example of the artificial intelligence server 800 that deep-learns the neural network used in the video output control unit 504.
  • the artificial intelligence server 800 is built on the cloud, but may be built by edge computing such as edge or mobile edge.
  • the learning data database 801 stores a huge amount of learning data uploaded from a large number of content playback devices 100 (for example, TV receivers in each home).
  • the learning data includes the coordinates of the object tracked by the video tracking unit 503 in the content playback device 100, the video stream, the video output from the video output control unit 504 at that time, and the evaluation value for the output video. It shall include.
  • the evaluation value may be, for example, a simple evaluation (OK or NG) of the user with respect to the output video.
  • the neural network 802 for video output control inputs the combination of the coordinates of the object read from the training data database 801 and the video stream as learning data, and performs video output control on the video stream.
  • the video output control referred to here includes framing, zooming, resolution conversion, and luminance dynamic range conversion for the gaze point object and the objects around the gaze point.
  • the evaluation unit 803 evaluates the learning result of the neural network 802. Specifically, the evaluation unit 803 inputs the video output from the neural network 802, the video stream (teacher data) combined with the coordinates of the object read from the training data database 801 and the user's evaluation. Then, a loss function based on the difference from the video stream output from the neural network 802 is defined. The loss function may be defined by increasing the weight of the difference from the teacher data having a high evaluation result of the user and increasing the weight of the difference from the teacher data having a low evaluation result of the user. Then, the evaluation unit 803 learns the neural network 802 by backpropagation (error back propagation method) so that the loss function is minimized.
  • backpropagation error back propagation method
  • FIG. 15 schematically shows a functional configuration example of the artificial intelligence server 1500 that deep-learns the neural network used by the sound output coordinate estimation unit 521.
  • the artificial intelligence server 1500 is built on the cloud, but may be built by edge computing such as edge or mobile edge.
  • the training data includes a video stream decoded by the video decoding unit 102 in the content playback device 100 (or after framing or zooming processing), a video stream decoded by the audio decoding unit 103, and sound output coordinates at that time. It is assumed that the sound output coordinates estimated by the estimation unit 1401 and the evaluation value for the sound output coordinates are included.
  • the evaluation value may be, for example, a simple evaluation (OK or NG) of the user with respect to the audio output (or the generated sound image) based on the estimated sound output coordinates.
  • the neural network 1502 for sound output coordinate estimation processing inputs a combination of a video stream and an audio stream read from the training data database 1501 as training data, estimates the display position of an object that becomes a sound source in the video, and estimates the display position. Output as sound output coordinates.
  • the neural network 1502 separates the waveform of the audio signal for each object from the original audio stream and estimates the sound output coordinates for each separated object. To do.
  • the evaluation unit 1503 evaluates the learning result of the neural network 1502. Specifically, the evaluation unit 1503 has the sound output coordinates output from the neural network 1502, the sound output coordinates (teacher data) combined with the video stream and the audio stream read from the training data database 1501, and the sound output coordinates (teacher data).
  • a user rating is input to define a loss function based on the difference from the video stream output from the neural network 1502.
  • the loss function may be defined by increasing the weight of the difference from the teacher data having a high evaluation result of the user and increasing the weight of the difference from the teacher data having a low evaluation result of the user.
  • the evaluation unit 1503 learns the neural network 1502 by backpropagation (error back propagation method) so that the loss function is minimized.
  • FIG. 9 shows the procedure of video signal processing performed by the video signal processing unit 105 shown in FIG. 5 in the form of a flowchart.
  • the gazing point determination unit 501 inputs the video stream after decoding from the video decoding unit 102, and also inputs the sensor information from the sensor unit 109, and the user gazes in the video based on the sensor information.
  • the gazing point is determined (step S901).
  • the gaze point determination unit 501 basically determines a position in the video frame that the user is interested in and gazes at based on the movement of the user's line of sight. However, the gaze point determination unit 501 may determine the position to be watched by the user instead of the position to be watched by the user based on the context of the content being played.
  • step S903 the object feature extraction unit 502 of the object corresponding to the gaze point determined by the gaze point determination unit 501.
  • Features are extracted (step S903).
  • the video tracking unit 503 tracks the gaze point object in the video stream based on the features of the gaze point object extracted by the object feature extraction unit 502, and the gaze point object in the video frame.
  • the coordinates are output (step S904).
  • the video output control unit 504 controls the output of the video stream based on the coordinates of the object output from the video tracking unit 503 (step S905).
  • the video output control referred to here includes framing, zooming, resolution conversion, and luminance dynamic range conversion for the gaze point object and the objects around the gaze point.
  • the image display unit 107 is assumed to be various types of display devices such as a liquid crystal display, an organic EL display, a self-luminous display, a 3D display, and a holographic display. Therefore, the video output control unit 504 performs adjustment processing according to the type of display on the video stream that has undergone framing, zooming, and other image quality processing based on the gaze object (step S906).
  • the video processed by the video output control unit 504 is output as a video by the image display unit 107 (step S907).
  • FIG. 16 shows the procedure of the image sound matching process executed by the signal processing unit 150 shown in FIG. 17 in the form of a flowchart. Since video signal processing such as framing and zooming based on the user's gaze is realized according to the processing procedure shown in FIG. 5, the description of the video signal processing is omitted or the minimum necessary in FIG. ..
  • the gazing point determination unit 501 inputs the video stream after decoding from the video decoding unit 102, and also inputs the sensor information from the sensor unit 109, and the user gazes in the video based on the sensor information.
  • the gazing point is determined (step S1601).
  • the video output control unit 504 tracks the object corresponding to the gaze point, and the video stream is based on the result. Framing and zooming are performed on the object. Then, the sound output coordinate estimation unit 521 calculates the video position of each sounding object from the video after framing or zooming processing (step S1603), and determines the video position, the orientation and size of each sounding object. (Step S1604).
  • the sound output coordinate estimation unit 521 calculates the position of the sound image for each sounding object based on the image position of the object, the orientation and size of the object determined in the preceding step S1604 (step S1605), and outputs the sound image.
  • the sound position, sound direction, and loudness are determined (step S1606), and output as sound output coordinate information.
  • the audio signal is object audio, it is supplied without mixing the individual sounding objects, and the localization information of the sounding objects is supplied as meta information. Therefore, the sound image position of each sounding object can be calculated, and the sound output position and sound can be calculated. The process of determining the direction and size can be easily realized.
  • the video output control unit 504 controls the output of the video stream based on the coordinates of the object output from the video tracking unit 503.
  • the video output control referred to here includes framing, zooming, resolution conversion, and luminance dynamic range conversion for the gaze point object and the objects around the gaze point. Then, the video output control unit 504 executes the adjustment process according to the type of the display (step S1607).
  • the audio output control unit 522 applies an effect (reflection, diffraction, interference, etc.) to the sound image of each sounding object based on the image position of each sounding object, the orientation and size of the object determined in step S1606. (Step S1608). Next, the audio output control unit 522 determines the combination of speakers for generating a sound image based on the direction and loudness of the sound at the sound output position determined in the preceding steps S1606 and S1608, and the effect (step). S1609).
  • the video processed by the video output control unit 504 is output as a video by the image display unit 107.
  • the audio output control unit 522 outputs an audio signal from each speaker to generate a sound image localized at the display position of the gazing object (step S1610).
  • FIG. 5 shows an example of a functional configuration in which the image creation process based on the user's gaze point is executed by the edge, that is, the content playback device 100.
  • the process of creating an image based on the user's gaze can be performed on a server on the cloud (for example, an artificial intelligence server).
  • a server on the cloud for example, an artificial intelligence server.
  • One of the effects of processing on the server side is that it is possible to collect learning data from a large number of edges and perform deep learning and re-learning while providing the content created based on the user's gaze point to the edge. Can be mentioned.
  • FIG. 23 shows an example of a functional configuration of the artificial intelligence server 2300 that creates an image based on the user's gaze point.
  • the artificial intelligence server 2300 is assumed to be installed on the cloud.
  • the video source 2301 targeted by the artificial intelligence server 2300 for image creation processing may be a broadcasting station, a stream distribution server, or a recording medium.
  • video framing or scaling processing is generated by, for example, an operation of a user's remote controller or other controller or a manual operation such as a voice command.
  • the framing or scaling process is automatically started based on the analysis result of the source video from the video source 2301.
  • the sensor information detected by the sensor unit 109 on the content playback device 100 side is input to the gazing point determination unit 2311 in the artificial intelligence server 2300 via the network.
  • the gaze point determination unit 2311 determines the gaze point that the user is gazing at in the video input from the video source 2301.
  • the gaze point discriminating unit 2311 performs the gaze point discrimination process using a machine learning model deeply learned so as to estimate the user's gaze point from the sensor information and the video stream.
  • the object feature extraction unit 2312 extracts the features of the object corresponding to the gaze point determined by the gaze point determination unit 2311.
  • the object feature extraction unit 2312 performs an object feature extraction process using a machine learning model deeply learned so as to estimate the features of the object corresponding to the gaze point from the gaze point and the video stream.
  • the video tracking unit 2313 tracks the gaze point object in the video stream based on the features of the gaze point object extracted by the object feature extraction unit 2312, and obtains the coordinates of the gaze point object in the video frame. Output.
  • the framing / scaling processing unit 2314 performs framing and zooming processing based on the coordinates of the object that the user gazes at, based on the coordinates of the object output from the video tracking unit 2313. For example, the framing / scaling processing unit 2314 performs framing processing so that the coordinates of the object that the user gazes at are in the center of the frame, and further zooms in on the object that the user gazes at (see FIGS. 18 to 22). ..
  • the video stream subjected to the image creation processing on the artificial intelligence server 2300 is encoded by the video coding unit 2302 according to a predetermined coding standard such as MPEG2 System, and then the content playback device 100 is subjected to the coding processing. be delivered.
  • a predetermined coding standard such as MPEG2 System
  • the received coded video stream is decoded by the video decoding unit 102, the video signal processing unit 105 performs video signal processing including high image quality, and then the image display unit 107 displays and outputs the stream. Will be done.
  • FIG. 17 shows an example of a functional configuration in which the image sound matching process when the image is created based on the user's gaze point is executed by the edge, that is, the content reproduction device 100.
  • the image sound matching process can be performed on a server on the cloud (for example, an artificial intelligence server).
  • a server on the cloud for example, an artificial intelligence server.
  • One of the effects of processing on the server side is to collect learning data from a large number of edges and perform deep learning and re-learning while providing content that has been image-created and image-sound matching processed based on the user's gaze point. There are things that can be done.
  • FIG. 24 shows an example of a functional configuration of the artificial intelligence server 2400 that performs image creation and image sound matching processing based on the user's gaze point.
  • functional modules having the same names as those shown in FIG. 23 and having the same functions are given the same reference numbers, and the description is omitted here or the minimum necessary description is given.
  • the artificial intelligence server 2400 is assumed to be installed on the cloud.
  • the audio source 2401 targeted by the artificial intelligence server 2400 for image sound matching processing is content provided from a broadcasting station, a stream distribution server, or a recording medium together with the video source 2301.
  • the sound output coordinate estimation unit 2411 inputs the video stream after framing and zooming processing from the framing / scaling processing unit 2314, and also inputs the audio stream from the audio source 2401. Then, the sound output coordinate estimation unit 2411 estimates the display position of the sound source as a sound source in the video after the framing or zooming process, and outputs the sound output coordinates.
  • the sound output coordinate estimation unit 2411 uses a machine learning model deeply learned to estimate the sound output coordinates of the object that is the sound source in the video from the input video stream and audio stream, and the sound output of each sounding object. Performs coordinate estimation processing.
  • the sound output coordinate estimation unit 2411 separates the waveform of the audio signal for each object from the original audio stream, and outputs the sound for each separated object. Estimate the coordinates.
  • the sound output coordinate estimation unit 2411 has the localization included in the meta information. Based on the information, it is possible to easily calculate the display position, size, and orientation of each object after framing and zooming processing.
  • the edge that is, the content reproduction device 100 side may transmit the specification information of the display used in the image output unit 107 to the artificial intelligence server 2400.
  • the sound output coordinate estimation unit 2411 estimates the two-dimensional sound output coordinates.
  • the image output unit 107 is a 3D display having depth information such as a holographic display
  • the sound output coordinate estimation unit 2411 estimates the three-dimensional sound output coordinates.
  • the sound output coordinate estimation unit 2411 may also estimate the volume of each sounding object (or the ratio of the volume between the sounding objects).
  • the audio signal processing unit 2412 performs audio signal processing for generating a sound image of each sounding object in the video according to the sound output coordinates estimated by the sound output coordinate estimation unit 2411.
  • the configuration of the speaker used in the audio output unit 108 may be transmitted from the edge, that is, the content reproduction device 100 side.
  • the audio signal processing unit 2412 determines the direction and loudness of the sound at the sound output position for each sounding object whose sound output coordinates are estimated, and determines the combination of speakers for generating the sound image. Set the volume and direction of output from each speaker.
  • the audio signal is object audio
  • the audio signal processing unit 2412 does not mix the individual sounding objects, and outputs information such as sound output coordinates for each sounding object as meta information.
  • the audio stream subjected to the image sound matching processing in the artificial intelligence server 2400 is subjected to the coding processing according to a predetermined coding standard such as MP3 or HE-AAC by the audio coding unit 2413, and then the content. It is delivered to the playback device 100.
  • a predetermined coding standard such as MP3 or HE-AAC
  • the received coded audio stream is decoded by the audio decoding unit 103, the audio signal processing unit 106 performs audio signal processing including high sound quality, and then the audio output unit 108 outputs the audio. Will be done.
  • the video processed by the video output control unit 504 in step S905 or step S1607 may be returned to the state before the video output processing is performed.
  • the framed or zoomed video may be returned to the input video before the processing is performed.
  • These actions may include, for example, user gestures such as moving a hand in front of the screen display unit 107 or moving the face away from the screen display unit 107.
  • the user may control the line of sight, including adjusting the line of sight to a predetermined position inside or outside the screen display unit 107 or a predetermined object.
  • an utterance including a predetermined command by the user may be included.
  • the operation for a predetermined object displayed on the screen, the operation of the operation unit provided on the main body of the content reproduction device 100, or the operation of the remote controller for operating the content reproduction device 100 may be included.
  • FIG. 10 shows another functional configuration example of the video signal processing unit 105 that creates an image based on the user's gaze point.
  • the illustrated video signal processing unit 105 includes a gazing point determination unit 501, an object feature extraction unit 502, an image tracking unit 503, a video output control unit 504, an object determination unit 511, and a related information search acquisition unit 512.
  • the related information output control unit 513 is provided.
  • the gaze point determination unit 501, the object feature extraction unit 502, the video tracking unit 503, and the video output control unit 504 are the same as the functional modules having the same name and the same reference number in FIG. The explanation is omitted or explained to the minimum necessary.
  • the object discrimination unit 511 discriminates an object based on the characteristics of the gaze point object extracted by the object feature extraction unit 502.
  • the object discrimination unit 511 may access the information resource on the cloud as necessary to perform the object discrimination process. For example, in the case of a video of watching sports, it is determined who is the player who is determined to be the gaze point, and in the case of a video of a movie or drama, it is determined who is the performer who is determined to be the gaze point. ..
  • the object is not limited to a person, but may be an object reflected in the image (a signboard (including digital signage) placed in the stadium, a car, furniture or furniture of a studio set, etc.).
  • the object discrimination unit 511 may perform object discrimination processing by using a machine learning model deeply learned so as to estimate the object from the characteristics of the object.
  • the related information search acquisition unit 512 performs a process of searching and acquiring the related information of the object determined by the object determination unit 511 on the cloud through the external interface unit 110. For example, if the object is a sports player, search for related information such as the player's profile, grades, and related books. Also, if the object is a celebrity who appears in a movie or drama, it searches for related information such as movies, TV programs, and related books that have appeared in the past. If the object is a car, search for related information such as car specifications and dealers.
  • the related information search acquisition unit 512 uses deep-learned machine learning models to estimate search methods (search keywords and search condition expressions) for related information according to objects and perform search processing. You may perform the search acquisition process of. Further, although the process in which the related information search acquisition unit 512 searches on the cloud and acquires the related information of the object has been described here, the related information search acquisition unit 512 describes the storage unit of the content reproduction device 100 (not shown) and the content. A search / acquisition process for acquiring related information from an external storage area connected to the playback device 100 may be performed. Also, the relevant information about the object may be obtained from the meta information transmitted with the video stream.
  • the related information output control unit 513 performs output control for presenting the related information of the object acquired by the related information search acquisition unit 512 searching on the cloud to the user.
  • related information may be superimposed and displayed on the video stream as auxiliary data such as OSD (On Screen Display) and subtitles.
  • the related information output control unit 513 may convert the related information into audio data, superimpose it on the audio stream of the content, and output the audio.
  • OSD On Screen Display
  • the related information output control unit 513 generates an OSD from the related information of the object acquired by the related information search acquisition unit 512, and outputs the OSD to the video output control unit 504.
  • the video output control unit 504 controls the output of the video stream based on the coordinates of the object output from the video tracking unit 503.
  • the video output control referred to here includes framing, zooming, resolution conversion, and luminance dynamic range conversion for the object of the user's gazing point and the objects around the gazing point.
  • the video output control unit 504 superimposes the OSD generated by the related information output control unit 513 on the video stream.
  • the video output control unit 504 considers the position of the object moved by the framing or zooming, and performs the OSD superimposition processing. I do.
  • the video output control unit 504 performs adjustment processing according to the type of display on the video stream that has undergone other image quality processing.
  • the video processed by the video output control unit 504 is output by the image display unit 107.
  • the form of displaying the related information of the object is not limited to the OSD.
  • a band for displaying related information may be generated at the edge of a balloon, a pop-up window, or the top, bottom, left, or right of the screen.
  • the 3D depth, size, and orientation of the OSD display position are set with reference to the display position of the target object.
  • the gazing point determination unit 501 may determine the gazing point by using the discrimination information regarding the object discriminated by the object discriminating unit 511. For example, information on the determination result of the object already determined by the object feature extraction unit 502 may be stored in a storage unit (not shown), and the gaze point determination unit 501 may determine the gaze point using the determination information. In this case, for example, the gaze point determination unit 501 can determine the object to be gazed at by the user by using the name of the object included in the user utterance acquired by the sensor unit 109. Further, when the meta information transmitted together with the video stream includes information about the object, the gazing point determination unit 501 may determine the gazing point using the meta information.
  • the meta information may be included in the video stream and transmitted, or may be acquired from an external server or recording medium by a route different from that of the video stream.
  • the gaze point determination unit 501 may determine the gaze point by using the related information of the object acquired by the related information search acquisition unit 512.
  • the machine learning model used for the object discrimination process in the object discrimination unit 511 is represented by, for example, a neural network.
  • FIG. 11 schematically shows a functional configuration example of the artificial intelligence server 1100 that deep-learns the neural network used in the object discrimination unit 511.
  • the artificial intelligence server 1100 is built on the cloud, but may be built by edge computing such as edge or mobile edge.
  • the learning data database 1101 a huge amount of learning data uploaded from a large number of content playback devices 100 (for example, TV receivers in each home) is accumulated. It is assumed that the learning data includes the characteristics of the object of the gazing point determined by the object feature extraction unit 502 in the content reproduction device 100, the object determined by the object determination unit 511 at that time, and the evaluation value for the determination result.
  • the evaluation value may be, for example, a simple evaluation (either OK or NG) of the discriminated object (or the video output based on the discriminant result) by the user.
  • the neural network 1102 for object discrimination processing inputs the characteristics of the object read from the training data database 1101 as training data, and outputs the discrimination result of the object at that time.
  • the neural network 1102 accesses an information resource on the cloud as needed and performs object discrimination processing.
  • the evaluation unit 1103 evaluates the learning result of the neural network 1102. Specifically, the evaluation unit 1103 determines the object discrimination result (teacher) that is combined with the object discrimination result output from the neural network 1102 and the input to the neural network 1102 read from the training data database 1101. Data) and user ratings are input to define a loss function based on the difference between the output from the neural network 1102 and the teacher data. The loss function may be calculated by increasing the weight of the difference from the teacher data having a high evaluation result of the user and decreasing the weight of the difference from the teacher data having a low evaluation result of the user. .. Then, the evaluation unit 1103 learns the neural network 1102 by backpropagation (error back propagation method) so that the loss function is minimized.
  • backpropagation error back propagation method
  • FIG. 12 schematically shows a functional configuration example of the artificial intelligence server 1200 that deep-learns the neural network used in the related information retrieval acquisition unit 512.
  • the artificial intelligence server 1200 is built on the cloud, but may be built by edge computing such as edge or mobile edge.
  • the learning data database 1201 a huge amount of learning data uploaded from a large number of content playback devices 100 (for example, TV receivers in each home) is accumulated.
  • the learning data includes an object determined by the object determination unit 511 in the content reproduction device 100 based on the characteristics of the object, and related information acquired by the related information search acquisition unit 512 searching on the cloud for the object.
  • the evaluation value for the search acquisition result shall be included.
  • the evaluation value may be, for example, a simple evaluation (either OK or NG) of the user for the related information (or the OSD displayed based on the related information) obtained by the search.
  • the neural network 1202 for searching and acquiring related information inputs an object read from the training data database as training data, and outputs related information of the object.
  • the neural network 1202 performs a process of searching and acquiring information related to an object on the cloud.
  • the evaluation unit 1203 evaluates the learning result of the neural network 1202. Specifically, the evaluation unit 1203 combines the related information output from the neural network 1202 with the input to the neural network 1202 read from the training data database 1201 and the user. Is input to define a loss function based on the difference between the output from the neural network 1202 and the training data. The loss function may be calculated by increasing the weight of the difference from the teacher data having a high evaluation result of the user and decreasing the weight of the difference from the teacher data having a low evaluation result of the user. .. Then, the evaluation unit 1203 learns the neural network 1202 by backpropagation (error back propagation method) so that the loss function is minimized.
  • backpropagation error back propagation method
  • FIG. 13 shows the procedure of video signal processing performed by the video signal processing unit 105 shown in FIG. 10 in the form of a flowchart.
  • the gazing point determination unit 501 inputs the video stream after decoding from the video decoding unit 102, and also inputs the sensor information from the sensor unit 109, and the user gazes in the video based on the sensor information.
  • the gazing point is determined (step S1301).
  • the gaze point determination unit 501 can determine the gaze point of the user (Yes in step S1302), the object feature extraction unit 502 of the object corresponding to the gaze point determined by the gaze point determination unit 501. Features are extracted (step S1303).
  • the video tracking unit 503 tracks the gaze point object in the video stream based on the features of the gaze point object extracted by the object feature extraction unit 502, and the gaze point object in the video frame.
  • the coordinates are output (step S1304).
  • the object discrimination unit 511 discriminates an object based on the characteristics of the gazing point object extracted by the object feature extraction unit 502.
  • the object discrimination unit 511 accesses the information resource on the cloud as needed and performs the object discrimination process (step S1308).
  • the related information search acquisition unit 512 executes a process of searching and acquiring the related information of the object determined by the object determination unit 511 on the cloud (step S1309).
  • the related information output control unit 513 performs output control for presenting the related information of the object acquired by the related information search acquisition unit 512 on the cloud to the user by, for example, the OSD (step S1310).
  • the video output control unit 504 controls the output of the video stream based on the coordinates of the object output from the video tracking unit 503 (step S1305).
  • the video output control referred to here includes framing, zooming, resolution conversion, and luminance dynamic range conversion for the gaze point object and the objects around the gaze point. Further, the video output control unit 504 superimposes the OSD generated by the related information output control unit 513 on the video stream.
  • the image display unit 107 is assumed to be various types of display devices such as a liquid crystal display, an organic EL display, a self-luminous display, a 3D display, and a holographic display. Therefore, the video output control unit 504 performs adjustment processing according to the type of display on the video stream that has undergone framing, zooming, and other image quality processing based on the gaze object (step S1306).
  • the video processed by the video output control unit 504 is output as a video by the image display unit 107 (step S1307).
  • FIG. 10 shows a configuration example of the video signal processing unit 105 that searches for and outputs information related to the object that the user gazes at.
  • a server on the cloud for example, an artificial intelligence server
  • One effect of processing on the server side is that it is possible to collect learning data from a large number of edges and perform deep learning and re-learning while attaching relevant information of the object to the content and providing it to the edge.
  • FIG. 25 shows an example of a functional configuration of the artificial intelligence server 2500 that outputs related information of the object that the user gazes at.
  • the artificial intelligence server 2500 is assumed to be installed on the cloud.
  • the video source 2501 targeted by the artificial intelligence server 2500 for image creation processing may be a broadcasting station, a stream distribution server, or a recording medium.
  • the sensor information detected by the sensor unit 109 on the content playback device 100 side is input to the gazing point determination unit 2511 in the artificial intelligence server 2500 via the network.
  • the gaze point determination unit 2511 determines the gaze point that the user is gazing at in the video input from the video source 2501.
  • the gaze point determination unit 2511, the object feature extraction unit 2512, the video tracking unit 2513, and the video output control unit 2514 are the same as the function modules having the same name and the same reference number in FIG. The explanation is omitted or explained to the minimum necessary.
  • the object feature extraction unit 2512 extracts the features of the object corresponding to the gaze point determined by the gaze point determination unit 2511.
  • the object discrimination unit 2515 discriminates an object based on the characteristics of the gaze point object extracted by the object feature extraction unit 502.
  • the object discrimination unit 2515 may perform the object discrimination process by using a machine learning model deeply learned so as to estimate the object from the characteristics of the object.
  • the related information search acquisition unit 2516 executes a process of searching and acquiring the related information of the object determined by the object determination unit 2515 on the cloud.
  • the related information search acquisition unit 2516 uses a deep-learned machine learning model to estimate a search method (search keyword and search condition expression) of related information according to an object and execute a search process. You may perform the search acquisition process of.
  • the related information output control unit 2517 performs output control for presenting the related information of the object acquired by the related information search acquisition unit 2516 on the cloud to the user. There are various ways to present relevant information to the user.
  • the related information output control unit 2517 may generate related information in the form of auxiliary data such as subtitles, meta information of a video stream, or the like.
  • the video output control unit 2514 controls the output of the video stream based on the coordinates of the object output from the video tracking unit 2513. Further, the video output control unit 2514 outputs the related information generated by the related information output control unit 2517 in the form of subtitles, auxiliary data, meta information, etc. together with the video stream.
  • the video stream subjected to the image creation processing on the artificial intelligence server 2500 is encoded by the video coding unit 2502 according to a predetermined coding standard such as MPEG2 System, and then the content playback device 100 is subjected to the coding processing. be delivered.
  • a predetermined coding standard such as MPEG2 System
  • the received encoded video stream is decoded by the video decoding unit 102, and the received auxiliary data stream is decoded by the auxiliary data decoding unit 104. Then, the decoded video stream is displayed and output together with related information on the image display unit 107 after the video signal processing unit 105 performs video signal processing including image quality improvement.
  • D-3 Image sound matching processing
  • there are a plurality of sound sources such as a plurality of characters appearing in a video frame.
  • the sound source will move if that character moves.
  • the position of the object moved by the framing or zooming is changed from the position in the original content. It fluctuates (described above). In short, the position of the sound source existing in the video frame is indefinite.
  • a phenomenon of image sound mismatch in which an image of an object (sound source) displayed on the screen and its sound image do not match is significantly perceived by the user.
  • a display with improved depth perception such as a holographic display
  • the discrepancy between the image and the sound image in the depth direction becomes remarkable. Due to the image sound mismatch phenomenon, it becomes difficult for the user to identify the sound source (which object is the sound), and the user feels uncomfortable.
  • the content playback device 100 performs a process of matching the image of the object as a sound source with the sound image thereof (hereinafter, also referred to as "picture sound matching process"). Specifically, in the content playback device 100 according to the present embodiment, an image of an object that is a sound source appearing in the video is detected, and an audio signal of the sound source is detected based on the display position of the object in the video frame. Estimate the optimum sound output coordinates that emit. Then, the audio output unit 108 is made to perform a process of generating a sound image of the sound source at the estimated sound output position.
  • the sound image generation process includes a process of determining the direction and loudness of the sound at the sound output position, and determining the combination of speakers for generating the sound image.
  • FIG. 14 shows an example of a functional configuration of the signal processing unit 150 that performs image sound matching processing.
  • the illustrated signal processing unit 150 is a functional module that combines the functions of the video signal processing unit 105 and the audio signal processing unit 106 in FIG. 2, but includes the sound output coordinate estimation unit 1401, the video output control unit 1402, and the audio. It includes an output control unit 1403.
  • the video stream after decoding from the video decoding unit 102 and the audio stream after decoding are input from the audio decoding unit 103 to the signal processing unit 150.
  • the sound output coordinate estimation unit 1401 inputs the video stream after decoding from the video decoding unit 102, and inputs the audio stream after decoding from the audio decoding unit 103.
  • the framing of the image is performed in the sound output coordinate estimation unit 1401 based on the sensor information or the like. And zooming processing is performed, and sound output coordinate estimation processing is performed based on the processed video stream.
  • the sound output coordinate estimation unit 1401 estimates the display position of the sound source object in the video and outputs it as the sound output coordinates.
  • the sound output coordinate estimation unit 1401 separates the waveform of the audio signal for each object from the original audio stream, and outputs the sound for each separated object. Estimate the coordinates.
  • the audio stream follows the object audio, the individual sounding objects are not mixed, so that the sound output coordinate estimation unit 1401 does not need to separate the audio signals for each object, and is included in the meta information.
  • the display position, size, and orientation of each sounding object can be easily calculated based on the localization information.
  • the sound output coordinate estimation unit 1401 notes based on the sensor information.
  • the viewpoint is estimated, and the sound output coordinates of each sounding object are estimated from the video in consideration of the framing and zooming results based on the gazing point.
  • the sound output coordinate estimation unit 1401 estimates the two-dimensional sound output coordinates. Further, when the image output unit 107 is a 3D display having depth information such as a holographic display, the sound output coordinate estimation unit 1401 estimates the three-dimensional sound output coordinates. Further, when the sound output coordinate estimation unit 1401 estimates a plurality of sounding objects, the sound output coordinate estimation unit 1401 may also estimate the volume of each sounding object (or the ratio of the volume between the sounding objects).
  • the sound output coordinate estimation unit 1401 uses a machine learning model deeply learned to estimate the sound output coordinates of the object that is the sound source in the video from the input video stream and audio stream, and the sound output of each sounding object. Performs coordinate estimation processing. There is also a method of detecting a sound source appearing in the video by video analysis and audio analysis of the input video stream and audio stream, and calculating the display position of the sound source on the screen, but it is difficult to calculate in real time. .. Therefore, as described above, in the present embodiment, the sound output coordinate estimation unit 1401 uses a machine learning model.
  • the video output control unit 1402 performs high image quality processing such as super-resolution processing and high dynamic range on the video stream.
  • the video output control unit 1402 performs the framing or zooming process on the original video frame.
  • the video output control unit 1402 performs adjustment processing according to the type of display such as a liquid crystal display, an organic EL display, a self-luminous display, a 3D display, and a holographic display. Then, the video processed by the video output control unit 1402 is output by the image display unit 107.
  • the audio output control unit 1403 controls the drive of the audio output unit 108 for generating a sound image of each sounding object in the video according to the sound output coordinates estimated by the sound output coordinate estimation unit 1401. Specifically, for example, when the audio output unit 108 is composed of a plurality of speakers, the audio output control unit 1403 determines the direction and sound of the sound at the sound output position for each sounding object whose sound output coordinates are estimated. The size of the speaker is determined, the combination of speakers for generating the sound image is determined, and the volume and direction to be output from each speaker are set.
  • the audio output control unit 1403 starts from the sounding object that the user gazes at. It is also possible to perform weighted audio signal processing based on the user's gaze, such as performing high-quality sound processing such as band expansion on the emitted audio signal or applying a special effect.
  • the machine learning model used for the sound output coordinate estimation process in the sound output coordinate estimation unit 1401 is represented by a neural network.
  • the deep learning of the neural network used in the sound output coordinate estimation unit 1401 can be performed on the artificial intelligence server 1500 shown in FIG. Since the configuration and operation of the artificial intelligence server 1500 have already been described, the description thereof will be omitted here.
  • FIG. 14 shows an example of a functional configuration in which the image sound matching process of the content is executed on the edge, that is, the content reproduction device 100 side.
  • the image sound matching process can be performed on a server on the cloud (for example, an artificial intelligence server).
  • a server on the cloud for example, an artificial intelligence server.
  • the artificial intelligence server 2400 shown in FIG. 24 it is possible to perform image sound matching processing on the content before distributing it to the edge. Since the artificial intelligence server 2400 has already been described, the description thereof will be omitted here.
  • the present specification has mainly described embodiments in which the present disclosure is applied to a television receiver, the gist of the present disclosure is not limited to this. Also for various types of devices that present to users content acquired by streaming or downloading over broadcast waves or the Internet, or content played from recording media, such as personal computers, smartphones, tablets, head-mounted displays, media players, etc. Similarly, the present disclosure can be applied.
  • An estimation unit that estimates the sound output coordinates that generate a sound image based on the video stream and audio stream, A video output control unit that controls the output of the video stream, An audio output control unit that controls the output of an audio stream so as to generate a sound image at the sound output coordinates, Information processing device equipped with.
  • the estimation unit estimates the sound output coordinates using a machine learning model.
  • the information processing device according to (1) above.
  • the estimation unit estimates the sound output coordinates for generating a sound image of a predetermined object that is a sound source in the video.
  • the information processing device according to any one of (1) and (2) above.
  • the estimation unit estimates the sound output coordinates for generating the sound image of the object that the user who watches the video and audio gazes at.
  • the information processing device according to any one of (1) to (3) above.
  • the estimation unit estimates the sound output coordinates that generate the sound image of the object that the user gazes at, based on the discrimination result of the discrimination unit.
  • the discriminating unit discriminates the user's gaze point using a machine learning model.
  • the information processing device according to (5) above.
  • the discriminating unit discriminates the gaze point of the user based on the result of detecting the state related to the user.
  • the information processing device according to any one of (5) and (6) above.
  • the state includes at least one of the position of the user, the orientation or line of sight of the user's face, the number of users, and the indoor environment in which viewing is performed.
  • the information processing device according to (5) above.
  • the video output control unit renders a video based on the result of determining the gaze degree of the user.
  • the video output control unit renders a video using a machine learning model.
  • the information processing device according to (7) above.
  • the rendering includes at least one of video framing and zooming processing.
  • the information processing device according to any one of (7) and (8) above.
  • the video output control unit performs the rendering based on the result of tracking the object that the user gazes at.
  • the information processing device according to any one of (7) to (9) above.
  • the estimation unit estimates the sound output coordinates based on the image obtained by framing or zooming processing.
  • the information processing device according to any one of (7) to (10) above.
  • the estimation unit estimates the sound output position, sound direction, and size of the sound image based on the display position, orientation, or size of the object in the video.
  • the information processing device according to any one of (3) to (11) above.
  • the audio output control unit generates the sound image by controlling the combination of the speakers to be used among the plurality of available speakers and the direction and loudness of the sound output from each speaker.
  • the information processing device according to any one of (1) to (11) above.
  • the video output control unit controls the output of a video stream to a 2D or 3D display.
  • the information processing device according to any one of (1) to (11) above.
  • the framing or zooming process of the video is performed stepwise or at a predetermined speed up to the target value.
  • the information processing device according to (9) above.
  • the video stream is a 3D video stream.
  • the information processing device according to any one of (1) to (12) above.
  • a display unit capable of 3D display using binocular parallax is provided.
  • the information processing device according to any one of (1) to (15) above.
  • An acquisition unit that acquires related information of an object that is determined based on the characteristics of the object corresponding to the gazing point.
  • the related information output control unit that controls the output of the acquired related information, With The video output control unit controls to output related information together with the video stream.
  • the audio stream contains meta information of object-based audio.
  • the information processing device according to any one of (1) to (18) above.
  • 100 Content playback device, 101 ... Non-multiplexing unit, 102 ... Video decoding unit 103 ... Audio decoding unit, 104 ... Auxiliary data decoding unit 105 ... Video signal processing unit, 106 ... Audio signal processing unit 107 ... Image display unit, 108 ... Audio output unit, 109 ... Sensor unit 110 ... External interface unit, 150 ... Signal processing unit 410 ... Camera unit, 411 to 413 ... Camera 420 ... User status sensor unit, 430 ... Environmental sensor unit 440 ... Equipment status sensor unit, 450 ... User profile sensor unit 501 ... Gaze point determination unit, 502 ... Object feature extraction unit 503 ... Video tracking unit, 504 ... Video output control unit 511 ...
  • Object discrimination unit 512 ... Related information search acquisition unit 513 ... Related information output control unit 521 ... Sound output coordinate estimation unit 522 ... Audio output control unit 600 ... Artificial intelligence server (for gaze discrimination) 601 ... Database for learning data, 602 ... Neural network 603 ... Evaluation unit 700 ... Artificial intelligence server (for object feature extraction) 701 ... Database for learning data, 702 ... Neural network 703 ... Evaluation unit 800 ... Artificial intelligence server (for video output control) 801 ... Database for learning data, 802 ... Neural network 803 ... Evaluation unit 1100 ... Artificial intelligence server (for object discrimination processing) 1101 ... Database for learning data 1102 ... Neural network 1103 ... Evaluation unit 1200 ...
  • Artificial intelligence server for related information retrieval acquisition processing 1201 ... Database for training data 1202 ... Neural network 1203 ... Evaluation unit 1401 ... Sound output coordinate estimation unit 1402 ... Video output control unit 1403 ... Audio output control unit 1501 ... Database for training data 1502 ... Neural network, 1503 ... Evaluation unit 2300 ... Artificial intelligence server, 2301 ... Video source 2302 ... Video decoding unit, 2311 ... Gaze point determination unit 2312 ... Object feature extraction unit, 2313 ... Video tracking unit 2314 ... Framing / scaling processing unit 2400 ... Artificial intelligence server, 2401 ... Audio Source 2411 ... Sound output coordinate estimation unit, 2412 ... Audio signal processing unit 2413 ... Audio coding unit 2500 ...
  • Artificial intelligence server 2501 ... Video source 2502 ... Video coding unit, 2511 ... Gaze point determination unit 2512 ... Object feature extraction unit , 2513 ... Video tracking unit 2514 ... Video output control unit, 2515 ... Object discrimination unit 2516 ... Related information search acquisition unit, 2517 ... Related information output control unit

Abstract

コンテンツに対する処理を行う情報処理装置を提供する。 情報処理装置は、映像ストリームとオーディオストリームに基づいて音像を生成する出音座標を推定する推定部と、映像ストリームの出力を制御する映像出力制御部と、前記出音座標に音像を生成するようにオーディオストリームの出力を制御するオーディオ出力制御部を具備する。映像及びオーディオを視聴するユーザの注視点を判別する判別部をさらに備え、前記推定部は、前記判別結果に基づいて、ユーザが注視するオブジェクトの音像を生成する出音座標を推定する。

Description

情報処理装置及び情報処理方法
 本明細書で開示する技術(以下、「本開示」とする)は、ユーザが視聴するコンテンツに関する処理を行う情報処理装置及び情報処理方法に関する。
 現在、ヘッドマウントディスプレイを着用した視聴者の姿勢情報を基に、自由視点映像の視聴処理を制御する技術に関する研究開発が行われている。例えば、特許文献1では、視聴者の頭部や身体の姿勢を検出し、それに応じた視点映像を描画することでユーザの視線の向きに応じた視点映像を視聴可能に関する技術が開示されている。
 また最近では、表示装置とセンシング技術とを組み合わせて、視聴者の眼の位置や視線を検出して映像コンテンツに対する表示処理を行う技術についても研究開発がなされている。例えば、特許文献2においては、検出した視聴者の眼の位置や視線が立体画像の表示制御に利用される。これらの例のように、視聴者と表示映像の位置関係の検出結果に基づいて映像の表示制御を行うことで、より拡張された映像コンテンツの表現が実現されている。
特許第6572893号公報 国際公開第2018/116580号公報
 本開示の目的は、コンテンツに対するユーザの注視点に基づいて処理を行う情報処理装置及び情報処理方法を提供することにある。
 本開示の第1の側面は、
 映像ストリームとオーディオストリームに基づいて音像を生成する出音座標を推定する推定部と、
 映像ストリームの出力を制御する映像出力制御部と、
 前記出音座標に音像を生成するようにオーディオストリームの出力を制御するオーディオ出力制御部と、
を具備する情報処理装置である。
 第1の側面に係る情報処理装置は、映像及びオーディオを視聴するユーザの注視点を判別する判別部を備えている。そして、前記推定部は、前記判別部の判別結果に基づいて、ユーザが注視するオブジェクトの音像を生成する出音座標を推定する。前記判別部は、ユーザに関連する状態を検出した結果に基づいて、ユーザの注視点を判別する。
 また、前記映像出力制御部は、ユーザの注視度を判別した結果に基づいて、映像のフレーミング又はズーミング処理のうち少なくとも一方を含む映像のレンダリングを行う。前記映像出力制御部は、ユーザが注視するオブジェクトをトラッキングした結果に基づいて前記レンダリングを行う。
 また、第1の側面に係る情報処理装置は、前記注視点に対応するオブジェクトの特徴に基づいて判別されるオブジェクトの関連情報を取得する取得部と、前記取得した関連情報の出力を制御する関連情報出力制御部を備えている。そして、前記映像出力制御部は、映像ストリームとともに関連情報を出力するように制御する。
 また、本開示の第2の側面は、
 映像ストリームとオーディオストリームに基づいて音像を生成する出音座標を推定する推定ステップと、
 映像ストリームの出力を制御する映像出力制御ステップと、
 前記出音座標に音像を生成するようにオーディオストリームの出力を制御するオーディオ出力制御ステップと、
を有する情報処理方法である。
 本開示によれば、人工知能を利用してユーザの注視点に基づくコンテンツの再生制御を行う情報処理装置及び情報処理方法を提供することができる。
 なお、本明細書に記載された効果は、あくまでも例示であり、本開示によりもたらされる効果はこれに限定されるものではない。また、本開示が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
 本開示のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
図1は、映像コンテンツを視聴するシステムの構成例を示した図である。 図2は、コンテンツ再生装置100の構成例を示した図である。 図3は、3Dディスプレイと音像定位技術を組み合わせたコンテンツ視聴環境の一例を示した図である。 図4は、センサー部109の構成例を示した図である。 図5は、映像信号処理部105の機能的構成例を示した図である。 図6は、注視点判別処理用ニューラルネットワークを深層学習する人工知能サーバ600の機能的構成例を示した図である。 図7は、オブジェクト特徴抽出処理用ニューラルネットワークを深層学習する人工知能サーバ700の機能的構成例を示した図である。 図8は、映像出力制御用ニューラルネットワークを深層学習する人工知能サーバ800の機能的構成例を示した図である。 図9は、図5に示した映像信号処理部105において行われる映像信号処理の手順を示したフローチャートである。 図10は、映像信号処理部105の他の機能的構成例を示した図である。 図11は、オブジェクト判別処理用ニューラルネットワークを深層学習する人工知能サーバ1100の機能的構成例を示した図である。 図12は、関連情報検索取得処理用ニューラルネットワークを深層学習する人工知能サーバ1200の機能的構成示した図である。 図13は、図10に示した映像信号処理部105において行われる映像信号処理の手順を示したフローチャートである。 図14は、画音一致処理を行う信号処理部150の機能的構成例を示した図である。 図15は、出音座標推定処理用ニューラルネットワークを深層学習する人工知能サーバ1500の機能的構成例を示した図である。 図16は、信号処理部150において実行される画音一致処理の手順を示したフローチャートである。 図17は、画音一致処理を行う信号処理部150の機能的構成例を示した図である。 図18は、ユーザの注視点に基づいて映像をフレーミングやズーミング処理する例を示した図である。 図19は、ユーザの注視点に基づいて映像をフレーミングやズーミング処理する例を示した図である。 図20は、ユーザの注視点に基づいて映像をフレーミングやズーミング処理する例を示した図である。 図21は、ユーザの注視点に基づいて映像をフレーミングやズーミング処理する例を示した図である。 図22は、ユーザの注視点に基づいて映像をフレーミングやズーミング処理する例を示した図である。 図23は、ユーザの注視点に基づいて画作りを行う人工知能サーバ2300の機能的構成例を示した図である。 図24は、ユーザの注視点に基づいて画作り及び画音一致処理を行う人工知能サーバ2400の機能的構成例を示した図である。 図25は、ユーザが注視するオブジェクトの関連情報を出力する人工知能サーバ2500の機能的構成例を示した図である。
 以下、図面を参照しながら本開示に係る実施形態について詳細に説明する。
A.システム構成
 図1には、映像コンテンツを視聴するシステムの構成例を模式的に示している。
 コンテンツ再生装置100は、例えば家庭内で一家が団らんするリビングや、ユーザの個室などに設置されるテレビ受信機である。但し、コンテンツ再生装置100は、テレビ受信機のような据え置き型の装置には必ずしも限定されず、例えばパーソナルコンピュータ、スマートフォン、タブレット、ヘッドマウントディスプレイなどの小型又は携帯型の装置であってもよい。また、本実施形態において、単に「ユーザ」という場合、特に言及しない限り、コンテンツ再生装置100に表示された映像コンテンツを視聴する(視聴する予定がある場合も含む)視聴者のことを指すものとする。
 コンテンツ再生装置100は、映像コンテンツを表示するディスプレイ並びの音響を出力するスピーカーを装備している。コンテンツ再生装置100は、例えば放送信号を選局受信するチューナーを内蔵し、又はチューナー機能を備えたセットトップボックスが外付け接続されており、テレビ局が提供する放送サービスを利用することができる。放送信号は、地上波及び衛星波のいずれを問わない。
 また、コンテンツ再生装置100は、例えばIPTVやOTT、動画共有サービスといったネットワークを利用した動画配信サービスも利用することができる。このため、コンテンツ再生装置100は、ネットワークインターフェースカードを装備し、イーサネット(登録商標)やWi-Fi(登録商標)などの既存の通信規格に基づく通信を利用して、ルータ経由やアクセスポイント経由でインターネットなどの外部ネットワークに相互接続されている。コンテンツ再生装置100は、その機能的な側面において、映像やオーディオなどさまざまな再生コンテンツを、放送波又はインターネットを介したストリーミングあるいはダウンロードにより取得してユーザに提示するさまざまなタイプのコンテンツの取得あるいは再生の機能を持つディスプレイを搭載したコンテンツ取得装置あるいはコンテンツ再生装置又はディスプレイ装置でもある。また、図示しないが、コンテンツ再生装置100にはHDMI(登録商標)(High-Definition Multimedia Interface)インターフェースを介してメディア再生装置が接続されており、ハードディスクドライブ(HDD)やブルーレイなどの記録メディアから再生されるコンテンツが入力される。
 インターネット上には、映像ストリームを配信するストリーム配信サーバが設置されており、コンテンツ再生装置100に対して放送型の動画配信サービスを提供する。
 また、インターネット上には、さまざまなサービスを提供する無数のサーバが設置されている。サーバの一例は、例えばIPTVやOTT、動画共有サービスといったネットワークを利用した動画ストリームの配信サービスを提供するストリーム配信サーバである。コンテンツ再生装置100側では、ブラウザ機能を起動し、ストリーム配信サーバに対して例えばHTTP(Hyper Text Transfer Protocol)リクエストを発行して、ストリーム配信サービスを利用することができる。
 また、本実施形態では、クライアントに対してインターネット上で(あるいは、クラウド上で)人工知能の機能を提供する人工知能サーバも存在することを想定している。人工知能は、例えば、学習、推論、データ創出、計画立案といった人間の脳が発揮する機能を、ソフトウェア又はハードウェアによって人工的に実現する機能のことである。人工知能の機能は、人間の脳神経回路を模したニューラルネットワークで表される機械学習モデルを利用して実現することができる。
 機械学習モデルは、学習データの入力を伴う学習(訓練)を通じてモデル構造を変化させる、人工知能に用いられる可変性を持つ計算モデルである。ニューラルネットワークは、脳型(ニューロモーフィック(Neuromorphic))コンピュータを使う場合においては、ノードのことを、シナプスを介した人工ニューロン(又は、単に「ニューロン」)とも呼ぶ。ニューラルネットワークは、ノード(ニューロン)間の結合により形成されるネットワーク構造を有し、一般に入力層、隠れ層、及び出力層から構成される。ニューラルネットラークで表される機械学習モデルの学習は、ニューラルネットワークにデータ(学習データ)を入力し、ノード(ニューロン)間の結合の度合い(以下、「結合重み係数」とも呼ぶ)を学習することで、ニューラルネットワークを変化させる処理を通じで行われる。学習済みの機械学習モデルを用いることで、問題(入力)に対して最適な解決(出力)を推定することができる。機械学習モデルは、例えばノード(ニューロン)間の結合重み係数の集合データとして扱われる。
 ここで、ニューラルネットワークは、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)、回帰的ニューラルネットワーク(Recurrent Neural Network:RNN)、敵対的生成ネットワーク(Generative Adversarial Network)、変分オートエンコーダ(Variational Autoencoder)、自己組織化写像(Self-Organizing Feature Map)、スパイキングニューラルネットワーク(Spiking Neural Network:SNN)など、目的に応じて多様なアルゴリズム、形態、構造を持つことができ、これらを任意に組み合わせることができる。
 本開示に適用される人工知能サーバは、深層学習(Deep Learning:DL)を行うことができる、多段ニューラルネットワークを搭載していることを想定している。深層学習を行う場合、学習データ数もノード(ニューロン)数も大規模となる。したがって、クラウドのような巨大な計算機資源を使って深層学習を行うことが適切と思料される。
 本明細書で言う「人工知能サーバ」は、単一のサーバ装置とは限らず、例えば他のデバイスを介してユーザに対してクラウドコンピューティングサービスを提供し、他のデバイスに対してサービスの結果物(成果物)を出力し、提供するクラウドの形態であってもよい。
 また、本明細書で言う「クライアント」(以下では、端末、センサデバイス、エッジ(Edge)デバイスとも呼ぶ)は、少なくとも、人工知能サーバにより学習が済んだ機械学習モデルを、人工知能サーバによるサービスの結果物として、人工知能サーバからダウンロードし、ダウンロードした機械学習モデルを用いて推論や物体検出などの処理を行い、又は人工知能サーバが機械学習モデルを用いて推論したセンサデータをサービスの結果物として受け取って推論や物体検出などの処理を行うことを特徴としている。クライアントはさらに比較的小規模なニューラルネットワークを利用する学習機能を備えることにより、人工知能サーバと連携して深層学習を行えるようにしてもよい。
 なお、上述した脳型コンピュータの技術とそれ以外の人工知能の技術は独立したものではなく、お互いに協調的に利用することができる。例えば、ニューロモーフィックコンピュータにおける代表的な技術として、SNN(前述)がある。SNNの技術を使用することで、例えばイメージセンサなどからの出力データを、入力データ系列に基づいて時間軸で微分した形式で、深層学習の入力に提供するデータとして使用することができる。したがって、本明細書では、特に明示しない限り、ニューラルネットワークを脳型コンピュータの技術を利用した人工知能の技術の一種として扱う。
B.装置構成
 図2には、コンテンツ再生装置100の構成例を示している。図示のコンテンツ再生装置100は、コンテンツの受信など外部とのデータ交換を行う外部インターフェース部110を備えている。ここで言う外部インターフェース部110は、放送信号を選局受信するチューナー、メディア再生装置からの再生信号を入力するHDMI(登録商標)インターフェース、ネットワーク接続するネットワークインターフェース(NIC)を装備し、放送やクラウドなどのメディアからのデータ受信、並びにクラウドからのデータの読み出しや検索(retrieve)などの機能を備えている。
 外部インターフェース部110は、コンテンツ再生装置100に提供されるコンテンツを取得する機能を持つ。コンテンツ再生装置100にコンテンツが提供される形態として、地上放送や衛星放送などの放送信号、ハードディスクドライブ(HDD)やブルーレイなどの記録メディアから再生される再生信号、クラウド上のストリーム配信サーバなどから配信されるストリーミングコンテンツなどを想定している。ネットワークを利用した放送型の動画配信サービスとして、IPTVやOTT、動画共有サービスなどを挙げることができる。そして、これらのコンテンツは、映像、オーディオ、補助データ(字幕、テキスト、グラフィックス、番組情報など)といった各メディアデータのビットストリームを多重化した多重化ビットストリームとして、コンテンツ再生装置100に供給される。多重化ビットストリームは、例えばMPEG2 System規格に則って映像、オーディオなどの各メディアのデータが多重化されていることを想定している。
 なお、放送局やストリーム配信サーバ、記録メディアから提供される映像ストリームは、2D及び3Dの双方を含むことを想定している。3D映像は自由視点映像でもよい。2D映像は、複数の視点から撮影した複数の映像で構成されていてもよい。また、放送局やストリーム配信サーバ、記録メディアから提供されるオーディオストリームは、個々の発音オブジェクトがミキシングされないオブジェクトオーディオ(object-based audio)を含むことを想定している。
 また、本実施形態では、外部インターフェース部110が、クラウド上の人工知能サーバが深層学習などによる学習した機械学習モデルを取得することを想定している。例えば、外部インターフェース部110は、映像信号処理用の機械学習モデルや、オーディオ信号処理用の機械学習モデルを取得する(後述)。
 コンテンツ再生装置100は、非多重化部(デマルチプレクサ)101と、映像復号部102と、オーディオ復号部103と、補助(Auxiliary)データ復号部104と、映像信号処理部105と、オーディオ信号処理部106と、画像表示部107と、オーディオ出力部108を備えている。なお、コンテンツ再生装置100は、セットトップボックスのような端末装置であり、受信した多重化ビットストリームを処理して、画像表示部107及びオーディオ出力部108を備えた他の装置に処理後の映像及びオーディオ信号を出力するように構成してもよい。
 非多重化部101は、放送信号、再生信号、又はストリーミングデータとして外部から受信した多重化ビットストリームを、映像ビットストリーム、オーディオビットストリーム、及び補助ビットストリームに非多重化して、後段の映像復号部102、オーディオ復号部103、及び補助データ復号部104の各々に分配する。
 映像復号部102は、例えばMPEG符号化された映像ビットストリームを復号処理して、ベースバンドの映像信号を出力する。なお、映像復号部102から出力される映像信号は、低解像度又は標準解像度の映像、あるいは低ダイナミックレンジ(LDR)又は標準ダイナミックレンジ(SDR)の映像であることも考えられる。
 オーディオ復号部103は、例えばMP3(MPEG Audio Layer3)あるいはHE-AAC(High Efficiency MPEG4 Advanced Audio Coding)などの符号化方式により符号化されたオーディオビットストリームを復号処理して、ベースバンドのオーディオ信号を出力する。なお、オーディオ復号部103から出力されるオーディオ信号は、高音域などの一部の帯域が除去又は圧縮された低解像度又は標準解像度のオーディオ信号であることを想定している。
 補助データ復号部104は、符号化された補助ビットストリームを復号処理して、字幕、テキスト、グラフィックス、番組情報などを出力する。
 コンテンツ再生装置100は、再生コンテンツの信号処理などを行う信号処理部150を備えている。信号処理部150は、映像信号処理部105とオーディオ信号処理部106を含む。
 映像信号処理部105は、映像復号部102から出力された映像信号及び補助データ復号部104から出力された字幕、テキスト、グラフィックス、番組情報などに対して映像信号処理を施す。ここで言う映像信号処理には、ノイズ低減、超解像などの解像度変換処理、ダイナミックレンジ変換処理、及びガンマ処理といった高画質化処理を含んでいてもよい。映像復号部102から出力される映像信号は、低解像度又は標準解像度の映像、あるいは低ダイナミックレンジ又は標準ダイナミックレンジの映像である場合には、映像信号処理部105は、低解像度又は標準解像度の映像信号から高解像度映像信号を生成する超解像処理や、高ダイナミックレンジ化などの高画質化処理を実施する。映像信号処理部105は、映像復号部102から出力された本編の映像信号と補助データ復号部104から出力された字幕などの補助データとを合成した後に映像信号処理を実施してもよいし、本編の映像信号と補助データとをそれぞれ個別の高画質化処理してから合成処理を行うようにしてもよい。いずれにせよ、映像信号処理部105は、映像信号の出力先である画像表示部107が許容する画面解像度又は輝度ダイナミックレンジの範囲内で、超解像処理や高ダイナミックレンジ化などの映像信号処理を実施するものとする。
 また、映像信号処理部105は、さらにユーザの注視点などに基づいて、映像に対して、特定のオブジェクトのトラッキングやフレーミング、ズーミングなどの処理を行う。フレーミングには、視点切替えや視線変更などの処理を含めてもよい。
 本実施形態では、映像信号処理部105は、上記のような映像信号処理を機械学習モデルにより実施することを想定している。クラウド上の人工知能サーバが深層学習により事前学習を行った機械学習モデルを利用することで、最適な映像信号処理を実現することが期待される。
 オーディオ信号処理部106は、オーディオ復号部103から出力されたオーディオ信号に対してオーディオ信号処理を施す。オーディオ復号部103から出力されるオーディオ信号は、高音域などの一部の帯域が除去又は圧縮された低解像度又は標準解像度のオーディオ信号である。オーディオ信号処理部106は、低解像度又は標準解像度のオーディオ信号を、除去又は圧縮された帯域を含む高解像度オーディオ信号に帯域拡張したりする高音質化処理を実施するようにしてもよい。また、オーディオ信号処理部106は、出力された音の反射、回折、干渉などのエフェクトをかける処理を実施する。また、オーディオ信号処理部106は、帯域拡張のような高音質化の他に、複数のスピーカーを利用した音像定位処理を行うようにしてもよい。音像定位処理は、定位したい音像の位置(以下、「出音座標」とも言う)における音の方向と音の大きさを決定し、その音像を生成するためのスピーカーの組み合わせや各スピーカーの指向性並びに音量を決定することによって実現する。そして、オーディオ信号処理部106は、各スピーカーからオーディオ信号を出力する。
 なお、本実施形態で扱うオーディオ信号は、個々の発音オブジェクトをミキシングせずに供給し、再生機器側でレンダリングする「オブジェクトオーディオ」であってもよい。オブジェクトオーディオでは、発音オブジェクト(映像フレーム内の音源となるオブジェクト(映像から隠れたオブジェクトを含んでもよい))に対する波形信号と、所定の基準となる聴取位置からの相対位置により表される発音オブジェクトの定位情報をメタ情報でオブジェクトオーディオのデータが構成される。発音オブジェクトの波形信号は、メタ情報に基づいて例えばVBAP(Vector Based Amplitude Panning)により所望のチャネル数のオーディオ信号にレンダリングされて、再生される。オーディオ信号処理部106は、オブジェクトオーディオに則ったオーディオ信号を利用することで、発音オブジェクトの位置を指定することが可能となり、よりロバストな立体音響を容易に実現することができる。
 本実施形態では、オーディオ信号処理部106は、帯域拡張やエフェクト、音像定位といったオーディオ信号の処理を機械学習モデルにより実施することを想定している。クラウド上の人工知能サーバが深層学習により事前学習を行った機械学習モデルを利用することで、最適なオーディオ信号処理を実現することが期待される。
 また、映像信号処理とオーディオ信号処理を併せて実施する単一の機械学習モデルを信号処理部150内で使用するようにしてもよい。例えば、信号処理部150内で機械学習モデルを利用して、映像信号処理としてオブジェクトのトラッキングやフレーミング(視点切替えや視線変更を含む)、ズーミングなどの処理を行う場合に(前述)、フレーム内でのオブジェクトの位置の変化に連動するように音像位置を制御するようにしてもよい。
 画像表示部107は、映像信号処理部105で高画質化などの映像信号処理が施された映像を表示した画面をユーザ(コンテンツの視聴者など)に提示する。画像表示部107は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、あるいは画素に微細なLED(Light Emitting Diode)素子を用いた自発光型ディスプレイなどからなる表示デバイスである。
 また、画像表示部107は、画面を複数の領域に分割して領域毎に明るさを制御する部分駆動技術を適用した表示デバイスであってもよい。透過型の液晶パネルを用いたディスプレイの場合、信号レベルの高い領域に相当するバックライトは明るく点灯させる一方、信号レベルの低い領域に相当するバックライトは暗く点灯させることで、輝度コントラストを向上させることができる。この種の部分駆動型の表示デバイスにおいては、暗部で抑えた電力を信号レベルの高い領域に配分して集中的に発光させる突き上げ技術をさらに利用して、(バックライト全体の出力電力は一定のまま)部分的に白表示を行った場合の輝度を高くして、高ダイナミックレンジを実現することができる。
 あるいは、画像表示部107は、3Dディスプレイであってもよいし、2D映像表示と3D映像表示の切り替えが可能なディスプレイであってもよい。また、3Dディスプレイは、裸眼又は眼鏡付きの3Dディスプレイや、視線方向に応じて異なる映像を視覚でき奥行き知覚を向上させたホログラフィックディスプレイや、ライトフィールドディスプレイなど、立体視できる画面を備えたディスプレイであってもよい。なお、裸眼式の3Dディスプレイとして、例えばパララックスバリア方式やレンチキュラーレンズ方式など両眼視差を利用したディスプレイや、複数枚の液晶ディスプレイを用いて奥行き効果を高めるMLD(多層ディスプレイ)が挙げられる。画像表示部107に3Dディスプレイが用いられる場合、ユーザは立体的な映像を楽しむことができるので、より効果的な視聴体験を提供することができる。
 あるいは、画像表示部107は、プロジェクタ(又は、プロジェクタを用いて映像を投影する映画館)であってもよい。プロジェクタには、任意形状をした壁面に映像を投影するプロジェクションマッピング技術や、複数のプロジェクタの投影映像を重畳するプロジェクタスタッキング技術を適用してもよい。プロジェクタを用いれば比較的大きなスクリーンで映像を拡大して表示できるので、複数人に対して同じ映像を同時に提示できるなどの利点がある。
 オーディオ出力部108は、オーディオ信号処理部106で高音質化などのオーディオ信号処理が施されたオーディオを出力する。オーディオ出力部108は、スピーカーなどの音響発生素子で構成される。例えば、オーディオ出力部108は、複数のスピーカーを組み合わせたスピーカーアレイ(多チャンネルスピーカー若しくは超多チャンネルスピーカー)であってもよい。
 コーン型スピーカーの他、フラットパネル型スピーカーをオーディオ出力部108に用いることができる。もちろん、異なるタイプのスピーカーを組み合わせたスピーカーアレイをオーディオ出力部108として用いることもできる。また、スピーカーアレイは、振動を生成する1つ以上の加振器(アクチュエータ)によって画像表示部107を振動させることでオーディオ出力を行うものを含んでもよい。加振器(アクチュエータ)は、画像表示部107に後付けされるような形態であってもよい。
 また、オーディオ出力部108を構成するスピーカーの一部又は全部がコンテンツ再生装置100に外付け接続されていてもよい。外付けスピーカーは、サウンドバーなどテレビの前に据え置く形態でもよいし、ワイヤレススピーカーなどテレビに無線接続される形態でもよい。また、その他のオーディオ製品とアンプなどを介して接続されるスピーカーであってもよい。あるいは、外付けスピーカーは、スピーカーを搭載しオーディオ入力可能なスマートスピーカー、有線又は無線ヘッドホン/ヘッドセット、タブレット、スマートフォン、あるいはPC(Personal Computer)、又は、冷蔵庫、洗濯機、エアコン、掃除機、あるいは照明器具などのいわゆるスマート家電、又はIoT(Internet of Things)家電装置であってもよい。
 オーディオ出力部108が複数のスピーカーを備える場合、複数の出力チャンネルの各々から出力するオーディオ信号を個別に制御することによって、音像定位を行うことができる。また、チャンネル数を増やし、スピーカーを多重化することによって、高解像度で音場を制御することが可能である。例えば、複数の指向性スピーカーを組み合わせて使用し、あるいは複数のスピーカーを環状に配置して、各スピーカーから発する音の向きや大きさを調整することで、所望の出音座標に音像を生成することができる。
 図3には、3Dディスプレイと音像定位技術を組み合わせたコンテンツ視聴環境の一例を示している。図示の環境下では、コンテンツの視聴環境となる室内301に、3Dディスプレイ302が配置されている。また、コンテンツを視聴するユーザを囲うように、複数の指向性スピーカー311~315が配置されていることを想定している。また、3Dディスプレイ302の左右にも指向性スピーカー321及び322が配置されている。例えば、スピーカー311~315はスペース音の出力に利用され、スピーカー321及び322はステージ音の出力に利用される。また、出力するスピーカーの組み合わせを変えたり、各スピーカーから発される音の向きや大きさを調整したりすることで、所望の出音座標に音像を生成することができる。但し、図3では、スピーカーの配置を模式的に示した一例であり、これに限定されるものではない。また、指向性スピーカーの代わりに非指向性スピーカーが配置されてもよい。
 3Dディスプレイ302として、ホログラフィックディスプレイのような奥行き知覚が向上したディスプレイを想定している。図示の例では、3D空間301内をオブジェクト(人物)302が移動する映像を表示している。ユーザは、この3Dディスプレイ302が表示する3D空間を見る視線方向に応じて、異なる映像を視覚することができる。また、ユーザは、3D空間を見る視線方向を変えるために、3D映像を視聴しながら室内301を移動することも想定される。ドラマの出演者などの音源となるオブジェクト(オーディオオブジェクト)が3D空間を移動すると、オブジェクトが移動した位置に同期して音像定位処理が実行され、各時刻でオブジェクトが発話した音声の音像がその時点でオブジェクトが存在する位置に定位される。また、室内301を移動するユーザとオーディオオブジェクトの間の距離に応じて、そのオブジェクトの音像の音量がコントロールされる(例えば、オブジェクトが3D空間内でユーザの手前側に来ると音声の音量が増大し、3D空間の奥側に後退すると音声の音量が小さくなる)。
 再び図2を参照して、コンテンツ再生装置100の構成について引き続き説明する。
 センサー部109は、コンテンツ再生装置100の本体内部に装備されるセンサー、並びにコンテンツ再生装置100に外付け接続されるセンサーの双方を含むものとする。外付け接続されるセンサーには、コンテンツ再生装置100と同じ空間に存在する他のCE(Consumer Electronics)機器やIoTデバイスに内蔵されるセンサーも含まれる。本実施形態では、センサー部109から得られるセンサー情報が、映像信号処理部105やオーディオ信号処理部106で用いられるニューラルネットワークの入力情報となることを想定している。但し、ニューラルネットワークの詳細については、後述に譲る。
C.センシング機能
 図4には、コンテンツ再生装置100に装備されるセンサー部109の構成例を模式的に示している。センサー部109は、カメラ部410と、ユーザ状態センサー部420と、環境センサー部430と、機器状態センサー部440と、ユーザプロファイルセンサー部450で構成される。本実施形態では、センサー部109は、ユーザの視聴状況に関するさまざまな情報を取得するために使用される。
 カメラ部410は、画像表示部107に表示された映像コンテンツを視聴中のユーザを撮影するカメラ411と、画像表示部107に表示された映像コンテンツを撮影するカメラ412と、コンテンツ再生装置100が設置されている室内(あるいは、設置環境)を撮影するカメラ413を含む。
 カメラ411は、例えば画像表示部107の画面の上端縁中央付近に設置され映像コンテンツを視聴中のユーザを好適に撮影する。カメラ412は、例えば画像表示部107の画面に対向して設置され、ユーザが視聴中の映像コンテンツを撮影する。あるいは、ユーザが、カメラ412を搭載したゴーグルを装着するようにしてもよい。また、カメラ412は、映像コンテンツの音声も併せて記録(録音)する機能を備えているものとする。また、カメラ413は、例えば全天周カメラや広角カメラで構成され、コンテンツ再生装置100が設置されている室内(あるいは、設置環境)を撮影する。あるいは、カメラ413は、例えばロール、ピッチ、ヨーの各軸回りに回転駆動可能なカメラテーブル(雲台)に乗せたカメラであってもよい。但し、環境センサー430によって十分な環境データを取得可能な場合や環境データそのものが不要な場合には、カメラ410は不要である。
 ユーザ状態センサー部420は、ユーザの状態に関する状態情報を取得する1以上のセンサーからなる。ユーザ状態センサー部420は、状態情報として、例えば、ユーザの作業状態(映像コンテンツの視聴の有無)や、ユーザの行動状態(静止、歩行、走行などの移動状態、瞼の開閉状態、視線方向、瞳孔の大小)、精神状態(ユーザが映像コンテンツに没頭あるいは集中しているかなどの感動度、興奮度、覚醒度、感情や情動など)、さらには生理状態を取得することを意図している。ユーザ状態センサー部420は、発汗センサー、筋電位センサー、眼電位センサー、脳波センサー、呼気センサー、ガスセンサー、イオン濃度センサー、ユーザの挙動を計測するIMU(Inertial Measurement Unit)などの各種のセンサー、ユーザの発話を収音するオーディオセンサー(マイクなど)、ユーザの指などの物体の位置を検出する位置情報検出センサー(近接センサーなど)を備えていてもよい。なお、マイクは、コンテンツ再生装置100と一体化されている必要は必ずしもなく、サウンドバーなどテレビの前に据え置く製品に搭載されたマイクでもよい。また、有線又は無線によって接続される外付けのマイク搭載機器を利用してもよい。外付けのマイク搭載機器としては、マイクを搭載しオーディオ入力可能なスマートスピーカー、無線ヘッドホン/ヘッドセット、タブレット、スマートフォン、あるいはPC、又は冷蔵庫、洗濯機、エアコン、掃除機、あるいは照明器具などのいわゆるスマート家電、又はIoT家電装置であってもよい。位置情報検出センサーは、画像表示部107に対するユーザ操作を検出するためのタッチセンサーとして構成されてもよい。
 環境センサー部430は、当該コンテンツ再生装置100が設置されている室内など環境に関する情報を計測する各種センサーからなる。例えば、温度センサー、湿度センサー、光センサー、照度センサー、気流センサー、匂いセンサー、電磁波センサー、地磁気センサー、GPS(Global Positioning System)センサー、周囲音を収音するオーディオセンサー(マイクなど)などが環境センサー部430に含まれる。また、環境センサー部430は、コンテンツ再生装置100が置かれている部屋の大きさやユーザの位置、部屋の明るさなどの情報を取得するようにしてもよい。
 機器状態センサー部440は、当該コンテンツ再生装置100の内部の状態を取得する1以上のセンサーからなる。あるいは、映像復号部102やオーディオ復号部103などの回路コンポーネントが、入力信号の状態や入力信号の処理状況などを外部出力する機能を備えて、機器内部の状態を検出するセンサーとしての役割を果たすようにしてもよい。また、機器状態センサー部440は、当該コンテンツ再生装置100やその他の機器に対してユーザが行った操作を検出したり、ユーザの過去の操作履歴を保存したりするようにしてもよい。ユーザの操作には、コンテンツ再生装置100やその他の機器に対するリモコン操作を含んでもよい。ここで言うその他の機器は、タブレット、スマートフォン、PC、又は、冷蔵庫、洗濯機、エアコン、掃除機、あるいは照明器具などのいわゆるスマート家電、又はIoT家電装置であってもよい。また、機器状態センサー部440は、機器の性能や仕様に関する情報を取得するようにしてもよい。機器状態センサー部440は、機器の性能や仕様に関する情報を記録した内蔵ROM(Read Only Memory)のようなメモリ、あるいはこのようなメモリから情報を読み取るリーダであってもよい。
 ユーザプロファイルセンサー部450は、コンテンツ再生装置100で映像コンテンツを視聴するユーザに関するプロファイル情報を検出する。ユーザプロファイルセンサー部450は、必ずしもセンサー素子で構成されていなくてもよい。例えばカメラ411で撮影したユーザの顔画像やオーディオセンサーで収音したユーザの発話などに基づいて、ユーザの年齢や性別などのユーザプロファイルを推定するようにしてもよい。また、スマートフォンなどのユーザが携帯する多機能情報端末上で取得されるユーザプロファイルを、コンテンツ再生装置100とスマートフォン間の連携により取得するようにしてもよい。但し、ユーザプロファイルセンサー部は、ユーザのプライバシーや機密に関わるように機微情報まで検出する必要はない。また、同じユーザのプロファイルを、映像コンテンツの視聴の度に検出する必要はなく、一度取得したユーザプロファイル情報を保存しておくEEPROM(Electrically Erasable and Programmable ROM)のようなメモリであってもよい。
 また、スマートフォンなどのユーザが携帯する多機能情報端末を、コンテンツ再生装置100とスマートフォン間の連携により、ユーザ状態センサー部420あるいは環境センサー部430、ユーザプロファイルセンサー部450として活用してもよい。例えば、スマートフォンに内蔵されたセンサーで取得されるセンサー情報や、ヘルスケア機能(歩数計など)、カレンダー又はスケジュール帳・備忘録、メール、ブラウザ履歴、SNS(Social Network Service)の投稿及び閲覧の履歴といったアプリケーションで管理するデータを、ユーザの状態データや環境データに加えるようにしてもよい。また、コンテンツ再生装置100と同じ空間に存在する他のCE機器やIoTデバイスに内蔵されるセンサーを、ユーザ状態センサー部420あるいは環境センサー部430として活用してもよい。また、インターホンの音を検知するか又はインターホンシステムとの通信で来客を検知するようにしてもよい。また、コンテンツ再生装置100から出力される映像やオーディオを取得して、解析する輝度計やスペクトル解析部がセンサーとして設けられていてもよい。
D.注視点に基づくコンテンツの再生制御
 本開示に係るコンテンツ再生装置100は、ユーザの注視点に基づいてコンテンツの再生制御を行うように構成されている。コンテンツの再生制御は、画作り又は音作りの一方、又は両方に対して実施される。注視点は、誰がどのコンテンツ(例えばテレビ番組)をどのように視聴しているかを表す値である。本明細書では、説明の簡素化のため、ユーザの注視点に基づいて再生コンテンツの処理を行う実施形態について説明する。
 具体的には、本開示に係るコンテンツ再生装置100は、ユーザの注視点に基づいて映像の中からユーザの関心の高いオブジェクトを抽出して、そのオブジェクトをトラッキングし、さらにはユーザが注視するオブジェクトを基準としたフレーミングやズーミングといった映像信号処理をコンテンツの映像信号に対して実施する。また、対象とする映像が自由視点映像の場合には、ユーザが注視するオブジェクトを観察するのに適した視点位置への切り換えや視線変更などの処理も行う。フレーミングやズーミング処理によって、ユーザが注視するオブジェクトを観察し易い映像を提供することができるようになり、コンテンツがさらにユーザの興味を引く、臨場感が増すといった効果が得られる。
 また、コンテンツ再生装置100が映像信号処理として超解像処理や高ダイナミックレンジ化といった高画質化処理を実行可能な場合には、注視するオブジェクトを基準としてこれらの画質処理を実施するようにしてもよい。例えば、注視するオブジェクトを高解像度、高ダイナミックレンジでレンダリングする一方、その他の周辺のオブジェクトの解像度や輝度ダイナミックレンジを抑制するといった、ユーザの関心に応じたメリハリのある映像信号処理を行うようにする。
 さらに、コンテンツ再生装置100は、ユーザが注視するオブジェクトに関連する関連情報を自動検索により取得して、補助データとして表示する処理を行うようにしてもよい。例えばオブジェクトがスポーツの選手であれば、その選手のプロフィール、成績、関連書籍などの関連情報を検索する。また、オブジェクトが映画やドラマに出演する芸能人であれば、過去に出演した映画やテレビ番組、関連書籍などの関連情報を検索する。また、オブジェクトがクルマであれば、クルマの仕様、取扱店などの関連情報を検索する。
 また、コンテンツ再生装置100は、映像信号だけでなくオーディオ信号に関しても、ユーザの注視点に基づいてオーディオ信号処理を実施する。例えば、映像信号処理において、ユーザが注視するオブジェクトを基準としたフレーミングやズーミングを行った場合には、オーディオ信号処理として、注視するオブジェクトから発される音声などのオーディオ信号の音像がそのオブジェクトの表示位置に適応するように音像定位処理を行う。
 また、映像のフレーム内に複数のオブジェクトが存在する場合には、オブジェクト毎のオーディオ信号の音像を各オブジェクトの表示位置に定位させるだけでなく、ユーザの関心度に応じた音量調整を行うようにしてもよい。例えば、ユーザの関心度が高いあるオブジェクトから発されるオーディオ信号の音量を大きくし、ユーザの関心度が低いオブジェクトから発されるオーディオ信号の音量を小さくするようにしてもよい。コンテンツ再生装置100がオーディオ信号処理として帯域拡張などの高音質化処理を行う場合には、ユーザが注視するオブジェクトから発されるオーディオ信号のみを高音質化処理するなど、ユーザの関心度に応じて各オブジェクトのオーディオ信号の処理を実施するようにしてもよい。
 オーディオ信号がオブジェクトオーディオの場合、個々の発音オブジェクトをミキシングせずに供給され、発音オブジェクトの定位情報がメタ情報として供給されるので、映像に対してフレーミングやズーミング処理を行ったときのオブジェクトの表示に合わせてオブジェクト毎の音像定位や音量調整などのオーディオ信号処理を容易に実現することができる。
D-1.注視点に基づく画作り(1)
 図5には、ユーザの注視点に基づいて画作りを行う映像信号処理部105の機能的構成例を示している。図示の映像信号処理部105は、注視点判別部501と、オブジェクト特徴抽出部502と、映像トラッキング部503と、映像出力制御部504を備えている。
 注視点判別部501は、映像復号部102から復号後の映像ストリームを入力するとともに、センサー部109からセンサー情報を入力して、センサー情報に基づいて、映像中でユーザが注視している注視点を判別する。注視点判別部501は、映像から1つの注視点だけを抽出するようにしてもよいし、同時に複数の注視点を抽出するようにしてもよい。
 注視点判別部501は、ユーザの視線の動きに基づいて注視点を判別するようにしてもよい。例えば、注視点判別部501は、視線が一定時間とどまった位置を注視点と判別するようにしてもよい。あるいは、注視点判別部501は、ユーザの興奮度が上がったときの感情や情動の変化が検知されたときの視線方向にある位置を注視点と判別するようにしてもよい。
 注視点判別部501は、ユーザの視線以外に、ユーザの位置(コンテンツ再生装置100の表示画面との相対位置)、顔の向きを利用して、注視点を判別するようにしてもよい。複数のユーザが存在する場合には、注視点判別部501は、主要なユーザを抽出してそのユーザの視線から注視点を判別するようにしてもよいし、複数のユーザの平均的な視線に基づいて注視点を判別するようにしてもよい。また、注視点判別部501は、部屋の明るさなどの視聴環境を考慮して、注視点を判別するようにしてもよい。
 また、注視点判別部501は、ユーザによる指やリモコンを用いた指示に基づいて、注視点を判別するようにしてもよい。例えば、カメラ部410やユーザ状態センサー420(例えば、位置情報検出センサ)で、ユーザの指を検出し、ユーザが指で示す画面上の位置を注視点として判別してもよい。また、リモコンのポインタ機能で指示された画面上の位置を検出し、注視点として判別してもよい。
 また、注視点判別部501は、オブジェクト特徴抽出部502によって判別されたオブジェクトの特徴に関する情報を用いて、注視点を判別するようにしてもよい。例えば、既にオブジェクト特徴抽出部502によって抽出されたオブジェクトの特徴に関する情報が図示しない記憶部に記憶され、注視点判別部501は、その特徴情報を用いて注視点を判別してもよい。この場合、例えば、注視点判別部501は、センサー部109によって取得されたユーザ発話に含まれる特徴情報(例えば、ボールを持っている人)とオブジェクト特徴抽出部502によって抽出されたオブジェクトの特徴情報を比較することで、ユーザの注視するオブジェクトを判定することができる。また、映像ストリームとともに伝送されるメタ情報にオブジェクトに関する情報が含まれている場合に、注視点判別部501はそのメタ情報を用いて注視点を判別してもよい。なお、メタ情報は映像ストリーム内に含まれて伝送されてもよいし、映像ストリームとは異なる経路で外部サーバや記録メディアから取得されてもよい。
 また、注視点判別部501は、センサー情報だけではなく、コンテンツのストーリー展開などのコンテキストに基づいて、ユーザの注視点(又は、ユーザが注視すべき位置)を判別するようにしてもよい。例えばスポーツ観戦の映像であれば、試合展開に応じて注目すべきプレイヤーを注視点に判別するようにしてもよい。野球中継の映像ストリームであれば、投球するピッチャーから、ボールを打つバッターへ、さらに打球の方向へと注視点を時々刻々と移動させるべきであることが推定される。サッカーやラグビーの中継の映像ストリームであれば、ボールをキープしている選手やボールをパスした先の選手を注視すべきであることが推定される。また、映画やドラマの映像ストリームであれば、主役や現在セリフを言っている出演者に注視すべきであることが推定される。なお、注視点は人物とは限らず、映像に写り込んでいる物体(スタジアムに配置された看板(デジタルサイネージを含む)、クルマ、スタジオセットの家具や調度品など)であってもよい。
 注視点判別部501は、センサー情報と映像ストリームからユーザの注視点を推定するように深層学習された機械学習モデルを利用して注視点判別処理を行うようにしてもよい。
 オブジェクト特徴抽出部502は、注視点判別部501によって判別された注視点に該当するオブジェクトの特徴を抽出する。例えばスポーツ観戦の映像であれば、注視点に判別されたプレイヤーの特徴を抽出し、映画やドラマの映像であれば、注視点に判別された出演者の特徴を抽出する。なお、注視点に判別されたオブジェクトは人物とは限らず、映像に写り込んでいる物体(スタジアムに配置された看板(デジタルサイネージを含む)、クルマ、スタジオセットの家具や調度品など)であってもよい。オブジェクト特徴抽出部502は、注視点と映像ストリームから注視点に対応するオブジェクトの特徴を推定するように深層学習された機械学習モデルを用いてオブジェクトの特徴抽出処理を行うようにしてもよい。
 映像トラッキング部503は、オブジェクト特徴抽出部502により抽出された注視点のオブジェクトの特徴に基づいて、映像ストリーム中で注視点のオブジェクトをトラッキングして、映像フレーム内での注視点のオブジェクトの座標を出力する。映像トラッキング部503は、フレーム毎のオブジェクトの座標を出力してもよいし、所定のフレーム間隔でオブジェクトの座標を出力するようにしてもよい。また、注視点が複数ある場合には、映像トラッキング部503は、各注視点のオブジェクトをトラッキングして、オブジェクト毎の座標を出力するようにしてもよい。
 映像出力制御部504は、映像トラッキング部503から出力されたオブジェクトの座標に基づいて、映像ストリームの出力制御を行う。具体的には、映像出力制御部504は、ユーザが注視するオブジェクトの座標を基準としたフレーミングやズーミング処理を行う。例えば、映像出力制御部504は、ユーザが注視するオブジェクトの座標がフレームの中央になるようにフレーミング処理し、さらにはユーザが注視するオブジェクトにズームインする。また、注視点が複数ある場合には、映像出力制御部504は、ユーザが注視するすべてのオブジェクト(又は、より多くのオブジェクト)が表示されるようにフレーミング及びズーム処理を行うようにしてもよい。また、対象とする映像ストリームが自由視点映像の場合には、映像出力制御部504は、視点変換や視線変更を含めてフレーミングやズーミング処理を行う。なお、フレーミングやズーミング処理(又は、レンダリング処理)は、基本的には特定のユーザの視線に基づいて実施されるが、同時に視聴するユーザ数に応じて異なるフレーミングやズーミング処理を行ったり、部屋の環境に応じてフレーミングやズーミング処理を切り替えたりするようにしてもよい。
 また、映像出力制御部504は、超解像処理や高ダイナミックレンジ化といった高画質化処理を行う場合には、ユーザが注視するオブジェクトの座標を基準とした高画質化処理を行うようにしてもよい。例えば、映像出力制御部504は、注視するオブジェクトの高解像度、高ダイナミックレンジでレンダリングする一方、その他の周辺のオブジェクトの解像度や輝度ダイナミックレンジを抑制するといった、ユーザの関心に応じたメリハリのある映像信号処理を行うようにする。ユーザが注視するオブジェクトの座標周辺は高解像度で高ダイナミックレンジに変換される一方、ユーザが注視するオブジェクトから離間した領域では解像度やダイナミックレンジが抑圧された映像となり、ユーザが注視するオブジェクトを強調し又は引き立てるような映像となる。
 映像出力制御部504は、注視点のオブジェクトや注視点の周辺のオブジェクトに最適なフレーミング、ズーミング、その他の映像信号処理を実施するように深層学習された機械学習モデルを用いて、映像ストリームに対してフレーミング、ズーミング、その他の映像信号処理を行うようにしてもよい。
 画像表示部107は、液晶ディスプレイや有機ELディスプレイ、自発光型ディスプレイ、3Dディスプレイ、ホログラフィックディスプレイなどさまざまなタイプの表示装置が想定される。そこで、映像出力制御部504は、注視オブジェクトを基準にしたフレーミング、ズーミング、その他の画質処理を行った映像ストリームに対して、ディスプレイのタイプに応じた調整処理を実施する。そして、映像出力制御部504によって処理された映像は、画像表示部107で映像出力される。
 図5では省略したが、映像信号処理部105においてユーザが注視するオブジェクトを基準としたフレーミングやズーミング処理を行う場合には、映像フレーム内で各オブジェクトが表示される位置や大きさ、向きが元の映像フレームから変化する。映像に表示されるオブジェクトの中には、オーディオ信号を発する発音オブジェクトも含まれる。したがって、映像ストリームに対してフレーミングやズーミング処理を行った場合には、各発音オブジェクトのオーディオ信号がフレーミングやズーミング処理後の映像フレーム内での表示位置(出音座標)から聴こえるように音像を生成する処理、すなわち画音一致処理を行うことが好ましい。
 図17には、ユーザの注視点に基づいてフレーミングやズーミング処理を含む画作りを行うとともに、画音一致処理を行うように構成された信号処理部150の機能的構成例を示している。但し、図5に示したものと同一の名称で且つ同様の機能を発揮する機能モジュールには同じ参照番号を付しており、ここでは詳細な説明を省略し又は必要最小限に説明する。
 出音座標推定部521は、映像出力制御部102からフレーミングやズーミング処理した後の映像ストリームを入力するとともに、オーディオ復号部103から復号後のオーディオストリームを入力する。そして、出音座標推定部521は、フレーミングやズーミング処理後の映像内で音源となる発音オブジェクトの表示位置を推定して、出音座標として出力する。発音オブジェクトは、注視点判別部501で注視点と判別されたオブジェクトなどである。オーディオストリームに複数のオブジェクトのオーディオ信号が重畳されている場合には、出音座標推定部521は、元のオーディオストリームからオブジェクト毎のオーディオ信号の波形を分離処理し、分離したオブジェクト毎の出音座標を推定する。なお、オーディオストリームがオブジェクトオーディオに従う場合には、個々の発音オブジェクトがミキシングされていないので、出音座標推定部521は、オブジェクト毎のオーディオ信号の分離処理が不要であり、また、メタ情報に含まれる定位情報に基づいてフレーミングやズーミング処理後の各オブジェクトの表示位置、大きさ、向きの計算を容易に行うことができる。
 画像出力部107が2Dディスプレイを使用する場合には、出音座標推定部521は、2次元の出音座標を推定する。また、画像出力部107がホログラフィックディスプレイやライトフィールドディスプレイなどのように奥行き情報を持った3Dディスプレイの場合には、出音座標推定部521は3次元の出音座標を推定する。また、出音座標推定部521は、複数の発音オブジェクトを推定した場合には、発音オブジェクト毎の音量(又は、発音オブジェクト間の音量の比)も推定するようにしてもよい。
 ここで、画像出力部107が3Dディスプレイである場合、例えば、出音座標推定部521は、3D映像内の発音オブジェクトの3D深度(飛び出し量)、大きさ、3D表示の向きを推定し、その3D深度、大きさ、3D表示の向きに対応するように3次元の出音座標、出力する音の大きさ、出力する音の方向を推定してもよい。具体的には、例えば、画像出力部107上のある位置から、画像出力部107の手前でコンテンツを視聴するユーザの方向へ3D表示される3D発音オブジェクトの音像は、画像出力部107上の表示位置からユーザに聞こえるように生成されてもよい。また、3D発音オブジェクトがよりユーザに近い位置に表示される場合(飛び出し量が大きい場合)には、より大きな音量でユーザに聞こえるように音像が生成されてもよい。
 出音座標推定部521は、入力した映像ストリーム及びオーディオストリームから、映像中の音源となるオブジェクトの出音座標を推定するように深層学習された機械学習モデルを用いて、各発音オブジェクトの出音座標の推定処理を行う。なお、入力した映像ストリーム及びオーディオストリームの映像解析、オーディオ解析によって映像内に出現する音源を検出し、その音源の画面上の表示位置を計算する方法もあるが、リアルタイムで計算処理するのは難しい。そこで、上記の通り、本実施形態では出音座標推定部521は機械学習モデルを利用する。
 オーディオ出力制御部522は、出音座標推定部521によって推定された出音座標に応じて、映像中の各発音オブジェクトの音像を生成するためのオーディオ出力部108の駆動を制御する。具体的には、例えば、オーディオ出力部108が複数のスピーカーで構成される場合には、オーディオ出力制御部522は、出音座標が推定された発音オブジェクト毎に、出音位置における音の方向と音の大きさを決定し、その音像を生成するためのスピーカーの組み合わせを決定して、各スピーカーから出力する音量及び方向を設定する。
 また、オーディオ出力制御部522は、ユーザが注視する発音オブジェクトから発されるオーディオ信号に対して帯域拡張などの高音質化処理を施したり特殊なエフェクトをかけたりするといった、ユーザの注視度に基づいて重み付けしたオーディオ信号処理を行うようにしてもよい。
 ここで、ユーザの注視点に基づく映像のフレーミングやズーミング処理の具体例について説明しておく。
 例えば、野球中継の映像ストリームであれば、投球するピッチャーから、ボールを打つバッターへ、さらに打球の方向へとユーザの注視点が時々刻々と移動する。図18には、バックスクリーンに設置されたカメラの撮影映像を示している。ここで、注視点判別部501が、ユーザは3塁側又はピッチャーの横方向から注視することを望んでいると判別すると、映像出力制御部504は、図19に示すように3塁側からピッチャーを眺めた映像となるようにフレーミングやズーミング処理を行う。また、注視点判別部501が、ユーザはホームベース側又はピッチャーを正面から注視することを望んでいると判別すると、映像出力制御部504は、図20に示すようにホームベース側からピッチャーを眺めた映像となるようにフレーミングやズーミング処理を行う。
 また、サッカーやラグビーの中継の映像ストリームであれば、ボールをキープしている選手やボールをパスした先の選手をユーザが注視することが想定される。また、映画やドラマの映像ストリームであれば、主役や現在セリフを言っている出演者に注視することが想定される。図21には、自陣のペナルティーエリアから敵陣に向かってロングパスが出された映像を示している。このような場合、注視点判別部501が、ユーザは敵陣に蹴られたボールに注視していると判別すると、映像出力制御部504は、図22に示すように、ボールとボールを追いかける選手にフォーカスするようにフレーミングやズーミング処理を行う。
 また、ズーミングやフレーミングの処理は瞬時に行われなくともよく、目的のフレーミング画像や目的のズーミング画像まで段階的に行われてもよい。例えば、ズーミングやフレーミングの処理が高速で行われると、ユーザが映像に酔ってしまったり、ユーザが適切に対象オブジェクトを追えなくなったりする可能性がある。そこで所定のスピードで目的の視点映像に近づくように表示制御を行う、または、段階的に目的の視点映像に近づくように表示制御を行うことで、このような問題を軽減することができる。また、そのような表示制御を行う際に、画音一致処理を行うことによって、音像や音量も所定のスピードで変化する、または、段階的に変化するように生成されるため、立体的な音声出力の制御を実現することができる。
 続いて、注視点に基づく画作りで使用される機械学習モデルについて説明する。
 注視点判別部501で注視点判別処理に利用する機械学習モデルは、例えばニューラルネットワークで表される。ニューラルネットラークで表される機械学習モデルの学習は、ニューラルネットワークに学習データを入力し、ノード(ニューロン)間の結合重み係数を学習することで、ニューラルネットワークを変化させる処理を通じで行われる。ニューラルネットワークの学習は、コンテンツ再生装置100内で行ってもよいが、クラウド上で膨大な学習データを用いて深層学習を行ってもよい。図6には、注視点判別部501で使用されるニューラルネットワークを深層学習する人工知能サーバ600の機能的構成例を模式的に示している。1つの実施例として人工知能サーバ600はクラウド上に構築されるが、エッジ又はモバイルエッジなどのエッジコンピューティングで構築されてもよい。
 学習データ用データベース601内には、多数のコンテンツ再生装置100(例えば、各家庭のテレビ受信装置)からアップロードされた膨大な学習データが蓄積されている。学習データには、コンテンツ再生装置100内の注視点判別部501としてのニューラルネットワークに入力されたセンサー情報と、映像ストリームと、そのときに判別された(注視点判別部501から出力される)注視点と、判別結果に対する評価値を含むものとする。評価値は、例えば、判別された注視点(又は、判別結果に基づいて出力された映像)に対するユーザの簡単な評価(OK又はNGのいずれであるか)でもよい。
 注視点判別用のニューラルネットワーク602は、学習データ用データベース601から読み出したセンサー情報と映像ストリームの組み合わせを学習データとして入力して、そのときのユーザの注視点を判別した結果を出力する。
 評価部603は、ニューラルネットワーク602の学習結果を評価する。具体的には、評価部603は、ニューラルネットワーク602から出力された注視点の判別結果と、学習データ用データベース601から読み出された、ニューラルネットワーク602への入力と組み合わされた注視点の判別結果(教師データ)及びユーザの評価を入力して、ニューラルネットワーク602からの出力と教師データとの差分に基づく損失関数を定義する。なお、ユーザの評価結果の高い教師データとの差分の重みを大きくし、ユーザの評価結果の低い教師データとの差分の重みを小さくするといった重み付けをして損失関数を計算するようにしてもよい。そして、評価部603は、損失関数が最小となるように、バックプロパゲーション(誤差逆伝播法)によりニューラルネットワーク602の学習を実施する。
 また、オブジェクト特徴抽出部502でオブジェクトの特徴抽出処理に利用する機械学習モデルも、ニューラルネットワークで表される。図7には、オブジェクト特徴抽出部502で使用されるニューラルネットワークを深層学習する人工知能サーバ700の機能的構成例を模式的に示している。1つの実施例として人工知能サーバ700はクラウド上に構築されるが、エッジ又はモバイルエッジなどのエッジコンピューティングで構築されてもよい。
 学習データ用データベース701内には、多数のコンテンツ再生装置100(例えば、各家庭のテレビ受信装置)からアップロードされた膨大な学習データが蓄積されている。学習データには、コンテンツ再生装置100内の注視点判別部501が判別した注視点の情報と、映像ストリームと、そのときに判別された(オブジェクト特徴抽出部502から出力される)オブジェクトの特徴と、抽出結果に対する評価値を含むものとする。評価値は、例えば、抽出されたオブジェクトの特徴(又は、抽出結果に基づいて出力された映像)に対するユーザの簡単な評価(OK又はNGのいずれであるか)でもよい。
 オブジェクト特徴抽出用のニューラルネットワーク702は、学習データ用データベース701から読み出した注視点の情報と映像ストリームの組み合わせを学習データとして入力して、注視点に対応するオブジェクトを抽出する。
 評価部703は、ニューラルネットワーク702の学習結果を評価する。具体的には、評価部703は、ニューラルネットワーク702から出力されたオブジェクトの特徴と、学習データ用データベース701から読み出された、ニューラルネットワーク702への入力と組み合わされたオブジェクトの特徴(教師データ)及びユーザの評価を入力して、ニューラルネットワーク702からの出力と教師データとの差分に基づく損失関数を定義する。なお、ユーザの評価結果の高い教師データとの差分の重みを大きくし、ユーザの評価結果の低い教師データとの差分の重みを小さくするといった重み付けをして損失関数を定義するようにしてもよい。そして、評価部703は、損失関数が最小となるように、バックプロパゲーション(誤差逆伝播法)によりニューラルネットワーク702の学習を実施する。
 また、映像出力制御部504で映像出力処理に利用する機械学習モデルも、ニューラルネットワークで表される。図8には、映像出力制御部504で使用されるニューラルネットワークを深層学習する人工知能サーバ800の機能的構成例を模式的に示している。1つの実施例として人工知能サーバ800はクラウド上に構築されるが、エッジ又はモバイルエッジなどのエッジコンピューティングで構築されてもよい。
 学習データ用データベース801内には、多数のコンテンツ再生装置100(例えば、各家庭のテレビ受信装置)からアップロードされた膨大な学習データが蓄積されている。学習データには、コンテンツ再生装置100内の映像トラッキング部503がトラッキングしているオブジェクトの座標と、映像ストリームと、そのときに映像出力制御部504から出力される映像と、出力映像に対する評価値を含むものとする。評価値は、例えば、出力映像に対するユーザの簡単な評価(OK又はNG)でもよい。
 映像出力制御用のニューラルネットワーク802は、学習データ用データベース801から読み出したオブジェクトの座標と映像ストリームの組み合わせを学習データとして入力して、映像ストリームに対して映像出力制御を実施する。ここで言う映像出力制御には、注視点のオブジェクトや注視点の周辺のオブジェクトに対するフレーミング、ズーミング、解像度変換、輝度ダイナミックレンジ変換が含まれる。
 評価部803は、ニューラルネットワーク802の学習結果を評価する。具体的には、評価部803は、ニューラルネットワーク802から出力された映像と、学習データ用データベース801から読み出された、オブジェクトの座標と組み合わされた映像ストリーム(教師データ)及びユーザの評価を入力して、ニューラルネットワーク802から出力される映像ストリームとの差分に基づく損失関数を定義する。なお、ユーザの評価結果の高い教師データとの差分の重みを大きくし、ユーザの評価結果の低い教師データと差分を大きくするといった重み付けをして損失関数を定義するようにしてもよい。そして、評価部803は、損失関数が最小となるように、バックプロパゲーション(誤差逆伝播法)によりニューラルネットワーク802の学習を実施する。
 また、出音座標推定部521で出音座標推定処理に利用する機械学習モデルは、ニューラルネットワークで表される。図15には、出音座標推定部521で使用されるニューラルネットワークを深層学習する人工知能サーバ1500の機能的構成例を模式的に示している。1つの実施例として人工知能サーバ1500はクラウド上に構築されるが、エッジ又はモバイルエッジなどのエッジコンピューティングで構築されてもよい。
 学習データ用データベース1501内には、多数のコンテンツ再生装置100(例えば、各家庭のテレビ受信装置)からアップロードされた膨大な学習データが蓄積されている。学習データには、コンテンツ再生装置100内の映像復号部102が復号した(又は、フレーミングやズーミング処理した後の)映像ストリームと、オーディオ復号部103が復号した映像ストリームと、そのときに出音座標推定部1401が推定した出音座標と、出音座標に対する評価値を含むものとする。評価値は、例えば、推定した出音座標に基づくオーディオ出力(又は、生成された音像)に対するユーザの簡単な評価(OK又はNG)でもよい。
 出音座標推定処理用のニューラルネットワーク1502は、学習データ用データベース1501から読み出した映像ストリームとオーディオストリームの組み合わせを学習データとして入力して、映像内で音源となるオブジェクトの表示位置を推定して、出音座標として出力する。オーディオストリームに複数のオブジェクトのオーディオ信号が重畳されている場合には、ニューラルネットワーク1502は、元のオーディオストリームからオブジェクト毎のオーディオ信号の波形を分離処理し、分離したオブジェクト毎の出音座標を推定する。
 評価部1503は、ニューラルネットワーク1502の学習結果を評価する。具体的には、評価部1503は、ニューラルネットワーク1502から出力された出音座標と、学習データ用データベース1501から読み出された、映像ストリーム及びオーディオストリームと組み合わされた出音座標(教師データ)及びユーザの評価を入力して、ニューラルネットワーク1502から出力される映像ストリームとの差分に基づく損失関数を定義する。なお、ユーザの評価結果の高い教師データとの差分の重みを大きくし、ユーザの評価結果の低い教師データと差分を大きくするといった重み付けをして損失関数を定義するようにしてもよい。そして、評価部1503は、損失関数が最小となるように、バックプロパゲーション(誤差逆伝播法)によりニューラルネットワーク1502の学習を実施する。
 図9には、図5に示した映像信号処理部105において行われる映像信号処理の手順をフローチャートの形式で示している。
 まず、注視点判別部501は、映像復号部102から復号後の映像ストリームを入力するとともに、センサー部109からセンサー情報を入力して、センサー情報に基づいて、映像中でユーザが注視している注視点を判別する(ステップS901)。
 注視点判別部501は、基本的には、ユーザの視線の動きなどに基づいて、映像フレームの中からユーザが関心を持ち注視している位置を判別する。但し、注視点判別部501は、再生しているコンテンツのコンテキストなどに基づいて、ユーザが注視している位置ではなくユーザが注視すべき位置を判別するようにしてもよい。
 注視点判別部501がユーザの注視点を判別することができた場合には(ステップS902のYes)、オブジェクト特徴抽出部502は、注視点判別部501によって判別された注視点に該当するオブジェクトの特徴を抽出する(ステップS903)。
 次いで、映像トラッキング部503は、オブジェクト特徴抽出部502により抽出された注視点のオブジェクトの特徴に基づいて、映像ストリーム中で注視点のオブジェクトをトラッキングして、映像フレーム内での注視点のオブジェクトの座標を出力する(ステップS904)。
 次いで、映像出力制御部504は、映像トラッキング部503から出力されたオブジェクトの座標に基づいて、映像ストリームの出力制御を行う(ステップS905)。ここで言う映像出力制御には、注視点のオブジェクトや注視点の周辺のオブジェクトに対するフレーミング、ズーミング、解像度変換、輝度ダイナミックレンジ変換が含まれる。
 画像表示部107は、液晶ディスプレイや有機ELディスプレイ、自発光型ディスプレイ、3Dディスプレイ、ホログラフィックディスプレイなどさまざまなタイプの表示装置が想定される。そこで、映像出力制御部504は、注視オブジェクトを基準にしたフレーミング、ズーミング、その他の画質処理を行った映像ストリームに対して、ディスプレイのタイプに応じた調整処理を実施する(ステップS906)。
 そして、映像出力制御部504によって処理された映像は、画像表示部107で映像出力される(ステップS907)。
 図16には、図17に示した信号処理部150において実行される画音一致処理の手順をフローチャートの形式で示している。なお、ユーザの注視点に基づくフレーミングやズーミングなどの映像信号処理は、図5に示した処理手順に従って実現されるので、図16では映像信号処理については説明を省略し又は必要最低限に説明する。
 まず、注視点判別部501は、映像復号部102から復号後の映像ストリームを入力するとともに、センサー部109からセンサー情報を入力して、センサー情報に基づいて、映像中でユーザが注視している注視点を判別する(ステップS1601)。
 注視点判別部501がユーザの注視点を判別することができた場合には(ステップS1602のYes)、映像出力制御部504では、注視点に該当するオブジェクトをトラッキングした結果に基づいて、映像ストリームに対してフレーミングやズーミング処理を行う。そして、出音座標推定部521は、フレーミングやズーミング処理した後の映像から、各発音オブジェクトの映像位置を計算して(ステップS1603)、各発音オブジェクトの映像位置、オブジェクトの向き及び大きさを決定する(ステップS1604)。
 次いで、出音座標推定部521は、先行ステップS1604で決定したオブジェクトの映像位置、オブジェクトの向き及び大きさに基づいて、発音オブジェクト毎の音像の位置を計算して(ステップS1605)、音像の出音位置、音の方向、及び大きさを決定して(ステップS1606)、出音座標の情報として出力する。オーディオ信号がオブジェクトオーディオの場合、個々の発音オブジェクトをミキシングせずに供給され、発音オブジェクトの定位情報がメタ情報として供給されるので、発音オブジェクト毎の音像位置の計算や、出音位置、音の方向及び大きさを決定する処理を容易に実現することができる。
 映像出力制御部504は、映像トラッキング部503から出力されたオブジェクトの座標に基づいて、映像ストリームの出力制御を行う。ここで言う映像出力制御には、注視点のオブジェクトや注視点の周辺のオブジェクトに対するフレーミング、ズーミング、解像度変換、輝度ダイナミックレンジ変換が含まれる。そして、映像出力制御部504は、ディスプレイのタイプに応じた調整処理を実施する(ステップS1607)。
 また、オーディオ出力制御部522は、ステップS1606で決定した各発音オブジェクトの映像位置、オブジェクトの向き及び大きさに基づいて、各発音オブジェクトの音像に対してエフェクト(反射、回折、干渉など)をかける(ステップS1608)。次いで、オーディオ出力制御部522は、先行ステップS1606、S1608で決定した出音位置における音の方向と音の大きさ、並びにエフェクトに基づいて、音像を生成するためのスピーカーの組み合わせを決定する(ステップS1609)。
 そして、映像出力制御部504によって処理された映像は、画像表示部107で映像出力される。また、オーディオ出力制御部522によって各スピーカーからオーディオ信号が出力して、注視点のオブジェクトの表示位置に定位する音像が生成される(ステップS1610)。
 図5には、ユーザの注視点に基づく画作りの処理を、エッジすなわちコンテンツ再生装置100で実行する機能的構成例について示した。変形例として、ユーザの注視点に基づく画作りの処理を、クラウド上のサーバ(例えば、人工知能サーバ)で行うこともできる。サーバ側で処理を行う1つの効果として、ユーザの注視点に基づいて画作りしたコンテンツをエッジに提供しながら、多数のエッジから学習データを収集して深層学習や再学習を行うことができることが挙げられる。
 図23には、ユーザの注視点に基づいて画作りを行う人工知能サーバ2300の機能的構成例を示している。人工知能サーバ2300は、クラウド上に設置されることを想定している。また、人工知能サーバ2300が画作り処理の対象としている映像ソース2301は、放送局、ストリーム配信サーバ、又は記録メディアのいずれであってもよい。
 コンテンツ再生装置100側では、例えばユーザのリモコンその他のコントローラの操作や音声コマンドなどの手動操作により、映像のフレーミング又はスケーリング処理が発生する。あるいは映像ソース2301からのソース映像の解析結果に基づいて自動的にフレーミング又はスケーリング処理が起動される。コンテンツ再生装置100側でセンサー部109が検出したセンサー情報は、ネットワーク経由で、人工知能サーバ2300内の注視点判別部2311に入力される。注視点判別部2311は、映像ソース2301から入力した映像中で、ユーザが注視している注視点を判別する。注視点判別部2311は、センサー情報と映像ストリームからユーザの注視点を推定するように深層学習された機械学習モデルを利用して注視点判別処理を行う。
 オブジェクト特徴抽出部2312は、注視点判別部2311によって判別された注視点に該当するオブジェクトの特徴を抽出する。オブジェクト特徴抽出部2312は、注視点と映像ストリームから注視点に対応するオブジェクトの特徴を推定するように深層学習された機械学習モデルを用いてオブジェクトの特徴抽出処理を行う。
 映像トラッキング部2313は、オブジェクト特徴抽出部2312により抽出された注視点のオブジェクトの特徴に基づいて、映像ストリーム中で注視点のオブジェクトをトラッキングして、映像フレーム内での注視点のオブジェクトの座標を出力する。
 フレーミング・スケーリング処理部2314は、映像トラッキング部2313から出力されたオブジェクトの座標に基づいて、ユーザが注視するオブジェクトの座標を基準としたフレーミングやズーミング処理を行う。例えば、フレーミング・スケーリング処理部2314は、ユーザが注視するオブジェクトの座標がフレームの中央になるようにフレーミング処理し、さらにはユーザが注視するオブジェクトにズームインする(図18~図22を参照のこと)。
 そして、人工知能サーバ2300において画作り処理が施された映像ストリームは、映像符号化部2302でMPEG2 Systemなどの所定の符号化規格に則って符号化処理が施された後、コンテンツ再生装置100に配信される。
 コンテンツ再生装置100側では、受信した符号化映像ストリームを映像復号部102で復号処理し、映像信号処理部105で高画質化などを含む映像信号処理を施した後に、画像表示部107で表示出力される。
 また、図17には、ユーザの注視点に基づく画作りを行ったときの画音一致処理を、エッジすなわちコンテンツ再生装置100で実行する機能的構成例について示した。変形例として、画音一致処理をクラウド上のサーバ(例えば、人工知能サーバ)で行うこともできる。サーバ側で処理を行う1つの効果として、ユーザの注視点に基づいて画作り及び画音一致処理したコンテンツをエッジに提供しながら、多数のエッジから学習データを収集して深層学習や再学習を行うことができることが挙げられる。
 図24には、ユーザの注視点に基づいて画作り及び画音一致処理を行う人工知能サーバ2400の機能的構成例を示している。但し、図23に示したものと同一名で同様の機能を有する機能モジュールについては、同一の参照番号を付けるとともに、ここでは説明を省略し又は必要最低限に説明する。人工知能サーバ2400は、クラウド上に設置されることを想定している。また、人工知能サーバ2400が画音一致処理の対象としているオーディオソース2401は、映像ソース2301と一体で、放送局、ストリーム配信サーバ、又は記録メディアから提供されるコンテンツである。
 出音座標推定部2411は、フレーミング・スケーリング処理部2314からフレーミングやズーミング処理した後の映像ストリームを入力するとともに、オーディオソース2401からオーディオストリームを入力する。そして、出音座標推定部2411は、フレーミングやズーミング処理後の映像内で音源となる発音オブジェクトの表示位置を推定して、出音座標として出力する。出音座標推定部2411は、入力した映像ストリーム及びオーディオストリームから、映像中の音源となるオブジェクトの出音座標を推定するように深層学習された機械学習モデルを用いて、各発音オブジェクトの出音座標の推定処理を行う。
 オーディオストリームに複数のオブジェクトのオーディオ信号が重畳されている場合には、出音座標推定部2411は、元のオーディオストリームからオブジェクト毎のオーディオ信号の波形を分離処理し、分離したオブジェクト毎の出音座標を推定する。オーディオストリームがオブジェクトオーディオに従う場合には、個々の発音オブジェクトがミキシングされていないので、オブジェクト毎のオーディオ信号の分離処理が不要であり、また、出音座標推定部2411は、メタ情報に含まれる定位情報に基づいてフレーミングやズーミング処理後の各オブジェクトの表示位置、大きさ、向きの計算を容易に行うことができる。
 エッジすなわちコンテンツ再生装置100側から、画像出力部107で使用しているディスプレイの仕様情報を、人工知能サーバ2400に送信するようにしてもよい。画像出力部107が2Dディスプレイを使用する場合には、出音座標推定部2411は、2次元の出音座標を推定する。また、画像出力部107がホログラフィックディスプレイなどのように奥行き情報を持った3Dディスプレイの場合には、出音座標推定部2411は3次元の出音座標を推定する。また、出音座標推定部2411は、複数の発音オブジェクトを推定した場合には、発音オブジェクト毎の音量(又は、発音オブジェクト間の音量の比)も推定するようにしてもよい。
 オーディオ信号処理部2412は、出音座標推定部2411によって推定された出音座標に応じて、映像中の各発音オブジェクトの音像を生成するためのオーディオ信号処理を行う。例えば、エッジすなわちコンテンツ再生装置100側から、オーディオ出力部108で使用するスピーカーの構成を送信するようにしてもよい。オーディオ信号処理部2412は、出音座標が推定された発音オブジェクト毎に、出音位置における音の方向と音の大きさを決定し、その音像を生成するためのスピーカーの組み合わせを決定して、各スピーカーから出力する音量及び方向を設定する。オーディオ信号がオブジェクトオーディオの場合、オーディオ信号処理部2412は、個々の発音オブジェクトをミキシングせず、また、発音オブジェクト毎の出音座標などの情報をメタ情報として出力する。
 そして、人工知能サーバ2400において画音一致処理が施されたオーディオストリームは、オーディオ符号化部2413でMP3あるいはHE-AACなどの所定の符号化規格に則って符号化処理が施された後、コンテンツ再生装置100に配信される。
 コンテンツ再生装置100側では、受信した符号化オーディオストリームをオーディオ復号部103で復号処理し、オーディオ信号処理部106で高音質化などを含むオーディオ信号処理を施した後に、オーディオ出力部108でオーディオ出力される。
 また、ステップS905やステップS1607において映像出力制御部504によってフレーミングやズーミング等の処理が行われた映像を、それらの映像出力処理が行われる前の状態に戻すことができるようにしてもよい。具体的には、例えば、ユーザが所定の動作を行った場合に、フレーミングまたはズーミングされた映像を、それらの処理が行われる前の入力映像に戻すことができるようにしてもよい。それらの動作には例えば、画面表示部107の前で手を動かすことや、画面表示部107から顔を遠ざけるように動かすこと等のユーザのジェスチャーが含まれてよい。また、画面表示部107内外の所定の位置や所定のオブジェクトに視線を合わせることを含む、ユーザによる視線の制御が含まれていてもよい。また、ユーザによる所定のコマンドを含む発話が含まれていてもよい。また、画面上に表示された所定のオブジェクトに対する操作、コンテンツ再生装置100の本体に設けられた操作部の操作またはコンテンツ再生装置100を操作するためのリモコンの操作が含まれていてもよい。
D-2.注視点に基づく画作り(2)
 図10には、ユーザの注視点に基づいて画作りを行う映像信号処理部105の他の機能的構成例を示している。図示の映像信号処理部105は、注視点判別部501と、オブジェクト特徴抽出部502と、映像トラッキング部503と、映像出力制御部504と、オブジェクト判別部511と、関連情報検索取得部512と、関連情報出力制御部513を備えている。なお、注視点判別部501と、オブジェクト特徴抽出部502と、映像トラッキング部503と、映像出力制御部504は、図5中の同一名及び同一の参照番号の機能モジュールと同じなので、ここでは詳細な説明を省略し又は必要最低限に説明する。
 オブジェクト判別部511は、オブジェクト特徴抽出部502により抽出された注視点のオブジェクトの特徴に基づいて、オブジェクトを判別する。オブジェクト判別部511は、必要に応じてクラウド上の情報資源にアクセスして、オブジェクトの判別処理を行うようにしてもよい。例えばスポーツ観戦の映像であれば、注視点に判別されたプレイヤーが誰であるかを判別し、映画やドラマの映像であれば、注視点に判別された出演者が誰であるかを判別する。なお、オブジェクトは人物とは限らず、映像に写り込んでいる物体(スタジアムに配置された看板(デジタルサイネージを含む)、クルマ、スタジオセットの家具や調度品など)であってもよい。
 オブジェクト判別部511は、オブジェクトの特徴からそのオブジェクトを推定するように深層学習された機械学習モデルを利用してオブジェクト判別処理を行うようにしてもよい。
 関連情報検索取得部512は、オブジェクト判別部511が判別したオブジェクトの関連情報を、外部インターフェース部110を通じてクラウド上で検索して取得する処理を実施する。例えばオブジェクトがスポーツの選手であれば、その選手のプロフィール、成績、関連書籍などの関連情報を検索する。また、オブジェクトが映画やドラマに出演する芸能人であれば、過去に出演した映画やテレビ番組、関連書籍などの関連情報を検索する。また、オブジェクトがクルマであれば、クルマの仕様、取扱店などの関連情報を検索する。
 関連情報検索取得部512は、オブジェクトに応じた関連情報の検索方法(検索キーワードや検索条件式)などを推定して検索処理を実施するように深層学習された機械学習モデルを利用して関連情報の検索取得処理を行うようにしてもよい。また、ここでは関連情報検索取得部512がクラウド上を検索してオブジェクトの関連情報を取得する処理を説明したが、関連情報検索取得部512は、図示されないコンテンツ再生装置100の記憶部や、コンテンツ再生装置100と接続される外部記憶領域から関連情報を取得する検索取得処理を行うようにしてもよい。また、オブジェクトに関する関連情報は、映像ストリームと共に伝送されるメタ情報から取得されてもよい。
 関連情報出力制御部513は、関連情報検索取得部512がクラウド上を検索して取得したオブジェクトの関連情報をユーザに提示するための出力制御を行う。関連情報をユーザに提示する方法はさまざまである。例えばOSD(On Screen Display)や字幕などの補助データとして映像ストリーム上に関連情報を重畳して表示するようにしてもよい。あるいは、関連情報出力制御部513は、関連情報を音声データにして、コンテンツのオーディオストリームに重畳してオーディオ出力するようにしてもよい。本実施形態では、OSD機能を利用して関連情報を表示することを想定している。関連情報出力制御部513は、関連情報検索取得部512が取得したオブジェクトの関連情報からOSDを生成して、映像出力制御部504に出力する。
 映像出力制御部504は、上述したように、映像トラッキング部503から出力されたオブジェクトの座標に基づいて、映像ストリームの出力制御を行う。ここで言う映像出力制御には、ユーザの注視点のオブジェクトや注視点の周辺のオブジェクトに対するフレーミング、ズーミング、解像度変換、輝度ダイナミックレンジ変換が含まれる。
 また、映像出力制御部504は、関連情報出力制御部513が生成したOSDを映像ストリーム上に重畳する。映像出力制御部504は、ユーザの注視点のオブジェクトや注視点の周辺のオブジェクトに対するフレーミング、ズーミングを行う場合には、フレーミングやズーミングに伴って移動したオブジェクトの位置を考慮して、OSDの重畳処理を行う。
 そして、映像出力制御部504は、その他の画質処理を行った映像ストリームに対して、ディスプレイのタイプに応じた調整処理を実施する。映像出力制御部504によって処理された映像は、画像表示部107で映像出力される。
 なお、オブジェクトの関連情報を表示する形態はOSDには限定されない。例えば吹き出しやポップアップウィンドウ、画面の上下左右いずれかの端縁に関連情報を表示するための帯を生成してもよい。また、3DディスプレイにおいてOSDなどにより関連情報を表示する場合には、対象とするオブジェクトの表示位置を基準にして、OSDの表示位置の3D深度、大きさ、向きを設定するようにする。いずれの表示形態であれ、ユーザの注視点のオブジェクトの映像を干渉したりしてユーザの注視の妨げとならないようにしつつ、いずれのオブジェクトについての関連情報が分かり易いように表示することが望ましい。
 また、注視点判別部501は、オブジェクト判別部511よって判別されたオブジェクトに関する判別情報を用いて、注視点を判別するようにしてもよい。例えば、すでにオブジェクト特徴抽出部502によって判別されたオブジェクトの判別結果に関する情報が図示しない記憶部に記憶され、注視点判別部501は、その判別情報を用いて注視点を判別してもよい。この場合、例えば、注視点判別部501は、センサー部109によって取得されたユーザ発話に含まれるオブジェクトの名称を用いて、ユーザの注視するオブジェクトを判定することができる。また、映像ストリームと共に伝送されるメタ情報にオブジェクトに関する情報が含まれている場合に、注視点判別部501はそのメタ情報を用いて注視点を判別してもよい。なお、メタ情報は映像ストリーム内に含まれて伝送されてもよいし、映像ストリームとは異なる経路で外部サーバや記録メディアから取得されてもよい。同様に、注視点判別部501は、関連情報検索取得部512によって取得されたオブジェクトの関連情報を用いて、注視点を判別するようにしてもよい。
 オブジェクト判別部511でオブジェクト判別処理に利用する機械学習モデルは、例えばニューラルネットワークで表される。図11には、オブジェクト判別部511で使用されるニューラルネットワークを深層学習する人工知能サーバ1100の機能的構成例を模式的に示している。1つの実施例として人工知能サーバ1100はクラウド上に構築されるが、エッジ又はモバイルエッジなどのエッジコンピューティングで構築されてもよい。
 学習データ用データベース1101内には、多数のコンテンツ再生装置100(例えば、各家庭のテレビ受信装置)からアップロードされた膨大な学習データが蓄積されている。学習データには、コンテンツ再生装置100内のオブジェクト特徴抽出部502が判別した注視点のオブジェクトの特徴と、そのときにオブジェクト判別部511が判別したオブジェクトと、判別結果に対する評価値を含むものとする。評価値は、例えば、判別されたオブジェクト(又は、判別結果に基づいて出力された映像)に対するユーザの簡単な評価(OK又はNGのいずれか)でもよい。
 オブジェクト判別処理用のニューラルネットワーク1102は、学習データ用データベース1101から読み出したオブジェクトの特徴を学習データとして入力して、そのときのオブジェクトの判別結果を出力する。ニューラルネットワーク1102は、必要に応じてクラウド上の情報資源にアクセスして、オブジェクトの判別処理を行う。
 評価部1103は、ニューラルネットワーク1102の学習結果を評価する。具体的には、評価部1103は、ニューラルネットワーク1102から出力されたオブジェクトの判別結果と、学習データ用データベース1101から読み出された、ニューラルネットワーク1102への入力と組み合わされたオブジェクトの判別結果(教師データ)及びユーザの評価を入力して、ニューラルネットワーク1102からの出力と教師データとの差分に基づく損失関数を定義する。なお、ユーザの評価結果の高い教師データとの差分の重みを大きくし、ユーザの評価結果の低い教師データとの差分の重みを小さくするといった重み付けをして損失関数を計算するようにしてもよい。そして、評価部1103は、損失関数が最小となるように、バックプロパゲーション(誤差逆伝播法)によりニューラルネットワーク1102の学習を実施する。
 また、関連情報検索取得部512でオブジェクトの関連情報をクラウド上で検索して取得する処理に利用する機械学習モデルは、例えばニューラルネットワークで表される。図12には、関連情報検索取得部512で使用されるニューラルネットワークを深層学習する人工知能サーバ1200の機能的構成例を模式的に示している。1つの実施例として人工知能サーバ1200はクラウド上に構築されるが、エッジ又はモバイルエッジなどのエッジコンピューティングで構築されてもよい。
 学習データ用データベース1201内には、多数のコンテンツ再生装置100(例えば、各家庭のテレビ受信装置)からアップロードされた膨大な学習データが蓄積されている。学習データには、コンテンツ再生装置100内のオブジェクト判別部511がオブジェクトの特徴に基づいて判別したオブジェクトと、そのオブジェクトに対して関連情報検索取得部512がクラウド上で検索して取得した関連情報と、検索取得結果に対する評価値を含むものとする。評価値は、例えば、検索取得された関連情報(又は、関連情報に基づいて表示されたOSD)に対するユーザの簡単な評価(OK又はNGのいずれか)でもよい。
 関連情報検索取得用のニューラルネットワーク1202は、学習データ用データベースから読み出したオブジェクトを学習データとして入力して、そのオブジェクトの関連情報を出力する。ニューラルネットワーク1202は、オブジェクトの関連情報を、クラウド上で検索して取得する処理を実施する。
 評価部1203は、ニューラルネットワーク1202の学習結果を評価する。具体的には、評価部1203は、ニューラルネットワーク1202から出力された関連情報と、学習データ用データベース1201から読み出された、ニューラルネットワーク1202への入力と組み合わされた関連情報(教師データ)及びユーザの評価を入力して、ニューラルネットワーク1202からの出力と教師データとの差分に基づく損失関数を定義する。なお、ユーザの評価結果の高い教師データとの差分の重みを大きくし、ユーザの評価結果の低い教師データとの差分の重みを小さくするといった重み付けをして損失関数を計算するようにしてもよい。そして、評価部1203は、損失関数が最小となるように、バックプロパゲーション(誤差逆伝播法)によりニューラルネットワーク1202の学習を実施する。
 図13には、図10に示した映像信号処理部105において行われる映像信号処理の手順をフローチャートの形式で示している。
 まず、注視点判別部501は、映像復号部102から復号後の映像ストリームを入力するとともに、センサー部109からセンサー情報を入力して、センサー情報に基づいて、映像中でユーザが注視している注視点を判別する(ステップS1301)。
 注視点判別部501がユーザの注視点を判別することができた場合には(ステップS1302のYes)、オブジェクト特徴抽出部502は、注視点判別部501によって判別された注視点に該当するオブジェクトの特徴を抽出する(ステップS1303)。
 次いで、映像トラッキング部503は、オブジェクト特徴抽出部502により抽出された注視点のオブジェクトの特徴に基づいて、映像ストリーム中で注視点のオブジェクトをトラッキングして、映像フレーム内での注視点のオブジェクトの座標を出力する(ステップS1304)。
 また、オブジェクト判別部511は、オブジェクト特徴抽出部502により抽出された注視点のオブジェクトの特徴に基づいて、オブジェクトを判別する。オブジェクト判別部511は、必要に応じてクラウド上の情報資源にアクセスして、オブジェクトの判別処理を行う(ステップS1308)。
 関連情報検索取得部512は、オブジェクト判別部511が判別したオブジェクトの関連情報を、クラウド上で検索して取得する処理を実施する(ステップS1309)。
 関連情報出力制御部513は、関連情報検索取得部512がクラウド上を検索して取得したオブジェクトの関連情報を、例えばOSDによりユーザに提示するための出力制御を行う(ステップS1310)。
 次いで、映像出力制御部504は、映像トラッキング部503から出力されたオブジェクトの座標に基づいて、映像ストリームの出力制御を行う(ステップS1305)。ここで言う映像出力制御には、注視点のオブジェクトや注視点の周辺のオブジェクトに対するフレーミング、ズーミング、解像度変換、輝度ダイナミックレンジ変換が含まれる。また、映像出力制御部504は、関連情報出力制御部513が生成したOSDを映像ストリーム上に重畳する。
 画像表示部107は、液晶ディスプレイや有機ELディスプレイ、自発光型ディスプレイ、3Dディスプレイ、ホログラフィックディスプレイなどさまざまなタイプの表示装置が想定される。そこで、映像出力制御部504は、注視オブジェクトを基準にしたフレーミング、ズーミング、その他の画質処理を行った映像ストリームに対して、ディスプレイのタイプに応じた調整処理を実施する(ステップS1306)。
 そして、映像出力制御部504によって処理された映像は、画像表示部107で映像出力される(ステップS1307)。
 図10には、ユーザが注視するオブジェクトに関連する情報を検索して出力する処理を行う映像信号処理部105の構成例を示したが、変形例として、クラウド上のサーバ(例えば、人工知能サーバ)で同様の処理を行うこともできる。サーバ側で処理を行う1つの効果として、オブジェクトの関連情報をコンテンツに付けてエッジに提供しながら、多数のエッジから学習データを収集して深層学習や再学習を行うことができることが挙げられる。
 図25には、ユーザが注視するオブジェクトの関連情報を出力する人工知能サーバ2500の機能的構成例を示している。人工知能サーバ2500は、クラウド上に設置されることを想定している。また、人工知能サーバ2500が画作り処理の対象としている映像ソース2501は、放送局、ストリーム配信サーバ、又は記録メディアのいずれであってもよい。
 コンテンツ再生装置100側でセンサー部109が検出したセンサー情報は、ネットワーク経由で、人工知能サーバ2500内の注視点判別部2511に入力される。注視点判別部2511は、映像ソース2501から入力した映像中で、ユーザが注視している注視点を判別する。なお、注視点判別部2511と、オブジェクト特徴抽出部2512と、映像トラッキング部2513と、映像出力制御部2514は、図5中の同一名及び同一の参照番号の機能モジュールと同じなので、ここでは詳細な説明を省略し又は必要最低限に説明する。
 オブジェクト特徴抽出部2512は、注視点判別部2511によって判別された注視点に該当するオブジェクトの特徴を抽出する。オブジェクト判別部2515は、オブジェクト特徴抽出部502により抽出された注視点のオブジェクトの特徴に基づいて、オブジェクトを判別する。オブジェクト判別部2515は、オブジェクトの特徴からそのオブジェクトを推定するように深層学習された機械学習モデルを利用してオブジェクト判別処理を行うようにしてもよい。
 関連情報検索取得部2516は、オブジェクト判別部2515が判別したオブジェクトの関連情報をクラウド上で検索して取得する処理を実施する。関連情報検索取得部2516は、オブジェクトに応じた関連情報の検索方法(検索キーワードや検索条件式)などを推定して検索処理を実施するように深層学習された機械学習モデルを利用して関連情報の検索取得処理を行うようにしてもよい。
 関連情報出力制御部2517は、関連情報検索取得部2516がクラウド上を検索して取得したオブジェクトの関連情報をユーザに提示するための出力制御を行う。関連情報をユーザに提示する方法はさまざまである。関連情報出力制御部2517は、字幕などの補助データ、映像ストリームのメタ情報などの形式で、関連情報を生成してもよい。
 映像出力制御部2514は、上述したように、映像トラッキング部2513から出力されたオブジェクトの座標に基づいて、映像ストリームの出力制御を行う。また、映像出力制御部2514は、関連情報出力制御部2517が字幕や補助データ、メタ情報などの形式で生成した関連情報を、映像ストリームとともに出力する。
 そして、人工知能サーバ2500において画作り処理が施された映像ストリームは、映像符号化部2502でMPEG2 Systemなどの所定の符号化規格に則って符号化処理が施された後、コンテンツ再生装置100に配信される。
 コンテンツ再生装置100側では、受信した符号化映像ストリームを映像復号部102で復号処理し、受信した補助データストリームを補助データ復号部104で復号処理する。そして、復号した映像ストリームは、映像信号処理部105で高画質化などを含む映像信号処理を施した後に、画像表示部107で関連情報とともに表示出力される。
D-3.画音一致処理
 例えば、映画やドラマのコンテンツであれば、映像フレーム内に出現した複数の登場人物など、複数の音源が存在する。また、独りの登場人物しか出現していないシーンであっても、その登場人物が移動すれば音源が移動することになる。また、映像信号処理として、ユーザの注視点のオブジェクトや注視点の周辺のオブジェクトに対するフレーミング、ズーミングを行う場合には、フレーミングやズーミングに伴って移動したオブジェクトの位置が元のコンテンツ内での位置から変動する(前述)。要するに、映像フレーム内に存在する音源の位置は不定である。例えば大画面の2Dディスプレイ及び3Dディスプレイにおいて、画面上に映るオブジェクト(音源)の画像とその音像とが一致しない画音不一致現象が、ユーザに顕著に知覚される。例えばホログラフィックディスプレイのように奥行き知覚が向上したディスプレイを使用する場合には、奥行き方向における画像と音像の不一致が顕著になる。画音不一致現象により、ユーザは音源(どのオブジェクトの音声であるのか)を識別し難くなり、違和感を覚える。
 そこで、本実施形態に係るコンテンツ再生装置100では、音源となるオブジェクトの画像とその音像とを一致させる処理(以下、「画音一致処理」とも言う)を行うようにしている。具体的には、本実施形態に係るコンテンツ再生装置100内では、映像内に出現する音源となるオブジェクトの画像を検出し、映像フレーム内におけるそのオブジェクトの表示位置に基づいて、その音源のオーディオ信号を発する最適な出音座標を推定する。そして、オーディオ出力部108に対して、推定された出音位置にその音源の音像を生成する処理を行わせる。音像の生成処理は、出音位置における音の方向と音の大きさを決定し、その音像を生成するためのスピーカーの組み合わせを決定する処理を含む。画音一致処理を行うことにより、再生するコンテンツのリアリティが増し、ユーザに臨場感を与えることができる。3Dディスプレイに対して画音一致処理を適用すれば、効果は大きい。
 図14には、画音一致処理を行う信号処理部150の機能的構成例を示している。図示の信号処理部150は、図2中の映像信号処理部105とオーディオ信号処理部106の機能を融合した機能モジュールであるが、出音座標推定部1401と、映像出力制御部1402と、オーディオ出力制御部1403を備えている。信号処理部150には、映像復号部102から復号後の映像ストリームと、オーディオ復号部103から復号後のオーディオストリームが入力される。
 出音座標推定部1401は、映像復号部102から復号後の映像ストリームを入力するとともに、オーディオ復号部103から復号後のオーディオストリームを入力する。但し、図5に示したようにユーザの注視点のオブジェクトや注視点の周辺のオブジェクトに対するフレーミング、ズーミングを行う場合には、出音座標推定部1401内で、センサー情報などに基づいて映像のフレーミングやズーミング処理し、その処理後の映像ストリームに基づいて出音座標の推定処理を実施する。
 そして、出音座標推定部1401は、映像内で音源となる発音オブジェクトの表示位置を推定して、出音座標として出力する。オーディオストリームに複数のオブジェクトのオーディオ信号が重畳されている場合には、出音座標推定部1401は、元のオーディオストリームからオブジェクト毎のオーディオ信号の波形を分離処理し、分離したオブジェクト毎の出音座標を推定する。なお、オーディオストリームがオブジェクトオーディオに従う場合には、個々の発音オブジェクトがミキシングされていないので、出音座標推定部1401は、オブジェクト毎のオーディオ信号の分離処理が不要であり、また、メタ情報に含まれる定位情報に基づいて各発音オブジェクトの表示位置、大きさ、向きの計算を容易に行うことができる。また、図5などを参照しながら説明したようにユーザの注視点のオブジェクトや注視点の周辺のオブジェクトに対するフレーミング、ズーミングを行う場合には、出音座標推定部1401は、センサー情報に基づいて注視点を推定し、注視点に基づいてフレーミングやズーミングした結果を考慮して映像から各発音オブジェクトの出音座標を推定する。
 画像出力部107が2Dディスプレイを使用する場合には、出音座標推定部1401は、2次元の出音座標を推定する。また、画像出力部107がホログラフィックディスプレイなどのように奥行き情報を持った3Dディスプレイの場合には、出音座標推定部1401は3次元の出音座標を推定する。また、出音座標推定部1401は、複数の発音オブジェクトを推定した場合には、発音オブジェクト毎の音量(又は、発音オブジェクト間の音量の比)も推定するようにしてもよい。
 出音座標推定部1401は、入力した映像ストリーム及びオーディオストリームから、映像中の音源となるオブジェクトの出音座標を推定するように深層学習された機械学習モデルを用いて、各発音オブジェクトの出音座標の推定処理を行う。なお、入力した映像ストリーム及びオーディオストリームの映像解析、オーディオ解析によって映像内に出現する音源を検出し、その音源の画面上の表示位置を計算する方法もあるが、リアルタイムで計算処理するのは難しい。そこで、上記の通り、本実施形態では出音座標推定部1401は機械学習モデルを利用する。
 映像出力制御部1402は、映像ストリームに対して超解像処理や高ダイナミックレンジ化といった高画質化処理を行う。出音座標推定部1401において映像のフレーミングやズーミングが決定された場合には、映像出力制御部1402は、元の映像フレームに対してフレーミングやズーミング処理を施すようにする。また、映像出力制御部1402は、液晶ディスプレイや有機ELディスプレイ、自発光型ディスプレイ、3Dディスプレイ、ホログラフィックディスプレイなどディスプレイのタイプに応じた調整処理を実施する。そして、映像出力制御部1402によって処理された映像は、画像表示部107で映像出力される。
 オーディオ出力制御部1403は、出音座標推定部1401によって推定された出音座標に応じて、映像中の各発音オブジェクトの音像を生成するためのオーディオ出力部108の駆動を制御する。具体的には、例えば、オーディオ出力部108が複数のスピーカーで構成される場合に、オーディオ出力制御部1403は、出音座標が推定された発音オブジェクト毎に、出音位置における音の方向と音の大きさを決定し、その音像を生成するためのスピーカーの組み合わせを決定して、各スピーカーから出力する音量及び方向を設定する。
 なお、図14では省略したが、映像信号処理部105においてユーザが注視するオブジェクトを基準としたフレーミングやズーミング、画質処理を行う場合には、オーディオ出力制御部1403は、ユーザが注視する発音オブジェクトから発されるオーディオ信号に対して帯域拡張などの高音質化処理を施したり特殊なエフェクトをかけたりするといった、ユーザの注視度に基づいて重み付けしたオーディオ信号処理を行うようにしてもよい。
 出音座標推定部1401で出音座標推定処理に利用する機械学習モデルは、ニューラルネットワークで表される。出音座標推定部1401で使用されるニューラルネットワークの深層学習は、図15に示した人工知能サーバ1500上で実施することができる。人工知能サーバ1500の構成及び動作については既に説明したので、ここでは説明を省略する。
 図14に示した信号処理部150において実行される画音一致処理の手順は図16と同様である。図16に示したフローチャートについては既に説明したので、ここでは説明を省略する。
 図14には、コンテンツの画音一致処理を、エッジすなわちコンテンツ再生装置100側で実行する機能的構成例について示した。変形例として、画音一致処理を、クラウド上のサーバ(例えば、人工知能サーバ)で行うこともできる。例えば、図24に示した人工知能サーバ2400を用いて、エッジに配信する前にコンテンツに対して画音一致処理を行うことができる。人工知能サーバ2400については既に説明したので、ここでは説明を省略する。
 以上、特定の実施形態を参照しながら、本開示について詳細に説明してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
 本明細書では、本開示をテレビ受信機に適用した実施形態を中心に説明してきたが、本開示の要旨はこれに限定されるものではない。放送波又はインターネットを介したストリーミングあるいはダウンロードにより取得したコンテンツ、あるいは記録メディアから再生したコンテンツをユーザに提示するさまざまなタイプの装置、例えばパーソナルコンピュータ、スマートフォン、タブレット、ヘッドマウントディスプレイ、メディアプレイヤーなどにも同様に本開示を適用することができる。
 要するに、例示という形態により本開示について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示の要旨を判断するためには、特許請求の範囲を参酌すべきである。
 なお、本開示は、以下のような構成をとることも可能である。
(1)映像ストリームとオーディオストリームに基づいて音像を生成する出音座標を推定する推定部と、
 映像ストリームの出力を制御する映像出力制御部と、
 前記出音座標に音像を生成するようにオーディオストリームの出力を制御するオーディオ出力制御部と、
を具備する情報処理装置。
(2)前記推定部は、機械学習モデルを利用して出音座標の推定を行う、
上記(1)に記載の情報処理装置。
(3)前記推定部は、映像中の音源となる所定のオブジェクトの音像を生成するための出音座標を推定する、
上記(1)又は(2)のいずれかに記載の情報処理装置。
(4)前記推定部は、映像及びオーディオを視聴するユーザが注視するオブジェクトの音像を生成するための出音座標を推定する、
上記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)映像及びオーディオを視聴するユーザの注視点を判別する判別部を備え、
 前記推定部は、前記判別部の判別結果に基づいて、ユーザが注視するオブジェクトの音像を生成する出音座標を推定する、
上記(4)に記載の情報処理装置。
(5-1)前記判別部は、機械学習モデルを利用してユーザの注視点を判別する、
上記(5)に記載の情報処理装置。
(5-2)前記判別部は、ユーザに関連する状態を検出した結果に基づいて、ユーザの注視点を判別する、
上記(5)又は(6)のいずれかに記載の情報処理装置。
(6)前記状態は、ユーザの位置、ユーザの顔の向き又は視線、ユーザの人数、視聴が行われる室内環境のうち少なくとも1つを含む、
上記(5)に記載の情報処理装置。
(7)前記映像出力制御部は、ユーザの注視度を判別した結果に基づいて映像のレンダリングを行う、
上記(5)又は(6)のいずれかに記載の情報処理装置。
(8)前記映像出力制御部は、機械学習モデルを利用して映像のレンダリングを行う、
上記(7)に記載の情報処理装置。
(9)前記レンダリングは、映像のフレーミング又はズーミング処理のうち少なくとも一方を含む、
上記(7)又は(8)のいずれかに記載の情報処理装置。
(10)前記映像出力制御部は、ユーザが注視するオブジェクトをトラッキングした結果に基づいて前記レンダリングを行う、
上記(7)乃至(9)のいずれかに記載の情報処理装置。
(11)前記推定部は、フレーミング又はズーミング処理が行われた映像に基づいて出音座標を推定する、
上記(7)乃至(10)のいずれかに記載の情報処理装置。
(11-1)前記推定部は、映像内におけるオブジェクトの表示位置、向き、又は大きさに基づいて、音像の出音位置、音の方向及び大きさを推定する、
上記(3)乃至(11)のいずれかに記載の情報処理装置。
(11-2)前記オーディオ出力制御部は、使用可能な複数のスピーカーのうち使用するスピーカーの組み合わせ、各スピーカーから出力する音の方向及び大きさを制御して、前記音像を生成する、
上記(1)乃至(11)のいずれかに記載の情報処理装置。
(11-3)前記映像出力制御部は、2D又は3Dディスプレイへの映像ストリームの出力を制御する、
上記(1)乃至(11)のいずれかに記載の情報処理装置。
(12)前記映像のフレーミング又はズーミング処理は、目標値まで段階的又は所定の速度で行われる、
上記(9)に記載の情報処理装置。
(13)前記映像ストリームは、3D映像のストリームである、
上記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)前記推定部は、前記映像ストリームに含まれる、音源となる所定のオブジェクトの3D深度、又は3D表示の向きに応じた音像を生成する
上記(13)に記載の情報処理装置。
(15)前記推定部は、前記映像ストリームに含まれる、音源となる所定のオブジェクトの3D深度、及び3D表示の向きに応じた音像を生成する
上記(13)に記載の情報処理装置。
(16)両眼視差を用いた3D表示が可能な表示部を備える、
上記(1)乃至(15)のいずれかに記載の情報処理装置。
(17)前記注視点に対応するオブジェクトの特徴に基づいて判別されるオブジェクトの関連情報を取得する取得部と、
 前記取得した関連情報の出力を制御する関連情報出力制御部と、
を備え、
 前記映像出力制御部は、映像ストリームとともに関連情報を出力するように制御する、
上記(5)乃至(13)のいずれかに記載の情報処理装置。
(18)機械学習モデルを利用してオブジェクトの特徴抽出、又は関連情報の取得を行う、
上記(17)に記載の情報処理装置。
(19)前記オーディオストリームは、object-based audioのメタ情報を含む、
上記(1)乃至(18)のいずれかに記載の情報処理装置。
(20)映像ストリームとオーディオストリームに基づいて音像を生成する出音座標を推定する推定ステップと、
 映像ストリームの出力を制御する映像出力制御ステップと、
 前記出音座標に音像を生成するようにオーディオストリームの出力を制御するオーディオ出力制御ステップと、
を有する情報処理方法。
 100…コンテンツ再生装置、101…非多重化部、102…映像復号部
 103…オーディオ復号部、104…補助データ復号部
 105…映像信号処理部、106…オーディオ信号処理部
 107…画像表示部、108…オーディオ出力部、109…センサー部
 110…外部インターフェース部、150…信号処理部
 410…カメラ部、411~413…カメラ
 420…ユーザ状態センサー部、430…環境センサー部
 440…機器状態センサー部、450…ユーザプロファイルセンサー部
 501…注視点判別部、502…オブジェクト特徴抽出部
 503…映像トラッキング部、504…映像出力制御部
 511…オブジェクト判別部、512…関連情報検索取得部
 513…関連情報出力制御部
 521…出音座標推定部、522…オーディオ出力制御部
 600…人工知能サーバ(注視点判別用)
 601…学習データ用データベース、602…ニューラルネットワーク
 603…評価部
 700…人工知能サーバ(オブジェクト特徴抽出用)
 701…学習データ用データベース、702…ニューラルネットワーク
 703…評価部
 800…人工知能サーバ(映像出力制御用)
 801…学習データ用データベース、802…ニューラルネットワーク
 803…評価部
 1100…人工知能サーバ(オブジェクト判別処理用)
 1101…学習データ用データベース
 1102…ニューラルネットワーク、1103…評価部
 1200…人工知能サーバ(関連情報検索取得処理用)
 1201…学習データ用データベース
 1202…ニューラルネットワーク、1203…評価部
 1401…出音座標推定部、1402…映像出力制御部
 1403…オーディオ出力制御部
 1501…学習データ用データベース
 1502…ニューラルネットワーク、1503…評価部
 2300…人工知能サーバ、2301…映像ソース
 2302…映像復号部、2311…注視点判別部
 2312…オブジェクト特徴抽出部、2313…映像トラッキング部
 2314…フレーミング・スケーリング処理部
 2400…人工知能サーバ、2401…オーディオソース
 2411…出音座標推定部、2412…オーディオ信号処理部
 2413…オーディオ符号化部
 2500…人工知能サーバ、2501…映像ソース
 2502…映像符号化部、2511…注視点判別部
 2512…オブジェクト特徴抽出部、2513…映像トラッキング部
 2514…映像出力制御部、2515…オブジェクト判別部
 2516…関連情報検索取得部、2517…関連情報出力制御部

Claims (20)

  1.  映像ストリームとオーディオストリームに基づいて音像を生成する出音座標を推定する推定部と、
     映像ストリームの出力を制御する映像出力制御部と、
     前記出音座標に音像を生成するようにオーディオストリームの出力を制御するオーディオ出力制御部と、
    を具備する情報処理装置。
  2.  前記推定部は、機械学習モデルを利用して出音座標の推定を行う、
    請求項1に記載の情報処理装置。
  3.  前記推定部は、映像中の音源となる所定のオブジェクトの音像を生成するための出音座標を推定する、
    請求項1に記載の情報処理装置。
  4.  前記推定部は、映像及びオーディオを視聴するユーザが注視するオブジェクトの音像を生成するための出音座標を推定する、
    請求項1に記載の情報処理装置。
  5.  映像及びオーディオを視聴するユーザの注視点を判別する判別部を備え、
     前記推定部は、前記判別部の判別結果に基づいて、ユーザが注視するオブジェクトの音像を生成する出音座標を推定する、
    請求項4に記載の情報処理装置。
  6.  前記判別部は、機械学習モデルを利用してユーザの注視点を判別する、
    請求項5に記載の情報処理装置。
  7.  前記映像出力制御部は、ユーザの注視度を判別した結果に基づいて映像のレンダリングを行う、
    請求項5に記載の情報処理装置。
  8.  前記映像出力制御部は、機械学習モデルを利用して映像のレンダリングを行う、
    請求項7に記載の情報処理装置。
  9.  前記レンダリングは、映像のフレーミング又はズーミング処理のうち少なくとも一方を含む、
    請求項7に記載の情報処理装置。
  10.  前記映像出力制御部は、ユーザが注視するオブジェクトをトラッキングした結果に基づいて前記レンダリングを行う、
    請求項7に記載の情報処理装置。
  11.  前記推定部は、フレーミング又はズーミング処理が行われた映像に基づいて出音座標を推定する、
    請求項7に記載の情報処理装置。
  12.  前記映像のフレーミング又はズーミング処理は、目標値まで段階的又は所定の速度で行われる、
    請求項9に記載の情報処理装置。
  13.  前記映像ストリームは、3D映像のストリームである、
    請求項1に記載の情報処理装置。
  14.  前記推定部は、前記映像ストリームに含まれる、音源となる所定のオブジェクトの3D深度、又は3D表示の向きに応じた音像を生成する
    請求項13に記載の情報処理装置。
  15.  前記推定部は、前記映像ストリームに含まれる、音源となる所定のオブジェクトの3D深度、及び3D表示の向きに応じた音像を生成する
    請求項13に記載の情報処理装置。
  16.  両眼視差を用いた3D表示が可能な表示部を備える、
    請求項1に記載の情報処理装置。
  17.  前記注視点に対応するオブジェクトの特徴に基づいて判別されるオブジェクトの関連情報を取得する取得部と、
     前記取得した関連情報の出力を制御する関連情報出力制御部と、
    を備え、
     前記映像出力制御部は、映像ストリームとともに関連情報を出力するように制御する、
    請求項5に記載の情報処理装置。
  18.  機械学習モデルを利用してオブジェクトの特徴抽出、又は関連情報の取得を行う、
    請求項17に記載の情報処理装置。
  19.  前記オーディオストリームは、object-based audioのメタ情報を含む、
    請求項1に記載の情報処理装置。
  20.  映像ストリームとオーディオストリームに基づいて音像を生成する出音座標を推定する推定ステップと、
     映像ストリームの出力を制御する映像出力制御ステップと、
     前記出音座標に音像を生成するようにオーディオストリームの出力を制御するオーディオ出力制御ステップと、
    を有する情報処理方法。
PCT/JP2020/040017 2019-12-18 2020-10-23 情報処理装置及び情報処理方法 WO2021124680A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/782,522 US20230007232A1 (en) 2019-12-18 2020-10-23 Information processing device and information processing method
EP20901696.3A EP4080907A4 (en) 2019-12-18 2020-10-23 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019228694 2019-12-18
JP2019-228694 2019-12-18

Publications (1)

Publication Number Publication Date
WO2021124680A1 true WO2021124680A1 (ja) 2021-06-24

Family

ID=76477191

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/040017 WO2021124680A1 (ja) 2019-12-18 2020-10-23 情報処理装置及び情報処理方法

Country Status (3)

Country Link
US (1) US20230007232A1 (ja)
EP (1) EP4080907A4 (ja)
WO (1) WO2021124680A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11937073B1 (en) * 2022-11-01 2024-03-19 AudioFocus, Inc Systems and methods for curating a corpus of synthetic acoustic training data samples and training a machine learning model for proximity-based acoustic enhancement

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000348189A (ja) * 1999-06-01 2000-12-15 Matsushita Electric Ind Co Ltd 画像処理装置
JP2011071685A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム
JP2015154101A (ja) * 2014-02-10 2015-08-24 ソニー株式会社 画像処理方法、画像処理装置及び電子機器
WO2018116580A1 (ja) 2016-12-19 2018-06-28 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP6572893B2 (ja) 2014-06-30 2019-09-11 ソニー株式会社 情報処理装置及び情報処理方法、コンピューター・プログラム、並びに画像処理システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0426448D0 (en) * 2004-12-02 2005-01-05 Koninkl Philips Electronics Nv Position sensing using loudspeakers as microphones
US7839549B2 (en) * 2005-10-20 2010-11-23 Zoran Mihajlovic Three-dimensional autostereoscopic display and method for reducing crosstalk in three-dimensional displays and in other similar electro-optical devices
EP2751988A1 (en) * 2011-04-21 2014-07-09 Sony Mobile Communications AB Method and system for providing an improved audio experience for viewers of video
CN109716794B (zh) * 2016-09-20 2021-07-13 索尼公司 信息处理装置、信息处理方法及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000348189A (ja) * 1999-06-01 2000-12-15 Matsushita Electric Ind Co Ltd 画像処理装置
JP2011071685A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム
JP2015154101A (ja) * 2014-02-10 2015-08-24 ソニー株式会社 画像処理方法、画像処理装置及び電子機器
JP6572893B2 (ja) 2014-06-30 2019-09-11 ソニー株式会社 情報処理装置及び情報処理方法、コンピューター・プログラム、並びに画像処理システム
WO2018116580A1 (ja) 2016-12-19 2018-06-28 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4080907A4

Also Published As

Publication number Publication date
EP4080907A1 (en) 2022-10-26
EP4080907A4 (en) 2023-06-21
US20230007232A1 (en) 2023-01-05

Similar Documents

Publication Publication Date Title
WO2021038980A1 (ja) 情報処理装置及び情報処理方法、人工知能機能搭載表示装置、並びに人工知能機能搭載演出システム
US11200028B2 (en) Apparatus, systems and methods for presenting content reviews in a virtual world
US9851793B1 (en) Virtual reality system including social graph
JP6923245B2 (ja) 観衆ベースのハプティック
CN106576184B (zh) 信息处理装置、显示装置、信息处理方法、程序和信息处理系统
US8990842B2 (en) Presenting content and augmenting a broadcast
US10701426B1 (en) Virtual reality system including social graph
CN109416842A (zh) 在虚拟现实和增强现实中的几何匹配
WO2016014233A1 (en) Real-time immersive mediated reality experiences
WO2012039871A2 (en) Automatic customized advertisement generation system
KR20200126367A (ko) 정보 처리 장치, 정보 처리 방법, 및 프로그램
KR20130010424A (ko) 콘텐츠 재생 방법 및 장치
CN112581627A (zh) 用于体积视频的用户控制的虚拟摄像机的系统和装置
US11354871B2 (en) Head-mountable apparatus and methods
US20180288557A1 (en) Use of earcons for roi identification in 360-degree video
US20220020053A1 (en) Apparatus, systems and methods for acquiring commentary about a media content event
WO2021124680A1 (ja) 情報処理装置及び情報処理方法
WO2021131326A1 (ja) 情報処理装置及び情報処理方法、並びにコンピュータプログラム
WO2012166072A1 (en) Apparatus, systems and methods for enhanced viewing experience using an avatar
WO2020234939A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2021079640A1 (ja) 情報処理装置及び情報処理方法、並びに人工知能システム
WO2021009989A1 (ja) 人工知能情報処理装置及び人工知能情報処理方法、並びに人工知能機能搭載表示装置
WO2021053936A1 (ja) 情報処理装置及び情報処理方法、並びに人工知能機能搭載表示装置
JP6523038B2 (ja) 感覚提示装置
WO2020240976A1 (ja) 人工知能情報処理装置及び人工知能情報処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20901696

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020901696

Country of ref document: EP

Effective date: 20220718

NENP Non-entry into the national phase

Ref country code: JP