WO2019039119A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2019039119A1
WO2019039119A1 PCT/JP2018/026110 JP2018026110W WO2019039119A1 WO 2019039119 A1 WO2019039119 A1 WO 2019039119A1 JP 2018026110 W JP2018026110 W JP 2018026110W WO 2019039119 A1 WO2019039119 A1 WO 2019039119A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
output
information processing
processing apparatus
space
Prior art date
Application number
PCT/JP2018/026110
Other languages
English (en)
French (fr)
Inventor
龍一 鈴木
健太郎 井田
拓也 池田
文彦 飯田
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP18848772.2A priority Critical patent/EP3674854A4/en
Priority to JP2019537977A priority patent/JP7211367B2/ja
Priority to US16/639,358 priority patent/US11417135B2/en
Priority to CN201880053147.3A priority patent/CN111052044B/zh
Publication of WO2019039119A1 publication Critical patent/WO2019039119A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/0227Cooperation and interconnection of the input arrangement with other functional units of a computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q9/00Arrangements in telecontrol or telemetry systems for selectively calling a substation from a main station, in which substation desired apparatus is selected for applying a control signal thereto or for obtaining measured values therefrom
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/38Services specially adapted for particular environments, situations or purposes for collecting sensor information

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • Patent Document 1 discloses a projection type display device that automatically determines a projectable area.
  • a projection display apparatus can detect an obstacle or the like by using an area sensor such as a depth sensor, and can determine a projectable area.
  • Patent Document 2 discloses a projector-projector-type autonomous robot capable of moving itself to a position where a human who interacts can easily view it and projecting it onto a searched optimum projection plane. Such an autonomous robot obtains information on whether or not the projection area is a plane, the color tone and glossiness of the projection area, and determines the optimum projection plane.
  • Patent Document 1 when projecting an image in space, the shape of the projection surface is measured to estimate the optimum projection size, but environmental information other than the projection surface is not considered, and the viewing situation is It was not enough. Moreover, although several devices, such as a television apparatus and a smart phone, exist in space, optimization of the output device was not considered.
  • Patent Document 2 assumes that the projection device is mounted on a single self-propelled robot, and does not consider optimization of the projection device other than the self-propelled type and the output device. .
  • the present disclosure proposes an information processing apparatus, an information processing method, and a program capable of optimizing information output according to the environment in space.
  • a recognition unit that recognizes a situation in a space based on sensor data obtained by sensing a space that outputs the content, a result of the recognition, and an analysis result of related information of the content And a determination unit that determines an output method.
  • the processor recognizes the situation in the space based on sensor data obtained by sensing the space outputting the content, and based on the result of the recognition and the analysis result of the related information of the content, And (d) determining an output method of the content.
  • the computer based on sensor data obtained by sensing a space that outputs content, the computer recognizes a situation in the space, a recognition result, and an analysis result of related information of the content.
  • a program is proposed to function as a determination unit that determines the output method of the content.
  • FIG. 1 is a diagram for describing an overview of an information processing system according to an embodiment of the present disclosure.
  • the information processing system 1 according to the present embodiment includes an information processing device 10, a sensor 11, and an output device 12.
  • the information processing system 1 according to the present embodiment includes an information processing device 10, a sensor 11, and an output device 12.
  • the sensor 11 detects surrounding environment information and outputs the information to the information processing apparatus 10.
  • the sensor 11 mainly acquires information related to people and information related to the environment.
  • Person-related information includes the position, posture, view area, gaze direction, face orientation, etc. of one or more users in space.
  • environment-related information includes the shape of a projection surface, unevenness, color detection, obstacles and shields, illuminance information, volume, and the like.
  • the sensor 11 may be single or plural. Also, the sensor 11 may be provided in the output device 12.
  • the senor 11 is realized by, for example, a camera 11a, a distance sensor 11b, an illuminance sensor 11c, and a microphone 11d, and acquires information related to people in space and information related to the environment.
  • the camera 11 a captures one or more users in the space and the projection area to obtain a captured image.
  • the camera 11a may be single or plural.
  • the imaging wavelength is not limited to the visible light range, and may include ultraviolet light and infrared light, or may be limited to a specific wavelength range. Also, it may be a sensor that measures only the illuminance.
  • the distance sensor acquires the projection distance of the projector 12 a (the distance to the projection plane), the viewing distance of the user (the distance to each output device 12), and the like. Further, as a distance sensor, a method using infrared light as a light source, a method using ultrasonic waves, a method using a plurality of cameras, a method using image processing, and the like can be mentioned. Also, the distance sensor may be single or plural, or may collectively acquire distance information in the area.
  • the illuminance sensor 11c acquires the illuminance of each place in the space.
  • the illuminance sensor 11c may be single or plural.
  • the microphone 11d collects surrounding voices and acquires voice data.
  • achieves the sensor 11 may each be provided in a different place, and may be provided in the same place.
  • the information processing apparatus 10 analyzes the information acquired from the sensor 11 and analyzes the content attribute (some information related to the content), and then optimizes the information output according to the environment in the space.
  • the content attribute (some information related to the content)
  • the information processing apparatus 10 analyzes the information acquired from the sensor 11 and analyzes the content attribute (some information related to the content), and then optimizes the information output according to the environment in the space.
  • the three-dimensional positional relationship between the projection display device such as the projector 12a and the projection plane is calculated, and the output is made, for example, how the image output to the projection plane is recognized by the user. It analyzes how information is recognized by the user and uses it to optimize the information output.
  • relevant information such as the format (text, video, audio, etc.) of the content, the person to be transmitted, urgency, importance, etc. It analyzes and optimizes information output in consideration of content attributes.
  • a device In the optimization of information output, a device (output device 12) is selected for presenting information to the user, various parameters suitable for output by the device are determined, and the device (optimum information output is performed) Control the output device 12).
  • the zoom mechanism for adjusting the size adjustment parameters such as the focusing mechanism, the output size (volume parameter) for the speaker 12c, AR (Augmented Reality)
  • the output size (volume parameter) for the speaker 12c In the case of a glass (an example of the wearable device 12d), setting parameters and the like of the light adjustment element are assumed.
  • the output device 12 is various devices that present information to the user according to the control of the information processing apparatus 10.
  • the output device 12 is realized by, for example, the projector 12a, the display device 12b, the speaker 12c, or the wearable device 12d.
  • the specific example of the output device 12 is not limited to that shown in FIG. 1, and other devices that can present some information to the user, such as vibration devices, wind output devices, air conditioners, lighting devices, various actuators, etc. All can be assumed. In addition, it is assumed that one or more types of output devices exist in the space.
  • the projection display device such as the projector 12a or the like and the audio output device such as the speaker 12c may be fixed in the space, or may be projected anywhere in the space by the driven projector.
  • the display device 12b may be fixed in space like a television device, or may be a mobile terminal carried by a user like a smartphone, a mobile phone terminal, a tablet terminal, etc.
  • the wearable device 12d is mounted on the user, for example, an HMD (Head Mounted Display), a smart eyeglass (ie, an AR glass), a smartwatch, a smartband, a smart neck, a neck speaker, an earring speaker, an ear cuff speaker, etc. Is assumed.
  • the configuration of the information processing system 1 according to the present embodiment has been described above.
  • the respective devices of the information processing system 1 may be installed at different places or at the same place.
  • each device of the information processing system 1 may be separately configured, or at least a portion of the devices may be configured as one.
  • FIG. 2 is a block diagram showing an example of the configuration of the information processing apparatus 10 according to the present embodiment.
  • the information processing apparatus 10 includes a control unit 100, a communication unit 110, an input unit 120, and a storage unit 130.
  • the control unit 100 functions as an arithmetic processing unit and a control unit, and controls overall operations in the information processing apparatus 10 according to various programs.
  • the control unit 100 is realized by, for example, an electronic circuit such as a central processing unit (CPU) or a microprocessor.
  • the control unit 100 may also include a ROM (Read Only Memory) that stores programs to be used, operation parameters, and the like, and a RAM (Random Access Memory) that temporarily stores parameters and the like that change appropriately.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the control unit 100 also functions as a recognition unit 101, a content analysis unit 102, an element processing unit 103, an output method determination unit 104, and an output control unit 105.
  • the recognition unit 101 performs person recognition processing, environment recognition processing, and device recognition processing based on various sensor data transmitted from the sensor 11. Although details of each recognition process will be described later, for example, in the human recognition process, the position and line of sight of each user, identification of an individual, posture recognition, action recognition and the like are performed.
  • the environment recognition process the environment in which the user is placed is recognized, and the optimum environment for transmitting information is grasped. Further, in the device recognition process, the state of the device (output device 12) used for output is grasped.
  • the content is used as information (for example, an attribute) related to the content, in what format (moving image, text, sound, still image, etc.) the content is.
  • the target person analyzes who the user is working (whether or not the content is only visual confirmation, a predetermined user operation on the displayed content, etc.), the importance (emergency notification, notification, (always) display, etc.), etc. These may be determined in advance by the system, or analyzed by specifying metadata associated with content in advance (for example, format and object of content, predetermined user operation for the content, metadata regarding importance) In the case of a moving image / still image, the image information may be learned to automatically detect the importance.
  • the element processing unit 103 performs processing regarding elements for determining an optimal output method. For example, each element of the environment is scored, such as viewing distance of each user, angle difference of projection plane, visual factor, human factor such as age, display plane shape, display plane material, project resolution, speaker volume, etc. Further, the element processing unit 103 weights the score of the specific element based on the content analysis result.
  • the output method determination unit 104 determines the output method, that is, the optimal output position, the output device, and various parameters of the output based on the analysis result of the related information of the content by the content analysis unit 102.
  • the output position corresponds to the position of a flat area in space (for example, flat areas P1 to P7 shown in FIG. 6) in the case of projection output from the projection display device (projector 12a), and corresponds to the display 12b, the speaker 12c, etc.
  • the installation positions of the respective devices correspond to each other.
  • the position of the terminal itself that is, the position of the user who is wearing it corresponds.
  • the output method determination unit 104 may further determine the output method in consideration of the score of each element based on the content analysis result calculated by the element processing unit 103. Specifically, for example, when the content is a video, the output method determination unit 104 may determine the output method so that the output on the large screen is performed with priority given to the screen size (including the size of the projection surface). For example, when the content is a touch UI (user interface), the output method determination unit 104 prioritizes the closeness of the distance between the output position (projected position, display position) and the user in consideration of the touch operation by the user, The image output closest to the user may be determined.
  • the output method determination unit 104 gives priority to the output resolution (resolution in the output device 12) so that fine characters can also be viewed. It may be determined.
  • the output resolution is a resolution per predetermined display area visible to the user.
  • the output method determination unit 104 gives priority to the condition of the sound field at the output position, outputs audio from a quieter place, or more voices the user considering the position of the user.
  • the output method may be determined to output the sound from a position where it easily reaches.
  • the output control unit 105 performs predetermined output control on the predetermined output device 12 in accordance with the content determined by the output method determination unit 104. Specifically, the output control unit 105 controls the communication unit 110 to transmit, to the output device 12, control signals and content data that are controlled to output in the determined output method.
  • the communication unit 110 transmits and receives data to and from an external device directly or through a network by wire or wirelessly.
  • the communication unit 110 communicates with the sensor 11 and the output device 12 using a wired / wireless LAN (Local Area Network), Wi-Fi (registered trademark), Bluetooth (registered trademark), near field wireless communication, or the like.
  • the communication unit 110 transmits, to the output device 12, a control signal for controlling the predetermined output device 12 so as to output in the determined output method, and content data.
  • the input unit 120 receives input information to the information processing apparatus 10.
  • the input unit 120 may be an operation input unit that receives an operation instruction from a user.
  • the operation input unit may be a touch sensor, a pressure sensor, or a proximity sensor.
  • the operation input unit may be a physical configuration such as a button, a switch, and a lever.
  • the input unit 120 may be a voice input unit (microphone).
  • the storage unit 140 is realized by a ROM (Read Only Memory) that stores a program used for processing of the control unit 100, calculation parameters, and the like, and a RAM (Random Access Memory) that temporarily stores parameters and the like that change appropriately.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the storage unit 140 stores display information (content).
  • the display information may be transmitted from an external device via the communication unit 110.
  • the configuration of the information processing apparatus 10 according to the present embodiment has been specifically described above.
  • the configuration of the information processing apparatus 10 according to the present embodiment is not limited to the example illustrated in FIG. 2, and may further include an output unit, for example.
  • the output unit may be realized by, for example, a display unit or an audio output unit (microphone).
  • the display unit outputs an operation screen, a menu screen or the like, and may be a display device such as a liquid crystal display (LCD) or an organic electro luminescence (EL) display.
  • LCD liquid crystal display
  • EL organic electro luminescence
  • the information processing apparatus 10 may be configured by a plurality of devices. Also, the information processing apparatus 10 may be realized by a client device (smartphone, tablet terminal, PC (Personal Computer), etc.) or may be realized by a server on a network.
  • client device smart phone, tablet terminal, PC (Personal Computer), etc.
  • server on a network.
  • FIG. 3 is a flowchart showing an output control process according to the present embodiment.
  • the information processing apparatus 10 acquires sensor data from the sensor 11 (step S103), and then acquires content information (step S106).
  • Acquisition of sensor data may be acquired continuously from the sensor 11, or may be acquired when content information is acquired.
  • the acquisition of content information is triggered when the trigger to convey the content to people in some way is activated (message reception, incoming call, push notification, interphone (visitor), output instruction by the user, etc.), the attribute of the content, etc.
  • the recognition unit 101 of the information processing apparatus 10 performs recognition processing on people such as the position of each user in the space and the gaze direction (step S109), and detects the plane in the space, illuminance, sound field, etc.
  • the recognition process (step S112) and the recognition process (step S115) regarding the device such as the form, output position, and state of the output device 12 present in the space are performed.
  • the content analysis unit 102 analyzes the content such as the format and the target person of the content, the presence or absence of work, and the importance (step S118).
  • the element processing unit 103 performs element calculation for determining the output method (step S121), and performs score of the element based on the calculated element (step S124).
  • the element processing unit 103 performs weighting processing of each element score based on the content analysis result (step S127).
  • the output method determination unit 104 determines an optimal output method according to the environment based on the element score (step S130), and the output control unit 105 performs output control of the content according to the determined output method (step S130). Step S133).
  • FIG. 4 is a diagram for explaining person recognition processing according to the present embodiment.
  • the recognition unit 101 determines the position of each user and the view vector V (line of sight) at three-dimensional coordinate positions (x , y, z).
  • the recognition unit 101 can also acquire the state (posture, action) of each user.
  • FIG. 5 shows an example of an output result of the human recognition process.
  • the recognition unit 101 can acquire position coordinates of each user, a view vector, an attitude, an action, and the like.
  • the position coordinates of each user may be calculated by obtaining position information from, for example, a smartphone or smart watch owned by each user, an AR glass, or the like.
  • the recognition of the space S (the grasp of the three-dimensional shape of the space) may also be performed by the recognition unit 101.
  • the recognition unit 101 acquires object information in the surrounding space based on sensor data (object recognition), recognizes a layout in the space, and grasps position coordinates of each user in it.
  • the acquisition of the position coordinates is not limited to the position information transmitted from the communication terminal possessed by the user.
  • the user wears one having a retroreflective function, it is acquired by light reflection. It is also possible. It is also possible to specify the position of the user, personal identification (face recognition), and estimate the direction of the face based on the captured image in space. It is also conceivable to use a thermo camera, an ultrasonic sensor, a laser survey, or the like.
  • FIG. 6 is a diagram showing an example of a plane detection result and a projection inappropriate area.
  • the recognition unit 101 analyzes various sensor data and detects flat areas P1 to P7 in the space S as shown on the left of FIG. 6 or determines the projection inappropriate areas 21 to 23 as shown on the right of FIG.
  • laser surveying for example, LIDAR (Light Detection and Ranging) etc.
  • ultrasonic sensor data ultrasonic sensor data
  • distance sensor data distance sensor data
  • captured image object
  • object captured image
  • each detected plane may also be recognized as being a material suitable for projecting an image, a color and an illuminance.
  • Such recognition of color, unevenness, and brightness of a flat surface makes the image difficult to see dark depending on the positional relationship between the projector and the flat surface (projected surface) when the output is video projection by a projector, or the color tone of the projected surface
  • the visibility is lowered, or the case where the image such as glass can not be originally projected can be avoided.
  • FIG. 7 is a diagram showing an example of the illuminance Map and the sound field recognition.
  • the illuminance Map the illuminance of each place in the space S is recognized, and bright and dark places in the space S are recognized. It is assumed that sensor data acquired from a camera sensor, an illuminance sensor, or the like is used to recognize the illuminance at each location. Further, in the sound field recognition, a quiet part or a noise part in the space S, a part where it is hard to hear sound or a part where it is easy to hear sound, etc. are grasped.
  • the sound field recognition may estimate the sound field from the position of the speaker installed in the space S, or from a microphone or a gyro sensor provided in the space S or in a wearable device (such as an AR glass or a smartphone) You may use the acquired sensor data.
  • the recognition of the projection plane and the recognition of the sound field and the illumination map described above can be performed together with the space recognition (the grasp of the three-dimensional shape of the space) as in the case of the human recognition process.
  • information of a space or a three-dimensional shape of the space may be registered in the information processing apparatus 10 in advance.
  • the recognition unit 101 when a plurality of obstacles 51 to 53 such as a cup or a book are placed in the flat area 50, the recognition unit 101 is configured as shown in FIG. A plurality of removed rectangles may be detected as projection surface candidates 61 to 66. Further, as shown in FIG. 10, the range covering the obstacles 51 to 53 may be detected as the projection surface candidate 66.
  • FIG. 11 shows an example of the detection result of the output device 12.
  • the form (fixed / driven / wearable) of the output device 12 the possible output position (the number of possible output positions), the response (start time, information Information such as presentation time), status (standby / starting / in use), output type (display / voice / vibration) is obtained.
  • These pieces of information may be received by communication connection with the output device 12 or may be obtained by analyzing sensor data obtained from a camera sensor or a micro sensor or the like in the space S.
  • Content analysis processing it is displayed whether the content is in a format (moving image, text, sound, still image, etc.), who is the target person using the content, whether the user is working (whether the content is only visual confirmation or not)
  • a predetermined user operation for the content for example, whether or not an image editing operation for the image content occurs, a direct touch operation for the content, or a gesture operation by a movement at a point away from the content
  • Analyze the importance (such as emergency notification, notification, (always) display) etc.
  • FIG. 12 shows an example of the content analysis result.
  • the target person, the request, and the format are analyzed for each content.
  • the “interphone” shown in FIG. 12 sounds an entrance chime, and the target person is all the users (user A, user B) in the room. Further, the presence or absence of work is “notified” for “notification”, and the degree of importance is "immediate notification for user A and user B".
  • the format is, for example, a captured image (still image, full color) obtained by imaging a person who rang the entrance chime.
  • the “message” shown in FIG. 12 is information addressed to an individual such as a notification in social networking service (SNS), mail, a push notification from a predetermined application, etc. B, and the user A who is in the same space is an excluded person.
  • SNS social networking service
  • the output device is determined such that only the user B can see the notification (for example, an AR glass worn by the user, a smartphone, etc.).
  • the touch UI input is to touch the operation input screen to input some information, and for example, when it is possible to view other than the target person, as shown in FIG. Also, the touch UI input requires an active input operation by the user.
  • the element processing unit 103 calculates an element for each of a plurality of users and the output device 12 based on the recognition result by the recognition unit 101.
  • 13 and 14 are diagrams showing an example of element calculation.
  • the element processing unit 103 determines the position of the person detected by the human recognition process or the gaze direction (see FIG. 4) and the position of the plane (projection plane) detected by the environment recognition process (see FIG. 6). The elements related to the person as shown in FIG. 13 are calculated. In addition, the element processing unit 103 is as shown in FIG. 14 based on the position of the plane (projection plane) detected by the environment recognition processing (see FIG. 6) and the detection result of each output device 12 (see FIG. 11). Calculate the elements for the output device. In addition, since a plurality of projection planes can be detected as shown in FIG. 6, an angle difference between a person and the projection plane, a shape or material of the projection plane, environmental illuminance and the like can be element calculated for each projection plane.
  • each element is scored and one score is calculated for each of the output device 12 and the projection plane. Scoring may be performed by categorizing each element into four to five stages or creating a specific conversion formula. Hereinafter, specific examples of conversion formulas used for scoring will be described.
  • the score of the size of the projection plane in the environment is obtained by the following equation 1.
  • the transformation formula of scoring may not be linearly proportional to the distribution of human senses and the distribution of scores.
  • the illuminance [Lux] is several tens of lux in the late night zone, 200 to 300 lux when the room is illuminated, several hundreds of lux to thousands of lux in bright places, and several hundreds of thousands when direct sunlight is exposed from the outside. Become a lux. Therefore, in the above equation 1, the maximum value S_ [max] of luxes that can be taken is too large, so the amount of change when lighting up a midnight band or a room is small, and when calculating the score total value The property of the element is lost. Therefore, if the range of each element is a distribution that is biased with respect to human characteristics such as exponential function and logarithm, use Equation 2 below, which adds exponent n to the equation 1 above. It is also good.
  • FIG. 15 shows a graph when the index n is changed.
  • FIG. 15 shows the tendency when the exponent n is 0.25, 1, and 4 for the inputs 0 to 1, respectively.
  • the characteristic of the input value has only several steps of change.
  • Such things may be categorized into several scores. For example, if it is desired to set the age to three levels such as 18 years old, 18 to 40 years, 40 years or more, the following equation 3 may be used.
  • one score is calculated for each of the projection plane and the output device 12 (that is, the output position), and the output position can be determined by selecting the score with the highest score among them. Further, it is possible to realize an optimal score by considering the characteristics of the content.
  • weighting of each element is performed based on the content analysis result as shown in FIG. 12, and it is possible to reflect the user's intention.
  • Table 1 shows an example of the weighting coefficient of each element k in a specific content.
  • the weighting factor can increase the degree of influence of the characteristic of the element at 1 or more, and the characteristic of the element can be ignored as it approaches zero. Moreover, the characteristic can be inverted by changing the sign.
  • the output method determination unit 104 integrates the weighted score of each element, and outputs each output position (for example, each projection plane (flat areas P1 to P7) in space, the position of the display device 12b, the speaker 12c, and the wearable device 12d. Calculate one score per).
  • an optimal output method is selected from a combination of a plurality of output devices 12 and output types (for example, display, voice, vibration, etc.).
  • FIG. 16 shows the environment and the positional relationship between people and the output device in space.
  • the smartphone 5 owned by the user B
  • the AR glass 6 owned by the user A
  • the projector 7 is present, and flat areas (projection planes) P1 to P7 are detected by plane detection.
  • a score matrix table for each of the output device 12, output type (display, voice, vibration) and output position (projection plane, position of output device 12) is shown in FIG. 17. Since six “display” and “voice” output positions of the drive-type projector 7 are possible, the score is calculated for each of six places of the flat areas P1 to P6.
  • the output position is “user A”. Further, since the smartphone 5 is owned by the user B, the output position is “user B”.
  • Each score shown in FIG. 17 is obtained by scoring the elements calculated as shown in FIG. 13 and FIG. 14 and weighting according to the content. For example, in the case of "ID3, Touch UI, target person: user A" shown in FIG. 12, the content to be output is weighted so that the closer the user A is to the score, the higher the score. The value of the plane area P3 (table) existing near A becomes high.
  • the output method determination unit 104 may select the combination of the output device 12 with the highest score and the output type, or when using both video and audio, an output used for the output device used for video and for audio output The device may be another.
  • an element having a large absolute value of each weighting coefficient shown in Table 1 may be prioritized.
  • the content to be output is “ID3, Touch UI, target person: user A” shown in FIG. 12
  • a plurality of projection planes are given to prioritize the distance and resolution between the projection plane and user A over the projection size.
  • One candidate can be narrowed down by selecting one of P1 to P6) based on the distance to the user.
  • the output method determination unit 104 individually travel costs according to the state of each user. May be calculated. For example, the standing person has a low cost of turning around, and the person sitting on a chair has a heavy cost of turning around, especially in the case of a structure in which the chair can not move.
  • the turning cost may be calculated in consideration of the furniture and the like to determine the output position. Also, the turning cost may be calculated in consideration of user attributes such as age (child or adult).
  • one content does not have to be necessarily presented on one screen, and a plurality of peripheral projection planes may be combined to satisfy the size required by the content.
  • the element according to the line of sight of the user is weighted or the movement path of the user is predicted to confirm whether the projection plane continues to the route. If there is an area where the video can not be presented intermittently in the middle of the predicted movement path, although it is not the optimum environment, the content may be viewed continuously from the beginning with a smartphone, an AR glass, or the like.
  • a plurality of categories coexist as the characteristics of the content, it may be divided until the characteristics are limited in the content, and may be displayed on different projection planes.
  • the video may be displayed on a larger surface, and the description may be displayed in a place where a high resolution near the user can be displayed.
  • the information processing system according to the present embodiment can be applied not only to indoor living environments, but also to public facilities and watching sports. For example, an example of a climbing competition, which is a large facility, will be described with reference to FIG.
  • FIG. 18 is a diagram for explaining the arrangement of persons in the climbing competition. As shown in FIG. 18, for example, in the climbing tournament facility 9, a climbing wall 91 in front, a related person's seat 92 in front of it, and a spectator seat 93 so as to surround them.
  • a display for example, an error, a foul etc.
  • a display for example, player information, scores, comments etc.
  • the information processing system 1 can set a target person and a target excluded person in content analysis, and can appropriately determine an optimal output position.
  • the display of the content related to the discussion for the players is output from the place near the selection or the wearable device owned by the players, etc.
  • the content for a large number of spectators is on a larger projection plane so that all can be seen It may be projected.
  • a recognition unit that recognizes a situation in a space based on sensor data obtained by sensing a space that outputs content
  • a determination unit that determines an output method of the content based on a result of the recognition and an analysis result of related information of the content
  • An information processing apparatus comprising: (2) The information processing apparatus according to (1), wherein the analysis result of the related information of the content includes a format of the content, a target person using the content, an operation on the content, or an importance of the content.
  • the recognition unit performs recognition processing on a user existing in a space as a situation in the space.
  • the information processing apparatus determines an output position of the content, an output device, and an output parameter as the output method.
  • the output position is a position of a flat area in space in the case of a projection output from a projection display apparatus.
  • the information processing apparatus according to (8), wherein the output position is an installation position of an output device.
  • the output position corresponds to a position of a user wearing the wearable device when the output device is a wearable device.
  • the determination unit is The output based on the score for each output position calculated based on the score of each element calculated based on the recognition result regarding the environment and the user by the recognition unit and weighted according to the analysis result of the related information of the content
  • the information processing apparatus according to any one of (8) to (11), which determines the position.
  • the determination unit is The information processing apparatus according to any one of (8) to (12), wherein, when the content is a video, the output method is determined based on the analysis result of the content by prioritizing a screen size.
  • the determination unit is The information processing apparatus according to any one of (8) to (13), wherein when the content is a touch UI, the output method is determined by prioritizing the closeness of the distance between the output position and the user.
  • the determination unit is The information processing apparatus according to any one of (8) to (14), wherein when the content is text-based, the output method is determined by giving priority to an output resolution.
  • the determination unit is The information processing apparatus according to any one of (8) to (15), wherein when the content is audio, the output system is determined by prioritizing the condition of the sound field at the output position.
  • the determination unit is The information processing according to any one of (8) to (16), wherein when the content is an image and the user is moving, the output method is determined with priority given to the user's gaze direction. apparatus.
  • the information processing apparatus is The information processing apparatus according to any one of (1) to (17), further including: a transmission unit that transmits information to be output to the output device according to the determined output method.
  • (19) Processor is Recognizing the situation in the space based on sensor data sensing the space that outputs the content, Determining an output method of the content based on a result of the recognition and an analysis result of related information of the content;
  • Information processing methods including: (20) Computer, A recognition unit that recognizes a situation in a space based on sensor data obtained by sensing a space that outputs content; A determination unit that determines an output method of the content based on a result of the recognition and an analysis result of related information of the content; A program to function as.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Ophthalmology & Optometry (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Position Input By Displaying (AREA)
  • Selective Calling Equipment (AREA)

Abstract

【課題】空間内の環境に応じて情報出力の最適化を行うことが可能な情報処理装置、情報処理方法、およびプログラムを提供する。 【解決手段】コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識する認識部と、前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定する決定部と、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 従来、人が情報提示を受ける場合には、例えばテレビジョン装置等の予め固定された表示情報の前に自ら移動したり、スマートフォン等のモバイル端末を用いる場合にはモバイル端末を携帯していなければならかった。
 ここで、近年、指向性を持ったスピーカや、駆動するプロジェクタが提案され、空間内の任意の場所に音場を形成したり映像を出力することが可能となってきている。
 特にプロジェクタに関しては、近年、小型化および高輝度化により、コンシューマ、ビジネス向けへの導入が進んでいる。プロジェクタに関し、例えば下記特許文献1では、投射可能な領域を自動判別する投射型表示装置が開示されている。かかる投射型表示装置は、デプスセンサなどのエリアセンサを用いて障害物等を検出し、投影可能な領域を判定することができる。
 また、下記特許文献2では、対話する人間が見やすい位置に自ら移動し、かつ探索した最適投影面に投影することができるプロジェクタ投影器搭載型の自律型ロボットが開示されている。かかる自律型ロボットは、投影領域が平面であるか否か、投影領域の色調、光沢具合に関する情報を取得し、最適投影面を決定している。
特開2015-145894号公報 特開2005-313291号公報
 しかしながら、上記特許文献1では、空間に映像を投影する際、投影面の形状を計測し最適な投影サイズを推定しているが、投影面以外の環境情報を考慮しておらず、視聴状況が十分ではなかった。また、空間内には、テレビジョン装置やスマートフォン等複数のデバイスが存在しているが、出力装置の最適化は考慮されていなかった。
 また、上記特許文献2は、自走式の単一のロボットに投影装置が搭載されることが想定されており、自走式以外の投影装置や、出力装置の最適化に関しては考慮されていない。
 このように、従来の技術では、空間内の環境に応じた出力の最適化が実現されておらず、人がデバイスの制約から解放されていなかった。
 そこで、本開示では、空間内の環境に応じて情報出力の最適化を行うことが可能な情報処理装置、情報処理方法、およびプログラムを提案する。
 本開示によれば、コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識する認識部と、前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定する決定部と、を備える、情報処理装置を提案する。
 本開示によれば、プロセッサが、コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識することと、前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定することと、を含む、情報処理方法を提案する。
 本開示によれば、コンピュータを、コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識する認識部と、前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定する決定部と、として機能させるための、プログラムを提案する。
 以上説明したように本開示によれば、空間内の環境に応じて情報出力の最適化を行うことが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態による情報処理システムの概要について説明する図である。 本実施形態による情報処理装置の構成の一例を示すブロック図である。 本実施形態による出力制御処理を示すフローチャートである。 本実施形態による空間内に存在する人認識処理について説明する図である。 本実施形態による人認識処理の出力結果例を示す図である。 本実施形態による環境認識処理における平面検出結果および投影不適切エリアの一例を示す図である。 本実施形態による照度Mapおよび音場認識の一例を示す図である。 本実施形態による平面領域に障害物が置いてある場合について説明する図である。 本実施形態による平面領域に障害物が置いてある場合における投影面の検出について説明する図である。 本実施形態による平面領域に障害物が置いてある場合における投影面の検出について説明する図である。 本実施形態による出力装置の検出結果の一例を示す図である。 本実施形態によるコンテンツ解析結果の一例を示す図である。 本実施形態による人物に関する要素算出の一例を示す図である。 本実施形態による出力装置に関する要素算出の一例を示す図である。 本実施形態による照度のスコア化の変換式における指数nを変化させた際のグラフを示す図である。 本実施形態による空間内における環境および人と出力装置の位置関係を示す図である。 本実施形態によるスコアマトリクス表を示す図である。 本実施形態によるクライミング競技大会の人物配置について説明する図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、説明は以下の順序で行うものとする。
 1.本開示の一実施形態による情報処理システムの概要
 2.情報処理装置10の構成
 3.動作処理
  3-1.全体の流れ
  3-2.認識処理
  (3-2-1.人認識処理)
  (3-2-2.環境認識処理)
  (3-2-3.機器認識処理)
  3-3.コンテンツ解析処理
  3-4.要素処理
  (3-4-1.要素算出)
  (3-4-2.要素のスコア化)
  (3-4-3.特定要素の重み付け)
  3-5.出力方式決定処理
 4.応用例
 5.まとめ
 <<1.本開示の一実施形態による情報処理システムの概要>>
 図1は、本開示の一実施形態による情報処理システムの概要について説明する図である。図1に示すように、本実施形態による情報処理システム1は、情報処理装置10、センサ11、および出力装置12を含む。以下、本実施形態による情報処理システム1に含まれる各装置について説明する。
 (センサ11)
 センサ11は、周辺の環境情報を検知し、情報処理装置10に出力する。センサ11は、主に人関連の情報と、環境関連の情報を取得する。人関連の情報とは、空間内における1以上のユーザの位置、姿勢、視界エリア、視線方向、顔の向き等が挙げられる。また、環境関連の情報とは、投影面の形状、凹凸、色検出、障害物や遮蔽物、照度情報や音量等が挙げられる。センサ11は、単一若しくは複数であってもよい。また、センサ11は、出力装置12に設けられていてもよい。
 本実施形態によるセンサ11は、図1に示すように、例えばカメラ11a、距離センサ11b、照度センサ11c、およびマイクロホン11dにより実現され、空間内おける人関連の情報や環境関連の情報を取得する。
 カメラ11aは、空間内に居る1以上のユーザや投影領域を撮像して撮像画像を取得する。当該カメラ11aは、単一若しくは複数個であってもよい。また、撮像波長は、可視光域に限らず、紫外、赤外を含んでもよいし、特定波長領域に制限してもよい。また、照度のみを測定するセンサであってもよい。
 距離センサは、プロジェクタ12aの投影距離(投影面までの距離)や、ユーザの視聴距離(各出力装置12までの距離)等を取得する。また、距離センサは、赤外光を光源とした方式、超音波を用いた方式、複数台のカメラを用いた方式、および画像処理を用いた方式等が挙げられる。また、距離センサは、単一若しくは複数個であってもよいし、エリア内の距離情報を一括取得してもよい。
 照度センサ11cは、空間内の各箇所の照度を取得する。照度センサ11cは、単一若しくは複数個であってもよい。
 マイクロホン11dは、周辺の音声を集音し、音声データを取得する。
 なおセンサ11を実現するカメラ11a、距離センサ11b、照度センサ11c、およびマイクロホン11dは、それぞれ異なる場所に設けられてもよいし、同一の場所に設けられてもよい。
 (情報処理装置10)
 情報処理装置10は、センサ11から取得した情報の解析と、コンテンツ属性(コンテンツに関連する何らかの情報)の解析を行った上で、空間内の環境に応じた情報出力の最適化を行う。センサデータの解析では、例えばプロジェクタ12aのような投射表示装置と投影面の3次元位置関係等を算出し、投影面に出力される映像がユーザにどのように認識されるか等、出力された情報をユーザによりどのように認識されるかを解析し、情報出力の最適化に用いる。
 また、コンテンツ属性の解析では、何らかの形でコンテンツをユーザに伝えるトリガが発動された際、当該コンテンツのフォーマット(文章、動画、音声等)や伝える対象者、緊急性、重要度等の関連情報を解析し、コンテンツの属性も考慮して情報出力の最適化を行う。
 情報出力の最適化では、ユーザに情報提示を行うための最適なデバイス(出力装置12)の選定および当該デバイスで出力する際の最適な各種パラメータを決定し、最適な情報出力を行うようデバイス(出力装置12)を制御する。
 パラメータは、例えばプロジェクタ12aの場合、投影される映像の明るさや、大きさを調整するズーム機構、フォーカス機構等の調整パラメータ、スピーカ12cであれば出力の大きさ(音量パラメータ)、AR(Augmented Reality)グラス(ウェアラブルデバイス12dの一例)であれば調光素子の設定パラメータ等が想定される。
 なお本実施形態による情報処理装置10の具体的な構成については、図2を参照して後述する。
 (出力装置12)
 出力装置12は、情報処理装置10の制御に従ってユーザに情報提示を行う各種デバイスである。例えば出力装置12は、図1に示すように、例えばプロジェクタ12a、表示装置12b、スピーカ12c、またはウェアラブルデバイス12d等により実現される。なお出力装置12の具体例は図1に図示したものに限定されず、他にも例えば振動装置や風出力装置、空調装置、照明装置、各種アクチュエータ等、何らかの情報をユーザに提示し得る装置は全て想定し得る。また、空間内には、1以上の種類の出力装置が1以上存在することを想定する。
 また、プロジェクタ12a等の投影表示装置やスピーカ12c等の音声出力装置は、空間内に固定されたものであってもよいし、駆動するプロジェクタにより空間内のどこにでも投影できるものであってもよい。また、表示装置12bは、テレビジョン装置のように空間内に固定されたものであってもよいし、スマートフォンや携帯電話端末、タブレット端末等のようにユーザが携帯するモバイル端末であってもよい。また、ウェアラブルデバイス12dは、ユーザに装着され、例えばHMD(Head Mounted Display)、スマートアイグラス(すなわちARグラス)、スマートウォッチ、スマートバンド、スマートネック、ネック型スピーカ、イヤリング型スピーカ、イヤカフ型スピーカ等が想定される。
 以上、本実施形態による情報処理システム1の構成について説明した。情報処理システム1の各装置は、各々別箇所に設置してもよいし、同一箇所に設置してもよい。
 また、情報処理システム1の各装置は、各々別体として構成されてもよいし、少なくとも一部の装置が同一体として構成されてもよい。
 <<2.情報処理装置10の構成>>
 図2は、本実施形態による情報処理装置10の構成の一例を示すブロック図である。図2に示すように、情報処理装置10は、制御部100、通信部110、入力部120、および記憶部130を有する。
 制御部100は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置10内の動作全般を制御する。制御部100は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部100は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
 また、本実施形態による制御部100は、認識部101、コンテンツ解析部102、要素処理部103、出力方式決定部104、および出力制御部105としても機能する。
 認識部101は、センサ11から送信された各種センサデータに基づいて、人認識処理、環境認識処理、および機器認識処理を行う。各認識処理の詳細については後述するが、例えば人認識処理では、各ユーザの位置や視線、個人の特定や姿勢認識、行動認識等を行う。また、環境認識処理では、ユーザが置かれている環境を認識し、情報伝達する際の最適な環境を把握する。また、機器認識処理では、出力に使用するデバイス(出力装置12)の状態を把握する。
 コンテンツ解析部102は、詳しくは後述するが、例えばコンテンツに関連する情報(例えば属性)として、当該コンテンツがどのようなフォーマット(動画、文章、音声、静止画等)であるか、コンテンツを利用する対象者は誰か、ユーザの作業有無(目視確認のみのコンテンツか否か、表示されたコンテンツに対する所定のユーザ操作等)、重要度(緊急通知、通知、(常時)表示等)等を解析する。これらはシステム側で予め決定されていてもよいし、コンテンツに予め関連付けられたメタデータ(例えばコンテンツのフォーマットや対象、当該コンテンツに対する所定のユーザ操作、重要度に関するメタデータ)を特定することにより解析してもよいし、動画/静止画の場合に画像情報を学習して重要度を自動で検出してもよい。
 要素処理部103は、最適な出力方式決定のための要素に関する処理を行う。例えば、各ユーザの視聴距離、投影面の角度差、視力、年齢等の人の要素や、表示面形状、表示面材質、プロジェクト解像度、スピーカの音量等、環境の各要素についてスコア化する。また、要素処理部103は、コンテンツ解析結果に基づいて、特定要素のスコアの重み付けを行う。
 出力方式決定部104は、コンテンツ解析部102によるコンテンツの関連情報の解析結果に基づいて、出力方式の決定、すなわち、最適な出力位置、出力装置、および出力の各種パラメータを決定する。出力位置とは、投影表示装置(プロジェクタ12a)からの投影出力の場合は空間内における平面領域の位置(例えば図6に示す平面領域P1~P7)が相当し、表示装置12bやスピーカ12c等の場合は各装置自体の設置位置が相当する。また、ウェアラブルデバイス12dの場合、端末自体の位置すなわち装着しているユーザの位置が相当する。また、本実施形態による出力方式決定部104は、さらに要素処理部103により算出された、コンテンツ解析結果に基づく各要素のスコアを考慮して、出力方式を決定してもよい。具体的には、例えば出力方式決定部104は、コンテンツがビデオの場合、画面サイズ(投影面のサイズを含む)を優先して大画面での出力を行うよう出力方式を決定してもよい。また、例えば出力方式決定部104は、コンテンツがタッチUI(ユーザインタフェース)の場合、ユーザによるタッチ操作を考慮して出力位置(投影位置、表示位置)とユーザとの距離の近さを優先し、ユーザに最も近い場所での画像出力を決定してもよい。また、例えば出力方式決定部104は、コンテンツが文字主体の場合(例えばWEBコンテンツや電子書籍等)、細かな文字も視認できるよう、出力解像度(出力装置12における解像度)を優先して出力方式を決定するようにしてもよい。出力解像度とは、ユーザが視認できる所定表示面積当たりの解像度である。また、例えば出力方式決定部104は、コンテンツが音声の場合、出力位置における音場の状況を優先し、より静かな場所から音声を出力するよう、若しくはユーザの位置も考慮してよりユーザに音声が届き易い位置から音声を出力するよう出力方式を決定してもよい。
 出力制御部105は、出力方式決定部104により決定された内容に従って、所定の出力装置12に対して所定の出力制御を行う。具体的には、出力制御部105は、決定した出力方式で出力するよう制御する制御信号やコンテンツデータを通信部110から出力装置12に送信するよう制御する。
 (通信部110)
 通信部110は、有線または無線により外部装置と直接若しくはネットワークを介してデータの送受信を行う。例えば通信部110は、有線/無線LAN(Local Area Network)、Wi-Fi(登録商標)、Bluetooth(登録商標)、近距離無線通信等を用いてセンサ11や出力装置12と通信接続する。例えば、通信部110は、出力制御部105の制御に従って、決定された出力方式で出力するよう所定の出力装置12を制御する制御信号やコンテンツデータを出力装置12に送信する。
 (入力部120)
 入力部120は、情報処理装置10への入力情報を受け付ける。例えば入力部120は、ユーザによる操作指示を受け付ける操作入力部であってもよい。操作入力部は、タッチセンサ、圧力センサ、若しくは近接センサであってもよい。あるいは、操作入力部は、ボタン、スイッチ、およびレバーなど、物理的構成であってもよい。また、入力部120は、音声入力部(マイクロホン)であってもよい。
 (記憶部140)
 記憶部140は、制御部100の処理に用いられるプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、および適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)により実現される。
 記憶部140には、表示情報(コンテンツ)が記憶される。なお表示情報は、通信部110を介して外部装置から送信されてもよい。
 以上、本実施形態による情報処理装置10の構成について具体的に説明した。なお、本実施形態による情報処理装置10の構成は図2に示す例に限定されず、例えばさらに出力部を有していてもよい。出力部は、例えば表示部または音声出力部(マイクロホン)により実現されていてもよい。表示部は、操作画面やメニュー画面等を出力し、例えば液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL((Electro Luminescence)ディスプレイなどの表示装置であってもよい。
 また、情報処理装置10が複数の装置により構成されていてもよい。また、情報処理装置10は、クライアント装置(スマートフォン、タブレット端末、PC(Personal Computer)、等)により実現されてもよいし、ネットワーク上のサーバにより実現されてもよい。
 <<3.動作処理>>
 続いて、本実施形態による情報処理システムの動作処理について図面を用いて具体的に説明する。
  <3-1.全体の流れ>
 まず、図3を参照して本実施形態による出力制御処理について説明する。図3は、本実施形態による出力制御処理を示すフローチャートである。
 図3に示すように、まず、情報処理装置10は、センサ11からセンサデータを取得し(ステップS103)、次いで、コンテンツ情報を取得する(ステップS106)。センサデータの取得は、センサ11から継続的に取得してもよいし、コンテンツ情報を取得した際に取得するようにしてもよい。コンテンツ情報の取得は、何らかの形でコンテンツを人に伝えるトリガが発動された際(メッセージの受信、電話の着信、プッシュ通知、インターフォン(訪問者)、ユーザによる出力指示等)、当該コンテンツの属性等の情報を外部装置または記憶部130から取得する。
 次に、情報処理装置10の認識部101は、空間内に存在する各ユーザの位置や視線方向等の人に関する認識処理(ステップS109)、空間内における平面検出や照度、音場等、環境に関する認識処理(ステップS112)、および空間内に存在する出力装置12の形態や出力位置、状態等の機器に関する認識処理(ステップS115)を行う。
 次いで、コンテンツ解析部102は、コンテンツのフォーマットや対象者、作業の有無、および重要性等のコンテンツ解析を行う(ステップS118)。
 次に、要素処理部103は、出力方式を決定するための要素算出を行い(ステップS121)、算出した要素に基づいて要素のスコア化を行う(ステップS124)。
 次いで、要素処理部103は、コンテンツ解析結果に基づいて、各要素スコアの重み付け処理を行う(ステップS127)。
 続いて、出力方式決定部104は、要素スコアに基づいて環境に応じた最適な出力方式を決定し(ステップS130)、出力制御部105は、決定された出力方式に従ってコンテンツの出力制御を行う(ステップS133)。
 以上、本実施形態による情報処理システムの全体の流れについて図3を参照して説明した。続いて、上述した各ステップにおける処理について詳細に説明する。
  <3-2.認識処理>
  (3-2-1.人認識処理)
 人認識処理では、センサデータに基づいて、空間内に存在する1以上のユーザの位置や視線方向、個人の特定、姿勢認識、行動認識等を行う。図4は、本実施形態による人認識処理について説明する図である。認識部101は、図4に示すように、空間S内に複数のユーザ(ユーザA、ユーザB)がいる場合に、各ユーザの位置や視界ベクトルV(視線方向)を3次元座標位置(x,y,z)で取得し得る。また、認識部101は、各ユーザの状態(姿勢、行動)も取得し得る。
 ここで、図5に、人認識処理の出力結果例を示す。認識部101は、例えば図5に示すように、各ユーザの位置座標、視界ベクトル、姿勢、行動等を取得し得る。各ユーザの位置座標は、例えば各ユーザが所有しているスマートフォンやスマートウォッチ、ARグラス等から位置情報を取得して算出してもよい。なお空間Sの認識(空間の3次元形状の把握)も認識部101により行われ得る。例えば認識部101は、センサデータに基づいて周辺空間における物体情報を取得し(物体認識)、空間内のレイアウトを認識し、その中で各ユーザの位置座標を把握する。なお位置座標の取得は、ユーザが所持する通信端末から送信される位置情報に限定されず、例えばユーザが再帰性反射機能を有したものを身に着けている場合に、光の反射により取得することも可能である。また、空間内の撮像画像に基づいてユーザの位置の特定、個人識別(顔認識)、顔の向きの推定を行うことも可能である。また、サーモカメラや超音波センサ、レーザー測量等を用いることも考え得る。
  (3-2-2.環境認識処理)
 環境認識処理では、ユーザがおかれている環境を認識することで、情報を伝達する際の最適な環境を把握することを可能とする。
 ここで、図6~図10を参照し、環境認識結果の一例について説明する。
 図6は、平面検出結果および投影不適切エリアの一例を示す図である。認識部101は、各種センサデータを解析し、図6左に示すように空間S内における平面領域P1~P7を検出したり、図6右に示すように投影不適切エリア21~23を判定したりする。平面検出結果および投影不適切エリアといった投影面の認識には、人認識処理で用いたレーザー測量(例えばLIDAR(Light Detection and Ranging)など)や、超音波センサデータ、距離センサデータ、撮像画像、物体認識結果等を使用してもよい。
 また、投影面の認識では、検出した各平面が、映像を投影するのに適している材質、色味、照度であるかも併せて認識してもよい。このような平面の色味や凹凸、明るさの認識は、出力がプロジェクタによる映像投影の場合はプロジェクタと平面(投影面)の位置関係によっては映像が暗く見え難くなったり、投影面の色味が投影する色と近い場合には視認性が低くなったり、ガラス等のそもそも映像を投影できない場合などを回避するためである。
 図7は、照度Mapおよび音場認識の一例を示す図である。図7左に示すように、照度Mapでは、空間S内における各箇所の照度を認識し、空間S内の明るい個所や暗い個所が把握される。各箇所の照度の認識には、カメラセンサや照度センサ等から取得したセンサデータを使用することが想定される。また、音場認識では、空間S内における静かな個所や騒音個所、音が聞こえ難い/聞こえ易い個所等が把握される。音場認識は、空間S内に設置されたスピーカの位置から音場を推定してもよいし、空間S内やウェアラブルデバイス(ARグラスやスマートフォンなど)等に設けられたマイクロホンやジャイロセンサ等から取得したセンサデータを使用してもよい。
 以上説明した投影面の認識や、音場、照度Mapの認識は、人認識処理と同様に、空間認識(空間の3次元形状の把握)と併せて行われ得る。なお、環境の状態があまり変化しない公共の施設や大型の構造物のみの場合は、予め空間の図面や空間の3次元形状の情報等を情報処理装置10に登録しておいてもよい。
 また、検出される平面内には障害物が複数個置いてある場合がある。例えば図8に示すように、平面領域50にコップや本等、複数の障害物51~53が置いてある場合、認識部101は、図9に示すように、障害物51~53のエリアを除いた複数の矩形を投影面候補61~66として検出してもよい。また、図10に示すように、障害物51~53の周囲を覆う範囲を投影面候補66として検出してもよい。
  (3-2-3.機器認識処理)
 機器認識処理では、空間内に存在する出力装置12の状態を把握する。ここで、図11に、出力装置12の検出結果の一例を示す。図11に示すように、例えば出力装置12の名称およびID毎に、出力装置12の形態(固定/駆動/ウェアラブル)、出力可能位置(出力可能な位置の数)、応答性(起動時間、情報提示に掛かる時間)、状態(スタンバイ/起動中/使用中)、出力種類(表示/音声/振動)といった情報が取得される。これらの情報は、出力装置12と通信接続して受信してもよいし、空間S内のカメラセンサやマイクロセンサ等から取得したセンサデータを解析して取得してもよい。
 「状態」や「応答性」も把握しておくことで、適切なタイミングで適切なデバイスを使用できないことを回避することが可能となる。例えば既に他のユーザに使用されている場合や、電源が入っておらず起動しなければならない場合(駆動型プロジェクタの場合、投影方向に振り向かせる駆動時間も掛かる)、すぐに情報提示を行うことができない。例えば歩いているユーザの周辺に情報提示しようとした場合、このような使用中の出力装置や応答に時間の掛かる出力装置では、ユーザが通り過ぎてしまって適切なタイミングで情報提示を行うことができない。
 また、機器の性能も予め把握することで、例えば環境の音量に対してスピーカの最大出力が足りない場合は、当該スピーカの使用を回避することができる。
  <3-3.コンテンツ解析処理>
 コンテンツ解析処理では、コンテンツがどのようなフォーマットか(動画、文章、音声、静止画等)、コンテンツを利用する対象者は誰か、ユーザの作業有無(目視確認のみのコンテンツか否か、表示されたコンテンツに対する所定のユーザ操作(例えば画像コンテンツに対する画像編集操作が発生するか否かや、当該コンテンツに対して直接的なタッチ操作やコンテンツから離れた地点における動作によるジェスチャ操作等どのような種類の操作が発生するか等)、重要度(緊急通知、通知、(常時)表示)等を解析する。これらはシステム側で属性が予め決められてもよいし、コンテンツに予め関連付けられたメタデータ(例えばコンテンツのフォーマットや対象、当該コンテンツに対する所定のユーザ操作、重要度に関するメタデータ)を特定することにより解析しても良いし、動画/静止画の場合に画像情報を学習して、重要度を自動で検出してもよい。
 ここで、図12に、コンテンツ解析結果の一例を示す。図12に示すように、コンテンツ毎に、対象者、要求、およびフォーマットが解析される。図12に示す「インターフォン」とは、玄関チャイムを鳴らすものであって、対象者は室内にいるユーザ全員(ユーザA、ユーザB)となる。また、作業の有無は、「通知」のため無しとなり、重要度は「ユーザAおよびユーザBに対する即時通知」となる。フォーマットとしては、例えば玄関チャイムを鳴らした者を撮像した撮像画像(静止画、フルカラー)となる。
 また、図12に示す「メッセージ」は、SNS(social networking service)における通知、メール、所定のアプリケーションからのプッシュ通知等、個人宛の情報であって、プライバシーを考慮して対象者は例えば「ユーザB」のみとなり、同空間内に居るユーザAは対象除外者となる。対象除外者を設定することで、通知の際はユーザBのみに見えるよう出力装置が決定される(例えばユーザが着用するARグラス、スマートフォン等)。
 タッチUI入力は、操作入力画面にタッチして何らかの情報を入力するものであって、例えば対象者以外にも見えてよい場合は、図12に示すように、対象除外者は特に設定されない。また、タッチUI入力はユーザによる能動的な入力作業が必要なものとなる。
  <3-4.要素処理>
 続いて、出力方式を決定するための要素処理について説明する。
 (3-4-1.要素算出)
 要素処理部103は、認識部101による認識結果に基づいて、複数のユーザや出力装置12毎の要素を算出する。図13および図14は、要素算出の一例を示す図である。
 例えば、要素処理部103は、人認識処理により検出した人の位置や視線方向(図4参照)と、環境認識処理により検出された平面(投影面)の位置(図6参照)に基づいて、図13に示すような人物に関する要素を算出する。また、要素処理部103は、環境認識処理により検出された平面(投影面)の位置(図6参照)や各出力装置12の検出結果(図11参照)に基づいて、図14に示すような出力装置に関する要素を算出する。なお、投影面は、図6に示すように複数検出され得るため、人と投影面との角度差や、投影面の形状や材質、環境照度等は、投影面毎に要素算出され得る。
 (3-4-2.要素のスコア化)
 次に、上記算出した各要素に基づいて、最適な出力位置(出力装置12、投影面の位置)が決定されるが、各要素の単位は各々異なるため比較し辛い。そこで、本実施形態では、各要素のスコア化を行い、出力装置12や投影面毎に1つのスコアを算出する。スコア化は、各要素を4~5段階にカテゴライズしたり、特定の変換式を作成して行ってもよい。以下、スコア化に用いる変換式の具体例について説明する。
 例えば、環境内の投影面の大きさのスコア(投影面スコアS_[surface])は、下記式1により求められる。
Figure JPOXMLDOC01-appb-M000001
 
 上記式1において、投影面スコアS_[surface]を求めるために、予め環境内で取り得る投影サイズの最大値、最小値をそれぞれS_[Max]、S_[Min]と定義する。また、要素別重みづけ係数k_[surface]は基本1とするが、コンテンツに応じて係数を変化させてもよい。詳細は後述する。このときk=1とすると、投影サイズxに対し、S_[surface]は0から1までの数値が得られる。このような手法を各要素に適用することで、各要素の単位を除いたスコアを算出することができる。
 また、スコア化の変換式は、人間の感覚の分布とスコアの分布が線形に比例しない場合がある。例として照度を挙げる。照度[ルクス]は、深夜帯が数十ルクス、部屋の照明をつけた際が200~300ルクス、明るい場所でも数百ルクス~千ルクスに対し、直射日光などが外から当たる際は数十万ルクスになる。よって、上記式1では、取りうるルクスの最大値S_[max]があまりにも巨大なため、深夜帯や部屋の照明を付けた際の変化量が僅かとなり、スコアの合計値を算出する際にはその要素の特性が失われてしまう。そこで,各要素の範囲が指数関数、対数のような人間の特性に対し偏った分布となるものは、上記式1に対し、累乗の指数nを追加した下記のような式2を使用してもよい.
Figure JPOXMLDOC01-appb-M000002
 
 これにより、照度の場合、n=0.25など1以下の値にすることで、値が小さい区間にて微小な変化にも対応したスコアが算出できる。また、値が大きい区間の微小な変化に対応する場合は、累乗の指数nを1以上に設定することで対応できる。ここで、図15に、指数nを変化させた際のグラフを示す。図15では、入力0から1までに対し、累乗指数nを0.25、1、4にした際の傾向がそれぞれ示される。なお、この指数は、出力位置毎に変化させず、環境ごとに固定して使用するが、別々の環境の場合はその環境に適した値に修正してもよい。
 また,各要素の中で、入力値の特性が数段階の変化しか持たないものも存在する。そのようなものは数段階のスコアにカテゴライズしてもよい。例として、年齢を18歳以下、18歳~40歳、40歳以上など3段階の値にしたい場合は、以下のような式3を使用してもよい。
Figure JPOXMLDOC01-appb-M000003
 
 (3-4-3.特定要素の重み付け)
 以上説明したように、投影面および出力装置12(すなわち出力位置)毎に1つのスコアが算出され、その中で一番得点の高いスコアを選択することで、出力位置を決定することができるが、さらにコンテンツの特性を踏まえることで最適なスコア化を実現することが可能となる。
 そこで、図12に示すようなコンテンツ解析結果に基づいて各要素の重み付けを行い、ユーザの意図を反映することを可能とする。
 ここで、下記表1に、特定のコンテンツにおける各要素kの重み付け係数の一例を示す。
Figure JPOXMLDOC01-appb-T000004
 各要素は、上記式1を採用した場合、例えば投影サイズは大きいほどスコアが高く、投影面とユーザの距離は離れているほどスコアが高くなる。ここで、上記表1に示すように、例えば映画など大画面で見たいビデオコンテンツでは、視聴距離が遠くても画面サイズを優先させるよう、k_[投影サイズ]とk_[投影面とユーザの距離]の重み付け係数を1以上にする。また、ユーザに入力をさせるTouch UIや文章などの細かな情報を表示する場合は、画面サイズよりも視聴距離が短い方を優先するため、k_[投影面とユーザの距離]の重み付けを-1以下にする。これにより、近いほど高スコアにすることができる。また、細かな情報でも文字などが視認できるよう、k_[投影面の解像度]を1以上にするようにしてもよい。
 このように、重み付け係数は、1以上でそれぞれ要素の特性をより影響度を大きくし、0に近付く程その要素の特性を無視することができる。また、符号を変えることでその特性を反転させることができる。
  <3-5.出力方式決定処理>
 続いて、出力方式決定部104による出力方式の決定処理について図16~図17を参照して説明する。出力方式決定部104は、重み付けされた各要素のスコアを統合し、各出力位置(例えば空間内における各投影面(平面領域P1~P7)や、表示装置12b、スピーカ12c、ウェアラブルデバイス12dの位置)に1つのスコアを算出する。また、複数の出力装置12と出力種類(例えば、表示、音声、振動等)の組み合わせから最適な出力方式を選択する。
 ここで、図16に、空間内における環境および人と出力装置の位置関係を示す。図16に示すように、例えば空間内にユーザAとユーザBが存在し、出力装置12としてスマートフォン5(ユーザBが所有)、ARグラス6(ユーザAが所有)、TV装置8、および駆動型プロジェクタ7が存在し、また、平面検出により平面領域(投影面)P1~P7が検出されている。
 このとき、出力装置12と、出力種類(表示、音声、振動)および出力位置(投影面、出力装置12の位置)別のスコアマトリクス表を図17に示す。駆動型プロジェクタ7の「表示」および「音声」出力位置はそれぞれ6か所可能であるため、平面領域P1~P6の6か所別にスコアが算出される。
 また、ARグラス6はユーザAに所有されるため、出力位置は「ユーザA」となる。また、スマートフォン5はユーザBに所有されるため、出力位置は「ユーザB」となる。
 図17に示す各スコアは、図13および図14に示すように算出した要素を、スコア化およびコンテンツに応じた重み付けを行ったものとする。例えば出力するコンテンツが、図12に示す「ID3、Touch UI、対象者:ユーザA」の場合、ユーザAの近くに存在する程スコアが高くなるよう重み付けされ、例えば駆動型プロジェクタの表示位置としてユーザAの近くに存在する平面領域P3(テーブル)の値が高くなる。出力方式決定部104は、最もスコアの高い出力装置12と出力種類の組み合わせを選択してもよいし、映像と音声を両方使用する際は、映像で使用する出力装置と音声出力で使用する出力装置は別のものであってもよい。
 また、複数のスコアが同列になった場合は、上記表1に示す各重み付け係数の絶対値が大きい要素を優先させるようにしてもよい。例えば出力するコンテンツが、図12に示す「ID3、Touch UI、対象者:ユーザA」の場合、投影サイズより投影面とユーザAとの距離や解像度を優先するため、複数の投影面(平面領域P1~P6)の中から、ユーザとの距離に基づいて選択することで、1つの候補を絞り込むことができる。
 また、出力方式決定部104は、複数人に対して大画面の映像を提示する場合など、複数のユーザを1つの画面に振り向かせる必要がある場合、各ユーザの状態に応じて個別に移動コストを算出してもよい。例えば、立っている人物は振り向くコストが低く、椅子に座っている人物は特に椅子が動かせない構造の場合は振り向くコストを重く見積もる等、人物の位置だけではなく、人物の状態や、人物と接している家具等も考慮して振り向きコストを算出し、出力位置を決定するようにしてもよい。また、年齢(子供か大人か)等のユーザ属性も考慮して振り向きコストを算出してもよい。
 また、1つのコンテンツは必ずしも1つの画面で提示する必要はなく、周辺の複数の投影面を組み合わせてコンテンツが要求するサイズを満たせようにしてもよい。
 また、ユーザが移動中における映像の提示は、ユーザの移動を妨げないように、かつ、ユーザの視線を逸らさないようにする必要がある。そのため、移動中の場合はユーザの視線による要素を重くしたり、ユーザの移動経路を予想することでそのルートに投影面が続いているかを確認する。予想した移動経路の途中で映像を提示できないエリアが断続的に存在する場合は、最適な環境でないものの、最初からスマートフォンやARグラスなどで連続してコンテンツを視聴できるようにしてもよい。
 また、コンテンツの特性として複数のカテゴリが混在する場合、コンテンツ内で特性が限定されるまで分割し、それぞれ別の投影面に表示してもよい。例えば、インターネット動画サイトでは、動画コンテンツと、そのコンテンツの説明文が存在するため、動画はより大きい面に表示させ、説明文はユーザ近くの解像度を高く映し出せる場所に表示してもよい。
 <<4.応用例>>
 本実施形態による情報処理システムは屋内の生活環境だけでなく、公共施設や、スポーツ観戦等にも応用することが可能である。例えば、大型施設であるクライミング競技大会の例について図18を参照して説明する。
 図18は、クライミング競技大会の人物配置について説明する図である。図18に示すように、例えばクライミング競技大会施設9では、正面にクライミングウォール91、その手前に関係者席92、これらを囲むように観客席93が配置されている。
 このとき、提示したいコンテンツとしては、選手に向けた協議に関わる表示(例えば、エラー、反則など)や、観客に向けた表示(例えば、選手の情報、得点、コメントなど)が想定される。本実施形態による情報処理システム1は、コンテンツ解析において、対象者および対象除外者を設定し、適宜最適な出力位置を決定することが可能となる。例えば選手に向けた協議に関わるコンテンツの表示は、選出に近い場所や選手が所有しているウェアラブルデバイス等から出力し、多数の観客に向けたコンテンツは、全員が見られるようより大きな投影面に投影するようにしてもよい。
 <<5.まとめ>>
 上述したように、本開示の実施形態による情報処理システムでは、空間内の環境に応じて情報出力の最適化を行うことが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上述した情報処理装置10、センサ11、または出力装置12に内蔵されるCPU、ROM、およびRAM等のハードウェアに、情報処理装置10、センサ11、または出力装置12の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識する認識部と、
 前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定する決定部と、
を備える、情報処理装置。
(2)
 前記コンテンツの関連情報の解析結果は、前記コンテンツのフォーマット、前記コンテンツを利用する対象者、前記コンテンツに対する作業、または前記コンテンツの重要度を含む、前記(1)に記載の情報処理装置。
(3)
 前記認識部は、空間内の状況として、空間内に存在するユーザに関する認識処理を行う、前記(2)に記載の情報処理装置。
(4)
 前記ユーザに関する認識処理として、ユーザの位置座標、視界方向、および状態を認識する、前記(3)に記載の情報処理装置。
(5)
 前記認識部は、空間内の状況として、空間内におけるユーザ周辺の環境に関する認識処理を行う、前記(2)~(4)のいずれか1項に記載の情報処理装置。
(6)
 前記環境に関する認識処理として、空間内から平面領域の検出、照度Mapの生成、および音場認識の少なくともいずれかを行う、前記(5)に記載の情報処理装置。
(7)
 前記認識部は、空間内の状況として、空間内に存在する出力装置に関する認識処理を行う、前記(2)~(6)のいずれか1項に記載の情報処理装置。
(8)
 前記決定部は、前記出力方式として、前記コンテンツの出力位置、出力装置、および出力パラメータを決定する、前記(2)~(7)のいずれか1項に記載の情報処理装置。
(9)
 前記出力位置は、投影表示装置からの投影出力の場合、空間内における平面領域の位置である、前記(8)に記載の情報処理装置。
(10)
 前記出力位置は、出力装置の設置位置である、前記(8)に記載の情報処理装置。
(11)
 前記出力位置は、出力装置がウェアラブルデバイスの場合、当該ウェアラブルデバイスを装着しているユーザの位置が相当する、前記(8)に記載の情報処理装置。
(12)
 前記決定部は、
  前記認識部による環境およびユーザに関する認識結果に基づいて算出され、前記コンテンツの関連情報の解析結果に応じて重み付けされた各要素のスコアに基づいて算出された出力位置毎のスコアに基づき、前記出力位置を決定する、前記(8)~(11)のいずれか1項に記載の情報処理装置。
(13)
 前記決定部は、
  前記コンテンツの解析結果に基づき、前記コンテンツがビデオの場合、画面サイズを優先して前記出力方式を決定する、前記(8)~(12)のいずれか1項に記載の情報処理装置。
(14)
 前記決定部は、
  前記コンテンツがタッチUIの場合、出力位置とユーザとの距離の近さを優先して前記出力方式を決定する、前記(8)~(13)のいずれか1項に記載の情報処理装置。
(15)
 前記決定部は、
  前記コンテンツが文字主体の場合、出力解像度を優先して前記出力方式を決定する、前記(8)~(14)のいずれか1項に記載の情報処理装置。
(16)
 前記決定部は、
  前記コンテンツが音声の場合、出力位置における音場の状況を優先して前記出力方式を決定する、前記(8)~(15)のいずれか1項に記載の情報処理装置。
(17)
 前記決定部は、
  前記コンテンツが画像であって、かつユーザが移動中の場合、当該ユーザの視線方向を優先して前記出力方式を決定する、前記(8)~(16)のいずれか1項に記載の情報処理装置。
(18)
 前記情報処理装置は、
 前記決定した出力方式で出力装置に出力させる情報を送信する送信部をさらに備える、前記(1)~(17)のいずれか1項に記載の情報処理装置。
(19)
 プロセッサが、
 コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識することと、
 前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定することと、
を含む、情報処理方法。
(20)
 コンピュータを、
 コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識する認識部と、
 前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定する決定部と、
として機能させるための、プログラム。
 1  情報処理システム
 10 情報処理装置
 11 センサ
 11a カメラ
 11b 距離センサ
 11c 照度センサ
 11d マイクロホン
 12 出力装置
 12a プロジェクタ
 12b 表示装置
 12c スピーカ
 12d ウェアラブルデバイス
 100 制御部100
 101 認識部
 102 コンテンツ解析部
 103 要素処理部
 104 出力方式決定部
 105 出力制御部
 110 通信部
 120 入力部
 130 記憶部

Claims (20)

  1.  コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識する認識部と、
     前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定する決定部と、
    を備える、情報処理装置。
  2.  前記コンテンツの関連情報の解析結果は、前記コンテンツのフォーマット、前記コンテンツを利用する対象者、前記コンテンツに対する作業、または前記コンテンツの重要度を含む、請求項1に記載の情報処理装置。
  3.  前記認識部は、空間内の状況として、空間内に存在するユーザに関する認識処理を行う、請求項2に記載の情報処理装置。
  4.  前記ユーザに関する認識処理として、ユーザの位置座標、視界方向、および状態を認識する、請求項3に記載の情報処理装置。
  5.  前記認識部は、空間内の状況として、空間内におけるユーザ周辺の環境に関する認識処理を行う、請求項2に記載の情報処理装置。
  6.  前記環境に関する認識処理として、空間内から平面領域の検出、照度Mapの生成、および音場認識の少なくともいずれかを行う、請求項5に記載の情報処理装置。
  7.  前記認識部は、空間内の状況として、空間内に存在する出力装置に関する認識処理を行う、請求項2に記載の情報処理装置。
  8.  前記決定部は、前記出力方式として、前記コンテンツの出力位置、出力装置、および出力パラメータを決定する、請求項2に記載の情報処理装置。
  9.  前記出力位置は、投影表示装置からの投影出力の場合、空間内における平面領域の位置である、請求項8に記載の情報処理装置。
  10.  前記出力位置は、出力装置の設置位置である、請求項8に記載の情報処理装置。
  11.  前記出力位置は、出力装置がウェアラブルデバイスの場合、当該ウェアラブルデバイスを装着しているユーザの位置が相当する、請求項8に記載の情報処理装置。
  12.  前記決定部は、
      前記認識部による環境およびユーザに関する認識結果に基づいて算出され、前記コンテンツの関連情報の解析結果に応じて重み付けされた各要素のスコアに基づいて算出された出力位置毎のスコアに基づき、前記出力位置を決定する、請求項8に記載の情報処理装置。
  13.  前記決定部は、
      前記コンテンツの解析結果に基づき、前記コンテンツがビデオの場合、画面サイズを優先して前記出力方式を決定する、請求項8に記載の情報処理装置。
  14.  前記決定部は、
      前記コンテンツがタッチUIの場合、出力位置とユーザとの距離の近さを優先して前記出力方式を決定する、請求項8に記載の情報処理装置。
  15.  前記決定部は、
      前記コンテンツが文字主体の場合、出力解像度を優先して前記出力方式を決定する、請求項8に記載の情報処理装置。
  16.  前記決定部は、
      前記コンテンツが音声の場合、出力位置における音場の状況を優先して前記出力方式を決定する、請求項8に記載の情報処理装置。
  17.  前記決定部は、
      前記コンテンツが画像であって、かつユーザが移動中の場合、当該ユーザの視線方向を優先して前記出力方式を決定する、請求項8に記載の情報処理装置。
  18.  前記情報処理装置は、
     前記決定した出力方式で出力装置に出力させる情報を送信する送信部をさらに備える、請求項1に記載の情報処理装置。
  19.  プロセッサが、
     コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識することと、
     前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定することと、
    を含む、情報処理方法。
  20.  コンピュータを、
     コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識する認識部と、
     前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定する決定部と、
    として機能させるための、プログラム。
PCT/JP2018/026110 2017-08-23 2018-07-11 情報処理装置、情報処理方法、およびプログラム WO2019039119A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP18848772.2A EP3674854A4 (en) 2017-08-23 2018-07-11 DEVICE AND PROCESS FOR PROCESSING INFORMATION, AND PROGRAM
JP2019537977A JP7211367B2 (ja) 2017-08-23 2018-07-11 情報処理装置、情報処理方法、およびプログラム
US16/639,358 US11417135B2 (en) 2017-08-23 2018-07-11 Information processing apparatus, information processing method, and program
CN201880053147.3A CN111052044B (zh) 2017-08-23 2018-07-11 信息处理装置、信息处理方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-160080 2017-08-23
JP2017160080 2017-08-23

Publications (1)

Publication Number Publication Date
WO2019039119A1 true WO2019039119A1 (ja) 2019-02-28

Family

ID=65438803

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/026110 WO2019039119A1 (ja) 2017-08-23 2018-07-11 情報処理装置、情報処理方法、およびプログラム

Country Status (5)

Country Link
US (1) US11417135B2 (ja)
EP (1) EP3674854A4 (ja)
JP (1) JP7211367B2 (ja)
CN (1) CN111052044B (ja)
WO (1) WO2019039119A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110568931A (zh) * 2019-09-11 2019-12-13 百度在线网络技术(北京)有限公司 交互方法、设备、系统、电子设备及存储介质
WO2020179275A1 (ja) * 2019-03-01 2020-09-10 ソニー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11417135B2 (en) * 2017-08-23 2022-08-16 Sony Corporation Information processing apparatus, information processing method, and program
US11234051B2 (en) 2019-01-04 2022-01-25 Apple Inc. Predictive media routing
US11295541B2 (en) * 2019-02-13 2022-04-05 Tencent America LLC Method and apparatus of 360 degree camera video processing with targeted view

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005313291A (ja) 2004-04-30 2005-11-10 Mitsubishi Heavy Ind Ltd ロボット行動とリンクした映像表示方法とその装置
JP2007210460A (ja) * 2006-02-09 2007-08-23 Nissan Motor Co Ltd 車両用表示装置および車両用映像表示制御方法
JP2009223061A (ja) * 2008-03-17 2009-10-01 Ricoh Co Ltd 表示制御システム、表示制御方法及び表示制御プログラム
JP2015052980A (ja) * 2013-09-09 2015-03-19 株式会社デンソー コンテンツ提供システム
JP2015145894A (ja) 2014-01-31 2015-08-13 キヤノン株式会社 投射型表示装置
WO2016075967A1 (ja) * 2014-11-11 2016-05-19 ソニー株式会社 情報処理装置及び情報処理方法、並びにコンピューター・プログラム
US20160182613A1 (en) * 2014-12-18 2016-06-23 Google Inc. Methods, systems, and media for controlling information used to present content on a public display device
JP2017049474A (ja) * 2015-09-03 2017-03-09 シャープ株式会社 制御装置、出力装置、および出力方法
WO2017043145A1 (ja) * 2015-09-07 2017-03-16 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2017122363A1 (ja) * 2016-01-15 2017-07-20 楽天株式会社 コンテンツ投影制御装置、コンテンツ投影制御方法及びプログラム

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5597223A (en) * 1993-12-27 1997-01-28 Kabushiki Kaisha Toshiba Display apparatus
US8089423B1 (en) 2000-05-12 2012-01-03 Harris Scott C Automatic configuration of multiple monitor systems
TW557069U (en) * 2001-07-13 2003-10-01 Winbond Electronics Corp Multi-media display device suitable for digital TV and capable of showing many kinds of program
JP4323742B2 (ja) * 2001-12-28 2009-09-02 キヤノン株式会社 画像処理装置および画像処理装置の制御方法およびプログラム
JP4011949B2 (ja) * 2002-04-01 2007-11-21 キヤノン株式会社 マルチ画面合成装置及びデジタルテレビ受信装置
US20040004599A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for facilitating playback of media
CN1268122C (zh) * 2002-07-23 2006-08-02 精工爱普生株式会社 显示方法及投影机
JP3880561B2 (ja) 2002-09-05 2007-02-14 株式会社ソニー・コンピュータエンタテインメント 表示システム
JP4384179B2 (ja) * 2004-10-26 2009-12-16 パナソニック株式会社 情報出力装置、情報出力制御方法、情報出力制御プログラム
JP4111190B2 (ja) * 2004-12-24 2008-07-02 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置
US20070100653A1 (en) * 2005-11-01 2007-05-03 Jorey Ramer Mobile website analyzer
JP2007114594A (ja) * 2005-10-21 2007-05-10 Seiko Epson Corp 画像形成装置およびトナー消費量算出方法
US7835079B2 (en) * 2007-03-06 2010-11-16 Ostendo Technologies, Inc. Micro-structure based screen system for use in rear projection array display systems
AU2014200913A1 (en) * 2008-06-09 2014-03-13 Vidyo, Inc. Improved view layout management in scalable video and audio communication systems
US8955984B2 (en) * 2008-06-17 2015-02-17 The Invention Science Fund I, Llc Projection associated methods and systems
KR20130009754A (ko) * 2010-02-01 2013-01-23 점프탭, 인크. 통합형 광고 시스템
IT1399695B1 (it) * 2010-04-14 2013-04-26 Sisvel Technology Srl Metodo per visualizzare un flusso video secondo un formato personalizzato.
US9723293B1 (en) * 2011-06-21 2017-08-01 Amazon Technologies, Inc. Identifying projection surfaces in augmented reality environments
CN103477317B (zh) * 2012-03-14 2017-05-17 松下电器(美国)知识产权公司 内容显示处理装置、内容显示处理方法以及集成电路
JP5682585B2 (ja) * 2012-03-16 2015-03-11 株式会社リコー 情報処理装置、情報処理システム、および情報処理方法
US20130304587A1 (en) * 2012-05-01 2013-11-14 Yosot, Inc. System and method for interactive communications with animation, game dynamics, and integrated brand advertising
US10649613B2 (en) * 2012-06-07 2020-05-12 Wormhole Labs, Inc. Remote experience interfaces, systems and methods
KR101989893B1 (ko) 2012-10-29 2019-09-30 엘지전자 주식회사 헤드 마운트 디스플레이 및 이를 이용한 오디오 신호 출력 방법
WO2014192415A1 (ja) * 2013-05-31 2014-12-04 ソニー株式会社 情報処理装置および情報処理方法
KR20150008733A (ko) * 2013-07-15 2015-01-23 엘지전자 주식회사 안경형 휴대기기 및 그의 정보 투사면 탐색방법
US9535578B2 (en) * 2013-10-18 2017-01-03 Apple Inc. Automatic configuration of displays for slide presentation
US9727134B2 (en) 2013-10-29 2017-08-08 Dell Products, Lp System and method for display power management for dual screen display device
US9524139B2 (en) 2013-10-29 2016-12-20 Dell Products, Lp System and method for positioning an application window based on usage context for dual screen display device
US20150149305A1 (en) * 2013-11-26 2015-05-28 Jack Ke Zhang Triggered presentation of third-party interactive content channels on electronic devices
WO2015098188A1 (ja) * 2013-12-27 2015-07-02 ソニー株式会社 表示制御装置、表示制御方法及びプログラム
KR102135367B1 (ko) * 2014-01-23 2020-07-17 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
US10469428B2 (en) * 2014-02-21 2019-11-05 Samsung Electronics Co., Ltd. Apparatus and method for transmitting message
US10264211B2 (en) * 2014-03-14 2019-04-16 Comcast Cable Communications, Llc Adaptive resolution in software applications based on dynamic eye tracking
US9710772B1 (en) * 2014-06-06 2017-07-18 Amazon Technologies, Inc. Using sensor data to modify attributes of information presented to a user
US10297179B2 (en) * 2015-02-03 2019-05-21 Sony Corporation Information processing apparatus, information processing method, and program
US10575008B2 (en) * 2015-06-01 2020-02-25 Apple Inc. Bandwidth management in devices with simultaneous download of multiple data streams
US9953443B2 (en) * 2016-02-03 2018-04-24 Daniel Limberger Interactive, adaptive level-of-detail in 2.5D treemaps
US20170289596A1 (en) * 2016-03-31 2017-10-05 Microsoft Technology Licensing, Llc Networked public multi-screen content delivery
JP6788996B2 (ja) * 2016-04-27 2020-11-25 ラピスセミコンダクタ株式会社 半導体装置、映像表示システムおよび映像信号出力方法
DE112016006894T5 (de) * 2016-05-24 2019-02-14 Motorola Solutions, Inc. Überwachungskamera in einem Netzwerk zur Verbesserung der situationsabhängigen Erkenntnisse eines Benutzers
US10963044B2 (en) * 2016-09-30 2021-03-30 Intel Corporation Apparatus, system and method for dynamic modification of a graphical user interface
US11385930B2 (en) * 2017-06-21 2022-07-12 Citrix Systems, Inc. Automatic workflow-based device switching
US11417135B2 (en) * 2017-08-23 2022-08-16 Sony Corporation Information processing apparatus, information processing method, and program
US10904615B2 (en) * 2017-09-07 2021-01-26 International Business Machines Corporation Accessing and analyzing data to select an optimal line-of-sight and determine how media content is distributed and displayed

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005313291A (ja) 2004-04-30 2005-11-10 Mitsubishi Heavy Ind Ltd ロボット行動とリンクした映像表示方法とその装置
JP2007210460A (ja) * 2006-02-09 2007-08-23 Nissan Motor Co Ltd 車両用表示装置および車両用映像表示制御方法
JP2009223061A (ja) * 2008-03-17 2009-10-01 Ricoh Co Ltd 表示制御システム、表示制御方法及び表示制御プログラム
JP2015052980A (ja) * 2013-09-09 2015-03-19 株式会社デンソー コンテンツ提供システム
JP2015145894A (ja) 2014-01-31 2015-08-13 キヤノン株式会社 投射型表示装置
WO2016075967A1 (ja) * 2014-11-11 2016-05-19 ソニー株式会社 情報処理装置及び情報処理方法、並びにコンピューター・プログラム
US20160182613A1 (en) * 2014-12-18 2016-06-23 Google Inc. Methods, systems, and media for controlling information used to present content on a public display device
JP2017049474A (ja) * 2015-09-03 2017-03-09 シャープ株式会社 制御装置、出力装置、および出力方法
WO2017043145A1 (ja) * 2015-09-07 2017-03-16 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2017122363A1 (ja) * 2016-01-15 2017-07-20 楽天株式会社 コンテンツ投影制御装置、コンテンツ投影制御方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3674854A4

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020179275A1 (ja) * 2019-03-01 2020-09-10 ソニー株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN110568931A (zh) * 2019-09-11 2019-12-13 百度在线网络技术(北京)有限公司 交互方法、设备、系统、电子设备及存储介质
JP2021043936A (ja) * 2019-09-11 2021-03-18 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド インタラクション方法、機器、システム、電子機器及び記憶媒体

Also Published As

Publication number Publication date
US11417135B2 (en) 2022-08-16
CN111052044B (zh) 2022-08-02
EP3674854A1 (en) 2020-07-01
EP3674854A4 (en) 2020-08-12
JPWO2019039119A1 (ja) 2020-07-30
CN111052044A (zh) 2020-04-21
US20200250412A1 (en) 2020-08-06
JP7211367B2 (ja) 2023-01-24

Similar Documents

Publication Publication Date Title
JP7211367B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US11748056B2 (en) Tying a virtual speaker to a physical space
US10016334B2 (en) System and method to assist users having reduced visual capability utilizing lighting device provided information
US20180314339A1 (en) Wearable glasses and method of providing content using the same
US9798143B2 (en) Head mounted display, information system, control method for head mounted display, and computer program
US11631380B2 (en) Information processing apparatus, information processing method, and recording medium
US10930249B2 (en) Information processor, information processing method, and recording medium
JP6492332B2 (ja) 情報処理装置、情報処理方法及びプログラム
EP3616210A1 (en) Wearable apparatus and methods for analyzing images
JP6705124B2 (ja) 頭部装着型表示装置、情報システム、頭部装着型表示装置の制御方法、および、コンピュータープログラム
US11284047B2 (en) Information processing device and information processing method
CN112106016A (zh) 信息处理装置、信息处理方法和记录介质
JP2018120390A (ja) 情報処理装置、情報処理方法およびプログラム
US20210211621A1 (en) Information processing apparatus, information processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18848772

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019537977

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018848772

Country of ref document: EP

Effective date: 20200323