WO2022224586A1 - Information processing device, information processing method, program, and information recording medium - Google Patents

Information processing device, information processing method, program, and information recording medium Download PDF

Info

Publication number
WO2022224586A1
WO2022224586A1 PCT/JP2022/008277 JP2022008277W WO2022224586A1 WO 2022224586 A1 WO2022224586 A1 WO 2022224586A1 JP 2022008277 W JP2022008277 W JP 2022008277W WO 2022224586 A1 WO2022224586 A1 WO 2022224586A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
orientation
virtual
user
processing device
Prior art date
Application number
PCT/JP2022/008277
Other languages
French (fr)
Japanese (ja)
Inventor
雅俊 浜中
Original Assignee
国立研究開発法人理化学研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立研究開発法人理化学研究所 filed Critical 国立研究開発法人理化学研究所
Priority to JP2023516316A priority Critical patent/JPWO2022224586A1/ja
Publication of WO2022224586A1 publication Critical patent/WO2022224586A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present invention relates to an information processing device, an information processing method, a program, and an information recording medium for estimating the orientation of a user's face in the real world and outputting information according to this.
  • the sound source selection device disclosed in Patent Document 1 is headphones and a virtual sound source providing means for providing a plurality of virtual sound sources localized via the headphones to the listener wearing the headphones; virtual sound source selection means for selecting one virtual sound source from the plurality of virtual sound sources;
  • the virtual sound source providing means is localized sound source arrangement pattern storage means for storing a plurality of localized sound source arrangement patterns of the plurality of virtual sound sources to be provided to the listener; arrangement pattern selection means for selecting a desired pattern from the plurality of localized sound source arrangement patterns according to the listener's selection action; mixing means for providing the plurality of virtual sound sources according to the localized sound source arrangement pattern; a head movement detection sensor mounted on the headphones and detecting movement of the listener's head; head motion determination means for determining the motion of the head based on the output of the head motion detection sensor;
  • the arrangement pattern selection means selects another localized sound source arrangement pattern from the localized sound source arrangement pattern storage means
  • the front camera sometimes called the in-camera, front camera, or front camera.
  • a rear camera sometimes called a rear camera
  • a head movement detection sensor included in headphones is used to detect movement of the user's head.
  • audio equipment such as headphones and earphones used with smartphones and tablets have noise canceling functions and external audio capture functions, they are becoming popular, but most of them do not have head movement detection sensors. is.
  • the present invention is intended to solve the above problems, and includes an information processing apparatus, an information processing method, a program, and an information recording medium for estimating the orientation of a user's face in the real world and outputting information according to the orientation. Regarding.
  • An information processing apparatus has a camera, detecting a first orientation of the information processing device in a first coordinate system fixed in the real world; If the photographed image taken by the camera contains the face image of the user, the second coordinate system of the user's face in the second coordinate system fixed to the information processing device can be obtained from the photographed image and the face image. Estimate the orientation, calculating a third orientation of the user's face in the first coordinate system from the detected first orientation and the estimated second orientation; Information corresponding to the calculated third orientation is output.
  • an information processing device an information processing method, a program, and an information recording medium for estimating the direction of a user's face in the real world and outputting information according to this.
  • FIG. 1 is an explanatory diagram showing a schematic configuration of an information processing device according to an embodiment of the present invention
  • FIG. 4 is a flow chart showing control of an information processing method executed by the information processing apparatus according to the embodiment of the present invention
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing-substituting photograph showing, in grayscale, a display example of a stage in a virtual concert venue by the information processing apparatus according to the embodiment of the present invention.
  • FIG. 10 is a drawing-substituting photograph showing a display example of a stage in a virtual concert venue by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 3 is a drawing-substitute photograph showing, in monochrome binary, a display example of a virtual room in which a plurality of displays are arranged by the information processing apparatus according to the embodiment of the present invention.
  • FIG. 4 is a drawing-substituting photograph showing, in grayscale, a display example of a virtual room in which a plurality of moving image contents are arranged by the information processing apparatus according to the embodiment of the present invention
  • 10 is a drawing-substituting photograph showing, in monochrome binary, a display example of a virtual room in which a plurality of pieces of moving image content are arranged by the information processing apparatus according to the embodiment of the present invention.
  • 10 is a drawing-substituting photograph showing, in grayscale, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention.
  • 10 is a drawing-substituting photograph showing, in monochrome binary, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention.
  • 10 is a drawing-substituting photograph showing, in grayscale, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention.
  • 10 is a drawing-substituting photograph showing, in monochrome binary, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention.
  • 10 is a drawing-substituting photograph showing, in grayscale, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention.
  • FIG. 10 is a drawing-substituting photograph showing, in monochrome binary, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention.
  • 1 is an explanatory diagram showing a schematic configuration of an information processing device that processes an object of interest according to an embodiment of the present invention
  • FIG. 1 is an explanatory diagram showing a schematic configuration of an information processing device according to an embodiment of the present invention. An outline will be described below with reference to this figure.
  • the information processing apparatus 101 has a camera 151. As shown in FIG. It has a detection unit 111 , an estimation unit 112 , a calculation unit 113 and an output unit 114 . Also, the audio equipment 152, the screen 153 of the display, etc. can be employed as the output destination of the information.
  • the information processing apparatus 101 is typically realized by executing a program on a portable computer such as a smart phone or a tablet.
  • the computer is connected to various output devices and input devices, and exchanges information with these devices.
  • Programs run on a computer can be distributed and sold by a server to which the computer is communicatively connected, as well as CD-ROM (Compact Disk Read Only Memory), flash memory, EEPROM (Electrically Erasable Programmable ROM). After recording on a non-transitory information recording medium such as the above, it is also possible to distribute and sell the information recording medium.
  • CD-ROM Compact Disk Read Only Memory
  • flash memory flash memory
  • EEPROM Electrically Erasable Programmable ROM
  • the program is installed on a computer's hard disk, solid state drive, flash memory, EEPROM, or other non-temporary information recording medium. Then, the computer realizes the information processing apparatus according to the present embodiment.
  • a computer's CPU Central Processing Unit
  • RAM Random Access Memory
  • OS Operating System
  • Various information required in the process of program execution can be temporarily recorded in the RAM.
  • the computer has a GPU (Graphics Processing Unit) for performing various image processing calculations at high speed.
  • GPU Graphics Processing Unit
  • libraries such as GPU and TensorFlow, it becomes possible to use learning functions and classification functions in various artificial intelligence processing under the control of CPU.
  • the information processing apparatus 101 of the present embodiment uses a dedicated electronic circuit instead of implementing the information processing apparatus of the present embodiment using a computer on which software is installed.
  • a portable camera, a portable electronic game device, or the like can be used as the information processing device 101 .
  • the program can also be used as material for generating wiring diagrams, timing charts, etc. of electronic circuits.
  • an electronic circuit that satisfies the specifications defined in the program is configured by FPGA (Field Programmable Gate Array) or ASIC (Application Specific Integrated Circuit), and the electronic circuit performs the functions defined in the program.
  • the information processing apparatus of this embodiment is realized by functioning as a dedicated device that fulfills the functions.
  • the information processing apparatus 101 will be described below assuming that it is implemented by a computer executing a program.
  • the information processing apparatus 101 can be connected wirelessly or by wire to audio equipment 152 such as headphones, earphones, neck speakers, bone conduction speakers, hearing aids, etc., as information output destinations.
  • audio equipment 152 such as headphones, earphones, neck speakers, bone conduction speakers, hearing aids, etc.
  • These audio devices 152 desirably have an external audio capture function.
  • the detection unit 111 detects the first orientation of the information processing device 101 in the first coordinate system fixed to the real world.
  • the orientation (first orientation) of the information processing device 101 in the first coordinate system fixed in the real world is detected via a geomagnetic sensor, an inertial sensor for detecting gravity, an acceleration sensor, a gyro sensor, etc., which the information processing device 101 has. can do.
  • the position (first position) of the information processing device 101 in the first coordinate system can also be detected by a geolocation detection function using GPS, Wifi access points, Bluetooth beacons, or the like.
  • estimating section 112 calculates the face image of the user in the second coordinate system fixed to information processing device 101 from the captured image and the face image. Estimate the second orientation of the face.
  • the information processing apparatus 101 extracts the face image drawn in the captured image by image recognition, recognizes the characteristic parts such as the eyes, nose, mouth, etc. Then, based on the face image, the information processing apparatus 101 Estimate the relative user face orientation (second orientation). A general face tracking technique can be applied to this process.
  • the position (second position) of the user's face relative to the information processing device 101 may be further estimated based on the position and size of the face image in the captured image.
  • calculation section 113 calculates a third orientation of the user's face in the real world (first coordinate system) from the detected first orientation and the estimated second orientation.
  • the directional transformation between the first coordinate system and the second coordinate system can be uniquely defined based on the first orientation. Further, when the first position is detected, it is possible to uniquely determine coordinate transformation of coordinate values between the first coordinate system and the second coordinate system based on the first orientation and the first position. .
  • the output unit 114 outputs information corresponding to the calculated third orientation.
  • the audio equipment 152 worn by the user or the screen 153 of the display can be adopted.
  • the information to be output is the voice mixed by setting one or more virtual sound sources in the real world and changing the intensity, tone, phase, etc. of the waveform associated with each virtual sound source according to the third direction. Information can be employed.
  • the ratio of the amplification factor based on the angle difference for each virtual sound source is maintained so that the average sound pressure does not change significantly when it is assumed that the face is rotated once.
  • the virtual direction associated with the virtual sound source is a virtual position where the virtual sound source is located in the first coordinate system; a first orientation and a first position detected by the detection unit 111; , the same processing as the former may be performed after calculation.
  • the third position can be obtained by coordinate-transforming the relative face position (second position) with respect to the information processing device 101 obtained by face tracking into a coordinate system fixed to the information processing device 101 .
  • the orientation of the user's face may be displayed on the display screen 153 like a compass. If a display mode is adopted in which the direction of the "needle" of the "compass” changes in accordance with the change in direction when the user changes the direction of the face, the range in which the screen 153 of the display falls within the user's field of vision. If it is within, the user can confirm that the present embodiment is operating properly.
  • direct sound and reverb sound may be generated based on the waveform of the virtual sound source, and the mixing ratio of the two may be changed according to the angular difference. If the angle difference is small, the user can be made to feel that the virtual sound source is being heard loudly from the front side by increasing the ratio of the direct sound. This is called echo correction.
  • the central sound range of the virtual sound source in the front is obtained, and for the virtual sound sources in other directions, the obtained central sound range is weakened by an equalizer to reduce the frequency fogging and reduce the virtual sound source in the front side. It is also possible to let the user listen by floating it. This is called center range correction.
  • saturation correction For the virtual sound source on the front side, it is possible to add saturation that strengthens the overtone components to make the sound brilliant, and make the virtual sound source on the front side stand out for the user to listen to. This is called saturation correction.
  • the camera 151 of the information processing apparatus 101 is a so-called front camera, its photographing direction matches the display direction of the screen 153 of the display and faces the direction in which the user is assumed to be positioned.
  • the user's face should be captured by the camera 151 .
  • correction may be used as an average default value.
  • dramatic correction may be made to emphasize the virtual sound source in front.
  • the user's face image and the user's hand image are image-recognized, and the position of the user's face (for example, the center position of the face) and the position of the user's hand (for example, the position of the tip of the little finger) ) and, after estimating, depending on the distance (closeness) between the two, the intensity of the dramatic correction can be changed, thereby easily responding to the gesture of listening.
  • the position of the user's hand image in the photographed image for example, the position of the tip of the little finger
  • the representative point of the photographed image for example, the center position of the photographed image, the center position of the face image, etc.
  • the output of the virtual sound source has directivity linked to this.
  • the external sound enters the user's ear as it is, such as a speaker
  • the environmental sound and the virtual sound are mixed without contradiction according to the direction of the user's face and provided to the user. It is possible to provide voice augmented reality.
  • FIG. 2 is a flow chart showing control of an information processing method executed by the information processing apparatus according to the embodiment of the present invention. Description will be made below with reference to this figure. It should be noted that each step of the following processing can be omitted as appropriate depending on the mode of application.
  • the information processing device 101 detects a first orientation (or first position) of the information processing device 101 in the real world (first coordinate system) via a geomagnetic sensor, a gyro sensor, an acceleration sensor, etc. (step S202). ).
  • Information processing device 101 then repeats the following process for each of the virtual sound sources (step S207).
  • the information processing device 101 acquires the virtual direction of the virtual sound source in the first coordinate system (step S208).
  • This virtual orientation may be determined in advance, or calculated based on the virtual position of the virtual sound source in the first coordinate system and the first position of the information processing device 101 (or the third position of the user's face).
  • the amplification factor may be further corrected according to the distance (closeness) between the virtual position of the virtual sound source and the first position (or third position). That is, the smaller the distance, the larger the amplification factor, and the like.
  • the information processing device 101 further corrects the new parameters for reproduction of all virtual sound sources based on their mutual relationships (step S211).
  • This correction includes, for example, center range correction for emphasizing the virtual sound source on the front side compared to other virtual sound sources, and power correction for maintaining the force of the entire virtual sound source as it is.
  • Step S212-S214 the process returns to step S202.
  • the result of detection of the orientation of the user's face and the result of detection of the tip of the little finger are displayed in a window. Until the user gets accustomed to the operation, he or she can check and practice gestures while holding a position where the camera 151 captures the user's face by looking at the detection results.
  • the window By tapping or sliding the on/off button to the left of the play button, the window can be closed as shown in Figures 5 and 6.
  • the window can be displayed again by tapping or sliding the same on/off button again.
  • musical instrument icons are arranged in a circle. This represents the orientation of the virtual sound source part placed in the virtual space.
  • the musical instruments are arranged at equal intervals, but they do not necessarily have to be evenly spaced and circular, and can be arranged arbitrarily.
  • the avatar of the operating user At the center of the circle is the avatar of the operating user, and the direction of the white arrow indicates the direction of the user's face.
  • the musical instrument icon at the tip of the white arrow corresponds to the virtual sound source positioned in front of the user.
  • the white arrow is pointing in a default direction (for example, upward), and if the user changes the direction of the face or moves the position of the smartphone, the direction of the white arrow changes accordingly.
  • Tapping on the avatar resets the direction of the white arrow and the placement (distance) of the instrument.
  • Two sliders are lined up at the bottom of the screen 153 .
  • the upper slider represents the distance to the musical instruments arranged in a circle in the virtual space, and the distance can be changed by moving the slider. In the arrangement shown in Figures 3 and 4 the distance is 20 meters, in Figures 9 and 10 it is 10 meters and in Figures 11 and 12 it is 30 meters. The distance from the avatar to the musical instrument shown on screen 153 also changes according to this distance.
  • the lower slider is linked to the degree of focusing, that is, the angle of the sector.
  • the degree of focusing can be changed by gestures, but it can also be adjusted by moving the slider directly.
  • the master volume (the default value of the mixer gain) for each instrument.
  • the information processing apparatus 101 multiplies the master volume by a multiplier corresponding to the angle difference, thereby once calculating the amplification factor used for mixing, and then performing correction so that the overall power becomes substantially constant.
  • the boost mode is set.
  • the boost mode when adjusting the amplification factor to keep the overall power constant, it is possible to emphasize the instrument in front by doubling the strength of the virtual sound source in front.
  • Figures 17 and 18 are examples of output when the same functions as the above smartphone are implemented on a tablet.
  • an augmented reality image is displayed overlaid with a video of a virtual person playing a virtual musical instrument in an uninhabited park captured by a rear camera.
  • the present embodiment can also be provided for virtual reality instead of augmented reality.
  • 19 and 20 provide the user with a virtual reality as if players of virtual musical instruments were arranged in a circle on the stage of a virtual concert venue and the user was placed in the center.
  • a virtual object is created by composing an image of playing a musical instrument.
  • a performance sound of a musical instrument is associated with each virtual object as a virtual sound source, and the virtual sound source is mixed and output in the same manner as in the above embodiment.
  • the user can have the experience of being the conductor of a virtual concert.
  • the user selects the avatar facing the user, i.e., the avatar positioned in front of the user, among the avatars of a plurality of performers, as the target of attention by using a gesture of listening. It can be identified as an object of interest.
  • the virtual object displayed in the center of the screen 153 becomes the target object.
  • the center of the screen is displayed.
  • the object of interest is the virtual object displayed in the direction in which the face is directed, not the virtual object displayed in the direction. That is, the pronunciation object that has the smallest angle difference between the virtual direction associated with the virtual sound source and the third direction and is equal to or less than the threshold angle is specified as the object of interest.
  • the user may be able to change the position and orientation of the object of interest.
  • the screen 153 when the screen 153 is configured as a touch screen, when the touch screen is touched and a tracing operation is performed, the object of interest is moved along the locus of the same shape obtained by translating the locus of the tracing operation. Also good.
  • the target object since the target object is specified, it is not necessary to touch the target object itself displayed on the screen 153, and the tracing operation can be performed on the screen 153 other than the place where the target object is displayed, The position of the target object can be changed without hiding the target object with the finger.
  • the virtual video played on each virtual display together with the sound functioning as the virtual sound source corresponds to the virtual object.
  • the user it is also possible for the user to view and compare more than 10 virtual moving images in order. That is, the virtual moving images can be exchanged on a virtual display arranged at a position invisible to the user in the virtual space.
  • the user can view the virtual moving images in order by rotating his or her body in the real space while holding the information processing device 101 .
  • the virtual display may be rotated around the user in the virtual space.
  • the user turns his face to one of the virtual moving images displayed on the screen 153 and makes a gesture such as listening, or keeps turning his face for the duration of the threshold time. , etc., the virtual moving image can be specified as the target object.
  • FIGS. 25 and 26 show how the virtual video drawn in the center of the screen in FIGS. 23 and 24 is identified as the object of interest, enlarged in the center of the screen, and the video and audio of the target object being played. .
  • the user can cancel the identification as the object of interest by making a gesture of spreading out his/her hand and bringing it closer to the camera 151 of the information processing device 101, by tapping the touch screen for a short period of time, or the like.
  • the virtual moving image surrounding the user in the virtual space is rotated around the user so that the virtual moving image whose identification has been canceled is positioned where the user's head is facing. It's good as a thing. That is, (the virtual orientation of) the virtual object placed in the virtual space around the virtual starting point in the virtual space so that the virtual orientation of the virtual object whose identification has been canceled matches the calculated third orientation. will be rotated.
  • the information processing apparatus 101 has a specifying unit 301 and a canceling unit 302 in addition to the configuration disclosed in FIG.
  • the identifying unit 301 and the canceling unit 302 acquire various kinds of information from the detecting unit 111, the estimating unit 112, and the calculating unit 113, and control the output unit 114 accordingly.
  • Each sounding object can be, for example, a virtual object in the above embodiment, which corresponds to an avatar of a performer playing a virtual musical instrument or a virtual display playing back a virtual moving image.
  • Each pronunciation object is associated with a virtual sound source.
  • the virtual sound source corresponds to the performance sound output by the virtual musical instrument or the sound reproduced together with the virtual moving image.
  • the appearance of the virtual world displayed on the screen 153 changes accordingly.
  • the screen 153 of the information processing device 101 functions as a "window" for looking into the virtual space.
  • the cancellation unit 302 of the information processing device 101 determines whether or not the cancellation condition is satisfied, and performs processing accordingly.
  • a specific condition is a condition for specifying one of a plurality of sounding objects as an attention object by the user
  • a cancellation condition is a condition for canceling identification as an attention object.
  • a gesture of listening closely, or continuing to face a specific sounding object for a predetermined period of time or longer is adopted as the specific condition.
  • a gesture of bringing the screen closer to 151, tapping on the touch screen that constitutes the screen 153, etc. are employed, but other conditions can also be employed.
  • the identifying unit 301 determines that the specific condition is satisfied, the sounding object having the smallest angular difference between the virtual direction associated with the virtual sound source and the calculated third direction is selected by the user. identified as the object of interest by
  • the output unit 114 mixes the virtual sound source with an intensity corresponding to the angle difference between the virtual direction associated with the virtual sound source and the calculated third direction.
  • output unit 114 outputs the virtual sound source associated with the specified object of interest to another virtual sound source. Give priority to the sound source.
  • the performance sound of the performer's virtual musical instrument corresponding to the object of interest and the sound accompanying the virtual moving image are output with priority over other sounds.
  • priority includes, for example, setting the amplification factor of the virtual sound source of the target object to a predetermined constant and setting the amplification factor of the other virtual sound sources to zero (mute) or a small value.
  • the virtual moving image corresponding to the object of interest is displayed in a predetermined size in the center of the screen for highlighting.
  • the cancellation unit 302 cancels the identification as the object of interest when the cancellation condition is satisfied.
  • priority output of the virtual sound source and highlighting on the screen 153 are ended, and the output method described first is adopted.
  • the position of the virtual object placed in the virtual space can also be rotated around the viewpoint in the virtual space. That is, the information processing apparatus 101 rotates the virtual orientation of the sound object placed in the virtual space around the viewpoint position based on a gesture based on the user's hand image included in the captured image or a touch operation on the screen.
  • the position and orientation of the avatar can be edited by pinching the player's avatar or touching the screen 153 with a plurality of fingers and rotating the avatar. That is, while the object of interest is being specified, the information processing apparatus 101 determines the position or orientation of the object of interest in the virtual space based on a gesture based on the user's hand image included in the captured image or a touch operation on the screen. can be changed.
  • the information processing apparatus has a camera, a detection unit that detects a first orientation of the information processing device in a first coordinate system fixed in the real world; If the photographed image taken by the camera contains the face image of the user, the second coordinate system of the user's face in the second coordinate system fixed to the information processing device can be obtained from the photographed image and the face image.
  • an estimator for estimating orientation a calculation unit that calculates a third orientation of the user's face in the first coordinate system from the detected first orientation and the estimated second orientation
  • An output unit for outputting information corresponding to the calculated third orientation is provided.
  • the information processing device is wirelessly or wiredly connected to the audio equipment worn by the user,
  • the output unit can be configured to output the information to the audio equipment.
  • the audio device can be configured to be headphones, earphones, neck speakers, bone conduction speakers, or hearing aids capable of capturing ambient sounds.
  • the output unit may a virtual orientation associated with the virtual sound source; the calculated third orientation; A sound obtained by mixing the virtual sound source with an intensity corresponding to the angle difference between the two can be output as the information.
  • the virtual orientation can be configured to be predetermined.
  • the information processing device displays video information corresponding to the detected first position and first orientation on a screen whose display direction is the same as the shooting direction of the camera,
  • the waveform of the virtual sound source may be corrected according to the size of the face image.
  • the captured image includes the face image of the user and the hand image of the user
  • the distance between the face of the user and the hand of the user in the second coordinate system to correct the waveform of the virtual sound source.
  • the waveform of the virtual sound source can be corrected according to the distance between the representative point of the captured image and the hand image. .
  • the virtual sound source is associated with a sounding object placed in the virtual space;
  • the information processing device is A screen in which the state of the virtual space observed from the viewpoint position and line-of-sight direction corresponding to the detected first position and first direction in which the sound object is arranged is displayed in the same direction as the shooting direction of the camera.
  • the output unit outputs the virtual sound source associated with the identified object of interest in preference to other virtual sound sources instead of outputting information according to the calculated third direction, displaying the identified object of interest on the screen while emphasizing it more than other pronunciation objects;
  • the identification as the target object can be canceled when the cancellation condition is satisfied.
  • the pronunciation object is a video that is played back with audio
  • the information processing device displaying the target object at a predetermined position in the screen at a predetermined magnification;
  • the output unit outputs a mixed sound by muting other virtual sound sources with a predetermined amplification factor for the virtual sound source associated with the object of interest,
  • the information processing device adjusts the viewpoint position so that the virtual orientation of the pronunciation object whose identification as the object of interest has been canceled matches the calculated third orientation. centered around the virtual orientation of the sounding object placed in the virtual space.
  • the information processing device virtualizes a sounding object arranged in the virtual space around the viewpoint position based on a gesture based on the hand image of the user included in the captured image or a touch operation on the screen. Can be configured to rotate orientation.
  • the pronunciation object is an avatar that emits a sound
  • the information processing device moves the object of interest in the virtual space based on a gesture based on the hand image of the user included in the captured image or a touch operation on the screen. It can be configured to change position or orientation.
  • an information processing device having a camera, detecting a first orientation of the information processing device in a first coordinate system fixed in the real world; If the photographed image taken by the camera contains the face image of the user, the second coordinate system of the user's face in the second coordinate system fixed to the information processing device can be obtained from the photographed image and the face image. Estimate the orientation, calculating a third orientation of the user's face in the first coordinate system from the detected first orientation and the estimated second orientation; It is configured to output information according to the calculated third orientation.
  • the program may be recorded on a non-temporary computer-readable information recording medium, distributed, and sold. It can also be distributed and sold through a temporary transmission medium such as a computer communication network.
  • a computer-readable non-temporary information recording medium is configured to record the above program.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Provided is an information processing device (101) that estimates the direction of the face of a user in the real world and outputs information corresponding to the estimation. The information processing device (101) comprises a camera (151). A detection unit (111) detects a first direction of the information processing device (101) in a first coordinate system fixed in the real world. When a photograph image photographed by the camera (151) includes a face image of the user, an estimation unit (112) estimates, from the photograph image and the face image, a second direction of the face of the user in a second coordinate system fixed with respect to the information processing device (101). A calculation unit (113) calculates a third direction of the face of the user in the first coordinate system from the detected first direction and the estimated second direction. An output unit (114) outputs information corresponding to the calculated third direction.

Description

情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体Information processing device, information processing method, program, and information recording medium
  本発明は、現実世界におけるユーザの顔の向きを推定し、これに応じた情報を出力するための情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体に関する。 The present invention relates to an information processing device, an information processing method, a program, and an information recording medium for estimating the orientation of a user's face in the real world and outputting information according to this.
  従来、ユーザの頭部の動きに応じた情報を出力する技術が提案されている。たとえば、特許文献1に開示される音源選択装置は、
  ヘッドフォンと、
  前記ヘッドフォンを装着した受聴者に対して前記ヘッドフォンを介して定位した複数の仮想音源を提供する仮想音源提供手段と、
  前記複数の仮想音源から1つの仮想音源を選択する仮想音源選択手段と
を備え、
  前記仮想音源提供手段が、
    前記受聴者に対して提供する前記複数の仮想音源の複数の定位音源配置パターンを記憶する定位音源配置パターン記憶手段と、
    前記受聴者の選択動作に応じて前記複数の定位音源配置パターンから所望のパターンを選択する配置パターン選択手段と、
    前記定位音源配置パターンに従って前記複数の仮想音源を提供するミキシング手段と
を有し、
  前記ヘッドフォンに装着されて前記受聴者の頭部の動きを検出する頭部動作検出センサと、
  前記頭部動作検出センサの出力に基づいて前記頭部の動きを判定する頭部動作判定手段と
を更に備え、
  前記配置パターン選択手段は、前記頭部動作判定手段が前記頭部の動きから予め定めた配置パターン変更動作を検出すると前記定位音源配置パターン記憶手段から別の前記定位音源配置パターンを選択して前記ミキシング手段に出力するように構成されている。
Conventionally, techniques have been proposed for outputting information according to the movement of the user's head. For example, the sound source selection device disclosed in Patent Document 1 is
headphones and
a virtual sound source providing means for providing a plurality of virtual sound sources localized via the headphones to the listener wearing the headphones;
virtual sound source selection means for selecting one virtual sound source from the plurality of virtual sound sources;
The virtual sound source providing means is
localized sound source arrangement pattern storage means for storing a plurality of localized sound source arrangement patterns of the plurality of virtual sound sources to be provided to the listener;
arrangement pattern selection means for selecting a desired pattern from the plurality of localized sound source arrangement patterns according to the listener's selection action;
mixing means for providing the plurality of virtual sound sources according to the localized sound source arrangement pattern;
a head movement detection sensor mounted on the headphones and detecting movement of the listener's head;
head motion determination means for determining the motion of the head based on the output of the head motion detection sensor;
The arrangement pattern selection means selects another localized sound source arrangement pattern from the localized sound source arrangement pattern storage means when the head motion determination means detects a predetermined arrangement pattern changing motion from the movement of the head. It is configured to output to mixing means.
  一方で、近年のスマートフォンやタブレットでは、画面の表示方向と同じ方向を撮影方向とするフロントカメラ(インカメラ、正面カメラ、前面カメラと呼ばれることもある。)により画面を見るユーザの姿をセルフィーとして撮影したり、フロントカメラと逆向きを撮影方向とするリアカメラ(背面カメラと呼ばれることもある。)により、ユーザの前方に広がる世界の様子を、画面で確認しながら撮影できるようにしているものが多い。 On the other hand, in recent smartphones and tablets, the front camera (sometimes called the in-camera, front camera, or front camera. A camera that allows you to shoot while checking the state of the world spreading in front of the user on the screen by using a rear camera (sometimes called a rear camera) whose shooting direction is opposite to that of the front camera. There are many.
  また、近年のスマートフォンやタブレットでは、GPS(Global Positioning System)やWifiアクセスポイント、Bluetooth(登録商標)ビーコン等を利用するジオロケーション検知機能、加速度センサ、地磁気センサなどにより、スマートフォンやタブレットの位置や向きを、現実世界に固定された世界座標系に対して検出できるようにしているものも多い。 In recent years, smartphones and tablets have been able to detect the position and orientation of smartphones and tablets using GPS (Global Positioning System), Wifi access points, geolocation detection functions that use Bluetooth (registered trademark) beacons, acceleration sensors, geomagnetic sensors, etc. can be detected with respect to the world coordinate system fixed in the real world.
  そして、スマートフォンやタブレットの画面に、現実世界の様子を拡張した様子を表示する拡張現実機能を提供する技術も広がりつつある。   Moreover, technologies that provide augmented reality functions that display an augmented version of the real world on the screens of smartphones and tablets are also spreading.
特許第4837512号公報Patent No. 4837512
  ここで、特許文献1に開示される技術では、ヘッドフォンが備える頭部動作検出センサを用いて、ユーザの頭部の動きを検出している。 Here, in the technology disclosed in Patent Document 1, a head movement detection sensor included in headphones is used to detect movement of the user's head.
  しかしながら、スマートフォンやタブレットとともに利用されるヘッドフォンやイヤフォン等の音響機器は、ノイズキャンセリング機能や外部音声取り込み機能を有するものが普及しつつあるものの、頭部動作検出センサは有していないことがほとんどである。 However, although audio equipment such as headphones and earphones used with smartphones and tablets have noise canceling functions and external audio capture functions, they are becoming popular, but most of them do not have head movement detection sensors. is.
  そこで、既に普及しているスマートフォンやタブレット等の機能を利用してユーザの顔の向きを推定する技術が強く求められている。   Therefore, there is a strong demand for technology that can estimate the orientation of a user's face using the functions of smartphones and tablets that are already in widespread use.
  本発明は、上記の課題を解決するもので、現実世界におけるユーザの顔の向きを推定し、これに応じた情報を出力するための情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体に関する。 The present invention is intended to solve the above problems, and includes an information processing apparatus, an information processing method, a program, and an information recording medium for estimating the orientation of a user's face in the real world and outputting information according to the orientation. Regarding.
  本発明に係る情報処理装置は、カメラを有し、
  現実世界に固定された第1座標系における前記情報処理装置の第1向きを検知し、
  前記カメラにより撮影されている撮影画像にユーザの顔画像が含まれていれば、前記撮影画像および前記顔画像から、前記情報処理装置に固定された第2座標系における前記ユーザの顔の第2向きを推定し、
  前記検知された第1向きと、前記推定された第2向きと、から、前記第1座標系における前記ユーザの顔の第3向きを算出し、
  前記算出された第3向きに応じた情報を出力する。
An information processing apparatus according to the present invention has a camera,
detecting a first orientation of the information processing device in a first coordinate system fixed in the real world;
If the photographed image taken by the camera contains the face image of the user, the second coordinate system of the user's face in the second coordinate system fixed to the information processing device can be obtained from the photographed image and the face image. Estimate the orientation,
calculating a third orientation of the user's face in the first coordinate system from the detected first orientation and the estimated second orientation;
Information corresponding to the calculated third orientation is output.
  本発明によれば、現実世界におけるユーザの顔の向きを推定し、これに応じた情報を出力するための情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体を提供することができる。 According to the present invention, it is possible to provide an information processing device, an information processing method, a program, and an information recording medium for estimating the direction of a user's face in the real world and outputting information according to this.
本発明の実施形態に係る情報処理装置の概要構成を示す説明図である。1 is an explanatory diagram showing a schematic configuration of an information processing device according to an embodiment of the present invention; FIG. 本発明の実施形態に係る情報処理装置が実行する情報処理方法の制御を示すフローチャートである。4 is a flow chart showing control of an information processing method executed by the information processing apparatus according to the embodiment of the present invention; 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale. 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary. 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale. 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary. 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale. 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary. 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale. 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary. 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale. 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary. 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale. 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary. 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale. 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary. 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale. 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary. 本発明の実施形態に係る情報処理装置による仮想コンサート会場の舞台の表示例をグレイスケールで示す図面代用写真である。4 is a drawing-substituting photograph showing, in grayscale, a display example of a stage in a virtual concert venue by the information processing apparatus according to the embodiment of the present invention. 本発明の実施形態に係る情報処理装置による仮想コンサート会場の舞台の表示例をモノクロ2値で示す図面代用写真である。FIG. 10 is a drawing-substituting photograph showing a display example of a stage in a virtual concert venue by the information processing apparatus according to the embodiment of the present invention in monochrome binary. 本発明の実施形態に係る情報処理装置による複数のディスプレイが配置された仮想部屋の表示例をグレイスケールで示す図面代用写真である。4 is a drawing-substituting photograph showing, in gray scale, a display example of a virtual room in which a plurality of displays are arranged by the information processing apparatus according to the embodiment of the present invention. 本発明の実施形態に係る情報処理装置による複数のディスプレイが配置された仮想部屋の表示例をモノクロ2値で示す図面代用写真である。3 is a drawing-substitute photograph showing, in monochrome binary, a display example of a virtual room in which a plurality of displays are arranged by the information processing apparatus according to the embodiment of the present invention. 本発明の実施形態に係る情報処理装置による複数の動画コンテンツが配置された仮想部屋の表示例をグレイスケールで示す図面代用写真である。4 is a drawing-substituting photograph showing, in grayscale, a display example of a virtual room in which a plurality of moving image contents are arranged by the information processing apparatus according to the embodiment of the present invention; 本発明の実施形態に係る情報処理装置による複数の動画コンテンツが配置された仮想部屋の表示例をモノクロ2値で示す図面代用写真である。10 is a drawing-substituting photograph showing, in monochrome binary, a display example of a virtual room in which a plurality of pieces of moving image content are arranged by the information processing apparatus according to the embodiment of the present invention. 本発明の実施形態に係る情報処理装置による仮想部屋において1つの動画コンテンツが注目されたときの表示例をグレイスケールで示す図面代用写真である。10 is a drawing-substituting photograph showing, in grayscale, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention. 本発明の実施形態に係る情報処理装置による仮想部屋において1つの動画コンテンツが注目されたときの表示例をモノクロ2値で示す図面代用写真である。10 is a drawing-substituting photograph showing, in monochrome binary, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention. 本発明の実施形態に係る情報処理装置による仮想部屋において1つの動画コンテンツが注目されたときの表示例をグレイスケールで示す図面代用写真である。10 is a drawing-substituting photograph showing, in grayscale, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention. 本発明の実施形態に係る情報処理装置による仮想部屋において1つの動画コンテンツが注目されたときの表示例をモノクロ2値で示す図面代用写真である。10 is a drawing-substituting photograph showing, in monochrome binary, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention. 本発明の実施形態に係る情報処理装置による仮想部屋において1つの動画コンテンツが注目されたときの表示例をグレイスケールで示す図面代用写真である。10 is a drawing-substituting photograph showing, in grayscale, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention. 本発明の実施形態に係る情報処理装置による仮想部屋において1つの動画コンテンツが注目されたときの表示例をモノクロ2値で示す図面代用写真である。10 is a drawing-substituting photograph showing, in monochrome binary, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention. 本発明の実施形態に係る注目オブジェクトを処理する情報処理装置の概要構成を示す説明図である。1 is an explanatory diagram showing a schematic configuration of an information processing device that processes an object of interest according to an embodiment of the present invention; FIG.
  以下に、本発明の実施形態を説明する。なお、本実施形態は、説明のためのものであり、本発明の範囲を制限するものではない。したがって、当業者であれば、本実施形態の各要素もしくは全要素を、これと均等なものに置換した実施形態を採用することが可能である。また、各実施例にて説明する要素は、用途に応じて適宜省略することも可能である。このように、本発明の原理にしたがって構成された実施形態は、いずれも本発明の範囲に含まれる。 Embodiments of the present invention are described below. In addition, this embodiment is for description and does not limit the scope of the present invention. Therefore, those skilled in the art can adopt embodiments in which each element or all of the elements of this embodiment are replaced with equivalents. Also, the elements described in each embodiment can be omitted as appropriate depending on the application. As such, any embodiment constructed in accordance with the principles of the present invention is within the scope of the present invention.
  (構成)
  図1は、本発明の実施形態に係る情報処理装置の概要構成を示す説明図である。以下、本図を参照して概要を説明する。
(Constitution)
FIG. 1 is an explanatory diagram showing a schematic configuration of an information processing device according to an embodiment of the present invention. An outline will be described below with reference to this figure.
  本図に示すように、本実施形態に係る情報処理装置101は、カメラ151を有する。検知部111 、推定部112、算出部113、出力部114を備える。また、情報の出力先として、音響機器152やディスプレイの画面153等を採用することができる。 As shown in this figure, the information processing apparatus 101 according to this embodiment has a camera 151. As shown in FIG. It has a detection unit 111 , an estimation unit 112 , a calculation unit 113 and an output unit 114 . Also, the audio equipment 152, the screen 153 of the display, etc. can be employed as the output destination of the information.
  本実施形態に係る情報処理装置101は、典型的には、プログラムをスマートフォンやタブレット等の可搬型のコンピュータが実行することによって実現される。当該コンピュータは、各種の出力装置や入力装置に接続され、これらの機器と情報を送受する。 The information processing apparatus 101 according to this embodiment is typically realized by executing a program on a portable computer such as a smart phone or a tablet. The computer is connected to various output devices and input devices, and exchanges information with these devices.
  コンピュータにて実行されるプログラムは、当該コンピュータが通信可能に接続されたサーバにより配布、販売することができるほか、CD-ROM(Compact Disk Read Only Memory)やフラッシュメモリ、EEPROM(Electrically Erasable Programmable ROM)などの非一時的(non-transitory)な情報記録媒体に記録した上で、当該情報記録媒体を配布、販売等することも可能である。 Programs run on a computer can be distributed and sold by a server to which the computer is communicatively connected, as well as CD-ROM (Compact Disk Read Only Memory), flash memory, EEPROM (Electrically Erasable Programmable ROM). After recording on a non-transitory information recording medium such as the above, it is also possible to distribute and sell the information recording medium.
  プログラムは、コンピュータが有するハードディスク、ソリッドステートドライブ、フラッシュメモリ、EEPROM等の非一時的な情報記録媒体にインストールされる。すると、当該コンピュータにより、本実施形態における情報処理装置が実現されることになる。一般的には、コンピュータのCPU(Central Processing Unit)は、コンピュータのOS(Operating System)による管理の下、情報記録媒体からRAM(Random Access Memory)へプログラムを読み出してから、当該プログラムに含まれるコードを解釈、実行する。ただし、CPUがアクセス可能なメモリ空間内に情報記録媒体をマッピングできるようなアーキテクチャでは、RAMへの明示的なプログラムのロードは不要なこともある。なお、プログラムの実行の過程で必要とされる各種情報は、RAM内に一時的(temporary)に記録しておくことができる。   The program is installed on a computer's hard disk, solid state drive, flash memory, EEPROM, or other non-temporary information recording medium. Then, the computer realizes the information processing apparatus according to the present embodiment. In general, a computer's CPU (Central Processing Unit) reads a program from an information recording medium to RAM (Random Access Memory) under the control of the computer's OS (Operating System), and then executes the code contained in the program. interpret and execute. However, in architectures that allow mapping of information recording media within the memory space accessible by the CPU, explicit program loading to RAM may not be necessary. Various information required in the process of program execution can be temporarily recorded in the RAM.
  さらに、コンピュータは、各種画像処理計算を高速に行うためのGPU(Graphics Processing Unit)を備えることが望ましい。GPUならびにTensorFlow等のライブラリを使うことで、CPUの制御の下、各種の人工知能処理における学習機能や分類機能を利用することができるようになる。   Furthermore, it is desirable that the computer has a GPU (Graphics Processing Unit) for performing various image processing calculations at high speed. By using libraries such as GPU and TensorFlow, it becomes possible to use learning functions and classification functions in various artificial intelligence processing under the control of CPU.
  なお、ソフトウェアをインストールするようなコンピュータにより本実施形態の情報処理装置を実現するのではなく、専用の電子回路を用いて本実施形態の情報処理装置101を構成することも可能である。たとえば、ポータブルカメラやポータブル電子ゲーム装置などを情報処理装置101として利用することができる。 It is also possible to configure the information processing apparatus 101 of the present embodiment using a dedicated electronic circuit instead of implementing the information processing apparatus of the present embodiment using a computer on which software is installed. For example, a portable camera, a portable electronic game device, or the like can be used as the information processing device 101 .
  この態様では、プログラムを電子回路の配線図やタイミングチャート等を生成するための素材として利用することもできる。このような態様では、プログラムに定められる仕様を満たすような電子回路がFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)により構成され、当該電子回路は、当該プログラムに定められた機能を果たす専用機器として機能して、本実施形態の情報処理装置を実現する。 In this aspect, the program can also be used as material for generating wiring diagrams, timing charts, etc. of electronic circuits. In such an aspect, an electronic circuit that satisfies the specifications defined in the program is configured by FPGA (Field Programmable Gate Array) or ASIC (Application Specific Integrated Circuit), and the electronic circuit performs the functions defined in the program. The information processing apparatus of this embodiment is realized by functioning as a dedicated device that fulfills the functions.
  以下では、理解を容易にするため、情報処理装置101は、コンピュータがプログラムを実行することによって実現される態様を想定して説明する。 For ease of understanding, the information processing apparatus 101 will be described below assuming that it is implemented by a computer executing a program.
  なお、情報処理装置101には、情報の出力先として、ヘッドホン、イヤホン、ネックスピーカー、骨伝導スピーカー、補聴器等の音響機器152を、無線または有線にて接続することができる。これらの音響機器152には、外部音声取り込み機能を有することが望ましい。 It should be noted that the information processing apparatus 101 can be connected wirelessly or by wire to audio equipment 152 such as headphones, earphones, neck speakers, bone conduction speakers, hearing aids, etc., as information output destinations. These audio devices 152 desirably have an external audio capture function.
  また、上述のように、情報の出力先として、情報処理装置101が有する液晶ディスプレイ、有機EL(Organic Electro-Luminescence)ディスプレイ、電子インクを用いたペーパーディスプレイ等の画面153を採用することができる。これらのディスプレイをタッチスクリーンとすることで、情報処理装置101の入力装置として機能させることもできる。 Further, as described above, the screen 153 such as a liquid crystal display, an organic EL (Organic Electro-Luminescence) display, or a paper display using electronic ink, which the information processing apparatus 101 has, can be adopted as an information output destination. By using these displays as touch screens, they can also function as input devices for the information processing apparatus 101 .
  さて、本実施形態の情報処理装置101において、検知部111は、現実世界に固定された第1座標系における情報処理装置101の第1向きを検知する。 Now, in the information processing device 101 of this embodiment, the detection unit 111 detects the first orientation of the information processing device 101 in the first coordinate system fixed to the real world.
  現実世界に固定された第1座標系における情報処理装置101の向き(第1向き)は、情報処理装置101が有する地磁気センサや重力を検知する慣性センサ、加速度センサ、ジャイロセンサ等を介して検知することができる。 The orientation (first orientation) of the information processing device 101 in the first coordinate system fixed in the real world is detected via a geomagnetic sensor, an inertial sensor for detecting gravity, an acceleration sensor, a gyro sensor, etc., which the information processing device 101 has. can do.
  また、第1座標系における情報処理装置101の位置(第1位置)は、GPS、Wifiアクセスポイント、Bluetoothビーコン等を用いたジオロケーション検知機能により検知することも可能である。 The position (first position) of the information processing device 101 in the first coordinate system can also be detected by a geolocation detection function using GPS, Wifi access points, Bluetooth beacons, or the like.
  一方、推定部112は、カメラ151により撮影されている撮影画像にユーザの顔画像が含まれていれば、撮影画像および顔画像から、情報処理装置101に固定された第2座標系におけるユーザの顔の第2向きを推定する。 On the other hand, if the captured image captured by camera 151 includes the face image of the user, estimating section 112 calculates the face image of the user in the second coordinate system fixed to information processing device 101 from the captured image and the face image. Estimate the second orientation of the face.
  すなわち、情報処理装置101は、撮影画像に描画されている顔画像を画像認識により抽出し、目、鼻、口などの特徴部位を認識した上で、顔画像に基いて、情報処理装置101に対する相対的なユーザの顔の向き(第2向き)を推定する。この処理には、一般的なフェーストラッキング技術を適用することができる。 That is, the information processing apparatus 101 extracts the face image drawn in the captured image by image recognition, recognizes the characteristic parts such as the eyes, nose, mouth, etc. Then, based on the face image, the information processing apparatus 101 Estimate the relative user face orientation (second orientation). A general face tracking technique can be applied to this process.
  なお、撮影画像内における顔画像の位置や大きさに基づいて、情報処理装置101に対する相対的なユーザの顔の位置(第2位置)をさらに推定することとしても良い。 The position (second position) of the user's face relative to the information processing device 101 may be further estimated based on the position and size of the face image in the captured image.
  さらに、算出部113は、検知された第1向きと、推定された第2向きと、から、現実世界(第1座標系)におけるユーザの顔の第3向きを算出する。 Furthermore, calculation section 113 calculates a third orientation of the user's face in the real world (first coordinate system) from the detected first orientation and the estimated second orientation.
  第1座標系と第2座標系の間での方向に関する変換は、第1向きに基いて、一意に定めることができる。また、第1位置が検知されている場合は、第1向きと第1位置に基いて、第1座標系と第2座標系の間での座標値の座標変換を、一意に定めることができる。 The directional transformation between the first coordinate system and the second coordinate system can be uniquely defined based on the first orientation. Further, when the first position is detected, it is possible to uniquely determine coordinate transformation of coordinate values between the first coordinate system and the second coordinate system based on the first orientation and the first position. .
  そこで、撮影画像に基いて推定された第2向きの第2座標系における成分を、第1座標系における成分に変換することで、世界(地球)に対してユーザの顔がどちらを向いているかを表す第3向きを算出することができる。 Therefore, by converting the component in the second coordinate system of the second orientation estimated based on the captured image into the component in the first coordinate system, it is possible to determine which direction the user's face is facing with respect to the world (earth). A third orientation can be calculated that represents
  そして、出力部114は、算出された第3向きに応じた情報を出力する。情報の出力先としては、ユーザが装着する音響機器152やディスプレイの画面153を採用することができる。 Then, the output unit 114 outputs information corresponding to the calculated third orientation. As the information output destination, the audio equipment 152 worn by the user or the screen 153 of the display can be adopted.
  出力される情報としては、1つもしくは複数の仮想音源を現実世界内に設定し、第3向きに応じて各仮想音源に対応付けられる波形の強度、音色、位相等を変化させてミキシングした音声情報を採用することができる。 The information to be output is the voice mixed by setting one or more virtual sound sources in the real world and changing the intensity, tone, phase, etc. of the waveform associated with each virtual sound source according to the third direction. Information can be employed.
  仮想音源は、現実世界内で十分遠方に仮想的に配置したと想定して、聴取点からの仮想的な方向(仮想方位)のみをあらかじめ定めて対応付けても良い。また、仮想音源を現実世界内の位置に仮想的に配置しても良い。   Assuming that the virtual sound source is virtually placed far enough away in the real world, only the virtual direction (virtual azimuth) from the listening point may be predetermined and associated. Also, the virtual sound source may be virtually arranged at a position in the real world.
  前者の場合、出力部114は、
    仮想音源に対応付けられる仮想方位と、
    算出された第3向きと、
の角度差に応じた強度(増幅率)で、仮想音源をミキシングする。角度差が小さければ、ユーザの正面に仮想音源があることになるから、ミキシング時の波形の強度を大きくすることで、顔の向きに応じて変化する音声拡張現実をユーザに提供することができるようになる。
In the former case, the output unit 114
a virtual orientation associated with the virtual sound source;
the calculated third orientation;
The virtual sound source is mixed with the intensity (amplification factor) according to the angle difference between the two. If the angle difference is small, the virtual sound source is in front of the user, so by increasing the intensity of the waveform during mixing, it is possible to provide the user with audio augmented reality that changes according to the direction of the face. become.
  なお、仮想音源が複数ある場合には、顔の向きを一周させたと仮定した場合の平均音圧が大きく変化しないように、すなわち、各仮想音源についての角度差に基づいた増幅率の比は維持したまま、仮想音源のパワーの総和がほぼ一定となるように、ミキシング時の増幅率を調整することで、仮想音源全体の迫力を維持したまま、特定の仮想音源を強調することができるようになる。これをパワー補正という。 When there are multiple virtual sound sources, the ratio of the amplification factor based on the angle difference for each virtual sound source is maintained so that the average sound pressure does not change significantly when it is assumed that the face is rotated once. By adjusting the amplification factor during mixing so that the sum of the power of the virtual sound sources remains almost constant, it is possible to emphasize a specific virtual sound source while maintaining the power of the entire virtual sound source. Become. This is called power correction.
  また、角度差に応じてステレオ出力の左右の増幅率や時間差を変化させることで、仮想音源の方向をユーザに知得させることも可能である。たとえば、ユーザの右側に仮想音源がある場合には、右側の増幅率を左側の増幅率よりも大きくしたり、右側が左側に先行するように時間差を設定したりすれば、簡易的なバイノーラル再生を実現することができ、仮想音源の方向をユーザに感じさせることができる。 It is also possible to let the user know the direction of the virtual sound source by changing the amplification factor and time difference between the left and right stereo outputs according to the angle difference. For example, if there is a virtual sound source on the right side of the user, simple binaural playback can be achieved by setting the amplification factor of the right side larger than that of the left side, or by setting the time difference so that the right side precedes the left side. can be realized, and the user can feel the direction of the virtual sound source.
  後者の場合は、仮想音源に対応付けられる仮想方位を、
    仮想音源が第1座標系において配置される仮想位置と、
    検知部111により検知された第1向きおよび第1位置と、
から、算出した上で、前者と同様の処理を行えば良い。
In the latter case, the virtual direction associated with the virtual sound source is
a virtual position where the virtual sound source is located in the first coordinate system;
a first orientation and a first position detected by the detection unit 111;
, the same processing as the former may be performed after calculation.
  なお、第1向きおよび第1位置の測定精度、ならびに、第2位置の推定精度が十分に高い場合には、仮想方位の算出にあたって、第1位置ではなく、現実世界におけるユーザの顔の位置(第3位置)を利用しても良い。第3位置は、フェーストラッキングによって求められた情報処理装置101に対する相対的な顔の位置(第2位置)を、情報処理装置101に固定された座標系に座標変換すれば得られる。 Note that if the measurement accuracy of the first orientation and the first position and the estimation accuracy of the second position are sufficiently high, the position of the user's face in the real world ( 3rd position) may be used. The third position can be obtained by coordinate-transforming the relative face position (second position) with respect to the information processing device 101 obtained by face tracking into a coordinate system fixed to the information processing device 101 .
  このほか、ユーザの顔の向きを、羅針盤のように、ディスプレイの画面153に表示しても良い。ユーザが顔の向きを変えた場合に、向きの変化に応じて、「羅針盤」の「針」の向きが変化するような表示態様を採用すれば、ユーザの視界にディスプレイの画面153が入る範囲内であれば、本実施形態が適切に稼働していることをユーザが確認できるようになる。   In addition, the orientation of the user's face may be displayed on the display screen 153 like a compass. If a display mode is adopted in which the direction of the "needle" of the "compass" changes in accordance with the change in direction when the user changes the direction of the face, the range in which the screen 153 of the display falls within the user's field of vision. If it is within, the user can confirm that the present embodiment is operating properly.
  また、仮想音源に対応付けられる仮想方位と、算出された第3向きと、の角度差に応じて、仮想音源の波形を、強度以外についても演出的に補正することで、正面側にある仮想音源を強調してユーザに聞かせることもできる。 In addition, according to the angle difference between the virtual direction associated with the virtual sound source and the calculated third orientation, the waveform of the virtual sound source is corrected in terms of other than the intensity, so that the virtual It is also possible to emphasize the sound source and let the user hear it.
  たとえば、仮想音源の波形にもとづいて、直接音とリバーブ音を生成し、角度差に応じて両者の混合比を変化させることとしても良い。角度差が小さければ、直接音の割合を増やすことで、仮想音源が正面側で大きな音で聞こえているようにユーザに感じさせることができる。これを反響補正という。   For example, direct sound and reverb sound may be generated based on the waveform of the virtual sound source, and the mixing ratio of the two may be changed according to the angular difference. If the angle difference is small, the user can be made to feel that the virtual sound source is being heard loudly from the front side by increasing the ratio of the direct sound. This is called echo correction.
  また、正面側にある仮想音源の中心音域を求め、他の方向にある仮想音源については、求められた中心音域をイコライザーにより弱めることで、周波数的なかぶりを減らし、正面側にある仮想音源を浮き上がらせてユーザに聴取させることもできる。これを中心音域補正と呼ぶ。 In addition, the central sound range of the virtual sound source in the front is obtained, and for the virtual sound sources in other directions, the obtained central sound range is weakened by an equalizer to reduce the frequency fogging and reduce the virtual sound source in the front side. It is also possible to let the user listen by floating it. This is called center range correction.
  このほか、正面側にある仮想音源については、倍音成分を強化するサチレーションを加えてきらびやかな音にして、正面側にある仮想音源を浮き上がらせてユーザに聴取させることもできる。これをサチレーション補正という。   In addition, for the virtual sound source on the front side, it is possible to add saturation that strengthens the overtone components to make the sound brilliant, and make the virtual sound source on the front side stand out for the user to listen to. This is called saturation correction.
  さて、情報処理装置101が有するカメラ151が、いわゆるフロントカメラである場合、その撮影方向は、ディスプレイの画面153の表示方向と一致し、ユーザが位置すると想定する方向に向かう。 Now, when the camera 151 of the information processing apparatus 101 is a so-called front camera, its photographing direction matches the display direction of the screen 153 of the display and faces the direction in which the user is assumed to be positioned.
  したがって、ユーザが情報処理装置101の画面153を正面から見ていれば、ユーザの顔はカメラ151によって撮影されているはずである。 Therefore, if the user is looking at the screen 153 of the information processing device 101 from the front, the user's face should be captured by the camera 151 .
  そこで、ユーザの顔がカメラ151によって撮影されていない場合は、ユーザは特定の仮想音源に集中して聴取してはいない、と想定して、仮想音源の強度・ステレオ音声の時間差の調整や演出的な補正を平均的な既定値としても良い。 Therefore, if the user's face is not captured by the camera 151, it is assumed that the user is not concentrating on listening to a specific virtual sound source. correction may be used as an average default value.
  なお、演出的な補正は、ユーザのジェスチャーによって調整することも可能である。   It should be noted that the dramatic correction can also be adjusted by the user's gestures.
  たとえば、ユーザがディスプレイの画面153に顔を近付けた場合は、ユーザが正面に集中しようとしていると想定して、正面にある仮想音源を強調するような演出的な補正をしても良い。この態様では、撮影画像に描画されている顔画像の大きさに基づいて、演出的な補正の強さを変化させれば良いことになる。 For example, when the user brings his or her face closer to the screen 153 of the display, it is assumed that the user is trying to concentrate on the front, and dramatic correction may be made to emphasize the virtual sound source in front. In this aspect, it is sufficient to change the strength of the dramatic correction based on the size of the face image drawn in the captured image.
  このほか、ユーザのジェスチャーにより、演出的な補正の強さを変化させることもできる。たとえば、耳をすますジェスチャーにより、ユーザが正面に集中しようとしていると想定して、正面にある仮想音源を強調するような演出的な補正をしても良い。   In addition, it is also possible to change the strength of the dramatic correction by the user's gesture. For example, assuming that the user is trying to concentrate on the front by a gesture of listening, dramatic correction may be made to emphasize the virtual sound source in front.
  たとえば、撮影画像から、ユーザの顔画像と、ユーザの手画像と、を画像認識し、ユーザの顔の位置(たとえば、顔の中心位置)と、ユーザの手の位置(たとえば、小指先端の位置)と、を推定した上で、両者の距離(近さ)に応じて、演出的な補正の強さを変化させることで、耳をすますジェスチャーに簡易に対応することができる。 For example, from the captured image, the user's face image and the user's hand image are image-recognized, and the position of the user's face (for example, the center position of the face) and the position of the user's hand (for example, the position of the tip of the little finger) ) and, after estimating, depending on the distance (closeness) between the two, the intensity of the dramatic correction can be changed, thereby easily responding to the gesture of listening.
  このほか、より簡易的に、ユーザの手画像の撮影画像内における位置(たとえば、小指先端の位置)と、撮影画像の代表点(たとえば、撮影画像の中心位置や顔画像の中心位置等。)と、の距離(近さ)に応じて、演出的な補正の強さを変化させることとしても良い。 In addition, more simply, the position of the user's hand image in the photographed image (for example, the position of the tip of the little finger) and the representative point of the photographed image (for example, the center position of the photographed image, the center position of the face image, etc.) It is also possible to change the intensity of dramatic correction according to the distance (closeness) between and.
  ここで、代表点として、撮影画像の中心位置を採用した場合には、フェーストラッキングに失敗して顔画像が認識できなかったときでも、手画像が認識されていれば、補正の強さを調整することができるようになる。 Here, when the center position of the captured image is used as the representative point, even if face tracking fails and the face image cannot be recognized, if the hand image is recognized, the strength of correction is adjusted. be able to
  なお、強度・時間差の調整や演出上の補正においては、算出された角度差や距離をそのまま直ちに反映させるのではなく、直近一定時間(たとえば、100ms程度)内の平均や減衰平均を使うこととにより、算出された値に近付けるようにして、値の変化を滑らかにすることとしても良い。 In addition, when adjusting the intensity/time difference and correcting the production, instead of immediately reflecting the calculated angle difference and distance as they are, use the average or attenuation average within the most recent fixed time (for example, about 100ms). By approximating the calculated value, the change of the value may be smoothed.
  上記の説明では、音声により拡張現実をユーザに体感させることとしており、現実世界においてユーザが顔の向きを変えると(ユーザの顔が情報処理装置101のカメラ151で撮影されていれば)その向きに応じて仮想音源の出力が変化する。 In the above description, it is assumed that the user is allowed to experience augmented reality through audio. The output of the virtual sound source changes according to
  したがって、現実世界における環境音に指向性が存在する場合であっても、仮想音源の出力は、これと連動した指向性を有することになり、音響機器152が外部音声取り込み可能な場合や、ネックスピーカーのように外部音声もそのままユーザの耳に入る場合であっても、環境音と仮想音は、顔の向きに応じて矛盾なく混合されてユーザに提供されることになり、ユーザに、リアルな音声拡張現実の提供をすることができる。 Therefore, even if the environmental sound in the real world has directivity, the output of the virtual sound source has directivity linked to this. Even in the case where the external sound enters the user's ear as it is, such as a speaker, the environmental sound and the virtual sound are mixed without contradiction according to the direction of the user's face and provided to the user. It is possible to provide voice augmented reality.
  なお、情報処理装置101がリアカメラを有する場合には、リアカメラで撮影した現実世界の撮影画像と、仮想音源と同じ位置に配置された仮想オブジェクトの外観と、を合成した拡張現実画像を生成して、情報処理装置101のディスプレイの画面153に表示することで、視覚と聴覚の両方の拡張現実をユーザに提供することもできる。 Note that when the information processing device 101 has a rear camera, an augmented reality image is generated by synthesizing a captured image of the real world captured by the rear camera and the appearance of a virtual object placed at the same position as the virtual sound source. and displaying it on the screen 153 of the display of the information processing device 101, it is possible to provide the user with both visual and auditory augmented reality.
  (制御の流れ)
  図2は、本発明の実施形態に係る情報処理装置が実行する情報処理方法の制御を示すフローチャートである。以下、本図を参照して説明する。なお、以下の処理の各工程は、適用される態様に応じて、適宜省略が可能である。
(control flow)
FIG. 2 is a flow chart showing control of an information processing method executed by the information processing apparatus according to the embodiment of the present invention. Description will be made below with reference to this figure. It should be noted that each step of the following processing can be omitted as appropriate depending on the mode of application.
  本処理が開始されると、情報処理装置101は、まず、各仮想音源の再生用のパラメータを既定値で初期化して(ステップS200)、ミキシング再生を開始する(ステップS201)。このパラメータには、増幅率(左右等、各チャンネル毎の増幅率としても良いし、全体のものとしても良い。)、直接音とリバーブ音の混合比、サチレーションの強度等、種々のものを採用することができ、処理開始の当初は、これらのパラメータに既定値が設定されることになる。 When this process is started, the information processing device 101 first initializes parameters for reproduction of each virtual sound source to default values (step S200), and starts mixing reproduction (step S201). For this parameter, various factors such as gain (amplification rate for each channel such as left and right, or overall gain), mixing ratio of direct sound and reverb sound, intensity of saturation, etc. are adopted. and default values will be set for these parameters at the beginning of the process.
  この後、仮想音源の再生はバックグラウンド処理として並行して実行されるが、ミキシング用のパラメータは、以下の処理によって、ユーザの顔の向き等に応じて変更される。   After that, playback of the virtual sound source is executed in parallel as background processing, but the parameters for mixing are changed according to the orientation of the user's face, etc., by the following processing.
  ついで、情報処理装置101は、地磁気センサ、ジャイロセンサ、加速度センサ等を介して、情報処理装置101の現実世界(第1座標系)における第1向き(や第1位置)を検知する(ステップS202)。 Next, the information processing device 101 detects a first orientation (or first position) of the information processing device 101 in the real world (first coordinate system) via a geomagnetic sensor, a gyro sensor, an acceleration sensor, etc. (step S202). ).
  さらに、情報処理装置101は、カメラ151にて撮影されている撮影画像から、ユーザの顔画像を画像認識により抽出する試行をする(ステップS203)。 Further, the information processing device 101 tries to extract the user's face image from the captured image captured by the camera 151 by image recognition (step S203).
  当該試行により、ユーザの顔画像の抽出に成功すれば(ステップS204;Yes)、情報処理装置101は、当該顔画像に基づいて、情報処理装置101に対する相対的な(第2座標系における)ユーザの顔の第2向き(や第2位置)を推定する(ステップS205)。 If the trial succeeds in extracting the user's facial image (step S204; Yes), the information processing apparatus 101 calculates the relative (in the second coordinate system) of the user (in the second coordinate system) to the information processing apparatus 101 based on the facial image. estimating the second orientation (or second position) of the face (step S205).
  そして、情報処理装置101は、推定された第2向き(や第2位置)を、検知された第1向き(や第1位置)に基いて、座標変換により、第1座標系におけるユーザーの顔の第3向き(や第3位置)を算出する(ステップS206)。 Then, information processing apparatus 101 converts the estimated second orientation (or second position) to the user's face in the first coordinate system by coordinate transformation based on the detected first orientation (or first position). A third orientation (or third position) is calculated (step S206).
  ついで、情報処理装置101は、仮想音源のそれぞれについて、以下の処理を繰り返す(ステップS207)。 Information processing device 101 then repeats the following process for each of the virtual sound sources (step S207).
  すなわち、情報処理装置101は、当該仮想音源の第1座標系における仮想方位を取得する(ステップS208)。この仮想方位は、あらかじめ定めたものとしても良いし、第1座標系における当該仮想音源の仮想位置と情報処理装置101の第1位置(あるいは、ユーザの顔の第3位置)に基いて算定しても良い。 That is, the information processing device 101 acquires the virtual direction of the virtual sound source in the first coordinate system (step S208). This virtual orientation may be determined in advance, or calculated based on the virtual position of the virtual sound source in the first coordinate system and the first position of the information processing device 101 (or the third position of the user's face). can be
  ついで、情報処理装置101は、当該仮想方位と、第3向きと、の角度差に基づいて、当該仮想音源に対する再生用の新たなパラメータを算出する(ステップS209)。最も単純には、角度差に基づいて新たな増幅率を算出することとなるが、反響補正やサチレーション補正を加えても良い。 Next, the information processing device 101 calculates new parameters for reproduction of the virtual sound source based on the angle difference between the virtual direction and the third orientation (step S209). In the simplest way, a new amplification factor is calculated based on the angle difference, but echo correction and saturation correction may be added.
  このほか、当該仮想音源の仮想位置と第1位置(あるいは第3位置)との距離(近さ)に応じて、増幅率をさらに補正することとしても良い。すなわち、距離が小さければ小さいほど、増幅率を大きくする等である。 In addition, the amplification factor may be further corrected according to the distance (closeness) between the virtual position of the virtual sound source and the first position (or third position). That is, the smaller the distance, the larger the amplification factor, and the like.
  すべての仮想音源について処理を繰り返した(ステップS210)後、情報処理装置101は、全仮想音源の再生用の新たなパラメータを、互いの関係に基づいてさらに補正する(ステップS211)。この補正には、たとえば、正面側の仮想音源を他の仮想音源に比べて強調する中心音域補正や、仮想音源全体の迫力をそのまま維持できるようにするパワー補正等が含まれる。 After repeating the process for all virtual sound sources (step S210), the information processing device 101 further corrects the new parameters for reproduction of all virtual sound sources based on their mutual relationships (step S211). This correction includes, for example, center range correction for emphasizing the virtual sound source on the front side compared to other virtual sound sources, and power correction for maintaining the force of the entire virtual sound source as it is.
  そして、全仮想音源の再生用のパラメータを、新たなパラメータに滑らかに近付けるように(あるいは、そのまま新たなパラメータとするように)、新たなパラメータに基づく更新の処理を各仮想音源について繰り返してから(ステップS212-S214)、処理をステップS202に戻す。 Then, the parameters for playback of all virtual sound sources are smoothly brought close to the new parameters (or the new parameters are used as they are), and after repeating the updating process based on the new parameters for each virtual sound source, (Steps S212-S214), the process returns to step S202.
  一方、ユーザの顔画像の抽出に失敗すれば(ステップS204;No)、全仮想音源のパラメータを既定値に近付けるように(あるいは、そのまま既定値とするように)、更新する既定値に基づく更新の処理を各仮想音源について繰り返してから(ステップS215-S217)、処理をステップS202に戻す。 On the other hand, if the extraction of the user's face image fails (step S204; No), the parameters of all the virtual sound sources are updated based on the default values so as to approach the default values (or keep the default values as they are). is repeated for each virtual sound source (steps S215-S217), and then the process returns to step S202.
  なお、上記の制御の流れでは省略したが、撮影画像からユーザの手画像を認識し、ユーザのジェスチャーに基づいて、正面側の仮想音声の増幅率を変更したり、サチレーション補正や中心音域補正の強度を変更したりしても良い。 Although omitted in the above control flow, the user's hand image is recognized from the captured image, and based on the user's gesture, the amplification factor of the virtual sound on the front side is changed, and saturation correction and center range correction are performed. You can also change the intensity.
  (ディスプレイの画面への出力)
  図3乃至18は、本発明の実施形態に係る情報処理装置による表示例をグレイスケールもしくはモノクロ2値で示す図面代用写真である。以下、これらの図を参照して説明する。
(output to the screen of the display)
3 to 18 are drawings substitute photographs showing display examples by the information processing apparatus according to the embodiment of the present invention in grayscale or monochrome binary. Description will be made below with reference to these figures.
  図3, 4では、スマートフォンからなる情報処理装置101のディスプレイの画面153に種々の情報が表示されている。本図下方中央にある三角形の再生ボタンをタップすると、仮想音源からなる曲の再生が開始される。 3 and 4, various information is displayed on the screen 153 of the display of the information processing device 101, which is a smart phone. When the triangular play button in the lower center of the figure is tapped, playback of the music composed of the virtual sound source is started.
  画面153の上方には、ユーザの顔の向きが検出された結果と、小指の先端が検出された検出の結果と、がウィンドウ内に表示されている。ユーザが操作に慣れるまではこの検出結果を見て、カメラ151でユーザの顔が撮影されるような位置を保持しつつ、ジェスチャーを確認・練習することができる。 At the top of the screen 153, the result of detection of the orientation of the user's face and the result of detection of the tip of the little finger are displayed in a window. Until the user gets accustomed to the operation, he or she can check and practice gestures while holding a position where the camera 151 captures the user's face by looking at the detection results.
  再生ボタンの左側にあるオンオフボタンをタップあるいはスライドすることで、図5, 6に示すようにウィンドウを閉じることができる。再度同じオンオフボタンをタップあるいはスライドすることで、ウィンドウを再度表示することもできる。 By tapping or sliding the on/off button to the left of the play button, the window can be closed as shown in Figures 5 and 6. The window can be displayed again by tapping or sliding the same on/off button again.
  画面153の中央には、円形に並んだ楽器のアイコンが並べられている。これは、仮想空間上に配置された仮想音源のパートの方位を表している。   In the center of the screen 153, musical instrument icons are arranged in a circle. This represents the orientation of the virtual sound source part placed in the virtual space.
  本図では、楽器が等間隔に並べられているが、必ずしも等間隔で円形である必要はなく、任意の配置が可能である。   In this figure, the musical instruments are arranged at equal intervals, but they do not necessarily have to be evenly spaced and circular, and can be arranged arbitrarily.
  この円の上をスワイプすると、楽器は円形の中心を中心として回転し、図7, 8に示すように、自分の好きな楽器を好きな方向に配置することができる。 When you swipe on this circle, the instrument rotates around the center of the circle, and you can place your favorite instrument in any direction as shown in Figures 7 and 8.
  円形の中央にあるのは、操作しているユーザのアバターであり、白矢印の方向がユーザーの顔の向きを表している。白矢印の先にある楽器のアイコンが、ユーザーの正面側に位置する仮想音源に相当する。   At the center of the circle is the avatar of the operating user, and the direction of the white arrow indicates the direction of the user's face. The musical instrument icon at the tip of the white arrow corresponds to the virtual sound source positioned in front of the user.
  本処理の開始時は、白矢印は既定の方向(たとえば上)を向いており、ユーザーが顔の向きをかえたり、スマートフォンの位置を動かしたりすると、それに応じて白矢印の向きが変化する。   At the start of this process, the white arrow is pointing in a default direction (for example, upward), and if the user changes the direction of the face or moves the position of the smartphone, the direction of the white arrow changes accordingly.
  アバターの上をタップすると、白矢印の方向および楽器の配置(距離)がリセットされる。   Tapping on the avatar resets the direction of the white arrow and the placement (distance) of the instrument.
  図3, 4では、白矢印の方向に、扇形が表示されている。これは、増幅率が0.5倍以上の範囲を表している。耳をすますジェスチャーをすることによって、扇形の角度が変化し、どの仮想音源が強調されているかがユーザに伝えられる。 In Figures 3 and 4, the sector is displayed in the direction of the white arrow. This represents the range where the gain is 0.5 times or more. By making a gesture of listening, the angle of the fan changes, telling the user which virtual sound source is emphasized.
  画面153の下部には2本のスライダが並んでいる。上のスライダーは、仮想空間上で円形に並んだ楽器との距離を表しており、スライダーを移動することで距離を変化させることができる。図3, 4に示す配置では、距離は20メートルであるが、図9, 10では、10メートルになっており、図11, 12では、30メートルになっている。そして、画面153に示されるアバターから楽器までの距離も、この距離に応じて変化する。    Two sliders are lined up at the bottom of the screen 153 . The upper slider represents the distance to the musical instruments arranged in a circle in the virtual space, and the distance can be changed by moving the slider. In the arrangement shown in Figures 3 and 4 the distance is 20 meters, in Figures 9 and 10 it is 10 meters and in Figures 11 and 12 it is 30 meters. The distance from the avatar to the musical instrument shown on screen 153 also changes according to this distance.
  下のスライダーは、フォーカスの利き具合、すなわち、扇形の角度に連動している。上記のように、ジェスチャーによってフォーカスの利き具合を変化させることもできるが、スライダーを直接移動させることで、調整することもできる。   The lower slider is linked to the degree of focusing, that is, the angle of the sector. As mentioned above, the degree of focusing can be changed by gestures, but it can also be adjusted by moving the slider directly.
  再生ボタンの右側にある歯車型の設定ボタンを押すと、図13, 14に示すように、設定フォームに遷移する。 When you press the gear-shaped settings button to the right of the play button, you will be taken to the settings form, as shown in Figures 13 and 14.
  設定フォームでは、各楽器のマスターボリューム(ミキサー増幅率の既定値)が設定できる。情報処理装置101は、角度差に応じた乗数をマスターボリュームに掛け合わせることで、ミキシングに用いる増幅率を一旦計算した上で、全体のパワーがほぼ一定になるように補正を行う。   In the setting form, you can set the master volume (the default value of the mixer gain) for each instrument. The information processing apparatus 101 multiplies the master volume by a multiplier corresponding to the angle difference, thereby once calculating the amplification factor used for mixing, and then performing correction so that the overall power becomes substantially constant.
  図15, 16では、ブーストモードの設定がされている。ブーストモードでは、全体のパワーが一定になるように増幅率を調整する際に、正面側の仮想音源の強度を倍増させることで、正面の楽器を強調することができる。   In figures 15 and 16, the boost mode is set. In the boost mode, when adjusting the amplification factor to keep the overall power constant, it is possible to emphasize the instrument in front by doubling the strength of the virtual sound source in front.
  図17, 18は、上記のスマートフォンと同様の機能をタブレットにて実現した場合の出力例である。 Figures 17 and 18 are examples of output when the same functions as the above smartphone are implemented on a tablet.
  これらの図では、リアカメラで撮影されている無人の公園に、仮想楽器を演奏する仮想人物の動画が重畳された拡張現実画像が表示されている。   In these figures, an augmented reality image is displayed overlaid with a video of a virtual person playing a virtual musical instrument in an uninhabited park captured by a rear camera.
  一方で、拡張現実ではなく、仮想現実に本実施形態を提供することもできる。図19, 20は、仮想のコンサート会場の舞台に仮想楽器の演奏者を円状に配置し、その中央にユーザを配置したかのような仮想現実をユーザに提供する。   On the other hand, the present embodiment can also be provided for virtual reality instead of augmented reality. 19 and 20 provide the user with a virtual reality as if players of virtual musical instruments were arranged in a circle on the stage of a virtual concert venue and the user was placed in the center.
  本表示例では、仮想楽器の演奏者が10人、舞台の上に配置されており、演奏者のアバター(本図では、10人の演奏者のうちの3人のアバター)が舞台の上で楽器を演奏する映像を構成することで、仮想オブジェクトとしている。各仮想オブジェクトには、楽器の演奏音が仮想音源として対応付けられ、仮想音源は、上記実施形態と同様に、ミキシングされて出力される。 In this display example, 10 performers of virtual musical instruments are placed on the stage, and the avatars of the performers (in this figure, 3 avatars among the 10 performers) are placed on the stage. A virtual object is created by composing an image of playing a musical instrument. A performance sound of a musical instrument is associated with each virtual object as a virtual sound source, and the virtual sound source is mixed and output in the same manner as in the above embodiment.
  この態様では、ユーザは仮想コンサートの指揮者のような体験をすることができる。 In this aspect, the user can have the experience of being the conductor of a virtual concert.
  上記実施形態と同様に、ユーザは、耳をすますジェスチャー等により、複数の演奏者のアバターのうち、ユーザが向いているアバター、すなわち、ユーザの正面に位置するアバターを、注目の対象を表す注目オブジェクトとして特定することができる。 As in the above embodiment, the user selects the avatar facing the user, i.e., the avatar positioned in front of the user, among the avatars of a plurality of performers, as the target of attention by using a gesture of listening. It can be identified as an object of interest.
  ユーザが情報処理装置101を自身の正面にて把持しており、顔を画面153の中央に向けている場合には、画面153の中央に表示されている仮想オブジェクトが注目オブジェクトとなる。 When the user holds the information processing device 101 in front of him/herself and faces the center of the screen 153, the virtual object displayed in the center of the screen 153 becomes the target object.
  一方で、ユーザが情報処理装置101を自身の正面にて把持していても、ユーザが顔を画面153の中央ではなく、右側や左側など、その他の方向に向けている場合には、画面中央に表示されている仮想オブジェクトではなく、顔を向けている方向に表示されている仮想オブジェクトが注目オブジェクトになる。すなわち、仮想音源に対応付けられる仮想方位と、第3向きとの、の角度差が閾角以下で最小の発音オブジェクトを、注目オブジェクトとして特定する。 On the other hand, even if the user holds the information processing device 101 in front of him/herself, if the user's face is not directed to the center of the screen 153 but to the right side, the left side, or another direction, the center of the screen is displayed. The object of interest is the virtual object displayed in the direction in which the face is directed, not the virtual object displayed in the direction. That is, the pronunciation object that has the smallest angle difference between the virtual direction associated with the virtual sound source and the third direction and is equal to or less than the threshold angle is specified as the object of interest.
  ジェスチャーではなく、所望の仮想オブジェクトに顔を向け続け、その向け続けた時間が所定の閾時間を超えると、当該仮想オブジェクトが注目オブジェクトとして特定されるようにしても良い。 Instead of using gestures, it is also possible to keep facing a desired virtual object, and if the time for which the face is kept facing exceeds a predetermined threshold time, the virtual object may be specified as the object of interest.
  一旦注目オブジェクトとして演奏者のアバターが選択された後は、ユーザは、注目オブジェクトの位置や向きを変化させることができるようにしても良い。 Once the player's avatar is selected as the object of interest, the user may be able to change the position and orientation of the object of interest.
  たとえば、画面153がタッチスクリーンとして構成されている場合には、タッチスクリーンに触れてなぞる操作をすると、注目オブジェクトが、なぞり操作の軌跡を平行移動した同じ形状の軌跡に沿って移動するようにしても良い。この態様では、注目オブジェクトが特定されているので、画面153に表示された注目オブジェクトそのものをタッチする必要はなく、画面153において注目オブジェクトが表示されている場所以外においてなぞり操作をすることができ、注目オブジェクトを指で隠さずに、注目オブジェクトの位置を変更することができる。 For example, when the screen 153 is configured as a touch screen, when the touch screen is touched and a tracing operation is performed, the object of interest is moved along the locus of the same shape obtained by translating the locus of the tracing operation. Also good. In this aspect, since the target object is specified, it is not necessary to touch the target object itself displayed on the screen 153, and the tracing operation can be performed on the screen 153 other than the place where the target object is displayed, The position of the target object can be changed without hiding the target object with the finger.
  また、画面153に対して、二本指や三本指でタッチして回転させる操作をすると、注目オブジェクトが、タッチする指の数に応じた軸周りに、タッチした角度だけ回転するようにしても良い。この態様においても、画面153に表示された注目オブジェクトそのものをタッチする必要はない。 Also, when the screen 153 is touched with two fingers or three fingers and rotated, the object of interest is rotated by the touched angle around the axis corresponding to the number of fingers touched. Also good. Also in this mode, it is not necessary to touch the attention object itself displayed on the screen 153 .
  なお、タッチスクリーンで構成された画面153に対して行うこれらの種々の操作は、ジェスチャーによって代替することも可能である。   It should be noted that these various operations performed on the screen 153 configured by the touch screen can be replaced by gestures.
  上述の例では、仮想空間内の仮想オブジェクトとして、楽器を演奏する演奏者のアバターを配置したが、音声とともに再生される動画を仮想オブジェクトとすることもできる。図21, 22, 23, 24は、仮想部屋の中に複数の仮想ディスプレイが配置され、当該仮想ディスプレイにて仮想動画が再生される様子を示す表示例である。   In the above example, an avatar of a performer playing a musical instrument is placed as a virtual object in the virtual space. 21, 22, 23, and 24 are display examples showing how a plurality of virtual displays are arranged in a virtual room and virtual moving images are reproduced on the virtual displays.
  これらの表示例では、仮想音源として機能する音声とともに各仮想ディスプレイにて再生される仮想動画が、仮想オブジェクトに相当する。   In these display examples, the virtual video played on each virtual display together with the sound functioning as the virtual sound source corresponds to the virtual object.
  これらの図では、仮想空間内では、10個の仮想動画がユーザの周りに配置されており、ユーザは、情報処理装置101を把持して自身の向きを変更することによって、ユーザは複数の仮想動画を並べて見比べることができる。ユーザの頭が向いている仮想動画の仮想音源が、他の仮想動画の仮想音源よりも優先されて出力される。 In these figures, 10 virtual moving images are arranged around the user in the virtual space. You can compare videos side by side. The virtual sound source of the virtual moving image to which the user's head is facing is output with priority over the virtual sound sources of other virtual moving images.
  この態様では、10個より多くの仮想動画をユーザが順に見比べることも可能である。すなわち、仮想空間においてユーザから見えない位置に配置された仮想ディスプレイにおいて、仮想動画を交換すれば良い。 In this aspect, it is also possible for the user to view and compare more than 10 virtual moving images in order. That is, the virtual moving images can be exchanged on a virtual display arranged at a position invisible to the user in the virtual space.
  この態様では、ユーザが情報処理装置101を把持したまま、自身の体を現実空間で回転させることで、仮想動画を順に並べて見ることができる。 In this aspect, the user can view the virtual moving images in order by rotating his or her body in the real space while holding the information processing device 101 .
  また、指の向きを短時間で水平方向に、右から左へ、あるいは、左から右へ変化させるようなジェスチャー、あるいは、画面153を構成するタッチスクリーンを左スライドあるいは右スライドさせる動作等によって、仮想空間内において、ユーザを中心に仮想ディスプレイを回転させても良い。 In addition, by a gesture such as changing the orientation of the finger in the horizontal direction from right to left or from left to right in a short period of time, or by an operation of sliding the touch screen that constitutes the screen 153 to the left or right, etc., The virtual display may be rotated around the user in the virtual space.
  これにより、複数の仮想動画を、カルーセル表示あるいはカバーフロー表示に類似した態様でユーザに提供することができる。 This allows multiple virtual animations to be presented to the user in a manner similar to a carousel display or cover flow display.
  上記実施形態と同様に、ユーザは、画面153に表示されているいずれかの仮想動画に顔を向けて、耳をすます等のジェスチャーをしたり、閾時間の時間長だけ顔を向け続けたり、等によって、当該仮想動画を注目オブジェクトとして特定することができる。 As in the above embodiment, the user turns his face to one of the virtual moving images displayed on the screen 153 and makes a gesture such as listening, or keeps turning his face for the duration of the threshold time. , etc., the virtual moving image can be specified as the target object.
  仮想動画が注目オブジェクトとして特定されると、情報処理装置101は、注目オブジェクトとして特定された仮想動画(注目動画)を、画面153内の中央等、所定位置に、所定拡大率で表示して再生するとともに、当該注目オブジェクトに対応付けられる仮想音源、すなわち、当該仮想動画とともに再生させるべき音声(注目音声)を、他の仮想音源に優先して再生する。このとき、出力される音声のミキシングは、注目音声は所定の増幅率で、他の仮想音源はミュートする、すなわち、注目音声のみが出力され、他の仮想音声は出力されないようにしても良い。 When the virtual moving image is identified as the object of interest, the information processing device 101 displays the virtual moving image (moving image of interest) identified as the object of interest at a predetermined position such as the center of the screen 153 at a predetermined magnification and reproduces it. At the same time, the virtual sound source associated with the object of interest, that is, the sound to be reproduced together with the virtual moving image (the sound of interest) is played with priority over other virtual sound sources. At this time, the audio to be output may be mixed with a predetermined amplification factor for the audio of interest and muted for other virtual sound sources, that is, only the audio of interest may be output and other virtual audio may not be output.
  図25, 26は、図23, 24において画面中央に描画されていた仮想動画が注目オブジェクトとして特定され、画面中央に拡大されて、当該注目オブジェクト動画および音声が再生されている様子を示している。 FIGS. 25 and 26 show how the virtual video drawn in the center of the screen in FIGS. 23 and 24 is identified as the object of interest, enlarged in the center of the screen, and the video and audio of the target object being played. .
  図27, 28, 29, 30は、ここで再生されている音声に合わせてユーザがダンスをし、現実空間における情報処理装置101やユーザの向きは変化しているが、画面中央にて再生される動画は注目オブジェクトのままであることを示している。 In FIGS. 27, 28, 29, and 30, the user dances to the sound being reproduced here, and although the directions of the information processing device 101 and the user in the real space are changing, the reproduction is performed in the center of the screen. This indicates that the moving image remains the object of interest.
  この態様では、ユーザが手を広げて情報処理装置101のカメラ151に近付けるジェスチャーをしたり、タッチスクリーンに対して短時間だけタップする等によって、注目オブジェクトとしての特定を解除することができる。 In this aspect, the user can cancel the identification as the object of interest by making a gesture of spreading out his/her hand and bringing it closer to the camera 151 of the information processing device 101, by tapping the touch screen for a short period of time, or the like.
  特定が解除されたときは、当該特定が解除された仮想動画がユーザの頭が向いている先に位置するように、仮想空間内においてユーザの周りを囲む仮想動画を、ユーザを中心に回転させることとしても良い。すなわち、特定が解除された仮想オブジェクトの仮想方位が、算出された第3向きに一致するように、仮想空間内における仮想始点を中心に、仮想空間内に配置された仮想オブジェクト(の仮想方位)を回転させることになる。 When the identification is canceled, the virtual moving image surrounding the user in the virtual space is rotated around the user so that the virtual moving image whose identification has been canceled is positioned where the user's head is facing. It's good as a thing. That is, (the virtual orientation of) the virtual object placed in the virtual space around the virtual starting point in the virtual space so that the virtual orientation of the virtual object whose identification has been canceled matches the calculated third orientation. will be rotated.
  この態様によれば、特定が解除された直後は、その仮想動画がユーザの顔が向く方に配置されており、仮想動画の列が、以前と同じ順序でほぼ同じ位置に配置されることとなるので、ユーザは、仮想動画を直感的に、順に見比べることができるようになる。 According to this aspect, immediately after the identification is canceled, the virtual moving image is arranged in the direction in which the user's face faces, and the columns of virtual moving images are arranged in the same order and at approximately the same positions as before. Therefore, the user can intuitively compare the virtual moving images in order.
  これらの実施形態に係る情報処理装置101について、以下に整理して説明する。図31は、本発明の実施形態に係る注目オブジェクトを処理する情報処理装置の概要構成を示す説明図である。 The information processing apparatus 101 according to these embodiments will be organized and described below. FIG. 31 is an explanatory diagram showing a schematic configuration of an information processing device that processes an object of interest according to the embodiment of the present invention.
  本実施形態に係る情報処理装置101は、図1に開示する構成に加えて、特定部301と、解除部302と、を有する。特定部301、解除部302は、検知部111、推定部112、算出部113から各種の情報を取得し、それに応じて、出力部114を制御する。 The information processing apparatus 101 according to this embodiment has a specifying unit 301 and a canceling unit 302 in addition to the configuration disclosed in FIG. The identifying unit 301 and the canceling unit 302 acquire various kinds of information from the detecting unit 111, the estimating unit 112, and the calculating unit 113, and control the output unit 114 accordingly.
  上記のように、本実施形態に係る情報処理装置101では、複数の発音オブジェクトが仮想空間に配置されている。各発音オブジェクトは、たとえば、上記実施形態における仮想オブジェクトとすることができ、上記実施形態では、仮想楽器を演奏する演奏者のアバター、あるいは、仮想動画を再生する仮想ディスプレイに相当する。 As described above, in the information processing device 101 according to this embodiment, a plurality of sounding objects are arranged in the virtual space. Each sounding object can be, for example, a virtual object in the above embodiment, which corresponds to an avatar of a performer playing a virtual musical instrument or a virtual display playing back a virtual moving image.
  各発音オブジェクトは、仮想音源に対応付けられている。上記実施形態では、仮想音源は、仮想楽器により出力される演奏音や、仮想動画とともに再生される音声に相当する。   Each pronunciation object is associated with a virtual sound source. In the above embodiments, the virtual sound source corresponds to the performance sound output by the virtual musical instrument or the sound reproduced together with the virtual moving image.
  そして、情報処理装置101は、仮想空間の様子を画面153に表示する。具体的には、第1位置および第1向きに応じた視点位置および視線方向により観察した仮想空間の様子を、カメラ151の撮影方向と同じ方向を表示方向とする画面153に表示する。 Then, the information processing device 101 displays the state of the virtual space on the screen 153. FIG. Specifically, the state of the virtual space observed from the viewpoint position and line-of-sight direction corresponding to the first position and first orientation is displayed on screen 153 whose display direction is the same as the photographing direction of camera 151 .
  情報処理装置101(の画面153)の位置や向きを変化させたり、ユーザの頭の位置や向きを変化させると、それに応じて、画面153に表示される仮想世界の様子が変化する。これにより、情報処理装置101の画面153が、仮想空間を覗き込むための「窓」として機能することとなる。 When the position or orientation of (the screen 153 of) the information processing device 101 is changed, or the position or orientation of the user's head is changed, the appearance of the virtual world displayed on the screen 153 changes accordingly. As a result, the screen 153 of the information processing device 101 functions as a "window" for looking into the virtual space.
  ここで、情報処理装置101の特定部301は、特定条件が満たされたか否かを判定し、それに応じた処理を行う。 Here, the specifying unit 301 of the information processing device 101 determines whether or not a specified condition is satisfied, and performs processing according to the determination.
  また、情報処理装置101の解除部302は、解除条件が満たされたか否か、を判定し、それに応じた処理を行う。 Further, the cancellation unit 302 of the information processing device 101 determines whether or not the cancellation condition is satisfied, and performs processing accordingly.
  特定条件とは、複数の発音オブジェクトのうち、いずれかをユーザによる注目オブジェクトとして特定するための条件であり、解除条件とは、注目オブジェクトとしての特定を解除するための条件である。 A specific condition is a condition for specifying one of a plurality of sounding objects as an attention object by the user, and a cancellation condition is a condition for canceling identification as an attention object.
  上記実施形態では、特定条件として、耳をすますジェスチャーがされていること、所定時間以上特定の発音オブジェクトの方を向き続けること、等を採用しており、解除条件として、手を広げてカメラ151に近付けるジェスチャーがされたことや、画面153を構成するタッチスクリーンをタップすること等を採用しているが、その他の条件を採用することも可能である。 In the above-described embodiment, as specific conditions, a gesture of listening closely, or continuing to face a specific sounding object for a predetermined period of time or longer, is adopted as the specific condition. A gesture of bringing the screen closer to 151, tapping on the touch screen that constitutes the screen 153, etc. are employed, but other conditions can also be employed.
  情報処理装置101において、特定部301は、特定条件が満たされる、と判定すると、仮想音源に対応付けられる仮想方位と、算出された第3向きと、の角度差が最小の発音オブジェクトを、ユーザによる注目オブジェクトとして特定する。 In the information processing device 101, when the identifying unit 301 determines that the specific condition is satisfied, the sounding object having the smallest angular difference between the virtual direction associated with the virtual sound source and the calculated third direction is selected by the user. identified as the object of interest by
  注目オブジェクトは、仮想空間に配置された発音オブジェクトのうちユーザが注目したい、あるいは、注目していると推定されるオブジェクトである。上記実施形態では、画面153に表示されている発音オブジェクトであって、ユーザが向いている発音オブジェクトが注目オブジェクトとなりうる。すなわち、ユーザが画面153の中央を向いていれば、画面153中央に表示されている発音オブジェクトが、ユーザが画面153の右端を向いていれば、画面153の右端に表示されている発音オブジェクトが、ユーザが画面153の左端を向いていれば、画面153の左端に表示されている発音オブジェクトが、それぞれ注目オブジェクトとなりうる。   The object of interest is an object that the user wants to pay attention to or is presumed to pay attention to among the pronunciation objects arranged in the virtual space. In the above embodiment, the pronunciation object displayed on the screen 153 and facing the user can be the target object. That is, if the user faces the center of the screen 153, the pronunciation object displayed in the center of the screen 153 is displayed. , if the user is facing the left end of the screen 153, the pronunciation objects displayed on the left end of the screen 153 can be the objects of interest.
  さて、注目オブジェクトが特定されていないときは、出力部114は、仮想音源に対応付けられる仮想方位と、算出された第3向きと、の角度差に応じた強度で、仮想音源をミキシングするが、注目オブジェクトが特定されているときは、出力部114は、算出された第3向きに応じた情報を出力するのにかえて、特定された注目オブジェクトに対応付けられる仮想音源を、他の仮想音源に優先して出力する。 Now, when the object of interest is not specified, the output unit 114 mixes the virtual sound source with an intensity corresponding to the angle difference between the virtual direction associated with the virtual sound source and the calculated third direction. , when an object of interest is specified, instead of outputting information corresponding to the calculated third direction, output unit 114 outputs the virtual sound source associated with the specified object of interest to another virtual sound source. Give priority to the sound source.
  上記実施形態では、注目オブジェクトに相当する演奏者の仮想楽器の演奏音や、仮想動画に伴う音声が、他の音声に優先して出力されることになる。ここで、「優先」とは、たとえば、注目オブジェクトの仮想音源の増幅率を所定の定数とし、他の仮想音源の増幅率をゼロ(ミュート)あるいは小さい値とする、等が含まれる。 In the above embodiment, the performance sound of the performer's virtual musical instrument corresponding to the object of interest and the sound accompanying the virtual moving image are output with priority over other sounds. Here, "priority" includes, for example, setting the amplification factor of the virtual sound source of the target object to a predetermined constant and setting the amplification factor of the other virtual sound sources to zero (mute) or a small value.
  また、情報処理装置101は、画面153において、特定された注目オブジェクトを他の発音オブジェクトより強調して画面153に表示しても良い。 Further, information processing apparatus 101 may display on screen 153 the identified object of interest in a more emphasized manner than other pronunciation objects.
  上記実施形態では、注目オブジェクトに相当する演奏者の色を明るくしたり、演奏者にマークをつけたり、等の態様を採用することもできる。また、注目オブジェクトに相当する仮想動画を画面中央に所定サイズで表示することによって、強調表示をすることとしている。 In the above embodiment, it is also possible to employ modes such as brightening the color of the performer corresponding to the object of interest, marking the performer, and the like. Also, the virtual moving image corresponding to the object of interest is displayed in a predetermined size in the center of the screen for highlighting.
  情報処理装置101において、解除部302は、解除条件が満たされると、注目オブジェクトとしての特定を解除する。これにより、仮想音源の優先出力や画面153における強調表示は終了し、最先に説明した出力手法が採用されることになる。 In the information processing apparatus 101, the cancellation unit 302 cancels the identification as the object of interest when the cancellation condition is satisfied. As a result, priority output of the virtual sound source and highlighting on the screen 153 are ended, and the output method described first is adopted.
  仮想空間内に配置された仮想オブジェクトの位置は、仮想空間内の視点を中心に回転させることもできる。すなわち、情報処理装置101は、撮影画像に含まれるユーザの手画像に基づくジェスチャー、もしくは、画面に対するタッチ操作に基づいて、視点位置を中心に、仮想空間に配置された発音オブジェクトの仮想方位を回転させる。   The position of the virtual object placed in the virtual space can also be rotated around the viewpoint in the virtual space. That is, the information processing apparatus 101 rotates the virtual orientation of the sound object placed in the virtual space around the viewpoint position based on a gesture based on the user's hand image included in the captured image or a touch operation on the screen. Let
  すると、指の向きを右から左あるいは左から右へ短時間に水平方向に変化させるジェスチャーや、画面153を構成するタッチスクリーンに対する右スライドや左スライドがされると、ユーザの視点位置の周りに並ぶ演奏者や仮想ディスプレイの動画が移動して、ユーザは、これらの様子を、順に見比べたり、その音声を聞き比べたりできるようになる。 Then, when a gesture of changing the orientation of the finger in the horizontal direction from right to left or left to right in a short period of time, or a right or left slide on the touch screen that constitutes the screen 153 is performed, the user's viewpoint position is changed. The moving images of the performers lined up and the virtual display move, and the user can see and compare these situations in order and listen to and compare their voices.
  また、上記実施形態では、演奏者のアバターをつまんだり複数の指を画面153にタッチして回転させる操作により、アバターの位置や向きを編集可能としている。すなわち、情報処理装置101は、注目オブジェクトが特定されている間、撮影画像に含まれるユーザの手画像に基づくジェスチャー、もしくは、画面に対するタッチ操作に基づいて、注目オブジェクトの仮想空間における位置もしくは向きを変化させることができる。 Further, in the above embodiment, the position and orientation of the avatar can be edited by pinching the player's avatar or touching the screen 153 with a plurality of fingers and rotating the avatar. That is, while the object of interest is being specified, the information processing apparatus 101 determines the position or orientation of the object of interest in the virtual space based on a gesture based on the user's hand image included in the captured image or a touch operation on the screen. can be changed.
  (まとめ)
  以上説明した通り、本実施形態に係る情報処理装置は、カメラを有し、
  現実世界に固定された第1座標系における前記情報処理装置の第1向きを検知する検知部、
  前記カメラにより撮影されている撮影画像にユーザの顔画像が含まれていれば、前記撮影画像および前記顔画像から、前記情報処理装置に固定された第2座標系における前記ユーザの顔の第2向きを推定する推定部、
  前記検知された第1向きと、前記推定された第2向きと、から、前記第1座標系における前記ユーザの顔の第3向きを算出する算出部、
  前記算出された第3向きに応じた情報を出力する出力部
  を備えるように構成する。
(summary)
As described above, the information processing apparatus according to this embodiment has a camera,
a detection unit that detects a first orientation of the information processing device in a first coordinate system fixed in the real world;
If the photographed image taken by the camera contains the face image of the user, the second coordinate system of the user's face in the second coordinate system fixed to the information processing device can be obtained from the photographed image and the face image. an estimator for estimating orientation;
a calculation unit that calculates a third orientation of the user's face in the first coordinate system from the detected first orientation and the estimated second orientation;
An output unit for outputting information corresponding to the calculated third orientation is provided.
  また、本実施形態に係る情報処理装置において、
  前記情報処理装置は、前記ユーザが装着する音響機器に無線もしくは有線により接続され、
  前記出力部は、前記情報を前記音響機器に出力する
  ように構成することができる。
Further, in the information processing device according to the present embodiment,
The information processing device is wirelessly or wiredly connected to the audio equipment worn by the user,
The output unit can be configured to output the information to the audio equipment.
  また、本実施形態に係る情報処理装置において、
  前記音響機器は、外音取り込み可能なヘッドフォン、イヤフォン、ネックスピーカー、骨伝導スピーカー、もしくは、補聴器である
  ように構成することができる。
Further, in the information processing device according to the present embodiment,
The audio device can be configured to be headphones, earphones, neck speakers, bone conduction speakers, or hearing aids capable of capturing ambient sounds.
  また、本実施形態に係る情報処理装置において、前記出力部は、
    仮想音源に対応付けられる仮想方位と、
    前記算出された第3向きと、
の角度差に応じた強度で前記仮想音源をミキシングした音声を前記情報として出力する
  ように構成することができる。
Further, in the information processing apparatus according to the present embodiment, the output unit may
a virtual orientation associated with the virtual sound source;
the calculated third orientation;
A sound obtained by mixing the virtual sound source with an intensity corresponding to the angle difference between the two can be output as the information.
  また、本実施形態に係る情報処理装置において、
  前記仮想方位は、あらかじめ定められる
  ように構成することができる。
Further, in the information processing device according to the present embodiment,
The virtual orientation can be configured to be predetermined.
  また、本実施形態に係る情報処理装置において、
  前記検知部は、前記第1座標系における前記情報処理装置の第1位置をさらに検知し、
  前記仮想音源に対応付けられる前記仮想方位は、
    仮想音源が前記第1座標系において配置される仮想位置と、
    前記検知された第1向きおよび第1位置と、
から、算出される
  ように構成することができる。
Further, in the information processing device according to the present embodiment,
The detection unit further detects a first position of the information processing device in the first coordinate system,
The virtual orientation associated with the virtual sound source is
a virtual position where the virtual sound source is arranged in the first coordinate system;
the sensed first orientation and first position;
can be configured to be calculated from
  また、本実施形態に係る情報処理装置において、
  前記情報処理装置は、前記検知された第1位置および第1向きに応じた映像情報を、前記カメラの撮影方向と同じ方向を表示方向とする画面に表示し、
  前記顔画像の大きさに応じて、前記仮想音源の波形を補正する
  ように構成することができる。
Further, in the information processing device according to the present embodiment,
The information processing device displays video information corresponding to the detected first position and first orientation on a screen whose display direction is the same as the shooting direction of the camera,
The waveform of the virtual sound source may be corrected according to the size of the face image.
  また、本実施形態に係る情報処理装置において、
  前記撮影画像に前記ユーザの前記顔画像と、前記ユーザの手画像と、が含まれていれば、前記第2座標系における前記ユーザの前記顔と、前記ユーザの手と、の距離に応じて、前記仮想音源の波形を補正する
  ように構成することができる。
Further, in the information processing device according to the present embodiment,
If the captured image includes the face image of the user and the hand image of the user, the distance between the face of the user and the hand of the user in the second coordinate system , to correct the waveform of the virtual sound source.
  また、本実施形態に係る情報処理装置において、
  前記撮影画像に前記ユーザの手画像が含まれていれば、前記撮影画像の代表点と、前記手画像と、の距離に応じて、前記仮想音源の波形を補正する
  ように構成することができる。
Further, in the information processing device according to the present embodiment,
If the captured image includes the hand image of the user, the waveform of the virtual sound source can be corrected according to the distance between the representative point of the captured image and the hand image. .
  また、本実施形態に係る情報処理装置において、
  前記撮影画像に前記顔画像が含まれていなければ、前記強度を既定値とする
  ように構成することができる。
Further, in the information processing device according to the present embodiment,
The intensity may be set to a default value if the face image is not included in the captured image.
  また、本実施形態に係る情報処理装置において、
  前記仮想音源は、仮想空間に配置された発音オブジェクトに対応付けられ、
  前記情報処理装置は、
    前記発音オブジェクトが配置された前記検知された第1位置および第1向きに応じた視点位置および視線方向により観察した前記仮想空間の様子を、前記カメラの撮影方向と同じ方向を表示方向とする画面に表示し、
    特定条件が満たされると、前記仮想音源に対応付けられる仮想方位と、前記算出された第3向きと、の角度差が最小の発音オブジェクトを、前記ユーザによる注目オブジェクトとして特定し、
    前記出力部は、前記算出された第3向きに応じた情報を出力するのにかえて、前記特定された注目オブジェクトに対応付けられる仮想音源を、他の仮想音源に優先して出力し、
    前記特定された注目オブジェクトを他の発音オブジェクトより強調して前記画面に表示し、
    解除条件が満たされると、前記注目オブジェクトとしての特定を解除する
  ように構成することができる。
Further, in the information processing device according to the present embodiment,
the virtual sound source is associated with a sounding object placed in the virtual space;
The information processing device is
A screen in which the state of the virtual space observed from the viewpoint position and line-of-sight direction corresponding to the detected first position and first direction in which the sound object is arranged is displayed in the same direction as the shooting direction of the camera. display in
when a specific condition is satisfied, identifying a sounding object having the smallest angular difference between the virtual direction associated with the virtual sound source and the calculated third orientation as the user's attention object;
The output unit outputs the virtual sound source associated with the identified object of interest in preference to other virtual sound sources instead of outputting information according to the calculated third direction,
displaying the identified object of interest on the screen while emphasizing it more than other pronunciation objects;
The identification as the target object can be canceled when the cancellation condition is satisfied.
  また、本実施形態に係る情報処理装置において、
  前記発音オブジェクトは、音声とともに再生される動画であり、
  前記注目オブジェクトが特定されている間、前記情報処理装置は、
    前記注目オブジェクトを前記画面内の所定位置に所定拡大率で表示し、
    前記出力部は、前記注目オブジェクトに対応付けられる仮想音源を所定の増幅率で、他の仮想音源をミュートして、ミキシングした音声を出力し、
  前記注目オブジェクトとしての特定が解除されると、前記情報処理装置は、前記注目オブジェクトとしての特定が解除された発音オブジェクトの仮想方位が前記算出された第3向きに一致するように、前記視点位置を中心に、前記仮想空間に配置された発音オブジェクトの仮想方位を回転させる
  ように構成することができる。
Further, in the information processing device according to the present embodiment,
the pronunciation object is a video that is played back with audio,
While the object of interest is being identified, the information processing device
displaying the target object at a predetermined position in the screen at a predetermined magnification;
The output unit outputs a mixed sound by muting other virtual sound sources with a predetermined amplification factor for the virtual sound source associated with the object of interest,
When the identification as the object of interest is canceled, the information processing device adjusts the viewpoint position so that the virtual orientation of the pronunciation object whose identification as the object of interest has been canceled matches the calculated third orientation. centered around the virtual orientation of the sounding object placed in the virtual space.
  また、本実施形態に係る情報処理装置において、
  前記情報処理装置は、前記撮影画像に含まれる前記ユーザの手画像に基づくジェスチャー、もしくは、前記画面に対するタッチ操作に基づいて、前記視点位置を中心に、前記仮想空間に配置された発音オブジェクトの仮想方位を回転させる
  ように構成することができる。
Further, in the information processing device according to the present embodiment,
The information processing device virtualizes a sounding object arranged in the virtual space around the viewpoint position based on a gesture based on the hand image of the user included in the captured image or a touch operation on the screen. Can be configured to rotate orientation.
  また、本実施形態に係る情報処理装置において、
  前記発音オブジェクトは、音声を発するアバターであり、
  前記注目オブジェクトが特定されている間、前記情報処理装置は、前記撮影画像に含まれる前記ユーザの手画像に基づくジェスチャー、もしくは、前記画面に対するタッチ操作に基づいて、前記注目オブジェクトの前記仮想空間における位置もしくは向きを変化させる
  ように構成することができる。
Further, in the information processing device according to the present embodiment,
the pronunciation object is an avatar that emits a sound,
While the object of interest is being specified, the information processing device moves the object of interest in the virtual space based on a gesture based on the hand image of the user included in the captured image or a touch operation on the screen. It can be configured to change position or orientation.
  本実施形態に係る情報処理方法は、カメラを有する情報処理装置が、
  現実世界に固定された第1座標系における前記情報処理装置の第1向きを検知し、
  前記カメラにより撮影されている撮影画像にユーザの顔画像が含まれていれば、前記撮影画像および前記顔画像から、前記情報処理装置に固定された第2座標系における前記ユーザの顔の第2向きを推定し、
  前記検知された第1向きと、前記推定された第2向きと、から、前記第1座標系における前記ユーザの顔の第3向きを算出し、
  前記算出された第3向きに応じた情報を出力する
  ように構成する。
In the information processing method according to the present embodiment, an information processing device having a camera,
detecting a first orientation of the information processing device in a first coordinate system fixed in the real world;
If the photographed image taken by the camera contains the face image of the user, the second coordinate system of the user's face in the second coordinate system fixed to the information processing device can be obtained from the photographed image and the face image. Estimate the orientation,
calculating a third orientation of the user's face in the first coordinate system from the detected first orientation and the estimated second orientation;
It is configured to output information according to the calculated third orientation.
  本実施形態に係るプログラムは、カメラを有するコンピュータを、
  現実世界に固定された第1座標系における前記情報処理装置の第1向きを検知する検知部、
  前記カメラにより撮影されている撮影画像にユーザの顔画像が含まれていれば、前記撮影画像および前記顔画像から、前記情報処理装置に固定された第2座標系における前記ユーザの顔の第2向きを推定する推定部、
  前記検知された第1向きと、前記推定された第2向きと、から、前記第1座標系における前記ユーザの顔の第3向きを算出する算出部、
  前記算出された第3向きに応じた情報を出力する出力部
  として機能させるように構成する。
A program according to the present embodiment causes a computer having a camera to
a detection unit that detects a first orientation of the information processing device in a first coordinate system fixed in the real world;
If the photographed image taken by the camera contains the face image of the user, the second coordinate system of the user's face in the second coordinate system fixed to the information processing device can be obtained from the photographed image and the face image. an estimator for estimating orientation;
a calculation unit that calculates a third orientation of the user's face in the first coordinate system from the detected first orientation and the estimated second orientation;
It is configured to function as an output unit that outputs information corresponding to the calculated third orientation.
  当該プログラムは、非一時的なコンピュータ読取可能な情報記録媒体に記録して配布、販売することができる。また、コンピュータ通信網等の一時的な伝送媒体を介して配布、販売することができる。   The program may be recorded on a non-temporary computer-readable information recording medium, distributed, and sold. It can also be distributed and sold through a temporary transmission medium such as a computer communication network.
  本実施形態に係るコンピュータ読取可能な非一時的な情報記録媒体は、上記のプログラムが記録されるように構成する。 A computer-readable non-temporary information recording medium according to this embodiment is configured to record the above program.
  本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
  本願においては、日本国に対して令和3年(2021年)4月20日(火)に出願した特許出願特願2021-070745を基礎とする優先権を主張するものとし、指定国の法令が許す限り、当該基礎出願の内容を本願に取り込むものとする。
The present invention is capable of various embodiments and modifications without departing from the broader spirit and scope of the invention. Moreover, the embodiment described above is for explaining the present invention, and does not limit the scope of the present invention. That is, the scope of the present invention is indicated by the claims rather than the embodiments. Various modifications made within the scope of the claims and within the meaning of equivalent inventions are considered to be within the scope of the present invention.
In this application, we claim the priority based on the patent application 2021-070745 filed in Japan on April 20, 2021 (Tuesday), and the laws and regulations of the designated country To the extent permitted by
  本発明によれば、現実世界におけるユーザの顔の向きを推定し、これに応じた情報を出力するための情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体を提供することができる。 According to the present invention, it is possible to provide an information processing device, an information processing method, a program, and an information recording medium for estimating the orientation of a user's face in the real world and outputting information according to this.
  101 情報処理装置
  111 検知部
  112 推定部
  113 算出部
  114 出力部
  151 カメラ
  152 音響機器
  153 画面
  301 特定部
  302 解除部
101 information processing device 111 detection unit 112 estimation unit 113 calculation unit 114 output unit 151 camera 152 audio device 153 screen 301 identification unit 302 release unit

Claims (17)

  1.   カメラを有する情報処理装置であって、
      現実世界に固定された第1座標系における前記情報処理装置の第1向きを検知する検知部、
      前記カメラにより撮影されている撮影画像にユーザの顔画像が含まれていれば、前記撮影画像および前記顔画像から、前記情報処理装置に固定された第2座標系における前記ユーザの顔の第2向きを推定する推定部、
      前記検知された第1向きと、前記推定された第2向きと、から、前記第1座標系における前記ユーザの顔の第3向きを算出する算出部、
      前記算出された第3向きに応じた情報を出力する出力部
      を備えることを特徴とする情報処理装置。
    An information processing device having a camera,
    a detection unit that detects a first orientation of the information processing device in a first coordinate system fixed in the real world;
    If the photographed image taken by the camera contains the face image of the user, the second coordinate system of the user's face in the second coordinate system fixed to the information processing device can be obtained from the photographed image and the face image. an estimator for estimating orientation;
    a calculation unit that calculates a third orientation of the user's face in the first coordinate system from the detected first orientation and the estimated second orientation;
    An information processing apparatus comprising: an output unit that outputs information according to the calculated third orientation.
  2.   前記情報処理装置は、前記ユーザが装着する音響機器に無線もしくは有線により接続され、
      前記出力部は、前記情報を前記音響機器に出力する
      ことを特徴とする請求項1に記載の情報処理装置。
    The information processing device is wirelessly or wiredly connected to the audio equipment worn by the user,
    2. The information processing apparatus according to claim 1, wherein the output unit outputs the information to the audio device.
  3.   前記音響機器は、外音取り込み可能なヘッドフォン、イヤフォン、ネックスピーカー、骨伝導スピーカー、もしくは、補聴器である
      ことを特徴とする請求項2に記載の情報処理装置。
    3. The information processing apparatus according to claim 2, wherein the audio device is a headphone, an earphone, a neck speaker, a bone conduction speaker, or a hearing aid capable of taking in external sound.
  4.   前記出力部は、
        仮想音源に対応付けられる仮想方位と、
        前記算出された第3向きと、
    の角度差に応じた強度で前記仮想音源をミキシングした音声を前記情報として出力する
      ことを特徴とする請求項2または3に記載の情報処理装置。
    The output unit
    a virtual orientation associated with the virtual sound source;
    the calculated third orientation;
    4. The information processing apparatus according to claim 2, wherein a sound obtained by mixing the virtual sound sources with an intensity corresponding to the angular difference is output as the information.
  5.   前記仮想方位は、あらかじめ定められる
      ことを特徴とする請求項4に記載の情報処理装置。
    5. The information processing device according to claim 4, wherein the virtual orientation is determined in advance.
  6.   前記検知部は、前記第1座標系における前記情報処理装置の第1位置をさらに検知し、
      前記仮想音源に対応付けられる前記仮想方位は、
        仮想音源が前記第1座標系において配置される仮想位置と、
        前記検知された第1向きおよび第1位置と、
    から、算出される
      ことを特徴とする請求項4に記載の情報処理装置。
    The detection unit further detects a first position of the information processing device in the first coordinate system,
    The virtual orientation associated with the virtual sound source is
    a virtual position where the virtual sound source is arranged in the first coordinate system;
    the sensed first orientation and first position;
    5. The information processing apparatus according to claim 4, characterized in that it is calculated from:
  7.   前記情報処理装置は、前記検知された第1位置および第1向きに応じた映像情報を、前記カメラの撮影方向と同じ方向を表示方向とする画面に表示し、
      前記顔画像の大きさに応じて、前記仮想音源の波形を補正する
      ことを特徴とする請求項6に記載の情報処理装置。
    The information processing device displays video information corresponding to the detected first position and first orientation on a screen whose display direction is the same as the shooting direction of the camera,
    7. The information processing apparatus according to claim 6, wherein the waveform of said virtual sound source is corrected according to the size of said face image.
  8.   前記撮影画像に前記ユーザの前記顔画像と、前記ユーザの手画像と、が含まれていれば、前記第2座標系における前記ユーザの前記顔と、前記ユーザの手と、の距離に応じて、前記仮想音源の波形を補正する
      ことを特徴とする請求項4に記載の情報処理装置。
    If the captured image includes the face image of the user and the hand image of the user, the distance between the face of the user and the hand of the user in the second coordinate system 5. The information processing apparatus according to claim 4, wherein the waveform of said virtual sound source is corrected.
  9.   前記撮影画像に前記ユーザの手画像が含まれていれば、前記撮影画像の代表点と、前記手画像と、の距離に応じて、前記仮想音源の波形を補正する
      ことを特徴とする請求項4に記載の情報処理装置。
    4. The waveform of the virtual sound source is corrected according to the distance between a representative point of the captured image and the hand image, if the captured image includes the hand image of the user. 5. The information processing device according to 4.
  10.   前記撮影画像に前記顔画像が含まれていなければ、前記強度を既定値とする
      ことを特徴とする請求項4に記載の情報処理装置。
    5. The information processing apparatus according to claim 4, wherein if the captured image does not include the face image, the intensity is set to a default value.
  11.   前記仮想音源は、仮想空間に配置された発音オブジェクトに対応付けられ、
      前記情報処理装置は、
        前記発音オブジェクトが配置された前記検知された第1位置および第1向きに応じた視点位置および視線方向により観察した前記仮想空間の様子を、前記カメラの撮影方向と同じ方向を表示方向とする画面に表示し、
        特定条件が満たされると、前記仮想音源に対応付けられる仮想方位と、前記算出された第3向きと、の角度差が最小の発音オブジェクトを、前記ユーザによる注目オブジェクトとして特定し、
        前記出力部は、前記算出された第3向きに応じた情報を出力するのにかえて、前記特定された注目オブジェクトに対応付けられる仮想音源を、他の仮想音源に優先して出力し、
        前記特定された注目オブジェクトを他の発音オブジェクトより強調して前記画面に表示し、
        解除条件が満たされると、前記注目オブジェクトとしての特定を解除する
      ことを特徴とする請求項4に記載の情報処理装置。
    the virtual sound source is associated with a sounding object placed in the virtual space;
    The information processing device is
    A screen in which the state of the virtual space observed from the viewpoint position and line-of-sight direction corresponding to the detected first position and first direction where the sound object is arranged is displayed in the same direction as the imaging direction of the camera. display in
    when a specific condition is satisfied, identifying a pronunciation object having a minimum angular difference between the virtual direction associated with the virtual sound source and the calculated third orientation as the user's attention object;
    The output unit outputs the virtual sound source associated with the identified object of interest in preference to other virtual sound sources instead of outputting information according to the calculated third direction,
    displaying the identified object of interest on the screen while emphasizing it more than other pronunciation objects;
    5. The information processing apparatus according to claim 4, wherein the identification as the target object is canceled when a cancellation condition is satisfied.
  12.   前記情報処理装置は、前記撮影画像に含まれる前記ユーザの手画像に基づくジェスチャー、もしくは、前記画面に対するタッチ操作に基づいて、前記視点位置を中心に、前記仮想空間に配置された発音オブジェクトの仮想方位を回転させる
      ことを特徴とする請求項11に記載の情報処理装置。
    The information processing device virtualizes a sounding object arranged in the virtual space around the viewpoint position based on a gesture based on the hand image of the user included in the captured image or a touch operation on the screen. 12. The information processing apparatus according to claim 11, wherein the orientation is rotated.
  13.   前記発音オブジェクトは、音声とともに再生される動画であり、
      前記注目オブジェクトが特定されている間、前記情報処理装置は、
        前記注目オブジェクトを前記画面内の所定位置に所定拡大率で表示し、
        前記出力部は、前記注目オブジェクトに対応付けられる仮想音源を所定の増幅率で、他の仮想音源をミュートして、ミキシングした音声を出力し、
      前記注目オブジェクトとしての特定が解除されると、前記情報処理装置は、前記注目オブジェクトとしての特定が解除された発音オブジェクトの仮想方位が前記算出された第3向きに一致するように、前記視点位置を中心に、前記仮想空間に配置された発音オブジェクトの仮想方位を回転させる
      ことを特徴とする請求項11または12に記載の情報処理装置。
    the pronunciation object is a video that is played back with audio,
    While the object of interest is being identified, the information processing device
    displaying the target object at a predetermined position in the screen at a predetermined magnification;
    The output unit outputs a mixed sound by muting other virtual sound sources with a predetermined amplification factor for the virtual sound source associated with the object of interest,
    When the identification as the object of interest is canceled, the information processing device adjusts the viewpoint position so that the virtual orientation of the pronunciation object whose identification as the object of interest has been canceled matches the calculated third orientation. 13. The information processing apparatus according to claim 11, wherein the virtual orientation of the sounding object placed in the virtual space is rotated around .
  14.   前記発音オブジェクトは、音声を発するアバターであり、
      前記注目オブジェクトが特定されている間、前記情報処理装置は、前記撮影画像に含まれる前記ユーザの手画像に基づくジェスチャー、もしくは、前記画面に対するタッチ操作に基づいて、前記注目オブジェクトの前記仮想空間における位置もしくは向きを変化させる
      ことを特徴とする請求項11または12に記載の情報処理装置。
    the pronunciation object is an avatar that emits a sound,
    While the object of interest is being specified, the information processing device moves the object of interest in the virtual space based on a gesture based on the hand image of the user included in the captured image or a touch operation on the screen. 13. The information processing device according to claim 11, wherein the position or orientation is changed.
  15.   カメラを有する情報処理装置が、
      現実世界に固定された第1座標系における前記情報処理装置の第1向きを検知し、
      前記カメラにより撮影されている撮影画像にユーザの顔画像が含まれていれば、前記撮影画像および前記顔画像から、前記情報処理装置に固定された第2座標系における前記ユーザの顔の第2向きを推定し、
      前記検知された第1向きと、前記推定された第2向きと、から、前記第1座標系における前記ユーザの顔の第3向きを算出し、
      前記算出された第3向きに応じた情報を出力する
      ことを特徴とする情報処理方法。
    An information processing device having a camera,
    detecting a first orientation of the information processing device in a first coordinate system fixed in the real world;
    If the photographed image taken by the camera contains the face image of the user, the second coordinate system of the user's face in the second coordinate system fixed to the information processing device can be obtained from the photographed image and the face image. Estimate the orientation,
    calculating a third orientation of the user's face in the first coordinate system from the detected first orientation and the estimated second orientation;
    An information processing method, characterized by outputting information corresponding to the calculated third orientation.
  16.   カメラを有するコンピュータを、
      現実世界に固定された第1座標系における前記情報処理装置の第1向きを検知する検知部、
      前記カメラにより撮影されている撮影画像にユーザの顔画像が含まれていれば、前記撮影画像および前記顔画像から、前記情報処理装置に固定された第2座標系における前記ユーザの顔の第2向きを推定する推定部、
      前記検知された第1向きと、前記推定された第2向きと、から、前記第1座標系における前記ユーザの顔の第3向きを算出する算出部、
      前記算出された第3向きに応じた情報を出力する出力部
      として機能させることを特徴とするプログラム。
    a computer having a camera,
    a detection unit that detects a first orientation of the information processing device in a first coordinate system fixed in the real world;
    If the photographed image taken by the camera contains the face image of the user, the second coordinate system of the user's face in the second coordinate system fixed to the information processing device can be obtained from the photographed image and the face image. an estimator for estimating orientation;
    a calculation unit that calculates a third orientation of the user's face in the first coordinate system from the detected first orientation and the estimated second orientation;
    A program characterized by functioning as an output unit that outputs information according to the calculated third orientation.
  17.   請求項16に記載のプログラムが記録されたコンピュータ読取可能な非一時的な情報記録媒体。 A computer-readable non-transitory information recording medium on which the program according to claim 16 is recorded.
PCT/JP2022/008277 2021-04-20 2022-02-28 Information processing device, information processing method, program, and information recording medium WO2022224586A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023516316A JPWO2022224586A1 (en) 2021-04-20 2022-02-28

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021070745 2021-04-20
JP2021-070745 2021-04-20

Publications (1)

Publication Number Publication Date
WO2022224586A1 true WO2022224586A1 (en) 2022-10-27

Family

ID=83722776

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/008277 WO2022224586A1 (en) 2021-04-20 2022-02-28 Information processing device, information processing method, program, and information recording medium

Country Status (2)

Country Link
JP (1) JPWO2022224586A1 (en)
WO (1) WO2022224586A1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008092193A (en) * 2006-09-29 2008-04-17 Japan Science & Technology Agency Sound source selecting device
JP2017092732A (en) * 2015-11-11 2017-05-25 株式会社国際電気通信基礎技術研究所 Auditory supporting system and auditory supporting device
WO2019026597A1 (en) * 2017-07-31 2019-02-07 ソニー株式会社 Information processing device, information processing method, and program
JP2019126033A (en) * 2018-01-18 2019-07-25 株式会社電通ライブ Speech information service system, speech information service device, and program
US20190335288A1 (en) * 2014-12-23 2019-10-31 Ray Latypov Method of Providing to User 3D Sound in Virtual Environment
WO2020184021A1 (en) * 2019-03-12 2020-09-17 ソニー株式会社 Information processing device, information processing method, and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008092193A (en) * 2006-09-29 2008-04-17 Japan Science & Technology Agency Sound source selecting device
US20190335288A1 (en) * 2014-12-23 2019-10-31 Ray Latypov Method of Providing to User 3D Sound in Virtual Environment
JP2017092732A (en) * 2015-11-11 2017-05-25 株式会社国際電気通信基礎技術研究所 Auditory supporting system and auditory supporting device
WO2019026597A1 (en) * 2017-07-31 2019-02-07 ソニー株式会社 Information processing device, information processing method, and program
JP2019126033A (en) * 2018-01-18 2019-07-25 株式会社電通ライブ Speech information service system, speech information service device, and program
WO2020184021A1 (en) * 2019-03-12 2020-09-17 ソニー株式会社 Information processing device, information processing method, and program

Also Published As

Publication number Publication date
JPWO2022224586A1 (en) 2022-10-27

Similar Documents

Publication Publication Date Title
CN108769562B (en) Method and device for generating special effect video
CN107967706B (en) Multimedia data processing method and device and computer readable storage medium
JP5992210B2 (en) Information processing program, information processing apparatus, information processing system, and information processing method
US9754621B2 (en) Appending information to an audio recording
US20190139312A1 (en) An apparatus and associated methods
US10798518B2 (en) Apparatus and associated methods
WO2021068903A1 (en) Method for determining volume adjustment ratio information, apparatus, device and storage medium
JP6932206B2 (en) Equipment and related methods for the presentation of spatial audio
AU2014200042B2 (en) Method and apparatus for controlling contents in electronic device
CN109346111B (en) Data processing method, device, terminal and storage medium
CN109192218B (en) Method and apparatus for audio processing
JP2020520576A5 (en)
KR20130056529A (en) Apparatus and method for providing augmented reality service in portable terminal
CN111276122A (en) Audio generation method and device and storage medium
CN107087208B (en) Panoramic video playing method, system and storage device
CN110600034B (en) Singing voice generation method, singing voice generation device, singing voice generation equipment and storage medium
EP3742185B1 (en) An apparatus and associated methods for capture of spatial audio
US20220415361A1 (en) Method for processing videos and electronic device
JP5649809B2 (en) Multimedia sticky note device
CN113766275A (en) Video editing method, device, terminal and storage medium
US10467785B2 (en) Effect control device and effect control method
CN110136752B (en) Audio processing method, device, terminal and computer readable storage medium
WO2022224586A1 (en) Information processing device, information processing method, program, and information recording medium
US10200606B2 (en) Image processing apparatus and control method of the same
CN109981893B (en) Lyric display method and device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22791368

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023516316

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22791368

Country of ref document: EP

Kind code of ref document: A1