WO2022185725A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2022185725A1
WO2022185725A1 PCT/JP2022/000832 JP2022000832W WO2022185725A1 WO 2022185725 A1 WO2022185725 A1 WO 2022185725A1 JP 2022000832 W JP2022000832 W JP 2022000832W WO 2022185725 A1 WO2022185725 A1 WO 2022185725A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
sound source
user
information processing
source
Prior art date
Application number
PCT/JP2022/000832
Other languages
English (en)
French (fr)
Inventor
淳也 鈴木
健太郎 木村
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2023503608A priority Critical patent/JPWO2022185725A1/ja
Priority to EP22762784.1A priority patent/EP4304207A1/en
Priority to CN202280017404.4A priority patent/CN117083882A/zh
Publication of WO2022185725A1 publication Critical patent/WO2022185725A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program that can appropriately reproduce the sense of distance from the user to the virtual sound source and the apparent size of the virtual sound source in spatial acoustic representation.
  • HRTF Head-Related Transfer Function
  • the direction of the virtual sound source can be expressed by calculation using HRTF, it is difficult to sufficiently express the sense of distance from the user to the virtual sound source by conventional methods.
  • This technology has been developed in view of this situation, and is intended to appropriately reproduce the sense of distance from the user to the virtual sound source and the apparent size of the virtual sound source.
  • An information processing device sets a plurality of second sound sources at positions corresponding to the size of a sound image of a first sound, which is the sound of the first sound source, and the first sound source.
  • a sound source setting unit first sound data obtained by convolution processing using HRTF information corresponding to the position of the first sound source, and HRTF information corresponding to the position of each of the second sound sources.
  • an output control unit for outputting a plurality of second sound data obtained by the convolution process, wherein each of the second sound sources is set to be positioned around the first sound source.
  • a plurality of second sound sources are set at positions corresponding to the size of a sound image of a first sound source and a first sound that is the sound of the first sound source, First sound data obtained by convolution processing using HRTF information corresponding to the position of one sound source, and a plurality of sound data obtained by convolution processing using HRTF information corresponding to the position of each of the second sound sources is output.
  • Each said second sound source is set to be positioned around said first sound source.
  • FIG. 4 is a diagram showing an example of how a listener perceives sound; It is a figure which shows the example of the distance expression in this technique.
  • FIG. 4 is a diagram showing the positional relationship between a central sound source and a user;
  • FIG. 4 is a diagram showing the positional relationship between a central sound source and peripheral sound sources;
  • FIG. 11 is another diagram showing the positional relationship between the central sound source and the peripheral sound sources;
  • FIG. 11 is another diagram showing an example of distance expression in the present technology; It is a figure which shows the shape of the sound image in this technique.
  • 1 is a diagram illustrating a configuration example of a sound reproduction system to which the present technology is applied;
  • FIG. 2 is a block diagram showing a hardware configuration example of the information processing apparatus 10;
  • FIG. 1 is a diagram illustrating a configuration example of a sound reproduction system to which the present technology is applied;
  • FIG. 2 is a block diagram showing a hardware configuration example of the information processing apparatus 10;
  • FIG. 2 is a block diagram showing a functional configuration example of the information processing apparatus 10;
  • FIG. 4 is a flowchart for explaining processing of the information processing apparatus 10;
  • FIG. 10 is a diagram showing another configuration example of a sound reproduction system to which the present technology is applied;
  • FIG. 10 is a diagram illustrating an example of an obstacle notification method to which the present technology is applied;
  • FIG. 13 is another diagram illustrating an example of an obstacle notification method to which the present technology is applied;
  • FIG. 10 is a diagram illustrating an example of a method of notifying a distance to a destination to which the present technology is applied;
  • FIG. 10 is a diagram illustrating an example of a method for notifying a notification sound of a home appliance to which the present technology is applied; It is a figure which shows the structural example of a teleconferencing system.
  • FIG. 10 is a diagram showing a display example of a screen serving as a user interface during a teleconference;
  • FIG. 4 is a diagram showing an example of the size of the sound image of each user's voice;
  • FIG. 10 is a diagram showing an example of a method of notifying a simulated engine sound of a car;
  • 1 is a diagram illustrating an example of a playback device;
  • FIG. 5 is a diagram illustrating another example of a playback device;
  • FIG. 1 is a diagram showing an example of how a listener perceives sound.
  • a car is shown as the object that is the sound source. It is assumed that the car is running while emitting sounds such as engine sound and running sound. The way the user, who is a listener, perceives the sound changes according to the distance from the car.
  • the car is located far away from the user.
  • the user perceives the sound from the car as the sound from a point sound source.
  • the point sound source perceived by the user is represented by the small colored circle #1.
  • the car is located near the user.
  • the user perceives the sound from the car to be loud, as represented by the colored circle #2 surrounding the car.
  • the apparent loudness of sound perceived by the user is referred to as the loudness of the sound image.
  • the user perceives the distance to the sound source by feeling the size of the sound image.
  • FIG. 2 is a diagram showing an example of distance expression in the present technology.
  • the distance from the user to the object that serves as the virtual sound source is expressed by controlling the size of the sound image.
  • the size of the sound image that the user hears it is possible to make the user perceive the distance from the user to the virtual sound source.
  • a user U wears an output device such as headphones 1 and listens to the sound from a car, which is a virtual sound source.
  • the sound from the virtual sound source is reproduced by, for example, a smartphone carried by the user U and output from the headphones 1 .
  • the sound of a car as an object corresponding to the virtual sound source is composed of sounds from a central sound source C and four peripheral sound sources U, namely peripheral sound sources LU, RU, LD, and RD.
  • the central sound source C and the peripheral sound source U are virtual sound sources represented by computation using HRTF.
  • the central sound source C and the peripheral sound sources LU, RU, LD, and RD are illustrated as speakers. The same applies to other figures to be described later.
  • sound is presented by, for example, sound from each sound source generated by calculation using head-related transfer functions (HRTF) corresponding to the positions of the central sound source and each peripheral sound source. , and output from the headphone 1.
  • HRTF head-related transfer functions
  • the sound from the central sound source is the central sound that expresses the sound of the object that is the virtual sound source, and is called the central sound in this specification.
  • the sound from the peripheral sound source is the sound that expresses the size of the sound image of the central sound, and is called the peripheral sound in this specification.
  • the size of the sound image of the central sound is controlled by changing the positions of the peripheral sound sources.
  • the car as the virtual sound source object is shown near the user, but the virtual sound source object may or may not be near the user. Also, an object that serves as a virtual sound source may or may not have an entity.
  • objects around the user can be expressed as if they were sound sources.
  • sounds around the user it is possible to express sounds as if they are coming from an empty space around the user.
  • the user By listening to the central sound and a plurality of peripheral sounds, the user feels that the sound image of the central sound representing the sound from the virtual sound source has a size as indicated by the colored circle #11. Become. As described with reference to FIG. 1, the user perceives a sense of distance to an object serving as a virtual sound source according to the perceived size of the sound image. , it will be perceived as if the car, which is the virtual sound source, is nearby.
  • the user can perceive a sense of distance from the user to the object serving as the virtual sound source in spatial audio, and can experience spatial audio with a sense of presence.
  • FIG. 3 is a diagram showing the positional relationship between the central sound source and the user.
  • a center sound source C which is a virtual sound source, is set at a position P1, which is the center position of the sound image to be felt by the user.
  • the position P1 is a position in a direction shifted by a predetermined horizontal angle Azim (d: degree) and vertical angle Elev (d) from the front direction of the user, for example.
  • the distance from the user to the position P1 is a distance L (m), which is a predetermined distance.
  • the central sound which is the sound of the central sound source C, is the central sound that expresses the sound of the object that is the virtual sound source. Also, the center sound is used as a reference sound for making the user perceive the distance from the user to the virtual sound source.
  • a plurality of peripheral sound sources are set around the central sound source C set in this way.
  • the plurality of peripheral sound sources are arranged at regular intervals on a circle around the central sound source C.
  • FIG. 4 is a diagram showing the positional relationship between the central sound source and the peripheral sound sources.
  • peripheral sound sources LU, RU, LD, and RD are arranged around the central sound source C, respectively.
  • the peripheral sounds which are the sounds of the peripheral sound sources LU, RU, LD, and RD, are sounds for expressing the size of the sound image of the central sound.
  • the user feels that the sound image of the central sound has a large size. This allows the user to perceive the distance to the object, which is the virtual sound source.
  • the peripheral sound source RU is located at a position P11, which is a horizontal angle rAzim(d) and a vertical angle rElev(d) away from the position P1 where the central sound source C is located, with respect to the user U.
  • the remaining surrounding sound sources LU, RD, and LD are arranged at positions P12, P13, and P14, which are set with reference to position P1.
  • a position P12 where the surrounding sound source LU is arranged is a position separated from the position P1 by a horizontal angle -rAzim(d) and a vertical angle rElev(d).
  • a position P13 where the ambient sound source RD is arranged is a position separated from the position P1 by a horizontal angle rAzim(d) and a vertical angle -rElev(d). Angle ⁇ rAzim(d), vertical angle ⁇ rElev(d) apart.
  • the distances from the central sound source C to each peripheral sound source are the same.
  • the four peripheral sound sources LU, RU, LD, and RD are arranged radially with respect to the central sound source C.
  • FIG. 5 is another diagram showing the positional relationship between the central sound source and the peripheral sound sources.
  • the positional relationship between the central sound source and the peripheral sound sources is the relationship shown in A in FIG.
  • the positional relationship between the central sound source and the peripheral sound sources is the relationship shown in FIG. 5B.
  • the positions of the plurality of peripheral sound sources set around the central sound source C as described above are different depending on the size of the sound image of the central sound that the user is to feel.
  • peripheral sound sources Although an example in which four peripheral sound sources are set has been described as a representative example, the number of peripheral sound sources is not limited to this.
  • FIG. 6 is another diagram showing an example of distance expression in this technology.
  • FIG. 6 represents the positions of the surrounding sound sources when the distance from the user U wearing the headphone 1 to the virtual sound source is long.
  • Fig. 6A by arranging each peripheral sound source near the central sound source and expressing the size of the sound image of the central sound in a small size, the user perceives the distance to the virtual sound source as being far away. do. As described above, the smaller the perceived sound image, the farther the user perceives the virtual sound source.
  • FIG. 6 represents the positions of the surrounding sound sources when the distance from the user U wearing the headphones 1 to the virtual sound source is short.
  • FIG. 6B by arranging each peripheral sound source at a position away from the central sound source and expressing the size of the sound image of the central sound in a large size, the user perceives the virtual sound source as if it were nearby. As described above, the larger the perceived sound image, the closer the user perceives the virtual sound source.
  • the user can perceive different distances to the virtual sound source by controlling the positions of the peripheral sound sources arranged around the central sound source.
  • FIG. 7 is a diagram showing the shape of a sound image in this technology.
  • FIG. 7A shows the shape of the sound source when the absolute value of the horizontal angle between the central sound source and the peripheral sound sources is greater than the absolute value of the vertical angle. At this time, the shape of the sound image of the central sound perceived by the user is horizontally long as indicated by the colored ellipse.
  • FIG. 7B shows the shape of the sound source when the absolute value of the vertical angle between the central sound source and the peripheral sound sources is greater than the absolute value of the horizontal angle. At this time, the shape of the sound image of the central sound perceived by the user is vertically long as indicated by the colored ellipse.
  • FIG. 8 is a diagram showing a configuration example of a sound reproduction system to which this technology is applied.
  • the sound reproduction system is configured by connecting the information processing device 10 and the headphones 1 .
  • a user wears headphones 1 and carries an information processing device 10 .
  • a user can experience the spatial sound of the present technology by listening to the sound corresponding to the sound data processed by the information processing device 10 through the headphones 1 connected to the information processing device 10 .
  • the information processing device 10 is, for example, a smartphone, mobile phone, PC, television, tablet, etc. owned by the user.
  • the headphone 1 is also called a playback device, and an earphone or the like is assumed in addition to the headphone 1.
  • the headphone 1 is worn on the user's head, more specifically, on the user's ear, and is connected to the information processing device 10 by wire or wirelessly.
  • FIG. 9 is a block diagram showing a hardware configuration example of the information processing apparatus 10. As shown in FIG.
  • the information processing apparatus 10 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, and a RAM (Random Access Memory) 13, which are interconnected by a bus 14. be.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the information processing apparatus 10 also includes an input/output interface 15, an input section 16 configured with various buttons and a touch panel, and an output section 17 configured with a display, a speaker, and the like.
  • the bus 14 is connected to an input/output interface 15 to which an input section 16 and an output section 17 are connected.
  • the information processing apparatus 10 further includes a storage unit 18 made up of a hard disk, non-volatile memory, etc., a communication unit 19 made up of a network interface, etc., and a drive 20 that drives removable media 21 .
  • a storage unit 18 , a communication unit 19 and a drive 20 are connected to the input/output interface 15 .
  • the information processing device 10 functions as an information processing device that processes sound data reproduced by a reproduction device such as the headphones 1 worn by the user.
  • the communication unit 19 functions as an output unit that supplies audio data when the information processing device 10 and the playback device are wirelessly connected.
  • the communication unit 19 may function as an acquisition unit that acquires virtual sound source data and HRTF information via a network.
  • FIG. 10 is a block diagram showing a functional configuration example of the information processing device 10. As shown in FIG.
  • the information processing section 30 includes a sound source setting section 31, a spatial sound generation section 32 . It has an output control unit 33 .
  • Each configuration shown in FIG. 10 is realized by executing a predetermined program by the CPU 11 shown in FIG.
  • the sound source setting unit 31 sets a virtual sound source for expressing a sense of distance at a predetermined position. Further, the sound source setting unit 31 sets a central sound source according to the position of the virtual sound source, and sets peripheral sound sources at positions according to the distance to the virtual sound source.
  • the spatial sound generation unit 32 generates sound data of sounds from the central sound source and peripheral sound sources set by the sound source setting unit 31 .
  • the spatial sound generation unit 32 performs convolution processing on the virtual sound source data based on HRTF information corresponding to the position of the central sound source to generate sound data of the central sound.
  • the spatial sound generation unit 32 also performs convolution processing on the virtual sound source data based on HRTF information corresponding to the position of each surrounding sound source to generate sound data of each surrounding sound.
  • the virtual sound source data to be subjected to convolution processing based on HRTF information according to the position of the central sound source and the virtual sound source data to be subjected to convolution processing based on HRTF information according to the positions of the peripheral sound sources are the same data. Alternatively, different data may be used.
  • the output control unit 33 converts the sound data of the central sound generated by the spatial sound generation unit 32 and the sound data of each peripheral sound into L/R sound data.
  • the output control unit 33 controls the output unit 17 or the communication unit 19 to output the converted sound data from the playback device worn by the user.
  • the output control unit 33 appropriately adjusts the volume of the central sound and the volume of each peripheral sound. For example, it is possible to decrease the volume of the peripheral sound to decrease the size of the sound image of the central sound, or increase the volume of the peripheral sound to increase the size of the central sound image. Also, the volume values of the respective ambient sounds can be set to either the same value or different values.
  • the information processing section 30 sets the virtual sound source and also sets the central sound source and the peripheral sound sources. Further, the information processing unit 30 performs convolution processing based on HRTF information corresponding to the positions of the central sound source and the peripheral sound sources, thereby generating sound data of the central sound and the peripheral sounds, and outputting them to the playback device. .
  • HRTF data corresponding to the position of the central sound source and HRTF data corresponding to the positions of the peripheral sound sources are synthesized by, for example, multiplying them on the frequency axis. processing may be realized.
  • the HRTF data after synthesis becomes HRTF data for representing the area, which is the apparent size of the virtual sound source.
  • step S101 the sound source setting unit 31 sets a virtual sound source at a predetermined position.
  • step S102 the sound source setting unit 31 sets the central sound source according to the position of the virtual sound source.
  • step S103 the sound source setting unit 31 sets a surrounding sound source according to the distance from the user to the virtual sound source.
  • the sound volume of each sound source is appropriately set.
  • step S104 the spatial sound generation unit 32 performs convolution processing based on the HRTF information to generate sound data of the central sound, which is the sound of the central sound source, and the peripheral sound, which is the sound of the peripheral sound sources.
  • the sound data of the central sound and the sound data of the peripheral sounds generated by the convolution processing based on the HRTF information are respectively supplied to the playback device and used to output the central sound and the peripheral sounds.
  • step S105 the sound source setting unit 31 determines whether or not the distance from the user to the virtual sound source changes.
  • the sound source setting unit 31 controls the positions of the surrounding sound sources according to the changed distance in step S106. For example, when expressing that a virtual sound source approaches, the sound source setting unit 31 controls the position of each peripheral sound source to move away from the central sound source. Also, when expressing that the virtual sound source moves away, the sound source setting unit 31 controls the positions of the peripheral sound sources to approach the central sound source.
  • step S107 the spatial sound generation unit 32 performs convolution processing based on the HRTF information to generate central sound and peripheral sound data that are set again according to the distance to the virtual sound source. After the central sound and peripheral sounds are output using the sound data generated by the convolution process based on the HRTF information, the process ends.
  • step S105 if it is determined in step S105 that the distance from the user to the virtual sound source does not change, the process is similarly terminated. The above processing is repeated while the user listens to the sound of the virtual sound source.
  • the information processing device 10 can appropriately express the sense of distance from the user to the virtual sound source.
  • the user will be able to perceive the distance to the virtual sound source through a realistic spatial acoustic experience.
  • FIG. 12 is a diagram showing another configuration example of a sound reproduction system to which this technology is applied.
  • the sound reproduction system to which the present technology is applied may include an information processing device 10, a reproduction device 50, a virtual sound source data provision server 60, and an HRTF server 70.
  • a playback device 50 is shown in place of the headphones 1.
  • FIG. The playback device 50 is a general term for devices such as the headphones 1 and earphones worn by the user to listen to sounds.
  • the information processing device 10 and the playback device 50 function by receiving data provided from a virtual sound source data providing server 60, an HRTF server 70, or the like connected via a network such as the Internet. be done.
  • the information processing device 10 communicates with the virtual sound source data providing server 60 and acquires virtual sound source data provided from the virtual sound source data providing server 60 .
  • the information processing device 10 also communicates with the HRTF server 70 and acquires HRTF information provided by the HRTF server 70 .
  • HRTF information is data for adding the transfer characteristics from the virtual sound source to the user's ear (eardrum), that is, the head-related transfer function for localizing the sound image at the position of the virtual sound source for each direction of the virtual sound source viewed from the user. This is the data recorded in
  • the HRTF information acquired from the HRTF server 70 may be recorded in the information processing device 10, or may be acquired from the HRTF server 70 each time the sound of the virtual sound source is output.
  • HRIR Head Related Impulse Response
  • HRTF Head Related Impulse Response
  • the HRTF information may be personalized according to the user's individual physical characteristics, or may be shared by multiple users.
  • the personalized HRTF information may be information obtained by placing the measurer in a test environment and actually measuring it, or information calculated from the ear image of the measurer. Information calculated based on the head and ear size information of the measurer may be used as the personalized HRTF information.
  • Commonly used HRTF information may be information obtained by measuring using a dummy head, or may be information obtained by averaging HRTF information from multiple people.
  • a user may be allowed to compare reproduced sounds using a plurality of HRTF information, and the HRTF information that the user determines to be most suitable for him/herself may be used as commonly used HRTF information.
  • the playback device 50 in FIG. 12 has a communication section 51, a control section 52, and an output section 53.
  • the playback device 50 may perform at least some of the above-described functions of the information processing device 10, and the playback device 50 may perform processing for generating the sound of the virtual sound source.
  • the control unit 52 of the playback device 50 acquires virtual sound source data and HRTF information through communication in the communication unit 51, and performs the above-described processing for generating virtual sound source sound.
  • the virtual sound source data providing server 60 and the HRTF server 70 are each composed of one device, but they may be composed of a plurality of devices on the cloud.
  • the virtual sound source data providing server 60 and the HRTF server 70 may be realized by one device.
  • FIG. 13 is a diagram showing an example of an obstacle notification method to which this technology is applied.
  • FIG. 13 shows a user U walking with a white cane W.
  • a user U wears headphones 1 .
  • the white cane W held by the user U includes an ultrasonic speaker section that emits ultrasonic waves, a microphone section that receives reflected ultrasonic waves, and a communication section that communicates with the headphones 1 (all not shown).
  • the white cane W also includes a processing control section that controls the output of ultrasonic waves from the ultrasonic speaker section and processes sounds detected by the microphone section. These configurations are provided in a housing formed at the upper end of the white cane W, for example.
  • the ultrasonic speaker section and microphone section provided on the white cane W function as sensors and notify the user U of information about obstacles in the surrounding area. Notification to the user U is performed using the sound of a virtual sound source that gives a sense of distance based on the size of the sound image.
  • the ultrasonic waves output from the ultrasonic speaker unit of the white cane W are reflected by the surrounding wall X, which is an obstacle.
  • the ultrasonic waves reflected by the wall X are detected by the white cane W's microphone.
  • the processing control unit of the white cane W detects the distance to the wall X, which is a peripheral obstacle, and the direction of the wall X as spatial information.
  • the processing control unit of the white cane W When the processing control unit of the white cane W detects the distance to the wall X and the direction of the wall X, it sets the obstacle wall X as an object corresponding to the virtual sound source.
  • the processing control unit sets a central sound source and a peripheral sound source expressing the distance to the wall X and the direction of the wall X.
  • the central sound source is set in the direction of the wall X
  • the peripheral sound sources are set at positions corresponding to the size of the sound image expressing the distance to the wall X.
  • the processing control unit treats data such as notification sounds as virtual sound source data, and performs convolution processing on the virtual sound source data based on HRTF information corresponding to the respective positions of the central sound source and the peripheral sound sources to obtain the central sound and the peripheral sound. Generate sound data for sound.
  • the processing control unit transmits the sound data obtained by performing the convolution processing to the headphone 1 worn by the user U, and outputs the central sound and the peripheral sound.
  • a visually impaired user can only obtain information about 1 meter around them, and can only obtain information about a few meters ahead. Danger arises because information on obstacles such as walls, steps, and cars cannot be obtained.
  • the user U can perceive not only the direction of the surrounding obstacles but also the distance to the obstacle only by the sound. becomes possible.
  • space information such as whether or not there is a space in front of the lower part of the vehicle, such as the edge of the platform, is also acquired as spatial information.
  • the white cane W acquires distance information to surrounding obstacles by using the ultrasonic speaker unit and the microphone unit as sensors. Express using sound.
  • the user can immediately know information such as surrounding obstacles even while walking.
  • the relationship between how the user perceives the distance and the size of the sound image may be learned in advance, and the size of the sound image may be adjusted according to the user's recognition pattern.
  • the user may be able to easily perceive the sense of distance.
  • FIG. 15 is a diagram showing an example of a method of notifying the distance to the destination to which this technology is applied.
  • a user U has an information processing device 10 (not shown) and is walking to a destination D where there is a store or the like.
  • the information processing device 10 possessed by the user U includes a position detection unit that detects the current position of the user U and a surrounding information acquisition unit that acquires information such as surrounding stations.
  • the information processing apparatus 10 acquires the position of the user U by the position detection unit, and acquires the peripheral information by the peripheral information acquisition unit. Further, the information processing apparatus 10 controls the size of the sound image presented to the user U according to the distance to the destination D, thereby allowing the user U to intuitively perceive the distance to the destination D.
  • the information processing device 10 increases the size of the sound image representing the destination D as the user U approaches the destination D. This enables the user U to perceive that the distance to the destination D is short.
  • FIG. 15A is a diagram showing an example of a sound image when the distance to the destination D is long. At this time, the sound representing the destination D is presented as the sound of a small sound image as indicated by a small colored circle #51.
  • FIG. 15B is a diagram showing an example of a sound image when the distance to the destination D is short. At this time, the sound representing the destination D is presented as a sound with a large sound image as indicated by the colored circle #52.
  • FIG. 16 is a diagram showing an example of a notification sound notification method for home appliances to which the present technology is applied.
  • FIG. 16 shows how, for example, the notification sound of the kettle is presented to the user U.
  • the information processing device 10 possessed by the user U includes a detection unit that detects the degree of urgency and importance of the content of the notification in cooperation with other devices such as household electric appliances (household appliances).
  • the information processing apparatus 10 changes the size of the sound image of the notification sound of the home appliance according to the degree of urgency and importance detected by the detection unit, thereby intuitively sensing the degree of urgency and importance of the notification sound. to user U.
  • the notification sound of the home appliance is presented by increasing the size of the sound image. It becomes possible to make the user U notice.
  • the urgency and importance of home appliance alarm sounds are set, for example, according to the danger. When the water boils, it is dangerous to leave it as it is without noticing the notification sound. A high level of urgency and importance is set for the notification in this case.
  • the home appliance is a kettle, but it can also be applied to the presentation of notification sounds for other home appliances.
  • Applicable home appliances include refrigerators, microwave ovens, rice cookers, dishwashers, washing machines, water heaters, and vacuum cleaners.
  • the examples given here are general ones, and are not limited to those illustrated.
  • the specific parts of the equipment are, for example, switches, buttons, touch panels, etc. provided in the equipment.
  • the user not only perceives a sense of distance to the virtual sound source, but also presents the importance and urgency of the notification sound of the device to the user and guides the user's line of sight. becomes possible.
  • FIG. 17 is a diagram showing a configuration example of a remote conference system.
  • FIG. 17 shows, for example, remote users A to D having a conference via a network 101 such as the Internet.
  • a communication management server 100 is connected to the network 101 .
  • the communication management server 100 controls transmission and reception of voice data between users. Audio data transmitted from the information processing device 10 used by each user is mixed in the communication management server 100 and distributed to all the information processing devices 10 .
  • the communication management server 100 manages the position of each user on the space map, and outputs each user's voice as sound having a sound image whose size corresponds to the distance between each user on the space map.
  • the communication management server 100 has functions similar to those of the information processing apparatus 10 described above.
  • Each of the users A to D wears the headphones 1 and participates in the teleconference using the information processing devices 10A to 10D.
  • Each information processing device 10 has a built-in or connected microphone, and is installed with a program for using the teleconferencing system.
  • FIG. 18 is a diagram showing a display example of a screen that serves as a user interface during a teleconference.
  • FIG. 18 is a screen of a remote conference system, and each user is represented by circular icons I1, I2, and I3.
  • Icons I1 to I3 represent, for example, users A to C, respectively.
  • a user who participates in the teleconference by viewing the screen of FIG. 18 is user D, for example.
  • User D can set the distance to the desired user by moving the icon position and controlling the position of each user on the space map.
  • the position of user B represented by icon I2 is set near, and the position of user A represented by icon I1 is set further away.
  • FIG. 19 is a diagram showing an example of the size of the sound image of each user's voice.
  • the user U facing the screen is the user D, for example.
  • the voice of user B As indicated by the colored circle #61, the voice of user B, who is set at a close position on the space map, is output as a sound with a large sound image according to the distance. As indicated by circles #62 and #63, the voices of users A and C are output as sound images whose sizes correspond to their respective distances.
  • the voices of all users are mixed as monaural voices and output from the headphones 1, the positions of the speakers are aggregated at one point, so that the cocktail party effect is unlikely to occur, and the users can hear the specific voices. I can't pay attention to the voice of the person and listen to it. In addition, it becomes difficult to have group discussions among a plurality of groups.
  • the user can have a conversation while feeling a sense of perspective.
  • the voices of the speakers to be grouped may be output as voices with a large sound image as if they were localized near the ear. This makes it possible to express the feeling of a group of speakers.
  • Each information processing device 10 may have an HMD, a camera, or the like built in or connected to it.
  • an HMD or camera By detecting the direction of the user's face using an HMD or camera and detecting that the user is paying attention to a specific speaker, by increasing the size of the sound image of the speaker that the user is paying attention to, It is possible to make the user feel as if the particular speaker is speaking close to the user.
  • each user can control the position of other users (speakers), but it is not limited to this.
  • each of the participants in the conference controls their own or other participants' position on the space map, and the position set by someone is shared among all the participants.
  • FIG. 20 is a diagram showing an example of a method of notifying the pseudo engine sound of a car.
  • Pedestrians are thought to recognize moving vehicles mainly based on visual and auditory information, but the engine noise of recent electric vehicles is low, making it difficult for pedestrians to notice. Moreover, even if the sound of a car is heard, if other noises are heard together, it is difficult to notice that a car is approaching.
  • This application example makes the user U who is a pedestrian listen to the simulated engine sound emitted by the car 110, thereby making the car 110 notice the running car.
  • the car 110 is equipped with devices having functions similar to those of the information processing device 10 .
  • a user U walking while wearing the headphones 1 hears the pseudo engine sound output from the headphones 1 under the control of the vehicle 110 .
  • the car 110 includes a camera that detects the user U who is a pedestrian, and a communication unit that transmits simulated engine sound as approach information to the user U walking nearby.
  • the car 110 When the car 110 detects the user U, it generates a pseudo engine sound having a sound image whose size corresponds to the distance to the user U. A pseudo engine sound generated based on the central sound and the ambient sound is transmitted to the headphones 1 and presented to the user U.
  • FIG. 20A is a diagram showing an example of a sound image when the distance between the car 110 and the user U is long. At this time, the simulated engine sound is presented as a sound with a small sound image as indicated by a small colored circle #71.
  • FIG. 20B is a diagram showing an example of a sound image when the distance between the car 110 and the user U is short. At this time, the pseudo engine sound is presented as a sound with a large sound image as indicated by the colored circle #72.
  • the generation of the pseudo engine sound based on the central sound and the ambient sound may be performed not by the car 110 but by the information processing device 10 owned by the user U.
  • the user U can perceive the sense of distance to the vehicle 110 as well as the direction of arrival of the vehicle 110, and it is possible to improve the accuracy of risk avoidance.
  • the notification using the simulated engine sound as described above can be applied not only to vehicles with low engine noise, but also to conventional vehicles.
  • exaggerating the sense of distance by exaggerating the sense of distance by listening to a simulated engine sound with a sound image that corresponds to the distance, it is possible to make the user perceive that the car is approaching and improve the accuracy of danger avoidance. becomes.
  • the car is equipped with a camera for detecting approaching walls. Also in this case, the car is equipped with a device having the same function as the information processing device 10 .
  • the device installed in the car detects the distance between the car body and the wall based on the image taken by the camera, and controls the size of the warning sound image. The closer the car body is to the wall, the louder the warning sound is output. By perceiving the distance to the wall from the size of the sound image of the warning sound, it is possible to improve the accuracy of crisis avoidance.
  • This technology allows the user to perceive a sense of distance from the virtual sound source.
  • the area of the reverberant sound (the size of the sound image) relative to the direct sound, it is possible to express the expanse of space. Become. That is, by applying the present technology to reverberant sound, it is possible to express a sense of depth.
  • the sound is perceived differently depending on whether the sound is coming from the front, the side, or the back of the face.
  • parameters suitable for each direction as parameters related to area representation, appropriate representation according to the presentation direction of the sound becomes possible.
  • This technology can be applied to the presentation of sound for various types of content such as video content such as movies, audio content, and game content.
  • video content such as movies, audio content, and game content.
  • FIG. 21 is a diagram illustrating an example of a playback device.
  • a closed headphone (over-ear headphone) as shown in A in FIG. 21 or a shoulder-mounted neckband speaker as shown in B in FIG. may be made available.
  • Speakers are provided in the left and right units that constitute the neckband speaker, and sound is output toward the ears of the user.
  • FIG. 22 is a diagram explaining another example of the playback device.
  • the playback device shown in FIG. 22 is an open-type earphone.
  • the open-type earphone shown in FIG. 22 is composed of a right unit 120R and a left unit 120L (not shown). As shown enlarged in the balloon of FIG. 22, the right unit 120R is configured by joining the driver unit 121 and the ring-shaped mounting portion 123 via the U-shaped sound pipe 122. As shown in FIG. The right unit 120R is worn by pressing the mounting portion 123 around the outer ear canal and sandwiching the right ear between the mounting portion 123 and the driver unit 121 .
  • the left unit 120L also has the same configuration as the right unit 120R.
  • the left unit 120L and the right unit 120R are connected by wire or wirelessly.
  • the driver unit 121 of the right unit 120R receives the audio signal transmitted from the information processing device 10, and outputs sound corresponding to the audio signal from the tip of the sound conduit 122 as indicated by arrow A1.
  • a joint portion between the sound conduit 122 and the mounting portion 123 is formed with a hole for outputting sound toward the external ear canal.
  • the mounting part 123 has a ring shape. Along with the sound output from the tip of the sound conduit 122, ambient sound also reaches the external ear canal as indicated by the arrow A2.
  • These playback devices may be provided with a detection unit that detects the orientation of the user's head.
  • a detection unit that detects the direction of the user's head is provided, the HRTF information used in the convolution process is adjusted so that the position of the virtual sound source is fixed even if the direction of the user's head changes.
  • the series of processes described above can be executed by hardware or by software.
  • the programs that make up the software are incorporated into dedicated hardware. It is installed from a program recording medium to a computer that has been installed or a general-purpose personal computer.
  • the program to be installed is provided by being recorded on removable media such as optical discs (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.) and semiconductor memory. Alternatively, it may be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting. Programs can be pre-installed in ROM or memory.
  • removable media such as optical discs (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.) and semiconductor memory.
  • CD-ROM Compact Disc-Read Only Memory
  • DVD Digital Versatile Disc
  • semiconductor memory Alternatively, it may be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting. Programs can be pre-installed in ROM or memory.
  • the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in this specification, or a program in which processing is performed in parallel or at necessary timing such as when a call is made. It may be a program that is carried out.
  • a system means a set of multiple components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules in one housing, are both systems. .
  • Embodiments of the present technology are not limited to the above-described embodiments, and various modifications are possible without departing from the gist of the present technology.
  • this technology can take the configuration of cloud computing in which one function is shared by multiple devices via a network and processed jointly.
  • each step described in the flowchart above can be executed by a single device, or can be shared by a plurality of devices.
  • one step includes multiple processes
  • the multiple processes included in the one step can be executed by one device or shared by multiple devices.
  • the present technology can also take the following configurations.
  • a first sound source and a sound source setting unit that sets a plurality of second sound sources at positions corresponding to the size of a sound image of a first sound that is the sound of the first sound source;
  • First sound data obtained by convolution processing using HRTF information according to the position of the first sound source, and obtained by convolution processing using HRTF information according to the position of each of the second sound sources an output control unit for outputting a plurality of second sound data,
  • each of the second sound sources is set to be positioned around the first sound source.
  • the sound source setting unit sets each of the second sound sources at a position further away from the first sound source as the size of the sound image of the first sound increases.
  • information processing equipment (4)
  • the second sound source is a sound source set four around the first sound source, The information processing apparatus according to any one of (1) to (3).
  • the information processing apparatus according to any one of (1) to (4), wherein the sound source setting unit sets each of the second sound sources at a position corresponding to a shape of a sound image of the first sound.
  • the output control unit outputs two-channel audio data representing the first sound and the second sound, which is the sound of the second sound source, from the playback device worn by the user.
  • the information processing device according to any one of .
  • the information processing apparatus wherein the output control unit adjusts the volume of each of the first sound and the second sound according to the size of the sound image of the first sound.
  • the sound source setting unit determines that the size of the sound image of the first sound changes, and controls the position of the second sound source according to the size of the sound image of the first sound. ) to (7).
  • the second sound which is the first sound and the plurality of second sound sources, is a sound for representing a virtual sound source corresponding to an object. information processing equipment.
  • the sound source setting unit sets the position of the first sound source based on the current position information, and sets the position of the second sound source using the destination information.
  • the information processing device according to any one of the above.
  • the information processing device Setting a plurality of second sound sources at positions corresponding to the size of a first sound source and a sound image of a first sound that is the sound of the first sound source, First audio data obtained by convolution processing using HRTF data according to the position of the first sound source, and each of the first audio data set to be positioned around the first sound source 2.
  • An information processing method for outputting a plurality of second audio data obtained by convolution processing using HRTF data corresponding to the position of a sound source (12) to the computer, Setting a plurality of second sound sources at positions corresponding to the size of a first sound source and a sound image of a first sound that is the sound of the first sound source, First audio data obtained by convolution processing using HRTF data according to the position of the first sound source, and each of the first audio data set to be positioned around the first sound source

Abstract

本技術は、空間音響表現において、ユーザから仮想音源までの距離感および仮想音源の見かけの大きさを適切に再現することができるようにする情報処理装置、情報処理方法、およびプログラムに関する。 本技術は、第1の音源と、第1の音源の音である第1の音の音像の大きさに応じた位置に、複数の第2の音源を設定する音源設定部と、第1の音源の位置に応じたHRTF情報を用いた畳み込み処理によって得られた第1の音データと、それぞれの第2の音源の位置に応じたHRTF情報を用いた畳み込み処理によって得られた複数の第2の音データとを出力させる出力制御部とを備える。それぞれの第2の音源は、第1の音源の周辺に位置するように設定される。本技術は、ヘッドホンなどの再生装置から音を出力させる装置に適用することができる。

Description

情報処理装置、情報処理方法、およびプログラム
 本技術は、特に、空間音響表現において、ユーザから仮想音源までの距離感および仮想音源の見かけの大きさを適切に再現することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
 音を用いてユーザに空間を認識させる手法として、仮想音源の方向、距離、移動等を、頭部伝達関数(HRTF(Head-Related Transfer Function))を用いた演算により表現する手法がある。
特開2010-004512号公報
 音を用いてユーザに空間を認識させるためには、仮想音源の方向および距離の表現が重要となる。仮想音源の方向についてはHRTFを用いた演算により表現できるものの、ユーザから仮想音源までの距離感については、従来の手法では十分に表現することが難しい。
 本技術はこのような状況に鑑みてなされたものであり、ユーザから仮想音源までの距離感および仮想音源の見かけの大きさを適切に再現することができるようにするものである。
 本技術の一側面の情報処理装置は、第1の音源と、前記第1の音源の音である第1の音の音像の大きさに応じた位置に、複数の第2の音源を設定する音源設定部と、前記第1の音源の位置に応じたHRTF情報を用いた畳み込み処理によって得られた第1の音データと、それぞれの前記第2の音源の位置に応じたHRTF情報を用いた畳み込み処理によって得られた複数の第2の音データとを出力させる出力制御部とを備え、それぞれの前記第2の音源は、前記第1の音源の周辺に位置するように設定される。
 本技術の一側面においては、第1の音源と、前記第1の音源の音である第1の音の音像の大きさに応じた位置に、複数の第2の音源が設定され、前記第1の音源の位置に応じたHRTF情報を用いた畳み込み処理によって得られた第1の音データと、それぞれの前記第2の音源の位置に応じたHRTF情報を用いた畳み込み処理によって得られた複数の第2の音データとが出力される。それぞれの前記第2の音源は、前記第1の音源の周辺に位置するように設定される。
聴取者の音の感じ方の例を示す図である。 本技術における距離表現の例を示す図である。 中心音源とユーザの位置関係を示す図である。 中心音源と周辺音源の位置関係を示す図である。 中心音源と周辺音源の位置関係を示す他の図である。 本技術における距離表現の例を示す他の図である。 本技術における音像の形状を示す図である。 本技術を適用した音響再生システムの構成例を示す図である。 情報処理装置10のハードウェアの構成例を表すブロック図である。 情報処理装置10の機能構成例を示すブロック図である。 情報処理装置10の処理について説明するフローチャートである。 本技術を適用した音響再生システムの他の構成例を示す図である。 本技術を適用した障害物の通知手法の例を示す図である。 本技術を適用した障害物の通知手法の例を示す他の図である。 本技術を適用した目的地までの距離の通知手法の例を示す図である。 本技術を適用した家電の報知音の通知手法の例を示す図である。 遠隔会議システムの構成例を示す図である。 遠隔会議中のユーザインタフェースとなる画面の表示例を示す図である。 各ユーザの音声の音像の大きさの例を示す図である。 車の疑似エンジン音の通知手法の例を示す図である。 再生装置の例を説明する図である。 再生装置の他の例を説明する図である。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.音の感じ方の説明
 2.複数音源を用いた距離表現
 3.音響再生システムおよび情報処理装置の構成の例
 4.情報処理装置の動作説明
 5.変形例(適用例)
 6.その他の例
<1.音の感じ方の説明>
 図1は、聴取者の音の感じ方の例を示す図である。
 図1においては、音源となるオブジェクトとして車が示されている。エンジン音や走行音などの音を発しながら、車が走行しているものとする。車との距離に応じて、聴取者であるユーザの音の感じ方が変化する。
 図1のAの例においては、ユーザから遠く離れたところに車が位置する。この場合、ユーザには、車からの音が、点音源からの音に感じられる。図1のAの例においては、ユーザが感じる点音源が色付きの小円#1で表されている。
 一方、図1のBの例においては、ユーザから近いところに車が位置する。この場合、ユーザには、車からの音が、車を囲む色付きの円#2で表すように大きさを持った音に感じられる。本明細書では、ユーザが感じる音の見かけの大きさのことを、音像の大きさと称する。
 このようにユーザは、音源までの距離感を、音像の大きさを感じることによって知覚する。
<2.複数音源を用いた距離表現>
 図2は、本技術における距離表現の例を示す図である。
 本技術においては、ユーザから仮想音源となるオブジェクトまでの距離が、音像の大きさを制御することによって表現される。ユーザに聴かせる音像の大きさを変化させることにより、ユーザから仮想音源までの距離感をユーザに知覚させることが可能となる。
 図2に示すように、本技術においては、ユーザUは、ヘッドホン1などの出力デバイスを装着し、仮想音源である車からの音を聴く。仮想音源からの音は、例えばユーザUが携帯するスマートフォンなどにより再生され、ヘッドホン1から出力される。
 図2の例においては、仮想音源に対応するオブジェクトとしての車の音が、中心音源Cと4個の周辺音源Uである周辺音源LU、RU、LD、RDからの音により構成される。ここで、中心音源Cおよび周辺音源Uはそれぞれ、HRTFを用いた演算により表現される仮想的な音源である。図2においては、中心音源Cと周辺音源LU、RU、LD、RDがスピーカのイラストで示されている。後述する他の図においても同様である。
 本技術において、音の提示は、例えば、中心音源およびそれぞれの周辺音源の位置に対応する頭部伝達関数(HRTF)を用いた演算によって生成したそれぞれの音源からの音をL/Rの2チャンネルの音に変換し、ヘッドホン1から出力させることによって行われる。
 中心音源からの音は、仮想音源となるオブジェクトの音を表現する中心となる音であり、本明細書では中心音と呼ぶ。周辺音源からの音は、中心音の音像の大きさを表現する音であり、本明細書では周辺音と呼ぶ。
 図2に示すように、本技術においては、中心音の音像の大きさを変化させることによって、ユーザは仮想音源となるオブジェクトまでの距離感を知覚することが可能となる。本技術において、中心音の音像の大きさは、周辺音源の位置を変化させることによって制御される。
 図2の例においては仮想音源となるオブジェクトとしての車がユーザの近くに示されているが、仮想音源となるオブジェクトについては、ユーザの近くにあってもよいし、なくてもよい。また、仮想音源となるオブジェクトについては、実体があってもよいし、なくてもよい。
 本技術によれば、ユーザの周りにある物体があたかも音源であるかのように表現することができる。また、本技術によれば、ユーザの周りの何もない空間からあたかも音が鳴っているかのように表現することも可能となる。
 中心音および複数の周辺音を聴くことにより、ユーザは、仮想音源からの音を表現する中心となる中心音の音像を、色付きの円#11で表すように大きさを持つように感じることになる。図1を参照して説明したように、感じる音像の大きさに応じて仮想音源となるオブジェクトまでの距離感を知覚することから、図2に示すように大きな音像が表現される場合、ユーザは、仮想音源となる車が近くにあるかのように知覚することになる。
 このように、ユーザは、空間音響において、ユーザから仮想音源となるオブジェクトまでの距離感を知覚することができ、臨場感のある空間音響の体験をすることが可能となる。
 図3は、中心音源とユーザの位置関係を示す図である。
 図3に示すように、ユーザに感じさせようとする音像の中心位置である位置P1に仮想的な音源である中心音源Cが設定される。位置P1は、ユーザの例えば正面方向を基準として、所定の角度である水平角Azim(d:degree)、垂直角Elev(d)だけずれた方向の位置である。ユーザから位置P1までの距離は、所定の距離である距離L(m)である。
 中心音源Cの音である中心音は、仮想音源となるオブジェクトの音を表現する中心となる音である。また、中心音は、ユーザから仮想音源までの距離感をユーザに知覚させるための基準音として用いられる。
 このようにして設定された中心音源Cの周辺に、複数の周辺音源が設定される。例えば、複数の周辺音源は、中心音源Cを中心とする円周上に等間隔で配置される。
 図4は、中心音源と周辺音源の位置関係を示す図である。
 図4に示すように、中心音源Cの周辺に、4つの周辺音源である周辺音源LU、RU、LD、RDがそれぞれ配置される。
 周辺音源LU,RU,LD,RDの音である周辺音は、中心音の音像の大きさを表現するための音である。ユーザは、中心音および周辺音の音を聴くことにより、中心音の音像が大きさを持つように感じる。これにより、ユーザは仮想音源であるオブジェクトまでの距離感を知覚することが可能となる。
 例えば、周辺音源RUは、ユーザUを基準として、中心音源Cが配置された位置P1から水平角rAzim(d)、垂直角rElev(d)だけ離れた位置である位置P11に配置される。残りの周辺音源LU、周辺音源RD、周辺音源LDについても同様に、位置P1を基準として設定された位置P12,P13,P14にそれぞれ配置される。
 周辺音源LUが配置された位置P12は、位置P1から水平角-rAzim(d)、垂直角rElev(d)だけ離れた位置である。周辺音源RDが配置された位置P13は、位置P1から水平角rAzim(d)、垂直角-rElev(d)だけ離れた位置であり、周辺音源LDが配置された位置P14は、位置P1から水平角-rAzim(d)、垂直角-rElev(d)だけ離れた位置である。
 例えば、中心音源Cからそれぞれの周辺音源までの距離は同じ距離である。このように、4個の周辺音源LU、RU、LD、RDは、中心音源Cに対して放射状に配置される。
 図5は、中心音源と周辺音源の位置関係を示す他の図である。
 例えば、中心音源と周辺音源を斜め上方から見た場合、中心音源と周辺音源の位置関係は図5のAに示す関係となる。また、中心音源と周辺音源を横から見た場合、中心音源と周辺音源の位置関係は図5のBに示す関係となる。
 以上のようにして中心音源Cの周りに複数設定されるそれぞれの周辺音源の位置は、ユーザに感じさせようとする中心音の音像の大きさに応じて異なる位置となる。
 なお、ここまで代表的な例として周辺音源が4つ設定される例を説明したが、周辺音源の数はこれに限定されるものではない。
 図6は、本技術における距離表現の例を示す他の図である。
 図6のAは、ヘッドホン1を装着したユーザUから仮想音源までの距離が遠い場合の周辺音源の位置を表している。図6のAに示すようにそれぞれの周辺音源を中心音源の近くに配置し、中心音の音像の大きさを小さく表現することによって、ユーザは仮想音源までの距離が遠く離れているように知覚する。上述したように、感じる音像が小さいほど、ユーザは仮想音源が遠くにあるものとして知覚することになる。
 図6のBは、ヘッドホン1を装着したユーザUから仮想音源までの距離が近い場合の周辺音源の位置を表している。図6のBに示すようにそれぞれの周辺音源を中心音源から離れた位置に配置し、中心音の音像の大きさを大きく表現することによって、ユーザは仮想音源が近くにあるように知覚する。上述したように、感じる音像が大きいほど、ユーザは仮想音源が近くにあるものとして知覚することになる。
 本技術によれば、中心音源の周りに配置される周辺音源の位置が制御されることによって、ユーザは仮想音源までの距離として異なる距離を知覚することができる。
 図7は、本技術における音像の形状を示す図である。
 図7のAは、中心音源と周辺音源のなす水平角の絶対値が垂直角の絶対値より大きい場合の音源の形状を示す。このときユーザが知覚する中心音の音像の形状は、色付きの楕円で示すように横長の形状となる。
 図7のBは、中心音源と周辺音源のなす垂直角の絶対値が水平角の絶対値より大きい場合の音源の形状を示す。このときユーザが知覚する中心音の音像の形状は、色付きの楕円で示すように縦長の形状となる。
 このように、周辺音の位置を任意の位置に変化させることで、縦長、横長などの形状に特徴のある仮想音源についても、距離を表現することが可能となる。
<3.音響再生システムおよび情報処理装置の構成の例>
 次に、本技術を適用した音響再生システムおよび情報処理装置の構成について説明する。
 図8は、本技術を適用した音響再生システムの構成例を示す図である。音響再生システムは、情報処理装置10とヘッドホン1が接続されることによって構成される。
 本技術において、例えば、ユーザはヘッドホン1を装着し、情報処理装置10を所持している。ユーザは、情報処理装置10によって処理された音データに応じた音を、情報処理装置10に接続されたヘッドホン1を介して聴くことで、本技術の空間音響を体験することが可能となる。
 情報処理装置10は、例えばユーザが所持するスマートフォンや携帯電話、PC、テレビ、タブレット等である。
 また、ヘッドホン1は、再生装置とも呼ばれ、ヘッドホン1の他にもイヤホンなどが想定される。ヘッドホン1は、ユーザの頭部、より詳細にはユーザの耳に装着されており、有線または無線により情報処理装置10に接続されている。
 図9は、情報処理装置10のハードウェアの構成例を表すブロック図である。
 図9に示すように、情報処理装置10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13を備えており、これらはバス14により相互に接続される。
 また、情報処理装置10は、入出力インタフェース15、各種のボタンやタッチパネルにより構成される入力部16、ディスプレイ、スピーカなどにより構成される出力部17を備えている。バス14は入出力インタフェース15に接続され、入出力インタフェース15には入力部16、出力部17が接続される。
 情報処理装置10は、さらに、ハードディスクや不揮発性のメモリなどよりなる記憶部18、ネットワークインタフェースなどよりなる通信部19、リムーバブルメディア21を駆動するドライブ20を備えている。入出力インタフェース15には、記憶部18、通信部19、ドライブ20が接続される。
 情報処理装置10は、ユーザが装着するヘッドホン1などの再生装置において再生される音データを処理する情報処理装置として機能する。
 通信部19は、情報処理装置10と再生装置が無線接続している場合は、オーディオデータを供給する出力部として機能する。
 また、通信部19は、仮想音源データやHRTF情報をネットワークを介して取得する取得部として機能する場合もある。
 図10は、情報処理装置10の機能構成例を示すブロック図である。
 図10に示すように、情報処理部30は、音源設定部31、空間音響生成部32.出力制御部33を有する。図10に示す各構成は、図9のCPU11により所定のプログラムが実行されることによって実現される。
 音源設定部31は、距離感を表現しようとする仮想音源を所定の位置に設定する。また、音源設定部31は、仮想音源の位置に応じて中心音源を設定するとともに、仮想音源までの距離に応じた位置に周辺音源を設定する。
 空間音響生成部32は、音源設定部31により設定された中心音源および周辺音源からの音の音データを生成する。
 例えば、空間音響生成部32は、仮想音源データに対して中心音源の位置に応じたHRTF情報に基づく畳み込み処理を行い、中心音の音データを生成する。また、空間音響生成部32は、仮想音源データに対してそれぞれの周辺音源の位置に応じたHRTF情報に基づく畳み込み処理を行い、それぞれの周辺音の音データを生成する。
 中心音源の位置に応じたHRTF情報に基づく畳み込み処理の対象となる仮想音源データと、周辺音源の位置に応じたHRTF情報に基づく畳み込み処理の対象となる仮想音源データとが同じデータであってもよいし、それぞれ異なるデータであってもよい。
 出力制御部33は、空間音響生成部32により生成された中心音の音データとそれぞれの周辺音の音データをL/Rの音データに変換する。出力制御部33は、出力部17または通信部19を制御し、変換後の音データをユーザが装着する再生装置から出力させる。
 また、出力制御部33は、適宜、中心音の音量とそれぞれの周辺音の音量を調整する。例えば、周辺音の音量を小さくして、中心音の音像の大きさを小さくしたり、周辺音の音量を大きくして、中心音の音像の大きさを大きくしたりすることが可能である。また、それぞれの周辺音の音量の値は、同一の値と異なる値のどちらに設定することも可能である。
 このように、情報処理部30は、仮想音源を設定するとともに、中心音源と周辺音源を設定する。また、情報処理部30は、中心音源とそれぞれの周辺音源の位置に応じたHRTF情報に基づく畳み込み処理を行うことによって、中心音と周辺音のそれぞれの音データを生成し、再生装置に出力する。
 中心音源の位置に応じたHRTFデータと、それぞれの周辺音源の位置に応じたHRTFデータとを例えば周波数軸上で乗算することによって合成し、合成後のHRTFデータを用いて、上述した処理と等価な処理が実現されるようにしてもよい。合成後のHRTFデータは、仮想音源の見かけの大きさである面積表現をするためのHRTFデータとなる。
 中心音源と周辺音源が等しい場合は、演算量が少なくなるという効果がある。
 <4.情報処理装置の動作説明>
 図11のフローチャートを参照して、情報処理装置10の処理について説明する。
 ステップS101において、音源設定部31は、所定の位置に仮想音源を設定する。
 ステップS102において、音源設定部31は、仮想音源の位置に応じて中心音源を設定する。
 ステップS103において、音源設定部31は、ユーザから仮想音源までの距離に応じて周辺音源を設定する。ステップS101乃至S103においては、適宜、それぞれの音源の音の音量が設定される。
 ステップS104において、空間音響生成部32は、HRTF情報に基づく畳み込み処理を行うことによって、中心音源の音である中心音と周辺音源の音である周辺音の音データを生成する。HRTF情報に基づく畳み込み処理によって生成された中心音の音データと周辺音の音データは、それぞれ再生装置に供給され、中心音と周辺音の出力に用いられる。
 ステップS105において、音源設定部31は、ユーザから仮想音源までの距離が変化するか否かを判定する。
 仮想音源からユーザまでの距離が変化するとステップS105において判定した場合、ステップS106において、音源設定部31は、変化後の距離に応じて周辺音源の位置を制御する。例えば、仮想音源が近づくことを表現する場合、音源設定部31は、それぞれの周辺音源の位置を、中心音源から離すように制御する。また、仮想音源が遠ざかることを表現する場合、音源設定部31は、それぞれの周辺音源の位置を、中心音源に近付けるように制御する。
 ステップS107において、空間音響生成部32は、HRTF情報に基づく畳み込み処理を行うことによって、仮想音源までの距離に応じて再度設定された中心音と周辺音のデータを生成する。HRTF情報に基づく畳み込み処理によって生成された音データを用いて中心音と周辺音が出力された後、処理は終了となる。
 一方、ステップS105において、ユーザから仮想音源までの距離が変化しないと判定された場合も同様に、処理は終了となる。以上の処理が、仮想音源の音をユーザに聴かせる間、繰り返し行われる。
 以上の処理により、情報処理装置10は、ユーザから仮想音源までの距離感を適切に表現することが可能となる。
 ユーザは、仮想音源までの距離を臨場感のある空間音響体験により知覚することが可能となる。
 図12は、本技術を適用した音響再生システムの他の構成例を示す図である。
 図12に示すように、本技術を適用した音響再生システムは、情報処理装置10、再生装置50、仮想音源データ提供サーバ60、およびHRTFサーバ70を有する場合もある。図12の例においては、ヘッドホン1に代えて再生装置50が示されている。再生装置50は、ヘッドホン1やイヤホンなどの、ユーザが装着して音を聴くことに用いられるデバイスを総称するものである。
 図12に示すように、情報処理装置10および再生装置50が、インターネット等のネットワークを介して接続された仮想音源データ提供サーバ60やHRTFサーバ70などからデータの提供を受けて機能する場合も想定される。
 例えば、情報処理装置10は、仮想音源データ提供サーバ60との間で通信を行い、仮想音源データ提供サーバ60から提供された仮想音源データを取得する。
 また、情報処理装置10は、HRTFサーバ70との間で通信を行い、HRTFサーバ70から提供されたHRTF情報を取得する。HRTF情報は、仮想音源からユーザの耳(鼓膜)までの伝達特性を付加するためのデータ、すなわち仮想音源の位置に音像を定位させるための頭部伝達関数をユーザから見た仮想音源の方向ごとに記録したデータである。
 HRTFサーバ70から取得されたHRTF情報が情報処理装置10に記録されるようにしてもよいし、仮想音源の音の出力時に、HRTFサーバ70からその都度取得されるようにしてもよい。
 なお、頭部伝達関数として、時間領域の情報であるHRIR(Head Related Impulse Response)の形式で記録された情報が用いられるようにしてもよいし、周波数領域の情報であるHRTFの形式で記録された情報が用いられるようにしてもよい。本明細書ではHRTF情報を扱うものとして説明する。
 また、HRTF情報は、ユーザ個人の身体的な特徴などに合わせて個人化されたものであってもよいし、複数人のユーザにより共通に使用されるものであってもよい。
 例えば、個人化されたHRTF情報は、測定者をテスト環境に置いて実測することによって得られた情報であってもよいし、測定者の耳画像から算出された情報であってもよい。測定者の頭部や耳のサイズ情報に基づいて算出された情報が個人化されたHRTF情報として用いられるようにしてもよい。
 共通に使用されるHRTF情報は、ダミーヘッドを用いて測定することによって得られた情報であってもよいし、複数人のHRTF情報を平均化して得られた情報であってもよい。複数のHRTF情報を用いた再生音をユーザに比較させ、ユーザが自分に最も合っていると判断したHRTF情報が共通に使用されるHRTF情報として用いられるようにしてもよい。
 図12の再生装置50は、通信部51、制御部52、出力部53を有している。この場合、情報処理装置10の上述した機能のうちの少なくとも一部の機能を再生装置50が担い、仮想音源の音を生成するための処理が再生装置50により行われるようにすることも可能である。再生装置50の制御部52は、通信部51における通信によって仮想音源データやHRTF情報を取得し、仮想音源の音を生成するための上述した処理を行う。
 図12においては、仮想音源データ提供サーバ60とHRTFサーバ70がそれぞれ1つの装置により構成されているが、クラウド上にある複数の装置により構成されるようにしてもよい。
 また、仮想音源データ提供サーバ60とHRTFサーバ70が1つの装置により実現されるようにしてもよい。
<5.変形例(適用例)>
・視覚障碍者の歩行時における、空間音響を利用した障害物の通知
 図13は、本技術を適用した障害物の通知手法の例を示す図である。
 図13には、白杖Wを持って歩行しているユーザUの様子が示されている。ユーザUはヘッドホン1を装着している。ユーザUが保持する白杖Wは、超音波を発する超音波スピーカ部、超音波の反射を受け取るマイク部、およびヘッドホン1と通信する通信部(いずれも図示せず)を備える。
 また、白杖Wは、超音波スピーカ部からの超音波の出力を制御し、マイク部より検出された音を処理する処理制御部を備える。これらの構成が、例えば白杖Wの上端に形成された筐体内に設けられる。
 白杖Wに備え付けられた超音波スピーカ部とマイク部がセンサとして機能し、周辺にある障害物についての情報が、ユーザUに対して通知される。ユーザUに対する通知は、音像の大きさによって距離感を知覚させる仮想音源の音を用いて行われる。
 図14に示すように、白杖Wの超音波スピーカ部より出力された超音波は、周囲の障害物である壁Xで反射する。壁Xで反射した超音波は、白杖Wのマイク部により検出される。これにより、白杖Wの処理制御部は、周辺の障害物である壁Xまでの距離と壁Xの方向を空間情報として検知する。
 白杖Wの処理制御部は、壁Xまでの距離と壁Xの方向を検知した場合、障害物である壁Xを、仮想音源に対応するオブジェクトとして設定する。
 また、処理制御部は、壁Xまでの距離と壁Xの方向を表現する中心音源および周辺音源を設定する。例えば、壁Xの方向に中心音源が設定され、壁Xまでの距離を表現する音像の大きさに応じた位置に周辺音源が設定される。
 処理制御部は、報知音などのデータを仮想音源データとし、仮想音源データに対して、中心音源と周辺音源のそれぞれの位置に応じたHRTF情報に基づく畳み込み処理を行うことによって、中心音および周辺音の音データを生成する。処理制御部は、畳み込み処理を行うことによって得られた音データをユーザUが装着するヘッドホン1に送信し、中心音および周辺音を出力させる。
 通常の白杖(超音波スピーカ部とマイク部を備えていない白杖)を持って歩行する場合、例えば視覚障害者であるユーザは、周囲約1メートルの情報しか得られず、数メートル先の壁、段差、車などの障害物情報を得られず危険が生じる。
 このように、白杖Wで検知した障害物の距離および方向を空間音響で表現することにより、ユーザUは、周辺の障害物の方向だけでなく、障害物までの距離を音のみで認知することが可能となる。障害物の情報だけでなく、ホーム端などを表す、前方下部の空間の有無などの状況についても空間情報として取得される。
 本適用例において、白杖Wは、超音波スピーカ部とマイク部をセンサとして用いることによって周辺の障害物までの距離情報を取得し、取得した距離情報に基づいて、障害物までの距離を空間音響を用いて表現する。
 例えば、このような処理が50msなどの短時間の間隔で繰り返し行われることにより、ユーザは、歩行中でも周辺の障害物などの情報を即座に知ることができる。
 図13および14において、超音波スピーカ部、マイク部、処理制御部、出力制御部の全ての構成が白杖Wに設けられるものとしたが、これらの構成のうちの少なくともいずれかが、白杖とは別体の機器として設けられるようにしてもよい。各構成が通信を行うことにより、上述したような白杖の機能が実現される。
 また、音による距離感の感じ方には個人差がある。ユーザの距離の感じ方と音像の大きさの関係を予め学習しておき、ユーザの認識パターンに合わせて音像の大きさを調整させるようにしてもよい。
 さらに、ユーザが歩行しているか停止しているかに応じて、音像の大きさを調整させることで、ユーザが距離感を知覚しやすい表現をするようにしてもよい。
・音を用いた地図情報の提示
 図15は、本技術を適用した目的地までの距離の通知手法の例を示す図である。
 図15において、ユーザUは、情報処理装置10(図示せず)を所持し、店舗などがある目的地Dに歩いて向かっているものとする。
 ユーザUが所持する情報処理装置10は、ユーザUの現在位置を検出する位置検出部と、周辺の駅などの情報を取得する周辺情報取得部を備える。
 本適用例において、情報処理装置10は、ユーザUの位置を位置検出部により取得し、周辺の情報を周辺情報取得部により取得する。また、情報処理装置10は、ユーザUに提示する音像の大きさを目的地Dまでの距離に応じて制御することによって、目的地Dまでの距離感を直感的にユーザUに知覚させる。
 例えば、情報処理装置10は、ユーザUが目的地Dに近づくにつれて、目的地Dを表す音の音像の大きさを大きくする。これにより、ユーザUは、目的地Dまでの距離が近いことを知覚することが可能となる。
 図15のAは、目的地Dまでの距離が遠い場合の音像の例を示す図である。このとき、目的地Dを表す音は、色付きの小円#51で示すように小さい音像の音として提示される。
 図15のBは、目的地Dまでの距離が近い場合の音像の例を示す図である。このとき、目的地Dを表す音は、色付きの円#52で示すように大きい音像の音として提示される。
 このように、ユーザが目的地に向かうための音を用いた地図情報の提示を、空間音響を用いて分かりやすく実現することが可能となる。
 また、周辺の雑音量に応じて音像の大きさを変化させることで、より分かりやすい表現をすることも可能である。
・報知音の例
 図16は、本技術を適用した家電の報知音の通知手法の例を示す図である。
 図16には、例えば湯沸かしポットの報知音をユーザUに提示する様子が示されている。
 ユーザUが所持する情報処理装置10は、家庭用電気製品(家電)などの他の機器と連携して、報知の内容の緊急度や重要度を検出する検出部を備える。
 本適用例において、情報処理装置10は、家電の報知音の音像の大きさを、検出部より検出した緊急度や重要度に応じて変化させることにより、報知音の緊急度や重要度を直感的にユーザUに伝える。
 本適用例によれば、家電に備え付けられたスピーカからの単調なブザー音にユーザUが気付かなかった場合でも、音像の大きさを大きくして報知音を提示することにより、家電の報知音をユーザUに気付かせることが可能となる。
 家電の報知音の緊急度や重要度は、例えば危険性に応じて設定される。お湯が沸いた場合、報知音に気付かずに放置しておくと危険である。この場合の報知に対しては緊急度や重要度として高いレベルが設定される。
 家電が湯沸かしポットであるとして説明したが、他の家電の報知音の提示にも適用可能である。適用可能な家電として、冷蔵庫、電子レンジ、炊飯器、食洗器、洗濯機、湯沸かし器、掃除機などが挙げられる。また、ここに挙げた例も一般的なものであり、例示したものに限定されない。
 また、機器の特定の部分をユーザに注目させたい場合、注意音の面積を徐々に小さくすることで、ユーザの視線を誘導させることも可能である。機器の特定の部分は、例えば、機器に備えられたスイッチ、ボタン、タッチパネルなどである。
 このように、本技術によれば、仮想音源までの距離感をユーザに知覚させるだけでなく、機器の報知音の重要度や緊急度をユーザに提示したり、ユーザの視線を誘導したりすることが可能となる。
・遠隔会議システムの例
 図17は、遠隔会議システムの構成例を示す図である。
 図17には、例えば遠隔にいるユーザA乃至Dが、インターネット等のネットワーク101を介して会議をする様子が示されている。ネットワーク101には、コミュニケーション管理サーバ100が接続される。
 コミュニケーション管理サーバ100は、ユーザ間の音声データの送受信を制御する。各ユーザが使用する情報処理装置10から送信されてきた音声データは、コミュニケーション管理サーバ100においてミックスされ、全ての情報処理装置10に対して配信される。
 また、コミュニケーション管理サーバ100は、空間マップ上の各ユーザの位置を管理し、各ユーザの音声を、空間マップ上における各ユーザ間の距離に応じた大きさの音像を持つ音として出力させる。コミュニケーション管理サーバ100は、情報処理装置10の上述した機能と同様の機能を有している。
 ユーザA乃至Dの各ユーザは、それぞれ、ヘッドホン1を装着し、情報処理装置10A乃至10Dを用いて遠隔会議に参加する。各情報処理装置10には、マイクが内蔵または接続されており、遠隔会議システムを利用するためのプログラムがインストールされている。
 図18は、遠隔会議中のユーザインタフェースとなる画面の表示例を示す図である。
 図18の例は、遠隔会議システムの画面であり、各ユーザが、円形のアイコンI1、I2、I3より表される。アイコンI1乃至I3は、それぞれ例えばユーザA乃至Cを表す。図18の画面を見て遠隔会議に参加するユーザは、例えばユーザDである。
 ユーザDは、アイコンの位置を動かし、各ユーザの空間マップ上の位置を制御することによって、所望のユーザとの距離を設定することができる。図18の例においては、例えば、アイコンI2により表されるユーザBの位置が近くに設定され、アイコンI1により表されるユーザAの位置が、それより遠い位置に設定されている。
 図19は、各ユーザの音声の音像の大きさの例を示す図である。画面に顔を向けているユーザUは例えばユーザDである。
 色付きの円#61で示すように、空間マップ上の位置として近い位置に設定されたユーザBの音声は、距離に応じて大きな音像の音として出力される。円#62,#63で示すように、ユーザA,Cのそれぞれの音声は、それぞれの距離に応じた大きさの音像の音として出力される。
 全てのユーザの音声がモノラルの音声としてミックスされ、ヘッドホン1から出力されるとした場合、話者の位置が1点に集約されることから、カクテルパーティ効果が生じにくく、ユーザは、特定の話者の声に注目して聴くことができない。また、複数のグループに分かれてのグループ討議などが困難となる。
 このように、各話者の位置に応じて、各話者の音声の音像の大きさを制御することにより、ユーザと各話者の距離感を表現することが可能となる。
 会議に同席している各話者との距離が表現されることにより、ユーザは、遠近感を感じながら会話することが可能となる。
 グループ化したい話者の音声が、耳元などの近い位置に定位しているかのように大きな音像の音声として出力されるようにしてもよい。これにより、話者のグループ感を表現することが可能となる。
 各情報処理装置10には、HMDやカメラなどが内蔵、または接続される場合がある。HMDやカメラを用いてユーザの顔の向きを検出し、特定の話者に注目したことを検出した場合に、ユーザが注目している話者の音声の音像の大きさを大きくすることにより、その特定の話者があたかもユーザに近づいて話しているかのように感じさせることが可能となる。
 この例では、それぞれのユーザが他のユーザ(話者)の位置を制御することができるものとしたが、それに限るものではない。例えば、会議の参加者のそれぞれが自分または他の参加者の空間マップ上の位置を制御し、誰かが設定した位置を、全ての参加者の間で共有するような場合も想定される。
・車の疑似エンジンの音の例
 図20は、車の疑似エンジン音の通知手法の例を示す図である。
 歩行者は、走行する車を主に視覚的な情報と聴覚的な情報に基づいて認識すると考えられるが、近年の電気自動車のエンジン音は小さく、歩行者にとって気付きにくい。また、車の音が聞こえても、他の騒音が一緒に聞こえる場合は、車が近づいていることに気付きにくい。
 本適用例は、車110が発する疑似エンジン音を、歩行者であるユーザUに聴かせることにより、走行する車110に気付かせるものである。車110には、情報処理装置10の機能と同様の機能を有する装置が搭載される。ヘッドホン1を装着して歩いているユーザUは、車110による制御に従ってヘッドホン1から出力された疑似エンジン音を聴くことになる。
 本適用例において、車110には、歩行者であるユーザUを検知するカメラと、近くを歩いているユーザUに接近情報としての疑似エンジン音を送信するための通信部を備える。
 車110は、ユーザUを検知した場合、ユーザUまでの距離に応じた大きさの音像を持つ疑似エンジン音を生成する。中心音と周辺音に基づいて生成された疑似エンジン音は、ヘッドホン1に対して送信され、ユーザUに提示される。
 図20のAは、車110とユーザUの距離が遠い場合の音像の例を示す図である。このとき、疑似エンジン音は、色付きの小円#71で示すように小さい音像の音として提示される。
 図20のBは、車110とユーザUの距離が近い場合の音像の例を示す図である。このとき、疑似エンジン音は、色付きの円#72で示すように大きい音像の音として提示される。
 中心音と周辺音に基づく疑似エンジン音の生成が車110において行われるのではなく、ユーザUが所有する情報処理装置10において行われるようにしてもよい。
 本技術によれば、車110の到来方向ともに、車110までの距離感をユーザUに知覚させることができ、危険回避の精度を上げることが可能となる。
 以上のような疑似エンジン音を用いた通知は、エンジン音の小さい車に適用するだけでなく、従来の車に適用することも可能である。距離に応じた大きさの音像を持つ疑似エンジン音を聴かせることによって距離感を大げさに表現することで、ユーザに車が接近していることを知覚させ、危険回避の精度を上げることも可能となる。
・車の障害物警告音の例
 車が例えば駐車するときなど、車と壁の接近を音で警告するシステムは既にあるものの、車と壁の距離感がわからない場合がある。
 本適用例において、車は壁の接近を検知するためのカメラを備えている。この場合においても、車には、情報処理装置10の機能と同様の機能を有する装置が搭載される。
 車に搭載された装置は、カメラにより撮影された画像に基づいて、車体と壁との距離を検知し、警告音の音像の大きさを制御する。車体が壁に接近するほど、大きな音像を持つ警告音が出力される。警告音の音像の大きさによって壁までの距離感を知覚することで、危機回避の精度を上げることが可能となる。
・魚群予測探知の例
 本技術を魚群予測探知装置による魚群の提示に適用することも可能である。例えば、魚群の面積が大きいほど、音像の大きさを大きくして警告音が提示される。これにより、ユーザは、魚群の大きさの予測値を直感的に判断することが可能となる。
・音空間表現の例
 本技術はユーザから仮想音源までの距離感を知覚させるものであるが、さらに、直接音に対する残響音の面積(音像の大きさ)を変化させることで、空間の広がりを表現することが可能となる。つまり、本技術を残響音に適用することにより、奥行き感を表現することが可能となる。
 また、ユーザの慣れに応じて変化量を小さくして残響音の面積を表現することで、ユーザの刺激負担を軽減することができる。
 顔の正面方向からの音か、側面方向からの音か、背面方向からの音かによって音の感じ方が異なる。面積表現に関するパラメータとしてそれぞれの方向に適したパラメータを設けることで、音の提示方向に応じた適切な表現が可能となる。
・動画コンテンツや映画の例
 本技術は、映画などの動画コンテンツ、オーディオコンテンツ、ゲームコンテンツなどの各種のコンテンツの音の提示に適用可能である。コンテンツ中のオブジェクトを仮想音源として設定し、中心音と周辺音を制御することで、仮想音源があたかもユーザに近づいたりユーザから離れたりしているような体験を実現することが可能となる。
<6.その他の例>
・再生装置の構成
 図21は、再生装置の例を説明する図である。
 仮想音源の音の出力に用いられる再生装置として、図21のAに示すような密閉型のヘッドホン(オーバーイヤーヘッドホン)、または、図21のBに示すような肩載せ型のネックバンドスピーカが用いられるようにしてもよい。ネックバンドスピーカを構成する左右のユニットにはスピーカが設けられており、ユーザの耳に向けて音が出力される。
 図22は、再生装置の他の例を説明する図である。
 図22に示す再生装置は、開放型のイヤホンである。
 図22に示す開放型のイヤホンは、右側ユニット120Rと左側ユニット120L(図示せず)により構成される。図22の吹き出しに拡大して示すように、右側ユニット120Rは、ドライバユニット121とリング状の装着部123が、U字状の音導管122を介して接合されることによって構成される。右側ユニット120Rは、装着部123を外耳孔の周りに押し当て、装着部123とドライバユニット121とで右耳を挟むようにして装着される。
 左側ユニット120Lも右側ユニット120Rと同じ構成を有している。左側ユニット120Lと右側ユニット120Rは有線または無線で接続される。
 右側ユニット120Rのドライバユニット121は、情報処理装置10から送信されてきたオーディオ信号を受信し、オーディオ信号に応じた音を、矢印A1に示すように音導管122の先端から出力させる。音導管122と装着部123の接合部には、外耳孔に向けて音を出力する孔部が形成されている。
 装着部123はリング状の形状を有している。外耳孔には、音導管122の先端から出力された音声とともに、矢印A2に示すように周囲の音も到達することになる。
 このように、耳穴を密閉しない開放型のイヤホンが用いられるようにすることが可能である。
 これらの再生装置に、ユーザの頭の向きを検出する検出部が設けられるようにしてもよい。ユーザの頭の向きを検出する検出部が設けられる場合、ユーザの頭の向きが変わっても仮想音源の位置が固定されるように、畳み込み処理に用いられるHRTF情報の調整などが行われる。
・プログラムについて
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 インストールされるプログラムは、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)や半導体メモリなどよりなるリムーバブルメディアに記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROMや記憶部に、あらかじめインストールしておくことができる。
 コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
・構成の組み合わせ例
 本技術は、以下のような構成をとることもできる。
(1)
 第1の音源と、前記第1の音源の音である第1の音の音像の大きさに応じた位置に、複数の第2の音源を設定する音源設定部と、
 前記第1の音源の位置に応じたHRTF情報を用いた畳み込み処理によって得られた第1の音データと、それぞれの前記第2の音源の位置に応じたHRTF情報を用いた畳み込み処理によって得られた複数の第2の音データとを出力させる出力制御部と
 を備え、
 それぞれの前記第2の音源は、前記第1の音源の周辺に位置するように設定される
 情報処理装置。
(2)
 前記音源設定部は、前記第1の音源を中心としてそれぞれの前記第2の音源を設定する
 前記(1)に記載の情報処理装置。
(3)
 前記音源設定部は、前記第1の音の音像の大きさが大きいほど、前記第1の音源から離れた位置にそれぞれの前記第2の音源を設定する
 前記(1)または(2)に記載の情報処理装置。
(4)
 前記第2の音源は、前記第1の音源を中心として4つ設定される音源である、
 前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
 前記音源設定部は、前記第1の音の音像の形状に応じた位置にそれぞれの前記第2の音源を設定する
 前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
 前記出力制御部は、前記第1の音と前記第2の音源の音である第2の音を表す2チャンネルのオーディオデータをユーザが装着する再生装置から出力させる
 前記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)
 前記出力制御部は、前記第1の音と前記第2の音のそれぞれの音量を、前記第1の音の音像の大きさに応じて調整する
 前記(6)に記載の情報処理装置。
(8)
 前記音源設定部は、前記第1の音の音像の大きさが変化することを判定し、前記第1の音の音像の大きさに応じて前記第2の音源の位置を制御する
 前記(2)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記第1の音と複数の前記第2の音源の音である第2の音は、オブジェクトに対応する仮想音源を表現するための音である
 前記(2)乃至(5)のいずれかに記載の情報処理装置。
(10)
 ユーザの現在位置情報と、ユーザの目的地情報を検出する検出部をさらに備え、
 前記音源設定部は、前記現在位置情報に基づいて前記第1の音源の位置を設定し、前記目的地情報を用いて前記第2の音源の位置を設定する
 前記(2)乃至(9)のいずれかに記載の情報処理装置。
(11)
 情報処理装置が、
 第1の音源と、前記第1の音源の音である第1の音の音像の大きさに応じた位置に、複数の第2の音源を設定し、
 前記第1の音源の位置に応じたHRTFデータを用いた畳み込み処理することで得られた第1のオーディオデータと、前記第1の音源の周辺に位置するように設定された、それぞれの前記第2の音源の位置に応じたHRTFデータを用いた畳み込み処理することで得られた複数の第2のオーディオデータとを出力させる
 情報処理方法。
(12)
 コンピュータに、
 第1の音源と、前記第1の音源の音である第1の音の音像の大きさに応じた位置に、複数の第2の音源を設定し、
 前記第1の音源の位置に応じたHRTFデータを用いた畳み込み処理することで得られた第1のオーディオデータと、前記第1の音源の周辺に位置するように設定された、それぞれの前記第2の音源の位置に応じたHRTFデータを用いた畳み込み処理することで得られた複数の第2のオーディオデータとを出力する
 処理を実行させるためのプログラム。
 1 ヘッドホン, 10 情報処理装置, 30 情報処理部, 31 音源設定部, 32 空間音響生成部, 33 出力制御部, 50 再生装置, 60 仮想音源データ提供サーバ, 70 HRTFサーバ, 100 コミュニケーション管理サーバ, 101 ネットワーク, U ユーザ, C 中心音源, LU,RU,LD,RD 周辺音源

Claims (12)

  1.  第1の音源と、前記第1の音源の音である第1の音の音像の大きさに応じた位置に、複数の第2の音源を設定する音源設定部と、
     前記第1の音源の位置に応じたHRTF情報を用いた畳み込み処理によって得られた第1の音データと、それぞれの前記第2の音源の位置に応じたHRTF情報を用いた畳み込み処理によって得られた複数の第2の音データとを出力させる出力制御部と
     を備え、
     それぞれの前記第2の音源は、前記第1の音源の周辺に位置するように設定される
     情報処理装置。
  2.  前記音源設定部は、前記第1の音源を中心としてそれぞれの前記第2の音源を設定する
     請求項1に記載の情報処理装置。
  3.  前記音源設定部は、前記第1の音の音像の大きさが大きいほど、前記第1の音源から離れた位置にそれぞれの前記第2の音源を設定する
     請求項1に記載の情報処理装置。
  4.  前記第2の音源は、前記第1の音源を中心として4つ設定される音源である、
     請求項1に記載の情報処理装置。
  5.  前記音源設定部は、前記第1の音の音像の形状に応じた位置にそれぞれの前記第2の音源を設定する
     請求項1に記載の情報処理装置。
  6.  前記出力制御部は、前記第1の音と前記第2の音源の音である第2の音を表す2チャンネルのオーディオデータをユーザが装着する再生装置から出力させる
     請求項1に記載の情報処理装置。
  7.  前記出力制御部は、前記第1の音と前記第2の音のそれぞれの音量を、前記第1の音の音像の大きさに応じて調整する 
     請求項6に記載の情報処理装置。
  8.  前記音源設定部は、前記第1の音の音像の大きさが変化することを判定し、前記第1の音の音像の大きさに応じて前記第2の音源の位置を制御する
     請求項2に記載の情報処理装置。
  9.  前記第1の音と複数の前記第2の音源の第2の音は、オブジェクトに対応する仮想音源を表現するための音である
     請求項2に記載の情報処理装置。
  10.  ユーザの現在位置情報と、ユーザの目的地情報を検出する検出部をさらに備え、
     前記音源設定部は、前記現在位置情報に基づいて前記第1の音源の位置を設定し、前記目的地情報を用いて前記第2の音源の位置を設定する
     請求項2に記載の情報処理装置。
  11.  情報処理装置が、
     第1の音源と、前記第1の音源の音である第1の音の音像の大きさに応じた位置に、複数の第2の音源を設定し、
     前記第1の音源の位置に応じたHRTFデータを用いた畳み込み処理することで得られた第1のオーディオデータと、前記第1の音源の周辺に位置するように設定された、それぞれの前記第2の音源の位置に応じたHRTFデータを用いた畳み込み処理することで得られた複数の第2のオーディオデータとを出力させる
     情報処理方法。
  12.  コンピュータに、
     第1の音源と、前記第1の音源の音である第1の音の音像の大きさに応じた位置に、複数の第2の音源を設定し、
     前記第1の音源の位置に応じたHRTFデータを用いた畳み込み処理することで得られた第1のオーディオデータと、前記第1の音源の周辺に位置するように設定された、それぞれの前記第2の音源の位置に応じたHRTFデータを用いた畳み込み処理することで得られた複数の第2のオーディオデータとを出力する
     処理を実行させるためのプログラム。
PCT/JP2022/000832 2021-03-05 2022-01-13 情報処理装置、情報処理方法、およびプログラム WO2022185725A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2023503608A JPWO2022185725A1 (ja) 2021-03-05 2022-01-13
EP22762784.1A EP4304207A1 (en) 2021-03-05 2022-01-13 Information processing device, information processing method, and program
CN202280017404.4A CN117083882A (zh) 2021-03-05 2022-01-13 信息处理装置、信息处理方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021035102 2021-03-05
JP2021-035102 2021-03-05

Publications (1)

Publication Number Publication Date
WO2022185725A1 true WO2022185725A1 (ja) 2022-09-09

Family

ID=83153952

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/000832 WO2022185725A1 (ja) 2021-03-05 2022-01-13 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
EP (1) EP4304207A1 (ja)
JP (1) JPWO2022185725A1 (ja)
CN (1) CN117083882A (ja)
WO (1) WO2022185725A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119770A (ja) * 1991-10-25 1993-05-18 Kawai Musical Instr Mfg Co Ltd ステレオ方式
JP2013038511A (ja) * 2011-08-04 2013-02-21 Takenaka Komuten Co Ltd オーディオデータの再生方法、及び、オーディオデータの再生装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119770A (ja) * 1991-10-25 1993-05-18 Kawai Musical Instr Mfg Co Ltd ステレオ方式
JP2013038511A (ja) * 2011-08-04 2013-02-21 Takenaka Komuten Co Ltd オーディオデータの再生方法、及び、オーディオデータの再生装置

Also Published As

Publication number Publication date
CN117083882A (zh) 2023-11-17
JPWO2022185725A1 (ja) 2022-09-09
EP4304207A1 (en) 2024-01-10

Similar Documents

Publication Publication Date Title
US10531196B2 (en) Spatially ducking audio produced through a beamforming loudspeaker array
CN108141696B (zh) 用于空间音频调节的系统和方法
JP7271695B2 (ja) ハイブリッドスピーカ及びコンバータ
US11356797B2 (en) Display a graphical representation to indicate sound will externally localize as binaural sound
KR20170027780A (ko) 추적되는 사용자 위치의 함수로서의 파라메트릭 스피커 구동
US20150189455A1 (en) Transformation of multiple sound fields to generate a transformed reproduced sound field including modified reproductions of the multiple sound fields
US20150189457A1 (en) Interactive positioning of perceived audio sources in a transformed reproduced sound field including modified reproductions of multiple sound fields
KR102062260B1 (ko) 귀 개방형 헤드폰을 이용한 다채널 사운드 구현 장치 및 그 방법
JP5986426B2 (ja) 音響処理装置、音響処理方法
US11523244B1 (en) Own voice reinforcement using extra-aural speakers
US20200097251A1 (en) Emoji to Select How or Where Sound Will Localize to a Listener
US20130243201A1 (en) Efficient control of sound field rotation in binaural spatial sound
Gamper Enabling technologies for audio augmented reality systems
US20230247384A1 (en) Information processing device, output control method, and program
US11102604B2 (en) Apparatus, method, computer program or system for use in rendering audio
WO2022185725A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JPWO2013042324A1 (ja) 音響再生装置
WO2022054900A1 (ja) 情報処理装置、情報処理端末、情報処理方法、およびプログラム
US20240137724A1 (en) Information processing apparatus, information processing method, and program
JP2006352728A (ja) オーディオ装置
JP2023548324A (ja) 増強されたオーディオを提供するためのシステム及び方法
US20230421945A1 (en) Method and system for acoustic passthrough
Molteni Interactive binaural rendering of virtual acoustic scenes

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22762784

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023503608

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 18278927

Country of ref document: US

Ref document number: 202280017404.4

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2022762784

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2022762784

Country of ref document: EP

Effective date: 20231005

NENP Non-entry into the national phase

Ref country code: DE