WO2020026864A1 - 情報処理装置、情報処理システム、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理システム、情報処理方法及びプログラム Download PDFInfo
- Publication number
- WO2020026864A1 WO2020026864A1 PCT/JP2019/028576 JP2019028576W WO2020026864A1 WO 2020026864 A1 WO2020026864 A1 WO 2020026864A1 JP 2019028576 W JP2019028576 W JP 2019028576W WO 2020026864 A1 WO2020026864 A1 WO 2020026864A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sound source
- information
- information processing
- user
- virtual sound
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 117
- 238000003672 processing method Methods 0.000 title claims abstract description 6
- 230000000007 visual effect Effects 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims description 35
- 238000001514 detection method Methods 0.000 claims description 19
- 230000015572 biosynthetic process Effects 0.000 claims description 12
- 238000003786 synthesis reaction Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 36
- 230000004807 localization Effects 0.000 description 19
- 238000012986 modification Methods 0.000 description 15
- 230000004048 modification Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 10
- 238000012937 correction Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000009434 installation Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/041—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/005—Traffic control systems for road vehicles including pedestrian guidance indicator
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/403—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/02—Spatial or constructional arrangements of loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2217/00—Details of magnetostrictive, piezoelectric, or electrostrictive transducers covered by H04R15/00 or H04R17/00 but not provided for in any of their subgroups
- H04R2217/03—Parametric transducers where sound is generated or captured by the acoustic demodulation of amplitude modulated ultrasonic waves
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/13—Application of wave-field synthesis in stereophonic audio systems
Definitions
- the present disclosure relates to an information processing device, an information processing system, an information processing method, and a program.
- Patent Literature 1 includes a display device that displays guidance information and a sound output device that outputs the guidance information as voice, detects that a user belongs to a specified guidance region, and detects the guidance region. There is disclosed a guidance device that outputs appropriate voice to a user by outputting voice to the user.
- a sound source position determining unit that determines a position of a virtual sound source generated by a speaker array and generates a spherical wave, and the virtual sound source that outputs audio information corresponding to visual information that is information displayed on a display
- an output control unit that controls an output from the speaker array so that is located at the position.
- a sound source position determination unit that determines a position of a virtual sound source generated by a speaker array and generates a spherical wave, and that outputs audio information corresponding to visual information that is information displayed on a display.
- An output control unit that controls an output from the speaker array so that the virtual sound source is localized at the position.
- the processor determines the position of the virtual sound source generated by the speaker array and generates a spherical wave, and outputs the audio information according to the visual information that is the information displayed on the display. Controlling an output from the speaker array so that a sound source is localized at the position.
- a computer outputs a sound source corresponding to visual information, which is information displayed on a display, to a sound source position determining unit that determines a position of a virtual sound source generated by a speaker array and generating a spherical wave.
- a program is provided for causing the virtual sound source to function as an output control unit that controls an output from the speaker array such that the virtual sound source is localized at the position.
- audio information is output from a virtual sound source that generates a spherical wave generated by the speaker array.
- FIG. 1 is an explanatory diagram for describing a general information presentation system that provides audio information to a user by sound propagation using a plane wave.
- FIG. 4 is an explanatory diagram for describing a plane wave output by a speaker array provided in a general information presentation system.
- FIG. 1 is an explanatory diagram for describing a general information presentation system that provides audio information to a user by sound propagation using a plane wave.
- 1 is a block diagram illustrating an example of a configuration of an information processing system according to a first embodiment of the present disclosure.
- FIG. 2 is a block diagram illustrating an example of a configuration of the information processing apparatus according to the embodiment.
- FIG. 14 is an explanatory diagram illustrating an example of a method of calculating a user listening position by the sound source position determining unit according to the embodiment.
- FIG. 9 is an explanatory diagram for describing a virtual sound source generated by the output control unit according to the embodiment;
- FIG. 9 is an explanatory diagram for describing a virtual sound source generated by the output control unit according to the embodiment;
- FIG. 9 is an explanatory diagram for describing a virtual sound source generated by the output control unit according to the embodiment;
- FIG. 9 is an explanatory diagram for describing an example of sound propagation by a plane wave.
- FIG. 4 is an explanatory diagram for describing information presented to the user by the information processing device according to the embodiment;
- FIG. 4 is an explanatory diagram for describing information presented to the user by the information processing device according to the embodiment;
- FIG. 4 is an explanatory diagram for describing information presented to the user by the information processing device according to the embodiment; 4 is a flowchart illustrating an example of an operation of the information processing apparatus according to the embodiment.
- FIG. 9 is an explanatory diagram for describing an example of an operation of the information processing device according to the embodiment;
- FIG. 11 is a block diagram illustrating an example of a configuration of an information processing system according to a second embodiment of the present disclosure.
- FIG. 2 is a block diagram illustrating an example of a configuration of the information processing apparatus according to the embodiment.
- 4 is a flowchart illustrating an example of an operation of the information processing apparatus according to the embodiment.
- FIG. 9 is an explanatory diagram for describing an example of an operation of the information processing device according to the embodiment;
- FIG. 9 is an explanatory diagram for describing an example of an operation of the information processing device according to the embodiment;
- FIG. 9 is an explanatory diagram for describing an example of an operation of the information processing device according to the embodiment
- FIG. 11 is an explanatory diagram for describing a first modification of the information processing system according to the present disclosure.
- FIG. 19 is an explanatory diagram for describing a second modification of the information processing system according to the present disclosure.
- FIG. 21 is an explanatory diagram for describing a third modification of the information processing device according to the present disclosure.
- 1 is a diagram illustrating an example of a hardware configuration of an information processing device according to an embodiment of the present disclosure.
- An information presentation system that provides a user with information displayed on a display and audio information related to the displayed information has been widely used.
- an information presentation system is used in public institutions such as airports, train stations and bus stops, and commercial facilities such as shopping malls and mass retailers. Specifically, at the airport, the information presentation system displays the departure / departure time or boarding time of the aircraft on a display, and the displayed departure / departure time or boarding time is provided to the user as audio information.
- a map of the shopping mall is displayed on the display, and the user can further display detailed information of the store on the display by touching the store information shown on the map on the display. it can. Then, the store information is output as audio information in accordance with the display of the detailed information of the store by the information presentation system.
- the size of the display used in the information presentation system, the volume of output sound, and the like differ depending on the number of target users or the content of information provided to the users.
- an information presentation system including a large-screen display and an audio output device capable of outputting audio over a wide range is used.
- a small-screen display and an audio output capable of outputting audio in a small range at a small volume that can be heard by the small number of users is used.
- headphones may be used for audio output to a small number of users.
- ⁇ ⁇ ⁇ In some cases, it is required to present individual information to each of a plurality of users in response to the presentation of common information to a plurality of users. Examples of such a case include a case where information in different languages is presented, a case where individual information designated by each user is presented, and the like. Specifically, there is a case in which information on take-off and landing of an aircraft at an airport is presented to a user in a different language. As a method of presenting individual information to each of a plurality of users, for example, the following display and audio output methods are available.
- the first method of presenting information is to change information to be displayed for a plurality of users at regular intervals using a common display, and to output audio information to an area where a plurality of users are present for a fixed time. It is a method to change every time. In this method, since a plurality of pieces of information are changed and output at regular intervals, it takes time for the user to obtain the information desired by the user. Therefore, the convenience of this method is not sufficient and there is room for improvement.
- the second information presentation method divides the display area of the display into a plurality of parts, or simultaneously displays a plurality of pieces of visual information presented to the user by using a plurality of displays, and the audio information is an area where a plurality of users exist.
- This is a method of changing the audio information to be output to at regular intervals.
- the visual information is information that can be visually recognized by a user, such as image information and character information displayed on a display.
- a plurality of visual information can be displayed at the same time, but since the audio information is changed at regular intervals, when the user seeks the audio information, it takes time to acquire the audio information. Will be. Therefore, the convenience of this method is not sufficient and there is room for improvement.
- a third information presentation method divides a display area of a display into a plurality of pieces, or simultaneously displays a plurality of pieces of visual information presented to a user by using a plurality of displays, and outputs different audio information to different output areas.
- a method of outputting different audio information to different output areas for example, a method of outputting audio information to each user's ear using headphones, and an audio output of controlling a sound output direction using a directional speaker Method and the like.
- each user can acquire individual information in a short time.
- necessary audio information is output for each headphone, and the audio heard by one user is prevented from being mixed with the audio heard by another user. Information can be transmitted.
- wearing the headphones may be bothersome.
- the headphones are used by being worn by the user, deterioration is inevitable and replacement is required. Therefore, in the information presentation system using headphones, running costs may increase.
- FIG. 1 is an explanatory diagram for describing an information presentation system that provides audio information to a user by sound propagation using a plane wave.
- FIG. 2 is an explanatory diagram for describing a plane wave output from a speaker array provided in a general information presentation system.
- FIG. 3 is an explanatory diagram for describing an information presentation system that provides audio information to a user by sound propagation using a plane wave.
- a speaker array 21 that detects that a user U has entered a listening area A and outputs a sound having directivity in the listening area A.
- the sound is transmitted to a specific range by controlling the frequency and amplitude of the sound and synthesizing the waveform of the sound output from the speaker array 21 to generate a plane wave Wp.
- the speaker array 21 installed above outputs a plane wave whose directivity is controlled toward the area A where the user U is located. This allows the user U to listen to the audio information output from the speaker array 21.
- the speaker array 21 that emits the plane wave Wp actually outputs the plane wave Wp around an axis around the speaker array 21, as shown in FIG. Therefore, as shown in FIG. 3, the plane wave Wp output from the speaker array 21 reaches the head of the non-user N outside the listening area A. Therefore, the audio information output from the speaker array 21 leaks out of the listening area A, and can be heard by a person who does not want to listen to the audio information. The leaked voice information is unnecessary information for surrounding people, and is undesirable because it is perceived as noise.
- a general information presentation system often determines whether or not the user U exists in the listening area A by sensing using, for example, infrared rays or ultrasonic waves. Therefore, there is a possibility that the audio information is output from the speaker array 21 only when the non-user N who does not want to acquire the audio information passes through the listening area A. Such unnecessary output of audio information is troublesome for a person who does not want the audio information. Therefore, it is desirable that the output audio information is output when the user U intends.
- FIG. 4 is a block diagram illustrating an example of a configuration of the information processing system 1 according to the present embodiment.
- FIG. 5 is a block diagram illustrating an example of a configuration of the information processing apparatus 10 according to the present embodiment.
- the information processing system 1 includes an information processing device 10, a speaker array 20, a display 30, and a network 40.
- the information processing system 1 uses the information processing device 10 to determine the position of a virtual sound source generated by the speaker array 20 and generating a spherical wave, and outputs audio information corresponding to visual information that is information displayed on the display 30.
- the output from the speaker array 20 is controlled so that the virtual sound source is localized at the position.
- the information processing device 10 determines the position of the virtual sound source generated by the speaker array 20 and generates a spherical wave, and controls the output from the speaker array 20 so that the virtual sound source is localized at the determined position.
- the information processing device 10 includes an operation information acquisition unit 110, a voice information acquisition unit 120, a control unit 130, a storage unit 140, and a communication unit 150.
- the operation information acquisition unit 110 acquires operation information relating to an operation performed by the user.
- the operation information may include various information by an input device provided on the display 30, a position of visual information selected by the user on the display 30, information associated with the visual information, and the like.
- the operation information acquisition unit 110 displays, for example, operation information on a user's operation via the input interface displayed on the display 30, such as selection of visual information, reproduction, termination, and rewind of audio information, on the display 30. May be obtained from. Further, for example, when the display 30 has a touch sensor selected by the user, the operation information acquisition unit 110 may acquire from the display 30 the coordinate values of the display 30 touched by the user. Further, the operation information acquisition unit 110 may acquire information associated with the visual information stored in the storage unit 140. For example, when the information processing system 1 is used for a trial listening of music, the operation information acquisition unit 110 outputs audio information associated with a music jacket displayed at a touch operation position, or meta information such as a release date or a player. Data may be obtained.
- the audio information acquisition unit 120 acquires, from the storage unit 140, audio information corresponding to the visual information of the touch operation position acquired by the operation information acquisition unit 110 in the display on the display 30.
- the control unit 130 controls the sound from the speaker array 20 and the display on the display 30.
- the control unit 130 includes a sound source position determination unit 131, an output control unit 133, and a display control unit 135.
- the sound source position determination unit 131 determines the position of the virtual sound source generated by the speaker array 20. For example, the sound source position determining unit 131 may calculate the listening position of the user and determine the position of the virtual sound source based on the listening position.
- the listening position here is, for example, the position of the user's head or the position of the user's ear.
- the position of the virtual sound source determined by the sound source position determining unit 131 may be referred to as a localization position.
- the sound source position determination unit 131 may be provided on the display 30 and calculate the listening position based on a touch operation position detected by a touch sensor that detects a user's touch operation.
- An example of a method of determining the generation position of the virtual sound source by the sound source position determination unit 131 will be described with reference to FIG.
- FIG. 6 is an explanatory diagram illustrating an example of a method of calculating a user's listening position by the sound source position determining unit 131.
- the sound source position determination unit 131 may determine the generation position of the virtual sound source as described below.
- the sound source position determination unit 131 acquires the coordinates of the position touched by the user. For example, as illustrated in FIG. 6, the sound source position determination unit 131 acquires a touch operation position P T (X T , Z T ) by the user.
- the sound source position determination unit 131 calculates the listening position P H (X H , Z H ) from the touch operation position P T (X T , Z T ) using, for example, a predetermined conversion formula, and determines the sound source position. You may. Specifically, the following equation (1), the listening position P H may be calculated.
- (X H, Z H) (X T, Z T + F Z) ... Equation (1)
- FZ is a correction coefficient in the Z-axis direction.
- Equation (1) assumes that the point touched by the user is in front of the user in the X-axis direction and at a position lower than the height of the user's head in the Z-axis direction. This is a conversion formula created so that the virtual sound source is located.
- Correction factor F Z in this case, as an example, may be set in a range of 0.1 m ⁇ 0.3 m.
- the sound source position determination unit 131 calculates the listening position based on the touch operation position of the user, so that the audio information desired by the user can be appropriately presented to the user.
- the conversion equation is not limited to the equation (1), and other conversion equations may be used.
- a conversion equation created by machine learning or the like may be used.
- the sound source position determination unit 131 can more accurately calculate the listening position.
- the sound source position determination unit 131 determines the position of the visual information selected by the user. Information may be acquired and the localization position may be determined based on the position information. Existing techniques can be applied to such a method of determining the localization position by the sound source position determination unit 131. Further, as the method of determining the localization position by the sound source position determination unit 131, for example, the method of detecting the position of the user's head with a camera described in the second embodiment may be applied.
- the output control unit 133 controls the output from the speaker array 20 so that the virtual sound source generating the spherical wave is localized at the position determined by the sound source position determination unit 131.
- the output control unit 133 may perform a wavefront synthesis filter process and control the output from the speaker array so that the virtual sound source is localized at the localized position.
- the output control unit 133 may calculate a wavefront synthesis filter for localizing the virtual sound source at the localization position, and perform wavefront synthesis filter processing on the audio data using the wavefront synthesis filter.
- an existing virtual sound source generation technique can be applied. For example, an existing published document “S. Spors et al .:“ Physical and Perceptual Properties of of Focused Sources in Wave Field Synthesis, Audio Engineering Society Convenience Paper, 127th Convention 2009, October 9-12.
- FIGS. 7 to 9 and FIG. 7 to 9 are explanatory diagrams for explaining virtual sound sources generated by the speaker array 20 under the control of the output control unit 133.
- FIG. 10 is an explanatory diagram for describing an example of sound propagation by a plane wave.
- the output control unit 133 controls the output from the speaker array 20 to generate a virtual sound source S that generates a spherical wave by applying the method described in the above-mentioned publication, for example.
- the speaker array 20 is a line array speaker in which speakers are arranged in one direction
- the speaker array 20 controls the position of the virtual sound source S in the direction along the longitudinal direction of the speaker array 20.
- the virtual sound source S generated by the speaker array 20 is As shown in FIG. 8, a plurality of sections are generated at positions equidistant from the speaker array 20 in a cross section (YZ plane in FIG.
- the output control unit 133 controls the sound pressure of the sound output from the virtual sound source S at the position of the head of the user U, and thus the output control unit 133 exists at a position distant from the virtual sound source S. It is possible to suppress recognition of voice information output from the virtual sound source S by the person N.
- the sound is a plane wave, as shown in FIG. 10, when there is an obstacle such as a wall in the propagation direction of the plane wave, the plane wave is reflected by the wall, so that the sound leaks outside the set listening area. May come out.
- the sound emitted from the virtual sound source S has a larger attenuation than the plane wave, it is possible to make the spherical wave emitted from the virtual sound source S sufficiently attenuated when the spherical wave emitted from the virtual sound source S reaches an obstacle. is there. As a result, it is possible to suppress the voice information output by the virtual sound source S from being recognized by a person outside the listening area.
- the output control unit 133 may also control the output of the speaker array 20 so that the virtual sound source is located at the position determined based on the listening position calculated by the sound source position determining unit 131.
- the virtual sound source By localizing the virtual sound source at the listening position, even when the volume of the sound information emitted by the virtual sound source is low, the user can listen to the sound information, and the sound information of the sound information can be heard by a person present around the user. It is possible to suppress recognition.
- the output control unit 133 may control the output of the speaker array 20 so that a plurality of virtual sound sources are generated. By generating a plurality of virtual sound sources, it is possible to present different audio information to a plurality of users.
- the display control unit 135 controls the display on the display 30 and controls the visual information presented to the user by the display 30. For example, when the information processing system 1 is used for music preview, the display control unit 135 may display an image related to a song that can be listened to, for example, a song jacket, a music video, or the like.
- the storage unit 140 appropriately stores various programs, databases, and the like used when the control unit 130 performs the above-described various processes.
- the storage unit 140 stores, for example, a conversion formula, coordinates of the touch operation position, coordinates of the localization position calculated by converting the coordinates of the touch operation position, and the like necessary for the sound source position determination unit 131 to determine the position of the virtual sound source.
- the various parameters that need to be stored, the progress of the processing, and the like may be appropriately recorded.
- the storage unit 140 may store audio information output by the output control unit 133 or visual information displayed on the display 30 by the display control unit 135.
- the control unit 130 may freely perform read / write processing on the storage unit 140.
- the communication unit 150 transmits and receives various information to and from the speaker array 20 and the display 30 via the network 40.
- the communication unit 150 receives, for example, visual information from the display 30 and outputs the visual information to the control unit 130.
- the communication unit 150 may receive the touch operation position coordinates of the user from the display 30. Further, communication unit 150 transmits an output instruction from output control unit 133 to speaker array 20 and transmits a display instruction from display control unit 135 to display 30.
- the speaker array 20 generates a virtual sound source that generates a spherical wave according to an instruction from the output control unit 133, and emits audio information corresponding to visual information displayed on the display 30 from the virtual sound source.
- a line array speaker in which a plurality of speakers are arranged is used as the speaker array 20.
- the number, specifications, and the like of the speakers provided in the speaker array 20 may be changed according to the position where the virtual sound source is localized, the number of virtual sound sources, the volume of sound output from the virtual sound source, and the like.
- the speaker array 20 only needs to be able to localize the virtual sound source at the position determined by the sound source position determining unit 131, and has various shapes such as a shape in which a plurality of speakers are linearly arranged, a shape in which the speakers are curved, and the like. be able to. Further, the speaker array 20 may be one in which a plurality of line array speakers are stacked. For example, the speaker array 20 may be one in which a plurality of line array speakers are vertically stacked with respect to a longitudinal direction in which a plurality of speakers are arranged.
- the speaker array 20 may be installed so that the user can recognize the visual information and perform a touch operation so that the virtual sound source can be localized. For example, as shown in FIG. May be installed above.
- the display 30 displays visual information.
- the display 30 may display a plurality of visual information.
- the display 30 may display, for example, visual information stored in the storage unit 140.
- the display 30 may include a touch sensor. When the touch sensor detects a user's touch, visual information from which audio information is output is selected from a plurality of pieces of visual information displayed on the display 30.
- the display 30 may display an input interface.
- the display 30 may transmit operation information such as reproduction, termination, and rewinding of audio information to the operation information acquisition unit 110 by a user's operation via an input interface.
- the display 30 may include an input device exemplified by a mouse, a keyboard, and the like.
- the network 40 is a wired or wireless transmission path for information transmitted from a device connected to the network 40.
- the network 40 may include a public line network such as the Internet, a telephone line network, and a satellite communication network, various LANs (Local Area Network), a WAN (Wide Area Network), and the like.
- FIG. 11 and FIG. 12 are explanatory diagrams for explaining information presented to the user by the information processing device 10 according to the present embodiment.
- a display 30 is installed in front of the user U, and a speaker array 20 is installed above the display 30.
- the display 30 displays a jacket image of the music as a plurality of pieces of visual information.
- the visual information selected by the user U is displayed on the display 30 in a large size.
- the virtual sound source S is localized at the position of the head of the user U, and the virtual sound source S outputs audio information corresponding to visual information, for example, music corresponding to a jacket image. Then, the user U can listen to the music.
- the display 30 may display metadata related to the visual information selected by the user U.
- the information processing system 1 may be used by a plurality of users at the same time. For example, as shown in FIG. 12, when the user U1 and the user U2 respectively select different jacket images, the speaker array 20 localizes the two virtual sound sources at different positions and outputs different audio information for each virtual sound source. You may.
- the spherical wave generated by the virtual sound source S generated by the speaker array 20 is greatly attenuated according to the distance from the virtual sound source S. Therefore, for example, according to the information processing system 1, the user U2 is prevented from recognizing audio information emitted by the virtual sound source S1 localized at the position of the head of the user U1. As a result, the information processing system 1 can simultaneously present different audio information to each user without impairing the use of each other.
- FIG. 13 is a flowchart for explaining an example of the operation of the information processing apparatus 10 according to the present embodiment.
- FIG. 14 is an explanatory diagram illustrating an example of an operation of the information processing device 10 according to the present embodiment.
- the information processing apparatus 10 according to the present embodiment is applied for the purpose of listening to music, but the information processing apparatus 10 according to the present embodiment Needless to say, it is not limited to viewing.
- the display control unit 135 displays visual information on the display 30 (step S101).
- the display control unit 135 displays the jacket image of the music stored in the storage unit 140 on the display 30, for example.
- the touch sensor included in the display 30 detects a touch operation by the user (Step S103).
- the operation information acquisition unit 110 acquires the coordinate value of the touch operation position from the display 30 and associates the coordinate value with the jacket image displayed at the touch operation position from the storage unit 140.
- the acquired metadata is acquired (step S105).
- the sound source position determination unit 131 acquires the coordinate value of the touch operation position from the operation information acquisition unit 110, and determines the localization position based on the coordinate value (step S107).
- the output control unit 133 calculates a wavefront synthesis filter for localizing the virtual sound source at the localization position of the virtual sound source determined by the sound source position determining unit 131 (Step S109).
- the voice information acquisition unit 120 acquires the coordinate values of the touch operation position from the operation information acquisition unit 110.
- the voice information obtaining unit 120 obtains audio data corresponding to the jacket displayed at the touch operation position from the storage unit 140, and inputs the audio data to the output control unit 133 (Step S111).
- the output control unit 133 performs a wavefront synthesis filter process using the calculated wavefront synthesis filter on the input audio data.
- the output control unit 133 transmits a wavefront synthesized signal, which is a digital signal subjected to the wavefront synthesis filter processing, to the speaker array 20 (Step S113).
- the speaker array 20 converts the wavefront synthesized signal into an analog signal using a DAC (Digital Analog Converter), converts the converted analog signal into sound, and emits the sound.
- the music is output from the virtual sound source (step S115).
- the display control unit 135 may acquire the touch position-related information from the operation information acquisition unit 110 and display the metadata on the display 30. The sound output ends when the reproduction of the music is completed or stopped by the operation of the user.
- FIG. 15 is a block diagram illustrating an example of a configuration of the information processing system 2 according to the second embodiment of the present disclosure.
- FIG. 16 is a block diagram illustrating an example of a configuration of the information processing device 50 according to the present embodiment.
- the information processing system 2 includes an information processing device 50, a speaker array 20, a display 30, a network 40, and a camera 60, as shown in FIG.
- the speaker array 20, the display 30, and the network 40 included in the information processing system 2 are the same as those in the first embodiment.
- the information processing system 2 according to the present embodiment is different from the first embodiment in having a camera 60. Since the speaker array 20, the display 30, and the network 40 are the same as those described in the first embodiment, detailed description thereof will be omitted.
- the information processing apparatus 50 includes a control unit 130, a storage unit 140, a communication unit 150, and a head position detection unit 160, as shown in FIG.
- the functions of the control unit 130, the storage unit 140, and the communication unit 150 included in the information processing device 50 are the same as those described in the first embodiment.
- the information processing apparatus 50 according to the present embodiment is different from the first embodiment in having a head position detecting unit 160.
- the functions of the operation information acquisition unit 110, the audio information acquisition unit 120, the output control unit 133, the display control unit 135, the storage unit 140, and the communication unit 150 included in the control unit 130 of the first embodiment are the same as those of the first embodiment. Since it is the same as that described, detailed description is omitted here.
- the head position detection unit 160 detects the user's head from the image captured by the camera 60, and detects the user's head position.
- the head position detection unit 160 can detect the position of the user's head using, for example, a known face detection technique.
- the head position detection unit 160 may, for example, obtain an image captured by the camera 60 at any time and detect the user's head position at any time, or may be captured when the user performs an input operation on the display. An image may be acquired from the camera 60 and the position of the user's head may be detected from the image.
- the sound source position determination unit 131 may determine the localization position based on the head position detected by the head position detection unit 160 in addition to the function described in the first embodiment.
- the sound source position determination unit 131 may determine the localization position based on the position of the user's head detected by the head position detection unit 160 when a predetermined input operation by the user is detected.
- the sound source position determination unit 131 determines the position of the user's head detected by the head position detection unit 160 as the localization position, for example, when a touch operation by the user is detected by a touch sensor provided on the display 30. May be.
- the camera 60 captures at least a part of the space where the information processing system 2 is installed and generates an image.
- the camera 60 is installed, for example, so as to be able to acquire an image in a range in which the user may exist in the space.
- the image captured by the camera 60 is transmitted to the head position detection unit 160.
- FIG. 17 is a flowchart for explaining an example of the operation of the information processing device 50 according to the present embodiment.
- FIG. 18 is an explanatory diagram illustrating an example of an operation of the information processing device 50 according to the present embodiment. Steps S201, S203, S205, and S209 to S215 shown in FIG. 17 are the same as steps S101, S103, S105, and S109 to S115 described in the first embodiment, respectively. Therefore, detailed description here is omitted.
- the operation of the information processing apparatus 50 according to the present embodiment is different from the operation of the information processing apparatus 10 according to the first embodiment in that the operation of the head position detection step S204 is included.
- the information processing device 50 is not limited to listening to music.
- the head position detection unit 160 detects the position of the user's head.
- the head position detection unit 160 may, for example, obtain an image captured by the camera 60 at any time and detect the user's head position at any time, or may be captured when the user performs an input operation on the display. An image may be acquired from the camera 60 and the position of the user's head may be detected from the image.
- step S207 the sound source position determining unit 131 determines a localization position based on the head position detected by the head position detecting unit 160. Then, after steps S209 to S215 are executed, the reproduction of the music is completed or stopped by the operation of the user, whereby the sound output ends.
- the information processing device 50 can more accurately localize the virtual sound source at the position of the user's head. As a result, it is possible to present the voice information to the user without unnecessarily increasing the volume of the voice information output from the virtual sound source, and it is possible to suppress recognition of the voice information by surrounding people.
- FIG. 19 is an explanatory diagram for describing a first modification of the information processing system.
- the information processing system according to the present modification may include, for example, three speaker arrays 20 and three displays 30. As shown in FIG. 19, of the three speaker arrays 20, the speaker array 20A and the speaker array 20C may be installed so as to face each other, and among the three displays 30, the display 30A and the display 30C may face each other. It may be installed so that it does.
- the spherical wave generated by the virtual sound source S generated by the speaker array 20 is greatly attenuated according to the distance from the virtual sound source S. Therefore, according to the information processing system according to the present modification, the user UC located behind the user UA is prevented from recognizing audio information generated by the virtual sound source WA generated by the speaker array 20A. Therefore, the information processing system 1 according to the present modification can install a plurality of speaker arrays 20 at positions facing each other.
- FIG. 20 is an explanatory diagram for describing a second modification of the information processing system.
- the sound source position determination unit 131 uses the following equation (2) and the following formula (3), the touch operation position P T (X T, Z T ) from corresponding to the position of the right ear of a user
- the localization position may be determined by calculating the listening position P HR (X HR , Z HR ) and the listening position P HL (X HL , Z HL ) corresponding to the position of the user's left ear.
- the correction coefficient F X By using the correction coefficient F X , the user's touch operation position in the X-axis direction is converted to the position of the user's right ear and left ear, and by using the correction coefficient F Z , the user's touch in the Z-axis direction The operation position can be converted into the position of the right ear and the position of the left ear of the user.
- the correction coefficient F X may be, for example, 0.1 m
- the correction coefficient F Z may be set in a range of 0.1 m to 0.3 m.
- the virtual sound source localized at the position of the right ear and the virtual sound source localized at the position of the left ear can reproduce different audio information, and can reproduce the audio in stereo.
- the output control unit 133 controls the output of the speaker array 20 so that the virtual sound source is localized at the position of the right ear and the position of the left ear of the user
- the output control unit 133 uses a filter using a head-related transfer function. Processing may be performed.
- the sound subjected to the filtering process by the head-related transfer function is output from the virtual sound source localized at the position of the right ear and the virtual sound source localized at the position of the left ear, so that the user has a higher sense of realism. Can be provided.
- the information processing system 1 and the information processing system 2 have been described by exemplifying a case where the speaker array 20 is installed above the display 30.
- the speaker array 20 allows the user to display visual information. What is necessary is just to install so that a virtual sound source can be localized in a range in which a touch operation can be performed by recognition.
- the speaker array 20 may be provided with a plurality of line array speakers stacked on the back surface of the display 30. When the speaker array 20 is one line array speaker, as described above with reference to FIG.
- the virtual sound source is located at a position equidistant from the speaker array 20 in a cross section perpendicular to the longitudinal direction of the line array speaker. Are generated multiple times.
- the localization position of the virtual sound source can be controlled in a direction perpendicular to the longitudinal direction of the line array speaker.
- the virtual sound source generated by the speaker array 20 can be generated as a point-like sound source.
- the speaker array 20 formed by stacking the line array speakers is installed behind the display 30, and the point-like virtual sound source is localized on the display surface of the display 30, and is displayed on the display 30. It is possible to output audio information from the position of the image. As a result, the user can obtain a feeling as if the image displayed on the display 30 is emitting sound.
- FIG. 22 is a block diagram illustrating a hardware configuration example of the information processing apparatus according to an embodiment of the present disclosure.
- the information processing apparatus includes, for example, a CPU 901, a ROM 902, a RAM 903, a host bus 904, a bridge 905, an external bus 906, an interface 907, an input device 908, a display device 909, It has an audio output device 910, a storage device 911, a drive 912, a connection port 913, and a removable storage medium 914.
- the hardware configuration shown here is an example, and some of the components may be omitted. Further, components other than the components shown here may be further included.
- the CPU 901 functions as, for example, an arithmetic processing device or a control device, and controls the entire operation of each component or a part thereof based on various programs recorded in the ROM 902, the RAM 903, the storage device 911, or the removable storage medium 914. .
- the CPU 901 may form an operation information acquisition unit 110, a voice information acquisition unit 120, a control unit 130, and a head position detection unit 160.
- the ROM 902 is a means for storing programs read by the CPU 901, data used for calculations, and the like.
- the RAM 903 temporarily or permanently stores, for example, a program read by the CPU 901 and various parameters that appropriately change when the program is executed.
- the CPU 901, the ROM 902, and the RAM 903 are connected to each other via a host bus 904 capable of high-speed data transmission, for example.
- the host bus 904 is connected, for example, via a bridge 905 to an external bus 906 having a relatively low data transmission speed.
- the external bus 906 is connected to various components via an interface 907.
- the input device 908 for example, a touch panel, a mouse, a keyboard, or the like may be used. Further, as the input device 908, a remote controller capable of transmitting a control signal using infrared rays or other radio waves may be used. In the information processing system according to an embodiment of the present disclosure, the input device 908 corresponds to a touch sensor (touch panel) provided in the display 30.
- a touch sensor touch panel
- the display device 909 is, for example, a display 30 to which a CRT (Cathode Ray Tube), LCD, or organic EL is applied, and the audio output device 910 is the speaker array 20.
- the display device 909 and the audio output device 910 are devices that can visually or audibly notify the user of the acquired information.
- the storage device 911 is a device for storing various data.
- a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like is used.
- the storage device 911 corresponds to the storage unit 140.
- the drive 912 is a device that reads information recorded on a removable storage medium 914 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information to the removable storage medium 914.
- a removable storage medium 914 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
- the ⁇ removable storage medium 914 is, for example, a DVD medium, a Blu-ray (registered trademark) medium, an HD DVD medium, various semiconductor storage media, or the like.
- the removable storage medium 914 may be, for example, an IC card on which a non-contact type IC chip is mounted, or an electronic device.
- connection port 913 is a port for connecting an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System System Interface), an RS-232C port, or an optical audio terminal. is there.
- an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System System Interface), an RS-232C port, or an optical audio terminal.
- the information processing system according to the present disclosure does not require a wearing device such as headphones, it is possible to save time and effort for wearing the wearing device and prevent occurrence of discomfort due to wearing.
- voice information is presented by a user's input operation, voice information is not output only when a non-user is present near the information processing system, and malfunction is caused. Is suppressed.
- the sound emitted by the virtual sound source is a spherical wave and the sound is greatly attenuated, it is possible to present the sound information at a volume that allows only the user to recognize the sound. . Thereby, the recognition of the voice information by the non-user is suppressed, and the non-user is prevented from being uncomfortable.
- the information processing system according to the present disclosure enables the speaker array to be installed close to the speaker array and face-to-face installation of the speaker array, so that the installation space can be effectively used. Further, the number of users who can use the information processing system according to the present disclosure per unit area of the installation location can be increased.
- a sound source position determining unit that determines a position of a virtual sound source generated by the speaker array to generate a spherical wave;
- An output control unit that controls output from the speaker array so that the virtual sound source that outputs audio information according to visual information that is information displayed on a display is localized at the position.
- the sound source position determining unit calculates the listening position of the user to determine the position of the virtual sound source based on the listening position,
- the sound source position determining unit is provided on the display, and calculates the listening position based on a touch operation position detected by a touch sensor that detects a user's touch operation.
- a head position detection unit that detects a position of the user's head
- the sound source position determining unit determines the position of the virtual sound source based on the position of the user's head detected by the head position detecting unit when a predetermined input operation by the user is detected,
- the information processing apparatus according to any one of (1) to (4).
- the sound source position determination unit when a touch sensor of the user is detected by a touch sensor provided in the display and detects a touch operation of the user, of the head of the user detected by the head position detection unit
- the information processing device according to (5), wherein the position of the virtual sound source is determined based on the position.
- the information processing apparatus outputs a plurality of virtual sound sources.
- the output control unit controls the output from the speaker array so that a plurality of virtual sound sources that output different audio information according to each of the plurality of visual information are generated.
- the information processing apparatus according to any one of 7).
- the information processing device according to (9), wherein the output control unit performs a filter process using a head-related transfer function.
- a sound source position determining unit that determines a position of a virtual sound source generated by the speaker array to generate a spherical wave;
- An output control unit that controls output from the speaker array so that the virtual sound source that outputs audio information corresponding to visual information that is information displayed on a display is localized at the position.
- An information processing system comprising: (12) The processor Determining the position of a virtual sound source generated by the speaker array and producing a spherical wave; Controlling the output from the speaker array so that the virtual sound source that outputs audio information corresponding to visual information that is information displayed on a display is localized at the position;
- An information processing method including: (13) Computer A sound source position determining unit that determines a position of a virtual sound source generated by the speaker array and generating a spherical wave; A program for functioning as an output control unit that controls output from the speaker array so that the virtual sound source that outputs audio information corresponding to visual information that is information displayed on a display is located at the position.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
- Details Of Audible-Bandwidth Transducers (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Traffic Control Systems (AREA)
Abstract
本開示に係る情報処理装置、情報処理システム、情報処理方法及びプログラムは、スピーカアレー(20)によって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部(131)と、ディスプレイ(30)に表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように、前記スピーカアレー(20)からの出力を制御する出力制御部(133)と、を備える。
Description
本開示は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。
近年、ディスプレイに表示した情報と、表示された情報に関する音声情報とをユーザに提供する情報提示システムの普及が進んでいる。
例えば、以下の特許文献1には、案内情報を表示する表示装置と、案内情報を音声として出力する音出力装置を備え、指定された案内領域にユーザが属したことを検出してその案内領域に音声を出力することで、ユーザに対して適切な案内を行う案内装置が開示されている。
しかしながら、特許文献1に記載の案内装置に備えられる音出力装置は、指向性が制御された平面波によって案内領域に音声を出力するため、案内領域外に存在する人にもその音声が聞こえる可能性がある。
そこで、本開示では、上記事情に鑑みて、周囲への音漏れを抑制しつつ、ユーザに対して、ディスプレイに表示された情報に応じた音声情報を提供することが可能な、情報処理装置、情報処理システム、情報処理方法及びプログラムを提案する。
本開示によれば、スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部と、ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように、前記スピーカアレーからの出力を制御する出力制御部と、を備える、情報処理装置が提供される。
また、本開示によれば、スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部と、ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する出力制御部と、を備える、情報処理システムが提供される。
また、本開示によれば、プロセッサが、スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定すること、ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御することと、を含む、情報処理方法が提供される。
また、本開示によれば、コンピュータを、スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部、ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する出力制御部、として機能させるためのプログラムが提供される。
本開示によれば、スピーカアレーが生成した球面波を生じる仮想音源から音声情報が出力される。
以上説明したように本開示によれば、周囲への音漏れを抑制しつつ、ユーザに対して、ディスプレイに表示された情報に応じた音声情報を提供することが可能となる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、又は、上記の効果に代えて、本明細書に示されたいずれかの効果、又は、本明細書から把握され得る他の効果が奏されてもよい。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
<1.背景>
<2.第1の実施形態>
<3.第2の実施形態>
<4.変形例>
<5.ハードウェア構成>
<6.結び>
<1.背景>
<2.第1の実施形態>
<3.第2の実施形態>
<4.変形例>
<5.ハードウェア構成>
<6.結び>
<1.背景>
ディスプレイに表示した情報と、表示された情報に関する音声情報とをユーザに提供する情報提示システムの普及が進んでいる。例えば、空港、駅又はバスの停留所等に挙げられる公共機関、ショッピングモール又は量販店等に挙げられる商業施設において、情報提示システムが利用されている。具体的には、空港においては、情報提示システムによって、ディスプレイ上に航空機の離発着時刻又は搭乗時刻等が表示され、この表示された離発着時刻又は搭乗時刻等が音声情報としてユーザに提供されている。また、ショッピングモールでは、ディスプレイ上にショッピングモール内の地図が表示され、ユーザは、ディスプレイ上の地図に示された店舗情報にタッチすることで、その店舗の詳細情報をさらにディスプレイに表示させることができる。そして、情報提示システムによって、店舗の詳細情報の表示に合わせてその店舗情報が音声情報として出力される。
ディスプレイに表示した情報と、表示された情報に関する音声情報とをユーザに提供する情報提示システムの普及が進んでいる。例えば、空港、駅又はバスの停留所等に挙げられる公共機関、ショッピングモール又は量販店等に挙げられる商業施設において、情報提示システムが利用されている。具体的には、空港においては、情報提示システムによって、ディスプレイ上に航空機の離発着時刻又は搭乗時刻等が表示され、この表示された離発着時刻又は搭乗時刻等が音声情報としてユーザに提供されている。また、ショッピングモールでは、ディスプレイ上にショッピングモール内の地図が表示され、ユーザは、ディスプレイ上の地図に示された店舗情報にタッチすることで、その店舗の詳細情報をさらにディスプレイに表示させることができる。そして、情報提示システムによって、店舗の詳細情報の表示に合わせてその店舗情報が音声情報として出力される。
上記のような情報提示システムでは、対象とするユーザの人数又はユーザに提供される情報の内容によって、情報提示システムに用いられるディスプレイのサイズや出力される音声の音量等は異なる。例えば、多数のユーザに対して共通の情報を提示するためには、大画面のディスプレイと、広範囲に音声を出力することが可能な音声出力装置とを備えた情報提示システムが用いられる。また、例えば、少数のユーザに対して共通の情報を提示するには、小画面のディスプレイと、その少人数のユーザが聴取可能な小さな音量で狭い範囲に音声を出力することが可能な音声出力装置とを備えた情報提示システムが用いられる。少数のユーザに対する音声出力には、例えば、ヘッドホン等が用いられることもある。
複数のユーザに対する共通の情報の提示に対し、複数のユーザそれぞれに対して、個別の情報を提示することが求められる場合がある。このような場合として、例えば、異なる言語による情報を提示する場合や、各々のユーザが指定した個別の情報を提示する場合等が挙げられる。具体的には、空港における航空機の離発着情報を異なる言語でユーザに提示する場合等が挙げられる。このような、複数のユーザそれぞれに対して、個別の情報を提示する方法としては、例えば、以下のような、ディスプレイによる表示及び音声出力の方法が挙げられる。
一つ目の情報提示方法は、複数のユーザに対して、共通のディスプレイを用いて一定時間ごとに表示する情報を変更し、複数のユーザが存在する領域に向けて出力する音声情報を一定時間ごとに変更する方法である。この方法では、複数の情報が一定時間ごとに変更されて出力されるため、ユーザが欲している情報をそのユーザが取得するまでに時間を要することになる。そのため、この方法の利便性は十分でなく改善の余地がある。
二つ目の情報提示方法は、ディスプレイの表示領域を複数に分割、又は複数のディスプレイの使用によってユーザに提示される複数の視覚情報を同時に表示し、音声情報は、複数のユーザが存在する領域に向けて出力する音声情報を一定時間ごとに変更する方法である。視覚情報とは、ディスプレイに表示される画像情報、文字情報などユーザが視認可能な情報である。この方法では、複数の視覚情報を同時に表示することができるものの、音声情報は、一定時間ごとに変更されるため、ユーザが音声情報を求める場合は、その音声情報を取得するまでに時間を要することになる。そのため、この方法の利便性は十分でなく改善の余地がある。
三つ目の情報提示方法は、ディスプレイの表示領域を複数に分割、又は複数のディスプレイの使用によってユーザに提示される複数の視覚情報を同時に表示し、異なる音声情報をそれぞれ異なる出力領域に出力する方法である。異なる音声情報をそれぞれ異なる出力領域に出力する方法としては、例えば、ヘッドホンを利用して音声情報を各ユーザの耳に出力する方法、指向性スピーカを利用して音声の出力方向を制御する音声出力方法等が挙げられる。この情報提示方法では、各ユーザは、短時間で個別の情報を取得することができる。また、例えば、ユーザがヘッドホンを利用する場合には、必要な音声情報がヘッドホンごとに出力され、一のユーザが聞く音声に他のユーザが聞く音声が混入することが抑制されるため、確実な情報伝達が可能となる。しかし、ユーザによってはヘッドホンの装着が煩わしく感じられることがある。更に、ヘッドホンは、ユーザに装着されて使用されるため、劣化が避けられず、交換が必要になる。そのため、ヘッドホンを用いた情報提示システムでは、ランニングコストが増加する可能性がある。
また、例えば、指向性スピーカによる音の指向性を用いて音声の受聴領域を複数設定した場合、一の受聴領域には、日本語の音声情報を提示し、他の受聴領域には、英語の音声情報を提示することができ、情報提示の効率が向上する。しかし、指向性スピーカを用いた場合であっても複数の受聴領域のうちの一の領域内に、他の領域に出力される音声が侵入するため、ユーザによる音声情報取得が阻害されることがある。また、出力領域外にいる音声情報を求めていない人は、出力領域の音声情報が漏れ聞こえるため、不快に感じることがある。
ここで、図1~図3を参照して、指向性スピーカを利用した情報提示システムによる音声出力の概要を説明する。図1は、平面波による音の伝搬によりユーザに音声情報を提供する情報提示システムを説明するための説明図である。図2は、一般の情報提示システムに備えられるスピーカアレーが出力する平面波を説明するための説明図である。図3は、平面波による音の伝搬によりユーザに音声情報を提供する情報提示システムを説明するための説明図である。
一般的な情報提示システムの一例として、例えば、図1に示すように、ユーザUが受聴エリアAに入ったことを検出して、その受聴エリアAに指向性を有する音声を出力するスピーカアレー21を備えた情報提示システムがある。このシステムでは、例えば、音の周波数や振幅を制御してスピーカアレー21から出力される音の波形を合成して平面波Wpを生成することで特定の範囲に音を伝搬させる。例えば、図1に示すように、上方に設置されたスピーカアレー21は、ユーザUが位置する領域Aに向かって指向性が制御された平面波を出力する。これにより、ユーザUは、スピーカアレー21が出力する音声情報を受聴することができる。
しかし、平面波Wpを発するスピーカアレー21は、実際には、図2に示すように、スピーカアレー21を軸とした軸まわりに平面波Wpを出力する。そのため、図3に示すように、スピーカアレー21から出力された平面波Wpは、受聴エリアAの外にいる非ユーザNの頭部にも到達する。従って、スピーカアレー21から出力される音声情報は、受聴エリアAの外に漏れ、音声情報の受聴を望まない人にも聞こえてしまうことになる。漏れ出した音声情報は、周囲の人にとっては必要のない情報であり、雑音として感じられるため望ましくない。
また、一般的な情報提示システムは、ユーザUが受聴エリアAに存在するか否かを、例えば、赤外線や超音波等を用いてセンシングすることによって判定することが多い。そのため、音声情報の取得を望まない非ユーザNが受聴エリアAを通過するだけでスピーカアレー21から音声情報が出力される可能性がある。このような、音声情報の不要な出力は、その音声情報を欲していない人にとって煩わしいものである。そのため、出力される音声情報は、ユーザUが意図したときに出力されること望ましい。
球面波では、一般に、音源からの距離が2倍になると音圧レベルは6dB低下する。一方、平面波では、一般に、音源からの距離が2倍になると音圧レベルは3dB低下する。そのため、平面波は、球面波に比べて遠方まで到達する。これにより、例えば、異なる音声情報を提示するための受聴エリアAを平面波の進行方向に沿って複数設けた場合、一の受聴エリアAに位置するユーザUは、所望の音声情報に加えて、欲していない他の音声情報を認識する場合がある。従って、平面波を利用した一般的な情報提示システムでは、複数の音声情報が一つの受聴エリアAに出力されないように、設置レイアウトが制限されることがある。
上記の、受聴エリアAの外への音声情報漏れ及び設置レイアウトの制限は、超音波により指向性を有する音を生成するパラメトリックスピーカ等を利用した場合も起こり得る。
そこで、本発明者らは、上記について鋭意検討した結果、本技術を発明するに至った。以下において、本技術の実施形態を詳細に説明する。
<2.第1の実施形態>
[2-1.構成]
まず、図4及び図5を参照しながら、第1の実施形態に係る情報処理システム1及び情報処理装置10の構成について説明する。図4は、本実施形態に係る情報処理システム1の構成の一例を示すブロック図である。図5は、本実施形態に係る情報処理装置10の構成の一例を示すブロック図である。
[2-1.構成]
まず、図4及び図5を参照しながら、第1の実施形態に係る情報処理システム1及び情報処理装置10の構成について説明する。図4は、本実施形態に係る情報処理システム1の構成の一例を示すブロック図である。図5は、本実施形態に係る情報処理装置10の構成の一例を示すブロック図である。
まず、本実施形態に係る情報処理システム1の構成を説明する。情報処理システム1は、情報処理装置10、スピーカアレー20、ディスプレイ30及びネットワーク40を備える。情報処理システム1は、情報処理装置10によって、スピーカアレー20により生成されて球面波を生じる仮想音源の位置を決定し、ディスプレイ30に表示された情報である視覚情報に応じた音声情報を出力する仮想音源が前記位置に定位されるように、スピーカアレー20からの出力を制御する。
情報処理装置10は、スピーカアレー20によって生成されて球面波を生じる仮想音源の位置を決定し、決定した位置に仮想音源が定位されるようにスピーカアレー20からの出力を制御する。情報処理装置10は、図5に示すように、操作情報取得部110、音声情報取得部120、制御部130、記憶部140、及び通信部150を備える。
操作情報取得部110は、ユーザによる操作に関する操作情報を取得する。操作情報には、ディスプレイ30に備えられた入力機器による各種の情報、ユーザによって選択された視覚情報のディスプレイ30上の位置、視覚情報に紐づいた情報などが含まれてもよい。操作情報取得部110は、例えば、ディスプレイ30が表示した入力用インタフェースを介したユーザの操作に関する操作情報、例えば、視覚情報の選択、音声情報の再生、終了、巻き戻し等の操作情報をディスプレイ30から取得してもよい。また、例えば、ユーザにより選択されディスプレイ30がタッチセンサを有する場合、操作情報取得部110は、ユーザがタッチしたディスプレイ30の座標値をディスプレイ30から取得してもよい。また、操作情報取得部110は、記憶部140に記憶された視覚情報に紐づいた情報を取得してもよい。操作情報取得部110は、例えば、情報処理システム1が音楽の試聴に利用される場合は、タッチ操作位置に表示された楽曲ジャケットに紐づいた音声情報、又は、発売日や演奏者等のメタデータを取得してもよい。
音声情報取得部120は、ディスプレイ30の表示における操作情報取得部110により取得されたタッチ操作位置の視覚情報に応じた音声情報を記憶部140から取得する。
制御部130は、スピーカアレー20による音声及びディスプレイ30による表示を制御する。制御部130は、音源位置決定部131、出力制御部133、及び表示制御部135を有する。
音源位置決定部131は、スピーカアレー20によって生成される仮想音源の位置を決定する。音源位置決定部131は、例えば、ユーザの聴取位置を算出し、聴取位置に基づいて仮想音源の位置を決定してもよい。ここでいう聴取位置は、例えば、ユーザの頭部の位置、又はユーザの耳の位置である。また、以降、音源位置決定部131により決定される仮想音源の位置を、定位位置と呼称することもある。
また、音源位置決定部131は、ディスプレイ30に備えられ、ユーザのタッチ操作を検出するタッチセンサにより検出されたタッチ操作位置に基づいて聴取位置を算出してもよい。音源位置決定部131による仮想音源の生成位置の決定方法の一例を、図6を参照して説明する。図6は、音源位置決定部131によるユーザの聴取位置を算出する方法の一例を説明するための説明図である。
例えば、ディスプレイ30として、入力検出用のタッチセンサを有するタッチパネルが用いられる場合、音源位置決定部131は、以下のようにして、仮想音源の生成位置を決定してもよい。音源位置決定部131は、ユーザがタッチした位置の座標を取得する。音源位置決定部131は、例えば、図6に示すように、ユーザによるタッチ操作位置PT(XT、ZT)を取得する。音源位置決定部131は、例えば、所定の変換式を用いて、タッチ操作位置PT(XT、ZT)から聴取位置PH(XH、ZH)を算出し、音源位置を決定してもよい。具体的には、下記式(1)により、聴取位置PHは算出されてもよい。
(XH、ZH)=(XT、ZT+FZ) …式(1)
FZは、Z軸方向に関する補正係数である。
(XH、ZH)=(XT、ZT+FZ) …式(1)
FZは、Z軸方向に関する補正係数である。
式(1)は、ユーザがタッチするポイントは、X軸方向においてはユーザの正面であり、Z軸方向においてはユーザの頭の高さより低い位置にあると仮定し、ユーザの頭部の位置に仮想音源が位置するように作成された変換式である。従って、式(1)では、X軸方向についてはタッチ操作位置の座標を用い、Z軸方向については、タッチ操作位置を補正係数FZで補正した値を用いることで、定位位置を決定する。このときの補正係数FZは、一例として、0.1m~0.3mの範囲で設定してもよい。
上記のように、音源位置決定部131がユーザのタッチ操作位置に基づいて聴取位置を算出することで、ユーザが欲する音声情報をそのユーザに対して適切に提示することが可能となる。
なお、変換式には、式(1)に限られず、その他の変換式が用いられてもよく、例えば、機械学習等により作成された変換式が用いられてもよい。機械学習等により作成された変換式が用いられることで、音源位置決定部131は、より正確に聴取位置を算出することが可能となる。
上記では、タッチセンサによるタッチ操作位置に基づいて聴取位置の算出し、音源位置決定部131による定位位置を決定する方法を説明したが、音源位置決定部131は、ユーザが選択した視覚情報の位置情報を取得して、その位置情報に基づいて定位位置を決定すればよい。このような音源位置決定部131による定位位置の決定方法には、既存の技術を適用することができる。また、音源位置決定部131による定位位置の決定方法には、例えば、第2の実施形態で説明する、カメラによりユーザの頭部位置を検出する方法を適用してもよい。
出力制御部133は、球面波を生じる仮想音源が音源位置決定部131により決定された位置に定位されるように、スピーカアレー20からの出力を制御する。出力制御部133は、波面合成フィルタ処理を行い、仮想音源が定位位置に定位されるようにスピーカアレーからの出力を制御してもよい。具体的には、出力制御部133は、仮想音源を定位位置に定位するための波面合成フィルタを算出し、当該波面合成フィルタを用いて音声データに波面合成フィルタ処理を行ってもよい。このようなスピーカアレー20からの出力の制御方法としては、既存の仮想音源生成技術を適用することが可能であり、例えば、既存の公開文献「S.Spors et al.:“Physical and Perceptual Properties of Focused Sources in Wave Field Synthesis”,Audio Engineering Society Convention Paper,127th Convention 2009 October 9-12」に記載された技術を適用することが可能である。
ここで、図7~図9及び図10を参照して、出力制御部133により生成される仮想音源について説明する。図7~図9は、出力制御部133からの制御によってスピーカアレー20が生成する仮想音源を説明するための説明図である。図10は、平面波による音の伝搬の一例を説明するための説明図である。
出力制御部133は、例えば、上述した公開文献に記載された方法を適用して、スピーカアレー20からの出力を制御して球面波を生じる仮想音源Sを生成する。スピーカアレー20が一方向にスピーカが並設されたラインアレースピーカである場合、スピーカアレー20は、仮想音源Sのスピーカアレー20の長手方向に沿った方向の位置を制御する。例えば、図7に示すように、出力制御部133がユーザUの頭部の位置に仮想音源Sが位置するようにスピーカアレー20を制御した場合、スピーカアレー20によって生成される仮想音源Sは、図8に示すように、スピーカアレー20の長手方向に対して垂直な断面(図8では、YZ面)においてスピーカアレー20から等距離の位置に複数生成する。音声情報は仮想音源Sから周囲に伝搬されるが、仮想音源Sが発する音は球面波であるため、平面波と比較して音の減衰が大きい。これにより、図9に示すように、出力制御部133は、ユーザUの頭部の位置に仮想音源Sから出力される音の音圧を制御することで、仮想音源Sから離れた位置に存在する人Nによる仮想音源Sから出力される音声情報の認識を抑制することが可能となる。
また、音が平面波である場合、図10に示すように、平面波の伝搬方向に壁などの障害物が存在する場合、平面波は壁で反射されるため、設定された受聴エリア外において音声が漏れ出る可能性がある。一方、仮想音源Sが発する音は平面波と比較して音の減衰が大きいため、仮想音源Sが発した球面波が障害物に到達したときの球面波を十分減衰した状態にすることが可能である。その結果、仮想音源Sが出力した音声情報が受聴エリア外の人に認識されるのを抑制することが可能となる。
また、出力制御部133は、音源位置決定部131が算出した聴取位置に基づいて決定した位置に仮想音源が定位されるようにスピーカアレー20の出力を制御してもよい。聴取位置に仮想音源が定位されることで、仮想音源が発する音声情報の音量が小さい場合でも、ユーザは当該音声情報を聴取することが可能となり、ユーザの周囲に存在する人による当該音声情報の認識を抑制することが可能となる。
また、出力制御部133は、複数の仮想音源が生成されるようにスピーカアレー20の出力を制御してもよい。複数の仮想音源が生成されることで、複数のユーザに異なる音声情報を提示することが可能となる。
表示制御部135は、ディスプレイ30の表示を制御し、ディスプレイ30によってユーザに提示する視覚情報を制御する。表示制御部135は、例えば、情報処理システム1が音楽試聴に用いられる場合、試聴可能な楽曲に関連する画像、例えば楽曲のジャケット、ミュージックビデオ等を表示してもよい。
記憶部140は、制御部130が上記のような各種の処理を実施する際に利用する各種のプログラムやデータベース等が適宜記録されている。記憶部140は、例えば、音源位置決定部131が仮想音源の位置を決定するのに必要な変換式やタッチ操作位置の座標、タッチ操作位置の座標を変換して算出された定位位置の座標等、保存する必要が生じた様々なパラメータや処理の途中経過等が適宜記録されてもよい。また、記憶部140は、出力制御部133によって出力される音声情報、又は表示制御部135によってディスプレイ30に表示される視覚情報を記憶してもよい。この記憶部140に対して、制御部130は、自由にリード/ライト処理を実施してもよい。
通信部150は、ネットワーク40を介して、スピーカアレー20及びディスプレイ30と各種情報の送受信を行う。通信部150は、例えば、ディスプレイ30から視覚情報を受信し制御部130に出力する。通信部150は、ディスプレイ30がタッチパネルである場合、ユーザのタッチ操作位置座標をディスプレイ30から受信してもよい。また、通信部150は、出力制御部133からの出力指示をスピーカアレー20に送信し、表示制御部135からの表示指示をディスプレイ30に送信する。
スピーカアレー20は、出力制御部133の指示に応じて球面波を生じる仮想音源を生成し、当該仮想音源からディスプレイ30に表示される視覚情報に応じた音声情報を発する。スピーカアレー20には、例えば、複数のスピーカが配列されたラインアレースピーカが用いられる。仮想音源が定位される位置、仮想音源の数又は仮想音源から出力する音声の音量等に応じて、スピーカアレー20に備えられるスピーカの個数、仕様などは変更されてよい。
スピーカアレー20は、音源位置決定部131により決定された位置に仮想音源を定位することができればよく、複数のスピーカが直線状に配列した形状、湾曲して配列した形状等、種々の形状とすることができる。また、スピーカアレー20には、ラインアレースピーカが複数積み重ねられたものが用いられてもよい。例えば、スピーカアレー20は、複数のスピーカが配列された方向である長手方向に対してラインアレースピーカが垂直に複数積み重ねられたものが用いられてもよい。
スピーカアレー20は、ユーザが視覚情報を認識してタッチ操作を行うことができる範囲に、仮想音源を定位することができるように設置されればよく、例えば、図11に示すように、ディスプレイ30の上方に設置されてもよい。
ディスプレイ30は、視覚情報を表示する。ディスプレイ30は、複数の視覚情報を表示してもよい。ディスプレイ30は、例えば、記憶部140に記憶された視覚情報を表示してもよい。また、ディスプレイ30は、タッチセンサを備えていてもよい。当該タッチセンサがユーザのタッチを検出することにより、ディスプレイ30に表示された複数の視覚情報のうちから音声情報が出力される視覚情報が選択される。
ディスプレイ30は、入力用インタフェースを表示してもよい。ディスプレイ30は、ユーザの入力用インタフェースを介した操作により、音声情報の再生、終了、巻き戻し等の操作情報を操作情報取得部110に送信してもよい。なお、ディスプレイ30は、マウス、キーボード等に例示される入力装置を備えていてもよい。
ネットワーク40は、ネットワーク40に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク40は、インターネット、電話回線網、衛星通信網などの公衆回線網や、各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。
ここで、図11及び図12を参照して、情報処理システム1の使用例を説明する。図11及び図12は、本実施形態に係る情報処理装置10によりユーザに提示された情報を説明するための説明図である。図11に示すように、ユーザUの正面にディスプレイ30が設置され、ディスプレイ30の上方にはスピーカアレー20が設置される。図11では、ディスプレイ30には、複数の視覚情報として、楽曲のジャケット画像が表示されている。ユーザUによって選択された視覚情報がディスプレイ30に大きく表示される。仮想音源Sは、ユーザUの頭部の位置に定位され、仮想音源Sは、視覚情報に応じた音声情報、例えば、ジャケット画像に応じた楽曲を出力する。そして、ユーザUは、その楽曲を聴取することが可能となる。なお、ディスプレイ30には、ユーザUが選択した視覚情報に関連するメタデータが表示されてもよい。
また、情報処理システム1は、複数のユーザに同時に使用されてもよい。例えば、図12に示すように、ユーザU1及びユーザU2がそれぞれ異なるジャケット画像を選択した場合、スピーカアレー20は、2つの仮想音源を異なる位置に定位し、仮想音源ごとに異なる音声情報を出力してもよい。スピーカアレー20により生成される仮想音源Sが発する球面波は、仮想音源Sからの距離に応じて大きく減衰する。そのため、例えば、情報処理システム1によれば、ユーザU1の頭部の位置に定位される仮想音源S1が発する音声情報をユーザU2が認識することが防止される。その結果、情報処理システム1は、互いのユーザの使用を害することなく、それぞれのユーザに対して異なる音声情報を同時に提示することが可能となる。
ここまで、本実施形態にかかる情報処理システム1の構成について説明した。
[2-2.動作]
続いて、図13及び図14を参照して、情報処理装置10の動作について説明する。図13は、本実施形態に係る情報処理装置10の動作の一例を説明するための流れ図である。図14は、本実施形態に係る情報処理装置10の動作の一例を説明するための説明図である。なお、以下の説明においては、音楽の試聴を目的として本実施形態に係る情報処理装置10が適用される場合を例に挙げて説明するが、本実施形態に係る情報処理装置10は、音楽の視聴に限定されないことはいうまでもない。
続いて、図13及び図14を参照して、情報処理装置10の動作について説明する。図13は、本実施形態に係る情報処理装置10の動作の一例を説明するための流れ図である。図14は、本実施形態に係る情報処理装置10の動作の一例を説明するための説明図である。なお、以下の説明においては、音楽の試聴を目的として本実施形態に係る情報処理装置10が適用される場合を例に挙げて説明するが、本実施形態に係る情報処理装置10は、音楽の視聴に限定されないことはいうまでもない。
まず、表示制御部135は、ディスプレイ30に視覚情報を表示する(ステップS101)。表示制御部135は、例えば、記憶部140に記憶された楽曲のジャケット画像をディスプレイ30に表示する。次に、ディスプレイ30が有するタッチセンサは、ユーザによるタッチ操作を検出する(ステップS103)。ユーザによるタッチ操作がタッチセンサによって検出されると、操作情報取得部110は、ディスプレイ30からタッチ操作位置の座標値を取得し、記憶部140からタッチ操作位置に表示されているジャケット画像に紐づいたメタデータを取得する(ステップS105)。音源位置決定部131は、操作情報取得部110からタッチ操作位置の座標値を取得し、当該座標値に基づいて定位位置を決定する(ステップS107)。次いで、出力制御部133は、音源位置決定部131により決定された仮想音源の定位位置に仮想音源を定位するための波面合成フィルタを計算する(ステップS109)。
次いで、音声情報取得部120は、操作情報取得部110からタッチ操作位置の座標値を取得する。音声情報取得部120は、タッチ操作位置に表示されたジャケットに応じたオーディオデータを記憶部140から取得し、出力制御部133に当該オーディオデータを入力する(ステップS111)。続いて、出力制御部133は、入力されたオーディオデータに対し、算出された波面合成フィルタを用いた波面合成フィルタ処理を施す。そして、出力制御部133は、波面合成フィルタ処理が施されたデジタル信号である波面合成信号をスピーカアレー20に送信する(ステップS113)。スピーカアレー20は、DAC(Digital Analog Converter)で波面合成信号をアナログ信号に変換し、変換されたアナログ信号を音声に変換して発することで、定位位置に仮想音源を定位し、ジャケットに応じた楽曲を仮想音源から出力する(ステップS115)。このとき、表示制御部135は、操作情報取得部110からタッチ位置関連情報を取得し、ディスプレイ30にメタデータを表示してもよい。楽曲の再生が完了、又はユーザの操作により停止されることで音声の出力は終了する。
<3.第2の実施形態>
[3-1.構成]
続いて、図15及び図16を参照して、本開示の第2の実施形態に係る情報処理システム2及び情報処理装置50ついて説明する。図15は、本開示の第2の実施形態に係る情報処理システム2の構成の一例を示すブロック図である。図16は、本実施形態に係る情報処理装置50の構成の一例を示すブロック図である。
[3-1.構成]
続いて、図15及び図16を参照して、本開示の第2の実施形態に係る情報処理システム2及び情報処理装置50ついて説明する。図15は、本開示の第2の実施形態に係る情報処理システム2の構成の一例を示すブロック図である。図16は、本実施形態に係る情報処理装置50の構成の一例を示すブロック図である。
本実施形態に係る情報処理システム2は、図15に示すように、情報処理装置50、スピーカアレー20、ディスプレイ30、ネットワーク40及びカメラ60を備える。情報処理システム2が備える、スピーカアレー20、ディスプレイ30及びネットワーク40は第1の実施形態と同様である。しかし、本実施形態に係る情報処理システム2は、カメラ60を有する点で第1の実施形態と相違する。スピーカアレー20、ディスプレイ30及びネットワーク40は第1の実施形態で説明したものと同様であるため、ここでの詳細な説明は省略する。
本実施形態に係る情報処理装置50は、図16に示すように、制御部130、記憶部140、通信部150及び頭部位置検出部160を備える。情報処理装置50が備える、制御部130、記憶部140及び通信部150の機能は、第1の実施形態で説明したものと同様である。しかし、本実施形態に係る情報処理装置50は、頭部位置検出部160を有する点で第1の実施形態と相違する。制御部130が有する、操作情報取得部110、音声情報取得部120、出力制御部133、制御部130が有する表示制御部135、記憶部140及び通信部150の機能は、第1の実施形態で説明したものと同様であるため、ここでの詳細な説明は省略する。
頭部位置検出部160は、カメラ60によって撮像された画像からユーザの頭部を検出し、ユーザの頭部位置を検出する。頭部位置検出部160は、例えば、公知の顔検出技術を用いてユーザの頭部位置を検出することができる。頭部位置検出部160は、例えば、カメラ60によって撮像された画像を随時取得してユーザの頭部位置を随時検出してもよいし、ユーザがディスプレイに対する入力操作を行ったときに撮像された画像をカメラ60から取得して、当該画像からユーザの頭部位置を検出してもよい。
音源位置決定部131は、第1の実施形態で説明した機能に加え、頭部位置検出部160によって検出された頭部位置に基づいて定位位置を決定してもよい。音源位置決定部131は、ユーザによる所定の入力操作が検出されたときに頭部位置検出部160によって検出されたユーザの頭部の位置に基づいて定位位置を決定してもよい。音源位置決定部131は、例えば、ディスプレイ30に備えられるタッチセンサによって、ユーザによるタッチ操作が検出されたときの、頭部位置検出部160によって検出されたユーザの頭部の位置を定位位置に決定してもよい。
カメラ60は、情報処理システム2が設置される空間の少なくとも一部を撮像して画像を生成する。カメラ60は、例えば、当該空間のうちのユーザが存在する可能性がある範囲の画像を取得できるように設置される。カメラ60により撮像された画像は、頭部位置検出部160に送信される。
ここまで、本実施形態にかかる情報処理システム2の構成について説明した。
[3-2.動作]
続いて、図17及び図18を参照して、情報処理装置50の動作について説明する。図17は、本実施形態に係る情報処理装置50の動作の一例を説明するための流れ図である。図18は、本実施形態に係る情報処理装置50の動作の一例を説明するための説明図である。図17に示したステップS201、ステップS203、ステップS205、ステップS209~ステップS215のそれぞれは、それぞれ第1の実施形態において説明したステップS101、ステップS103、ステップS105、ステップS109~ステップS115と同様であるため、ここでの詳細な説明は省略する。本実施形態に係る情報処理装置50の動作は、頭部位置検出ステップS204の動作が含まれる点で、第1の実施形態に係る情報処理装置10の動作と異なる。なお、以下の説明においては、第1の実施例と同様に、音楽の試聴を目的として本実施形態に係る情報処理装置50が適用される場合を例に挙げて説明するが、本実施形態に係る情報処理装置50は、音楽の視聴に限定されないことはいうまでもない。
続いて、図17及び図18を参照して、情報処理装置50の動作について説明する。図17は、本実施形態に係る情報処理装置50の動作の一例を説明するための流れ図である。図18は、本実施形態に係る情報処理装置50の動作の一例を説明するための説明図である。図17に示したステップS201、ステップS203、ステップS205、ステップS209~ステップS215のそれぞれは、それぞれ第1の実施形態において説明したステップS101、ステップS103、ステップS105、ステップS109~ステップS115と同様であるため、ここでの詳細な説明は省略する。本実施形態に係る情報処理装置50の動作は、頭部位置検出ステップS204の動作が含まれる点で、第1の実施形態に係る情報処理装置10の動作と異なる。なお、以下の説明においては、第1の実施例と同様に、音楽の試聴を目的として本実施形態に係る情報処理装置50が適用される場合を例に挙げて説明するが、本実施形態に係る情報処理装置50は、音楽の視聴に限定されないことはいうまでもない。
ステップS204において、頭部位置検出部160は、ユーザの頭部の位置を検出する。頭部位置検出部160は、例えば、カメラ60によって撮像された画像を随時取得してユーザの頭部位置を随時検出してもよいし、ユーザがディスプレイに対する入力操作を行ったときに撮像された画像をカメラ60から取得して、当該画像からユーザの頭部位置を検出してもよい。
ステップS207において、音源位置決定部131は、頭部位置検出部160によって検出された頭部位置に基づいて定位位置を決定する。そして、ステップS209~ステップS215が実行された後、楽曲の再生が完了、又はユーザの操作により停止されることで音声の出力は終了する。以上の動作により、情報処理装置50は、より正確に、ユーザの頭部の位置に仮想音源を定位させることが可能となる。その結果、仮想音源から出力される音声情報の音量を不要に大きくすることなくユーザに音声情報を提示することが可能となり、周囲の人による当該音声情報の認識を抑制することが可能となる。
<4.変形例>
[4-1.第1の変形例]
第1の実施形態に係る情報処理システム1及び第2の実施形態に係る情報処理システム2では、スピーカアレー20及びディスプレイ30がそれぞれ1つ備えられる場合を説明したが、情報処理システムに備えられるスピーカアレー20及びディスプレイ30は、複数であってもよい。図19を参照して、スピーカアレー20及びディスプレイ30が複数備えられる情報処理システムを説明する。図19は、情報処理システムの第1の変形例を説明するための説明図である。
[4-1.第1の変形例]
第1の実施形態に係る情報処理システム1及び第2の実施形態に係る情報処理システム2では、スピーカアレー20及びディスプレイ30がそれぞれ1つ備えられる場合を説明したが、情報処理システムに備えられるスピーカアレー20及びディスプレイ30は、複数であってもよい。図19を参照して、スピーカアレー20及びディスプレイ30が複数備えられる情報処理システムを説明する。図19は、情報処理システムの第1の変形例を説明するための説明図である。
本変形例に係る情報処理システムは、例えば、3つのスピーカアレー20と、3つのディスプレイ30を備えてもよい。図19に示すように3つのスピーカアレー20のうち、スピーカアレー20Aとスピーカアレー20Cは、互いに対向するように設置されてもよく、3つのディスプレイ30のうち、ディスプレイ30Aとディスプレイ30Cは、互いに対向するように設置されてもよい。スピーカアレー20が生成する仮想音源Sが発する球面波は、仮想音源Sからの距離に応じて大きく減衰する。そのため、本変形例かかる情報処理システムによれば、ユーザUAの後方に存在するユーザUCがスピーカアレー20Aにより生成される仮想音源WAが発する音声情報を認識することが防止される。従って、本変形例に係る情報処理システム1は、複数のスピーカアレー20を互いに対向する位置に設置することが可能である。
[4-2.第2の変形例]
上記では、ユーザの頭部の位置を仮想音源の定位位置に決定する場合を例に挙げて説明したが、音源位置決定部131は、仮想音源の定位位置をユーザの右耳の位置及び左耳の位置に決定してもよい。出力制御部133は、図20に示すように、ユーザの右耳の位置及び左耳の位置のそれぞれに仮想音源が定位されるように、スピーカアレー20の出力を制御してもよい。図20は、情報処理システムの第2の変形例を説明するための説明図である。この場合、例えば、音源位置決定部131は、下記式(2)及び下記式(3)を用いて、タッチ操作位置PT(XT、ZT)から、ユーザの右耳の位置に対応する聴取位置PHR(XHR、ZHR)及びユーザの左耳の位置に対応する聴取位置PHL(XHL、ZHL)を算出し、定位位置を決定してもよい。
(XHR、ZHR)=(XT-FX、ZT+FZ) …式(2)
(XHL、ZHL)=(XT+FX、ZT+FZ) …式(3)
FXはX軸方向に関する補正係数であり、FZはZ軸方向に関する補正係数である。
上記では、ユーザの頭部の位置を仮想音源の定位位置に決定する場合を例に挙げて説明したが、音源位置決定部131は、仮想音源の定位位置をユーザの右耳の位置及び左耳の位置に決定してもよい。出力制御部133は、図20に示すように、ユーザの右耳の位置及び左耳の位置のそれぞれに仮想音源が定位されるように、スピーカアレー20の出力を制御してもよい。図20は、情報処理システムの第2の変形例を説明するための説明図である。この場合、例えば、音源位置決定部131は、下記式(2)及び下記式(3)を用いて、タッチ操作位置PT(XT、ZT)から、ユーザの右耳の位置に対応する聴取位置PHR(XHR、ZHR)及びユーザの左耳の位置に対応する聴取位置PHL(XHL、ZHL)を算出し、定位位置を決定してもよい。
(XHR、ZHR)=(XT-FX、ZT+FZ) …式(2)
(XHL、ZHL)=(XT+FX、ZT+FZ) …式(3)
FXはX軸方向に関する補正係数であり、FZはZ軸方向に関する補正係数である。
補正係数FXを用いることで、X軸方向におけるユーザのタッチ操作位置をユーザの右耳の位置及び左耳の位置に変換し、補正係数FZを用いることで、Z軸方向におけるユーザのタッチ操作位置をユーザの右耳の位置及び左耳の位置に変換することができる。このときの補正係数FXは、一例として、0.1mとしてもよく、補正係数FZは、0.1m~0.3mの範囲で設定してもよい。
これにより、右耳の位置に定位された仮想音源及び左耳の位置に定位された仮想音源は、それぞれ異なる音声情報を再生することができ、音声をステレオ再生することが可能となる。
ユーザの右耳の位置と左耳の位置に仮想音源が定位されるように出力制御部133がスピーカアレー20の出力を制御する場合、この出力制御部133は、頭部伝達関数を用いたフィルタ処理を行ってもよい。頭部伝達関数によるフィルタ処理が施された音声が、右耳の位置に定位された仮想音源及び左耳の位置に定位された仮想音源から出力されることで、ユーザに対してより高い臨場感を提供することが可能となる。
[4-3.第3の変形例]
上記では、ディスプレイ30の上方にスピーカアレー20が設置される場合を例示して情報処理システム1及び情報処理システム2を説明したが、先立って説明したようにスピーカアレー20は、ユーザが視覚情報を認識してタッチ操作を行うことができる範囲に、仮想音源を定位することができるように設置されればよい。スピーカアレー20は、例えば、図21に示すように、ディスプレイ30の背面に、ラインアレースピーカが複数積み重ねられて設置されてもよい。スピーカアレー20が一つのラインアレースピーカである場合、図7を参照して先立って説明したように、ラインアレースピーカの長手方向に対して垂直な断面におけるスピーカアレー20から等距離の位置に仮想音源が複数生成する。しかし、ラインアレースピーカが複数積み重ねられたスピーカアレー20では、仮想音源の定位位置をラインアレースピーカの長手方向に対して垂直な方向に対しても制御することが可能となる。その結果、スピーカアレー20が生成する仮想音源は、点状の音源として生成可能となる。これにより、例えば、ラインアレースピーカが積層して形成されたスピーカアレー20をディスプレイ30の後方に設置して、点状の仮想音源をディスプレイ30の表示面に定位することで、ディスプレイ30に表示された画像の位置から音声情報を出力することが可能となる。その結果、ユーザは、あたかもディスプレイ30に表示された画像が音を発しているような感覚を得ることが可能となる。
上記では、ディスプレイ30の上方にスピーカアレー20が設置される場合を例示して情報処理システム1及び情報処理システム2を説明したが、先立って説明したようにスピーカアレー20は、ユーザが視覚情報を認識してタッチ操作を行うことができる範囲に、仮想音源を定位することができるように設置されればよい。スピーカアレー20は、例えば、図21に示すように、ディスプレイ30の背面に、ラインアレースピーカが複数積み重ねられて設置されてもよい。スピーカアレー20が一つのラインアレースピーカである場合、図7を参照して先立って説明したように、ラインアレースピーカの長手方向に対して垂直な断面におけるスピーカアレー20から等距離の位置に仮想音源が複数生成する。しかし、ラインアレースピーカが複数積み重ねられたスピーカアレー20では、仮想音源の定位位置をラインアレースピーカの長手方向に対して垂直な方向に対しても制御することが可能となる。その結果、スピーカアレー20が生成する仮想音源は、点状の音源として生成可能となる。これにより、例えば、ラインアレースピーカが積層して形成されたスピーカアレー20をディスプレイ30の後方に設置して、点状の仮想音源をディスプレイ30の表示面に定位することで、ディスプレイ30に表示された画像の位置から音声情報を出力することが可能となる。その結果、ユーザは、あたかもディスプレイ30に表示された画像が音を発しているような感覚を得ることが可能となる。
なお、上記した第1の変形例~第3の変形例は、第1の実施形態又は第2の実施形態に組み合わせてよい。
<5.ハードウェア構成>
以上、本開示に係る実施形態について説明した。上述した情報処理は、ソフトウェアと、以下に説明する情報処理システム又は情報処理装置のハードウェアとの協働により実現される。
以上、本開示に係る実施形態について説明した。上述した情報処理は、ソフトウェアと、以下に説明する情報処理システム又は情報処理装置のハードウェアとの協働により実現される。
図22は、本開示の一実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。図21を参照すると、情報処理装置は、例えば、CPU901と、ROM902と、RAM903と、ホストバス904と、ブリッジ905と、外部バス906と、インタフェース907と、入力装置908と、表示装置909と、音声出力装置910と、ストレージ装置911と、ドライブ912と、接続ポート913と、リムーバブル記憶媒体914と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
CPU901は、例えば、演算処理装置又は制御装置として機能し、ROM902、RAM903、ストレージ装置911、又はリムーバブル記憶媒体914に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。CPU901は、操作情報取得部110、音声情報取得部120、制御部130、及び頭部位置検出部160を形成し得る。
ROM902は、CPU901に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM903には、例えば、CPU901に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
CPU901、ROM902、RAM903は、例えば、高速なデータ伝送が可能なホストバス904を介して相互に接続される。一方、ホストバス904は、例えば、ブリッジ905を介して比較的データ伝送速度が低速な外部バス906に接続される。また、外部バス906は、インタフェース907を介して種々の構成要素と接続される。
入力装置908には、例えば、タッチパネル、マウス、キーボード等が用いられ得る。さらに、入力装置908としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラが用いられることもある。本開示の一実施形態に係る情報処理システムでは、入力装置908は、ディスプレイ30備えられたタッチセンサ(タッチパネル)に相当する。
表示装置909は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等が適用されたディスプレイ30であり、音声出力装置910はスピーカアレー20である。表示装置909及び音声出力装置910は、いずれも取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。
ストレージ装置911は、各種のデータを格納するための装置である。ストレージ装置911としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。ストレージ装置911は、記憶部140に相当する。
ドライブ912は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記憶媒体914に記録された情報を読み出し、又はリムーバブル記憶媒体914に情報を書き込む装置である。
リムーバブル記憶媒体914は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記憶媒体914は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
接続ポート913は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
<6.結び>
以上説明したように、本開示によれば、周囲への音漏れを抑制しつつ、ユーザに対して、ディスプレイに表示された情報に応じた音声情報を提供することが可能となる。また、出力された音声情報が対象とするユーザ以外に認識されることが抑制され、ユーザ以外の人の情報取得行為が阻害されないようにすることが可能となる。
以上説明したように、本開示によれば、周囲への音漏れを抑制しつつ、ユーザに対して、ディスプレイに表示された情報に応じた音声情報を提供することが可能となる。また、出力された音声情報が対象とするユーザ以外に認識されることが抑制され、ユーザ以外の人の情報取得行為が阻害されないようにすることが可能となる。
また、本開示に係る情報処理システムには、ヘッドホンなどの装着機器を必要としないため、装着機器を装着する手間が省け、装着による不快感の発生を防止することが可能となる。
また、装着機器の摩耗等による劣化がないため、メンテナンスコストの削減が可能となる。また、特殊な指向性スピーカ又は超音波スピーカを使用する必要がないため、製造コストの削減が可能となる。
また、本開示に係る情報処理システムによれば、ユーザの入力操作により音声情報が提示されるため、非ユーザが当該情報処理システム付近に存在するだけでは、音声情報は出力されず、誤作動が抑制される。
また、本開示に係る情報処理システムによれば、仮想音源が発する音声は球面波であり音声の減衰が大きいため、ユーザのみに音声が認識される程度の音量で音声情報を提示することができる。これにより、非ユーザの当該音声情報の認識が抑制され、非ユーザに不快感を与えることが防止される。
また、本開示に係る情報処理システムは、スピーカアレーの近接設置及びスピーカアレーの対面設置が可能となるため、設置空間の有効活用が可能となる。また、設置場所の単位面積当たりの、本開示に係る情報処理システムを使用できるユーザ数を増やすことが可能となる。
一般的な指向性スピーカ、指向性波面の合成技術では困難であったステレオによる情報提示が可能となり、ユーザに対してより高い臨場感、定位感のある音声を提供可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、又は、上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
また、本明細書において流れ図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部と、
ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように、前記スピーカアレーからの出力を制御する出力制御部と、を備える、情報処理装置。
(2)
前記出力制御部は、波面合成フィルタ処理を行い、前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する、前記(1)に記載の情報処理装置。
(3)
前記音源位置決定部は、ユーザの聴取位置を算出して前記聴取位置に基づいて前記仮想音源の位置を決定し、
前記出力制御部は、前記位置に前記仮想音源が定位されるように前記スピーカアレーからの出力を制御する、前記(1)又は(2)に記載の情報処理装置。
(4)
前記音源位置決定部は、前記ディスプレイに備えられ、ユーザのタッチ操作を検出するタッチセンサにより検出されたタッチ操作位置に基づいて前記聴取位置を算出する、前記(3)に記載の情報処理装置。
(5)
ユーザの頭部の位置を検出する頭部位置検出部をさらに備え、
前記音源位置決定部は、ユーザによる所定の入力操作が検出されたときに前記頭部位置検出部によって検出された前記ユーザの頭部の位置に基づいて前記仮想音源の位置を決定する、前記(1)~(4)のいずれか1項に記載の情報処理装置。
(6)
前記音源位置決定部は、前記ディスプレイに備えられてユーザのタッチ操作を検出するタッチセンサによってユーザのタッチ操作が検出されたときの、前記頭部位置検出部によって検出された前記ユーザの頭部の位置に基づいて前記仮想音源の位置を決定する、前記(5)に記載の情報処理装置。
(7)
前記出力制御部は、複数の仮想音源を出力する、前記(1)~(6)のいずれか1項に記載の情報処理装置。
(8)
前記出力制御部は、複数の前記視覚情報のそれぞれに応じて異なる音声情報を出力する複数の前記仮想音源が生成されるように、前記スピーカアレーからの出力を制御する、前記(1)~(7)のいずれか1項に記載の情報処理装置。
(9)
前記出力制御部は、前記仮想音源がユーザの右耳の位置又は左耳の位置の少なくともいずれかに定位するように、前記スピーカアレーからの出力を制御する、前記(8)に記載の情報処理装置。
(10)
前記出力制御部は、頭部伝達関数を用いたフィルタ処理を行う、前記(9)に記載の情報処理装置。
(11)
スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部と、
ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する出力制御部と、
を備える、情報処理システム。
(12)
プロセッサが、
スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定することと、
ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御することと、
を含む、情報処理方法。
(13)
コンピュータを、
スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部、
ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する出力制御部、として機能させるためのプログラム。
(1)
スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部と、
ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように、前記スピーカアレーからの出力を制御する出力制御部と、を備える、情報処理装置。
(2)
前記出力制御部は、波面合成フィルタ処理を行い、前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する、前記(1)に記載の情報処理装置。
(3)
前記音源位置決定部は、ユーザの聴取位置を算出して前記聴取位置に基づいて前記仮想音源の位置を決定し、
前記出力制御部は、前記位置に前記仮想音源が定位されるように前記スピーカアレーからの出力を制御する、前記(1)又は(2)に記載の情報処理装置。
(4)
前記音源位置決定部は、前記ディスプレイに備えられ、ユーザのタッチ操作を検出するタッチセンサにより検出されたタッチ操作位置に基づいて前記聴取位置を算出する、前記(3)に記載の情報処理装置。
(5)
ユーザの頭部の位置を検出する頭部位置検出部をさらに備え、
前記音源位置決定部は、ユーザによる所定の入力操作が検出されたときに前記頭部位置検出部によって検出された前記ユーザの頭部の位置に基づいて前記仮想音源の位置を決定する、前記(1)~(4)のいずれか1項に記載の情報処理装置。
(6)
前記音源位置決定部は、前記ディスプレイに備えられてユーザのタッチ操作を検出するタッチセンサによってユーザのタッチ操作が検出されたときの、前記頭部位置検出部によって検出された前記ユーザの頭部の位置に基づいて前記仮想音源の位置を決定する、前記(5)に記載の情報処理装置。
(7)
前記出力制御部は、複数の仮想音源を出力する、前記(1)~(6)のいずれか1項に記載の情報処理装置。
(8)
前記出力制御部は、複数の前記視覚情報のそれぞれに応じて異なる音声情報を出力する複数の前記仮想音源が生成されるように、前記スピーカアレーからの出力を制御する、前記(1)~(7)のいずれか1項に記載の情報処理装置。
(9)
前記出力制御部は、前記仮想音源がユーザの右耳の位置又は左耳の位置の少なくともいずれかに定位するように、前記スピーカアレーからの出力を制御する、前記(8)に記載の情報処理装置。
(10)
前記出力制御部は、頭部伝達関数を用いたフィルタ処理を行う、前記(9)に記載の情報処理装置。
(11)
スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部と、
ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する出力制御部と、
を備える、情報処理システム。
(12)
プロセッサが、
スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定することと、
ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御することと、
を含む、情報処理方法。
(13)
コンピュータを、
スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部、
ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する出力制御部、として機能させるためのプログラム。
1、2 情報処理システム
10、50 情報処理装置
20 スピーカアレー
30 ディスプレイ
40 ネットワーク
60 カメラ
110 操作情報取得部
120 音声情報取得部
130 制御部
131 音源位置決定部
133 出力制御部
135 表示制御部
140 記憶部
150 通信部
160 頭部位置検出部
10、50 情報処理装置
20 スピーカアレー
30 ディスプレイ
40 ネットワーク
60 カメラ
110 操作情報取得部
120 音声情報取得部
130 制御部
131 音源位置決定部
133 出力制御部
135 表示制御部
140 記憶部
150 通信部
160 頭部位置検出部
Claims (13)
- スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部と、
ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように、前記スピーカアレーからの出力を制御する出力制御部と、を備える、情報処理装置。 - 前記出力制御部は、波面合成フィルタ処理を行い、前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する、請求項1に記載の情報処理装置。
- 前記音源位置決定部は、ユーザの聴取位置を算出して前記聴取位置に基づいて前記仮想音源の位置を決定し、
前記出力制御部は、前記位置に前記仮想音源が定位されるように前記スピーカアレーからの出力を制御する、請求項1に記載の情報処理装置。 - 前記音源位置決定部は、前記ディスプレイに備えられ、ユーザのタッチ操作を検出するタッチセンサにより検出されたタッチ操作位置に基づいて前記聴取位置を算出する、請求項3に記載の情報処理装置。
- ユーザの頭部の位置を検出する頭部位置検出部をさらに備え、
前記音源位置決定部は、ユーザによる所定の入力操作が検出されたときに前記頭部位置検出部によって検出された前記ユーザの頭部の位置に基づいて前記仮想音源の位置を決定する、請求項1に記載の情報処理装置。 - 前記音源位置決定部は、前記ディスプレイに備えられてユーザのタッチ操作を検出するタッチセンサによってユーザのタッチ操作が検出されたときの、前記頭部位置検出部によって検出された前記ユーザの頭部の位置に基づいて前記仮想音源の位置を決定する、請求項5に記載の情報処理装置。
- 前記出力制御部は、複数の仮想音源を出力する、請求項1に記載の情報処理装置。
- 前記出力制御部は、複数の前記視覚情報のそれぞれに応じて異なる音声情報を出力する複数の前記仮想音源が生成されるように、前記スピーカアレーからの出力を制御する、請求項1に記載の情報処理装置。
- 前記出力制御部は、前記仮想音源がユーザの右耳の位置又は左耳の位置の少なくともいずれかに定位するように、前記スピーカアレーからの出力を制御する、請求項8に記載の情報処理装置。
- 前記出力制御部は、頭部伝達関数を用いたフィルタ処理を行う、請求項9に記載の情報処理装置。
- スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部と、
ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する出力制御部と、
を備える、情報処理システム。 - プロセッサが、
スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定することと、
ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御することと、
を含む、情報処理方法。 - コンピュータを、
スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部、
ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する出力制御部、として機能させるためのプログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201980049308.6A CN112470490B (zh) | 2018-07-30 | 2019-07-22 | 信息处理设备、信息处理系统、信息处理方法和程序 |
JP2020533435A JP7494732B2 (ja) | 2018-07-30 | 2019-07-22 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
KR1020207036756A KR102666792B1 (ko) | 2018-07-30 | 2019-07-22 | 정보 처리 장치, 정보 처리 시스템, 정보 처리 방법 및 프로그램 |
EP19843735.2A EP3833044A4 (en) | 2018-07-30 | 2019-07-22 | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING PROCESS, AND PROGRAM |
US17/262,167 US20210274304A1 (en) | 2018-07-30 | 2019-07-22 | Information processing apparatus, information processing system, information processing method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-142777 | 2018-07-30 | ||
JP2018142777 | 2018-07-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020026864A1 true WO2020026864A1 (ja) | 2020-02-06 |
Family
ID=69231718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/028576 WO2020026864A1 (ja) | 2018-07-30 | 2019-07-22 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210274304A1 (ja) |
EP (1) | EP3833044A4 (ja) |
JP (1) | JP7494732B2 (ja) |
KR (1) | KR102666792B1 (ja) |
CN (1) | CN112470490B (ja) |
WO (1) | WO2020026864A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115499738A (zh) * | 2022-09-21 | 2022-12-20 | 电子科技大学 | 具备安全装置的可编程参量阵扬声器 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007228336A (ja) * | 2006-02-24 | 2007-09-06 | Alpine Electronics Inc | 車載用オーディオ/ビデオ装置及びソース選択方法 |
WO2013105413A1 (ja) * | 2012-01-11 | 2013-07-18 | ソニー株式会社 | 音場制御装置、音場制御方法、プログラム、音場制御システム及びサーバ |
JP2014072707A (ja) * | 2012-09-28 | 2014-04-21 | Foster Electric Co Ltd | 音響再生装置 |
JP2015233284A (ja) * | 2015-06-10 | 2015-12-24 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2017011596A (ja) * | 2015-06-25 | 2017-01-12 | ヤマハ株式会社 | 制御方法 |
JP2017161448A (ja) | 2016-03-11 | 2017-09-14 | 株式会社インディ・アソシエイツ | 案内装置 |
WO2018008395A1 (ja) * | 2016-07-05 | 2018-01-11 | ソニー株式会社 | 音場形成装置および方法、並びにプログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4929685B2 (ja) * | 2005-11-15 | 2012-05-09 | ヤマハ株式会社 | 遠隔会議装置 |
JP2007274061A (ja) * | 2006-03-30 | 2007-10-18 | Yamaha Corp | 音像定位装置およびavシステム |
JP4449998B2 (ja) * | 2007-03-12 | 2010-04-14 | ヤマハ株式会社 | アレイスピーカ装置 |
US8351589B2 (en) * | 2009-06-16 | 2013-01-08 | Microsoft Corporation | Spatial audio for audio conferencing |
JP4810621B1 (ja) * | 2010-09-07 | 2011-11-09 | シャープ株式会社 | 音声信号変換装置、方法、プログラム、及び記録媒体 |
JP2014093697A (ja) * | 2012-11-05 | 2014-05-19 | Yamaha Corp | 音響再生システム |
KR102127640B1 (ko) * | 2013-03-28 | 2020-06-30 | 삼성전자주식회사 | 휴대 단말 및 보청기와 휴대 단말에서 음원의 위치를 제공하는 방법 |
JP6201431B2 (ja) * | 2013-05-30 | 2017-09-27 | ヤマハ株式会社 | 端末装置のプログラム及びオーディオ信号処理システム |
WO2014208387A1 (ja) * | 2013-06-27 | 2014-12-31 | シャープ株式会社 | 音声信号処理装置 |
US9408008B2 (en) | 2014-02-28 | 2016-08-02 | Sonos, Inc. | Playback zone representations |
JP2016019086A (ja) * | 2014-07-07 | 2016-02-01 | ヤマハ株式会社 | ビーム方向設定装置およびビーム方向設定システム |
US9843881B1 (en) * | 2015-11-30 | 2017-12-12 | Amazon Technologies, Inc. | Speaker array behind a display screen |
WO2017211447A1 (en) * | 2016-06-06 | 2017-12-14 | Valenzuela Holding Gmbh | Method for reproducing sound signals at a first location for a first participant within a conference with at least two further participants at at least one further location |
JP2018005606A (ja) | 2016-07-04 | 2018-01-11 | 三菱電機株式会社 | コンテンツ再生装置、コンテンツ再生システムおよびコンテンツ再生プログラム |
US10375498B2 (en) * | 2016-11-16 | 2019-08-06 | Dts, Inc. | Graphical user interface for calibrating a surround sound system |
JP2019193108A (ja) | 2018-04-25 | 2019-10-31 | パイオニア株式会社 | 音響装置 |
US10976989B2 (en) * | 2018-09-26 | 2021-04-13 | Apple Inc. | Spatial management of audio |
-
2019
- 2019-07-22 US US17/262,167 patent/US20210274304A1/en not_active Abandoned
- 2019-07-22 JP JP2020533435A patent/JP7494732B2/ja active Active
- 2019-07-22 KR KR1020207036756A patent/KR102666792B1/ko active IP Right Grant
- 2019-07-22 WO PCT/JP2019/028576 patent/WO2020026864A1/ja unknown
- 2019-07-22 CN CN201980049308.6A patent/CN112470490B/zh active Active
- 2019-07-22 EP EP19843735.2A patent/EP3833044A4/en not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007228336A (ja) * | 2006-02-24 | 2007-09-06 | Alpine Electronics Inc | 車載用オーディオ/ビデオ装置及びソース選択方法 |
WO2013105413A1 (ja) * | 2012-01-11 | 2013-07-18 | ソニー株式会社 | 音場制御装置、音場制御方法、プログラム、音場制御システム及びサーバ |
JP2014072707A (ja) * | 2012-09-28 | 2014-04-21 | Foster Electric Co Ltd | 音響再生装置 |
JP2015233284A (ja) * | 2015-06-10 | 2015-12-24 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2017011596A (ja) * | 2015-06-25 | 2017-01-12 | ヤマハ株式会社 | 制御方法 |
JP2017161448A (ja) | 2016-03-11 | 2017-09-14 | 株式会社インディ・アソシエイツ | 案内装置 |
WO2018008395A1 (ja) * | 2016-07-05 | 2018-01-11 | ソニー株式会社 | 音場形成装置および方法、並びにプログラム |
Non-Patent Citations (2)
Title |
---|
S. SPORS ET AL.: "Physical and Perceptual Properties of Focused Sources in Wave Field Synthesis", AUDIO ENGINEERING SOCIETY CONVENTION PAPER, 127TH CONVENTION, 9 October 2009 (2009-10-09) |
See also references of EP3833044A4 |
Also Published As
Publication number | Publication date |
---|---|
KR102666792B1 (ko) | 2024-05-20 |
JP7494732B2 (ja) | 2024-06-04 |
KR20210038431A (ko) | 2021-04-07 |
CN112470490B (zh) | 2023-04-11 |
EP3833044A4 (en) | 2021-10-13 |
JPWO2020026864A1 (ja) | 2021-08-12 |
CN112470490A (zh) | 2021-03-09 |
US20210274304A1 (en) | 2021-09-02 |
EP3833044A1 (en) | 2021-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10970037B2 (en) | System and method for differentially locating and modifying audio sources | |
JP6195843B2 (ja) | ジェスチャ制御音声ユーザインタフェース | |
EP2737727B1 (en) | Method and apparatus for processing audio signals | |
CN105325014A (zh) | 基于用户跟踪的声场调节 | |
US10542368B2 (en) | Audio content modification for playback audio | |
CN106664484A (zh) | 单声道或多声道音频控制接口 | |
KR101916380B1 (ko) | 영상 정보에 기반하여 가상 스피커를 재생하기 위한 음원 재생 장치 | |
WO2020026864A1 (ja) | 情報処理装置、情報処理システム、情報処理方法及びプログラム | |
WO2022170716A1 (zh) | 音频处理方法、装置、设备、介质及程序产品 | |
US11284194B2 (en) | Techniques for generating spatial sound via head-mounted external facing speakers | |
CN103729121A (zh) | 图像显示设备及其操作方法 | |
TWI847220B (zh) | 可動態調整目標聆聽點並消除環境物件干擾的音響系統 | |
JPWO2018066384A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP5929455B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
US20230421983A1 (en) | Systems and methods for orientation-responsive audio enhancement | |
US20230421984A1 (en) | Systems and methods for dynamic spatial separation of sound objects | |
JP5448611B2 (ja) | 表示制御装置及び制御方法 | |
JP7173530B2 (ja) | ナビゲーション装置およびナビゲーション方法 | |
WO2023250171A1 (en) | Systems and methods for orientation-responsive audio enhancement | |
JP2007318188A (ja) | 音像提示方法および音像提示装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19843735 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020533435 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2019843735 Country of ref document: EP Effective date: 20210301 |